正态分布 | s-ai-unix's Blog

引言：从掷骰子到高尔顿板想象一下，你站在 19 世纪的英国街头，看着弗朗西斯·高尔顿展示他的发明——高尔顿板。成千上万的小珠子从上方落下，穿过钉子的阵列，最终在底部堆积成一条平滑的曲线。这条曲线就是我们熟知的钟形曲线，也就是正态分布的直观体现。高尔顿站在那里，向观众解释一个深刻的真理：看似混乱的随机现象背后，隐藏着惊人的秩序。但在理解正态分布之前，我们需要回到更基础的问题。当你掷一枚硬币，正面朝上的概率是多少？如果你掷十次，恰好五次正面的概率又是多少？这些看似简单的问题，引导我们进入概率论的核心领域——概率分布。概率分布是描述随机变量取值规律的数学工具。就像地图告诉我们哪里有山、哪里有河一样，概率分布告诉我们一个随机变量取不同值的可能性大小。在本文中，我们将踏上一段穿越时间和数学的旅程，探索概率统计中最重要的几个分布：二项分布、泊松分布、正态分布和指数分布。这不是一本枯燥的教科书，而是一次探索。我们将从简单的硬币投掷开始，逐渐走向描述稀有事件的泊松分布，最终抵达连接万物的正态分布。准备好了吗？让我们开始这段旅程。二项分布：从伯努利到组合数学历史的种子二项分布的起源可以追溯到 17 世纪的欧洲，那是一个赌博和数学碰撞的时代。当时，一位名叫布莱兹·帕斯卡的年轻法国数学家收到了朋友的来信。朋友是一位赌博爱好者，遇到了一个困扰他的问题：两个玩家在赌博中断后，应该如何公平地分配赌注？这个问题现在被称为"点数问题"，它点燃了概率论的火花。帕斯卡与另一位数学天才皮埃尔·德·费马通信讨论，他们的信件往来奠定了现代概率论的基础。但二项分布的真正数学形式要归功于雅各布·伯努利（Jacob Bernoulli）。这位瑞士数学家在他去世后于 1713 年出版的巨著《猜度术》（Ars Conjectandi）中，系统性地研究了独立重复试验的问题。伯努利提出的问题很简单：如果你重复做 $n$ 次独立的伯努利试验（每次只有成功或失败两种结果），恰好得到 $k$ 次成功的概率是多少？数学定义与推导让我们从最基本的概念开始。一个伯努利试验是指只有两个可能结果的随机试验：成功（用 $1$ 表示）或失败（用 $0$ 表示）。假设成功的概率是 $p$，失败的概率就是 $1-p$。现在，我们重复进行 $n$ 次独立的伯努利试验，设 $X$ 为成功的次数。我们要求的是 $P(X = k)$，即恰好 $k$ 次成功的概率。为了理解这个概率，让我们考虑一个具体的例子：$n = 3$ 次试验，恰好 $k = 2$ 次成功。所有可能的结果有：成功、成功、失败（SSF）成功、失败、成功（SFS）失败、成功、成功（FSS）每种结果的概率是相同的：$p \cdot p \cdot (1-p) = p^2(1-p)$。因为有 $3$ 种不同的排列方式，所以总概率是 $3 \cdot p^2(1-p)$。这个数字 $3$ 是什么？它是从 $3$ 个位置中选择 $2$ 个位置放成功的组合数。一般地，从 $n$ 个位置中选择 $k$ 个位置放成功的组合数是： ...