最大熵原理:高斯分布的自然选择

数理统计重要定理系列:最大熵原理与高斯分布的自然选择

引言 在统计学的世界里,有一个问题始终萦绕在研究者心头:当我们对某个随机现象知之甚少时,应该如何做出最合理的假设?如果只知道一些基本的约束条件——比如均值和方差——我们应该选择什么样的概率分布来建模? 1850年代,德国数学家卡尔·弗里德里希·高斯在研究误差理论时发现,如果假设测量误差的均值为零且方差有限,那么使似然函数最大化的分布恰好是正态分布。然而,高斯并没有回答一个更根本的问题:为什么误差应该服从正态分布? 一个多世纪后,美国物理学家埃德温·杰恩斯(Edwin T. Jaynes)给出了深刻的答案。1957年,杰恩斯提出了最大熵原理(Principle of Maximum Entropy):在满足所有已知约束的条件下,我们应该选择使熵最大化的概率分布。这个选择是"最无偏"的,因为它假设了最少的信息——除了已知的约束,不做任何额外的假设。 杰恩斯证明了一个惊人的结果:在已知均值和方差的条件下,使熵最大化的分布正是高斯分布(正态分布)。这一结果不仅解释了为什么高斯分布在自然界中如此普遍,更揭示了一个深刻的数学真理:高斯分布是"最随机"的分布——在已知有限的约束下,它保留了最大的不确定性。 本文将深入探讨最大熵原理的数学基础,严格证明高斯分布在给定均值和方差条件下的最大熵性质,并揭示这一结果在统计物理、信息论和机器学习中的广泛应用。 第一章:熵的定义与直观理解 1.1 香农熵的诞生 1948年,克劳德·香农发表了《通信的数学理论》,奠定了信息论的基础。在这篇论文中,香农提出了熵(Entropy)的概念,用于度量一个随机变量的"不确定性"或"信息量"。 对于一个离散随机变量 $X$,其概率分布为 $P(X = x_i) = p_i$,香农熵定义为: $$ H(X) = -\sum_{i} p_i \log p_i = \sum_{i} p_i \log \frac{1}{p_i} $$ 对于连续随机变量,微分熵(Differential Entropy)定义为: $$ H(X) = -\int_{-\infty}^{\infty} p(x) \log p(x) \, dx $$ 熵的直观含义是:描述随机变量 $X$ 所需的平均信息量。熵越大,不确定性越大;熵越小,不确定性越小。 1.2 熵的基本性质 非负性:对于离散分布,$H(X) \geq 0$。当且仅当某个 $p_i = 1$(其他为0)时,$H(X) = 0$。 最大值:对于具有 $n$ 个可能取值的离散分布,熵的最大值为 $\log n$,在均匀分布 $p_i = 1/n$ 时达到。 可加性:对于独立的随机变量,$H(X, Y) = H(X) + H(Y)$。 ...

February 3, 2026 · 4 min · 642 words · s-ai-unix