统计物理 | s-ai-unix's Blog

引言在统计学的世界里，有一个问题始终萦绕在研究者心头：当我们对某个随机现象知之甚少时，应该如何做出最合理的假设？如果只知道一些基本的约束条件——比如均值和方差——我们应该选择什么样的概率分布来建模？ 1850年代，德国数学家卡尔·弗里德里希·高斯在研究误差理论时发现，如果假设测量误差的均值为零且方差有限，那么使似然函数最大化的分布恰好是正态分布。然而，高斯并没有回答一个更根本的问题：为什么误差应该服从正态分布？一个多世纪后，美国物理学家埃德温·杰恩斯（Edwin T. Jaynes）给出了深刻的答案。1957年，杰恩斯提出了最大熵原理（Principle of Maximum Entropy）：在满足所有已知约束的条件下，我们应该选择使熵最大化的概率分布。这个选择是"最无偏"的，因为它假设了最少的信息——除了已知的约束，不做任何额外的假设。杰恩斯证明了一个惊人的结果：在已知均值和方差的条件下，使熵最大化的分布正是高斯分布（正态分布）。这一结果不仅解释了为什么高斯分布在自然界中如此普遍，更揭示了一个深刻的数学真理：高斯分布是"最随机"的分布——在已知有限的约束下，它保留了最大的不确定性。本文将深入探讨最大熵原理的数学基础，严格证明高斯分布在给定均值和方差条件下的最大熵性质，并揭示这一结果在统计物理、信息论和机器学习中的广泛应用。第一章：熵的定义与直观理解 1.1 香农熵的诞生 1948年，克劳德·香农发表了《通信的数学理论》，奠定了信息论的基础。在这篇论文中，香农提出了熵（Entropy）的概念，用于度量一个随机变量的"不确定性"或"信息量"。对于一个离散随机变量 $X$，其概率分布为 $P(X = x_i) = p_i$，香农熵定义为： $$ H(X) = -\sum_{i} p_i \log p_i = \sum_{i} p_i \log \frac{1}{p_i} $$ 对于连续随机变量，微分熵（Differential Entropy）定义为： $$ H(X) = -\int_{-\infty}^{\infty} p(x) \log p(x) \, dx $$ 熵的直观含义是：描述随机变量 $X$ 所需的平均信息量。熵越大，不确定性越大；熵越小，不确定性越小。 1.2 熵的基本性质非负性：对于离散分布，$H(X) \geq 0$。当且仅当某个 $p_i = 1$（其他为0）时，$H(X) = 0$。最大值：对于具有 $n$ 个可能取值的离散分布，熵的最大值为 $\log n$，在均匀分布 $p_i = 1/n$ 时达到。可加性：对于独立的随机变量，$H(X, Y) = H(X) + H(Y)$。 ...