概率论 | s-ai-unix's Blog

数理统计重要定理系列：大数定律与中心极限定理的深度解读

引言：当随机遇见确定在赌场里，单个赌徒的输赢完全是随机的——有人一夜暴富，有人倾家荡产。但如果你站在赌场老板的视角，看到的是完全不同的景象：无论今天哪个赌徒赢了多少钱，长期来看，赌场总是稳赚不赔。这不是运气，而是数学。这种"随机中的确定性"正是概率论研究的核心。而在这座数学大厦的基石上，矗立着两座丰碑：大数定律（Law of Large Numbers）和中心极限定理（Central Limit Theorem）。它们一个告诉我们"均值会收敛到哪里"，一个告诉我们"收敛的速度和分布形态"。这两个定理不仅是统计学的理论基础，更是现代科学的支柱。从民意调查到机器学习，从金融风控到量子物理，它们无处不在。本文将带你深入理解这两个定理的数学本质、历史脉络和实际应用。历史发展：从赌徒问题到现代概率论大数定律的历史演进雅各布·伯努利与《猜度术》（1713）大数定律的故事始于瑞士巴塞尔的伯努利家族。1713年，雅各布·伯努利（Jacob Bernoulli）的巨著《猜度术》（Ars Conjectandi）在他去世后出版。在这部著作中，伯努利证明了弱大数定律的第一个版本：如果我们反复抛一枚公平的硬币，正面出现的频率会收敛到 $1/2$。伯努利的证明是革命性的。在那个时代，人们虽然直觉上相信"大样本能消除随机性"，但没有人能严格证明这一点。伯努利用二项分布和复杂的级数运算，首次给出了数学上的严格证明。他在书中兴奋地写道：“即使最愚蠢的人，凭借某种本能，也清楚地知道，观测次数越多，观察结果与真实比率相符的可能性就越大。” 泊松的推广（1837） 1837年，法国数学家西莫恩·德尼·泊松（Siméon Denis Poisson）将大数定律推广到了更一般的情形。他证明了，即使试验不是相同分布的，只要满足一定条件，样本均值仍然会收敛到期望值的加权平均。这就是泊松大数定律。切比雪夫与概率论的严格化（1867） 1867年，俄国数学家帕夫努季·切比雪夫（Pafnuty Chebyshev）发表了具有里程碑意义的论文。他提出了著名的切比雪夫不等式： $$P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}$$ 这个不等式虽然简单，却极其强大。它不需要知道随机变量的具体分布，就能给出偏离均值的概率上界。利用这个不等式，切比雪夫给出了大数定律的一个简洁证明，将概率论推向了新的严格化高度。波莱尔的强大数定律（1909） 1909年，法国数学家埃米尔·波莱尔（Émile Borel）证明了强大数定律：硬币正面频率不仅依概率收敛到 $1/2$，而且几乎必然（almost surely）收敛。这意味着，不收敛的情况发生的概率为零。波莱尔的工作引入了测度论的语言，为现代概率论奠定了基础。柯尔莫哥洛夫的公理化（1933） 1933年，俄国数学家安德雷·柯尔莫哥洛夫（Andrey Kolmogorov）发表了《概率论基础》，将概率论严格建立在测度论的基础上。在这套体系中，大数定律有了最一般的表述形式，适用于各种随机变量序列。中心极限定理的探索之路棣莫弗与拉普拉斯的发现（1733-1812） 1733年，法国数学家亚伯拉罕·棣莫弗（Abraham de Moivre）在研究二项分布时发现了惊人的现象：当试验次数很大时，二项分布的形状会越来越像一个"钟形曲线"。具体来说，如果 $X \sim \text{Binomial}(n, p)$，那么当 $n \to \infty$ 时： $$\frac{X - np}{\sqrt{np(1-p)}} \xrightarrow{d} N(0, 1)$$ 1812年，皮埃尔-西蒙·拉普拉斯（Pierre-Simon Laplace）在《分析概率论》中系统发展了这一理论，将其推广到了更一般的情形。这就是著名的棣莫弗-拉普拉斯定理。李雅普诺夫的关键突破（1901） 1901年，俄国数学家亚历山大·李雅普诺夫（Alexander Lyapunov）引入了特征函数方法，证明了更一般的中心极限定理。他的方法优雅而强大，成为证明CLT的标准工具。特征函数 $\varphi_X(t) = E[e^{itX}]$ 完全刻画了随机变量的分布。李雅普诺夫证明，独立随机变量之和的特征函数会收敛到正态分布的特征函数，从而证明了CLT。 ...

概率论与数理统计：机器学习的概率基石

引言：在不确定的世界中寻找确定性想象一下，你站在一个赌场的轮盘赌桌前。小球在旋转的轮盘上跳跃，最终停在一个数字上。你知道这个结果是完全随机的吗？还是说，如果你能足够精确地测量小球的初始位置、速度、轮盘的摩擦系数等所有参数，你就能预测出最终的结果？这个思想实验引发了人类对概率本质的深刻思考。17世纪，法国数学家帕斯卡和费马在通信中讨论赌博问题，标志着概率论作为一门数学学科的诞生。随后的几个世纪里，伯努利、拉普拉斯、高斯等数学大师们为概率论的发展做出了巨大贡献。到了20世纪初，俄罗斯数学家柯尔莫哥洛夫给出了概率论的严格公理化定义，将概率论建立在坚实的数学基础之上。几乎同时，贝叶斯的理论开始重新受到重视，为我们提供了一种全新的思考不确定性的方式。那么，概率论和机器学习有什么关系呢？假设你是一名医生，你需要根据患者的症状来诊断疾病。你有体温、血压、血常规等数据，以及过去的诊断记录。你会怎么做？你会综合考虑所有因素，得出一个诊断结论。这个过程本质上就是一个概率推断过程——根据观测到的数据（症状），推断最可能的原因（疾病）。机器学习也是如此。给定一堆数据，模型需要学习数据背后的规律，然后对新的数据进行预测。在这个过程中，不确定性无处不在：数据可能有噪声，模型可能不完美，预测结果也可能有偏差。概率论为我们提供了处理这些不确定性的数学工具。在这篇文章中，我们将系统地介绍概率论与数理统计在机器学习中的应用。从基础的概率公理开始，逐步深入到极限定理、统计推断、信息论基础，最后探讨这些理论如何在现代机器学习和深度学习算法中发挥作用。第一章：概率基础 1.1 概率的公理化定义 1933年，柯尔莫哥洛夫建立了现代概率论的基础。他提出了三条基本公理：公理1（非负性）：对于任何事件 $A$，都有 $P(A) \geq 0$。公理2（规范性）：样本空间 $\Omega$ 的概率为 $1$，即 $P(\Omega) = 1$。公理3（可加性）：对于任意可数个互斥事件 $A_1, A_2, \ldots$，有 $$ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) $$ 这三条公理看起来很简单，但它们是整个概率论大厦的基石。从这些公理出发，我们可以推导出概率论的所有重要结果。例如，对于两个事件 $A$ 和 $B$，我们可以推导出并集的概率公式： $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ 这个公式的直观理解是：将 $A$ 的概率和 $B$ 的概率相加时，$A$ 和 $B$ 的交集部分被计算了两次，所以需要减去一次。 1.2 条件概率和贝叶斯公式条件概率是概率论中最重要的概念之一。直观地说，条件概率 $P(A \mid B)$ 表示"在事件 $B$ 已经发生的条件下，事件 $A$ 发生的概率"。 ...

蒙特卡罗算法：从原子弹到人工智能的随机之旅

引言：掷骰子解方程想象一下，有人告诉你：要计算一个复杂的定积分，不需要微积分，只需要掷足够多的骰子。你大概会觉得这个人疯了。然而，这正是二十世纪最伟大的计算方法之一——蒙特卡罗方法（Monte Carlo Method）的核心思想。当我们面对那些传统方法难以处理的高维积分、复杂系统的模拟或者无法解析求解的概率问题时，蒙特卡罗方法给出了一个看似简单却深刻的答案：用随机性来求解确定性问题。这种方法已经深入到科学的方方面面——从核物理到金融工程，从生物进化到人工智能，无处不见它的身影。让我们从一个最经典的例子开始：如何用"扔针"来计算 $\pi$ 的值。第一章：蒙特卡罗的诞生——曼哈顿计划的秘密代号 1.1 摩纳哥的赌场与原子弹的秘密 “蒙特卡罗"这个名字，源自摩纳哥著名的赌城。1940 年代，在洛斯阿拉莫斯实验室，一群顶尖的科学家正在紧锣密鼓地研制世界上第一颗原子弹。在这个属于"曼哈顿计划"的绝密基地里，数学家约翰·冯·诺伊曼（John von Neumann）和斯坦尼斯拉夫·乌拉姆（Stanislaw Ulam）正在研究核裂变中的中子扩散问题。这个问题极其复杂：中子在原子弹内部的行为是随机的，它们可能被原子核捕获，可能引发新的裂变，也可能逃逸出去。传统的方法根本无法处理这种复杂的随机过程。乌拉姆后来回忆起他是如何产生这个想法的： “当时我正因病康复，在玩纸牌接龙。我开始思考：如果把牌随机排列一百次，大概有多少次能成功接龙？相比于把所有可能的情况都计算出来，直接实验似乎更容易…” 这个看似简单的想法，孕育了一个全新的计算方法。由于这种方法涉及随机性，而蒙特卡罗又以赌场闻名，冯·诺伊曼就给它起了"蒙特卡罗"这个代号——既是保密的需要，也恰如其分地描述了方法的本质。 1.2 早期的思想萌芽虽然蒙特卡罗方法在1940年代才正式命名，但用随机性来解决确定性问题的思想古已有之。 1777年，布丰投针实验法国数学家乔治-路易·勒克莱尔，布丰伯爵（Georges-Louis Leclerc, Comte de Buffon）提出了第一个著名的随机实验：在一张画满平行线的纸（线间距为 $d$）上随机投掷一根长度为 $l$ 的针（$l < d$），针与任意一条平行线相交的概率是多少？布丰证明了，这个概率是： $$ P = \frac{2l}{\pi d} $$ 这给出了一个计算 $\pi$ 的方法：如果我们投掷针 $N$ 次，其中 $n$ 次与线相交，那么： $$ \frac{n}{N} \approx \frac{2l}{\pi d} \implies \pi \approx \frac{2lN}{nd} $$ 这个实验被多次验证：1850年，沃尔夫在苏黎世投掷了5000次，得到 $\pi \approx 3.1596$；1901年，拉泽里尼投掷3408次，甚至得到了精确到小数点后6位的 $\pi$ 值（虽然有人怀疑他可能"选择性记录"了结果）。 19世纪末的统计学革命随着统计学的发展，卡尔·皮尔逊（Karl Pearson）等人开始使用随机抽样来解决统计问题。但这些方法仍然主要用于验证已知的结果，而不是作为通用的计算工具。第二章：数学基础——为什么随机性有效？要理解蒙特卡罗方法，我们需要先理解它的数学基础。这一切都建立在大数定律和中心极限定理这两大概率论支柱之上。 ...

正态分布：从赌桌到宇宙的完美曲线

引言：钟声隐隐如果你走进一个 crowded 的教室，测量每个人的身高；或者在同一条件下反复测量一个物理量；又或者在工厂里统计成千上万件产品的尺寸——你会发现，这些数据总是呈现出一种奇特的规律：大部分数值聚集在中间，越往两端越少。画出分布图，你会看到一条优雅的曲线——中间隆起如钟，两侧缓缓下降，渐近于零却永不触及。这就是正态分布（Normal Distribution），也叫高斯分布（Gaussian Distribution）或钟形曲线（Bell Curve）。它是概率论中最重要、最自然的分布。从气体分子的运动到股票价格的波动，从人类的身高到测量的误差，正态分布无处不在。但你是否想过：为什么大自然偏爱这种分布？这条曲线是如何被人类发现的？它背后隐藏着怎样的数学之美？让我们穿越回17、18世纪，去看看这条曲线是如何在历史的迷雾中逐渐浮现的。第一章：前史——测量与误差的困惑伽利略的洞见早在1632年，伽利略在他的《关于两大世界体系的对话》中就观察到了一个有趣的现象：当你反复测量某个物理量时，误差总是呈现出一种规律——小的误差比大的误差更常见，正误差和负误差出现的频率大致相等。这是人类对"误差分布"最早的直觉认知之一。伽利略并没有给出数学公式，但他敏锐地察觉到：观测误差并非杂乱无章，而是遵循某种规律。早期天文学家的困扰 17、18世纪的天文学家面临着一个实际问题：同一颗行星或恒星，不同观测者得到的数据总有微小差异。如何从这些"有误差"的观测值中推断出真实值？当时流行的方法是取平均值，但没有人能从理论上解释为什么这样做是合理的。一个困扰着那个时代科学家的问题是：是否存在一种"最优"的估计方法？这些朴素的问题和观察，为正态分布的发现埋下了种子。第二章：意外发现——棣莫弗与二项分布的极限正态分布的第一次正式登场，来自一个看似毫不相关的问题：赌博。亚伯拉罕·棣莫弗亚伯拉罕·棣莫弗（Abraham de Moivre, 1667-1754）是一位法国-英国数学家。他年轻时因宗教迫害流亡英国，在伦敦靠当家庭教师和赌博顾问维生。 1733年，棣莫弗在研究一个具体问题时做出了一个重大发现：当伯努利试验的次数 $n$ 很大时，二项分布可以用一条光滑的曲线来近似。这个发现最初只是他一本小册子中的一段内容，后来被收录进1738年出版的《机遇原理》（The Doctrine of Chances）第二版中。从二项分布到正态曲线考虑抛硬币的问题：抛 $n$ 次硬币，出现 $k$ 次正面的概率由二项分布给出： $$P(X = k) = \binom{n}{k}p^k(1-p)^{n-k}$$ 当 $n$ 很大时，直接计算这个公式非常困难——阶乘会变得极其巨大。棣莫弗想知道：能否找到一个近似公式？通过巧妙的数学技巧（斯特林公式的早期版本），棣莫弗发现：当 $n \to \infty$ 时，标准化的二项分布收敛到： $$f(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2}$$ 这就是标准正态分布的概率密度函数！图1：棣莫弗-拉普拉斯极限定理。当二项分布的试验次数 $n$ 增大时，标准化后的分布逐渐逼近标准正态分布（红色曲线）。历史的遗憾有趣的是，棣莫弗并不知道自己发现了一个"普适"的分布。他只是把它当作计算二项分布的一个实用技巧。他的工作也没有引起当时学术界的广泛关注。直到多年后，这条曲线才被拉普拉斯和高斯重新发掘，并赋予其更深刻的意义。 flowchart LR A["1632伽利略观测误差规律"] --> B["1733棣莫弗二项分布极限"] B --> C["1809高斯误差理论"] C --> D["1810拉普拉斯中心极限定理"] D --> E["1860麦克斯韦对称性推导"] style A fill:#FF9500,color:#fff,stroke-width:2px style B fill:#FF9500,color:#fff,stroke-width:2px style C fill:#007AFF,color:#fff,stroke-width:3px style D fill:#34C759,color:#fff,stroke-width:2px style E fill:#34C759,color:#fff,stroke-width:2px 第三章：高斯的革命——误差理论与最小二乘法正态分布真正成为概率论的核心，要归功于卡尔·弗里德里希·高斯（Carl Friedrich Gauss, 1777-1855）。 ...

贝叶斯公式：从牧师遗作到人工智能基石

引言：从"上帝的视角"到"凡人的推断" 想象你是一名医生，患者刚刚做完某种疾病的筛查测试。测试结果是阳性。那么，这位患者真正患病的概率是多少？如果你回答"既然测试准确率是95%，那么患病的概率就是95%"，那你和大多数人的直觉一样——但也一样错了。正确答案可能让你吃惊：哪怕测试准确率达到95%，如果这种疾病在人群中发病率只有1%，那么一个阳性结果意味着患者真正患病的概率可能只有16%左右。这个反直觉的结果，正是贝叶斯公式的核心思想：我们的信念应该随着新证据的到来而更新，但更新的方式不是简单的替换，而是要结合我们已有的知识（先验信息）。贝叶斯公式不仅是一个数学定理，更是一种思维方式。它告诉我们：在信息不完整的世界里，我们如何从有限的数据中学习，如何科学地调整我们的信念。从18世纪的一位英国牧师兼数学家，到21世纪的人工智能，贝叶斯的思想经历了一段跌宕起伏的旅程。 timeline title 贝叶斯公式发展历程 section 18世纪 1763年 : 贝叶斯遗作发表 1812年 : 拉普拉斯系统阐述 section 19-20世纪 20世纪初 : 频率学派占据主导 20世纪中叶 : 萨瓦奇、杰弗里斯复兴贝叶斯思想 1980年代 : MCMC方法实用化 section 21世纪 21世纪 : 贝叶斯方法成为AI核心第一章：贝叶斯牧师的那篇遗作 1.1 托马斯·贝叶斯其人托马斯·贝叶斯（Thomas Bayes，1701-1761）是18世纪英国的一位长老会牧师，同时也是一位业余数学家。他出生于英格兰的一个显赫家庭，父亲是非国教牧师乔舒亚·贝叶斯。托马斯在爱丁堡大学学习神学和逻辑学，后来接任父亲的教职，在坦布里奇韦尔斯（Tunbridge Wells）担任牧师。尽管贝叶斯在世时并未在数学领域发表太多作品，但他对概率论有着深刻的思考。他最著名的著作《机会问题的求解方法》（An Essay towards solving a Problem in the Doctrine of Chances）在他去世后于1763年发表在《皇家学会哲学汇刊》上。这篇论文由他的朋友理查德·普莱斯（Richard Price）整理并提交。 1.2 问题的提出：从"已知原因求结果"到"已知结果求原因" 贝叶斯关注的是一个根本性的哲学和数学问题：如果我们观察到某个结果，如何推断导致这个结果的原因？在贝叶斯之前，概率论主要处理"正向概率"问题：如果我们知道某种原因，可以计算它产生特定结果的概率。例如，如果一枚硬币是均匀的，那么抛掷得到正面的概率是50%。但现实中我们经常面临"逆向概率"问题：我们观察到了结果，想要推断原因。例如，我们观察到病人有某种症状，想推断他患某种疾病的概率；或者我们观察到数据，想推断产生这些数据的参数。贝叶斯的天才之处在于，他用条件概率建立了因果推断的数学框架。 ...