条件期望 | s-ai-unix's Blog

引言：预测的艺术想象你是一位气象学家，面对一个看似简单却极具挑战性的问题：明天的气温会是多少？你拥有大量的历史数据——过去几年的气温记录、湿度、气压、风速等。但仅仅知道历史的平均气温是远远不够的。如果今天是炎热潮湿的夏日午后，那么明天的气温很可能与寒冷冬日的平均气温相差甚远。这时，你需要一种更精细的预测方法：在给定今天天气状况的条件下，预测明天的气温。这就是条件期望（Conditional Expectation）的核心思想——不是做无条件的平均，而是在已知某些信息的条件下，做出最优的预测。条件期望是现代概率论和统计学的基石概念之一。从卡尔·皮尔逊（Karl Pearson）在19世纪末对回归分析的开拓性工作，到柯尔莫哥洛夫（Andrey Kolmogorov）在1933年建立概率论的公理化体系，再到今天深度学习中变分自编码器（VAE）的潜在空间建模，条件期望始终扮演着核心角色。本文将深入浅出地介绍条件期望的完整理论体系：从严格的数学定义出发，推导其关键性质，展示其在统计推断中的威力，最终揭示它如何在现代机器学习和深度学习中被广泛应用。第一章：条件期望的直观理解 1.1 从条件概率到条件期望让我们从更简单的概念——条件概率开始。假设你正在玩一副标准的52张扑克牌。抽到一张红桃的概率是多少？ $$P(\text{红桃}) = \frac{13}{52} = \frac{1}{4}$$ 现在，假设有人告诉你这张牌是红色的（红桃或方块）。在这个条件下，抽到红桃的概率变为： $$P(\text{红桃} \mid \text{红色}) = \frac{13}{26} = \frac{1}{2}$$ 条件概率回答了"某事件发生的概率是多少"的问题。而条件期望则进一步回答：“在某条件下，某个随机变量的期望值是多少？” 例子：假设 $X$ 表示掷一个公平骰子的结果，$Y$ 表示结果的奇偶性（$Y=1$ 表示奇数，$Y=0$ 表示偶数）。那么：无条件期望：$E[X] = \frac{1+2+3+4+5+6}{6} = 3.5$ 条件期望（已知是奇数）：$E[X \mid Y=1] = \frac{1+3+5}{3} = 3$ 条件期望（已知是偶数）：$E[X \mid Y=0] = \frac{2+4+6}{3} = 4$ 上图展示了这一例子：左图显示所有可能结果的分布，右图显示在奇偶条件下的条件分布及其期望值。 1.2 条件期望作为最优预测条件期望有一个深刻的最优性解释：在给定信息的条件下，条件期望是最小化均方误差的预测。假设你想用某个可观测的随机变量 $X$ 来预测另一个随机变量 $Y$。你希望找到一个函数 $g(X)$，使得预测误差 $Y - g(X)$ 在某种意义下最小。定理：在所有 $X$ 的函数中，条件期望 $E[Y \mid X]$ 最小化均方误差： ...