参数估计 | s-ai-unix's Blog

引言在统计学的世界里，我们面临一个永恒的问题：给定一组观测数据，如何尽可能准确地估计某个未知参数？无论是估计一个物理常数、预测股票价格，还是训练机器学习模型，我们都需要回答这个问题。假设你是一位实验物理学家，正在测量电子的电荷量。你进行了 $n$ 次独立实验，得到数据 $x_1, x_2, \ldots, x_n$。你计算了样本均值 $\bar{x}$ 作为电荷量的估计。但一个自然的问题浮现在脑海：这个估计有多好？它的精度能否进一步提高？是否存在一个理论极限，无论如何改进实验方法都无法超越？ 1945年和1946年，两位瑞典统计学家哈拉尔德·克拉默（Harald Cramér）和卡利安普迪·拉奥（Calyampudi Radhakrishna Rao）独立地给出了这个问题的答案。他们证明了一个深刻的定理：任何无偏估计量的方差都有一个下界，这个下界由Fisher信息量决定。这就是著名的Cramér-Rao下界（Cramér-Rao Lower Bound，简称CRLB）。 CRLB不仅是理论统计学的基石，更在现代机器学习、信号处理、计量经济学等领域有着广泛应用。它告诉我们：什么时候一个估计量是"最优"的？给定数据集，我们能期望达到的最好精度是多少？如何设计实验以最大化信息量？本文将深入浅出地介绍Cramér-Rao下界的完整理论体系，从历史背景到严格推导，从直观理解到实际应用，带你领略这一数理统计重要定理的深刻魅力。第一章：参数估计的基础问题 1.1 估计量的评价标准在统计学中，参数估计（parameter estimation）的核心任务是：给定来自某个概率分布的样本，推断该分布的未知参数。设 $X_1, X_2, \ldots, X_n$ 是独立同分布（i.i.d.）的随机变量，其概率密度函数为 $f(x; \theta)$，其中 $\theta \in \Theta$ 是待估计的未知参数。估计量（estimator）是样本的函数 $\hat{\theta} = \hat{\theta}(X_1, \ldots, X_n)$，用于估计 $\theta$。评价一个估计量的好坏，我们需要以下标准：无偏性（Unbiasedness）：估计量的期望等于真实参数值 $$ \mathbb{E}[\hat{\theta}] = \theta $$ 如果 $\mathbb{E}[\hat{\theta}] \neq \theta$，称估计量是有偏的，偏差为 $\text{Bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta$。有效性（Efficiency）：在无偏估计量中，方差越小越有效 $$ \text{Var}(\hat{\theta}) = \mathbb{E}[(\hat{\theta} - \mathbb{E}[\hat{\theta}])^2] $$ 均方误差（Mean Squared Error，MSE）：综合考虑偏差和方差 ...