
数理统计重要定理系列:Fisher信息矩阵的几何、统计与应用
引言 1922年,一位英国统计学家发表了一篇划时代的论文,提出了一种度量数据"信息量"的全新方法。这位统计学家就是罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher),而这种方法就是今天我们所熟知的Fisher信息(Fisher Information)。 在那个统计学尚处于萌芽时代的20世纪初,Fisher正在努力解决一个根本性问题:给定一组观测数据,我们能从中提取多少关于未知参数的信息?这个问题的答案不仅对参数估计的精度有直接影响,更揭示了统计学与微分几何之间深刻的内在联系。 Fisher信息的单参数版本我们已经熟知:它量化了数据关于单个参数的"敏感度",并直接决定了Cramér-Rao下界——任何无偏估计量的方差都不能低于Fisher信息的倒数。但当参数变为多个时,情况变得更加丰富和复杂。Fisher信息矩阵(Fisher Information Matrix)不仅描述了每个参数的信息量,还刻画了参数之间的相互关系和依赖性。 更令人惊讶的是,Fisher信息矩阵可以被理解为一种黎曼度量(Riemannian metric)。在由概率分布构成的统计流形上,Fisher信息矩阵定义了参数空间中的"距离"。这一发现开创了信息几何(Information Geometry)这一新兴学科,将微分几何的工具引入统计学,为理解统计推断提供了全新的视角。 本文将深入浅出地介绍Fisher信息矩阵的完整体系:从历史背景到严格定义,从统计解释到几何意义,从经典应用到现代机器学习。无论你是统计学研究者、机器学习工程师,还是对数学之美感兴趣的读者,相信都能从中获得深刻的洞见。 第一章:Fisher信息的历史与动机 1.1 费希尔与统计学的黄金时代 罗纳德·费希尔(1890-1962)被广泛认为是20世纪最伟大的统计学家之一。他的贡献遍布统计学的各个角落:最大似然估计、方差分析、实验设计、Fisher精确检验……而Fisher信息则是他最深刻的理论贡献之一。 1922年,费希尔发表了题为《On the Mathematical Foundations of Theoretical Statistics》的论文,系统地阐述了统计推断的理论框架。在这篇论文中,他提出了"信息"的概念,试图量化观测数据包含的关于未知参数的"知识量"。 费希尔的动机很直接:如果我们要比较两个不同的估计量,或者判断一个估计量是否"最优",就需要一个客观的标准。方差是一个自然的选择——方差越小,估计越精确。但方差本身并不能告诉我们:给定数据,最好的可能结果是什么?这就是Fisher信息要回答的问题。 1.2 从直观到形式化 让我们从直观开始。假设你有一枚可能有偏的硬币,正面朝上的概率是 $\theta$。你抛了100次,观察到60次正面。你如何估计 $\theta$? 如果硬币是公平的($\theta = 0.5$),观察到60次正面的概率是多少?如果 $\theta = 0.6$,这个概率又是多少?通过比较这些概率,我们可以判断哪个参数值更"可能"。 这就是似然(likelihood)的直观思想。Fisher的关键洞察是:对数似然函数在最大值附近的"尖锐程度",决定了我们估计参数的精度。函数越尖锐,不同参数值产生的数据越容易区分,估计就越准确。 如何量化"尖锐程度"?数学上,这就是曲率(curvature)。而对数似然函数的曲率,正是Fisher信息的核心。 1.3 单参数回顾 在深入多参数的Fisher信息矩阵之前,让我们快速回顾单参数情况。 设 $X_1, \ldots, X_n$ 是来自分布 $f(x; \theta)$ 的独立同分布样本,对数似然函数为: $$ \ell(\theta) = \sum_{i=1}^n \log f(X_i; \theta) $$ 得分函数(score function)是对数似然的导数: $$ S(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} $$ Fisher信息定义为得分函数的方差: $$ \mathcal{I}(\theta) = \mathbb{E}\left[\left(\frac{\partial \ell(\theta)}{\partial \theta}\right)^2\right] = \text{Var}(S(\theta)) $$ 在正则条件下,这等价于: ...
