信息几何

引言 1922年，一位英国统计学家发表了一篇划时代的论文，提出了一种度量数据"信息量"的全新方法。这位统计学家就是罗纳德·艾尔默·费希尔（Ronald Aylmer Fisher），而这种方法就是今天我们所熟知的Fisher信息（Fisher Information）。在那个统计学尚处于萌芽时代的20世纪初，Fisher正在努力解决一个根本性问题：给定一组观测数据，我们能从中提取多少关于未知参数的信息？这个问题的答案不仅对参数估计的精度有直接影响，更揭示了统计学与微分几何之间深刻的内在联系。 Fisher信息的单参数版本我们已经熟知：它量化了数据关于单个参数的"敏感度"，并直接决定了Cramér-Rao下界——任何无偏估计量的方差都不能低于Fisher信息的倒数。但当参数变为多个时，情况变得更加丰富和复杂。Fisher信息矩阵（Fisher Information Matrix）不仅描述了每个参数的信息量，还刻画了参数之间的相互关系和依赖性。更令人惊讶的是，Fisher信息矩阵可以被理解为一种黎曼度量（Riemannian metric）。在由概率分布构成的统计流形上，Fisher信息矩阵定义了参数空间中的"距离"。这一发现开创了信息几何（Information Geometry）这一新兴学科，将微分几何的工具引入统计学，为理解统计推断提供了全新的视角。本文将深入浅出地介绍Fisher信息矩阵的完整体系：从历史背景到严格定义，从统计解释到几何意义，从经典应用到现代机器学习。无论你是统计学研究者、机器学习工程师，还是对数学之美感兴趣的读者，相信都能从中获得深刻的洞见。第一章：Fisher信息的历史与动机 1.1 费希尔与统计学的黄金时代罗纳德·费希尔（1890-1962）被广泛认为是20世纪最伟大的统计学家之一。他的贡献遍布统计学的各个角落：最大似然估计、方差分析、实验设计、Fisher精确检验……而Fisher信息则是他最深刻的理论贡献之一。 1922年，费希尔发表了题为《On the Mathematical Foundations of Theoretical Statistics》的论文，系统地阐述了统计推断的理论框架。在这篇论文中，他提出了"信息"的概念，试图量化观测数据包含的关于未知参数的"知识量"。费希尔的动机很直接：如果我们要比较两个不同的估计量，或者判断一个估计量是否"最优"，就需要一个客观的标准。方差是一个自然的选择——方差越小，估计越精确。但方差本身并不能告诉我们：给定数据，最好的可能结果是什么？这就是Fisher信息要回答的问题。 1.2 从直观到形式化让我们从直观开始。假设你有一枚可能有偏的硬币，正面朝上的概率是 $\theta$。你抛了100次，观察到60次正面。你如何估计 $\theta$？如果硬币是公平的（$\theta = 0.5$），观察到60次正面的概率是多少？如果 $\theta = 0.6$，这个概率又是多少？通过比较这些概率，我们可以判断哪个参数值更"可能"。这就是似然（likelihood）的直观思想。Fisher的关键洞察是：对数似然函数在最大值附近的"尖锐程度"，决定了我们估计参数的精度。函数越尖锐，不同参数值产生的数据越容易区分，估计就越准确。如何量化"尖锐程度"？数学上，这就是曲率（curvature）。而对数似然函数的曲率，正是Fisher信息的核心。 1.3 单参数回顾在深入多参数的Fisher信息矩阵之前，让我们快速回顾单参数情况。设 $X_1, \ldots, X_n$ 是来自分布 $f(x; \theta)$ 的独立同分布样本，对数似然函数为： $$ \ell(\theta) = \sum_{i=1}^n \log f(X_i; \theta) $$ 得分函数（score function）是对数似然的导数： $$ S(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} $$ Fisher信息定义为得分函数的方差： $$ \mathcal{I}(\theta) = \mathbb{E}\left[\left(\frac{\partial \ell(\theta)}{\partial \theta}\right)^2\right] = \text{Var}(S(\theta)) $$ 在正则条件下，这等价于： ...

引言：当概率成为空间上的点想象一下，你站在一个巨大的画廊里。墙上挂着无数幅画，每一幅画都是一张概率分布的直方图。如果你要量化两幅画之间的"距离"，你会怎么做？直接比较每个柱子的高度差异？还是考虑某种更本质的、统计学意义上的距离？这个问题触及了统计学的核心：如何量化两个概率分布之间的差异。传统的做法是使用 KL 散度或互信息，但这些度量缺乏几何直观——它们不是真正的"距离"，也不满足三角不等式。信息几何给出了一种全新的视角：将所有概率分布看作一个黎曼流形，每个分布是流形上的一个点，Fisher 信息矩阵定义了这个流形上的度量张量。在这个框架下，我们可以谈论"两点之间的最短路径"（测地线），可以计算"梯度"（自然梯度），可以定义"曲率"（统计流形的曲率）。这个领域的诞生可以追溯到 1945 年，印度统计学家 C. R. Rao 提出了 Fisher 信息度量可以作为微分几何的度量张量。此后，法国数学家 Amari 系统性地发展了信息几何的理论，并将其与神经网络、优化算法相结合。在这篇文章中，我们将从基础概念开始，系统性地介绍信息几何的核心理论，探讨其在深度学习中的应用，并对未来的发展方向做出展望。第一章：几何概率空间 1.1 概率分布作为流形考虑一个简单的例子：所有零均值、单位方差的一维高斯分布 $\mathcal{N}(0, \sigma^2)$ 可以用一个参数 $\sigma$ 来表示。但如果我们考虑所有可能的高斯分布 $\mathcal{N}(\mu, \sigma^2)$，这就变成了一个二维的空间。更一般地，考虑一个参数族 $\mathcal{P} = {p(x \mid \theta) : \theta \in \Theta}$，其中 $\theta \in \mathbb{R}^n$ 是参数。这个参数族可以看作一个 $n$ 维的流形——这就是统计流形。关键洞察：每个概率分布不是孤立的对象，而是镶嵌在无穷维分布空间中的一个点。信息几何的任务就是给这个流形装备一个自然的几何结构。 1.2 Fisher 信息度量 1945 年，C. R. Rao 发现了一个重要的事实：Fisher 信息矩阵可以定义一个黎曼度量。定义：对于参数族 $p(x \mid \theta)$，Fisher 信息矩阵定义为： $$ I(\theta){ij} = \mathbb{E}{p(x \mid \theta)}\left[\frac{\partial \log p(x \mid \theta)}{\partial \theta_i} \frac{\partial \log p(x \mid \theta)}{\partial \theta_j}\right] $$ ...

数理统计重要定理系列：Fisher信息矩阵的几何、统计与应用

信息几何：在概率空间中寻找最短路径