假设检验 | s-ai-unix's Blog

引言：如何在不确定中做最优决策想象你是一名雷达操作员，屏幕上突然出现一个光点。是敌机还是飞鸟？这个判断必须在几秒钟内做出，而且代价巨大：如果误判为飞鸟，可能错失拦截敌机的最佳时机；如果误判为敌机，可能引发不必要的冲突。这就是假设检验面临的经典困境。我们有两种可能的"假设"：零假设 $H_0$：屏幕上的是飞鸟（无害）备择假设 $H_1$：屏幕上的是敌机（危险）基于观测数据（雷达回波），我们需要决定是否拒绝 $H_0$。但无论选择什么策略，都可能犯错：第一类错误（假阳性）：把飞鸟当成敌机第二类错误（假阴性）：把敌机当成飞鸟 1928年，两位年轻数学家耶日·内曼（Jerzy Neyman）和埃贡·皮尔逊（Egon Pearson）提出了一种革命性的方法：在控制第一类错误概率的前提下，最小化第二类错误概率。这就是著名的Neyman-Pearson引理，它为统计假设检验奠定了坚实的数学基础。本文将带你深入理解这一重要定理的历史背景、数学本质和实际应用。历史发展：从卡尔·皮尔逊到Neyman-Pearson框架早期拟合优度检验（1900年前后）假设检验的思想可以追溯到18世纪，但现代形式的假设检验始于卡尔·皮尔逊（Karl Pearson）。1900年，皮尔逊发表了著名的卡方拟合优度检验，用于检验观测数据是否符合某个理论分布。皮尔逊的方法本质上是计算观测值与期望值之间的"距离"，然后根据卡方分布判断这个距离是否"过大"。然而，皮尔逊的框架有一个重要缺陷：它没有明确考虑备择假设，只是检验数据是否"拟合"某个分布。 Neyman-Pearson引理的诞生（1928） 1928年，卡尔·皮尔逊的学生埃贡·皮尔逊与波兰数学家耶日·内曼合作，发表了题为《关于统计假设有效性的问题》的论文。这篇论文提出了一个简单却深刻的原理：在所有显著性水平为 $\alpha$ 的检验中，似然比检验具有最大的功效。这就是Neyman-Pearson引理，它首次给出了"最优检验"的数学定义和构造方法。 Neyman-Pearson理论的完善（1933-1960） 1933年，内曼和皮尔逊发表了系列论文《论统计假设检验中最有效检验的问题》，系统建立了假设检验的数学框架，包括：显著性水平 $\alpha$ 的正式定义功效函数（power function）的概念一致最优势检验（UMP）的理论对偶性原理（检验与置信区间的对偶） 1934年，萨缪尔·卡尔林（Samuel Karlin）和赫尔曼·鲁宾（Herman Rubin）证明了Karlin-Rubin定理，将Neyman-Pearson引理推广到复合假设情形，为一致最优势检验提供了判定准则。 1949年，亚伯拉罕·瓦尔德（Abraham Wald）发展了序贯概率比检验（SPRT），将NP框架扩展到序贯分析领域。 1950年，埃里希·莱曼（Erich Lehmann）出版了《检验统计假设》，这部经典著作系统总结了NP理论，成为几代统计学家的标准教材。第一章：假设检验的基本概念 1.1 统计假设与检验统计假设是关于总体分布或参数的陈述。在假设检验中，我们通常有两个对立的假设：零假设（Null Hypothesis）$H_0$：通常表示"无效应"、“无差异"或现状备择假设（Alternative Hypothesis）$H_1$：表示研究者想要证明的效应或差异例子：药物试验：$H_0$: 新药与安慰剂效果相同；$H_1$: 新药效果更好质量检测：$H_0$: 产品合格；$H_1$: 产品不合格雷达检测：$H_0$: 无目标；$H_1$: 有目标检验（Test）是基于样本数据做出决策的规则。形式上，检验是一个函数 $\phi(x)$： $$\phi(x) = \begin{cases} 1 & \text{拒绝 } H_0 \ 0 & \text{接受 } H_0 \end{cases}$$ ...