期望最大化

引言：从混沌中发现结构想象你是一个天文学家，正在观测夜空中的恒星。这些恒星并非均匀分布，而是呈现出明显的"聚集"现象：有些恒星形成了紧密的星团，有些则稀疏地散布在广阔的空间中。你的任务是理解这些恒星是如何分布的——它们属于哪些星团，每个星团的形状和位置是什么。这就是一个典型的聚类问题：将数据点分组成若干个有意义的组。最直观的聚类方法是 K-means：将每个数据点分配到最近的簇中心，然后更新簇中心，迭代直至收敛。但 K-means 有一个致命的限制：它假设每个簇是"圆形"的（在二维）或"球形"的（在高维）。这意味着它只能捕捉硬边界的簇，无法处理更复杂的形状，也无法表示一个数据点可能"部分地"属于多个簇。这时，一个更强大的工具出现了：高斯混合模型（Gaussian Mixture Model, GMM）。GMM 不再做非此即彼的硬分类，而是给每个数据点一个"软"的归属概率——它有多大可能性属于每个簇。这种软聚类的方法不仅更灵活，而且能捕捉更复杂的数据分布。更重要的是，GMM 引入了机器学习中最深刻的算法之一：EM 算法（Expectation-Maximization，期望最大化）。EM 算法是一种优雅的迭代算法，用于解决含有隐变量的概率模型的参数估计问题。本文将带你深入 GMM 的世界。我们将从高斯分布的复习开始，理解从 K-means 到 GMM 的自然演进，推导 EM 算法的每一步，探索几何直观，最后了解它在现实世界的应用。准备好了吗？让我们开始这场从数据中发现隐藏结构的旅程。高斯分布的回顾：多元正态分布在深入 GMM 之前，我们需要先熟悉多元高斯分布（Multivariate Gaussian Distribution）的数学形式。一元高斯分布回忆一下，一元高斯分布的概率密度函数是： $$ f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$ 其中： $\mu$ 是均值（期望） $\sigma^2$ 是方差 $\sigma > 0$ 是标准差这个分布的形状是经典的"钟形曲线"：在 $\mu$ 处达到峰值，向两侧对称衰减。多元高斯分布多元高斯分布是上述概念的推广。设 $\mathbf{x} \in \mathbb{R}^d$ 是一个 $d$ 维随机向量，$\mathbf{\mu} \in \mathbb{R}^d$ 是均值向量，$\mathbf{\Sigma} \in \mathbb{R}^{d \times d}$ 是协方差矩阵（对称正定）。 ...