
高斯混合模型:从数据中解构隐藏结构的艺术
引言:从混沌中发现结构 想象你是一个天文学家,正在观测夜空中的恒星。这些恒星并非均匀分布,而是呈现出明显的"聚集"现象:有些恒星形成了紧密的星团,有些则稀疏地散布在广阔的空间中。你的任务是理解这些恒星是如何分布的——它们属于哪些星团,每个星团的形状和位置是什么。 这就是一个典型的聚类问题:将数据点分组成若干个有意义的组。 最直观的聚类方法是 K-means:将每个数据点分配到最近的簇中心,然后更新簇中心,迭代直至收敛。但 K-means 有一个致命的限制:它假设每个簇是"圆形"的(在二维)或"球形"的(在高维)。这意味着它只能捕捉硬边界的簇,无法处理更复杂的形状,也无法表示一个数据点可能"部分地"属于多个簇。 这时,一个更强大的工具出现了:高斯混合模型(Gaussian Mixture Model, GMM)。GMM 不再做非此即彼的硬分类,而是给每个数据点一个"软"的归属概率——它有多大可能性属于每个簇。这种软聚类的方法不仅更灵活,而且能捕捉更复杂的数据分布。 更重要的是,GMM 引入了机器学习中最深刻的算法之一:EM 算法(Expectation-Maximization,期望最大化)。EM 算法是一种优雅的迭代算法,用于解决含有隐变量的概率模型的参数估计问题。 本文将带你深入 GMM 的世界。我们将从高斯分布的复习开始,理解从 K-means 到 GMM 的自然演进,推导 EM 算法的每一步,探索几何直观,最后了解它在现实世界的应用。准备好了吗?让我们开始这场从数据中发现隐藏结构的旅程。 高斯分布的回顾:多元正态分布 在深入 GMM 之前,我们需要先熟悉多元高斯分布(Multivariate Gaussian Distribution)的数学形式。 一元高斯分布 回忆一下,一元高斯分布的概率密度函数是: $$ f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$ 其中: $\mu$ 是均值(期望) $\sigma^2$ 是方差 $\sigma > 0$ 是标准差 这个分布的形状是经典的"钟形曲线":在 $\mu$ 处达到峰值,向两侧对称衰减。 多元高斯分布 多元高斯分布是上述概念的推广。设 $\mathbf{x} \in \mathbb{R}^d$ 是一个 $d$ 维随机向量,$\mathbf{\mu} \in \mathbb{R}^d$ 是均值向量,$\mathbf{\Sigma} \in \mathbb{R}^{d \times d}$ 是协方差矩阵(对称正定)。 ...