机器学习 | s-ai-unix's Blog

弯曲的道路，智能的决策：微分几何如何赋能自动驾驶

引言：当数学遇见自动驾驶想象你正在驾驶一辆汽车行驶在蜿蜒的山路上。前方是一个急转弯，你需要减速、打方向、保持车道——这一系列看似简单的动作，实际上涉及复杂的几何判断：道路的曲率如何？转弯半径是多少？轮胎与地面的摩擦力能否提供足够的向心力？现在，把驾驶员换成自动驾驶系统。它没有了人类的直觉和经验，必须依靠数学模型来理解这个世界。微分几何——这门研究曲线、曲面和弯曲空间的数学分支，正是自动驾驶系统的"眼睛"和"大脑"背后的理论基础。从古希腊欧几里得研究直线和平面，到高斯发现曲面可以"内蕴地"研究，再到黎曼建立起 $n$ 维弯曲空间的一般理论，微分几何经历了两千多年的发展。而今天，这门古老的数学正以全新的方式赋能现代科技：它帮助自动驾驶汽车理解道路的几何结构，规划平滑的行驶轨迹，感知周围环境的三维形态。本文将带你走进微分几何与自动驾驶的交汇点，看看抽象的数学概念如何在现实世界中大放异彩。第一章：微分几何的核心概念回顾 1.1 曲线：道路的一维模型一条道路可以抽象为三维空间中的一条参数曲线： $$ \mathbf{r}(t) = (x(t), y(t), z(t)) $$ 其中 $t$ 是参数，可以是时间，也可以是弧长。对于自动驾驶而言，我们最关心的是曲线的两个几何量：切向量和曲率。切向量告诉我们道路在每一点的"方向"： $$ \mathbf{T}(t) = \frac{d\mathbf{r}/dt}{\lVert d\mathbf{r}/dt \rVert} $$ 汽车的前进方向应该与切向量对齐，这是最基本的控制要求。曲率则告诉我们道路弯曲的程度。对于以弧长 $s$ 参数化的曲线，曲率定义为： $$ \kappa(s) = \left\lVert \frac{d\mathbf{T}}{ds} \right\rVert = \left\lVert \frac{d^2\mathbf{r}}{ds^2} \right\rVert $$ 曲率的倒数 $\rho = 1/\kappa$ 称为曲率半径。当汽车以速度 $v$ 通过曲率为 $\kappa$ 的路段时，所需的向心加速度为 $a = v^2 \kappa$。这就是为什么急转弯需要减速——曲率越大，所需的向心力越大。 1.2 曲面：路面的二维模型实际的道路不是一个简单的曲线，而是一个曲面。我们可以用参数方程描述： $$ \mathbf{r}(u, v) = (x(u, v), y(u, v), z(u, v)) $$ ...

Jacobian and Hessian Matrices cover image

雅可比矩阵与黑塞矩阵：多变量微积分的双璧

引言当我们从单变量微积分迈向多变量微积分时，一个核心问题浮现出来：如何描述多元函数的变化？在单变量情形中，导数 $f’(x)$ 告诉我们函数在某点的瞬时变化率。但当函数 $f: \mathbb{R}^n \to \mathbb{R}^m$ 拥有多个输入和输出时，情况变得复杂起来。想象一下，你正在攀登一座山峰。在任何一个位置，你都想知道：哪个方向最陡峭？（梯度的方向）这个陡峭程度在各个方向如何变化？（曲率的描述）雅可比矩阵和黑塞矩阵正是回答这些问题的数学工具。它们是多变量微积分中的"双璧"——一个描述一阶变化（线性近似），一个描述二阶变化（曲率特性）。从牛顿法到神经网络训练，从机器人运动学到广义相对论，这对"双璧"无处不在。第一章：从一维到多维 1.1 单变量函数的局限性回顾单变量微积分，函数 $f: \mathbb{R} \to \mathbb{R}$ 在点 $x$ 处的导数定义为： $$ f’(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} $$ 这个定义告诉我们函数在 $x$ 处的瞬时变化率。几何上，它表示函数曲线在该点切线的斜率。但当函数有多个输入时，例如 $f(x, y) = x^2 + y^2$，我们可以问：沿 $x$ 方向的变化率是多少？沿 $y$ 方向的变化率是多少？沿任意方向的变化率是多少？这就引出了偏导数的概念。 1.2 偏导数与方向导数函数 $f(x_1, x_2, \ldots, x_n)$ 关于 $x_i$ 的偏导数定义为： $$ \frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i+h, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h} $$ ...

微积分与机器学习：从变化率到神经网络梯度的完整旅程

引言：为什么需要微积分？想象你在山上，想找到最低点。你会怎么做？你会观察脚下的坡度，选择最陡峭的方向迈出一步，然后重复这个过程。这个简单的直觉——沿着负梯度方向走——正是现代人工智能的核心算法。从ChatGPT的语言模型到AlphaGo的围棋策略，从图像识别到语音合成，所有这些技术背后都有一个共同的数学基础：微积分。微积分研究的是变化。而机器学习本质上是关于优化——通过不断调整参数来减少错误。当我们在高维空间中优化复杂的神经网络时，微积分提供了描述和计算这种变化的精确语言。这篇文章将带你深入理解微积分如何驱动现代人工智能。我们不会停留在表面，而是会深入到数学推导的核心，揭示梯度下降、反向传播等算法的数学本质。这是一次从17世纪牛顿和莱布尼茨的发明，到21世纪深度学习革命的完整旅程。第一部分：微积分基础理论 1. 导数的本质：从变化率到瞬时变化率 1.1 变化率的直观理解变化率是人类最早思考的数学问题之一。如果一辆车2小时行驶100公里，平均速度是50公里/小时。但它某一时刻的瞬时速度是多少？微积分的答案是：用极限。考虑函数 $f(x)$ 在 $x_0$ 附近的平均变化率： $$ \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 当 $\Delta x \to 0$ 时，这个平均变化率的极限就是导数： $$ f^{\prime}(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 1.2 导数的几何意义几何直观：导数是切线的斜率。在 $x_0$ 处，曲线 $f(x)$ 可以用直线（切线）逼近： $$ f(x) \approx f(x_0) + f^{\prime}(x_0)(x - x_0) $$ 这就是一阶泰勒公式，也是线性化的思想：局部用简单的线性函数逼近复杂的非线性函数。严格定义（$\epsilon-\delta$ 语言）： $$ \forall \epsilon > 0, \exists \delta > 0 \text{ s.t. } |\Delta x| < \delta \implies \left|\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} - f^{\prime}(x_0)\right| < \epsilon $$ ...

谱定理：线性代数的优雅与机器学习的基石

引言：对称性的数学之美在数学的众多分支中，有一个深刻的原理反复出现：对称性带来简化。在物理学中，空间的对称性意味着守恒量；在群论中，对称结构导致简单的表示；在线性代数中，对称矩阵拥有最优雅的对角化理论——这就是谱定理。想象你站在一个椭圆中心。如果你沿任意方向看出去，椭圆的"宽度"各不相同。但有两个特殊的方向——椭圆的长轴和短轴——沿这些方向，椭圆的形状最简单，只是一个被拉伸的圆。这两个正交的方向，就是椭圆的"主轴"，它们对应的拉伸倍数，就是"特征值"。这个直观的几何图像，正是谱定理的核心。谱定理告诉我们：任何实对称矩阵都可以通过正交变换对角化。换句话说，在适当的坐标系下，对称矩阵描述的线性变换只是沿某些正交方向的简单拉伸。在机器学习和深度学习中，谱定理无处不在。从主成分分析（PCA）到奇异值分解（SVD），从谱聚类到图神经网络，谱定理提供了理解数据和算法的理论基础。在这篇文章中，我们将系统性地介绍谱定理的核心理论，从实对称矩阵的正交对角化到一般的奇异值分解，从PCA到谱聚类，深入浅出地推导每一个公式，并通过可视化图形直观理解这些概念。第一章：谱定理的基础理论 1.1 特征值与特征向量：不变的方向给定一个 $n \times n$ 矩阵 $A$，如果存在非零向量 $v \in \mathbb{R}^n$ 和标量 $\lambda \in \mathbb{R}$，使得 $$ Av = \lambda v $$ 则称 $\lambda$ 是 $A$ 的特征值，$v$ 是对应的特征向量。几何意义：特征向量 $v$ 是线性变换 $A$ 下的"不变方向"——变换后，这个向量只是被拉伸或压缩了 $\lambda$ 倍，方向保持不变。特征多项式：特征值是特征方程的根 $$ \det(A - \lambda I) = 0 $$ 对于 $n \times n$ 矩阵，这是一个 $n$ 次多项式，在复数域上有 $n$ 个根（计入重数）。 1.2 对称矩阵的特殊性质实对称矩阵 $A \in \mathbb{R}^{n \times n}$（即 $A^\top = A$）拥有三个重要性质： ...

信息几何：在概率空间中寻找最短路径

引言：当概率成为空间上的点想象一下，你站在一个巨大的画廊里。墙上挂着无数幅画，每一幅画都是一张概率分布的直方图。如果你要量化两幅画之间的"距离"，你会怎么做？直接比较每个柱子的高度差异？还是考虑某种更本质的、统计学意义上的距离？这个问题触及了统计学的核心：如何量化两个概率分布之间的差异。传统的做法是使用 KL 散度或互信息，但这些度量缺乏几何直观——它们不是真正的"距离"，也不满足三角不等式。信息几何给出了一种全新的视角：将所有概率分布看作一个黎曼流形，每个分布是流形上的一个点，Fisher 信息矩阵定义了这个流形上的度量张量。在这个框架下，我们可以谈论"两点之间的最短路径"（测地线），可以计算"梯度"（自然梯度），可以定义"曲率"（统计流形的曲率）。这个领域的诞生可以追溯到 1945 年，印度统计学家 C. R. Rao 提出了 Fisher 信息度量可以作为微分几何的度量张量。此后，法国数学家 Amari 系统性地发展了信息几何的理论，并将其与神经网络、优化算法相结合。在这篇文章中，我们将从基础概念开始，系统性地介绍信息几何的核心理论，探讨其在深度学习中的应用，并对未来的发展方向做出展望。第一章：几何概率空间 1.1 概率分布作为流形考虑一个简单的例子：所有零均值、单位方差的一维高斯分布 $\mathcal{N}(0, \sigma^2)$ 可以用一个参数 $\sigma$ 来表示。但如果我们考虑所有可能的高斯分布 $\mathcal{N}(\mu, \sigma^2)$，这就变成了一个二维的空间。更一般地，考虑一个参数族 $\mathcal{P} = {p(x \mid \theta) : \theta \in \Theta}$，其中 $\theta \in \mathbb{R}^n$ 是参数。这个参数族可以看作一个 $n$ 维的流形——这就是统计流形。关键洞察：每个概率分布不是孤立的对象，而是镶嵌在无穷维分布空间中的一个点。信息几何的任务就是给这个流形装备一个自然的几何结构。 1.2 Fisher 信息度量 1945 年，C. R. Rao 发现了一个重要的事实：Fisher 信息矩阵可以定义一个黎曼度量。定义：对于参数族 $p(x \mid \theta)$，Fisher 信息矩阵定义为： $$ I(\theta){ij} = \mathbb{E}{p(x \mid \theta)}\left[\frac{\partial \log p(x \mid \theta)}{\partial \theta_i} \frac{\partial \log p(x \mid \theta)}{\partial \theta_j}\right] $$ ...

概率论与数理统计：机器学习的概率基石

引言：在不确定的世界中寻找确定性想象一下，你站在一个赌场的轮盘赌桌前。小球在旋转的轮盘上跳跃，最终停在一个数字上。你知道这个结果是完全随机的吗？还是说，如果你能足够精确地测量小球的初始位置、速度、轮盘的摩擦系数等所有参数，你就能预测出最终的结果？这个思想实验引发了人类对概率本质的深刻思考。17世纪，法国数学家帕斯卡和费马在通信中讨论赌博问题，标志着概率论作为一门数学学科的诞生。随后的几个世纪里，伯努利、拉普拉斯、高斯等数学大师们为概率论的发展做出了巨大贡献。到了20世纪初，俄罗斯数学家柯尔莫哥洛夫给出了概率论的严格公理化定义，将概率论建立在坚实的数学基础之上。几乎同时，贝叶斯的理论开始重新受到重视，为我们提供了一种全新的思考不确定性的方式。那么，概率论和机器学习有什么关系呢？假设你是一名医生，你需要根据患者的症状来诊断疾病。你有体温、血压、血常规等数据，以及过去的诊断记录。你会怎么做？你会综合考虑所有因素，得出一个诊断结论。这个过程本质上就是一个概率推断过程——根据观测到的数据（症状），推断最可能的原因（疾病）。机器学习也是如此。给定一堆数据，模型需要学习数据背后的规律，然后对新的数据进行预测。在这个过程中，不确定性无处不在：数据可能有噪声，模型可能不完美，预测结果也可能有偏差。概率论为我们提供了处理这些不确定性的数学工具。在这篇文章中，我们将系统地介绍概率论与数理统计在机器学习中的应用。从基础的概率公理开始，逐步深入到极限定理、统计推断、信息论基础，最后探讨这些理论如何在现代机器学习和深度学习算法中发挥作用。第一章：概率基础 1.1 概率的公理化定义 1933年，柯尔莫哥洛夫建立了现代概率论的基础。他提出了三条基本公理：公理1（非负性）：对于任何事件 $A$，都有 $P(A) \geq 0$。公理2（规范性）：样本空间 $\Omega$ 的概率为 $1$，即 $P(\Omega) = 1$。公理3（可加性）：对于任意可数个互斥事件 $A_1, A_2, \ldots$，有 $$ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) $$ 这三条公理看起来很简单，但它们是整个概率论大厦的基石。从这些公理出发，我们可以推导出概率论的所有重要结果。例如，对于两个事件 $A$ 和 $B$，我们可以推导出并集的概率公式： $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ 这个公式的直观理解是：将 $A$ 的概率和 $B$ 的概率相加时，$A$ 和 $B$ 的交集部分被计算了两次，所以需要减去一次。 1.2 条件概率和贝叶斯公式条件概率是概率论中最重要的概念之一。直观地说，条件概率 $P(A \mid B)$ 表示"在事件 $B$ 已经发生的条件下，事件 $A$ 发生的概率"。 ...

线性代数：从理论到 AI 应用的完整旅程

引言：为什么线性代数如此重要？想象你站在一个开阔的平原上,手中拿着一支箭。这支箭可以指向任何方向,可以伸长或缩短,可以与另一支箭相加。这就是向量的原始概念——一个既有方向又有大小的量。从这样简单的直观出发,人类发展出了一整套描述空间、变换和数据结构的数学语言:线性代数。线性代数的美妙之处在于它的简洁性和普遍性。在二维平面上,一个点可以用两个坐标 $(x, y)$ 表示;在三维空间中,需要三个坐标 $(x, y, z)$;而在机器学习中处理的数据可能有一千维、一万维,甚至更高。线性代数提供了一套统一的工具来处理这些高维空间,而且它的规律在任意维数下都保持不变。更令人惊讶的是,当你使用 ChatGPT、看 Netflix 推荐、或在 Google 搜索时,背后都有线性代数的身影。深度学习的神经网络本质上就是一系列线性变换和非线性激活的交替组合;推荐系统中的矩阵分解技术直接源自奇异值分解;而搜索引擎的 PageRank 算法则是特征值问题的经典应用。在这篇文章中,我们将踏上一段从理论到应用的完整旅程。我们会从向量空间的几何直观出发,理解线性变换的本质,然后逐步深入到机器学习和深度学习的核心算法中。我们不仅会学习"怎么做",更重要的是理解"为什么"——为什么奇异值分解如此强大?为什么梯度下降会收敛?为什么注意力机制能够工作? 让我们开始这段旅程。第一部分:线性代数基础理论 1. 向量空间的本质 1.1 从几何到抽象在二维平面上,我们习惯用坐标表示向量。向量 $\mathbf{v} = (3, 2)$ 表示从原点出发,沿 $x$ 轴移动 3 个单位,再沿 $y$ 轴移动 2 个单位。但向量的概念远不止于此。向量空间的抽象定义只需要 8 条公理: 加法封闭性: $\mathbf{u} + \mathbf{v}$ 仍在空间中加法交换律: $\mathbf{u} + \mathbf{v} = \mathbf{v} + \mathbf{u}$ 加法结合律: $(\mathbf{u} + \mathbf{v}) + \mathbf{w} = \mathbf{u} + (\mathbf{v} + \mathbf{w})$ 零向量存在: $\mathbf{0} + \mathbf{v} = \mathbf{v}$ 负向量存在: $\mathbf{v} + (-\mathbf{v}) = \mathbf{0}$ 数乘封闭性: $c\mathbf{v}$ 仍在空间中数乘分配律: $c(\mathbf{u} + \mathbf{v}) = c\mathbf{u} + c\mathbf{v}$ 数乘结合律: $c(d\mathbf{v}) = (cd)\mathbf{v}$ 这个定义看似抽象,但它统一了各种不同的对象: ...

变分自编码器：从概率建模到深度生成的优雅桥梁

引言：概率与生成的交响曲想象你在创作一幅肖像画。你观察模特的面容，记住她的眼睛形状、嘴角弧度、颧骨位置——这些是你观察到的具体特征。但当你拿起画笔时，你不仅仅是在复制这些特征，而是在大脑中提取出某种"风格特征"：一种抽象的、压缩的表示。然后，基于这个压缩表示，你重新生成一幅作品。这就是自编码器（Autoencoder）的基本思想：将高维数据压缩到低维潜在空间，然后再从潜在空间重建原始数据。但传统的自编码器有一个致命缺陷：它学习的潜在空间是确定性的，这意味着我们无法从潜在空间中生成新的样本——我们只能重建已有的数据。 2013 年，Kingma 和 Welling 提出了变分自编码器（Variational Autoencoder，VAE），它将变分推断的思想引入深度学习，通过将潜在变量建模为概率分布，使得我们能够：学习数据生成模型从潜在空间采样生成新的、从未见过的样本控制生成过程（通过操控潜在变量）这不仅仅是一个算法，更是概率图模型与深度学习的完美结合。让我们一同踏上这段从变分推断到深度生成的优雅之旅。第一章：自编码器基础 1.1 自编码器的直观理解自编码器是一个神经网络，由两部分组成：编码器（Encoder）：$z = f_{\text{enc}}(x)$，将输入 $x$ 映射到潜在表示 $z$ 解码器（Decoder）：$\hat{x} = f_{\text{dec}}(z)$，从潜在表示重建输入训练目标是让重建误差最小化： $$\mathcal{L}_{\text{AE}} = | x - \hat{x} |^2$$ 1.2 标准自编码器的局限性标准自编码器的编码器学习的是一个确定性映射：对于每个输入 $x$，潜在变量 $z$ 是一个固定的向量。这带来两个问题：无法生成新样本：因为我们不知道潜在空间的概率分布，无法采样新的 $z$ 来生成 $\hat{x}$ 潜在空间不连续：即使输入 $x_1$ 和 $x_2$ 很相似，它们的潜在表示 $z_1$ 和 $z_2$ 可能相距很远这些局限性推动我们思考：如果将潜在变量建模为概率分布，情况会怎样？第二章：变分推断的核心思想 2.1 生成模型的框架假设我们有一组观测数据 $\mathbf{x} = {x^{(1)}, x^{(2)}, \ldots, x^{(N)}}$，我们想要学习一个生成模型，其过程如下：从某个先验分布 $p(z)$ 中采样潜在变量 $z$ 通过概率分布 $p(x|z)$ 生成观测数据 $x$ 这背后的概率图模型可以表示为： ...

贝叶斯分类器：从条件概率到智能决策的优雅之旅

引言：不确定世界中的决策智慧想象你在一家医院工作，面对一位病人。医生告诉你，这位病人有两种可能的疾病：疾病 A 和疾病 B。通过检查，你发现病人出现了某种症状 S。现在的关键问题是：这种症状的出现，是更倾向于指向疾病 A，还是疾病 B？这就是分类问题的本质——根据观察到的特征，将样本划分到不同的类别中。而在众多分类算法中，贝叶斯分类器以其优美的数学形式和深刻的思想基础，始终占据着不可替代的位置。它不依赖于复杂的神经网络或深度学习结构，仅仅基于概率论的基本原理，就能在许多实际应用中展现出令人惊讶的效果。更重要的是，它给了我们一种"在不确定情况下进行理性决策"的思维方式。第一章：概率论的基石在进入贝叶斯分类器的核心之前，让我们先回顾一些基础的概率概念。这些概念看似简单，却构成了整个贝叶斯理论的数学大厦。 1.1 条件概率条件概率是贝叶斯理论的起点。它的直观含义是：在事件 B 发生的条件下，事件 A 发生的概率是多少？数学记为： $$P(A|B) = \frac{P(A \cap B)}{P(B)}$$ 其中 $P(A \cap B)$ 表示 A 和 B 同时发生的概率，$P(B)$ 是事件 B 发生的概率。这个公式的直观理解是：如果我们把所有可能的情况看作一个空间，条件概率就是在"给定 B 发生"这个子空间内，A 所占的比重。 1.2 全概率公式当我们面对一个复杂事件时，常常需要将其分解为若干互不相容的简单事件。这就是全概率公式的思想： $$P(A) = \sum_{i=1}^{n} P(A|B_i) P(B_i)$$ 其中 $B_1, B_2, \ldots, B_n$ 构成一个完备事件组（即它们互不相容且并集为整个样本空间）。全概率公式的几何直观是：将事件 A 的"面积"按照不同条件 $B_i$ 进行"切片"，然后将这些切片的面积加起来。 1.3 贝叶斯公式的诞生将条件概率公式"反过来"使用，就得到了著名的贝叶斯公式： $$P(B|A) = \frac{P(A|B) P(B)}{P(A)}$$ 这个公式看似简单，却蕴含着深刻的哲学意义。它告诉我们：如果我们知道"在 B 发生的条件下 A 的概率"（$P(A|B)$），以及"先验概率" $P(B)$，就可以推导出"观察到 A 后，B 的概率"（$P(B|A)$）。 ...

PCA 主成分分析：从数据降维的优雅艺术

引言：从混沌中寻找秩序想象你是一个天文学家，正在观测一群恒星的位置。这些恒星在三维空间中分布，你记录了每颗恒星到地球的距离、赤经和赤纬——这就是一个典型的三维数据集。但是，你想理解这些恒星的分布规律，三维空间太复杂了。你突然意识到：这些恒星实际上分布在一个接近平面的薄层上！如果能找到这个平面，你就可以用二维坐标来描述每颗恒星的位置，大大简化问题。这个看似简单的思想——在高维数据中找到最能代表数据的低维子空间——就是主成分分析（Principal Component Analysis, PCA）的核心。在机器学习、数据科学和统计学中，我们经常面临"维度灾难"：数据维度越高，计算越复杂，噪声越多，模型越容易过拟合。PCA 提供了一种优雅的解决方案：它不丢弃任何原始特征的信息，而是将数据投影到新的坐标系中，在这个新坐标系中，前几个坐标轴（主成分）包含了数据的大部分信息。本文将带你深入 PCA 的世界。我们从直观的几何理解开始，穿越历史的长河，探索两种等价的数学推导视角，最终抵达实际应用的海岸。准备好了吗？让我们开始这场降维之旅。 PCA 的直观理解：投影的智慧为什么需要降维？在深入数学之前，让我们先理解为什么降维如此重要。假设你有一个包含 $1000$ 个人的数据集，每个人有 $100$ 个特征（身高、体重、血压、血糖、血细胞计数等）。这些特征之间往往存在相关性：身高和体重相关，血压和血糖相关。如果我们直接用 $100$ 个特征来分析，会遇到以下问题：计算复杂度：随着维度增加，算法的运行时间呈指数级增长。过拟合风险：特征越多，模型越容易记住训练数据，泛化能力下降。存储压力：$1000$ 个人 $\times$ $100$ 个特征 $= 100,000$ 个数据点，存储和传输成本高。可视化困难：我们只能在三维空间中直接观察数据，超过三维就无法直观理解。 PCA 的目标是找到一个低维表示，保留数据的大部分信息。关键问题是：如何衡量"信息保留"？答案是方差。方差作为信息度量在一个数据集中，方差大的方向包含更多的信息。考虑一个简单的例子：假设我们有一个二维数据集，点的分布如图所示。图 1：PCA 的核心思想：将数据投影到方差最大的方向如果我们把这些点投影到不同的直线上，哪种投影方式能最好地保留原始数据的信息？直觉告诉我们：应该投影到数据"伸展"最厉害的方向上。在这个方向上，投影点的分布范围最广，方差最大，这意味着投影后保留了更多的原始信息。让我们用数学语言来表述这个直觉。设 $n$ 个 $d$ 维数据点 $\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n \in \mathbb{R}^d$，我们想找到一个单位向量 $\mathbf{w} \in \mathbb{R}^d$（$|\mathbf{w}| = 1$），使得数据投影到 $\mathbf{w}$ 上的方差最大。数据点 $\mathbf{x}_i$ 投影到 $\mathbf{w}$ 上的值是： $$ z_i = \mathbf{w}^{\top} \mathbf{x}_i $$ ...