Posts

张量：从数学抽象到深度学习核心的系统综述

引言：多维世界的数学语言想象你正在观察一个正在旋转的陀螺。描述它需要多少参数？位置：$3$ 个坐标 $(x, y, z)$ 方向：$3$ 个欧拉角角速度：$3$ 个分量转动惯量：$9$ 个数（$3 \times 3$ 矩阵）这些量不仅仅是数字的集合，它们有特定的变换规则。当坐标系旋转时，位置和角速度按向量规则变换，而转动惯量则按更复杂的规则变换——这就是张量。在物理学中，张量是描述场的通用语言。爱因斯坦的广义相对论用张量写下： $$G_{\mu\nu} + \Lambda g_{\mu\nu} = \frac{8\pi G}{c^4} T_{\mu\nu}$$ 在深度学习中，一张 $224 \times 224$ 的彩色图像是 $224 \times 224 \times 3$ 的三阶张量。一批 $32$ 张这样的图像是 $32 \times 224 \times 224 \times 3$ 的四阶张量。本文将带你走进张量的世界，从数学定义到物理直觉，从代数运算到现代应用，理解为什么张量成为描述复杂系统的核心工具。第一章：张量的本质——超越矩阵的多维数组 1.1 从标量到张量在数学中，我们熟悉不同维度的对象：图 1：张量的维度层级。从0阶标量（单个数字）到1阶向量、2阶矩阵，再到3阶及更高阶张量，维度不断增加。 *0阶张量：标量标量只有一个数值，没有方向： $$a = 5, \quad T = 300\text{K}, \quad E = mc^2$$ 标量在坐标变换下不变——无论你从哪个角度看，温度始终是 $300$K。 ...

AlexNet：开启深度学习革命的里程碑

引言：一个时代的分水岭 $2012$ 年 $9$ 月 $30$ 日，多伦多大学的研究团队在 ImageNet 大规模视觉识别挑战赛（ILSVRC）上提交了一个卷积神经网络模型。当时，没有人意识到这将是一个历史性的时刻。这个模型叫做 AlexNet，以第一作者 Alex Krizhevsky 的名字命名。它在图像分类任务上将 Top-5 错误率从上一年的 $25.8%$ 骤降至 $16.4%$——降幅接近 $10$ 个百分点，远超第二名近 $10%$。这不是一次普通的进步，这是一次范式革命。在此之前，深度学习经历了漫长的"寒冬"。尽管 $1986$ 年反向传播算法已被提出，$1998$ 年 LeCun 的 LeNet 已经证明了卷积神经网络的潜力，但深层网络的训练一直受困于梯度消失、计算资源匮乏和数据不足等问题。 AlexNet 的突破不仅在于它赢得了比赛，更在于它证明了：深度神经网络可以在大规模数据集上有效训练，并且性能远超传统方法。这一证明，开启了人工智能的新纪元。第一章：黎明前的黑暗——深度学习的寒冬 1.1 感知机的兴衰要理解 AlexNet 的意义，我们需要回溯到神经网络的起源。 $1958$ 年，Frank Rosenblatt 提出了感知机（Perceptron），这是第一个能够学习的神经网络模型。Rosenblatt 乐观地宣称：“感知机最终将能够学习、做出决策和翻译语言。” 然而，$1969$ 年，Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中证明了感知机的局限性：它无法解决非线性可分问题，比如简单的异或（XOR）问题。这个打击是致命的。神经网络研究陷入了第一次寒冬。 1.2 反向传播的曙光与困境 $1986$ 年，Rumelhart、Hinton 和 Williams 重新发现了反向传播算法（Backpropagation），为训练多层神经网络提供了理论基础。反向传播的核心思想：给定损失函数 $L$，网络参数 $\mathbf{W}$，反向传播通过链式法则计算梯度： $$\frac{\partial L}{\partial w_{ij}^{(l)}} = \frac{\partial L}{\partial z_i^{(l)}} \cdot \frac{\partial z_i^{(l)}}{\partial w_{ij}^{(l)}} = \delta_i^{(l)} \cdot a_j^{(l-1)}$$ ...

微分几何与深度学习：从流形假设到几何深度学习

引言：当深度学习遇见弯曲的空间 2012年，AlexNet 在 ImageNet 竞赛中以压倒性优势获胜，深度学习正式进入大众视野。此后，神经网络在各种任务上展现出惊人能力：图像识别、语音识别、机器翻译、游戏对战……但有一个问题始终困扰着研究者：为什么神经网络能够如此有效地学习？答案或许藏在数据的本质结构中。想象你正在看一张人脸照片——1000 $\times$ 1000 像素的图像意味着这是一个百万维的空间中的点。但所有人脸照片都分布在这个百万维空间的一个极小子集上。为什么？因为真实的人脸受到物理规律的约束：两只眼睛在鼻子两侧，嘴巴在鼻子下方，等等。这个子集不是随机的散点集合，而是一个流形（manifold）——一个局部看起来像欧几里得空间，但整体上可能弯曲、扭转的几何对象。流形假设（Manifold Hypothesis）是连接微分几何与深度学习的桥梁：真实世界的高维数据往往分布在一个低维流形上。这个假设解释了为什么深度学习能够成功，也指明了改进的方向。从流形学习的早期算法，到现代的几何深度学习，微分几何正在成为理解神经网络本质的重要语言。让我们从最基本的流形概念开始，逐步揭开这层神秘的面纱。第一章：流形假设——数据的几何本质 1.1 什么是流形？在正式定义之前，让我们从一个直观的例子开始。想象一只蚂蚁生活在地球表面。对于这只蚂蚁来说，地面看起来是平的——它可以向前、向后、向左、向右移动。只有当它旅行了很长距离后，才会意识到这个世界是弯曲的（比如绕地球一圈回到原点）。流形正是这种"局部平坦，整体弯曲"的空间。数学上，一个 $n$ 维流形 $\mathcal{M}$ 是一个拓扑空间，其中每一点 $p \in \mathcal{M}$ 都有一个邻域，同胚于 $\mathbb{R}^n$。关键特性：局部坐标：在任何小区域内，我们可以用 $n$ 个坐标 $(x^1, x^2, \ldots, x^n)$ 描述位置过渡函数：不同坐标系统之间的变换必须是光滑的全局结构：局部坐标片可以"缝合"成复杂的整体结构图1：流形学习的核心思想——高维数据（如瑞士卷）实际上分布在一个低维流形上，学习的目标就是"展开"这个流形，发现其内在的低维结构。 1.2 数据流形：从高维到低维现在回到深度学习。考虑以下例子： MNIST 手写数字：每个图像是 $28 \times 28 = 784$ 维的向量。但所有"3"的图像并不随机分布在 784 维空间中——它们形成了一个高度结构化的集合。写下"3"的方式虽然变化多端，但受到人体解剖学和书写习惯的约束。人脸图像：如引言所述，人脸图像分布在由身份、表情、光照、角度等参数控制的低维流形上。这些参数可能有几十个，但远小于百万级的像素维度。词向量：自然语言处理中的词嵌入将词汇映射到连续向量空间。语义相近的词在向量空间中也相近，形成某种几何结构。流形维数的估计：如何确定数据流形的维数？这是一个活跃的研究领域。常用方法包括：主成分分析（PCA）：线性估计本征维数估计：基于最近邻距离的统计方法分形维数：对于复杂结构的数据 1.3 为什么流形结构重要？理解数据的流形结构对深度学习有多方面的意义： 1. 维度灾难的缓解在 $d$ 维欧几里得空间中，要覆盖单位立方体到精度 $\epsilon$，需要 $O(\epsilon^{-d})$ 个样本。这就是维度灾难。 ...

弯曲的道路，智能的决策：微分几何如何赋能自动驾驶

引言：当数学遇见自动驾驶想象你正在驾驶一辆汽车行驶在蜿蜒的山路上。前方是一个急转弯，你需要减速、打方向、保持车道——这一系列看似简单的动作，实际上涉及复杂的几何判断：道路的曲率如何？转弯半径是多少？轮胎与地面的摩擦力能否提供足够的向心力？现在，把驾驶员换成自动驾驶系统。它没有了人类的直觉和经验，必须依靠数学模型来理解这个世界。微分几何——这门研究曲线、曲面和弯曲空间的数学分支，正是自动驾驶系统的"眼睛"和"大脑"背后的理论基础。从古希腊欧几里得研究直线和平面，到高斯发现曲面可以"内蕴地"研究，再到黎曼建立起 $n$ 维弯曲空间的一般理论，微分几何经历了两千多年的发展。而今天，这门古老的数学正以全新的方式赋能现代科技：它帮助自动驾驶汽车理解道路的几何结构，规划平滑的行驶轨迹，感知周围环境的三维形态。本文将带你走进微分几何与自动驾驶的交汇点，看看抽象的数学概念如何在现实世界中大放异彩。第一章：微分几何的核心概念回顾 1.1 曲线：道路的一维模型一条道路可以抽象为三维空间中的一条参数曲线： $$ \mathbf{r}(t) = (x(t), y(t), z(t)) $$ 其中 $t$ 是参数，可以是时间，也可以是弧长。对于自动驾驶而言，我们最关心的是曲线的两个几何量：切向量和曲率。切向量告诉我们道路在每一点的"方向"： $$ \mathbf{T}(t) = \frac{d\mathbf{r}/dt}{\lVert d\mathbf{r}/dt \rVert} $$ 汽车的前进方向应该与切向量对齐，这是最基本的控制要求。曲率则告诉我们道路弯曲的程度。对于以弧长 $s$ 参数化的曲线，曲率定义为： $$ \kappa(s) = \left\lVert \frac{d\mathbf{T}}{ds} \right\rVert = \left\lVert \frac{d^2\mathbf{r}}{ds^2} \right\rVert $$ 曲率的倒数 $\rho = 1/\kappa$ 称为曲率半径。当汽车以速度 $v$ 通过曲率为 $\kappa$ 的路段时，所需的向心加速度为 $a = v^2 \kappa$。这就是为什么急转弯需要减速——曲率越大，所需的向心力越大。 1.2 曲面：路面的二维模型实际的道路不是一个简单的曲线，而是一个曲面。我们可以用参数方程描述： $$ \mathbf{r}(u, v) = (x(u, v), y(u, v), z(u, v)) $$ ...

Jacobian and Hessian Matrices cover image

雅可比矩阵与黑塞矩阵：多变量微积分的双璧

引言当我们从单变量微积分迈向多变量微积分时，一个核心问题浮现出来：如何描述多元函数的变化？在单变量情形中，导数 $f’(x)$ 告诉我们函数在某点的瞬时变化率。但当函数 $f: \mathbb{R}^n \to \mathbb{R}^m$ 拥有多个输入和输出时，情况变得复杂起来。想象一下，你正在攀登一座山峰。在任何一个位置，你都想知道：哪个方向最陡峭？（梯度的方向）这个陡峭程度在各个方向如何变化？（曲率的描述）雅可比矩阵和黑塞矩阵正是回答这些问题的数学工具。它们是多变量微积分中的"双璧"——一个描述一阶变化（线性近似），一个描述二阶变化（曲率特性）。从牛顿法到神经网络训练，从机器人运动学到广义相对论，这对"双璧"无处不在。第一章：从一维到多维 1.1 单变量函数的局限性回顾单变量微积分，函数 $f: \mathbb{R} \to \mathbb{R}$ 在点 $x$ 处的导数定义为： $$ f’(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} $$ 这个定义告诉我们函数在 $x$ 处的瞬时变化率。几何上，它表示函数曲线在该点切线的斜率。但当函数有多个输入时，例如 $f(x, y) = x^2 + y^2$，我们可以问：沿 $x$ 方向的变化率是多少？沿 $y$ 方向的变化率是多少？沿任意方向的变化率是多少？这就引出了偏导数的概念。 1.2 偏导数与方向导数函数 $f(x_1, x_2, \ldots, x_n)$ 关于 $x_i$ 的偏导数定义为： $$ \frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_i+h, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h} $$ ...

曲面论的系统综述：从第一基本型到高斯绝妙定理

引言：从曲面测量的问题出发在欧几里得空间中，平面几何的研究已经相当完善。然而，当我们把目光投向弯曲的曲面——地球的球面、马鞍形的双曲抛物面、或者更一般的任意光滑曲面时，许多在平面上理所当然的性质突然变得复杂起来。一个朴素的问题：给定曲面上的两点 $A$ 和 $B$，如何测量它们之间的距离？在平面上，答案是简单的直线段长度。但在曲面上，“直线"的概念本身就需要重新审视。更重要的是，如果我们只允许在曲面上"行走”（不能离开曲面穿越三维空间），我们能测量的几何量是什么？这些量与曲面在三维空间中的嵌入方式有什么关系？这些问题引导高斯（Carl Friedrich Gauss）在1827年发表了奠基性论文《关于曲面的一般研究》，开创了现代微分几何的曲面理论。高斯的天才洞察在于：曲面上存在着两类几何量——一类是"内蕴的"（intrinsic），只依赖于曲面本身的几何结构；另一类是"外蕴的"（extrinsic），依赖于曲面在三维空间中的具体嵌入方式。本文将系统地介绍曲面论的核心框架，重点阐述第一基本型和第二基本型的深刻意义，揭示它们如何从测量问题中自然涌现，并最终导向高斯那令人惊叹的"绝妙定理"（Theorema Egregium）。第一章：曲面的参数化表示 1.1 从隐式到参数化在三维欧几里得空间 $\mathbb{R}^3$ 中，一个曲面可以用隐式方程表示： $$ F(x, y, z) = 0 $$ 例如，半径为 $R$ 的球面由 $x^2 + y^2 + z^2 = R^2$ 定义。然而，对于微分几何的研究，参数化表示更为便利： $$ \mathbf{r}(u, v) = (x(u, v), y(u, v), z(u, v)) $$ 其中 $(u, v) \in D \subset \mathbb{R}^2$ 是参数域。这种表示将二维参数域"贴"到三维空间中，形成曲面。图1：鞍面 $z = x^2 - y^2$ 的参数化表示，展示了坐标曲线和切平面。在点 $P$ 处，$u$-曲线（绿色）和 $v$-曲线（蓝色）张成了切平面。 1.2 切向量与切平面在参数化表示下，曲面上一点的切向量可以通过对参数求偏导得到： $$ \mathbf{r}_u = \frac{\partial \mathbf{r}}{\partial u}, \quad \mathbf{r}_v = \frac{\partial \mathbf{r}}{\partial v} $$ ...

微分几何曲线论：从直观到严格

微分几何曲线论：从直观到严格引言当我们用一支笔在纸上流畅地画出一道曲线时，我们直觉上能够感受到它的弯曲程度——有些地方笔直延伸，有些地方急剧转弯。这种对"弯曲"的直观感受，正是曲率（Curvature）概念的萌芽。而当我们将这支笔在三维空间中舞动，曲线不仅能在平面内弯曲，还能"扭出"平面，这种"扭曲"的程度就是挠率（Torsion）。曲线论（Theory of Curves）是微分几何的基石，它研究如何用微积分工具精确描述和分析曲线的局部与整体性质。从古希腊阿波罗尼奥斯的圆锥曲线，到牛顿的自然哲学，再到现代广义相对论中的世界线，曲线论始终是连接几何直观与分析严格的桥梁。本文将带领读者从参数曲线的基本概念出发，逐步深入到曲率、挠率的定义与计算，探索Frenet标架这一强大的分析工具，最终揭示曲线论在物理学、工程学和计算机图形学中的深刻应用。图1：各种参数曲线示例。直线、圆、椭圆、抛物线、双曲线和摆线都可以用参数方程统一描述。第一章：参数曲线与正则性 1.1 曲线的参数表示在微分几何中，曲线最自然的描述方式是参数方程。一条空间曲线可以表示为从实数区间到三维欧氏空间的映射： $$ \mathbf{r}: I \subset \mathbb{R} \to \mathbb{R}^3, \quad t \mapsto \mathbf{r}(t) = (x(t), y(t), z(t)) $$ 其中 $t$ 称为参数，可以是时间、弧长或任意其他物理量。这种表示方式比显式方程 $y = f(x)$ 更加灵活，能够描述自相交的曲线（如摆线）和垂直切线的情况。例1.1（圆柱螺旋线）： $$ \mathbf{r}(t) = (a \cos t, a \sin t, bt), \quad t \in \mathbb{R} $$ 其中 $a > 0$ 是圆柱半径，$b$ 控制螺旋的疏密。当 $b = 0$ 时退化为圆；当 $a \to 0$ 时趋近于 $z$ 轴。图2：圆柱螺旋线及其切向量。虚线表示在 $xy$ 平面的投影，红色箭头表示某点处的单位切向量。 ...

隐函数定理：从几何直观到严格证明

隐函数定理：从几何直观到严格证明引言在微积分的长河中，有一个定理如同一座桥梁，连接着显式函数与隐式函数两个世界——它就是隐函数定理（Implicit Function Theorem）。当我们在平面直角坐标系中画出一个圆 $x^2 + y^2 = 1$ 时，一个自然的问题浮现在眼前：这个关系式能否在局部表示为 $y = f(x)$ 的形式？如果可以，导数 $\frac{dy}{dx}$ 又该如何计算？隐函数定理给出了这个问题的完整回答。它不仅是多元微积分中的核心工具，更是连接代数、几何与分析的纽带。从经济学中的均衡分析到物理学中的约束系统，从微分方程到微分几何，隐函数定理无处不在。本文将带领读者从几何直观出发，逐步深入到严格的数学证明，最终探索其在现代科学中的广泛应用。图1：单位圆的隐函数表示。完整的圆需要两个显函数分支来表示（橙色虚线为上半圆，绿色虚线为下半圆），而隐函数形式 $x^2 + y^2 = 1$ 给出了统一的描述。点 $P(0.6, 0.8)$ 处的紫色虚线为切线。第一章：从几何直观出发 1.1 隐函数问题的起源让我们从一个简单的例子开始。考虑平面上的单位圆，它由方程 $x^2 + y^2 = 1$ 定义。如果我们试图将这个方程解出 $y$ 作为 $x$ 的函数，会得到： $$ y = \pm \sqrt{1 - x^2} $$ 这个表达式揭示了一个关键事实：在整个圆上，$y$ 不能表示为 $x$ 的单值函数。但是，如果我们只看圆的上半部分或下半部分，情况就不同了：对于上半圆（$y > 0$），我们可以写成 $y = \sqrt{1 - x^2}$ 对于下半圆（$y < 0$），我们可以写成 $y = -\sqrt{1 - x^2}$ 更重要的是，在圆上的每一点 $(x_0, y_0)$ 附近（除了 $(1, 0)$ 和 $(-1, 0)$ 这两点），我们都能找到一小块区域，使得在该区域内 $y$ 可以表示为 $x$ 的函数。 ...

微分几何在机器人学中的系统综述：从李群到现代应用

引言：当机器人遇上几何想象你正在操控一台工业机械臂。你输入一个目标位置，机械臂的末端执行器精准地移动到那里。这看似简单的动作背后，蕴含着深刻的数学原理。一个基本问题：如何描述机械臂的姿态？如果你说"用坐标 $(x, y, z)$ 表示位置，用三个角度表示方向"，这没错。但当你尝试在两个姿态之间插值时，问题出现了——简单的线性插值可能导致中间姿态根本不是有效的旋转！这就是流形约束的体现：机器人的姿态空间不是一个简单的欧几里得空间，而是一个弯曲的流形。从欧几里得到黎曼古希腊人认为空间是平坦的。欧几里得几何告诉我们：平行线永不相交，三角形内角和恒为 $180^{\circ}$。但 $19$ 世纪的数学家们发现，空间可以是弯曲的。高斯研究曲面，黎曼将这一理论推广到任意维度——黎曼几何诞生了。 $20$ 世纪，这些抽象理论找到了惊人应用：爱因斯坦用黎曼几何描述引力（广义相对论）工程师用微分几何控制机器人计算机科学家用流形学习理解高维数据本文将系统梳理微分几何在机器人学中的应用，从理论基础到现代实践，带你领略这门数学如何赋能智能机器。第一章：李群与李代数——描述运动的数学语言 1.1 刚体运动的困境在三维空间中，刚体的位姿（位置和方向）需要几个参数描述？位置：$3$ 个参数 $(x, y, z)$ 方向：至少需要 $3$ 个参数（如欧拉角）欧拉角的陷阱：经典的万向节锁（Gimbal Lock）问题——当俯仰角为 $90^{\circ}$ 时，偏航和滚转失去独立意义。这说明用欧拉角表示旋转存在本质缺陷。更优雅的选择是旋转矩阵：一个 $3 \times 3$ 的正交矩阵 $R$，满足 $R^T R = I$ 且 $\det(R) = 1$。所有这样的矩阵构成特殊正交群 $\text{SO}(3)$（Special Orthogonal Group）。 1.2 李群的引入李群（Lie Group）是一种特殊的数学结构，它同时具有两种性质：群结构：可以定义乘法（旋转的合成）和逆元（反向旋转）流形结构：局部看起来像欧几里得空间，可以定义微积分 $\text{SO}(3)$ 就是一个李群。类似的，描述刚体完整位姿（旋转 $+$ 平移）的特殊欧几里得群 $\text{SE}(3)$ 也是李群。 $$T = \begin{pmatrix} R & \mathbf{t} \ \mathbf{0}^T & 1 \end{pmatrix} \in \text{SE}(3)$$ ...

微分几何中的联络：一场从直观到严格的数学之旅

引言：一个根本的数学困境想象你站在地球表面的赤道上，手里拿着一根箭，箭头指向正北方。现在，你带着这根箭沿着赤道向东行走，始终保持箭头指向"正北方"（相对于你当前的地理位置）。当你绕地球一周回到起点时，会发生什么？这个看似简单的问题揭示了微分几何中一个深刻的困境：如何比较流形上不同点的切向量？图1：球面上的平行移动示意图。红色曲线表示移动路径，绿色箭头表示平行移动的向量。绕赤道一周后，向量发生了旋转！在欧几里得空间中，我们从来不需要担心这个问题。如果在 $\mathbb{R}^n$ 的两个不同点 $p$ 和 $q$ 各有一个向量 $v_p$ 和 $v_q$，我们可以直接平移 $v_p$ 到 $q$ 点，然后和 $v_q$ 比较。这是因为欧氏空间有一个自然的平行性——所有点的切空间都可以自然地等同起来。图2：在平面上，不同点的切向量可以直接平移比较。每个点上的红色箭头代表同一个向量平移后的结果。但在一般的流形上，比如球面上，没有这种自然的等同。每一点的切空间都是一个独立的向量空间，点与点之间的切空间之间没有任何天然的联系。这就是联络概念要解决的根本问题：如何在流形上建立不同点切空间之间的"联络"，从而能够定义方向导数、平行移动，并最终定义曲率。联络的概念是现代微分几何的基石，它的历史可以追溯到19世纪中叶。Riemann 在1854年的著名演讲《论几何基础的假设》中已经隐含了联络的思想，但严格的数学表述则是由Levi-Civita、Christoffel、Ricci、Cartan等人在后续几十年中逐步完善的。本文将带你踏上一段从直观到严格的数学之旅，深入理解这个优美而深刻的数学概念。第一章：预备知识——流形与切丛在深入联络的概念之前，我们需要一些基本的几何语言。如果你已经熟悉流形和切丛的概念，可以快速浏览这一章。 1.1 什么是流形？直观地说，流形是一个局部看起来像欧氏空间，但整体可能有复杂弯曲结构的几何对象。一维流形：曲线，如圆、线段二维流形：曲面，如球面、环面、甜甜圈表面高维流形：难以直接可视化，但数学定义同样适用形式化定义：一个 $n$ 维拓扑流形是一个豪斯多夫空间 $M$，使得对于任意 $p \in M$，存在一个开邻域 $U \subset M$ 和同胚映射 $\phi: U \to V$，其中 $V$ 是 $\mathbb{R}^n$ 的开子集。$(U, \phi)$ 称为一个坐标卡或坐标图。 1.2 切空间与切向量在 $\mathbb{R}^n$ 中，切向量的概念很直观：它是一个指向某个方向的箭头。但在流形上，我们需要更仔细地定义切向量。有几种等价的定义方式：定义1（方向导数视角）：$p$ 点的切向量是作用在函数上的方向导算子。如果 $v$ 是一个切向量，$\gamma: (-\varepsilon, \varepsilon) \to M$ 是一条满足 $\gamma(0) = p$ 的曲线，那么： $$ v[f] = \left.\frac{d}{dt}\right|_{t=0} f(\gamma(t)) $$ ...