综述 | s-ai-unix's Blog

Poincaré的洞察：体积元的定向与外微分形式的诞生

引言：一个看似平凡的发现 1890年代末，巴黎的学术圈正沉浸在分析学的繁荣之中。法国数学家亨利·庞加莱（Henri Poincaré, 1854-1912）坐在书桌前，凝视着多重积分的变换公式。在旁人看来，这只是一个技术性的细节问题——如何计算曲面积分、体积分在坐标变换下的行为？然而，Poincaré敏锐地意识到一个被前人忽视的事实：多重积分的体积元应该有一个正负定向。这一看似平凡的看法使得多重积分在坐标变换下原来有些拖泥带水的变换公式，有了一个精练的形式，并使Newton-Leibniz公式的推广，步入了坦途。这一发现看似微不足道——不过是给积分测度加上一个正负号而已——但它却如同一把钥匙，打开了通往现代微分几何的大门。它直接催生了外微分形式（differential forms）的概念，为Stokes定理、de Rham上同调、甚至是现代物理学中的规范场论奠定了基础。让我们循着历史的足迹，探寻这一发现的来龙去脉。第一章：Poincaré之前的多重积分 1.1 单变量的辉煌与局限让我们先回到单变量微积分的美好时代。Newton和Leibniz在17世纪末创立的微积分基本定理告诉我们： $$ \int_a^b f’(x) , dx = f(b) - f(a) $$ 这个公式之所以优美，在于它将区间 $[a,b]$ 上的积分与边界 ${a, b}$ 上的函数值联系起来。更妙的是，它暗示了积分具有某种"定向"的性质：从 $a$ 到 $b$ 的积分，与从 $b$ 到 $a$ 的积分差一个负号： $$ \int_b^a f(x) , dx = -\int_a^b f(x) , dx $$ 然而，当数学家们尝试将这一框架推广到多变量时，他们遇到了意想不到的困难。 1.2 早期的多重积分变换考虑一个二重积分： $$ I = \iint_D f(x,y) , dx , dy $$ 假设我们进行坐标变换 $(x,y) \mapsto (u,v)$，其中 $x = x(u,v)$，$y = y(u,v)$。在18、19世纪，数学家们知道变换公式涉及雅可比行列式（Jacobian determinant）： ...

Epsilon-Delta：数学分析的严格化革命

引言：一个困惑的大数学家 1999年，在接受美国数学学会（AMS）的采访时，20世纪最杰出的数学家之一——让-皮埃尔·塞尔（Jean-Pierre Serre）被问及他对数学教育的看法。这位在代数几何、拓扑学和数论领域做出了奠基性贡献的菲尔兹奖得主，给出了一个令人意外的回答： “我从来没有真正搞懂过 epsilon-delta 语言。我总是通过直观的邻域概念来理解极限和连续性。” 塞尔不是第一个对 epsilon-delta 语言感到困惑的人，也不会是最后一个。每年，数以万计的本科生在第一次接触这套符号系统时，都会经历从困惑到恍然大悟（或持续的困惑）的心路历程。但这个让塞尔都感到棘手的语言，却成为了现代数学分析的基石。它诞生于19世纪中叶的数学危机，由卡尔·魏尔斯特拉斯（Karl Weierstrass）系统化，并在随后的一个多世纪里，塑造了我们今天理解连续性、极限和微积分的方式。这就引出了一个根本性的问题：epsilon-delta 语言到底重不重要？它真的必要吗？还是如塞尔所言，直觉的理解就已足够？让我们一起回溯这段数学史，从牛顿和莱布尼茨的时代开始，穿越第二次数学危机的风暴，最终抵达严格化的彼岸。第一章：微积分的光荣与混沌 1.1 直观的时代 1687年，牛顿发表了《自然哲学的数学原理》，莱布尼茨也在同一时期独立发展出微积分。这套革命性的工具使得数学家们能够描述运动、变化率和累积量，但其基础却建立在一个模糊的概念之上——无穷小。让我们看看牛顿是如何计算导数的。对于函数 $f(x) = x^2$，牛顿考虑： $$ f(x + o) - f(x) = (x + o)^2 - x^2 = 2xo + o^2 $$ 其中 $o$ 是一个无穷小量——既不为零（因此可以作除数），又小到可以忽略不计。于是： $$ \frac{f(x + o) - f(x)}{o} = 2x + o \approx 2x $$ 最终的答案是 $2x$，但这个过程充满了逻辑上的暧昧：$o$ 到底是不是零？如果是，为什么要写成 $2x + o$ 而非 $2x$？如果不是，为什么最后又把它"扔掉"了？大主教乔治·贝克莱（George Berkeley）在1734年的《分析学家》中辛辣地讽刺道： “这些流数（fluxions，牛顿的术语）是什么？是消逝的增量的速度。那么这些消逝的增量是什么？它们既不是有限的量，也不是无穷小的量，但也不是无。难道我们不能称它们为消逝的量的鬼魂吗？” 贝克莱的批评并非无理取闹。无穷小的概念确实充满了内在的矛盾：它既要参与运算（所以不能是零），又要在最后消失（所以必须被忽略）。这种"既要又要"的逻辑，在当时被称为无穷小的悖论。 1.2 柯西的初步严格化到了19世纪初，数学家们开始意识到问题的严重性。奥古斯丁-路易·柯西（Augustin-Louis Cauchy）在他的《分析教程》（1821年）中做出了重要的第一步。 ...

AI 论文解读系列：The Llama 3 Herd of Models —— 开源大模型的巅峰之作

引言：开源 AI 的黎明 2024 年 7 月 23 日，Meta AI 发布了一篇重磅论文——《The Llama 3 Herd of Models》。这篇论文不仅介绍了一个拥有 4050 亿参数的巨型语言模型，更标志着开源人工智能正式迈入了与闭源巨头分庭抗礼的新纪元。回想 2022 年底，ChatGPT 的横空出世让整个 AI 领域为之震动。然而，最强大的模型始终被封闭在 OpenAI、Google 等公司的围墙之内。研究者无法探究其内部机理，开发者无法自由定制，这种"黑箱"状态严重阻碍了 AI 技术的普惠发展。 Llama 3 的出现改变了这一切。Meta 不仅开源了完整的模型权重，还详细披露了从数据筛选到训练优化的每一个技术细节。这意味着，任何研究者和开发者都可以在自己的硬件上运行这个媲美 GPT-4 的模型，深入理解它的工作原理，甚至在此基础上进行创新。本文将带领读者深入这篇 92 页的论文，从数据、规模、复杂性管理三个核心维度，层层剥开 Llama 3 的技术奥秘。第一章：模型概览 —— “模型群"的设计理念 1.1 为什么叫 “Herd”（群）？论文标题中的 “Herd of Models” 并非随意命名。Meta 同时发布了三个不同规模的模型：模型参数量上下文长度目标场景 Llama 3 8B $8 \times 10^9$ 128K tokens 边缘设备、低延迟推理 Llama 3 70B $70 \times 10^9$ 128K tokens 平衡性能与效率 Llama 3 405B $405 \times 10^9$ 128K tokens 顶级性能、复杂推理这种"群"策略的核心思想是：用一个旗舰模型（405B）指导整个家族的优化方向，同时让每个成员在特定场景下发挥最大价值。 ...

AI 论文解读系列：Inception-v4 - Going Deeper with Convolutions

AI 论文解读系列：Inception-v4 - Going Deeper with Convolutions 引言 2016年2月，Google 的 Christian Szegedy 等人在 arXiv 上发表了一篇名为《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》的论文。这篇论文不仅是 Inception 系列发展的重要里程碑，更提出了一种革命性的思路：将 Inception 的多尺度特征提取能力与 ResNet 的残差连接相结合。让我们先回顾一下当时的背景。2015年，ResNet 横空出世，用简单的跳跃连接解决了深层网络的退化问题，将网络深度推向了一百层甚至上千层。与此同时，Inception-v3 以其独特的多分支结构，在计算效率和准确率之间取得了优异的平衡。一个自然的问题浮现出来：**这两种看似迥异的设计哲学能否融合？**如果能将 Inception 的高效特征提取与残差连接的优化优势结合起来，会发生什么？本文将系统性地解读这篇经典论文，从 Inception 系列的演进脉络出发，深入剖析 Inception-v4 的架构设计原理，探讨 Inception-ResNet 的创新之处，以及残差缩放这一关键技术的数学本质。图：Inception 系列演进历程与 ImageNet 竞赛 Top-5 错误率变化趋势第一章：Inception 的演进之路 1.1 Inception-v1：多尺度特征提取的开创要理解 Inception-v4，我们需要先回到2014年的 Inception-v1（GoogLeNet）。当时，深度学习领域的主流思路是"越深越好"——AlexNet 有8层，VGGNet 堆到了19层。但 Google 的研究者们提出了一个不同的观点：与其简单地堆叠相同的层，不如让网络自己选择如何组合不同尺度的特征。 Inception 模块的核心思想可以用一个简单的问题来概括：当我们观察一张图像时，我们究竟需要多大的感受野？识别一只猫的脸，可能只需要一个 $3 \times 3$ 的区域就能看清它的眼睛和鼻子但要判断这是一只完整卧着的猫，可能需要一个 $5 \times 5$ 的区域来捕捉整体轮廓而对于更宏观的场景理解，甚至需要更大的视野 Inception 模块的解决方案是并行使用不同大小的卷积核，让网络自己学习每种尺度的权重。一个典型的 Inception 模块包含四个分支： ...

AI 论文解读系列：GPT-3——当语言模型学会举一反三

引言：从海量数据中学习 2020 年 6 月，OpenAI 发表了一篇注定载入人工智能史册的论文：《Language Models are Few-Shot Learners》。这篇论文介绍了 GPT-3——一个拥有 1750 亿参数的巨型语言模型。这个数字意味着什么？如果将 GPT-3 的参数全部打印出来，使用标准字体，这些纸张可以从地球堆到月球——再返回地球好几个来回。但 GPT-3 的真正革命性之处不在于它的规模，而在于它展现出的少样本学习能力（Few-Shot Learning）。在此之前，如果我们想让一个 AI 模型完成翻译任务，需要用成千上万对双语句子"教"它；而 GPT-3 只需要看几个例子，就能理解任务并给出合理的输出。这篇文章将带你走进 GPT-3 的世界，理解它背后的数学原理、技术架构，以及它如何改变了我们对人工智能的认知。第一章：从 GPT-1 到 GPT-3 的演进之路 1.1 语言的统计本质在深入 GPT-3 之前，让我们先思考一个基本问题：什么是语言模型？从数学角度看，语言模型试图回答这样一个问题：给定一段已出现的词序列 $$\mathbf{x}_{...

AI 论文解读系列：ResNet 深度残差学习

AI 论文解读系列：ResNet 深度残差学习引言 2015 年，微软研究院的何恺明等人在 ImageNet 竞赛中提出了一个看似简单却极具革命性的想法：如果神经网络学习的是残差而非直接的映射，会发生什么？这个想法催生了 ResNet（Residual Network），一个拥有 152 层甚至 1000 多层的深度网络，不仅赢得了 ImageNet 2015 的冠军，更重要的是，它解决了困扰深度学习领域多年的一个核心问题——深层网络的退化。在 ResNet 出现之前，人们普遍认为更深的网络应该具有更强的表达能力。然而实践却给出了反直觉的结果：当网络层数增加到一定程度后，训练准确率反而下降。这不是过拟合，因为在训练集上的表现同样变差了。ResNet 的巧妙之处在于，它通过一个极其简单的跳跃连接（skip connection），让网络可以选择学习残差映射 $\mathcal{F}(\mathbf{x}) = \mathcal{H}(\mathbf{x}) - \mathbf{x}$，而非直接学习 $\mathcal{H}(\mathbf{x})$。本文将系统性地解读这篇经典论文，从问题背景、核心思想、数学推导、架构设计到实验验证，循序渐进地揭示 ResNet 为何如此有效。第一章：深层网络的困境 1.1 从浅层到深层：一个自然的假设深度学习的成功在很大程度上归功于深层神经网络强大的表示能力。从 LeNet-5 的 5 层，到 AlexNet 的 8 层，再到 VGGNet 的 16-19 层，网络深度的增加似乎与性能提升正相关。这种趋势背后的直觉很简单：更深的网络可以学习更复杂的特征层次结构。让我们形式化地思考这个问题。假设我们有一个浅层网络，它能够学习某个映射 $\mathcal{H}(\mathbf{x})$。如果我们在其后面添加更多层，直觉上，这些额外的层可以学习恒等映射（identity mapping），即直接输出输入：$\mathbf{y} = \mathbf{x}$。这样，深层网络至少应该和浅层网络表现一样好。然而，实践观察到的却是另一番景象。 1.2 退化问题：理论与现实的鸿沟 2015 年之前的研究者发现，当网络层数超过 20 层后，出现了一个令人困惑的现象：随着网络加深，训练误差不降反升。上图展示了在 CIFAR-10 数据集上的典型实验结果。20 层网络的训练误差约为 8%，而 56 层网络的训练误差却上升到了 20%。请注意，这是在训练集上的表现，因此这不是过拟合问题，而是优化问题。这个现象被称为退化问题（Degradation Problem）。它的存在表明： ...

蒙日-安培方程：从经典几何到现代分析的系统综述

引言：一个跨越两个半世纪的数学传奇 1771年，法国数学家加斯帕尔·蒙日（Gaspard Monge）在研究曲面和曲线理论时，写下了一个看似简单的方程。他或许不会想到，这个方程将在接下来的两个半世纪里，成为连接微分几何、偏微分方程、变分法和概率论的深刻纽带，并最终在2018年帮助阿莱西奥·菲加利（Alessio Figalli）获得菲尔兹奖。这个方程就是蒙日-安培方程（Monge-Ampère Equation）。图1：蒙日-安培方程从18世纪到现代的发展历程，涵盖了几何、分析和应用数学的多个里程碑。蒙日-安培方程的特殊之处在于它的完全非线性特性。与拉普拉斯方程或热方程这类线性方程不同，蒙日-安培方程涉及未知函数二阶导数的行列式——这是所有二阶导数的非线性组合。这种结构既带来了深刻的数学挑战，也赋予了它独特的几何意义。在本文中，我们将从三个维度深入探索这一优美的数学对象：历史维度：从蒙日的几何洞察到现代正则性理论理论维度：方程的结构、椭圆性理论和解的适定性应用维度：从凸几何到最优传输，从气象学到机器学习第一章：历史渊源——从蒙日到现代 1.1 蒙日的几何洞察（1771-1807）加斯帕尔·蒙日（1746-1818）是法国大革命时期的杰出数学家，被誉为画法几何的奠基人。他对曲面的研究源于工程学的实际问题：如何在二维平面上精确表示三维物体？ 1771年，蒙日在论文《Memoire sur les developpées, les rayons de courbure et les différens genres d’inflexions des courbes à double courbure》中首次研究了一类涉及曲面曲率的偏微分方程。他考虑的核心问题是：给定曲面的曲率信息，能否重建曲面本身？蒙日的洞察在于认识到曲面的高斯曲率与函数二阶导数之间的深刻联系。对于一个由 $z = u(x, y)$ 给出的曲面，其高斯曲率 $K$ 可以表示为： $$ K = \frac{u_{xx}u_{yy} - u_{xy}^2}{(1 + u_x^2 + u_y^2)^2} $$ 分子中的 $u_{xx}u_{yy} - u_{xy}^2$ 正是函数 $u$ 的Hessian行列式——蒙日-安培方程的核心结构。 1.2 安培的分析贡献（1820s）安德烈-玛丽·安培（André-Marie Ampère，1775-1836）更为人熟知的是他在电磁学方面的贡献（电流单位"安培"即以他命名）。但在1820年代，安培对蒙日的方程进行了系统的分析研究，将其推广到更一般的形式。安培考虑了方程的一般二阶形式： $$ A(u_{xx}u_{yy} - u_{xy}^2) + Bu_{xx} + Cu_{xy} + Du_{yy} + E = 0 $$ 其中系数 $A, B, C, D, E$ 可以依赖于 $(x, y, u, u_x, u_y)$。当 $A \neq 0$ 时，方程具有典型的蒙日-安培结构。 ...

[九] 彭罗斯-霍金奇点定理：广义相对论的终极边界

引言：时空的终极命运 1965年的一个春日，年轻的数学家罗杰·彭罗斯（Roger Penrose）正坐在剑桥大学的一个咖啡馆里，凝视着手中咖啡杯里旋转的泡沫。那一刻，一个改变物理学史的洞见在他脑海中闪现：如果一个恒星坍缩得足够致密，奇点的形成将是不可避免的——这不是由于某种特殊的对称性假设，而是源于引力的普遍性质。这个洞见最终发展成了著名的彭罗斯奇点定理（Penrose Singularity Theorem），它与斯蒂芬·霍金（Stephen Hawking）在1970年证明的霍金奇点定理一起，构成了广义相对论中最深刻的成果之一。彭罗斯因此在2020年获得了诺贝尔物理学奖，表彰他"发现黑洞形成是广义相对论的稳健预言"。但是，这些定理究竟说了什么？它们如何证明？又对我们的宇宙理解意味着什么？让我们从一个简单的观察开始：在牛顿引力理论中，如果向太空中抛掷一个球，它可能会落回地面，也可能逃逸到无穷远，这取决于初速度。但在广义相对论中，情况变得更为微妙——一旦物质足够集中，时空本身就会"撕裂"，产生奇点。图1：时空中的光锥结构。光锥将时空划分为未来、过去和类空区域，是理解因果结构的基石。在本文中，我们将踏上一段深入的数学物理之旅，从微分几何的基础概念出发，逐步构建理解奇点定理所需的理论框架，最终揭示这些定理的深刻内涵。第一章：预备知识——时空的数学结构 1.1 什么是时空？在广义相对论中，时空是一个四维的洛伦兹流形 $(M, g)$，其中： $M$ 是一个四维光滑流形 $g$ 是一个洛伦兹度规，其符号差为 $(-, +, +, +)$ 或 $(+, -, -, -)$ 这意味着在每一点 $p \in M$，度规 $g_p$ 在切空间 $T_p M$ 上定义了一个内积，允许我们计算向量的"长度"和"夹角"。但与黎曼几何不同，洛伦兹度规可以取负值，这导致了类时（timelike）、类光（null）和类空（spacelike）向量的区分。 $$ g(v, w) = g_{\mu\nu} v^{\mu} w^{\nu} $$ 对于任意向量 $v \in T_p M$：若 $g(v, v) < 0$：$v$ 是类时向量（对应实物体的世界线）若 $g(v, v) = 0$：$v$ 是类光向量（对应光线的世界线）若 $g(v, v) > 0$：$v$ 是类空向量（连接同时事件的线） 1.2 测地线与自由落体在广义相对论中，不受外力的粒子沿测地线运动。测地线是"最直"的曲线，满足测地线方程： ...

张量：从数学抽象到深度学习核心的系统综述

引言：多维世界的数学语言想象你正在观察一个正在旋转的陀螺。描述它需要多少参数？位置：$3$ 个坐标 $(x, y, z)$ 方向：$3$ 个欧拉角角速度：$3$ 个分量转动惯量：$9$ 个数（$3 \times 3$ 矩阵）这些量不仅仅是数字的集合，它们有特定的变换规则。当坐标系旋转时，位置和角速度按向量规则变换，而转动惯量则按更复杂的规则变换——这就是张量。在物理学中，张量是描述场的通用语言。爱因斯坦的广义相对论用张量写下： $$G_{\mu\nu} + \Lambda g_{\mu\nu} = \frac{8\pi G}{c^4} T_{\mu\nu}$$ 在深度学习中，一张 $224 \times 224$ 的彩色图像是 $224 \times 224 \times 3$ 的三阶张量。一批 $32$ 张这样的图像是 $32 \times 224 \times 224 \times 3$ 的四阶张量。本文将带你走进张量的世界，从数学定义到物理直觉，从代数运算到现代应用，理解为什么张量成为描述复杂系统的核心工具。第一章：张量的本质——超越矩阵的多维数组 1.1 从标量到张量在数学中，我们熟悉不同维度的对象：图 1：张量的维度层级。从0阶标量（单个数字）到1阶向量、2阶矩阵，再到3阶及更高阶张量，维度不断增加。 *0阶张量：标量标量只有一个数值，没有方向： $$a = 5, \quad T = 300\text{K}, \quad E = mc^2$$ 标量在坐标变换下不变——无论你从哪个角度看，温度始终是 $300$K。 ...

AlexNet：开启深度学习革命的里程碑

引言：一个时代的分水岭 $2012$ 年 $9$ 月 $30$ 日，多伦多大学的研究团队在 ImageNet 大规模视觉识别挑战赛（ILSVRC）上提交了一个卷积神经网络模型。当时，没有人意识到这将是一个历史性的时刻。这个模型叫做 AlexNet，以第一作者 Alex Krizhevsky 的名字命名。它在图像分类任务上将 Top-5 错误率从上一年的 $25.8%$ 骤降至 $16.4%$——降幅接近 $10$ 个百分点，远超第二名近 $10%$。这不是一次普通的进步，这是一次范式革命。在此之前，深度学习经历了漫长的"寒冬"。尽管 $1986$ 年反向传播算法已被提出，$1998$ 年 LeCun 的 LeNet 已经证明了卷积神经网络的潜力，但深层网络的训练一直受困于梯度消失、计算资源匮乏和数据不足等问题。 AlexNet 的突破不仅在于它赢得了比赛，更在于它证明了：深度神经网络可以在大规模数据集上有效训练，并且性能远超传统方法。这一证明，开启了人工智能的新纪元。第一章：黎明前的黑暗——深度学习的寒冬 1.1 感知机的兴衰要理解 AlexNet 的意义，我们需要回溯到神经网络的起源。 $1958$ 年，Frank Rosenblatt 提出了感知机（Perceptron），这是第一个能够学习的神经网络模型。Rosenblatt 乐观地宣称：“感知机最终将能够学习、做出决策和翻译语言。” 然而，$1969$ 年，Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中证明了感知机的局限性：它无法解决非线性可分问题，比如简单的异或（XOR）问题。这个打击是致命的。神经网络研究陷入了第一次寒冬。 1.2 反向传播的曙光与困境 $1986$ 年，Rumelhart、Hinton 和 Williams 重新发现了反向传播算法（Backpropagation），为训练多层神经网络提供了理论基础。反向传播的核心思想：给定损失函数 $L$，网络参数 $\mathbf{W}$，反向传播通过链式法则计算梯度： $$\frac{\partial L}{\partial w_{ij}^{(l)}} = \frac{\partial L}{\partial z_i^{(l)}} \cdot \frac{\partial z_i^{(l)}}{\partial w_{ij}^{(l)}} = \delta_i^{(l)} \cdot a_j^{(l-1)}$$ ...