数学 | s-ai-unix's Blog

微积分与机器学习：从变化率到神经网络梯度的完整旅程

引言：为什么需要微积分？想象你在山上，想找到最低点。你会怎么做？你会观察脚下的坡度，选择最陡峭的方向迈出一步，然后重复这个过程。这个简单的直觉——沿着负梯度方向走——正是现代人工智能的核心算法。从ChatGPT的语言模型到AlphaGo的围棋策略，从图像识别到语音合成，所有这些技术背后都有一个共同的数学基础：微积分。微积分研究的是变化。而机器学习本质上是关于优化——通过不断调整参数来减少错误。当我们在高维空间中优化复杂的神经网络时，微积分提供了描述和计算这种变化的精确语言。这篇文章将带你深入理解微积分如何驱动现代人工智能。我们不会停留在表面，而是会深入到数学推导的核心，揭示梯度下降、反向传播等算法的数学本质。这是一次从17世纪牛顿和莱布尼茨的发明，到21世纪深度学习革命的完整旅程。第一部分：微积分基础理论 1. 导数的本质：从变化率到瞬时变化率 1.1 变化率的直观理解变化率是人类最早思考的数学问题之一。如果一辆车2小时行驶100公里，平均速度是50公里/小时。但它某一时刻的瞬时速度是多少？微积分的答案是：用极限。考虑函数 $f(x)$ 在 $x_0$ 附近的平均变化率： $$ \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 当 $\Delta x \to 0$ 时，这个平均变化率的极限就是导数： $$ f^{\prime}(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 1.2 导数的几何意义几何直观：导数是切线的斜率。在 $x_0$ 处，曲线 $f(x)$ 可以用直线（切线）逼近： $$ f(x) \approx f(x_0) + f^{\prime}(x_0)(x - x_0) $$ 这就是一阶泰勒公式，也是线性化的思想：局部用简单的线性函数逼近复杂的非线性函数。严格定义（$\epsilon-\delta$ 语言）： $$ \forall \epsilon > 0, \exists \delta > 0 \text{ s.t. } |\Delta x| < \delta \implies \left|\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} - f^{\prime}(x_0)\right| < \epsilon $$ ...

黎曼几何：弯曲空间的优雅语言

引言：从平行公设到弯曲空间在人类思想的漫长历程中，欧几里得几何曾被视为绝对真理的典范。两千多年来，人们相信平行公设——“给定一条直线和一个点，通过该点有且仅有一条平行线”——是放之四海而皆准的真理。然而，数学的进步往往源于对"显而易见"的质疑。19世纪，几位大胆的数学家独立发现：如果改变平行公设，可以得到完全自洽的几何体系。高斯、波尔约、罗巴切夫斯基发现了双曲几何（负曲率几何），而黎曼则走得更远——他设想了一种全新的几何，其中空间的性质可以逐点变化。 1854年，黎曼在哥廷根大学的著名演讲《论几何基础的假设》中，提出了一个革命性的概念：空间本身可以是弯曲的，而且这种弯曲可以因位置而异。这一思想后来成为爱因斯坦广义相对论的数学基础。在黎曼几何中，距离不再由简单的勾股定理给出，而是由一个依赖于位置的"度量张量"决定。直线被"测地线"取代，平行移动会导致向量旋转，曲率不再是单一数值而是一个复杂的张量。在这篇文章中，我们将系统性地介绍黎曼几何的核心概念，从度量张量到曲率张量，从测地线到指数映射，从Ricci流到庞加莱猜想。我们不仅要理解这些概念的数学形式，更要感受它们所蕴含的深刻几何直觉。第一章：黎曼流形的基础概念 1.1 从欧氏空间到流形欧几里得空间 $\mathbb{R}^n$ 是最简单的几何空间。在 $\mathbb{R}^n$ 中，距离由勾股定理给出：两点 $x = (x_1, \ldots, x_n)$ 和 $y = (y_1, \ldots, y_n)$ 之间的距离是 $$ d(x, y) = \sqrt{\sum_{i=1}^n (y_i - x_i)^2} $$ 这个公式隐含了一个假设：空间在任何地方、任何方向上的"测量标准"都是一样的。但如果我们放松这个假设呢？黎曼流形的直觉：想象一张可以任意弯曲但不能拉伸的橡皮膜。膜上每一点的"拉伸程度"不同，导致距离的测量方式也不同。这就是黎曼流形的直观图像。定义：黎曼流形 $(M, g)$ 是一个光滑流形 $M$ 配备一个黎曼度量 $g$。黎曼度量 $g$ 是一个对称、正定的 $(0, 2)$ 型张量场，即在每一点 $p \in M$，$g_p$ 是切空间 $T_pM$ 上的内积。 1.2 局部坐标与度量张量在局部坐标系 $(x^1, \ldots, x^n)$ 下，黎曼度量可以表示为 $$ g = \sum_{i,j=1}^n g_{ij} dx^i \otimes dx^j $$ ...

偏微分方程：描述物理世界的数学语言

引言：方程背后的宇宙图景想象一下，你向平静的湖面扔下一颗石子。涟漪一圈圈向外扩散，逐渐消失。如果有人问你：用什么数学方程来描述这个现象？你可能会想到一个关于时间和空间的方程——这就是偏微分方程的雏形。偏微分方程（Partial Differential Equation, PDE）是描述物理世界的终极语言。它将复杂的时空演化浓缩进几个偏导数的关系中，从热量的扩散到波的传播，从流体的流动到量子的跃迁，无不遵循着偏微分方程的规律。 PDE 的历史可以追溯到 18 世纪。达朗贝尔、欧拉、伯努利等数学家在研究振动问题时，首次系统性地使用了偏微分方程。到了 19 世纪，傅里叶的热传导理论和纳维-斯托克斯方程的提出，进一步丰富了 PDE 的理论体系。20 世纪，希尔伯特、索伯列夫、施瓦茨等数学家为 PDE 建立了严格的泛函分析基础。在这篇文章中，我们将系统地介绍偏微分方程的经典理论。从三大基本方程开始，逐步深入到达朗贝尔公式、极值原理、格林函数，最后探讨薛定谔方程和纳维-斯托克斯方程。我们不仅要理解这些方程的数学形式，更要感受它们所蕴含的物理直觉和美学价值。第一章：三大基本方程偏微分方程的分类源于它们所描述的不同物理现象。椭圆型方程描述平衡状态，抛物型方程描述扩散过程，双曲型方程描述波动传播。这三类方程构成了 PDE 理论的基石。 1.1 拉普拉斯方程：平衡的语言拉普拉斯方程是最简单的椭圆型偏微分方程： $$ \Delta u = \frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2} + \frac{\partial^2 u}{\partial z^2} = 0 $$ 在二维情况下，它简化为： $$ \frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2} = 0 $$ 这个方程描述了什么？它描述的是一种平衡状态——没有源头，没有汇，函数值在任何点的"净流出"为零。物理意义：稳态温度分布、静电场、引力势、无源流体流动等都满足拉普拉斯方程。调和函数的美学：拉普拉斯方程的解被称为调和函数。它们有一个极其优雅的性质——均值定理：函数在任何点的值等于其周围邻域的平均值。图1：调和函数 $u = x^2 - y^2$ 的等值线。注意等值线呈现完美的双曲线形状，体现了拉普拉斯方程描述的对称与平衡。 1.2 热传导方程：熵增的数学表达热传导方程是抛物型偏微分方程的代表： $$ \frac{\partial u}{\partial t} = \alpha \Delta u = \alpha \left(\frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2} + \frac{\partial^2 u}{\partial z^2}\right) $$ ...

线性代数：从理论到 AI 应用的完整旅程

引言：为什么线性代数如此重要？想象你站在一个开阔的平原上,手中拿着一支箭。这支箭可以指向任何方向,可以伸长或缩短,可以与另一支箭相加。这就是向量的原始概念——一个既有方向又有大小的量。从这样简单的直观出发,人类发展出了一整套描述空间、变换和数据结构的数学语言:线性代数。线性代数的美妙之处在于它的简洁性和普遍性。在二维平面上,一个点可以用两个坐标 $(x, y)$ 表示;在三维空间中,需要三个坐标 $(x, y, z)$;而在机器学习中处理的数据可能有一千维、一万维,甚至更高。线性代数提供了一套统一的工具来处理这些高维空间,而且它的规律在任意维数下都保持不变。更令人惊讶的是,当你使用 ChatGPT、看 Netflix 推荐、或在 Google 搜索时,背后都有线性代数的身影。深度学习的神经网络本质上就是一系列线性变换和非线性激活的交替组合;推荐系统中的矩阵分解技术直接源自奇异值分解;而搜索引擎的 PageRank 算法则是特征值问题的经典应用。在这篇文章中,我们将踏上一段从理论到应用的完整旅程。我们会从向量空间的几何直观出发,理解线性变换的本质,然后逐步深入到机器学习和深度学习的核心算法中。我们不仅会学习"怎么做",更重要的是理解"为什么"——为什么奇异值分解如此强大?为什么梯度下降会收敛?为什么注意力机制能够工作? 让我们开始这段旅程。第一部分:线性代数基础理论 1. 向量空间的本质 1.1 从几何到抽象在二维平面上,我们习惯用坐标表示向量。向量 $\mathbf{v} = (3, 2)$ 表示从原点出发,沿 $x$ 轴移动 3 个单位,再沿 $y$ 轴移动 2 个单位。但向量的概念远不止于此。向量空间的抽象定义只需要 8 条公理: 加法封闭性: $\mathbf{u} + \mathbf{v}$ 仍在空间中加法交换律: $\mathbf{u} + \mathbf{v} = \mathbf{v} + \mathbf{u}$ 加法结合律: $(\mathbf{u} + \mathbf{v}) + \mathbf{w} = \mathbf{u} + (\mathbf{v} + \mathbf{w})$ 零向量存在: $\mathbf{0} + \mathbf{v} = \mathbf{v}$ 负向量存在: $\mathbf{v} + (-\mathbf{v}) = \mathbf{0}$ 数乘封闭性: $c\mathbf{v}$ 仍在空间中数乘分配律: $c(\mathbf{u} + \mathbf{v}) = c\mathbf{u} + c\mathbf{v}$ 数乘结合律: $c(d\mathbf{v}) = (cd)\mathbf{v}$ 这个定义看似抽象,但它统一了各种不同的对象: ...

柯西积分公式：复变函数论中的明珠

引言：从困惑到优雅在学习微积分时，我们经常遇到各种积分问题。有些积分可以通过基本方法直接计算，有些则需要巧妙的代换或分部积分。但当我们面对某些特定形式的积分时，会发现它们出奇地困难，甚至无法用初等方法解决。比如： $$ \int_{0}^{\infty} \frac{\cos x}{1 + x^2} dx $$ 这个积分看起来简单，但用实分析的方法来计算却相当复杂。然而，如果我们引入复变函数的工具，这个问题会变得异常简单。而这一切的核心，就是柯西积分公式。柯西积分公式是复变函数理论中最重要、最深刻的结果之一。它不仅告诉我们如何计算积分，更揭示了复变函数的一个本质特征：解析函数在边界上的值，完全决定了其内部的所有性质。这就像说，你只要知道一个人在门口说了什么，就能推断出他在房间里的一切行为一样神奇。图 1：复平面上的积分路径 $C$，内部包含点 $z_0$ 历史背景：柯西的洞见奥古斯丁-路易·柯西（Augustin-Louis Cauchy，1789-1857）是法国数学家，复变函数理论的主要奠基人。在19世纪初，数学界对复数的理解还相当有限。高斯虽然发展了复数理论，但主要是代数性质；而柯西则从分析的角度出发，系统地研究复变函数。 1825年，柯西发表了关于复积分的重要工作，提出了著名的柯西积分定理。在此基础上，他又进一步推导出了柯西积分公式。这个公式不仅具有理论意义，更在数学物理中有广泛的应用。柯西的贡献在于他认识到：复变函数的解析性（可微性）蕴含了极其丰富的结构。在实函数中，可微性只是一个相当弱的条件；但在复变函数中，解析性意味着函数可以用幂级数展开，满足柯西-黎曼方程，其积分具有路径无关性，等等。这一切都源于复导数的定义比实导数更严格。复变函数基础在深入柯西积分公式之前，我们需要理解几个基本概念。解析函数复变函数 $f(z)$ 在点 $z_0$ 处解析，意味着它在 $z_0$ 的某个邻域内可微。复导数的定义为： $$ f’(z_0) = \lim_{\Delta z \to 0} \frac{f(z_0 + \Delta z) - f(z_0)}{\Delta z} $$ 这里的 $\Delta z$ 可以从任意方向趋于零。这与实函数的导数有本质区别——实函数只需要左右导数存在且相等，而复函数要求所有方向的导数都相同。这个看似微小的差异，带来了巨大的后果。我们可以证明：如果 $f(z) = u(x,y) + i v(x,y)$ 在某点可微，那么其实部和虚部满足柯西-黎曼方程： $$ \frac{\partial u}{\partial x} = \frac{\partial v}{\partial y}, \quad \frac{\partial u}{\partial y} = -\frac{\partial v}{\partial x} $$ ...