深度学习 | s-ai-unix's Blog

AI 论文解读系列：BERT - 预训练深度双向 Transformer 的革命

引言：语言理解的瓶颈 2018年10月，Google AI Language 团队发布了一篇名为"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"的论文。这篇论文及其开源代码在 NLP 领域引发了一场革命。在 BERT 出现之前，自然语言处理面临一个根本性难题：如何让机器真正理解语言的上下文含义？传统的语言模型只能从左到右（或从右到左）单向处理文本，就像阅读时只能看到当前词之前的所有词，却无法看到之后的词。这种"管中窥豹"的方式严重限制了模型的理解能力。 BERT 的核心突破在于它提出了深度双向表示的概念——通过一种新的预训练目标，让模型同时考虑词语的左右上下文，从而获得更丰富、更准确的语言理解能力。本文将深入解读 BERT 的技术原理，从其核心思想出发，逐步揭示它如何改变了 NLP 的研究范式。第一章：从上下文说起——为什么双向如此重要 1.1 一词多义的困境自然语言的复杂性很大程度上源于一词多义。同一个词在不同的上下文中可能有完全不同的含义。考虑这两个句子： “他在银行工作。"（金融机构） “河边的银行种满了柳树。"（河岸）对于人类来说，区分这两个"银行"的含义轻而易举，因为我们能够同时看到这个词左右两侧的上下文。但对于单向语言模型来说，当它处理到"银行"这个词时，只能看到"他在"或"河边的”，无法获得足够的信息来做出准确判断。 1.2 传统语言模型的局限传统的语言模型采用自回归（Autoregressive）方式建模，即基于前文预测下一个词： $$ P(w_1, w_2, \ldots, w_n) = \prod_{i=1}^{n} P(w_i | w_1, \ldots, w_{i-1}) $$ GPT 等模型采用了这种从左到右的处理方式。虽然这种架构在生成任务（如机器翻译、文本摘要）中表现良好，但对于需要深度理解上下文的任务（如问答、情感分析）则存在天然的局限性。另一种尝试是浅层双向，如 ELMo。它分别训练一个从左到右和一个从右到左的语言模型，然后将两者的表示拼接起来。这种方法虽然考虑了双向信息，但两个方向的表示是独立计算的，而非真正的深度交互。图 1：语言模型架构对比。左图为单向模型只能看到左侧上下文，右图为 BERT 双向模型可以看到完整上下文第二章：Transformer——BERT 的基石在深入 BERT 之前，我们需要理解它的基础架构：Transformer。BERT 完全基于 Transformer 的 Encoder 部分构建。 2.1 注意力机制的魔力 Transformer 的核心是自注意力机制（Self-Attention）。与传统的循环神经网络（RNN）不同，自注意力允许模型直接建模序列中任意两个位置之间的关系，无论它们相距多远。 ...

AI 论文解读系列：Seq2Seq--从序列到序列的革命

引言：翻译的困境想象一下，你正在学习一门外语。当你听到一句法语 “Bonjour le monde” 时，你的大脑是如何将其转化为英语 “Hello world” 的？这不是简单的逐词替换。“Bonjour” 对应 “Hello”，但 “le monde” 是 “the world” 的倒序。词序不同，语法结构不同，甚至可能一个词对应多个词。传统的机器翻译系统使用基于规则的方法或统计模型，需要大量的人工特征工程和复杂的对齐算法。 2014年，Ilya Sutskever、Oriol Vinyals 和 Quoc Le 在 Google 发表了一篇改变游戏规则的论文：“Sequence to Sequence Learning with Neural Networks”。他们提出的 Seq2Seq 架构，用一个统一的神经网络模型取代了复杂的流水线，让机器翻译的准确率跃升到了新的高度。但这篇论文的意义远不止于翻译。它开创了序列转导（Sequence Transduction）这一全新的学习范式，为后来的注意力机制、Transformer 乃至大语言模型奠定了基础。第一章：序列转导问题 1.1 什么让序列数据特殊在深入 Seq2Seq 之前，让我们先理解序列数据的本质。传统的机器学习任务，比如图像分类或房价预测，输入和输出的维度是固定的。一张图片永远是 $224 \times 224 \times 3$ 的像素矩阵，一套房子的特征永远是卧室数、面积、位置等固定字段。但序列数据不同：一句话可能有 5 个词，也可能有 50 个词源语言和目标语言的词序可能不同一个概念可能用一个词表达，也可能用多个词上图展示了一个典型的机器翻译场景。输入序列 “Hello world this is a test” 需要被转换为 “Bonjour monde ceci est un test”。注意两个关键挑战： ...

AI 论文解读系列：Word2Vec - 词向量的革命

“You shall know a word by the company it keeps.” — John Rupert Firth 引言：从符号到语义想象一下，你正在阅读一篇关于"苹果"的文章。在"乔布斯推出了划时代的苹果产品"这句话中，“苹果"显然指的是一家公司；而在"我喜欢吃新鲜的苹果"中，它则是一种水果。人类能够毫不费力地根据上下文理解这种歧义，但对于计算机而言，这曾是一个巨大的挑战。在 Word2Vec 出现之前，自然语言处理主要依赖独热编码（One-Hot Encoding）：每个词都被表示为一个高维稀疏向量，向量中只有对应位置为 $1$，其余全为 $0$。“苹果"可能是 $[0, 0, 1, 0, \ldots, 0]$，“香蕉"是 $[0, 0, 0, 1, \ldots, 0]$。这种方法的问题显而易见：任意两个词之间的余弦相似度都是 $0$，模型完全无法捕捉"苹果"和"香蕉"都是水果这一语义关系。 2013 年，Tomas Mikolov 等人在 Google 提出了 Word2Vec，这是一种能够从大规模语料库中学习词向量表示的浅层神经网络。其核心思想简单却深刻：语义相近的词，其上下文也相似。这一方法不仅在多项语义和语法任务上取得了当时最先进的性能，更开启了深度学习在自然语言处理领域的广泛应用。本文将带你深入理解 Word2Vec 的数学原理，从神经概率语言模型出发，完整推导 CBOW 和 Skip-gram 两种架构，并探讨其在现代 NLP 中的深远影响。第一章：从词袋到神经语言模型 1.1 统计语言模型的演进语言模型的核心任务是计算一个句子出现的概率。对于包含 $n$ 个词的句子 $$w_1, w_2, \ldots, w_n$$ 其联合概率可以分解为： $$P(w_1, w_2, \ldots, w_n) = \prod_{i=1}^{n} P(w_i \mid w_1, \ldots, w_{i-1})$$ 这个分解基于链式法则，但直接估计这些条件概率面临维度灾难——历史词的组合数是指数级的。 ...

AI 论文解读系列 Vision Transformer cover image

AI 论文解读系列：Vision Transformer 视觉Transformer

AI 论文解读系列：Vision Transformer 视觉 Transformer 引言 2020 年，Google Research 发表了一篇极具颠覆性的论文《An Image is Worth 16$\times$16 Words: Transformers for Image Recognition at Scale》。这篇论文提出了 Vision Transformer（ViT），一个纯粹基于 Transformer 架构的视觉模型，在 ImageNet 分类任务上取得了与最先进的卷积神经网络（CNN）相媲美甚至超越的成绩。这个成果的震撼之处在于：在计算机视觉领域统治了整整十年的卷积神经网络，终于遇到了真正的挑战者。CNN 凭借其归纳偏置（局部性、平移等变性）在视觉任务中表现出色，而 Transformer 原本是为自然语言处理设计的序列模型。ViT 的成功证明，只要有足够的数据和计算资源，纯粹的注意力机制同样可以在视觉任务中大放异彩。本文将从注意力机制的基础出发，循序渐进地剖析 ViT 的架构设计、数学原理和训练策略，揭示为何"一张图片相当于 16$\times$16 个单词"这一简单想法能够改变计算机视觉的格局。第一章：从 CNN 到 Transformer 的范式转移 1.1 卷积神经网络的统治时代自 2012 年 AlexNet 在 ImageNet 竞赛中取得突破性成果以来，卷积神经网络（CNN）一直是计算机视觉领域的主流架构。CNN 的成功建立在几个关键设计之上：局部感受野（Local Receptive Fields）：每个神经元只与输入的局部区域连接，捕捉局部特征如边缘、纹理。权重共享（Weight Sharing）：同一个卷积核在整个输入上滑动，检测相同特征的不同位置。平移等变性（Translation Equivariance）：输入图像平移，特征图也相应平移，保持空间关系。这些归纳偏置（Inductive Bias）使 CNN 非常适合处理图像数据，但也带来了一些限制：感受野有限，需要堆叠多层才能获取全局信息对长距离依赖的建模能力较弱难以直接捕捉空间上相距较远的像素之间的关系 1.2 Transformer 在自然语言处理中的成功 2017 年，Google 在论文《Attention Is All You Need》中提出了 Transformer 架构，彻底改变了自然语言处理（NLP）领域。Transformer 完全基于自注意力机制（Self-Attention），摒弃了循环和卷积结构。 ...

AI 论文解读系列：ResNet 深度残差学习

AI 论文解读系列：ResNet 深度残差学习引言 2015 年，微软研究院的何恺明等人在 ImageNet 竞赛中提出了一个看似简单却极具革命性的想法：如果神经网络学习的是残差而非直接的映射，会发生什么？这个想法催生了 ResNet（Residual Network），一个拥有 152 层甚至 1000 多层的深度网络，不仅赢得了 ImageNet 2015 的冠军，更重要的是，它解决了困扰深度学习领域多年的一个核心问题——深层网络的退化。在 ResNet 出现之前，人们普遍认为更深的网络应该具有更强的表达能力。然而实践却给出了反直觉的结果：当网络层数增加到一定程度后，训练准确率反而下降。这不是过拟合，因为在训练集上的表现同样变差了。ResNet 的巧妙之处在于，它通过一个极其简单的跳跃连接（skip connection），让网络可以选择学习残差映射 $\mathcal{F}(\mathbf{x}) = \mathcal{H}(\mathbf{x}) - \mathbf{x}$，而非直接学习 $\mathcal{H}(\mathbf{x})$。本文将系统性地解读这篇经典论文，从问题背景、核心思想、数学推导、架构设计到实验验证，循序渐进地揭示 ResNet 为何如此有效。第一章：深层网络的困境 1.1 从浅层到深层：一个自然的假设深度学习的成功在很大程度上归功于深层神经网络强大的表示能力。从 LeNet-5 的 5 层，到 AlexNet 的 8 层，再到 VGGNet 的 16-19 层，网络深度的增加似乎与性能提升正相关。这种趋势背后的直觉很简单：更深的网络可以学习更复杂的特征层次结构。让我们形式化地思考这个问题。假设我们有一个浅层网络，它能够学习某个映射 $\mathcal{H}(\mathbf{x})$。如果我们在其后面添加更多层，直觉上，这些额外的层可以学习恒等映射（identity mapping），即直接输出输入：$\mathbf{y} = \mathbf{x}$。这样，深层网络至少应该和浅层网络表现一样好。然而，实践观察到的却是另一番景象。 1.2 退化问题：理论与现实的鸿沟 2015 年之前的研究者发现，当网络层数超过 20 层后，出现了一个令人困惑的现象：随着网络加深，训练误差不降反升。上图展示了在 CIFAR-10 数据集上的典型实验结果。20 层网络的训练误差约为 8%，而 56 层网络的训练误差却上升到了 20%。请注意，这是在训练集上的表现，因此这不是过拟合问题，而是优化问题。这个现象被称为退化问题（Degradation Problem）。它的存在表明： ...

张量：从数学抽象到深度学习核心的系统综述

引言：多维世界的数学语言想象你正在观察一个正在旋转的陀螺。描述它需要多少参数？位置：$3$ 个坐标 $(x, y, z)$ 方向：$3$ 个欧拉角角速度：$3$ 个分量转动惯量：$9$ 个数（$3 \times 3$ 矩阵）这些量不仅仅是数字的集合，它们有特定的变换规则。当坐标系旋转时，位置和角速度按向量规则变换，而转动惯量则按更复杂的规则变换——这就是张量。在物理学中，张量是描述场的通用语言。爱因斯坦的广义相对论用张量写下： $$G_{\mu\nu} + \Lambda g_{\mu\nu} = \frac{8\pi G}{c^4} T_{\mu\nu}$$ 在深度学习中，一张 $224 \times 224$ 的彩色图像是 $224 \times 224 \times 3$ 的三阶张量。一批 $32$ 张这样的图像是 $32 \times 224 \times 224 \times 3$ 的四阶张量。本文将带你走进张量的世界，从数学定义到物理直觉，从代数运算到现代应用，理解为什么张量成为描述复杂系统的核心工具。第一章：张量的本质——超越矩阵的多维数组 1.1 从标量到张量在数学中，我们熟悉不同维度的对象：图 1：张量的维度层级。从0阶标量（单个数字）到1阶向量、2阶矩阵，再到3阶及更高阶张量，维度不断增加。 *0阶张量：标量标量只有一个数值，没有方向： $$a = 5, \quad T = 300\text{K}, \quad E = mc^2$$ 标量在坐标变换下不变——无论你从哪个角度看，温度始终是 $300$K。 ...

AlexNet：开启深度学习革命的里程碑

引言：一个时代的分水岭 $2012$ 年 $9$ 月 $30$ 日，多伦多大学的研究团队在 ImageNet 大规模视觉识别挑战赛（ILSVRC）上提交了一个卷积神经网络模型。当时，没有人意识到这将是一个历史性的时刻。这个模型叫做 AlexNet，以第一作者 Alex Krizhevsky 的名字命名。它在图像分类任务上将 Top-5 错误率从上一年的 $25.8%$ 骤降至 $16.4%$——降幅接近 $10$ 个百分点，远超第二名近 $10%$。这不是一次普通的进步，这是一次范式革命。在此之前，深度学习经历了漫长的"寒冬"。尽管 $1986$ 年反向传播算法已被提出，$1998$ 年 LeCun 的 LeNet 已经证明了卷积神经网络的潜力，但深层网络的训练一直受困于梯度消失、计算资源匮乏和数据不足等问题。 AlexNet 的突破不仅在于它赢得了比赛，更在于它证明了：深度神经网络可以在大规模数据集上有效训练，并且性能远超传统方法。这一证明，开启了人工智能的新纪元。第一章：黎明前的黑暗——深度学习的寒冬 1.1 感知机的兴衰要理解 AlexNet 的意义，我们需要回溯到神经网络的起源。 $1958$ 年，Frank Rosenblatt 提出了感知机（Perceptron），这是第一个能够学习的神经网络模型。Rosenblatt 乐观地宣称：“感知机最终将能够学习、做出决策和翻译语言。” 然而，$1969$ 年，Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中证明了感知机的局限性：它无法解决非线性可分问题，比如简单的异或（XOR）问题。这个打击是致命的。神经网络研究陷入了第一次寒冬。 1.2 反向传播的曙光与困境 $1986$ 年，Rumelhart、Hinton 和 Williams 重新发现了反向传播算法（Backpropagation），为训练多层神经网络提供了理论基础。反向传播的核心思想：给定损失函数 $L$，网络参数 $\mathbf{W}$，反向传播通过链式法则计算梯度： $$\frac{\partial L}{\partial w_{ij}^{(l)}} = \frac{\partial L}{\partial z_i^{(l)}} \cdot \frac{\partial z_i^{(l)}}{\partial w_{ij}^{(l)}} = \delta_i^{(l)} \cdot a_j^{(l-1)}$$ ...

微分几何与深度学习：从流形假设到几何深度学习

引言：当深度学习遇见弯曲的空间 2012年，AlexNet 在 ImageNet 竞赛中以压倒性优势获胜，深度学习正式进入大众视野。此后，神经网络在各种任务上展现出惊人能力：图像识别、语音识别、机器翻译、游戏对战……但有一个问题始终困扰着研究者：为什么神经网络能够如此有效地学习？答案或许藏在数据的本质结构中。想象你正在看一张人脸照片——1000 $\times$ 1000 像素的图像意味着这是一个百万维的空间中的点。但所有人脸照片都分布在这个百万维空间的一个极小子集上。为什么？因为真实的人脸受到物理规律的约束：两只眼睛在鼻子两侧，嘴巴在鼻子下方，等等。这个子集不是随机的散点集合，而是一个流形（manifold）——一个局部看起来像欧几里得空间，但整体上可能弯曲、扭转的几何对象。流形假设（Manifold Hypothesis）是连接微分几何与深度学习的桥梁：真实世界的高维数据往往分布在一个低维流形上。这个假设解释了为什么深度学习能够成功，也指明了改进的方向。从流形学习的早期算法，到现代的几何深度学习，微分几何正在成为理解神经网络本质的重要语言。让我们从最基本的流形概念开始，逐步揭开这层神秘的面纱。第一章：流形假设——数据的几何本质 1.1 什么是流形？在正式定义之前，让我们从一个直观的例子开始。想象一只蚂蚁生活在地球表面。对于这只蚂蚁来说，地面看起来是平的——它可以向前、向后、向左、向右移动。只有当它旅行了很长距离后，才会意识到这个世界是弯曲的（比如绕地球一圈回到原点）。流形正是这种"局部平坦，整体弯曲"的空间。数学上，一个 $n$ 维流形 $\mathcal{M}$ 是一个拓扑空间，其中每一点 $p \in \mathcal{M}$ 都有一个邻域，同胚于 $\mathbb{R}^n$。关键特性：局部坐标：在任何小区域内，我们可以用 $n$ 个坐标 $(x^1, x^2, \ldots, x^n)$ 描述位置过渡函数：不同坐标系统之间的变换必须是光滑的全局结构：局部坐标片可以"缝合"成复杂的整体结构图1：流形学习的核心思想——高维数据（如瑞士卷）实际上分布在一个低维流形上，学习的目标就是"展开"这个流形，发现其内在的低维结构。 1.2 数据流形：从高维到低维现在回到深度学习。考虑以下例子： MNIST 手写数字：每个图像是 $28 \times 28 = 784$ 维的向量。但所有"3"的图像并不随机分布在 784 维空间中——它们形成了一个高度结构化的集合。写下"3"的方式虽然变化多端，但受到人体解剖学和书写习惯的约束。人脸图像：如引言所述，人脸图像分布在由身份、表情、光照、角度等参数控制的低维流形上。这些参数可能有几十个，但远小于百万级的像素维度。词向量：自然语言处理中的词嵌入将词汇映射到连续向量空间。语义相近的词在向量空间中也相近，形成某种几何结构。流形维数的估计：如何确定数据流形的维数？这是一个活跃的研究领域。常用方法包括：主成分分析（PCA）：线性估计本征维数估计：基于最近邻距离的统计方法分形维数：对于复杂结构的数据 1.3 为什么流形结构重要？理解数据的流形结构对深度学习有多方面的意义： 1. 维度灾难的缓解在 $d$ 维欧几里得空间中，要覆盖单位立方体到精度 $\epsilon$，需要 $O(\epsilon^{-d})$ 个样本。这就是维度灾难。 ...

微积分与机器学习：从变化率到神经网络梯度的完整旅程

引言：为什么需要微积分？想象你在山上，想找到最低点。你会怎么做？你会观察脚下的坡度，选择最陡峭的方向迈出一步，然后重复这个过程。这个简单的直觉——沿着负梯度方向走——正是现代人工智能的核心算法。从ChatGPT的语言模型到AlphaGo的围棋策略，从图像识别到语音合成，所有这些技术背后都有一个共同的数学基础：微积分。微积分研究的是变化。而机器学习本质上是关于优化——通过不断调整参数来减少错误。当我们在高维空间中优化复杂的神经网络时，微积分提供了描述和计算这种变化的精确语言。这篇文章将带你深入理解微积分如何驱动现代人工智能。我们不会停留在表面，而是会深入到数学推导的核心，揭示梯度下降、反向传播等算法的数学本质。这是一次从17世纪牛顿和莱布尼茨的发明，到21世纪深度学习革命的完整旅程。第一部分：微积分基础理论 1. 导数的本质：从变化率到瞬时变化率 1.1 变化率的直观理解变化率是人类最早思考的数学问题之一。如果一辆车2小时行驶100公里，平均速度是50公里/小时。但它某一时刻的瞬时速度是多少？微积分的答案是：用极限。考虑函数 $f(x)$ 在 $x_0$ 附近的平均变化率： $$ \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 当 $\Delta x \to 0$ 时，这个平均变化率的极限就是导数： $$ f^{\prime}(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} $$ 1.2 导数的几何意义几何直观：导数是切线的斜率。在 $x_0$ 处，曲线 $f(x)$ 可以用直线（切线）逼近： $$ f(x) \approx f(x_0) + f^{\prime}(x_0)(x - x_0) $$ 这就是一阶泰勒公式，也是线性化的思想：局部用简单的线性函数逼近复杂的非线性函数。严格定义（$\epsilon-\delta$ 语言）： $$ \forall \epsilon > 0, \exists \delta > 0 \text{ s.t. } |\Delta x| < \delta \implies \left|\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} - f^{\prime}(x_0)\right| < \epsilon $$ ...

信息几何：在概率空间中寻找最短路径

引言：当概率成为空间上的点想象一下，你站在一个巨大的画廊里。墙上挂着无数幅画，每一幅画都是一张概率分布的直方图。如果你要量化两幅画之间的"距离"，你会怎么做？直接比较每个柱子的高度差异？还是考虑某种更本质的、统计学意义上的距离？这个问题触及了统计学的核心：如何量化两个概率分布之间的差异。传统的做法是使用 KL 散度或互信息，但这些度量缺乏几何直观——它们不是真正的"距离"，也不满足三角不等式。信息几何给出了一种全新的视角：将所有概率分布看作一个黎曼流形，每个分布是流形上的一个点，Fisher 信息矩阵定义了这个流形上的度量张量。在这个框架下，我们可以谈论"两点之间的最短路径"（测地线），可以计算"梯度"（自然梯度），可以定义"曲率"（统计流形的曲率）。这个领域的诞生可以追溯到 1945 年，印度统计学家 C. R. Rao 提出了 Fisher 信息度量可以作为微分几何的度量张量。此后，法国数学家 Amari 系统性地发展了信息几何的理论，并将其与神经网络、优化算法相结合。在这篇文章中，我们将从基础概念开始，系统性地介绍信息几何的核心理论，探讨其在深度学习中的应用，并对未来的发展方向做出展望。第一章：几何概率空间 1.1 概率分布作为流形考虑一个简单的例子：所有零均值、单位方差的一维高斯分布 $\mathcal{N}(0, \sigma^2)$ 可以用一个参数 $\sigma$ 来表示。但如果我们考虑所有可能的高斯分布 $\mathcal{N}(\mu, \sigma^2)$，这就变成了一个二维的空间。更一般地，考虑一个参数族 $\mathcal{P} = {p(x \mid \theta) : \theta \in \Theta}$，其中 $\theta \in \mathbb{R}^n$ 是参数。这个参数族可以看作一个 $n$ 维的流形——这就是统计流形。关键洞察：每个概率分布不是孤立的对象，而是镶嵌在无穷维分布空间中的一个点。信息几何的任务就是给这个流形装备一个自然的几何结构。 1.2 Fisher 信息度量 1945 年，C. R. Rao 发现了一个重要的事实：Fisher 信息矩阵可以定义一个黎曼度量。定义：对于参数族 $p(x \mid \theta)$，Fisher 信息矩阵定义为： $$ I(\theta){ij} = \mathbb{E}{p(x \mid \theta)}\left[\frac{\partial \log p(x \mid \theta)}{\partial \theta_i} \frac{\partial \log p(x \mid \theta)}{\partial \theta_j}\right] $$ ...