论文解读 | s-ai-unix's Blog

AI 论文解读系列：AlphaZero - 从零开始的自我博弈通用算法

引言：超越人类知识 2017年12月，一个历史性的事件发生在伦敦 DeepMind 的实验室里。一个名为 AlphaZero 的算法，在仅接受游戏规则、没有任何人类棋谱输入的情况下，通过短短 24 小时的自我对弈训练，不仅掌握了国际象棋，还击败了当时世界最强的国际象棋程序 Stockfish。这不是科幻小说。2018 年 12 月，DeepMind 团队在《科学》杂志上发表了题为"Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"的论文，向世界展示了这一突破。 AlphaZero 的意义远超它击败的对手。它证明了：一个通用的学习算法可以从随机初始状态开始，仅通过自我博弈，就能达到超越人类数千年积累的专业知识水平。这一成就不仅震撼了棋类世界，更深刻地影响了我们对机器学习和人工智能的认知。第一章：从 AlphaGo 到 AlphaZero 1.1 AlphaGo 的局限要理解 AlphaZero 的革命性，我们需要先回顾它的前辈 AlphaGo。 AlphaGo 在 2016 年击败了围棋世界冠军李世石，这是人工智能史上的里程碑。但 AlphaGo 的训练过程依赖于人类专家的知识：监督学习阶段：使用 16 万盘人类高手棋谱训练策略网络强化学习阶段：在监督学习基础上进一步优化价值网络：需要人类棋谱数据进行训练这种对人类数据的依赖带来了几个问题：知识瓶颈：模型的上限受限于人类棋谱的质量领域限制：针对围棋设计的架构难以迁移到其他游戏数据成本：获取高质量人类棋谱需要大量资源 1.2 完全自主学习的愿景 AlphaZero 的核心突破在于：完全抛弃人类棋谱，从零开始学习。这一想法的理论基础来自强化学习的一个核心洞察：如果环境是确定的，且我们能够模拟环境的动态，那么一个智能体可以通过与环境的交互来学习最优策略，而无需任何外部示范。在棋类游戏中，这个条件完美满足：规则完全已知且确定可以完美模拟任意棋局的发展胜负结果是明确的奖励信号图 1：AlphaGo 与 AlphaZero 训练流程对比。AlphaGo 从人类棋谱开始，AlphaZero 则从随机初始化开始纯自我博弈 ...

AI 论文解读系列：AlphaGo - 深度学习与树搜索征服围棋

引言：最后的堡垒 2016年1月27日，伦敦。DeepMind 团队在《自然》杂志上发表了一篇注定要载入人工智能史册的论文：“Mastering the game of Go with deep neural networks and tree search”。这篇论文介绍了 AlphaGo——一个结合了深度神经网络和蒙特卡洛树搜索的计算机围棋程序。就在论文发表两个月后，AlphaGo 以 4:1 的比分击败了世界围棋冠军李世石。这是人工智能历史上的一个转折点。在此之前，围棋被普遍认为是人工智能难以攻克的"最后的堡垒"。为什么围棋如此困难？让我们从这个问题开始，逐步揭开 AlphaGo 的神秘面纱。第一章：围棋——人工智能的终极挑战 1.1 搜索空间的爆炸性增长围棋起源于中国，已有超过 2500 年的历史。它的规则极其简单：黑白双方轮流在 $19 \times 19$ 的棋盘交叉点上落子，以围地多者为胜。然而，这种简单规则却孕育出了近乎无穷的复杂性。从数学角度分析，围棋的复杂度体现在两个维度：分支因子：平均每步有约 250 种合法着法。相比之下，国际象棋约为 35。对局长度：典型围棋对局约有 150 步。国际象棋约为 80 步。游戏树的规模可以用 $b^d$ 来估计，其中 $b$ 是分支因子，$d$ 是深度。围棋的游戏树复杂度约为 $250^{150} \approx 10^{360}$，而国际象棋约为 $35^{80} \approx 10^{123}$。为了理解这个数字的庞大程度，可以对比：宇宙中估计的原子数量：约 $10^{80}$ 个可观测宇宙的体积（以普朗克体积计）：约 $10^{185}$ 这意味着，即使使用穷举搜索——即使我们拥有由宇宙中所有原子构成的超级计算机，每颗原子每秒能进行 $10^{20}$ 次运算——也无法在宇宙年龄（约 138 亿年）内遍历完围棋的所有可能局面。 1.2 局面评估的困难比搜索空间更棘手的是局面评估。在国际象棋中，程序员可以编写明确的评估函数：王的安全性、子力价值、控制中心等。这些启发式规则可以被形式化为可计算的函数。但在围棋中，局面评估极其微妙。一个看似被围困的棋子群可能在 20 步后"起死回生"；一片看似稳固的领地可能因为一个隐蔽的劫争而化为乌有。人类棋手依靠直觉和"棋感"来判断局面优劣，而这种直觉很难被编码为显式规则。 ...

AI 论文解读系列：BERT - 预训练深度双向 Transformer 的革命

引言：语言理解的瓶颈 2018年10月，Google AI Language 团队发布了一篇名为"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"的论文。这篇论文及其开源代码在 NLP 领域引发了一场革命。在 BERT 出现之前，自然语言处理面临一个根本性难题：如何让机器真正理解语言的上下文含义？传统的语言模型只能从左到右（或从右到左）单向处理文本，就像阅读时只能看到当前词之前的所有词，却无法看到之后的词。这种"管中窥豹"的方式严重限制了模型的理解能力。 BERT 的核心突破在于它提出了深度双向表示的概念——通过一种新的预训练目标，让模型同时考虑词语的左右上下文，从而获得更丰富、更准确的语言理解能力。本文将深入解读 BERT 的技术原理，从其核心思想出发，逐步揭示它如何改变了 NLP 的研究范式。第一章：从上下文说起——为什么双向如此重要 1.1 一词多义的困境自然语言的复杂性很大程度上源于一词多义。同一个词在不同的上下文中可能有完全不同的含义。考虑这两个句子： “他在银行工作。"（金融机构） “河边的银行种满了柳树。"（河岸）对于人类来说，区分这两个"银行"的含义轻而易举，因为我们能够同时看到这个词左右两侧的上下文。但对于单向语言模型来说，当它处理到"银行"这个词时，只能看到"他在"或"河边的”，无法获得足够的信息来做出准确判断。 1.2 传统语言模型的局限传统的语言模型采用自回归（Autoregressive）方式建模，即基于前文预测下一个词： $$ P(w_1, w_2, \ldots, w_n) = \prod_{i=1}^{n} P(w_i | w_1, \ldots, w_{i-1}) $$ GPT 等模型采用了这种从左到右的处理方式。虽然这种架构在生成任务（如机器翻译、文本摘要）中表现良好，但对于需要深度理解上下文的任务（如问答、情感分析）则存在天然的局限性。另一种尝试是浅层双向，如 ELMo。它分别训练一个从左到右和一个从右到左的语言模型，然后将两者的表示拼接起来。这种方法虽然考虑了双向信息，但两个方向的表示是独立计算的，而非真正的深度交互。图 1：语言模型架构对比。左图为单向模型只能看到左侧上下文，右图为 BERT 双向模型可以看到完整上下文第二章：Transformer——BERT 的基石在深入 BERT 之前，我们需要理解它的基础架构：Transformer。BERT 完全基于 Transformer 的 Encoder 部分构建。 2.1 注意力机制的魔力 Transformer 的核心是自注意力机制（Self-Attention）。与传统的循环神经网络（RNN）不同，自注意力允许模型直接建模序列中任意两个位置之间的关系，无论它们相距多远。 ...