强化学习

引言：超越人类知识 2017年12月，一个历史性的事件发生在伦敦 DeepMind 的实验室里。一个名为 AlphaZero 的算法，在仅接受游戏规则、没有任何人类棋谱输入的情况下，通过短短 24 小时的自我对弈训练，不仅掌握了国际象棋，还击败了当时世界最强的国际象棋程序 Stockfish。这不是科幻小说。2018 年 12 月，DeepMind 团队在《科学》杂志上发表了题为"Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"的论文，向世界展示了这一突破。 AlphaZero 的意义远超它击败的对手。它证明了：一个通用的学习算法可以从随机初始状态开始，仅通过自我博弈，就能达到超越人类数千年积累的专业知识水平。这一成就不仅震撼了棋类世界，更深刻地影响了我们对机器学习和人工智能的认知。第一章：从 AlphaGo 到 AlphaZero 1.1 AlphaGo 的局限要理解 AlphaZero 的革命性，我们需要先回顾它的前辈 AlphaGo。 AlphaGo 在 2016 年击败了围棋世界冠军李世石，这是人工智能史上的里程碑。但 AlphaGo 的训练过程依赖于人类专家的知识：监督学习阶段：使用 16 万盘人类高手棋谱训练策略网络强化学习阶段：在监督学习基础上进一步优化价值网络：需要人类棋谱数据进行训练这种对人类数据的依赖带来了几个问题：知识瓶颈：模型的上限受限于人类棋谱的质量领域限制：针对围棋设计的架构难以迁移到其他游戏数据成本：获取高质量人类棋谱需要大量资源 1.2 完全自主学习的愿景 AlphaZero 的核心突破在于：完全抛弃人类棋谱，从零开始学习。这一想法的理论基础来自强化学习的一个核心洞察：如果环境是确定的，且我们能够模拟环境的动态，那么一个智能体可以通过与环境的交互来学习最优策略，而无需任何外部示范。在棋类游戏中，这个条件完美满足：规则完全已知且确定可以完美模拟任意棋局的发展胜负结果是明确的奖励信号图 1：AlphaGo 与 AlphaZero 训练流程对比。AlphaGo 从人类棋谱开始，AlphaZero 则从随机初始化开始纯自我博弈 ...

引言：最后的堡垒 2016年1月27日，伦敦。DeepMind 团队在《自然》杂志上发表了一篇注定要载入人工智能史册的论文：“Mastering the game of Go with deep neural networks and tree search”。这篇论文介绍了 AlphaGo——一个结合了深度神经网络和蒙特卡洛树搜索的计算机围棋程序。就在论文发表两个月后，AlphaGo 以 4:1 的比分击败了世界围棋冠军李世石。这是人工智能历史上的一个转折点。在此之前，围棋被普遍认为是人工智能难以攻克的"最后的堡垒"。为什么围棋如此困难？让我们从这个问题开始，逐步揭开 AlphaGo 的神秘面纱。第一章：围棋——人工智能的终极挑战 1.1 搜索空间的爆炸性增长围棋起源于中国，已有超过 2500 年的历史。它的规则极其简单：黑白双方轮流在 $19 \times 19$ 的棋盘交叉点上落子，以围地多者为胜。然而，这种简单规则却孕育出了近乎无穷的复杂性。从数学角度分析，围棋的复杂度体现在两个维度：分支因子：平均每步有约 250 种合法着法。相比之下，国际象棋约为 35。对局长度：典型围棋对局约有 150 步。国际象棋约为 80 步。游戏树的规模可以用 $b^d$ 来估计，其中 $b$ 是分支因子，$d$ 是深度。围棋的游戏树复杂度约为 $250^{150} \approx 10^{360}$，而国际象棋约为 $35^{80} \approx 10^{123}$。为了理解这个数字的庞大程度，可以对比：宇宙中估计的原子数量：约 $10^{80}$ 个可观测宇宙的体积（以普朗克体积计）：约 $10^{185}$ 这意味着，即使使用穷举搜索——即使我们拥有由宇宙中所有原子构成的超级计算机，每颗原子每秒能进行 $10^{20}$ 次运算——也无法在宇宙年龄（约 138 亿年）内遍历完围棋的所有可能局面。 1.2 局面评估的困难比搜索空间更棘手的是局面评估。在国际象棋中，程序员可以编写明确的评估函数：王的安全性、子力价值、控制中心等。这些启发式规则可以被形式化为可计算的函数。但在围棋中，局面评估极其微妙。一个看似被围困的棋子群可能在 20 步后"起死回生"；一片看似稳固的领地可能因为一个隐蔽的劫争而化为乌有。人类棋手依靠直觉和"棋感"来判断局面优劣，而这种直觉很难被编码为显式规则。 ...

AI 论文解读系列：AlphaZero - 从零开始的自我博弈通用算法

AI 论文解读系列：AlphaGo - 深度学习与树搜索征服围棋