大语言模型

前三篇我们走过了理论计算机科学的三座高峰。所罗门诺夫归纳给出了最优雅的预测框架，柯尔莫哥洛夫复杂性定义了信息的绝对尺度，计算理论揭示了宇宙底层的运行逻辑。但这三座高峰都有一个共同特点：它们是纯粹的理论。黑板上的公式，思想实验里的纸带。纯粹的理论如果不能变成工程，就永远是符号。今天这篇，是整个系列的终篇。我们来看看，这些深邃的第一性原理，是如何被一个人浓缩成了一句极其简单的话，然后彻底改变了世界的。那个人叫 Ilya Sutskever。第一章：最笨的方法图1：无数张写满晦涩公式的图纸，最终熔铸成了一枚发光的、能够回答任何问题的晶体。很长一段时间里，AI 学界对「如何实现 AGI」争论不休。有人主张建立庞大的符号逻辑知识库，有人主张模拟大脑的生物学细节，有人觉得需要全新的范式。但最终取得突破的，是一种看起来「最笨」的方法：给神经网络输入海量文本，让它玩一个无穷无尽的游戏——预测下一个词。当 GPT-3、GPT-4 展现出令人瞠目的推理和创造力时，很多传统 AI 学者感到困惑。「它明明只是在做统计上的词汇接龙，怎么可能拥有智能？」 Ilya Sutskever 不困惑。他从未困惑过。第二章：Ilya 的核心信念图2：一位戴着眼镜的工程师，正凝视着由无数纷乱字母汇聚成的一条笔直的光束。 Ilya 有一个坚定不移的信念：如果一个模型能够完美地预测一段文本的后续内容，它就必须深刻理解这段文本背后的物理世界和人类逻辑。听起来有点夸张。预测下一个词，不就是根据概率分布猜吗？设想这个句子：「因为外面下着暴雨，所以当小明不打伞走回家后，他的衣服一定会……」任何人都会脱口而出：「湿透」。但为了让模型准确预测出「湿透」这个词，模型必须在内部建立起一套隐式的世界模型：它得懂得什么是「雨」，什么是「伞」，什么是「衣服的物理性质」，以及「走在雨中不打伞」的因果关系。如果语料库涵盖了人类所有的知识——从量子力学的论文到莎士比亚的十四行诗，从 Python 代码到菜谱——那为了完美预测这些文本，模型就被迫使在内部建立起整个世界的计算模拟。这不是比喻。这是数学。第三章：预测即压缩，压缩即理解图3：一台巨大的液压机，将海量的乱码和文字挤压成一颗闪烁着智慧光芒的微小钻石。回到我们前两篇讨论过的理论工具。在所罗门诺夫归纳中，完美的预测来自找到生成数据的最短程序。在柯尔莫哥洛夫复杂性中，「理解」一段数据就是将它最大限度地压缩。预测和压缩在数学上是等价的。如果你能准确预测数据，就能用更少的比特编码它（算术编码）。如果你能高度压缩数据，就意味着你有一个好的预测模型。这是香农信息论和算法信息论的交叉点。大语言模型的训练过程——反向传播优化交叉熵损失——本质上就是一个极致的数据压缩过程。模型有几百亿甚至数千亿个参数，但相对于它吞噬的万亿级训练数据，这仍然是一个极小的瓶颈。为了把极其庞大的数据塞进相对较小的权重矩阵中，模型不能死记硬背（容量不够），它必须寻找数据中最底层、最普适的规律。牛顿定律是压缩，麦克斯韦方程组是压缩，GPT 的权重矩阵同样是人类文明数据的压缩。压缩到极致，就是理解。第四章：涌现与世界的统计模型图4：在由文字排列成的矩阵屏幕后，隐藏着一个微缩而生动的真实三维世界。很多人批评 LLM 只是「随机鹦鹉」（Stochastic Parrots），在统计层面模仿人类的语言模式，并不真正理解任何东西。这种批评忽略了计算理论的威力。根据泛计算主义的视角，世界的本质是计算。人类用语言描述这个世界，语言就是这个计算世界的投影，或者说，是通用图灵机输出的纸带。当大语言模型在数百个 GPU 上日以继夜地阅读这根长达万亿比特的「纸带」，试图预测下一个符号时，它其实在进行一项宏大的反向工程——寻找能够生成这根纸带的那个通用图灵机的内部状态。当模型规模跨过某个临界点时，涌现发生了。模型不再只是记录词与词之间的表面共现频率，而是构建出了抽象的概念层级、逻辑推理能力，甚至某种程度的自我认知。 Ilya 多次在公开场合表达过类似的想法：文本是世界的投影，通过预测文本来逆向还原世界的心智模型，这条路径在理论上是站得住的。第五章：通往 AGI 的阶梯图5：由数据方块、算力齿轮和算法图纸铺就的一条阶梯，直通向充满无限可能的云端。 AI 的第一性原理不仅解释了为什么 LLM 会成功，更指明了通往 AGI 的方向。 ...

大语言模型

AI 第一性原理（四）：Ilya Sutskever 与「预测即理解」的终极实践

AI 论文解读系列：The Llama 3 Herd of Models —— 开源大模型的巅峰之作