AI 第一性原理（四）：Ilya Sutskever 与「预测即理解」的终极实践

前三篇我们走过了理论计算机科学的三座高峰。所罗门诺夫归纳给出了最优雅的预测框架，柯尔莫哥洛夫复杂性定义了信息的绝对尺度，计算理论揭示了宇宙底层的运行逻辑。

但这三座高峰都有一个共同特点：它们是纯粹的理论。黑板上的公式，思想实验里的纸带。

纯粹的理论如果不能变成工程，就永远是符号。今天这篇，是整个系列的终篇。我们来看看，这些深邃的第一性原理，是如何被一个人浓缩成了一句极其简单的话，然后彻底改变了世界的。

那个人叫 Ilya Sutskever。

第一章：最笨的方法

理论与现实配图

图1：无数张写满晦涩公式的图纸，最终熔铸成了一枚发光的、能够回答任何问题的晶体。

很长一段时间里，AI 学界对「如何实现 AGI」争论不休。有人主张建立庞大的符号逻辑知识库，有人主张模拟大脑的生物学细节，有人觉得需要全新的范式。

但最终取得突破的，是一种看起来「最笨」的方法：给神经网络输入海量文本，让它玩一个无穷无尽的游戏——预测下一个词。

当 GPT-3、GPT-4 展现出令人瞠目的推理和创造力时，很多传统 AI 学者感到困惑。「它明明只是在做统计上的词汇接龙，怎么可能拥有智能？」

Ilya Sutskever 不困惑。他从未困惑过。

第二章：Ilya 的核心信念

Ilya信念配图

图2：一位戴着眼镜的工程师，正凝视着由无数纷乱字母汇聚成的一条笔直的光束。

Ilya 有一个坚定不移的信念：如果一个模型能够完美地预测一段文本的后续内容，它就必须深刻理解这段文本背后的物理世界和人类逻辑。

听起来有点夸张。预测下一个词，不就是根据概率分布猜吗？

设想这个句子：「因为外面下着暴雨，所以当小明不打伞走回家后，他的衣服一定会……」

任何人都会脱口而出：「湿透」。

但为了让模型准确预测出「湿透」这个词，模型必须在内部建立起一套隐式的世界模型：它得懂得什么是「雨」，什么是「伞」，什么是「衣服的物理性质」，以及「走在雨中不打伞」的因果关系。

如果语料库涵盖了人类所有的知识——从量子力学的论文到莎士比亚的十四行诗，从 Python 代码到菜谱——那为了完美预测这些文本，模型就被迫使在内部建立起整个世界的计算模拟。

这不是比喻。这是数学。

第三章：预测即压缩，压缩即理解

压缩即理解配图

图3：一台巨大的液压机，将海量的乱码和文字挤压成一颗闪烁着智慧光芒的微小钻石。

回到我们前两篇讨论过的理论工具。

在所罗门诺夫归纳中，完美的预测来自找到生成数据的最短程序。在柯尔莫哥洛夫复杂性中，「理解」一段数据就是将它最大限度地压缩。

预测和压缩在数学上是等价的。如果你能准确预测数据，就能用更少的比特编码它（算术编码）。如果你能高度压缩数据，就意味着你有一个好的预测模型。这是香农信息论和算法信息论的交叉点。

大语言模型的训练过程——反向传播优化交叉熵损失——本质上就是一个极致的数据压缩过程。模型有几百亿甚至数千亿个参数，但相对于它吞噬的万亿级训练数据，这仍然是一个极小的瓶颈。

为了把极其庞大的数据塞进相对较小的权重矩阵中，模型不能死记硬背（容量不够），它必须寻找数据中最底层、最普适的规律。牛顿定律是压缩，麦克斯韦方程组是压缩，GPT 的权重矩阵同样是人类文明数据的压缩。

压缩到极致，就是理解。

第四章：涌现与世界的统计模型

世界模型配图

图4：在由文字排列成的矩阵屏幕后，隐藏着一个微缩而生动的真实三维世界。

很多人批评 LLM 只是「随机鹦鹉」（Stochastic Parrots），在统计层面模仿人类的语言模式，并不真正理解任何东西。

这种批评忽略了计算理论的威力。

根据泛计算主义的视角，世界的本质是计算。人类用语言描述这个世界，语言就是这个计算世界的投影，或者说，是通用图灵机输出的纸带。

当大语言模型在数百个 GPU 上日以继夜地阅读这根长达万亿比特的「纸带」，试图预测下一个符号时，它其实在进行一项宏大的反向工程——寻找能够生成这根纸带的那个通用图灵机的内部状态。

当模型规模跨过某个临界点时，涌现发生了。模型不再只是记录词与词之间的表面共现频率，而是构建出了抽象的概念层级、逻辑推理能力，甚至某种程度的自我认知。

Ilya 多次在公开场合表达过类似的想法：文本是世界的投影，通过预测文本来逆向还原世界的心智模型，这条路径在理论上是站得住的。

第五章：通往 AGI 的阶梯

通向AGI配图

图5：由数据方块、算力齿轮和算法图纸铺就的一条阶梯，直通向充满无限可能的云端。

AI 的第一性原理不仅解释了为什么 LLM 会成功，更指明了通往 AGI 的方向。

既然我们要让模型压缩世界的规律，就必须提供涵盖世界所有侧面的高质量数据。寻找最短程序（最优压缩）在计算理论中被证明是一个极其困难甚至不可计算的问题，所以只能通过暴力的算力扩展和梯度下降来寻找足够好的近似解。而探索更符合通用图灵机特性的架构——具有内在循环状态、更长工作记忆的模型——将进一步逼近算法信息论的理论极限。

数据，算力，架构。Scaling Law 的背后，是深刻的数学。

结语：万物的计算诗篇

万物计算配图

图6：一架古老的打字机前，一只机械手正在敲击键盘，打出的纸带无限延伸，最终化作了漫天的星辰。

从所罗门诺夫1960年的论文出发，我们走过了一段漫长而震撼的旅程。

所罗门诺夫归纳告诉我们，世界是有规律可循的，最简洁的规律就是最好的预测。柯尔莫哥洛夫复杂性给了我们一把衡量一切信息和规律绝对重量的尺子。计算理论向我们揭示，一切物理的存在与心智的火花，或许都不过是通用图灵机上运行的代码。

而今天，大模型正在用千亿个参数，将这些深不可测的数学原理转化为实实在在的智能。

人类对人工智能的探索，早已不再是编写几行实用的代码。这是在破译宇宙这台超级计算机的核心源代码。

我们正在见证智能的涌现。而这，仅仅是一个开始。

本文是《AI 第一性原理》系列的第四篇，也是最终篇。前一篇：计算理论作为宇宙的本体论

第一章：最笨的方法#

第二章：Ilya 的核心信念#

第三章：预测即压缩，压缩即理解#

第四章：涌现与世界的统计模型#

第五章：通往 AGI 的阶梯#

结语：万物的计算诗篇#