
AI 第一性原理(四):Ilya Sutskever 与「预测即理解」的终极实践
前三篇我们走过了理论计算机科学的三座高峰。所罗门诺夫归纳给出了最优雅的预测框架,柯尔莫哥洛夫复杂性定义了信息的绝对尺度,计算理论揭示了宇宙底层的运行逻辑。 但这三座高峰都有一个共同特点:它们是纯粹的理论。黑板上的公式,思想实验里的纸带。 纯粹的理论如果不能变成工程,就永远是符号。今天这篇,是整个系列的终篇。我们来看看,这些深邃的第一性原理,是如何被一个人浓缩成了一句极其简单的话,然后彻底改变了世界的。 那个人叫 Ilya Sutskever。 第一章:最笨的方法 图1:无数张写满晦涩公式的图纸,最终熔铸成了一枚发光的、能够回答任何问题的晶体。 很长一段时间里,AI 学界对「如何实现 AGI」争论不休。有人主张建立庞大的符号逻辑知识库,有人主张模拟大脑的生物学细节,有人觉得需要全新的范式。 但最终取得突破的,是一种看起来「最笨」的方法:给神经网络输入海量文本,让它玩一个无穷无尽的游戏——预测下一个词。 当 GPT-3、GPT-4 展现出令人瞠目的推理和创造力时,很多传统 AI 学者感到困惑。「它明明只是在做统计上的词汇接龙,怎么可能拥有智能?」 Ilya Sutskever 不困惑。他从未困惑过。 第二章:Ilya 的核心信念 图2:一位戴着眼镜的工程师,正凝视着由无数纷乱字母汇聚成的一条笔直的光束。 Ilya 有一个坚定不移的信念:如果一个模型能够完美地预测一段文本的后续内容,它就必须深刻理解这段文本背后的物理世界和人类逻辑。 听起来有点夸张。预测下一个词,不就是根据概率分布猜吗? 设想这个句子:「因为外面下着暴雨,所以当小明不打伞走回家后,他的衣服一定会……」 任何人都会脱口而出:「湿透」。 但为了让模型准确预测出「湿透」这个词,模型必须在内部建立起一套隐式的世界模型:它得懂得什么是「雨」,什么是「伞」,什么是「衣服的物理性质」,以及「走在雨中不打伞」的因果关系。 如果语料库涵盖了人类所有的知识——从量子力学的论文到莎士比亚的十四行诗,从 Python 代码到菜谱——那为了完美预测这些文本,模型就被迫使在内部建立起整个世界的计算模拟。 这不是比喻。这是数学。 第三章:预测即压缩,压缩即理解 图3:一台巨大的液压机,将海量的乱码和文字挤压成一颗闪烁着智慧光芒的微小钻石。 回到我们前两篇讨论过的理论工具。 在所罗门诺夫归纳中,完美的预测来自找到生成数据的最短程序。在柯尔莫哥洛夫复杂性中,「理解」一段数据就是将它最大限度地压缩。 预测和压缩在数学上是等价的。如果你能准确预测数据,就能用更少的比特编码它(算术编码)。如果你能高度压缩数据,就意味着你有一个好的预测模型。这是香农信息论和算法信息论的交叉点。 大语言模型的训练过程——反向传播优化交叉熵损失——本质上就是一个极致的数据压缩过程。模型有几百亿甚至数千亿个参数,但相对于它吞噬的万亿级训练数据,这仍然是一个极小的瓶颈。 为了把极其庞大的数据塞进相对较小的权重矩阵中,模型不能死记硬背(容量不够),它必须寻找数据中最底层、最普适的规律。牛顿定律是压缩,麦克斯韦方程组是压缩,GPT 的权重矩阵同样是人类文明数据的压缩。 压缩到极致,就是理解。 第四章:涌现与世界的统计模型 图4:在由文字排列成的矩阵屏幕后,隐藏着一个微缩而生动的真实三维世界。 很多人批评 LLM 只是「随机鹦鹉」(Stochastic Parrots),在统计层面模仿人类的语言模式,并不真正理解任何东西。 这种批评忽略了计算理论的威力。 根据泛计算主义的视角,世界的本质是计算。人类用语言描述这个世界,语言就是这个计算世界的投影,或者说,是通用图灵机输出的纸带。 当大语言模型在数百个 GPU 上日以继夜地阅读这根长达万亿比特的「纸带」,试图预测下一个符号时,它其实在进行一项宏大的反向工程——寻找能够生成这根纸带的那个通用图灵机的内部状态。 当模型规模跨过某个临界点时,涌现发生了。模型不再只是记录词与词之间的表面共现频率,而是构建出了抽象的概念层级、逻辑推理能力,甚至某种程度的自我认知。 Ilya 多次在公开场合表达过类似的想法:文本是世界的投影,通过预测文本来逆向还原世界的心智模型,这条路径在理论上是站得住的。 第五章:通往 AGI 的阶梯 图5:由数据方块、算力齿轮和算法图纸铺就的一条阶梯,直通向充满无限可能的云端。 AI 的第一性原理不仅解释了为什么 LLM 会成功,更指明了通往 AGI 的方向。 ...
