“对我触动最大的是所罗门诺夫的归纳理论,我在前两版中都介绍过所罗门诺夫和他在 20 世纪 60 年代提出的归纳理论以及柯尔莫哥洛夫复杂性。大语言模型刚出来,我就和师友讨论这个理论作为大语言模型第一性原理的可能性。2023 年 8 月 14 日,OpenAI 的伊利亚(Ilya Sutskever)在伯克利的演讲透露了所罗门诺夫归纳和柯尔莫哥洛夫复杂性正是他们坚持做 next token prediction (下一词元预测) 的理论基础。这让我对历史与当下、理论与实践有了新的认识。……我一直认为计算理论是最具第一性原理(在牛顿和罗素的拉丁文 Principia 的意义上,而不是马斯克的口头禅意义上)的理论,甚至比理论物理学更为基本。” —— 尼克,《人工智能简史》第 3 版前言
2023年8月14日,伯克利。Ilya Sutskever 在一场演讲中透露了一件事,在场很多 AI 研究者都愣住了。
他说,OpenAI 坚持做 next token prediction 的理论基础,不是什么新发明,而是1960年代的理论——所罗门诺夫归纳和柯尔莫哥洛夫复杂性。
我第一次读到这段话的时候,头皮发麻。
这等于说,今天大模型在做的事情,早在60年前就已经被数学公式精确描述了。那个年代连个人电脑都没有,所罗门诺夫却写下了预测的终极理论。而今天,万亿参数的 GPT 不过是在用暴力计算去逼近那个理论的极限。
这个系列要讲的就是这件事。作为开篇,我们先走进所罗门诺夫归纳——一个能回答「如何对未知做出最优预测」的数学框架。
第一章:贝叶斯与奥卡姆的联姻

图1:数学的秤盘上,衡量着概率的更新与简单性的偏好。
要理解所罗门诺夫做了什么,得先看他的两个基石。
第一个是贝叶斯法则。核心思想很简单:根据新的证据更新你对世界的信念。
$$ P(H|D) = \frac{P(D|H) P(H)}{P(D)} $$
$P(H)$ 是先验概率,看到数据之前你认为假设 $H$ 有多可信。$P(D|H)$ 是似然度,如果 $H$ 为真,它产生当前数据的概率有多大。贝叶斯法则逻辑严密,但它留下了一个致命的漏洞:初始的先验概率 $P(H)$ 怎么定?
如果你对所有可能的假设一视同仁,而假设的数量是无限的,那每个假设的先验概率都趋近于零——等于什么都没说。
第二个基石是奥卡姆剃刀。14世纪的哲学原则,如无必要,勿增实体。解释同一件事,越简单的理论越可能是对的。
如果奥卡姆剃刀能和贝叶斯法则缝合起来——简单的假设获得更高的先验概率——问题就解决了。但「简单」怎么定义?用中文说「简单」,换成英文可能就变复杂了。我们需要一个不受语言影响的、绝对客观的度量。
第二章:从图灵机到通用先验

图2:图灵机的纸带在无限延伸,所有的规律都可以被编码为计算。
所罗门诺夫的回答极其优雅:用图灵机。
任何可计算的规律,都能写成一段在通用图灵机上运行的程序。规律越简单,程序越短。规律越复杂(或者数据纯粹是随机的),程序就越长——最极端的情况下,你只能把数据原封不动地硬编码进去。
基于这个洞察,所罗门诺夫提出了通用先验(Universal Prior):
对于任何一个假设(程序 $p$),它的先验概率与代码长度成指数反比。
$$ P(p) = 2^{-L(p)} $$
$L(p)$ 是程序 $p$ 的二进制长度。这个公式美得令人窒息。你每多加一个比特的复杂度(代码多长一位),假设的先验概率就减半。奥卡姆剃刀,被完美地数学化了。
第三章:预测未来的终极公式

图3:无数的代码流向未来的分支,最简洁的程序指引着最大的概率。
有了通用先验,终极问题终于有了解答:给定过去的观察序列 $x$,下一个符号 $y$ 出现的概率是多少?
所罗门诺夫说,不要只押注在一个「最可能」的程序上。让所有能输出序列 $x$ 的程序都来投票,投票的权重由它们各自的代码长度决定。
设 $U$ 为通用图灵机,$p$ 为在其上运行的程序。如果 $p$ 输出的字符串以 $x$ 为前缀,就说 $p$ 是 $x$ 的一个解释。序列 $x$ 的通用概率分布 $M(x)$ 定义为:
$$ M(x) = \sum_{p: U(p) = x\dots} 2^{-L(p)} $$
给定 $x$ 后,紧接着出现 $y$ 的条件概率:
$$ P(y|x) = \frac{M(xy)}{M(x)} $$
这就是所罗门诺夫诱导器。所罗门诺夫证明了,这种方法在预测任何可计算的数据生成过程时,具有一种非常强的最优性:没有任何其他归纳方法能够系统性地比它预测得更好。随着观察数据增多,它的预测误差会迅速收敛。
只要宇宙中存在可计算的规律,所罗门诺夫归纳就一定能捕捉到它。
第四章:不可计算的完美与现实的妥协

图4:攀登不可计算之峰的旅途,现实的算力只能到达半山腰。
既然有了完美公式,为什么不直接用来预测股市、天气、彩票?
因为图灵停机问题。我们无法判断一个程序会不会陷入死循环,所以没法找出「所有」能输出 $x$ 的程序。所罗门诺夫归纳在数学上是不可计算的(准确说,M(x) 是下半可计算的,我们可以不断逼近它的下界,但永远无法确定已经到达了精确值)。
它就像物理学中的绝对零度或卡诺循环,是一个我们永远无法达到、但可以无限逼近的理论极限。
现实中所有的机器学习算法,本质上都是在有限算力下对所罗门诺夫归纳的近似。
逻辑回归和决策树只能表达极其简单的「短程序」,假设空间太小,容易欠拟合。深度神经网络提供了一个极具表现力的计算架构,梯度下降在大海捞针般地寻找那些能用较少信息量解释更多数据的「短程序」。而大语言模型通过千亿参数和海量数据,正在逼近一个极其庞大的通用归纳器。
结语:通往绝对信息的阶梯

图5:阶梯的顶端隐藏着信息的绝对度量,等待着探索者的脚步。
所罗门诺夫归纳让我们看到,预测的本质在于寻找生成数据的最短计算程序。规律的发现,就是信息的压缩。
但这引出了一个更深的追问:既然规律的强弱取决于程序的长短,那对于一个确定的事物,它到底包含了多少绝对的、无法被进一步压缩的「信息量」?
是否存在一把尺子,能精准衡量「宇宙的规律」与「纯粹的随机」之间的区别?
这把尺子确实存在。下一篇,我们将走进柯尔莫哥洛夫复杂性——算法信息论的核心。
本文是《AI 第一性原理》系列的第一篇。系列共四篇,带你从数学底层到工程前沿,理解人工智能的本质。
