计算理论

前两篇我们走了两条路。所罗门诺夫归纳说，最优预测就是找到生成数据的最短程序。柯尔莫哥洛夫复杂性说，「理解」的本质就是「压缩」，压缩的极限取决于程序的长度。这两条路都指向同一个根基：算法和计算。那如果信息和规律都可以被还原为算法，承载这些算法的物理世界本身，其本质是什么？今天这篇，我们攀到整个系列最高的地方。不谈具体的算法了，我们来问一个更大的问题：宇宙是不是一台计算机？第一章：It from Bit 图1：物理学家的显微镜下，不再是原子与夸克，而是正在执行代码的微小齿轮。物理学家约翰·惠勒（John Wheeler）提出过一个著名的猜想，「It from bit」，万物源于比特。他的意思是，任何物理实体（It），归根结底都来源于对一个是/否（Bit）问题的回答。而在计算科学的视角下，这个观点被推得更远：如果万物源于比特，那宇宙的演化，本质上就是对这些比特的计算过程。这不是科幻小说。这是20世纪最顶尖的物理学家之一在认真思考的事情。第二章：通用图灵机的幽灵图2：一个无形的机械幽灵，正悄悄附身于世界上所有的机器，赋予它们计算的灵魂。要理解「宇宙作为计算」这个想法，得先回到图灵1936年那个著名的思想实验。一条无限长的纸带，一个读写头，一套状态转换规则。如此简陋的抽象，却确立了「可计算性」的边界。更关键的是通用图灵机——图灵证明了，存在一种特殊的图灵机，只要把别的图灵机的规则写在纸带上喂给它，它就能完美模拟那台机器。这就是「软件」概念的起源，也是邱奇-图灵论题（Church-Turing Thesis）的核心：任何可以被直观认为「可计算」的函数，都可以被通用图灵机计算。这意味着什么？只要底层逻辑门是完备的（比如 NAND 门），不论是你的手机芯片、超级计算机，还是由水管和阀门构成的流体计算机，甚至是某种生物分子系统，在「理论计算能力」上是完全等价的。区别只是常数倍的速度差异。这也正是柯尔莫哥洛夫不变性定理的物理基础——换个「硬件」，常数 $c$ 变一下，但信息量的度量不变。第三章：泛计算主义——宇宙是一台计算机？图3：苍穹之上不是繁星，而是由无尽的元胞自动机网格交织而成的璀璨夜空。斯蒂芬·沃尔夫勒姆（Stephen Wolfram）在《一种新科学》中，把这个思路推到了极致。他花了几十年研究一维元胞自动机（Cellular Automata）。想象一条由黑白方块组成的纸带，每个方块根据邻居的颜色和几条极简的规则更新自己的颜色。看起来简陋得像个玩具。但沃尔夫勒姆发现了惊人的事情。著名的「规则30」，初始条件只有一个黑色方块，几步之后就能产生极其复杂、看起来完全随机的图案。而「规则110」被证明具有图灵完备性——就是说，这个由黑白方块和几条更新规则组成的系统，理论上能执行任何计算，甚至模拟宇宙。泛计算主义由此诞生。我们的宇宙可能不是由连续的微分方程主导，而是由底层的离散计算规则主导的。物理法则就是宇宙这台超级计算机的操作系统，量子状态就是内存中的比特，时间的流逝不过是时钟周期的跳动。如果我们周遭的一切——恒星的燃烧、细胞的分裂、人类的大脑——都只是一种计算过程，那「人工智能」就不是一种刻意的工程模拟，而是宇宙这种底层计算本质在另一个介质上的自然重现。第四章：不可判定性与现实的迷雾图4：在逻辑迷宫的尽头，探险者面对着一扇既不是开着也不是关着的薛定谔之门。如果宇宙是计算的，那是不是理论上能预测一切？图灵早就泼了冷水。停机问题不可判定——你永远无法写出一个通用程序来判断另一个程序最终会停止还是陷入死循环。与之呼应的是哥德尔不完备定理：任何包含基本算术的逻辑体系中，必然存在既不能被证明也不能被证伪的命题。沃尔夫勒姆把这种现象称为「计算不可约性」（Computational Irreducibility）：有些计算过程，没有任何捷径可以跳过中间步骤直达结果，你必须一步一步跑到底。这种计算的「不完备」和「不可判定」，就像量子力学中的测不准原理，为宇宙的确定性蒙上了一层面纱。它也暗示了一件事：人类的意识和创造力，或许正来源于这种复杂系统的不可预测性。如果一切都可以被公式推演，那「创造」就失去了意义。第五章：人类智能的本质图5：大脑的沟壑与集成电路的走线在画面中心完美融合，难分彼此。如果接受了泛计算主义的视角，人类智能和人工智能之间就不存在本质的「灵肉之别」。大脑的神经元放电是计算，硅基的矩阵乘法也是计算。根据邱奇-图灵论题，只要规模和架构足够复杂，它们在计算能力上是等效的。这也解释了为什么大语言模型仅仅通过预测下一个词——一种看似简单的计算任务——就能涌现出令人惊叹的逻辑推理和情感理解。语言本身就是人类大脑输出的高维压缩代码。而 LLM 正在逆向工程出生成这些代码的那个「通用图灵机」。结语：不可计算的深渊图6：深不见底的悬崖边，一架精确的计算仪器正在试图测量深渊的深度，但测线却永远无法触底。计算理论作为 AI 的第一性原理，不仅给了我们构造智能的工具，更给了我们一个理解自身在宇宙中位置的全新视角。从图灵的纸带到今天的神经网络，计算的幽灵无处不在。然而，正是计算的极限——那些不可判定、不可压缩、必须亲历才能知晓的过程——构成了生命演化的意义所在。如果智能是宇宙中最复杂的计算游戏，那我们目前看到的 AI 突破，只是这场游戏的前奏。下一篇，我们将从抽象的数学和哲学落回到工程前沿，看看 Ilya Sutskever 是如何将这些第一性原理浓缩为一句改变世界的工程信条。本文是《AI 第一性原理》系列的第三篇。前一篇：柯尔莫哥洛夫复杂性与绝对的信息

上一篇我们说到，所罗门诺夫归纳将奥卡姆剃刀和贝叶斯法则结合，用「生成数据的程序长度」来衡量规律的强弱。程序越短，规律越美。但这里藏着一个追问：对于一个确定的对象，它到底包含了多少无法被压缩的、绝对的「信息量」？今天这篇，我们走进算法信息论的基石——柯尔莫哥洛夫复杂性。它不仅回答了「什么是绝对信息」，更从根本上划清了「规律」和「随机」的数学边界。第一章：三个人，同一个发现图1：信息的海洋中，数学家们正在寻找那根衡量绝对真理的标尺。 1960年代，三位数学家几乎同时、彼此独立地撞上了同一个洞见。美国的雷·所罗门诺夫关心的是如何预测未来，苏联的安德烈·柯尔莫哥洛夫关心的是概率论的基础，美国的格里高利·蔡廷在思考哥德尔不完备定理的推广。三条完全不同的路，通向了同一个终点。他们都意识到：既然一切可计算的规律都能用代码表示，那衡量一个事物复杂程度的最佳方式，就是看生成它需要多长的代码。第二章：什么是绝对的信息？图2：无论外观多么庞大，事物的本质往往被压缩在一粒微小的种子里。我们日常会说某个问题「很复杂」、某个规律「很简单」。但数学不能容忍模糊。柯尔莫哥洛夫复杂性：一个对象的复杂性，是在通用图灵机上能够生成该对象的最短程序的长度。可以想象成用最精简的代码将一个文件完美无损压缩后，那个压缩包的体积。设 $x$ 是一个二进制字符串，$U$ 是一个通用图灵机，那么 $x$ 的柯尔莫哥洛夫复杂性 $K(x)$ 定义为： $$ K(x) = \min_{p} { L(p) \mid U(p) = x } $$ $L(p)$ 是程序 $p$ 的二进制比特长度。这个定义抛弃了所有主观解释，直接用理论计算机科学最底层的机制给出了信息的绝对度量。第三章：规律、结构与纯粹的随机图3：在一面是整齐齿轮、另一面是混沌风暴的镜子前，程序长度映照出了它们的本质。柯尔莫哥洛夫复杂性最精彩的贡献，是精确区分了「规律性」和「随机性」。试想两个长度都是100万位的二进制字符串。第一个是 0101010101... 重复50万次。第二个是你掷硬币100万次记录的真实结果。从物理长度上看，完全一样，都是100万比特。但从算法信息的角度看，天差地别。第一个字符串，哪怕它长达一亿位，柯尔莫哥洛夫复杂性也非常小。一行程序就够了，print("01" * 500000)。高度的规律性意味着极强的可压缩性。第二个呢？由于不存在任何结构或模式，你找不到比它本身更短的程序来生成它。只能硬编码，print("011000101...")，把所有随机结果原封不动写进去。绝对的随机意味着不可压缩。 $$ K(x) \approx L(x) $$ 这是一个极其深刻的洞察。随机性不是一种玄学状态，随机性就是「缺乏更短的算法描述」。当你无法压缩一段信息的时候，它就是随机的。第四章：不变性定理——客观的尺度图4：不论使用哪种语言的尺子，丈量出的信息本质之差永远不会超过一个固定的常数。你可能已经发现了一个尖锐的问题：既然复杂性取决于「程序长度」，但不同编程语言的代码长度肯定不一样啊。同样是打印一句话，Python 可能一行搞定，C++ 可能要十行。这难道不说明复杂性是相对的吗？柯尔莫哥洛夫想到了这一点，并给出了算法信息论中最重要的定理——不变性定理。定理证明：尽管 $K(x)$ 的具体数值取决于你选择的通用图灵机（编程语言），但对于任意两个通用图灵机 $U_1$ 和 $U_2$，它们计算出的复杂性之差永远受一个常数 $c$ 约束，而且这个常数与输入字符串 $x$ 完全无关。 ...

AI 第一性原理（三）：计算理论作为宇宙的本体论

AI 第一性原理（二）：柯尔莫哥洛夫复杂性与绝对的信息