算法 on s-ai-unix's Blog

跨越计算的边界：为什么在AI时代，我们依然要仰望图灵？

Fri, 01 May 2026 19:00:00 +0800

ChatGPT刚出来的时候，全世界的目光都被一个词吸住了，图灵测试。

人们兴奋地讨论，AI是不是终于「通过」了图灵测试？这个70多年前由一个英国数学家提出的思想实验，是不是终于被实现了？

但很少有人追问一个更本质的问题，仅仅凭一个关于「机器能否模仿人类」的思想实验，再加上一台抽象到让人头疼的「假想打字机」（图灵机），这两个概念就足以撑起「计算机科学之父」的头衔吗？

远远不够。

图灵测试只是他思想冰山中最容易被大众看到的那一角。在这篇文章里，我想带你拨开迷雾，看看这个人在短短41年的生命里，到底为今天的人工智能大厦打下了怎样的地基。

你会发现，他之所以伟大，不只是因为他预言了机器会思考，而是因为他在没有任何人想到「计算机」这三个字的年代，就已经亲手写下了整座大厦的蓝图。从地基到方法论，从「能不能」到「怎么做」，全是他一个人完成的。

第一章：24岁的年轻人定义了「计算」本身

1935年，剑桥大学。一个23岁的年轻人听完一场讲座之后，被一个问题击中了。

这个问题来自大数学家大卫·希尔伯特（David Hilbert），叫做「判定问题」（Entscheidungsproblem）。简单说就是，能不能找到一种纯粹的机械步骤，自动判断任何数学命题的真假？不用灵感，不用直觉，就像一台机器一样，输入命题，输出「对」或「错」。

这个问题看起来是纯数学的，跟普通人毫无关系。但图灵为了回答它，做了一件所有人都没预料到的事。

他没有去推导公式，而是闭上眼睛，想象了一台机器。

图灵机（Turing Machine）：一台只懂最基本操作的机器，在一条无限长的纸带上读写0和1，根据极简的规则一步步移动。你可以把它想象成一个只懂加减法、但拥有无限时间、无限耐心和无限长草稿纸的记账员。

然后，图灵证明了，这台简陋到荒谬的机器，可以计算任何「可计算」的东西。

但真正的天才是下一步。他说，既然这台机器能执行任何计算规则，那我是不是可以设计一台「万能」的图灵机，它不需要为每个任务重新造一台新机器，而是把别的机器的规则「写进」纸带里，就能模拟任何一台图灵机？

这就是「通用图灵机」（Universal Turing Machine）。

今天你用的手机、笔记本、云服务器，底层原理全部通用图灵机。你不需要为微信造一台手机、为抖音再造一台、为导航又造一台。同一台设备，换个软件（纸带上的规则）就能干完全不同的事。

这个「软件和硬件分离」的概念，在1936年是颠覆性的。在图灵之前，人们认为计算机器都是为特定任务定制的硬件齿轮。图灵第一次从数学上证明，计算可以脱离具体的物理形态，变成纯粹的信息处理过程。

而图灵写下这篇论文的时候，他24岁。

图1：图灵把「计算」还原成纸带、读写头和规则，一台足够简单的机器，却能刻画所有可计算过程。

今天动辄千亿参数的大语言模型，无论它在和你对话时表现得多么像有灵魂的人类，底层依然在那个24岁年轻人画出的框架里运行。图灵没有发明某一种计算机，他定义了「计算」本身。

第二章：预言机，以及机器做不到的事

定义了「计算」之后，图灵做了一件更有意思的事。他问，那计算做不到的呢？

在1936年的论文里，他已经证明了一件事，存在某些问题，图灵机永远无法回答。最著名的就是「停机问题」，给你一段程序，你能不能判断它最终会停下来还是永远跑下去？图灵用数学证明了，这件事不可能通过任何机械步骤来完成。

到了普林斯顿读博期间（1936-1938），图灵把这个思路推得更远。他在博士论文里提出了一个概念，「预言机」（Oracle Machine）。

预言机（Oracle Machine）：给图灵机外挂一个「黑箱」，遇到解不出的问题时，可以直接问这个黑箱要答案，而不需要知道过程。想象你在考场上做一张极难的卷子，遇到死活解不出的题，突然有一个全知全能的老师在你耳边说出答案。

图2：预言机像一个不能被拆开的黑箱，它不解释过程，只在机械推理走到边界时给出答案。

图灵用预言机做了什么？他在论文里区分了人类思维中的两种能力，「技巧」（Ingenuity）和「直觉」（Intuition）。

技巧是那些可以被明确规则化、可以一步步按程序执行的部分。这部分，机器完全可以胜任，甚至比人做得更好。

直觉是那种突然的跳跃，你不知道为什么想到了这个方向，但它就是出现了。那种「灵光一闪」的瞬间，形式化的逻辑规则无法涵盖它。在图灵的理论框架里，每当机械的技巧走到尽头，就需要一次直觉的跳跃来打开新的局面，然后再继续用技巧去铺路。

这不是说图灵断言了机器永远不可能拥有直觉。他比谁都相信机器的潜力。但他用严谨的数学，标记出了当前的计算框架中存在边界。这个边界不是技术上的限制，而是逻辑结构上的。

今天回头看，这个洞察准得吓人。当下的深度学习极其擅长在已有的模式空间里生成、推理、优化（技巧），但当需要从零到一提出全新的科学范式时，仍然举步维艰。图灵在80多年前就用数学语言，把这个边界画出来了。

第三章：一个1950年的预言，精确命中了今天

让我们回到1950年。

那一年，全世界最强大的计算机占了整整一个大房间，耗电量够供一条街，运算能力还不如今天一个10块钱的计算器。没有任何AI，没有任何互联网，连「程序员」这个职业都还不存在。

就在这一年，图灵写下了《计算机器与智能》这篇论文。

大多数人只知道这篇文章提出了图灵测试。但真正让人拍案叫绝的，是他在论文末尾提出的「儿童机器」（Child-Machine）构想。

图灵说，试图直接编写一个具备成人智能的程序，是极其困难甚至徒劳的。正确的方法是什么？开发一个像儿童大脑一样的初始程序，给它基础的逻辑和极强的学习能力，然后让它在环境中通过教育来成长。

那最有效的教育方式是什么？

奖励与惩罚。

图3：图灵认为我们不该制造一个成年的机器，而是通过奖励与惩罚像教育孩童一样训练它，这正是现代强化学习的精髓。

强化学习（Reinforcement Learning）：让智能体在环境中不断试错，做对了给奖励，做错了给惩罚。就像训练小狗握手，做对了就给一块肉干。

仔细想想这件事。在1950年，在计算机还是一个房间大小的铁柜子的年代，图灵不仅预言了人工智能终将到来，他甚至连「怎么培养AI」的正确路线图都画好了。

2016年，AlphaGo横扫围棋界，底层正是强化学习。 2023年，ChatGPT之所以能学会顺从人类的偏好、不说胡话，用的是RLHF（基于人类反馈的强化学习）。

70多年过去了。图灵当年画的那张路线图，不仅没过时，我们恰恰是在上面狂奔。

他不是只预言了「AI会出现」，他是把「地基」和「方法论」一并写好了。

尾声：数字时代的普罗米修斯

1952年，图灵因为同性恋行为被英国政府定罪。他被迫在坐牢和化学阉割之间做出选择。

他选择了后者。

两年后，1954年6月7日，图灵被发现死在自己的卧室里，床头有一个咬过一口的苹果。他41岁。

这个人，二战期间在布莱切利园破解了德国海军的Enigma密码，历史学家估计他的工作将战争缩短了至少两年，拯救了上千万人的生命。他定义了「计算」本身，预见了机器智能的可能性，设计了训练智能的方法论。

图4：在布莱切利园，图灵把抽象的计算思想变成了破解密码的现实工具，也改变了二战的进程。

然后他被自己拯救的社会迫害至死。

2013年，英国女王伊丽莎白二世签署了对图灵的皇家赦免。距离他去世，已经过去了59年。

今天，我们每次在屏幕前敲下回车，每次大模型吐出流畅的文字，背后都在回荡着图灵半个多世纪前的思考。他没有活到看见哪怕第一台个人电脑诞生的那一天，但他画下的蓝图，至今没有一条被证明走错了。

他真的是数字时代的普罗米修斯，为人间盗来了火种，自己却在黑暗中燃尽。

AI 第一性原理（二）：柯尔莫哥洛夫复杂性与绝对的信息

Fri, 01 May 2026 12:05:00 +0800

上一篇我们说到，所罗门诺夫归纳将奥卡姆剃刀和贝叶斯法则结合，用「生成数据的程序长度」来衡量规律的强弱。程序越短，规律越美。

但这里藏着一个追问：对于一个确定的对象，它到底包含了多少无法被压缩的、绝对的「信息量」？

今天这篇，我们走进算法信息论的基石——柯尔莫哥洛夫复杂性。它不仅回答了「什么是绝对信息」，更从根本上划清了「规律」和「随机」的数学边界。

第一章：三个人，同一个发现

图1：信息的海洋中，数学家们正在寻找那根衡量绝对真理的标尺。

1960年代，三位数学家几乎同时、彼此独立地撞上了同一个洞见。

美国的雷·所罗门诺夫关心的是如何预测未来，苏联的安德烈·柯尔莫哥洛夫关心的是概率论的基础，美国的格里高利·蔡廷在思考哥德尔不完备定理的推广。三条完全不同的路，通向了同一个终点。

他们都意识到：既然一切可计算的规律都能用代码表示，那衡量一个事物复杂程度的最佳方式，就是看生成它需要多长的代码。

第二章：什么是绝对的信息？

图2：无论外观多么庞大，事物的本质往往被压缩在一粒微小的种子里。

我们日常会说某个问题「很复杂」、某个规律「很简单」。但数学不能容忍模糊。

柯尔莫哥洛夫复杂性：一个对象的复杂性，是在通用图灵机上能够生成该对象的最短程序的长度。可以想象成用最精简的代码将一个文件完美无损压缩后，那个压缩包的体积。

设 $x$ 是一个二进制字符串，$U$ 是一个通用图灵机，那么 $x$ 的柯尔莫哥洛夫复杂性 $K(x)$ 定义为：

$$ K(x) = \min_{p} { L(p) \mid U(p) = x } $$

$L(p)$ 是程序 $p$ 的二进制比特长度。这个定义抛弃了所有主观解释，直接用理论计算机科学最底层的机制给出了信息的绝对度量。

第三章：规律、结构与纯粹的随机

图3：在一面是整齐齿轮、另一面是混沌风暴的镜子前，程序长度映照出了它们的本质。

柯尔莫哥洛夫复杂性最精彩的贡献，是精确区分了「规律性」和「随机性」。

试想两个长度都是100万位的二进制字符串。

第一个是 0101010101... 重复50万次。第二个是你掷硬币100万次记录的真实结果。

从物理长度上看，完全一样，都是100万比特。但从算法信息的角度看，天差地别。

第一个字符串，哪怕它长达一亿位，柯尔莫哥洛夫复杂性也非常小。一行程序就够了，print("01" * 500000)。高度的规律性意味着极强的可压缩性。

第二个呢？由于不存在任何结构或模式，你找不到比它本身更短的程序来生成它。只能硬编码，print("011000101...")，把所有随机结果原封不动写进去。绝对的随机意味着不可压缩。

$$ K(x) \approx L(x) $$

这是一个极其深刻的洞察。随机性不是一种玄学状态，随机性就是「缺乏更短的算法描述」。当你无法压缩一段信息的时候，它就是随机的。

第四章：不变性定理——客观的尺度

图4：不论使用哪种语言的尺子，丈量出的信息本质之差永远不会超过一个固定的常数。

你可能已经发现了一个尖锐的问题：既然复杂性取决于「程序长度」，但不同编程语言的代码长度肯定不一样啊。同样是打印一句话，Python 可能一行搞定，C++ 可能要十行。这难道不说明复杂性是相对的吗？

柯尔莫哥洛夫想到了这一点，并给出了算法信息论中最重要的定理——不变性定理。

定理证明：尽管 $K(x)$ 的具体数值取决于你选择的通用图灵机（编程语言），但对于任意两个通用图灵机 $U_1$ 和 $U_2$，它们计算出的复杂性之差永远受一个常数 $c$ 约束，而且这个常数与输入字符串 $x$ 完全无关。

AI 第一性原理（一）：所罗门诺夫归纳与预测的终极数学

Fri, 01 May 2026 12:00:00 +0800

“对我触动最大的是所罗门诺夫的归纳理论，我在前两版中都介绍过所罗门诺夫和他在 20 世纪 60 年代提出的归纳理论以及柯尔莫哥洛夫复杂性。大语言模型刚出来，我就和师友讨论这个理论作为大语言模型第一性原理的可能性。2023 年 8 月 14 日，OpenAI 的伊利亚（Ilya Sutskever）在伯克利的演讲透露了所罗门诺夫归纳和柯尔莫哥洛夫复杂性正是他们坚持做 next token prediction (下一词元预测) 的理论基础。这让我对历史与当下、理论与实践有了新的认识。……我一直认为计算理论是最具第一性原理（在牛顿和罗素的拉丁文 Principia 的意义上，而不是马斯克的口头禅意义上）的理论，甚至比理论物理学更为基本。” —— 尼克，《人工智能简史》第 3 版前言

2023年8月14日，伯克利。Ilya Sutskever 在一场演讲中透露了一件事，在场很多 AI 研究者都愣住了。

他说，OpenAI 坚持做 next token prediction 的理论基础，不是什么新发明，而是1960年代的理论——所罗门诺夫归纳和柯尔莫哥洛夫复杂性。

我第一次读到这段话的时候，头皮发麻。

这等于说，今天大模型在做的事情，早在60年前就已经被数学公式精确描述了。那个年代连个人电脑都没有，所罗门诺夫却写下了预测的终极理论。而今天，万亿参数的 GPT 不过是在用暴力计算去逼近那个理论的极限。

这个系列要讲的就是这件事。作为开篇，我们先走进所罗门诺夫归纳——一个能回答「如何对未知做出最优预测」的数学框架。

第一章：贝叶斯与奥卡姆的联姻

图1：数学的秤盘上，衡量着概率的更新与简单性的偏好。

要理解所罗门诺夫做了什么，得先看他的两个基石。

第一个是贝叶斯法则。核心思想很简单：根据新的证据更新你对世界的信念。

$$ P(H|D) = \frac{P(D|H) P(H)}{P(D)} $$

$P(H)$ 是先验概率，看到数据之前你认为假设 $H$ 有多可信。$P(D|H)$ 是似然度，如果 $H$ 为真，它产生当前数据的概率有多大。贝叶斯法则逻辑严密，但它留下了一个致命的漏洞：初始的先验概率 $P(H)$ 怎么定？

如果你对所有可能的假设一视同仁，而假设的数量是无限的，那每个假设的先验概率都趋近于零——等于什么都没说。

第二个基石是奥卡姆剃刀。14世纪的哲学原则，如无必要，勿增实体。解释同一件事，越简单的理论越可能是对的。

如果奥卡姆剃刀能和贝叶斯法则缝合起来——简单的假设获得更高的先验概率——问题就解决了。但「简单」怎么定义？用中文说「简单」，换成英文可能就变复杂了。我们需要一个不受语言影响的、绝对客观的度量。

第二章：从图灵机到通用先验

图2：图灵机的纸带在无限延伸，所有的规律都可以被编码为计算。

所罗门诺夫的回答极其优雅：用图灵机。

任何可计算的规律，都能写成一段在通用图灵机上运行的程序。规律越简单，程序越短。规律越复杂（或者数据纯粹是随机的），程序就越长——最极端的情况下，你只能把数据原封不动地硬编码进去。

基于这个洞察，所罗门诺夫提出了通用先验（Universal Prior）：

对于任何一个假设（程序 $p$），它的先验概率与代码长度成指数反比。

黎曼猜想：从素数分布到复平面的零点之舞

Sun, 22 Feb 2026 09:17:49 +0800

深入浅出地介绍黎曼猜想的核心概念与应用

贝叶斯网络：从概率推理到智能决策

Wed, 04 Feb 2026 20:46:02 +0800

深入浅出地介绍贝叶斯网络的发展历史、核心原理、推导过程与广泛应用，让优秀的高中生也能理解这一强大的人工智能工具。

AI 论文解读系列：Seq2Seq--从序列到序列的革命

Fri, 30 Jan 2026 09:00:00 +0800

深入浅出解读 Seq2Seq 论文，从机器翻译的困境到编码器-解码器架构的突破，揭示深度学习处理序列数据的核心思想。

弯曲的道路，智能的决策：微分几何如何赋能自动驾驶

Wed, 28 Jan 2026 23:42:32 +0800

深入探讨微分几何在自动驾驶技术中的核心应用，从路径规划到感知融合，揭示数学如何赋能智能汽车的每一个决策。

雅可比矩阵与黑塞矩阵：多变量微积分的双璧

Wed, 28 Jan 2026 21:54:27 +0800

深入探讨雅可比矩阵与黑塞矩阵的数学原理、几何直观和广泛应用，从多元微积分的基础出发，揭示这两个矩阵在多变量分析中的核心地位。

微积分与机器学习：从变化率到神经网络梯度的完整旅程

Sun, 25 Jan 2026 19:00:00 +0800

深入理解微积分如何驱动现代人工智能：从导数的几何直观到梯度下降的数学原理，从链式法则到反向传播算法，揭示神经网络训练的数学本质。

谱定理：线性代数的优雅与机器学习的基石

Sun, 25 Jan 2026 18:00:00 +0800

从对称矩阵到深度学习：系统性介绍谱定理的核心理论及其在机器学习中的应用，包括正交对角化、SVD、PCA、谱聚类和图神经网络

贝叶斯分类器：从条件概率到智能决策的优雅之旅

Sat, 24 Jan 2026 17:58:30 +0800

深入解析贝叶斯分类器的数学本质与应用价值，从贝叶斯定理到朴素贝叶斯，从理论推导到垃圾邮件过滤的实践应用

蒙特卡罗算法：从原子弹到人工智能的随机之旅

Wed, 21 Jan 2026 23:00:00 +0800

从曼哈顿计划的保密代号到现代科学计算的核心工具，本文系统介绍蒙特卡罗方法的发展历程、数学基础和广泛应用。

Transformer：重塑AI世界的架构革命

Wed, 21 Jan 2026 10:00:00 +0800

深入解读 Transformer 架构的核心原理，从自注意力机制到多头注意力，探索这个重塑 AI 世界的重要架构

香农信息熵：不确定性的数学刻度

Wed, 21 Jan 2026 10:00:00 +0800

从摩斯电码到信息时代，完整追溯香农信息熵的诞生历程。深入理解信息、熵与不确定性的本质联系，以及它们如何塑造了我们的数字世界。

感知机的完整发展历程：从线性分类到深度学习的基石

Wed, 21 Jan 2026 08:00:00 +0800

系统综述感知机的发展历程，从早期的线性分类器到现代深度学习的基础，注重背景和演变过程的介绍，通俗易懂。

深度学习前夜：十大传统机器学习算法的历史与数学之美

Thu, 15 Jan 2026 22:30:00 +0800

回顾机器学习黄金时代，详细推导十大经典算法的数学原理，从线性回归到主成分分析

泰勒公式：用简单近似复杂的艺术

Wed, 14 Jan 2026 22:10:00 +0800

从微积分基础到深度学习前沿，探索泰勒公式的强大威力

梯度、梯度下降与反向传播：从最优化到深度学习的数学引擎

Wed, 14 Jan 2026 08:34:44 +0800

系统介绍梯度、梯度下降、反向传播算法，以及梯度的其他应用，完整推导历史背景与应用场景，并详细对比梯度、散度、旋度三个核心概念。

传统机器学习与统计学习算法：从理论到实践的完整指南

Wed, 14 Jan 2026 08:18:25 +0800

本文全面回顾传统机器学习和统计学习算法的发展历程、数学原理、应用场景及未来前景，涵盖从线性回归到深度学习之前的关键算法。

开发工具与编程技巧集锦

Sun, 31 Aug 2014 17:47:03 +0800

汇集JavaScript、Python等多语言开发技巧，涵盖数组操作、数据结构实现、算法实践等实用技能。

多语言实现对比：C、Perl与Python的数据结构与算法

Wed, 20 Aug 2014 14:30:00 +0800

深入对比C、Perl和Python三种语言在实现数据结构与算法时的差异，包括语法特点、性能表现、适用场景等方面的分析。

数据结构实现系列：线性表、链表与栈的完整实现

Tue, 19 Aug 2014 12:23:17 +0800

详细介绍线性表、链表、栈等基础数据结构的C语言实现，包括顺序存储和链式存储两种方式，以及指针实现和引用实现的对比。

算法实现系列：二叉树遍历与递归算法详解

Wed, 13 Aug 2014 11:00:50 +0800

深入探讨二叉树的递归与非递归遍历算法，包括前序、中序、后序和层序遍历的完整实现，以及递归算法的优化技巧。