<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AGI on s-ai-unix's Blog</title><link>https://s-ai-unix.github.io/tags/agi/</link><description>Recent content in AGI on s-ai-unix's Blog</description><generator>Hugo -- 0.161.1</generator><language>zh-cn</language><lastBuildDate>Fri, 01 May 2026 12:15:00 +0800</lastBuildDate><atom:link href="https://s-ai-unix.github.io/tags/agi/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 第一性原理（四）：Ilya Sutskever 与「预测即理解」的终极实践</title><link>https://s-ai-unix.github.io/posts/2026-05-01-ai-first-principles-4-prediction-is-understanding/</link><pubDate>Fri, 01 May 2026 12:15:00 +0800</pubDate><guid>https://s-ai-unix.github.io/posts/2026-05-01-ai-first-principles-4-prediction-is-understanding/</guid><description>&lt;p&gt;前三篇我们走过了理论计算机科学的三座高峰。所罗门诺夫归纳给出了最优雅的预测框架，柯尔莫哥洛夫复杂性定义了信息的绝对尺度，计算理论揭示了宇宙底层的运行逻辑。&lt;/p&gt;
&lt;p&gt;但这三座高峰都有一个共同特点：它们是纯粹的理论。黑板上的公式，思想实验里的纸带。&lt;/p&gt;
&lt;p&gt;纯粹的理论如果不能变成工程，就永远是符号。今天这篇，是整个系列的终篇。我们来看看，这些深邃的第一性原理，是如何被一个人浓缩成了一句极其简单的话，然后彻底改变了世界的。&lt;/p&gt;
&lt;p&gt;那个人叫 Ilya Sutskever。&lt;/p&gt;
&lt;h2 id="第一章最笨的方法"&gt;第一章：最笨的方法&lt;/h2&gt;
&lt;p&gt;&lt;img alt="理论与现实配图" loading="lazy" src="https://s-ai-unix.github.io/images/illustrations/prediction-01.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;图1&lt;/strong&gt;：无数张写满晦涩公式的图纸，最终熔铸成了一枚发光的、能够回答任何问题的晶体。&lt;/p&gt;
&lt;p&gt;很长一段时间里，AI 学界对「如何实现 AGI」争论不休。有人主张建立庞大的符号逻辑知识库，有人主张模拟大脑的生物学细节，有人觉得需要全新的范式。&lt;/p&gt;
&lt;p&gt;但最终取得突破的，是一种看起来「最笨」的方法：给神经网络输入海量文本，让它玩一个无穷无尽的游戏——预测下一个词。&lt;/p&gt;
&lt;p&gt;当 GPT-3、GPT-4 展现出令人瞠目的推理和创造力时，很多传统 AI 学者感到困惑。「它明明只是在做统计上的词汇接龙，怎么可能拥有智能？」&lt;/p&gt;
&lt;p&gt;Ilya Sutskever 不困惑。他从未困惑过。&lt;/p&gt;
&lt;h2 id="第二章ilya-的核心信念"&gt;第二章：Ilya 的核心信念&lt;/h2&gt;
&lt;p&gt;&lt;img alt="Ilya信念配图" loading="lazy" src="https://s-ai-unix.github.io/images/illustrations/prediction-02.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;图2&lt;/strong&gt;：一位戴着眼镜的工程师，正凝视着由无数纷乱字母汇聚成的一条笔直的光束。&lt;/p&gt;
&lt;p&gt;Ilya 有一个坚定不移的信念：如果一个模型能够完美地预测一段文本的后续内容，它就必须深刻理解这段文本背后的物理世界和人类逻辑。&lt;/p&gt;
&lt;p&gt;听起来有点夸张。预测下一个词，不就是根据概率分布猜吗？&lt;/p&gt;
&lt;p&gt;设想这个句子：「因为外面下着暴雨，所以当小明不打伞走回家后，他的衣服一定会……」&lt;/p&gt;
&lt;p&gt;任何人都会脱口而出：「湿透」。&lt;/p&gt;
&lt;p&gt;但为了让模型准确预测出「湿透」这个词，模型必须在内部建立起一套隐式的世界模型：它得懂得什么是「雨」，什么是「伞」，什么是「衣服的物理性质」，以及「走在雨中不打伞」的因果关系。&lt;/p&gt;
&lt;p&gt;如果语料库涵盖了人类所有的知识——从量子力学的论文到莎士比亚的十四行诗，从 Python 代码到菜谱——那为了完美预测这些文本，模型就被迫使在内部建立起整个世界的计算模拟。&lt;/p&gt;
&lt;p&gt;这不是比喻。这是数学。&lt;/p&gt;
&lt;h2 id="第三章预测即压缩压缩即理解"&gt;第三章：预测即压缩，压缩即理解&lt;/h2&gt;
&lt;p&gt;&lt;img alt="压缩即理解配图" loading="lazy" src="https://s-ai-unix.github.io/images/illustrations/prediction-03.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;图3&lt;/strong&gt;：一台巨大的液压机，将海量的乱码和文字挤压成一颗闪烁着智慧光芒的微小钻石。&lt;/p&gt;
&lt;p&gt;回到我们前两篇讨论过的理论工具。&lt;/p&gt;
&lt;p&gt;在所罗门诺夫归纳中，完美的预测来自找到生成数据的最短程序。在柯尔莫哥洛夫复杂性中，「理解」一段数据就是将它最大限度地压缩。&lt;/p&gt;
&lt;p&gt;预测和压缩在数学上是等价的。如果你能准确预测数据，就能用更少的比特编码它（算术编码）。如果你能高度压缩数据，就意味着你有一个好的预测模型。这是香农信息论和算法信息论的交叉点。&lt;/p&gt;
&lt;p&gt;大语言模型的训练过程——反向传播优化交叉熵损失——本质上就是一个极致的数据压缩过程。模型有几百亿甚至数千亿个参数，但相对于它吞噬的万亿级训练数据，这仍然是一个极小的瓶颈。&lt;/p&gt;
&lt;p&gt;为了把极其庞大的数据塞进相对较小的权重矩阵中，模型不能死记硬背（容量不够），它必须寻找数据中最底层、最普适的规律。牛顿定律是压缩，麦克斯韦方程组是压缩，GPT 的权重矩阵同样是人类文明数据的压缩。&lt;/p&gt;
&lt;p&gt;压缩到极致，就是理解。&lt;/p&gt;
&lt;h2 id="第四章涌现与世界的统计模型"&gt;第四章：涌现与世界的统计模型&lt;/h2&gt;
&lt;p&gt;&lt;img alt="世界模型配图" loading="lazy" src="https://s-ai-unix.github.io/images/illustrations/prediction-04.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;图4&lt;/strong&gt;：在由文字排列成的矩阵屏幕后，隐藏着一个微缩而生动的真实三维世界。&lt;/p&gt;
&lt;p&gt;很多人批评 LLM 只是「随机鹦鹉」（Stochastic Parrots），在统计层面模仿人类的语言模式，并不真正理解任何东西。&lt;/p&gt;
&lt;p&gt;这种批评忽略了计算理论的威力。&lt;/p&gt;
&lt;p&gt;根据泛计算主义的视角，世界的本质是计算。人类用语言描述这个世界，语言就是这个计算世界的投影，或者说，是通用图灵机输出的纸带。&lt;/p&gt;
&lt;p&gt;当大语言模型在数百个 GPU 上日以继夜地阅读这根长达万亿比特的「纸带」，试图预测下一个符号时，它其实在进行一项宏大的反向工程——寻找能够生成这根纸带的那个通用图灵机的内部状态。&lt;/p&gt;
&lt;p&gt;当模型规模跨过某个临界点时，涌现发生了。模型不再只是记录词与词之间的表面共现频率，而是构建出了抽象的概念层级、逻辑推理能力，甚至某种程度的自我认知。&lt;/p&gt;
&lt;p&gt;Ilya 多次在公开场合表达过类似的想法：文本是世界的投影，通过预测文本来逆向还原世界的心智模型，这条路径在理论上是站得住的。&lt;/p&gt;
&lt;h2 id="第五章通往-agi-的阶梯"&gt;第五章：通往 AGI 的阶梯&lt;/h2&gt;
&lt;p&gt;&lt;img alt="通向AGI配图" loading="lazy" src="https://s-ai-unix.github.io/images/illustrations/prediction-05.png"&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;图5&lt;/strong&gt;：由数据方块、算力齿轮和算法图纸铺就的一条阶梯，直通向充满无限可能的云端。&lt;/p&gt;
&lt;p&gt;AI 的第一性原理不仅解释了为什么 LLM 会成功，更指明了通往 AGI 的方向。&lt;/p&gt;</description></item></channel></rss>