引言:物理学的最小作用量原理
1915年11月,阿尔伯特·爱因斯坦在柏林普鲁士科学院发表了他关于广义相对论的系列论文。在同一时间,远在哥廷根的大卫·希尔伯特也在独立地进行着同样的工作。
这两位数学物理学家,一个从物理直觉出发,一个从数学公理出发,最终殊途同归,得到了完全相同的结果——描述引力的爱因斯坦场方程。
但希尔伯特的方法更为优雅:他没有直接猜测场方程的形式,而是从一个简单的原理出发——最小作用量原理。
作用量(Action):物理学中描述系统演化"代价"的标量量。可以想象成自然界在演化过程中选择"最经济"的路径,就像光从一点传播到另一点时,总是沿着耗时最短的路径前进(费马原理)。
第一章:从光的路径到作用量
1.1 费马原理的启示
早在17世纪,法国数学家费马发现:光在传播时,总是选择耗时最短的路径。
无论光从空气射入水中发生折射,还是在镜面上反射,它都仿佛在"计算"所有可能的路径,然后选择那个让传播时间最短的一条。
这就是费马原理——物理学的最小作用量思想的最早萌芽。
最小作用量原理(Principle of Least Action):自然界总是选择使作用量取极值(通常是最小值)的路径。可以想象成宇宙是一个精明的会计师,总是选择"成本最低"的方式来演化。
1.2 经典力学中的作用量
18世纪,欧拉和拉格朗日将这一思想系统化,建立了分析力学。
在经典力学中,一个粒子的运动由拉格朗日量 $L$ 决定:
$$L = T - V$$
这里 $T$ 是动能,$V$ 是势能。作用量 $S$ 则是拉格朗日量沿路径的积分:
$$S = \int_{t_1}^{t_2} L , dt$$
最小作用量原理告诉我们:真实的运动路径使作用量 $S$ 取极值。
通过对作用量变分(即考虑微小偏离),我们得到欧拉-拉格朗日方程:
$$\frac{d}{dt} \frac{\partial L}{\partial \dot{q}} - \frac{\partial L}{\partial q} = 0$$
这就是经典力学的核心方程。牛顿第二定律、能量守恒、动量守恒,都可以从这个原理导出。

图1:光在两种介质界面处的折射。光选择耗时最短的路径,这是最小作用量原理在光学中的体现。
1.3 从粒子到场
19世纪,物理学的发展将最小作用量原理推广到了场论。
麦克斯韦的电磁理论、热力学、统计力学,都可以用作用量的语言来描述。物理学家发现,场(如电磁场)的作用量比粒子的作用量更为基本。
一个场 $\phi$ 的作用量通常写成:
$$S = \int \mathcal{L}(\phi, \partial_{\mu} \phi) , d^4x$$
这里 $\mathcal{L}$ 是拉格朗日密度,积分遍及整个时空。
这给爱因斯坦一个重要启示:引力也应该可以用作用量来描述。
第二章:弯曲时空的几何
2.1 从欧几里得到黎曼
在爱因斯坦之前,物理学家默认空间是平直的——这就是欧几里得几何。
但爱因斯坦意识到:质量会弯曲时空。为了描述这种弯曲,他需要一种全新的几何学——黎曼几何。
黎曼几何(Riemannian Geometry):研究弯曲空间的数学理论。可以想象成抛弃平直的纸张,研究揉皱的纸团上的几何。在这种几何中,三角形内角和不必等于180度,平行线可以相交。
在黎曼几何中,空间每一点的距离由度规张量 $g_{\mu \nu}$ 描述:
$$ds^2 = g_{\mu \nu} dx^{\mu} dx^{\nu}$$
这里 $ds$ 是线元(无穷小距离),$x^{\mu}$ 是坐标。
2.2 度规、联络与曲率
度规不仅告诉我们如何测量距离,还定义了平行移动和曲率。
通过度规,我们可以计算克里斯托费尔符号(联络):
$$\Gamma^{\lambda}_{\mu \nu} = \frac{1}{2} g^{\lambda \rho} \left( \partial_{\mu} g_{\nu \rho} + \partial_{\nu} g_{\mu \rho} - \partial_{\rho} g_{\mu \nu} \right)$$
联络描述了在弯曲空间中如何"平行移动"向量。进而,我们可以定义黎曼曲率张量:
$$R^{\rho}_{\sigma \mu \nu} = \partial_{\mu} \Gamma^{\rho}_{\nu \sigma} - \partial_{\nu} \Gamma^{\rho}_{\mu \sigma} + \Gamma^{\rho}_{\mu \lambda} \Gamma^{\lambda}_{\nu \sigma} - \Gamma^{\rho}_{\nu \lambda} \Gamma^{\lambda}_{\mu \sigma}$$
曲率张量告诉我们空间在某一点有多"弯曲"。通过缩并,我们得到里奇张量:
$$R_{\mu \nu} = R^{\lambda}_{\mu \lambda \nu}$$
以及标量曲率(里奇标量):
$$R = g^{\mu \nu} R_{\mu \nu}$$

图2:质量弯曲时空的示意图。太阳使周围的时空发生弯曲,行星只是沿着弯曲时空中的"直线"运动。
2.3 爱因斯坦的初步尝试
从1907年到1915年,爱因斯坦花了八年时间寻找引力的正确理论。
他的出发点是等效原理:惯性质量和引力质量相等,这意味着在局部小范围内,引力和加速度无法区分。
基于这一原理,爱因斯坦逐渐意识到:
- 引力不是力,而是时空的几何性质
- 物质告诉时空如何弯曲
- 时空告诉物质如何运动
但爱因斯坦遇到了一个数学难题:场方程应该是什么形式?
他尝试了多种可能性,但要么不满足守恒定律,要么在弱场极限下不回到牛顿引力。
第三章:希尔伯特的洞见
3.1 希尔伯特的公理化方法
大卫·希尔伯特是20世纪最伟大的数学家之一,他以公理化方法著称。
与爱因斯坦从物理直觉出发不同,希尔伯特的方法是:先确定基本原理,然后让数学自动导出方程。
希尔伯特的问题是:什么样的作用量可以描述引力场?
他考虑了以下约束:
- 广义协变性:物理定律在所有坐标系中形式相同
- 二阶导数:场方程最多包含度规的二阶导数
- 最小耦合:引力场与物质场的耦合尽可能简单
3.2 构建引力作用量
希尔伯特从最简单的不变量出发——标量曲率 $R$。
为什么是 $R$?因为在所有由度规及其导数构成的标量中,$R$ 是唯一的、只包含度规二阶导数的量。
希尔伯特作用量的形式非常简单:
$$S_{\text{EH}} = \frac{1}{16\pi G} \int R \sqrt{-g} , d^4x$$
这就是爱因斯坦-希尔伯特作用量。
让我们逐项理解:
- $R$:标量曲率,描述时空的弯曲程度
- $\sqrt{-g}$:度规的行列式平方根,保证积分测度在坐标变换下的不变性
- $G$:牛顿引力常数
- 积分遍及整个四维时空
爱因斯坦-希尔伯特作用量(Einstein-Hilbert Action):描述引力场的最小作用量,形式为时空曲率的积分。可以想象成时空弯曲的"总代价"——自然界倾向于让时空以"代价最低"的方式弯曲。
3.3 变分原理的威力
有了作用量,下一步是应用最小作用量原理。
我们对度规 $g_{\mu \nu}$ 进行变分,要求作用量取极值:
$$\delta S_{\text{EH}} = 0$$
这将导出引力场的运动方程——也就是爱因斯坦场方程。

图3:变分原理的示意图。考虑所有可能的时空几何,真实的物理时空是使作用量取极值的那个。
第四章:从作用量到场方程的详细推导
4.1 变分的基本步骤
让我们详细推导如何从希尔伯特作用量得到爱因斯坦场方程。
希尔伯特作用量为:
$$S = \frac{1}{16\pi G} \int R \sqrt{-g} , d^4x$$
我们需要计算 $\delta S$,即当度规发生微小变化 $g_{\mu \nu} \to g_{\mu \nu} + \delta g_{\mu \nu}$ 时,作用量的变化。
首先,回顾标量曲率的定义:
$$R = g^{\mu \nu} R_{\mu \nu}$$
因此,$R$ 的变分为:
$$\delta R = \delta g^{\mu \nu} R_{\mu \nu} + g^{\mu \nu} \delta R_{\mu \nu}$$
4.2 计算里奇张量的变分
这是一个关键步骤。我们需要计算 $\delta R_{\mu \nu}$。
回忆里奇张量的定义 $R_{\mu \nu} = R^{\lambda}_{\mu \lambda \nu}$,以及黎曼张量的定义:
$$R^{\lambda}_{\mu \rho \nu} = \partial_{\rho} \Gamma^{\lambda}_{\nu \mu} - \partial_{\nu} \Gamma^{\lambda}_{\rho \mu} + \Gamma^{\lambda}_{\rho \sigma} \Gamma^{\sigma}_{\nu \mu} - \Gamma^{\lambda}_{\nu \sigma} \Gamma^{\sigma}_{\rho \mu}$$
当度规变分时,克里斯托费尔符号也变分:
$$\delta \Gamma^{\lambda}_{\mu \nu} = \frac{1}{2} g^{\lambda \rho} \left( \nabla_{\mu} \delta g_{\nu \rho} + \nabla_{\nu} \delta g_{\mu \rho} - \nabla_{\rho} \delta g_{\mu \nu} \right)$$
里奇张量的变分可以表示为:
$$\delta R_{\mu \nu} = \nabla_{\lambda} \delta \Gamma^{\lambda}_{\mu \nu} - \nabla_{\nu} \delta \Gamma^{\lambda}_{\mu \lambda}$$
这看起来复杂,但有一个关键性质:这是一个纯散度项。
4.3 散度项的处理
当我们计算 $g^{\mu \nu} \delta R_{\mu \nu}$ 时,利用缩并的性质:
$$g^{\mu \nu} \delta R_{\mu \nu} = \nabla_{\lambda} (g^{\mu \nu} \delta \Gamma^{\lambda}_{\mu \nu}) - \nabla_{\nu} (g^{\mu \nu} \delta \Gamma^{\lambda}_{\mu \lambda})$$
这可以写成:
$$g^{\mu \nu} \delta R_{\mu \nu} = \nabla_{\lambda} V^{\lambda}$$
其中 $V^{\lambda}$ 是某个向量。
关键点:当我们将此项代入作用量积分时,利用斯托克斯定理,边界上的散度项积分为零(假设变分在边界上为零)。
因此,这一项对作用量的变分没有贡献:
$$\int g^{\mu \nu} \delta R_{\mu \nu} \sqrt{-g} , d^4x = \text{边界项} = 0$$
4.4 度规行列式的变分
现在考虑 $\sqrt{-g}$ 的变分。
对于矩阵的行列式,有以下恒等式:
$$\delta g = g \cdot g^{\mu \nu} \delta g_{\mu \nu} = -g \cdot g_{\mu \nu} \delta g^{\mu \nu}$$
因此:
$$\delta \sqrt{-g} = -\frac{1}{2} \sqrt{-g} \cdot g_{\mu \nu} \delta g^{\mu \nu}$$
4.5 综合所有项
现在我们可以综合所有贡献。作用量的变分为:
$$\delta S = \frac{1}{16\pi G} \int \left( \delta R \cdot \sqrt{-g} + R \cdot \delta \sqrt{-g} \right) d^4x$$
代入前面的结果:
$$\delta S = \frac{1}{16\pi G} \int \left( R_{\mu \nu} \delta g^{\mu \nu} \sqrt{-g} - \frac{1}{2} R g_{\mu \nu} \delta g^{\mu \nu} \sqrt{-g} \right) d^4x$$
利用 $\delta g^{\mu \nu} = -g^{\mu \alpha} g^{\nu \beta} \delta g_{\alpha \beta}$,我们可以写成:
$$\delta S = \frac{1}{16\pi G} \int \left( R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} \right) \delta g_{\mu \nu} \sqrt{-g} , d^4x$$
4.6 得到真空爱因斯坦场方程
最小作用量原理要求 $\delta S = 0$ 对任意变分 $\delta g_{\mu \nu}$ 成立。因此,被积函数必须为零:
$$R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} = 0$$
这就是真空爱因斯坦场方程。
我们可以将其写成更熟悉的形式。定义爱因斯坦张量:
$$G^{\mu \nu} = R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu}$$
则真空场方程为:
$$G^{\mu \nu} = 0$$
或者,通过缩并(乘以 $g_{\mu \nu}$),我们发现这等价于:
$$R^{\mu \nu} = 0 \quad \text{和} \quad R = 0$$

图4:爱因斯坦场方程的推导过程。从希尔伯特作用量出发,通过变分原理,自然地导出了描述时空弯曲的场方程。
第五章:物质与引力的耦合
5.1 引入物质场
真空场方程只描述了引力场本身。但现实中,物质和能量也是引力场方程的重要组成部分。
希尔伯特的洞见是:物质的作用量应该与引力作用量相加,然后一起变分。
总作用量为:
$$S_{\text{total}} = S_{\text{EH}} + S_{\text{matter}}$$
其中物质作用量为:
$$S_{\text{matter}} = \int \mathcal{L}_{\text{matter}} \sqrt{-g} , d^4x$$
5.2 应力-能量张量
当对物质作用量变分时,我们定义应力-能量张量(也称为能量-动量张量):
$$T_{\mu \nu} = -\frac{2}{\sqrt{-g}} \frac{\delta (\mathcal{L}_{\text{matter}} \sqrt{-g})}{\delta g^{\mu \nu}}$$
或者等价地:
$$\delta S_{\text{matter}} = -\frac{1}{2} \int T^{\mu \nu} \delta g_{\mu \nu} \sqrt{-g} , d^4x$$
应力-能量张量(Stress-Energy Tensor):描述时空中物质和能量分布的张量。可以想象成物质的"压强表"——它不仅包含能量密度($T_{00}$),还包含动量流、压强和剪切应力。
对于理想流体,应力-能量张量有简单的形式:
$$T^{\mu \nu} = (\rho + p) u^{\mu} u^{\nu} + p g^{\mu \nu}$$
这里:
- $\rho$:能量密度
- $p$:压强
- $u^{\mu}$:流体的四速度
5.3 完整的爱因斯坦场方程
现在,我们对总作用量变分:
$$\delta S_{\text{total}} = \delta S_{\text{EH}} + \delta S_{\text{matter}} = 0$$
代入前面的结果:
$$\frac{1}{16\pi G} \left( R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} \right) - \frac{1}{2} T^{\mu \nu} = 0$$
整理得:
$$R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} = 8\pi G T^{\mu \nu}$$
这就是完整的爱因斯坦场方程!
通常写成:
$$G^{\mu \nu} = 8\pi G T^{\mu \nu}$$
5.4 方程的物理意义
让我们解读这个优美的方程:
左边 $G^{\mu \nu}$:描述时空的几何(爱因斯坦张量) 右边 $8\pi G T^{\mu \nu}$:描述物质和能量的分布
方程告诉我们:物质告诉时空如何弯曲,时空告诉物质如何运动。
这完美地实现了爱因斯坦的梦想。而且,这个方程是自动守恒的——比安基恒等式 $\nabla_{\mu} G^{\mu \nu} = 0$ 保证了 $\nabla_{\mu} T^{\mu \nu} = 0$,这正是能量-动量守恒定律。
第六章:几何解释与深度理解
6.1 希尔伯特作用量的几何意义
为什么希尔伯特作用量选择 $R$ 作为被积函数?
从几何角度看,标量曲率 $R$ 有以下特殊性质:
- 唯一性:在所有由度规及其导数构成的标量中,$R$ 是唯一只包含二阶导数的量
- 拓扑意义:二维曲面上,$\int R \sqrt{g} d^2x$ 与高斯-博内定理相关,是欧拉示性数
- 维数推广:在不同维度的时空中,$R$ 都保持相似的数学结构
在二维情况下,希尔伯特作用量与曲面的拓扑直接相关。在高维情况下,它描述了时空的"总弯曲程度"。
6.2 与牛顿引力的联系
广义相对论在弱场、低速极限下应该回到牛顿引力。让我们验证这一点。
考虑静态、弱引力场:
$$g_{00} \approx -(1 + 2\Phi)$$
这里 $\Phi$ 是牛顿引力势。
计算爱因斯坦张量的 $00$ 分量:
$$G_{00} \approx \nabla^2 \Phi$$
对于非相对论性物质,$T_{00} \approx \rho$(能量密度)。
代入爱因斯坦场方程:
$$\nabla^2 \Phi = 4\pi G \rho$$
这正是牛顿引力理论的泊松方程!
6.3 比安基恒等式的角色
在推导中,我们隐含地使用了比安基恒等式。这是为了保证场方程的相容性。
第二比安基恒等式告诉我们:
$$\nabla_{\mu} G^{\mu \nu} = 0$$
这恰好对应于:
$$\nabla_{\mu} T^{\mu \nu} = 0$$
即能量-动量守恒。
这个恒等式不是巧合,而是希尔伯特作用量的几何必然性。它保证了爱因斯坦场方程的自洽性。
第七章:推广与应用
7.1 宇宙学常数
1917年,爱因斯坦为了得到静态宇宙解,在场方程中引入了一个额外项——宇宙学常数 $\Lambda$:
$$R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} + \Lambda g^{\mu \nu} = 8\pi G T^{\mu \nu}$$
这对应于修改希尔伯特作用量:
$$S = \frac{1}{16\pi G} \int (R - 2\Lambda) \sqrt{-g} , d^4x$$
如今我们知道,宇宙学常数可能解释暗能量——推动宇宙加速膨胀的神秘力量。

图5:宇宙的大尺度结构。希尔伯特作用量加上宇宙学常数,可以描述宇宙的加速膨胀。
7.2 高阶引力理论
希尔伯特作用量不是唯一可能的引力作用量。理论上,我们可以添加更高阶的项:
$$S = \frac{1}{16\pi G} \int \left( R + \alpha R^2 + \beta R_{\mu \nu} R^{\mu \nu} + \cdots \right) \sqrt{-g} , d^4x$$
这些修正项在经典极限下很小,但在极端条件下(如黑洞附近、宇宙早期)可能产生可观测效应。
f(R) 引力是其中一类重要的修正理论,将 $R$ 替换为 $R$ 的任意函数 $f(R)$。
7.3 量子引力
希尔伯特作用量在量子引力理论中也扮演重要角色。
在圈量子引力中,时空的量子化从对希尔伯特作用量的正则量子化开始。
在弦理论中,引力出现在低能极限下,有效作用量包含了希尔伯特项加上无穷级数的修正。
7.4 黑洞热力学
20世纪70年代,贝肯斯坦和霍金发现黑洞具有温度和熵。
黑洞熵的贝肯斯坦-霍金公式为:
$$S_{\text{BH}} = \frac{A}{4G}$$
这里 $A$ 是黑洞视界的面积。
这个公式可以从希尔伯特作用量的欧几里得路径积分导出,揭示了引力、热力学和量子物理之间的深刻联系。
结语:数学之美与物理真理
从1915年到今天,希尔伯特作用量已经成为理论物理的基石。
它的美在于简洁——仅仅一个积分,就能描述整个宇宙的引力。
它的力量在于普适——从行星运动到黑洞蒸发,从宇宙膨胀到引力波,都可以从这个作用量导出。
希尔伯特的公理化方法告诉我们:物理学的真理往往隐藏在数学的简洁之中。爱因斯坦从物理直觉出发,希尔伯特从数学原理出发,最终汇聚于同一个终点——这不是巧合,而是自然界深层结构的体现。
当你下次看到 $S = \frac{1}{16\pi G} \int R \sqrt{-g} , d^4x$ 时,请记住:这不仅是一行公式,它是人类智慧对宇宙本质最深刻的洞察之一。
延伸阅读:
- Carroll, S. M. Spacetime and Geometry: An Introduction to General Relativity. Cambridge University Press, 2019.
- Wald, R. M. General Relativity. University of Chicago Press, 1984.
- Zee, A. Einstein Gravity in a Nutshell. Princeton University Press, 2013.
- Hilbert, D. “Die Grundlagen der Physik.” Nachrichten von der Gesellschaft der Wissenschaften zu Göttingen, 1915.
系列导航
本文是广义相对论系列文章的第 [7] 篇。
本系列文章:
| 编号 | 主题 |
|---|---|
| [1] | 广义相对论入门:从微分几何到爱因斯坦场方程 |
| [2] | 克里斯托费尔符号:联络的数学定义 |
| [3] | 测地线方程:自由粒子的运动轨迹 |
| [4] | 高斯绝妙定理:曲率的内在几何 |
| [5] | 微分几何在广义相对论中的应用 |
| [6] | 高斯博内-陈定理:拓扑与几何的深刻联系 |
| [7] | 希尔伯特作用量:从变分原理到场方程 |
| [8] | 比安基恒等式:曲率的对称性 |
| [9] | 彭罗斯-霍金奇点定理:时空的边界 |
| [10] | 引力波:时空的涟漪 |
| [11] | 克尔黑洞:旋转的时空漩涡 |
| [12] | 宇宙学:从大爆炸到暗能量 |
本文的部分插图由 AI 生成,旨在帮助读者直观理解抽象的物理概念。
