引言:物理学的最小作用量原理

1915年11月,阿尔伯特·爱因斯坦在柏林普鲁士科学院发表了他关于广义相对论的系列论文。在同一时间,远在哥廷根的大卫·希尔伯特也在独立地进行着同样的工作。

这两位数学物理学家,一个从物理直觉出发,一个从数学公理出发,最终殊途同归,得到了完全相同的结果——描述引力的爱因斯坦场方程。

但希尔伯特的方法更为优雅:他没有直接猜测场方程的形式,而是从一个简单的原理出发——最小作用量原理

作用量(Action):物理学中描述系统演化"代价"的标量量。可以想象成自然界在演化过程中选择"最经济"的路径,就像光从一点传播到另一点时,总是沿着耗时最短的路径前进(费马原理)。

第一章:从光的路径到作用量

1.1 费马原理的启示

早在17世纪,法国数学家费马发现:光在传播时,总是选择耗时最短的路径。

无论光从空气射入水中发生折射,还是在镜面上反射,它都仿佛在"计算"所有可能的路径,然后选择那个让传播时间最短的一条。

这就是费马原理——物理学的最小作用量思想的最早萌芽。

最小作用量原理(Principle of Least Action):自然界总是选择使作用量取极值(通常是最小值)的路径。可以想象成宇宙是一个精明的会计师,总是选择"成本最低"的方式来演化。

1.2 经典力学中的作用量

18世纪,欧拉和拉格朗日将这一思想系统化,建立了分析力学。

在经典力学中,一个粒子的运动由拉格朗日量 $L$ 决定:

$$L = T - V$$

这里 $T$ 是动能,$V$ 是势能。作用量 $S$ 则是拉格朗日量沿路径的积分:

$$S = \int_{t_1}^{t_2} L , dt$$

最小作用量原理告诉我们:真实的运动路径使作用量 $S$ 取极值。

通过对作用量变分(即考虑微小偏离),我们得到欧拉-拉格朗日方程

$$\frac{d}{dt} \frac{\partial L}{\partial \dot{q}} - \frac{\partial L}{\partial q} = 0$$

这就是经典力学的核心方程。牛顿第二定律、能量守恒、动量守恒,都可以从这个原理导出。

最小作用量原理示意

图1:光在两种介质界面处的折射。光选择耗时最短的路径,这是最小作用量原理在光学中的体现。

1.3 从粒子到场

19世纪,物理学的发展将最小作用量原理推广到了场论。

麦克斯韦的电磁理论、热力学、统计力学,都可以用作用量的语言来描述。物理学家发现,(如电磁场)的作用量比粒子的作用量更为基本。

一个场 $\phi$ 的作用量通常写成:

$$S = \int \mathcal{L}(\phi, \partial_{\mu} \phi) , d^4x$$

这里 $\mathcal{L}$ 是拉格朗日密度,积分遍及整个时空。

这给爱因斯坦一个重要启示:引力也应该可以用作用量来描述

第二章:弯曲时空的几何

2.1 从欧几里得到黎曼

在爱因斯坦之前,物理学家默认空间是平直的——这就是欧几里得几何。

但爱因斯坦意识到:质量会弯曲时空。为了描述这种弯曲,他需要一种全新的几何学——黎曼几何

黎曼几何(Riemannian Geometry):研究弯曲空间的数学理论。可以想象成抛弃平直的纸张,研究揉皱的纸团上的几何。在这种几何中,三角形内角和不必等于180度,平行线可以相交。

在黎曼几何中,空间每一点的距离由度规张量 $g_{\mu \nu}$ 描述:

$$ds^2 = g_{\mu \nu} dx^{\mu} dx^{\nu}$$

这里 $ds$ 是线元(无穷小距离),$x^{\mu}$ 是坐标。

2.2 度规、联络与曲率

度规不仅告诉我们如何测量距离,还定义了平行移动曲率

通过度规,我们可以计算克里斯托费尔符号(联络):

$$\Gamma^{\lambda}_{\mu \nu} = \frac{1}{2} g^{\lambda \rho} \left( \partial_{\mu} g_{\nu \rho} + \partial_{\nu} g_{\mu \rho} - \partial_{\rho} g_{\mu \nu} \right)$$

联络描述了在弯曲空间中如何"平行移动"向量。进而,我们可以定义黎曼曲率张量

$$R^{\rho}_{\sigma \mu \nu} = \partial_{\mu} \Gamma^{\rho}_{\nu \sigma} - \partial_{\nu} \Gamma^{\rho}_{\mu \sigma} + \Gamma^{\rho}_{\mu \lambda} \Gamma^{\lambda}_{\nu \sigma} - \Gamma^{\rho}_{\nu \lambda} \Gamma^{\lambda}_{\mu \sigma}$$

曲率张量告诉我们空间在某一点有多"弯曲"。通过缩并,我们得到里奇张量

$$R_{\mu \nu} = R^{\lambda}_{\mu \lambda \nu}$$

以及标量曲率(里奇标量):

$$R = g^{\mu \nu} R_{\mu \nu}$$

时空曲率几何

图2:质量弯曲时空的示意图。太阳使周围的时空发生弯曲,行星只是沿着弯曲时空中的"直线"运动。

2.3 爱因斯坦的初步尝试

从1907年到1915年,爱因斯坦花了八年时间寻找引力的正确理论。

他的出发点是等效原理:惯性质量和引力质量相等,这意味着在局部小范围内,引力和加速度无法区分。

基于这一原理,爱因斯坦逐渐意识到:

  1. 引力不是力,而是时空的几何性质
  2. 物质告诉时空如何弯曲
  3. 时空告诉物质如何运动

但爱因斯坦遇到了一个数学难题:场方程应该是什么形式

他尝试了多种可能性,但要么不满足守恒定律,要么在弱场极限下不回到牛顿引力。

第三章:希尔伯特的洞见

3.1 希尔伯特的公理化方法

大卫·希尔伯特是20世纪最伟大的数学家之一,他以公理化方法著称。

与爱因斯坦从物理直觉出发不同,希尔伯特的方法是:先确定基本原理,然后让数学自动导出方程

希尔伯特的问题是:什么样的作用量可以描述引力场?

他考虑了以下约束:

  1. 广义协变性:物理定律在所有坐标系中形式相同
  2. 二阶导数:场方程最多包含度规的二阶导数
  3. 最小耦合:引力场与物质场的耦合尽可能简单

3.2 构建引力作用量

希尔伯特从最简单的不变量出发——标量曲率 $R$。

为什么是 $R$?因为在所有由度规及其导数构成的标量中,$R$ 是唯一的、只包含度规二阶导数的量。

希尔伯特作用量的形式非常简单:

$$S_{\text{EH}} = \frac{1}{16\pi G} \int R \sqrt{-g} , d^4x$$

这就是爱因斯坦-希尔伯特作用量

让我们逐项理解:

  • $R$:标量曲率,描述时空的弯曲程度
  • $\sqrt{-g}$:度规的行列式平方根,保证积分测度在坐标变换下的不变性
  • $G$:牛顿引力常数
  • 积分遍及整个四维时空

爱因斯坦-希尔伯特作用量(Einstein-Hilbert Action):描述引力场的最小作用量,形式为时空曲率的积分。可以想象成时空弯曲的"总代价"——自然界倾向于让时空以"代价最低"的方式弯曲。

3.3 变分原理的威力

有了作用量,下一步是应用最小作用量原理

我们对度规 $g_{\mu \nu}$ 进行变分,要求作用量取极值:

$$\delta S_{\text{EH}} = 0$$

这将导出引力场的运动方程——也就是爱因斯坦场方程。

变分原理推导

图3:变分原理的示意图。考虑所有可能的时空几何,真实的物理时空是使作用量取极值的那个。

第四章:从作用量到场方程的详细推导

4.1 变分的基本步骤

让我们详细推导如何从希尔伯特作用量得到爱因斯坦场方程。

希尔伯特作用量为:

$$S = \frac{1}{16\pi G} \int R \sqrt{-g} , d^4x$$

我们需要计算 $\delta S$,即当度规发生微小变化 $g_{\mu \nu} \to g_{\mu \nu} + \delta g_{\mu \nu}$ 时,作用量的变化。

首先,回顾标量曲率的定义:

$$R = g^{\mu \nu} R_{\mu \nu}$$

因此,$R$ 的变分为:

$$\delta R = \delta g^{\mu \nu} R_{\mu \nu} + g^{\mu \nu} \delta R_{\mu \nu}$$

4.2 计算里奇张量的变分

这是一个关键步骤。我们需要计算 $\delta R_{\mu \nu}$。

回忆里奇张量的定义 $R_{\mu \nu} = R^{\lambda}_{\mu \lambda \nu}$,以及黎曼张量的定义:

$$R^{\lambda}_{\mu \rho \nu} = \partial_{\rho} \Gamma^{\lambda}_{\nu \mu} - \partial_{\nu} \Gamma^{\lambda}_{\rho \mu} + \Gamma^{\lambda}_{\rho \sigma} \Gamma^{\sigma}_{\nu \mu} - \Gamma^{\lambda}_{\nu \sigma} \Gamma^{\sigma}_{\rho \mu}$$

当度规变分时,克里斯托费尔符号也变分:

$$\delta \Gamma^{\lambda}_{\mu \nu} = \frac{1}{2} g^{\lambda \rho} \left( \nabla_{\mu} \delta g_{\nu \rho} + \nabla_{\nu} \delta g_{\mu \rho} - \nabla_{\rho} \delta g_{\mu \nu} \right)$$

里奇张量的变分可以表示为:

$$\delta R_{\mu \nu} = \nabla_{\lambda} \delta \Gamma^{\lambda}_{\mu \nu} - \nabla_{\nu} \delta \Gamma^{\lambda}_{\mu \lambda}$$

这看起来复杂,但有一个关键性质:这是一个纯散度项

4.3 散度项的处理

当我们计算 $g^{\mu \nu} \delta R_{\mu \nu}$ 时,利用缩并的性质:

$$g^{\mu \nu} \delta R_{\mu \nu} = \nabla_{\lambda} (g^{\mu \nu} \delta \Gamma^{\lambda}_{\mu \nu}) - \nabla_{\nu} (g^{\mu \nu} \delta \Gamma^{\lambda}_{\mu \lambda})$$

这可以写成:

$$g^{\mu \nu} \delta R_{\mu \nu} = \nabla_{\lambda} V^{\lambda}$$

其中 $V^{\lambda}$ 是某个向量。

关键点:当我们将此项代入作用量积分时,利用斯托克斯定理,边界上的散度项积分为零(假设变分在边界上为零)。

因此,这一项对作用量的变分没有贡献:

$$\int g^{\mu \nu} \delta R_{\mu \nu} \sqrt{-g} , d^4x = \text{边界项} = 0$$

4.4 度规行列式的变分

现在考虑 $\sqrt{-g}$ 的变分。

对于矩阵的行列式,有以下恒等式:

$$\delta g = g \cdot g^{\mu \nu} \delta g_{\mu \nu} = -g \cdot g_{\mu \nu} \delta g^{\mu \nu}$$

因此:

$$\delta \sqrt{-g} = -\frac{1}{2} \sqrt{-g} \cdot g_{\mu \nu} \delta g^{\mu \nu}$$

4.5 综合所有项

现在我们可以综合所有贡献。作用量的变分为:

$$\delta S = \frac{1}{16\pi G} \int \left( \delta R \cdot \sqrt{-g} + R \cdot \delta \sqrt{-g} \right) d^4x$$

代入前面的结果:

$$\delta S = \frac{1}{16\pi G} \int \left( R_{\mu \nu} \delta g^{\mu \nu} \sqrt{-g} - \frac{1}{2} R g_{\mu \nu} \delta g^{\mu \nu} \sqrt{-g} \right) d^4x$$

利用 $\delta g^{\mu \nu} = -g^{\mu \alpha} g^{\nu \beta} \delta g_{\alpha \beta}$,我们可以写成:

$$\delta S = \frac{1}{16\pi G} \int \left( R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} \right) \delta g_{\mu \nu} \sqrt{-g} , d^4x$$

4.6 得到真空爱因斯坦场方程

最小作用量原理要求 $\delta S = 0$ 对任意变分 $\delta g_{\mu \nu}$ 成立。因此,被积函数必须为零:

$$R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} = 0$$

这就是真空爱因斯坦场方程

我们可以将其写成更熟悉的形式。定义爱因斯坦张量

$$G^{\mu \nu} = R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu}$$

则真空场方程为:

$$G^{\mu \nu} = 0$$

或者,通过缩并(乘以 $g_{\mu \nu}$),我们发现这等价于:

$$R^{\mu \nu} = 0 \quad \text{和} \quad R = 0$$

爱因斯坦场方程诞生

图4:爱因斯坦场方程的推导过程。从希尔伯特作用量出发,通过变分原理,自然地导出了描述时空弯曲的场方程。

第五章:物质与引力的耦合

5.1 引入物质场

真空场方程只描述了引力场本身。但现实中,物质和能量也是引力场方程的重要组成部分。

希尔伯特的洞见是:物质的作用量应该与引力作用量相加,然后一起变分。

总作用量为:

$$S_{\text{total}} = S_{\text{EH}} + S_{\text{matter}}$$

其中物质作用量为:

$$S_{\text{matter}} = \int \mathcal{L}_{\text{matter}} \sqrt{-g} , d^4x$$

5.2 应力-能量张量

当对物质作用量变分时,我们定义应力-能量张量(也称为能量-动量张量):

$$T_{\mu \nu} = -\frac{2}{\sqrt{-g}} \frac{\delta (\mathcal{L}_{\text{matter}} \sqrt{-g})}{\delta g^{\mu \nu}}$$

或者等价地:

$$\delta S_{\text{matter}} = -\frac{1}{2} \int T^{\mu \nu} \delta g_{\mu \nu} \sqrt{-g} , d^4x$$

应力-能量张量(Stress-Energy Tensor):描述时空中物质和能量分布的张量。可以想象成物质的"压强表"——它不仅包含能量密度($T_{00}$),还包含动量流、压强和剪切应力。

对于理想流体,应力-能量张量有简单的形式:

$$T^{\mu \nu} = (\rho + p) u^{\mu} u^{\nu} + p g^{\mu \nu}$$

这里:

  • $\rho$:能量密度
  • $p$:压强
  • $u^{\mu}$:流体的四速度

5.3 完整的爱因斯坦场方程

现在,我们对总作用量变分:

$$\delta S_{\text{total}} = \delta S_{\text{EH}} + \delta S_{\text{matter}} = 0$$

代入前面的结果:

$$\frac{1}{16\pi G} \left( R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} \right) - \frac{1}{2} T^{\mu \nu} = 0$$

整理得:

$$R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} = 8\pi G T^{\mu \nu}$$

这就是完整的爱因斯坦场方程

通常写成:

$$G^{\mu \nu} = 8\pi G T^{\mu \nu}$$

5.4 方程的物理意义

让我们解读这个优美的方程:

左边 $G^{\mu \nu}$:描述时空的几何(爱因斯坦张量) 右边 $8\pi G T^{\mu \nu}$:描述物质和能量的分布

方程告诉我们:物质告诉时空如何弯曲,时空告诉物质如何运动

这完美地实现了爱因斯坦的梦想。而且,这个方程是自动守恒的——比安基恒等式 $\nabla_{\mu} G^{\mu \nu} = 0$ 保证了 $\nabla_{\mu} T^{\mu \nu} = 0$,这正是能量-动量守恒定律。

第六章:几何解释与深度理解

6.1 希尔伯特作用量的几何意义

为什么希尔伯特作用量选择 $R$ 作为被积函数?

从几何角度看,标量曲率 $R$ 有以下特殊性质:

  1. 唯一性:在所有由度规及其导数构成的标量中,$R$ 是唯一只包含二阶导数的量
  2. 拓扑意义:二维曲面上,$\int R \sqrt{g} d^2x$ 与高斯-博内定理相关,是欧拉示性数
  3. 维数推广:在不同维度的时空中,$R$ 都保持相似的数学结构

在二维情况下,希尔伯特作用量与曲面的拓扑直接相关。在高维情况下,它描述了时空的"总弯曲程度"。

6.2 与牛顿引力的联系

广义相对论在弱场、低速极限下应该回到牛顿引力。让我们验证这一点。

考虑静态、弱引力场:

$$g_{00} \approx -(1 + 2\Phi)$$

这里 $\Phi$ 是牛顿引力势。

计算爱因斯坦张量的 $00$ 分量:

$$G_{00} \approx \nabla^2 \Phi$$

对于非相对论性物质,$T_{00} \approx \rho$(能量密度)。

代入爱因斯坦场方程:

$$\nabla^2 \Phi = 4\pi G \rho$$

这正是牛顿引力理论的泊松方程

6.3 比安基恒等式的角色

在推导中,我们隐含地使用了比安基恒等式。这是为了保证场方程的相容性。

第二比安基恒等式告诉我们:

$$\nabla_{\mu} G^{\mu \nu} = 0$$

这恰好对应于:

$$\nabla_{\mu} T^{\mu \nu} = 0$$

即能量-动量守恒。

这个恒等式不是巧合,而是希尔伯特作用量的几何必然性。它保证了爱因斯坦场方程的自洽性。

第七章:推广与应用

7.1 宇宙学常数

1917年,爱因斯坦为了得到静态宇宙解,在场方程中引入了一个额外项——宇宙学常数 $\Lambda$:

$$R^{\mu \nu} - \frac{1}{2} R g^{\mu \nu} + \Lambda g^{\mu \nu} = 8\pi G T^{\mu \nu}$$

这对应于修改希尔伯特作用量:

$$S = \frac{1}{16\pi G} \int (R - 2\Lambda) \sqrt{-g} , d^4x$$

如今我们知道,宇宙学常数可能解释暗能量——推动宇宙加速膨胀的神秘力量。

宇宙学应用

图5:宇宙的大尺度结构。希尔伯特作用量加上宇宙学常数,可以描述宇宙的加速膨胀。

7.2 高阶引力理论

希尔伯特作用量不是唯一可能的引力作用量。理论上,我们可以添加更高阶的项:

$$S = \frac{1}{16\pi G} \int \left( R + \alpha R^2 + \beta R_{\mu \nu} R^{\mu \nu} + \cdots \right) \sqrt{-g} , d^4x$$

这些修正项在经典极限下很小,但在极端条件下(如黑洞附近、宇宙早期)可能产生可观测效应。

f(R) 引力是其中一类重要的修正理论,将 $R$ 替换为 $R$ 的任意函数 $f(R)$。

7.3 量子引力

希尔伯特作用量在量子引力理论中也扮演重要角色。

圈量子引力中,时空的量子化从对希尔伯特作用量的正则量子化开始。

弦理论中,引力出现在低能极限下,有效作用量包含了希尔伯特项加上无穷级数的修正。

7.4 黑洞热力学

20世纪70年代,贝肯斯坦和霍金发现黑洞具有温度和熵。

黑洞熵的贝肯斯坦-霍金公式为:

$$S_{\text{BH}} = \frac{A}{4G}$$

这里 $A$ 是黑洞视界的面积。

这个公式可以从希尔伯特作用量的欧几里得路径积分导出,揭示了引力、热力学和量子物理之间的深刻联系。

结语:数学之美与物理真理

从1915年到今天,希尔伯特作用量已经成为理论物理的基石。

它的美在于简洁——仅仅一个积分,就能描述整个宇宙的引力。

它的力量在于普适——从行星运动到黑洞蒸发,从宇宙膨胀到引力波,都可以从这个作用量导出。

希尔伯特的公理化方法告诉我们:物理学的真理往往隐藏在数学的简洁之中。爱因斯坦从物理直觉出发,希尔伯特从数学原理出发,最终汇聚于同一个终点——这不是巧合,而是自然界深层结构的体现。

当你下次看到 $S = \frac{1}{16\pi G} \int R \sqrt{-g} , d^4x$ 时,请记住:这不仅是一行公式,它是人类智慧对宇宙本质最深刻的洞察之一。


延伸阅读

  1. Carroll, S. M. Spacetime and Geometry: An Introduction to General Relativity. Cambridge University Press, 2019.
  2. Wald, R. M. General Relativity. University of Chicago Press, 1984.
  3. Zee, A. Einstein Gravity in a Nutshell. Princeton University Press, 2013.
  4. Hilbert, D. “Die Grundlagen der Physik.” Nachrichten von der Gesellschaft der Wissenschaften zu Göttingen, 1915.

系列导航

本文是广义相对论系列文章的第 [7] 篇。

本系列文章

编号主题
[1]广义相对论入门:从微分几何到爱因斯坦场方程
[2]克里斯托费尔符号:联络的数学定义
[3]测地线方程:自由粒子的运动轨迹
[4]高斯绝妙定理:曲率的内在几何
[5]微分几何在广义相对论中的应用
[6]高斯博内-陈定理:拓扑与几何的深刻联系
[7]希尔伯特作用量:从变分原理到场方程
[8]比安基恒等式:曲率的对称性
[9]彭罗斯-霍金奇点定理:时空的边界
[10]引力波:时空的涟漪
[11]克尔黑洞:旋转的时空漩涡
[12]宇宙学:从大爆炸到暗能量

本文的部分插图由 AI 生成,旨在帮助读者直观理解抽象的物理概念。