
AlexNet:开启深度学习革命的里程碑
引言:一个时代的分水岭 $2012$ 年 $9$ 月 $30$ 日,多伦多大学的研究团队在 ImageNet 大规模视觉识别挑战赛(ILSVRC)上提交了一个卷积神经网络模型。当时,没有人意识到这将是一个历史性的时刻。 这个模型叫做 AlexNet,以第一作者 Alex Krizhevsky 的名字命名。它在图像分类任务上将 Top-5 错误率从上一年的 $25.8%$ 骤降至 $16.4%$——降幅接近 $10$ 个百分点,远超第二名近 $10%$。 这不是一次普通的进步,这是一次范式革命。 在此之前,深度学习经历了漫长的"寒冬"。尽管 $1986$ 年反向传播算法已被提出,$1998$ 年 LeCun 的 LeNet 已经证明了卷积神经网络的潜力,但深层网络的训练一直受困于梯度消失、计算资源匮乏和数据不足等问题。 AlexNet 的突破不仅在于它赢得了比赛,更在于它证明了:深度神经网络可以在大规模数据集上有效训练,并且性能远超传统方法。 这一证明,开启了人工智能的新纪元。 第一章:黎明前的黑暗——深度学习的寒冬 1.1 感知机的兴衰 要理解 AlexNet 的意义,我们需要回溯到神经网络的起源。 $1958$ 年,Frank Rosenblatt 提出了感知机(Perceptron),这是第一个能够学习的神经网络模型。Rosenblatt 乐观地宣称:“感知机最终将能够学习、做出决策和翻译语言。” 然而,$1969$ 年,Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中证明了感知机的局限性:它无法解决非线性可分问题,比如简单的异或(XOR)问题。 这个打击是致命的。神经网络研究陷入了第一次寒冬。 1.2 反向传播的曙光与困境 $1986$ 年,Rumelhart、Hinton 和 Williams 重新发现了反向传播算法(Backpropagation),为训练多层神经网络提供了理论基础。 反向传播的核心思想: 给定损失函数 $L$,网络参数 $\mathbf{W}$,反向传播通过链式法则计算梯度: $$\frac{\partial L}{\partial w_{ij}^{(l)}} = \frac{\partial L}{\partial z_i^{(l)}} \cdot \frac{\partial z_i^{(l)}}{\partial w_{ij}^{(l)}} = \delta_i^{(l)} \cdot a_j^{(l-1)}$$ ...