
基于神经网络的深度学习算法:从感知机到Transformer的完整指南
引言:从生物启发到智能革命 1943年,Warren McCulloch和Walter Pitts提出了第一个神经元数学模型。他们用一个简单的数学公式模拟了生物神经元的工作方式:接收输入、加权求和、激活输出。这个看似简单的想法,却孕育了后来改变世界的人工智能技术。 1958年,Frank Rosenblatt发明了感知机(Perceptron),这是第一个可以学习的神经网络。但1969年,Minsky和Papert在《Perceptrons》一书中证明了单层感知机无法解决异或(XOR)问题,这个致命缺陷导致了神经网络研究的第一次寒冬。 1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams重新发现了反向传播算法,解决了多层网络的训练问题。神经网络迎来了短暂的春天。 但在90年代到2000年代初,支持向量机(SVM)等传统机器学习算法统治了学术界。神经网络因为数据量不足、计算能力有限、缺乏有效的训练技巧,再次陷入沉寂。 2012年,ImageNet竞赛上,Hinton的学生Alex Krizhevsky使用深度卷积神经网络AlexNet,以压倒性优势击败了传统方法,分类错误率从26%降低到15.3%。这一年,深度学习时代正式开启。 从此,深度学习以惊人的速度发展:2014年的VGG、GoogLeNet,2015年的ResNet解决深度退化问题,2017年的Transformer彻底改变自然语言处理,2022年的ChatGPT让全世界见识到大模型的力量。 本文将从数学原理出发,系统讲解深度学习的核心算法:从基础神经网络到卷积神经网络(CNN),从循环神经网络(RNN)到Transformer,最后探讨未来发展趋势。 第一章:神经网络的数学基础 1.1 单神经元:感知机的数学模型 1.1.1 前向传播 感知机是最基础的神经网络单元,模拟生物神经元的工作原理。给定输入向量 $x \in \mathbb{R}^d$,权重向量 $w \in \mathbb{R}^d$,偏置 $b \in \mathbb{R}$: $$z = w^Tx + b = \sum_{i=1}^d w_i x_i + b$$ 激活函数 $\sigma(z)$ 决定神经元的输出: $$a = \sigma(z)$$ 1.1.2 常用激活函数 Sigmoid函数: $$\sigma(z) = \frac{1}{1 + e^{-z}}$$ 导数: $$\sigma’(z) = \sigma(z)(1 - \sigma(z))$$ 性质: 输出范围:$(0, 1)$ S型曲线,可微 缺点:梯度消失($| \sigma’(z) | \leq 0.25$),输出不以零为中心 Tanh函数: $$\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$$ ...






