AI 论文解读系列 Vision Transformer cover image

AI 论文解读系列:Vision Transformer 视觉Transformer

AI 论文解读系列:Vision Transformer 视觉 Transformer 引言 2020 年,Google Research 发表了一篇极具颠覆性的论文《An Image is Worth 16$\times$16 Words: Transformers for Image Recognition at Scale》。这篇论文提出了 Vision Transformer(ViT),一个纯粹基于 Transformer 架构的视觉模型,在 ImageNet 分类任务上取得了与最先进的卷积神经网络(CNN)相媲美甚至超越的成绩。 这个成果的震撼之处在于:在计算机视觉领域统治了整整十年的卷积神经网络,终于遇到了真正的挑战者。CNN 凭借其归纳偏置(局部性、平移等变性)在视觉任务中表现出色,而 Transformer 原本是为自然语言处理设计的序列模型。ViT 的成功证明,只要有足够的数据和计算资源,纯粹的注意力机制同样可以在视觉任务中大放异彩。 本文将从注意力机制的基础出发,循序渐进地剖析 ViT 的架构设计、数学原理和训练策略,揭示为何"一张图片相当于 16$\times$16 个单词"这一简单想法能够改变计算机视觉的格局。 第一章:从 CNN 到 Transformer 的范式转移 1.1 卷积神经网络的统治时代 自 2012 年 AlexNet 在 ImageNet 竞赛中取得突破性成果以来,卷积神经网络(CNN)一直是计算机视觉领域的主流架构。CNN 的成功建立在几个关键设计之上: 局部感受野(Local Receptive Fields):每个神经元只与输入的局部区域连接,捕捉局部特征如边缘、纹理。 权重共享(Weight Sharing):同一个卷积核在整个输入上滑动,检测相同特征的不同位置。 平移等变性(Translation Equivariance):输入图像平移,特征图也相应平移,保持空间关系。 这些归纳偏置(Inductive Bias)使 CNN 非常适合处理图像数据,但也带来了一些限制: 感受野有限,需要堆叠多层才能获取全局信息 对长距离依赖的建模能力较弱 难以直接捕捉空间上相距较远的像素之间的关系 1.2 Transformer 在自然语言处理中的成功 2017 年,Google 在论文《Attention Is All You Need》中提出了 Transformer 架构,彻底改变了自然语言处理(NLP)领域。Transformer 完全基于自注意力机制(Self-Attention),摒弃了循环和卷积结构。 ...

January 30, 2026 · 5 min · 986 words · s-ai-unix