ARTICLE

Transformer

Transformer是一种基于自注意力机制的深度学习架构，由Google Brain团队的研究人员Vaswani等人在2017年发表的经典论文《Attention Is All You Need》中首次提出。该论文一经发表便在学术界和工业界引起巨大反响，截至2024年已被引用超过十万次，成为深度学习领域引用量最高的论文之一。在此之前，自然语言处理领域的主流

浏览 0 更新 2025-11-08

Transformer是一种基于自注意力机制的深度学习架构，由Google Brain团队的研究人员Vaswani等人在2017年发表的经典论文《Attention Is All You Need》中首次提出。该论文一经发表便在学术界和工业界引起巨大反响，截至2024年已被引用超过十万次，成为深度学习领域引用量最高的论文之一。在此之前，自然语言处理领域的主流方法是循环神经网络及其各种变体，如长短期记忆网络和门控循环单元。这些网络虽然在一定程度上了缓解了长距离依赖问题，但由于其固有的递归结构，信息必须沿着时间步逐一传递，导致训练速度缓慢且难以并行化处理。另一个主流分支是卷积神经网络，虽然可以并行计算，但受限于局部感受野，难以捕获全局依赖关系。Transformer完全摒弃了这两种传统架构的序列处理方式，转而纯粹依靠注意力机制来捕捉序列中任意两个位置之间的依赖关系。Transformer的出现从根本上改变了自然语言处理领域的技术范式，不仅迅速取代了循环神经网络成为序列建模的主流方法，更向计算机视觉、语音处理、多模态学习、生物信息学和强化学习等领域大规模扩展，被广泛认为是深度学习历史上最具革命性和影响力的模型架构之一。时至今日，几乎所有主流的大型语言模型都以Transformer为底层架构，其影响力已远远超出学术研究的范畴，深刻塑造了人工智能产业的整体格局。未来的人工智能发展在很大程度上仍将建立在Transformer及其衍生架构的基础之上。

1. 核心思想与架构设计

1.1 自注意力机制

Transformer架构的基石是自注意力机制。在传统的循环神经网络中，信息必须沿着时间步逐一传递，每一步的隐状态依赖于前一步的隐状态，这种串行处理方式不仅导致长距离依赖关系的捕获效率极低，同时存在严重的梯度消失或梯度爆炸问题。具体来说，当序列长度较大时，较早时间步的信息在反复传递过程中会被逐步稀释，导致模型难以记住遥远过去的内容。自注意力机制则完全突破了这一限制：对于输入序列中的每一个位置，自注意力计算该位置与序列中所有其他位置的加权关联度，使得任意两个位置之间都可以直接建立信息通路，无论它们之间的距离有多远，只需单次前向传播即可捕获全局依赖关系。这种全局连接的特性是Transformer相较于循环神经网络最根本的优势所在。

理解自注意力机制的关键在于将其类比于信息检索过程。在信息检索系统中，用户提交一个查询，系统根据查询与数据库中每条文档的键之间的匹配程度进行排序，然后返回最相关的文档内容。自注意力机制借鉴了类似的思路，但查询、键和值都来自同一个输入序列。具体而言，给定输入序列的表示矩阵 $X \in \mathbb{R}^{n \times d_{model}}$ ，通过三组可学习的线性变换矩阵分别得到查询（Query）、键（Key）和值（Value）三个矩阵：

Q = XW^Q, \quad K = XW^K, \quad V = XW^V

其中 $W^Q, W^K \in \mathbb{R}^{d_{model} \times d_k}$ , $W^V \in \mathbb{R}^{d_{model} \times d_v}$ 。注意力计算的输出为：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

查询矩阵和键矩阵的乘积 $QK^T$ 中每个元素 $(i,j)$ 表示序列中第 $i$ 个位置与第 $j$ 个位置之间的原始关联强度。缩放因子 $\sqrt{d_k}$ 的使用至关重要——当 $d_k$ 较大时，内积的方差会随之增大，导致softmax函数的输出趋近于极端分布，梯度迅速进入极小值区域。缩放处理后有效控制了内积的方差，保证了梯度传播的稳定性，使得模型训练过程更加稳健。softmax函数将每一行的注意力分数归一化为概率分布，然后以这些概率为权重对值矩阵的每一行进行加权求和，得到最终的上下文感知表示。自注意力的计算过程可以总结为三个步骤：第一步是计算查询与所有键之间的点积得到原始分数；第二步是将分数除以缩放因子并施加softmax归一化；第三步是用归一化后的权重对值进行加权求和。整个计算过程可以通过矩阵运算高效实现，充分利用了现代图形处理器的高度并行计算能力，这也是Transformer相比循环神经网络在训练速度上具有显著优势的重要原因之一。

1.2 多头注意力机制

Transformer并非仅使用单一的自注意力函数，而是采用多头注意力（Multi-Head Attention）的设计。其核心思想是将查询、键和值分别通过 $h$ 组不同的线性投影映射到 $h$ 个低维子空间中，在每个子空间中独立执行注意力计算，最后将所有子空间的结果拼接起来并经过一次线性投影：

\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O

其中 $\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ 。多头机制的设计出发点在于：不同的注意力头可以关注序列中不同类型的依赖关系。例如，在自然语言处理任务中，某些注意力头可能专注于捕捉语法结构中的主谓修饰关系，另一些头可能关注语义层面的相似性或指代关系，还有的头可能聚焦于词汇的位置邻近性或特定功能词的上下文影响。这种多视角并行关注的设计极大地提升了模型表达能力的丰富性和鲁棒性。原论文中设置注意力头的数量为 $h = 8$ ，每个头的维度为 $d_k = d_v = d_{model} / h = 64$ ，保证了总计算量与使用单头注意力时大致相当，同时获得了多视角建模的能力。

1.3 位置编码

自注意力机制的本质是对输入集合的置换等变的——如果将输入序列中元素的顺序打乱，输出的注意力结果仅仅是相应位置的重新排列，这意味着模型天然不具备任何序列顺序感。然而在自然语言中，词语的先后顺序承载着至关重要的语法信息和语义信息，例如"我打你"和"你打我"虽然包含相同的词汇，但含义截然相反。为了解决这一关键问题，Transformer引入了位置编码（Positional Encoding），将其与输入嵌入向量相加，使模型能够感知位置信息。

原论文采用了基于正余弦函数的固定位置编码方案：

PE_{(pos, 2i)} = \sin\left(pos / 10000^{2i/d_{model}}\right)

PE_{(pos, 2i+1)} = \cos\left(pos / 10000^{2i/d_{model}}\right)

其中 $pos$ 表示位置索引， $i$ 表示维度索引。这种编码方式具有若干重要的数学性质：第一，不同位置对应的编码向量是唯一确定的，且任意两个不同位置的编码向量之间的距离具有明确的几何意义。第二，任意位置 $pos + k$ 的编码向量可以表示为位置 $pos$ 的编码向量的线性变换，这使得模型能够隐式地学习相对位置信息而非仅仅绝对位置信息，有利于泛化到不同长度的序列。第三，正弦和余弦函数的值域始终在 $[-1, 1]$ 之间，与嵌入向量的尺度相匹配，保证了数值稳定性。第四，这种编码不受序列最大长度的限制，能够泛化到训练时未曾见过的序列长度，具有良好的外推能力。后续的研究中，可学习的位置编码也被广泛采用，二者在不同任务上各有优劣。

2. 编码器与解码器架构

2.1 编码器

Transformer的编码器由 $N$ 个完全相同的层堆叠而成，原论文中设置 $N = 6$ 。每一层包含两个子层：第一个子层是多头自注意力机制，第二个子层是一个位置感知的全连接前馈神经网络。每个子层后面都跟随一个残差连接和层归一化，其运算形式为：

\text{output} = \text{LayerNorm}(x + \text{Sublayer}(x))

残差连接允许梯度直接流过整个深层网络，有效缓解了深层神经网络中常见的梯度消失问题，使得训练深度达数十层的Transformer成为可能。层归一化则对每个样本的特征维度进行标准化处理，使激活值的均值和方差保持稳定，加快了模型的收敛速度并减少了对学习率的敏感程度。每个子层的输出维度均为 $d_{model}$ ，保证了层与层之间的维度一致性。

前馈神经网络子层由两个线性变换和一个ReLU激活函数组成：

\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2

其中 $W_1$ 将维度从 $d_{model}$ 扩展到 $d_{ff}$ （原论文中 $d_{ff} = 2048$ ）， $W_2$ 再将维度映射回 $d_{model}$ 。这种先扩维再压缩的设计赋予了模型在更高维空间中学习非线性变换的能力，类似于卷积神经网络中通过增加通道数来丰富特征表达的做法。前馈神经网络虽然结构简单，但其在Transformer中的重要性不可忽视——有研究表明，前馈神经网络层中存储了大量的事实知识和模式信息，而自注意力层主要负责信息的路由和整合。每个位置的词元共享同一套前馈神经网络的参数，因此称为"位置感知"前馈网络。

2.2 解码器

解码器同样由 $N$ 个相同层堆叠而成，但每层的结构比编码器更加复杂，包含三个子层。第一个子层是掩码多头自注意力，其作用是确保解码器在生成当前位置的输出时只能关注当前位置及之前的位置，而不能看到未来的信息，从而保证自回归生成过程的因果性。实现方式是在计算注意力分数时，将未来位置的分数值设为负无穷，使得softmax之后对应的注意力权重为零，模型无法对未来信息进行任何形式的窥探。

第二个子层是编码器-解码器注意力，其查询来自解码器上一层的输出，而键和值则来自编码器最后一层的输出。这一机制的物理意义在于：解码器在逐词生成输出序列时，需要从编码器提供的源语言表示中检索与当前生成步骤最相关的信息进行参考。以机器翻译为例，当解码器正在生成目标语言的某个词时，编码器-解码器注意力能够帮助模型定位源语言句子中最相关的部分，实现了输入和输出之间的信息对齐。

第三个子层同样是前馈神经网络，与编码器中的设计完全相同。所有子层均采用残差连接和层归一化，保持了整体设计的一致性。

2.3 嵌入层与输出层

Transformer使用可学习的嵌入层将输入和输出的离散词元映射为连续的稠密向量。在输出端，解码器最后一层的输出经过一个线性变换将其映射到词汇表大小的维度，再通过softmax函数将分数转换为词汇表上概率分布，选取概率最高的词元作为当前步的预测结果。值得注意的是，编码器和解码器的嵌入层参数是共享的，输出层前的线性变换与嵌入层的权重矩阵也采用相同的参数。这一参数共享策略有效减少了模型的总参数量，并在实践中表现出一定的正则化效果，有助于提升模型的泛化性能。

3. 训练方法与优化策略

3.1 损失函数与正则化

Transformer使用交叉熵损失函数进行训练。对于序列生成任务，模型在每一步都预测下一个词元的概率分布，总损失为所有时间步的预测分布与真实分布之间的交叉熵之和。为了缓解过拟合，原论文采用了多种正则化技术：在残差连接之前对每个子层的输出应用丢弃法，丢弃率设为0.1；对嵌入向量和位置编码之和也施加相同概率的丢弃法操作；此外还使用了标签平滑技术，将硬目标标签替换为均匀分布的加权混合，平滑因子设为0.1。标签平滑使得模型不会对其预测过于自信，有助于提升泛化性能以及模型输出概率的校准度，即模型的置信度与真实准确率更加一致。

3.2 学习率调度

Transformer采用了一种独特的学习率调度策略，结合了线性热身阶段和平方根倒数衰减阶段：

\text{lr} = d_{model}^{-0.5} \cdot \min(\text{step}^{-0.5}, \text{step} \cdot \text{warmup_steps}^{-1.5})

在训练的前 $warmup_steps$ 步（原论文中设为4000步）内，学习率从零线性增加至峰值；此后学习率按照步数平方根的倒数逐步衰减。这种热身加衰减的调度策略在后续的许多大型语言模型训练中得到了继承和改进，成为训练深度学习模型的一种标准实践。这种非对称调度策略的设计动机是：训练初期模型参数处于随机初始化状态，距离最优解尚远，学习率过大会导致参数更新幅度过大引发震荡甚至发散，因此采用逐渐升高的学习率使模型平稳启动；随着训练深入，模型逐渐接近局部最优解，学习率逐渐减小以进行精细的参数调整，避免在最优解附近发生震荡。这一策略在后续许多大型模型的训练中得到了广泛采纳，并在此基础上发展出了余弦退火、循环学习率等多种变体。

3.3 优化器与训练细节

Transformer使用Adam优化器，设定超参数 $\beta_1 = 0.9$ ， $\beta_2 = 0.98$ ， $\epsilon = 10^{-9}$ 。选用较小的 $\beta_2$ 值是一个重要的设计决策：在训练初期，梯度估计的方差较大，使用较大的 $\beta_2$ 会导致二阶动量估计滞后，而较小的 $\beta_2$ 有助于更及时地响应梯度变化，防止发散。训练过程中使用大批量数据，每个批次包含约25000个源语言词元和25000个目标语言词元，以充分利用GPU等并行计算设备的算力。模型参数采用正态分布初始化，方差设为 $0.02$ ，并配合梯度裁剪防止梯度爆炸。

4. 主要变体与应用领域

4.1 BERT与GPT

Transformer架构催生了自然语言处理领域两个最重要的预训练模型家族。BERT采用Transformer的编码器部分，通过掩码语言模型和下一句预测两个预训练任务进行双向上下文建模。在掩码语言模型中，输入序列中约15\%的词元被随机替换为掩码标记，模型需要根据上下文恢复被遮挡的词元，这一过程迫使模型学习深层的双向语境理解能力。BERT在文本分类、命名实体识别、问答系统和自然语言推理等理解型任务上取得了显著的性能提升，所提出的预训练加微调范式深刻重塑了自然语言处理的研究格局。

GPT系列则采用Transformer的解码器部分，通过自回归方式进行单向语言建模预训练。GPT-1首次验证了生成式预训练在自然语言处理中的有效性；GPT-2展示了令人惊叹的零样本迁移能力；GPT-3将参数量扩展至1750亿，在少样本和零样本学习场景中展现出此前未曾预料到的涌现能力，包括代码生成、数学推理和常识问答等；GPT-4进一步在多模态理解和复杂推理方面取得突破性进展。GPT系列的成功深刻证明了缩放定律的有效性，即模型性能随着参数量、数据量和计算量的同步增长而持续提升。

4.2 Vision Transformer

Vision Transformer由Dosovitskiy等人于2020年提出，成功将Transformer引入计算机视觉领域。ViT的核心操作是将图像分割为固定大小的图块，将每个图块拉平并通过线性投影映射为嵌入向量，加上位置编码后送入标准Transformer编码器进行分类。在大规模数据集上预训练的条件下，ViT的分类性能可以超越当时最先进的卷积神经网络，证明了注意力机制在视觉任务中同样具备强大的潜力。ViT的出现引发了计算机视觉领域从卷积神经网络向Transformer迁移的热潮，研究社区不再默认使用卷积结构，而是积极探索基于注意力的视觉架构设计。

4.3 高效Transformer变体

原始Transformer的注意力计算复杂度为序列长度的平方，这使得其在处理长文档、高分辨率图像或长时间序列等长输入场景时面临严峻的计算和内存瓶颈。为突破这一限制，研究者提出了大量高效变体：Reformer使用局部敏感哈希将注意力计算复杂度降至线性对数级别；Longformer结合滑动窗口注意力和全局注意力的混合策略处理长文档；BigBird在Longformer的基础上增加了随机注意力，理论上保证了对全注意力的近似质量；Linformer基于注意力矩阵低秩的假设实现了线性复杂度；Performer通过随机正性特征映射核化了注意力计算。这些高效变体极大拓展了Transformer的应用边界，使其在长文本理解、视频分析、基因序列建模和金融市场预测等场景中发挥重要作用。

4.4 多模态Transformer

Transformer的通用性使其天然适合多模态学习。CLIP利用对比学习将文本和图像编码到共享的语义空间，实现了零样本的图像分类和跨模态检索；DALL·E系列通过Transformer解码器从文本描述生成高质量的图像；AudioMAE将掩码自编码器框架应用于语音领域，在语音识别和音频分类任务上取得优异表现；Decision Transformer将强化学习问题重新构造为条件序列生成问题，用Transformer取代了传统的策略网络和价值网络。这些跨模态工作共同展示了Transformer作为通用信息处理架构的巨大潜力，预示着未来人工智能系统将在统一的架构下处理多种模态的信息。

5. 理论性质与局限

5.1 表示能力

从理论角度审视，Transformer具有极其强大的表示能力。理论研究表明，在适当的宽度和深度条件下，Transformer可以作为通用的序列到序列函数逼近器，能够在任意精度下逼近任何连续的序列函数。更进一步的研究表明，Transformer在参数规模足够大的条件下能够模拟图灵机的计算过程，这意味着其在原理上具备解决任意可计算问题的潜力。自注意力机制本质上提供了一种动态的、输入依赖的加权方式，使模型能够根据输入内容灵活调整信息聚合策略，这种灵活性是传统固定权重的神经网络所不具备的。

5.2 局限与挑战

尽管取得了令人瞩目的成功，Transformer仍然面临若干根本性挑战。第一是计算效率问题，自注意力的二次复杂度在长序列场景下构成严峻的性能瓶颈，虽然各类高效变体提供了缓解方案，但往往在全注意力近似质量和计算效率之间存在权衡。第二是数据依赖问题，Transformer在大规模数据集上表现优异，但在数据稀缺的场景下其性能往往不如设计良好且针对性更强的小型模型。第三是可解释性不足，Transformer内部的高度分布式表示使得理解其决策逻辑极为困难，注意力权重的可视化虽然提供了一定程度的解释性，但研究已表明注意力权重并不等同于模型的实际推理依据。第四是系统性缺陷，以大型语言模型为代表的Transformer在数学推理、一致性事实陈述和长程规划等需要精确推理的任务中仍然存在明显不足，幻觉问题尤为突出。第五是能源消耗问题，训练和推理大型Transformer模型需要巨大的计算资源和电力消耗，引发了关于人工智能可持续发展的重要讨论。

6. 工程实践与生态系统

Transformer的广泛普及离不开其丰富而强大的开源生态系统。Hugging Face公司开发的Transformers库已成为自然语言处理研究和工业应用的标准工具，提供数千个预训练模型的统一加载、推理和微调接口，极大降低了使用门槛和技术准入成本。PyTorch和TensorFlow两大深度学习框架均对Transformer提供了原生支持，实现了高度优化的注意力计算内核，大幅提升了训练和推理效率。在分布式训练方面，ZeRO优化器、张量并行、流水线并行和数据并行等技术的结合使得训练参数量达千亿乃至万亿级别的巨型Transformer成为现实。混合精度训练和梯度检查点等技术则有效降低了显存占用。近年来，量化、蒸馏和剪枝等模型压缩技术的成熟使得大型Transformer模型得以在移动设备和边缘计算环境中部署，推动了人工智能技术的普惠化进程。

7. 总结

Transformer通过自注意力机制重新定义了序列建模的基本方法论。其架构设计的核心洞见在于：递归结构和卷积操作并非序列建模的必要条件，纯粹基于注意力机制的设计可以更高效、更灵活地捕获全局依赖关系，并在足够的规模下展现出强大的涌现能力。从最初的机器翻译模型出发，Transformer迅速演化为支撑BERT、GPT、ViT、CLIP等众多里程碑式技术的基础架构，深刻影响了深度学习领域的研究方向和技术路线。Transformer的成功启示不仅在于具体的技术贡献，更在于对深度学习架构设计理念的深刻变革——简洁统一的设计思想，加上充足的数据和算力支持，可以催生出远超预期能力的智能系统。随着稀疏注意力机制、线性复杂度方法以及神经架构搜索等技术的持续进步，Transformer架构有望在效率、可解释性和推理能力等方面不断突破，在通往通用人工智能的道路上继续扮演核心角色。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。