Back to Lab
📖 2017 · Google Brain · NLP

Transformer 架构交互式讲解

"Attention Is All You Need" — Vaswani et al., NeurIPS 2017

65M 参数量 (Base)
8 注意力头
512 模型维度
6 层数
向下滚动探索

核心概念

Transformer 彻底改变了序列建模范式,抛弃了循环结构,完全依赖注意力机制实现高效的全局信息交互

🧠

自注意力 Self-Attention

每个位置都能直接关注序列中所有其他位置,捕获任意距离的依赖关系。O(1) 步即可传递信息,而非 RNN 的 O(n)。

并行计算

所有位置同时计算,无需像 RNN 等待前一步完成。GPU/TPU 利用率极高,训练速度提升数十倍。

📍

位置编码

使用正弦/余弦函数为每个 token 注入位置信息。理论上可泛化到训练时未见过的序列长度。

🔗

多头注意力

将注意力拆分为多个"头",每个头学习不同类型的注意力模式——语法结构、语义关系、共指消解等。

📐

前馈网络 FFN

每个位置独立通过两层全连接网络,d_ff=2048 是 d_model 的 4 倍。研究表明 FFN 层存储了大量世界知识。

🔄

残差连接 & LayerNorm

每一子层都有残差连接保证梯度畅通,LayerNorm 稳定训练。这是深层 Transformer 能训练的关键。

架构总览

点击每个组件查看详细解释和数学原理

编码器 Encoder
📝 Input Embedding Vocab → d_model
📐 Positional Encoding sin / cos 函数
🔗 Multi-Head Self-Attention
➕ Add & Layer Norm 残差连接 + 归一化
📐 Feed-Forward Network 512 → 2048 → 512
➕ Add & Layer Norm
解码器 Decoder
📝 Output Embedding Vocab → d_model
📐 Positional Encoding
🔒 Masked Multi-Head Attn 因果掩码
🔗 Cross Attention Q: Decoder, KV: Encoder
📐 Feed-Forward Network
🎯 Linear + Softmax → 概率分布

👆 点击上方任意组件

每个组件都有详细的数学原理和实际作用说明。点击编码器或解码器中的任意模块开始探索。

注意力机制可视化

输入一句话,观察每个 token 对其他 token 的注意力权重分布

低注意力
高注意力

💡 点击上方 token 查看该 token 对其他 token 的注意力分布,矩阵中的数值表示注意力权重

核心公式

Transformer 背后的优雅数学

Attention(Q, K, V) = softmax(QKT / √dk) · V
MultiHead(Q, K, V) = Concat(head1, ..., headh) · WO
where headi = Attention(QWiQ, KWiK, VWiV)

影响与演进

从论文到改变世界

2017
原始 Transformer 论文发表
Vaswani 等人在 NeurIPS 发表 "Attention Is All You Need",提出编码器-解码器架构,在机器翻译上取得突破。
2018
BERT & GPT 诞生
Google 推出 BERT(仅编码器),OpenAI 推出 GPT(仅解码器),Transformer 架构开始统治 NLP 领域。
2020
GPT-3 震撼登场
1750 亿参数的 GPT-3 展示了惊人的 few-shot 学习能力,证明了规模化 Transformer 的涌现能力。
2023
GPT-4 与多模态
Transformer 进入多模态时代,GPT-4 同时处理文本和图像,Vision Transformer (ViT) 在计算机视觉中大放异彩。
2024-26
开源大模型百花齐放
Llama、Qwen、DeepSeek、Mistral 等开源模型蓬勃发展,Transformer 架构在推理、Agent、代码生成等领域持续突破边界。