Transformer 架构交互式讲解

Foundation

核心概念

Transformer 彻底改变了序列建模范式，抛弃了循环结构，完全依赖注意力机制实现高效的全局信息交互

🧠

自注意力 Self-Attention

每个位置都能直接关注序列中所有其他位置，捕获任意距离的依赖关系。O(1) 步即可传递信息，而非 RNN 的 O(n)。

⚡

并行计算

所有位置同时计算，无需像 RNN 等待前一步完成。GPU/TPU 利用率极高，训练速度提升数十倍。

📍

位置编码

使用正弦/余弦函数为每个 token 注入位置信息。理论上可泛化到训练时未见过的序列长度。

🔗

多头注意力

将注意力拆分为多个"头"，每个头学习不同类型的注意力模式——语法结构、语义关系、共指消解等。

📐

前馈网络 FFN

每个位置独立通过两层全连接网络，d_ff=2048 是 d_model 的 4 倍。研究表明 FFN 层存储了大量世界知识。

🔄

残差连接 & LayerNorm

每一子层都有残差连接保证梯度畅通，LayerNorm 稳定训练。这是深层 Transformer 能训练的关键。

Architecture

架构总览

点击每个组件查看详细解释和数学原理

编码器 Encoder

📝 Input Embedding Vocab → d_model

📐 Positional Encoding sin / cos 函数

🔗 Multi-Head Self-Attention

➕ Add & Layer Norm 残差连接 + 归一化

📐 Feed-Forward Network 512 → 2048 → 512

➕ Add & Layer Norm

解码器 Decoder

📝 Output Embedding Vocab → d_model

📐 Positional Encoding

🔒 Masked Multi-Head Attn 因果掩码

🔗 Cross Attention Q: Decoder, KV: Encoder

📐 Feed-Forward Network

🎯 Linear + Softmax → 概率分布

👆 点击上方任意组件

每个组件都有详细的数学原理和实际作用说明。点击编码器或解码器中的任意模块开始探索。

Interactive

注意力机制可视化

输入一句话，观察每个 token 对其他 token 的注意力权重分布

低注意力

高注意力

💡 点击上方 token 查看该 token 对其他 token 的注意力分布，矩阵中的数值表示注意力权重

Mathematics

核心公式

Transformer 背后的优雅数学

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

Q (Query) — 查询矩阵，表示"我在找什么信息"
K (Key) — 键矩阵，表示"我有什么信息可以提供"
V (Value) — 值矩阵，表示"我实际携带的信息内容"
√d_k — 缩放因子，防止点积过大导致 softmax 饱和、梯度消失
softmax — 将注意力分数归一化为概率分布，所有权重之和为 1

MultiHead(Q, K, V) = Concat(head₁, ..., head_h) · W^O
where head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

将 Q, K, V 分别投影到 h=8 个低维子空间 (d_k=d_model/h=64)
各头独立计算注意力，捕获不同类型的语言模式
最后拼接所有头的输出，经 W^O 线性变换回 d_model 维

Legacy

影响与演进

从论文到改变世界

2017

原始 Transformer 论文发表

Vaswani 等人在 NeurIPS 发表 "Attention Is All You Need"，提出编码器-解码器架构，在机器翻译上取得突破。

2018

BERT & GPT 诞生

Google 推出 BERT（仅编码器），OpenAI 推出 GPT（仅解码器），Transformer 架构开始统治 NLP 领域。

2020

GPT-3 震撼登场

1750 亿参数的 GPT-3 展示了惊人的 few-shot 学习能力，证明了规模化 Transformer 的涌现能力。

2023

GPT-4 与多模态

Transformer 进入多模态时代，GPT-4 同时处理文本和图像，Vision Transformer (ViT) 在计算机视觉中大放异彩。

2024-26

开源大模型百花齐放

Llama、Qwen、DeepSeek、Mistral 等开源模型蓬勃发展，Transformer 架构在推理、Agent、代码生成等领域持续突破边界。