"Attention Is All You Need" — Vaswani et al., NeurIPS 2017
Transformer 彻底改变了序列建模范式,抛弃了循环结构,完全依赖注意力机制实现高效的全局信息交互
每个位置都能直接关注序列中所有其他位置,捕获任意距离的依赖关系。O(1) 步即可传递信息,而非 RNN 的 O(n)。
所有位置同时计算,无需像 RNN 等待前一步完成。GPU/TPU 利用率极高,训练速度提升数十倍。
使用正弦/余弦函数为每个 token 注入位置信息。理论上可泛化到训练时未见过的序列长度。
将注意力拆分为多个"头",每个头学习不同类型的注意力模式——语法结构、语义关系、共指消解等。
每个位置独立通过两层全连接网络,d_ff=2048 是 d_model 的 4 倍。研究表明 FFN 层存储了大量世界知识。
每一子层都有残差连接保证梯度畅通,LayerNorm 稳定训练。这是深层 Transformer 能训练的关键。
点击每个组件查看详细解释和数学原理
每个组件都有详细的数学原理和实际作用说明。点击编码器或解码器中的任意模块开始探索。
输入一句话,观察每个 token 对其他 token 的注意力权重分布
💡 点击上方 token 查看该 token 对其他 token 的注意力分布,矩阵中的数值表示注意力权重
Transformer 背后的优雅数学
从论文到改变世界