码力全开 / Transformer各类位置编码技术简述

Created Wed, 31 Dec 2025 15:24:15 +0800 Modified Wed, 31 Dec 2025 15:55:07 +0800
343 Words 1 min

这里我们将对Transformer中各类位置编码技术进行简单的叙述,主要包括:

  • 相对位置编码,如T5 Relative
  • 正余弦位置编码,如Sinusoidal
  • 旋转弦位置编码,如RoPE
  • 旋转位置编码,如YaRN
  • 线性偏置项位置编码,如ALiBi

下面我们对相对位置与绝对位置编码进行总结:

优势劣势
绝对位置编码计算速度较快文字间相对位置信息不明显,推理窗口受训练长度限制
相对位置编码可学习文字间相对信息计算量增大,无法使用KV Cache

旋转位置编码与正余弦位置编码的区别在于,前者不再在词向量(字典查找表)中加入位置信息,而是通过旋转矩阵对向量(Q,K)进行角度旋转。

通过旋转位置编码,可以保留token间相对信息及绝对位置信息。

之前的位置编码都是在Q和K基础上操作的,而ALiBi是对Q@K乘积结果进行操作。

参考视频:

https://www.bilibili.com/video/BV1ErPkeSEHn

如果喜欢这篇文章或对您有帮助,可以:[☕] 请我喝杯咖啡 | [💓] 小额赞助