这里我们将对Transformer中各类位置编码技术进行简单的叙述,主要包括:
- 相对位置编码,如T5 Relative
- 正余弦位置编码,如Sinusoidal
- 旋转弦位置编码,如RoPE
- 旋转位置编码,如YaRN
- 线性偏置项位置编码,如ALiBi
下面我们对相对位置与绝对位置编码进行总结:
| 优势 | 劣势 | |
|---|---|---|
| 绝对位置编码 | 计算速度较快 | 文字间相对位置信息不明显,推理窗口受训练长度限制 |
| 相对位置编码 | 可学习文字间相对信息 | 计算量增大,无法使用KV Cache |
旋转位置编码与正余弦位置编码的区别在于,前者不再在词向量(字典查找表)中加入位置信息,而是通过旋转矩阵对向量(Q,K)进行角度旋转。
通过旋转位置编码,可以保留token间相对信息及绝对位置信息。
之前的位置编码都是在Q和K基础上操作的,而ALiBi是对Q@K乘积结果进行操作。
参考视频:
如果喜欢这篇文章或对您有帮助,可以:[☕] 请我喝杯咖啡 | [💓] 小额赞助

