位置编码的发展历程:从绝对、相对到多模态旋转编码
TL;DR: 本文梳理了位置编码的四代演进:从最初的可学习绝对位置编码(BERT、GPT)和正弦绝对编码(Transformer)的局限性,到相对位置编码(T5、Transformer-XL)的改进,再到旋转位置编码(RoPE)的突破性创新。RoPE 通过以”绝对之形,行相对之实”的设计,同时兼得了绝对和相对编码的优点。随后的2D-RoPE 和 M-RoPE 将这一机制创造性地扩展到了视觉和多模态场景,为现代视觉语言模型(如 Qwen2-VL、Qwen3-VL)的多维时空位置感知提供了坚实的数学基础。本文的核心洞见是:位置编码的发展本质上是对”距离”这一根本概念理解的深化,从难以捕捉的隐式相对关系,到通过旋转矩阵显式编码的相对位置,再到能够同时处理文本、图像和视频的统一时空坐标系。