位置编码的发展历程：从绝对、相对到多模态旋转编码

30 minutes read

Published: March 25, 2026

TL;DR: 本文梳理了位置编码的四代演进：从最初的可学习绝对位置编码（BERT、GPT）和正弦绝对编码（Transformer）的局限性，到相对位置编码（T5、Transformer-XL）的改进，再到旋转位置编码（RoPE）的突破性创新。RoPE 通过以”绝对之形，行相对之实”的设计，同时兼得了绝对和相对编码的优点。随后的2D-RoPE 和 M-RoPE 将这一机制创造性地扩展到了视觉和多模态场景，为现代视觉语言模型（如 Qwen2-VL、Qwen3-VL）的多维时空位置感知提供了坚实的数学基础。本文的核心洞见是：位置编码的发展本质上是对”距离”这一根本概念理解的深化，从难以捕捉的隐式相对关系，到通过旋转矩阵显式编码的相对位置，再到能够同时处理文本、图像和视频的统一时空坐标系。

1. 引言

在 Transformer 成为深度学习基石的今天，我们往往容易忽略一个基础但至关重要的组件——位置编码（Positional Encoding）。Transformer 核心的 Self-Attention 机制本质上是对序列中所有 Token 做两两内积（$\boldsymbol{q}_{m}^{\top} \boldsymbol{k}_{n}$），这种由词袋模型演变而来的机制天生是”置换不变”的，完全不包含序列的位置与顺序信息。位置编码的作用，就是让这个内积的结果能够感知到两个 Token 之间的位置关系。为了让模型能够感知到“Black Cat”和“Cat Black”的语义差异，我们必须额外引入位置信息。本文将带你回顾位置编码的发展历程，探讨它是如何从最初的绝对位置编码，演进到相对位置编码，并最终发展为现代大模型（如 LLaMA、Qwen 等）标配的旋转位置编码（RoPE）及其多模态变体的。

2. 绝对位置编码 (Absolute Positional Encoding)

核心思想：直接将每个 Token 在序列中的绝对位置信息编码成一个向量，并叠加到 Token 的词嵌入 (Word Embedding) 上。

2.1. 可学习的位置编码 (Learned Positional Encoding)

这是最符合直觉的做法：为每个 token 的绝对位置（从 $0$ 到序列的最大长度 $L_{max}$）分配一个独一无二的向量。这些位置向量在模型训练过程中随机初始化，并作为模型参数一同学习和更新。

优势：灵活性极高，模型可以数据驱动地学习到最适合特定任务的位置表示。
局限性：
- 无外推能力 (No Extrapolation)：训练时若最大长度设为 2048，推理时一旦遇到 2049，就会因为查表越界（没有对应的训练参数）导致模型直接失效。
- 缺乏平移不变性 (No Translation Invariance)：同样的短语（如 “Black Cat”）出现在句首和句尾时，叠加的位置向量完全不同，导致模型必须在不同位置重复学习相同的语义关系，极大浪费了参数容量。
- 参数量大：处理长文本时需要实例化大量位置向量。
代表模型：BERT、GPT 等早期模型及部分现代 Transformer。

2.2. 正余弦位置编码 (Sinusoidal Positional Encoding)

由 Transformer 原始论文《Attention Is All You Need》提出。它舍弃了参数学习，转而使用预设的正弦和余弦函数生成位置编码向量。第 $pos$ 个位置、第 $i$ 个维度 ($PE_{(pos, i)}$) 的计算公式为：

\[PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}})\] \[PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}})\]

优势：
- 理论可外推：基于解析函数生成，理论上没有绝对的最大长度限制。
- 零参数负担：完全基于公式计算，不增加模型参数量。
- 隐含相对位置信息：利用三角函数和角公式，位置 $pos+\delta$ 的编码可以通过位置 $pos$ 的编码线性表示，利于 Self-Attention 学习相对位置关系。
局限性：虽然理论上具有一定的相对位置表达能力，但简单的“相加”操作使得模型难以捕捉精确的相对距离信息，且在极长序列下，注意力的远程噪声难以消除。

3. 相对位置编码 (Relative Positional Encoding)

既然语言的局部结构（相对距离）往往比绝对坐标更重要，研究者们提出了相对位置编码（RPE）。

核心思想：不改变 Embedding，而是直接在计算 Attention Score 时加入一个与相对距离 $(j-i)$ 相关的偏置项 (Bias)。
原理：计算 Attention Score ($e_{ij} = q_{i} \cdot k_{j}$) 时，额外考虑 $j$ 相对于 $i$ 的相对距离。公式演变为 $e_{ij} = q_{i} \cdot (k_{j} + r_{j-i})$ 等形式，其中 $r_{j-i}$ 即为相对距离的编码向量。
优势：
- 更自然：符合 Attention 机制的特性，直接建模相对关系。
- 可外推：对于未见过的相对距离，可以进行泛化（通常会截断最大相对距离，例如 -K 到 K，超出范围的共享编码）。
- 不增加参数量或少量增加：相对距离编码通常共享或使用函数生成。
致命缺陷：KV Cache 推理效率低。
- 原因：相对距离是动态的。在生成第 $t$ 个词时，Cache 中第 1 个词距离它是 $t-1$；但在生成第 $t+1$ 个词时，距离变成了 $t$。这意味着每生成一个新 token，必须重新查表计算历史所有 Token 的相对位置 Bias，无法直接利用缓存好的 KV 进行纯粹的高效矩阵乘法。
代表模型：Transformer-XL、T5 等。

4. 旋转位置编码 (Rotary Positional Encoding, RoPE)

4.1. 核心思想

总体来说，上述传统方案分为两派：

绝对位置编码（APE）：直接给每个位置加一个固定向量（如 Sinusoidal、Learned Embedding），简单但无法显式建模相对距离。
相对位置编码（RPE）：在 Attention 计算时注入相对距离偏置（如 T5 Bias），效果好但破坏了 KV Cache 的复用性。

而RoPE的核心思想是：通过绝对位置编码的方式实现相对位置编码。 其精妙之处在于：它在形式上是绝对的（对每个位置独立施加变换），但在效果上是相对的（内积结果只依赖相对距离），同时兼得了两派的优势。

4.2. 1D-ROPE

4.2.1. 数学推导

Step 1：二维情形的复数视角

考虑最简单的二维向量 $\boldsymbol{q} = (q_{0}, q_{1})$。将其视为复数 $\boldsymbol{q} = q_{0} + \mathrm{i} q_{1}$，则对位置 $m$ 处的向量施加 RoPE，等价于乘上一个单位复数旋转因子：

\[f(\boldsymbol{q}, m) = \boldsymbol{q} e^{\mathrm{i} m\theta} = \|\boldsymbol{q}\| e^{\mathrm{i}(\Theta(\boldsymbol{q}) + m\theta)}\]

几何意义非常直观：把向量 $\boldsymbol{q}$ 在二维平面上旋转了 $m\theta$ 的角度。向量的模长 $\|\boldsymbol{q}\|$ 保持不变，只有方向（辐角）增加了 $m\theta$。这就是 “旋转式位置编码” 名称的由来。

写成矩阵形式，就是一个标准的二维旋转矩阵左乘：

\[f(\boldsymbol{q}, m) = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \begin{pmatrix} q_{0} \\ q_{1} \end{pmatrix}\]

这是一个标准的二维旋转矩阵。

Step 2：推广到高维——分块对角旋转矩阵

实际的 Transformer 中，Query/Key 向量的维度 $d$ 远大于 2（通常为 64 或 128）。由于内积满足线性叠加性，任意偶数维的 RoPE 都可以表示为 $d/2$ 个二维旋转的拼接。

具体做法是将向量的分量两两分组 $(q_{0},q_{1}),(q_{2},q_{3}),\ldots,(q_{d-2},q_{d-1})$，对每组独立施加不同频率的旋转，得到分块对角旋转矩阵 $\mathcal{R}_{m}$：

\[\underbrace{\begin{pmatrix} \cos m\theta_{0} & -\sin m\theta_{0} & 0 & 0 & \cdots & 0 & 0 \\ \sin m\theta_{0} & \cos m\theta_{0} & 0 & 0 & \cdots & 0 & 0 \\ 0 & 0 & \cos m\theta_{1} & -\sin m\theta_{1} & \cdots & 0 & 0 \\ 0 & 0 & \sin m\theta_{1} & \cos m\theta_{1} & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2-1} & -\sin m\theta_{d/2-1} \\ 0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2-1} & \cos m\theta_{d/2-1} \end{pmatrix}}_{\mathcal{R}_{m}} \begin{pmatrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ \vdots \\ q_{d-2} \\ q_{d-1} \end{pmatrix}\]

这里的 $q$ 指的是一个 Token 对应的整个 Query 向量。

其中每组旋转的频率 $\theta_{i}$ 不同，定义为：

\[\theta_{i} = 10000^{-2i/d}, \quad i = 0, 1, \dots, d/2-1\]

这里有两个关键的变量维度需要特别注意（后续所有的优化和改进都是在这两个变量上做文章）：

Token 位置 $m$：随着 $m$ 增大，旋转角度增大，旋转速度变快，频率变大
分量位置 $i$：随着 $i$ 增大，旋转角度变小，旋转速度变慢，频率变小
- 低维分量（$i$ 小）→ $\theta_{i}$ 大 → 旋转快 → 捕捉高频/短距离关系
- 高维分量（$i$ 大）→ $\theta_{i}$ 小 → 旋转慢 → 捕捉低频/长距离关系

这种多频率设计使得不同维度的分量各司其职，共同构成一套完整的多尺度位置感知系统。

Step 3：核心恒等式 —— 为什么效果是 “相对的”

给位置 $m$ 的 Query 乘上 $\mathcal{R}_{m}$，位置 $n$ 的 Key 乘上 $\mathcal{R}_{n}$，用变换后的 $Q,K$ 序列做 Attention，那么 Attention 就自动包含相对位置信息了，因为成立恒等式：

\[(\mathcal{R}_{m} \boldsymbol{q})^{\top} (\mathcal{R}_{n} \boldsymbol{k}) = \boldsymbol{q}^{\top} \mathcal{R}_{m}^{\top} \mathcal{R}_{n} \boldsymbol{k} = \boldsymbol{q}^{\top} \mathcal{R}_{n-m} \boldsymbol{k}\]

关键恒等式 $\mathcal{R}_{m}^{\top} \mathcal{R}_{n} = \mathcal{R}_{n-m}$ 成立的原因是：旋转矩阵的转置等于其逆（正交矩阵性质），而两个旋转的复合等于角度相加。因此：

最终的内积结果只依赖相对位置 $(n - m)$，与绝对位置 $m, n$ 无关。

这就是 RoPE “以绝对之形，行相对之实”的核心数学机制。

4.2.2. 工程实现：利用稀疏性加速

值得指出的是，$\mathcal{R}_{m}$ 是一个正交矩阵，它不会改变向量的模长，因此通常来说不会改变原模型的稳定性。

同样也可以发现$\mathcal{R}_{m}$ 是一个非常稀疏的矩阵 —— 绝大部分元素都是 0。如果直接用矩阵乘法来实现会很浪费算力。实际工程中，推荐通过逐位对应相乘的方式来实现 RoPE：

\[\begin{pmatrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ \vdots \\ q_{d-2} \\ q_{d-1} \end{pmatrix} \otimes \begin{pmatrix} \cos m\theta_{0} \\ \cos m\theta_{0} \\ \cos m\theta_{1} \\ \cos m\theta_{1} \\ \vdots \\ \cos m\theta_{d/2-1} \\ \cos m\theta_{d/2-1} \end{pmatrix} + \begin{pmatrix} -q_{1} \\ q_{0} \\ -q_{3} \\ q_{2} \\ \vdots \\ -q_{d-1} \\ q_{d-2} \end{pmatrix} \otimes \begin{pmatrix} \sin m\theta_{0} \\ \sin m\theta_{0} \\ \sin m\theta_{1} \\ \sin m\theta_{1} \\ \vdots \\ \sin m\theta_{d/2-1} \\ \sin m\theta_{d/2-1} \end{pmatrix}\]

其中 ⊗ 是逐位对应相乘（element-wise），即 Numpy、PyTorch 等框架中的 * 运算。这个实现只需要两次逐位乘法和一次加法，计算量远低于完整的矩阵乘法。

从这个实现形式也可以看到，RoPE 本质上可以视为是乘性位置编码的变体 —— 它不是把位置向量 “加” 到特征上（如 Sinusoidal APE），而是把位置信息以 “乘” 的方式编织进每个分量中。

4.2.3. 直观理解

想象一个时钟的表盘。序列中的每个 Token 都是一根指针，它的”内容”决定了指针的长度和初始方向，而它的”位置”决定了额外旋转的角度。

第 1 个 Token 旋转 $1\theta$
第 2 个 Token 旋转 $2\theta$
第 m 个 Token 旋转 $m\theta$

当我们计算两个 Token 的内积（注意力分数）时，实际上在比较两根指针的夹角。而夹角只取决于它们旋转角度的差 $(n-m)\theta$——也就是相对距离，而不是各自的绝对位置。

更进一步，向量的每组分量使用不同频率 $\theta_{i}$ 旋转，就像多个指针以不同速度转动。低维分量的指针转得快（对近距离变化敏感），高维分量的指针转得慢（对远距离变化敏感），形成了一套完整的”多尺度位置感知系统”。

可视化示例

下图展示了旋转位置编码的具体效果。样本包含 6 个 token：Enhanced、Transformer、with、Rotary、Position、Embedding。每个 token 对应一个 d 维向量，其分量两两分组后各自执行旋转。

每个 token 的每组分量的旋转角度为 $m\theta_{i}$，其中 $\theta_{i}$ 的公式为 $\theta_{i} = 10000^{-2i/d}$：

随着 token 位置 $m$ 增大：旋转角度增大，旋转速度变快，频率变大
随着分量位置 $i$ 增大：旋转角度变小，旋转速度变慢，频率变小

4.2.4. 解决问题

解决“平移不变性”缺失问题

针对对象： 绝对位置编码 (APE)（如 BERT, GPT-2）。
问题： 同样的短语（如 “Black Cat”）在句首和句尾被加上了完全不同的位置向量，导致模型需要重复学习相同的语义关系。
RoPE 解决： 基于旋转角度差。
原理： 无论绝对位置m和n是多少，只要它们的相对距离不变，内积计算出的角度差 $(n−m)$就不变。这让模型能通过一次学习推广到任何位置。

解决“长序列外推”能力差问题

针对对象： 可学习的位置编码 (Learned Embedding)。
问题： 训练时最大长度（如 2048）限制了推理能力。推理时一旦超过该长度，查表越界（没有对应的训练参数），模型直接失效。
RoPE 解决： 基于数学函数。
原理： 函数具有周期性和数学连续性。即使位置索引超过了训练时的最大值，公式依然可算且保持规律，使模型能泛化到更长的序列。

远程衰减--解决“远程关注噪音”问题

针对对象： 标准 Attention 机制。
问题： 模型在处理超长文本时，难以自然地降低对极远距离、无关 Token 的关注度（缺乏远程衰减）。
RoPE 解决： 多频震荡抵消。
原理： 当两个 Token 距离很远（ $n−$很大）时，由于 $m$的频率不同，各个维度上的旋转在做内积求和时，正负值会相互抵消，导致 Attention 分数自然变小。这意味着 RoPE 天然赋予了模型一种“局部偏置” (Local Bias)，让模型更倾向于关注附近的上下文，这非常符合人类语言和视觉的习惯。

解决“KV Cache 推理效率”问题

针对对象： 相对位置编码 (RPE)（如 T5）。
问题： 相对距离是动态的。推理时每生成一个新词，Cache 中所有历史 Token 距当前词的距离都变了，必须重新查表计算 Bias 并加到矩阵上，无法做纯粹的矩阵乘法。
RoPE 解决： 位置注入向量。
原理： 位置信息在存入 Cache 前就已经通过旋转“刻”进 Key 向量了。推理时，只需拿当前的 Query 和 Cache 里的 Key 直接做矩阵乘法，相对位置关系会自动通过数学性质解算出来，无需额外的查表开销

4.3. 2D-ROPE

4.3.1. 计算流程

输入 (Input)
- 特征张量 $X$：形状为 (B, L, D)。
- 高度索引 $P_{h}$：形状为 (B, L)。例如 [0,0,0, 1,1,1...] (代表行号)。
- 宽度索引 $P_{w}$：形状为 (B, L)。例如 [0,1,2, 0,1,2...] (代表列号)。
参数含义 (Parameters)
- Split Ratio：切分比例，通常是 50% : 50%。即前一半维度给高度，后一半给宽度。
如何计算 (Calculation)
- 切分 (Split)：将 $X$ 在最后一个维度 $D$ 上切开：
- \[X_{height} = X[\ldots, 0 : D/2]\]
- \[X_{width} = X[\ldots, D/2 : D]\]
- 独立旋转 (Rotate Independently)：
- 使用 $P_{h}$ 对 $X_{height}$ 进行标准的 1D-RoPE 计算。
- 使用 $P_{w}$ 对 $X_{width}$ 进行标准的 1D-RoPE 计算。
- 拼接 (Concat)：
- $X_{out} = \text{Concat}(X'_{height}, X'_{width}, \text{dim}=-1)$。
输出 (Output)
- $X_{out}$：形状 (B, L, D)。此时向量的前半部分包含垂直位置信息，后半部分包含水平位置信息。

4.3.2. 解决问题

核心场景： 处理动态分辨率的图像。

问题 1：一维拉平破坏了“二维空间邻接性”

痛点：传统方法把图片按行扫描变成一维长条。
- 在二维网格中，点 $(0,0)$ 和点 $(1,0)$ 是紧挨着的（垂直邻居）。
- 但在拉平后，如果图片宽度是 100，它俩的索引分别是 0 和 100。
- 后果：模型很难理解“索引差 100 的两个点其实是邻居”，空间结构被打乱了。
解决：2D-RoPE 通过将向量切分为 $h, w$ 两部分，分别编码。
- 无论怎么拉平，垂直邻居在 $h$ 分量上的角度差永远是 $\theta_{0}$，在 $w$ 分量上的角度差永远是 0。几何关系被物理保留了。

问题 2：动态分辨率导致的“相对位置错乱”

痛点：Qwen2-VL 的核心卖点是支持任意分辨率。
- 情况 A：输入一张 $200 \times 200$ 的图。垂直邻居的索引差是 200。
- 情况 B：输入一张 $400 \times 400$ 的图。垂直邻居的索引差变成了 400。
- 后果：如果用 1D-RoPE，模型会困惑：“到底索引差 20 是邻居，还是差 40 是邻居？”这导致模型无法适应变化的图片尺寸。
解决：2D-RoPE 直接使用网格坐标 $(h, w)$。
- 无论图片多大，垂直邻居的坐标差永远是 $\Delta h=1, \Delta w=0$。
- 模型因此具备了“分辨率无关性”，可以处理任意长宽比的图片。

4.4. M-ROPE

4.4.1. 计算流程

输入 (Input)
- 特征张量 X：形状为 $(B, L, D)$。
- 时间索引 $P_{t}$： $(B, L)$。视频帧号（图片/文本设为常数或序列号）。
- 高度索引 $P_{h}$： $(B, L)$。空间行号。
- 宽度索引 $P_{w}$： $(B, L)$。空间列号。
如何计算 (Calculation)
- 三路切分 (Split into 3)：将 $X$ 沿 $D$ 维切成三份：
- \[X_{t} = X[\ldots, 0 : D_{t}]\]
- \[X_{h} = X[\ldots, D_{t} : D_{t}+D_{h}]\]
- \[X_{w} = X[\ldots, D_{t}+D_{h} : D]\]
- 三路并行旋转 (Parallel Rotation)：
- $X'_{t} = \text{RoPE}(X_{t}, P_{t})$ —— 注入时间信息。
- $X'_{h} = \text{RoPE}(X_{h}, P_{h})$ —— 注入高度信息。
- $X'_{w} = \text{RoPE}(X_{w}, P_{w})$ —— 注入宽度信息。
- 拼接 (Concat)：
- $X_{out} = \text{Concat}(X'_{t}, X'_{h}, X'_{w}, \text{dim}=-1)$。
输出 (Output)
- $X_{out}$：形状 (B, L, D)。
- 该向量现在是一个“全息”位置载体：
  - 计算 Attention 时，如果在时间上不同（帧不同），$X'_{t}$ 部分会产生角度差。
  - 如果在空间上不同（像素位置不同），$X'_{h}$ 和 $X'_{w}$ 部分会产生角度差。

4.4.2. 解决问题

核心场景： 统一处理 文本、图像、长视频 的混合输入。

问题 1：多模态数据的“维度不兼容”

痛点：
- 文本是 1D 的（只有前后）。
- 图片是 2D 的（有高宽）。
- 视频是 3D 的（有时空）。
- 以前的模型通常需要给每种模态设计不同的编码器，或者暴力地全部压成 1D，导致时空信息混杂，模型难以学习。
解决：M-RoPE 建立了一个统一的 $(t, h, w)$ 三维坐标系。
- 文本用 $(i, i, i)$ 模拟 1D。
- 图片用 $(1, h, w)$ 模拟 2D。
- 视频用 $(t, h, w)$ 模拟 3D。
- 结果：所有模态的数据都可以在同一个 Embedding 空间里从容交互，不需要切换编码方式。

问题 2：长视频的“索引爆炸”与“外推失败” (The Extrapolation Problem)

痛点：视频产生的 Token 数量极多。
- 假设一个视频有 1000 帧，每帧 256 个 Token，总 Token 数 = 256,000。
- 如果用 1D 索引，位置号 $pos$ 会一直飙升到 250,000+。
- RoPE 的弱点：当推理时的位置索引 $m$ 远超训练时的最大索引（比如训练时只见过 32k），$\cos(m\theta)$ 的旋转角度会变得非常陌生，模型性能急剧下降。
解决：M-RoPE 采用了 “分治策略” (Decomposition)。
- 虽然总 Token 有 25万个，但我们把索引拆开了：
  - 时间索引 $t$ 可能只到 1000。
  - 高度索引 $h$ 可能只到 16。
  - 宽度索引 $w$ 可能只到 16。
- 结果：每一个分量上的索引数值都非常小（都在模型训练见过的”舒适区”内）。
- 优势：这让模型能够理解比训练时长得多的视频（因为 $t$ 增加只会导致时间分量的旋转，而不会破坏空间分量的感知），实现了强大的长距离外推能力。

5. 总结与展望

5.1. 完整的技术演进脉络

位置编码的发展史是一部不断加深对”位置”和”距离”理解的历程。从简单的可学习向量，到周期函数，再到旋转矩阵，最后到统一的多维时空坐标系，每一步都解决了前一代方案的根本限制：

方案	核心机制	主要优势	关键局限	代表模型
Learned APE	查表取位置向量	灵活性高	无外推，参数多，缺乏平移不变性	BERT, GPT-2
Sinusoidal APE	三角函数	零参数，有外推	隐式相对性，长序列下远程衰减差	Transformer, GPT-3
Relative PE	相对距离偏置	显式相对，自然高效	破坏 KV Cache，推理成本高	T5, Transformer-XL
RoPE (1D)	旋转矩阵	绝对形式、相对效果、KV Cache友好	单维设计，难以直接扩展到多模态	LLaMA, Qwen-LM
2D/M-RoPE	多维旋转分解	统一多模态坐标系、强大外推	实现复杂，频谱分布需优化	Qwen2-VL, Qwen2.5-VL

5.2. 关键设计原则

从这些演进中，我们可以提炼出几条关键的设计原则：

显式优于隐式：从隐含的三角函数关系到显式的旋转矩阵，从相对距离偏置到绝对位置旋转，显式的数学表示能让模型更容易学习。
正交性保证稳定性：RoPE 之所以成功，关键在于旋转矩阵是正交的，不改变向量模长，天然保护了训练稳定性。
统一的坐标系胜于多套编码方案：M-RoPE 用一套三维坐标系 (t, h, w) 统一处理文本、图像、视频，比为每种模态设计不同编码器更优雅、更高效。
分解而非拼接：M-RoPE 的成功在于将高维问题分解成多个低维旋转，而不是简单地拼接不同模态的编码。这既保留了每个维度的完整频谱，也保证了外推能力。

5.3. 未来方向

当前的位置编码设计已经相当成熟，但仍有未来的探索空间：

自适应频率：不同的任务可能需要不同的频率分布（如密集物体检测 vs 长距离推理），能否动态调整 $\theta_i$ 的基座？
显式时间戳与隐式时间编码的融合：Qwen3-VL 引入的显式文本时间戳很直观，但能否进一步结合 RoPE 的数学优雅性？
多粒度位置的层次化表示：目前大多数方案把所有信息都编码到位置 ID 中，能否设计分层结构来区分”全局位置” vs “局部位置”？
位置编码与注意力机制的共同设计：RoPE 本身是与 Dot-Product Attention 绑定的。对于其他注意力变体（如线性注意力、稀疏注意力），应如何重新设计位置编码？

6. 延伸阅读

若你对本文涉及的位置编码技术感兴趣，以下资源值得深入阅读：

深度理论讲解 (中文)

科学空间：旋转位置编码（RoPE） —— RoPE 一作苏剑林的详细推导与直观讲解。
科学空间：位置编码与长度外推 —— 长序列外推问题分析。
科学空间：多维旋转位置编码的推广 —— M-RoPE 的理论推导与应用。

本文为论文阅读笔记和技术深度解读，如有疏漏欢迎指正。

Share on

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)