Yunpeng’s Homepage

从 PPO 到 DPO 再到 GRPO：经典大模型强化学习算法解读

2026-04-15T00:00:00+00:00

TL;DR：在大语言模型（LLM）的对齐（Alignment）领域，强化学习扮演着核心角色。从 OpenAI 提出的 PPO，到斯坦福大学提出的 DPO，再到 DeepSeek 提出的 GRPO，每一代算法都在解决前一代的痛点。本文将从原理、公式推导到工程实现，系统梳理这三大算法的核心思想与演进逻辑，帮助读者建立完整的技术图谱。

1 PPO：强化学习对齐的奠基石

1.1 背景与动机

Proximal Policy Optimization（PPO）最初由 Schulman 等人于 2017 年提出，旨在简化 TRPO（Trust Region Policy Optimization）的复杂实现 —— 用简单的 Clip 机制替代二阶 KL 约束，在保持策略更新稳定性的同时，允许对同一批数据进行多轮复用，从而提升样本效率。在 LLM 对齐场景中，PPO 被用于 RLHF（Reinforcement Learning from Human Feedback）流程的核心训练阶段——在已经通过 SFT（Supervised Fine-Tuning）和奖励模型（Reward Model）训练后，利用 RL 进一步优化模型以对齐人类偏好。 PPO 的核心思想是：在更新策略时，限制新策略与旧策略之间的偏离程度，从而在提升性能的同时保证训练稳定性。

1.2 PPO 目标函数：从全局视角出发

理解 PPO，最好的方式是从它的目标函数开始，自顶向下地层层剥开。与其一上来就陷入具体的技术细节，不如先看清全貌——PPO 到底在优化什么？然后我们再逐步深入，理解目标函数中每一个符号的来龙去脉。 PPO 的目标函数如下：

\[\mathcal{J}_{PPO}(\theta) = \mathbb{E}[q \sim P(Q), o \sim \pi_{\theta_{old}}(O|q)] \frac{1}{|o|} \sum_{t=1}^{|o|} \min \left[ \frac{\pi_\theta(o_t | q, o_{逐项拆解：

符号	含义
$q \sim P(Q)$	从问题分布里采样一个问题/提示（prompt），例如一句用户指令。
$o \sim \pi_{\theta_{old}}(O \mid q)$	用旧策略生成一个完整输出序列 $o = (o_1, \dots, o_{\vert o\vert})$
$\vert o\vert$	输出序列长度；前面的 $\frac{1}{\vert o\vert} \sum_{t=1}^{\vert o\vert}$ 是对所有 token 取平均，避免长回答在 loss 上权重更大。
\(\pi_\theta(o_t \mid q, o_{	当前待更新策略 $\pi_\theta$ 在前缀 \((q, o_{
\(\pi_{\theta_{\text{old}}}(o_t \mid q, o_{	旧策略下的对应概率，用来构造重要性采样比率：\(r_t(\theta) = \frac{\pi_\theta(o_t \mid q, o_{
$A_t$	第 $t$ 个 token 的 advantage（优势函数），一般由 GAE 计算：$A_t \approx (\text{当前路径未来回报}) - (\text{价值网络给出的 baseline})$
$\varepsilon$	PPO 的 clip 超参数，典型值 $0.1 \sim 0.2$

我们先从直觉上理解它在做什么——在所有采样的 token 上，计算「新策略相比旧策略的改进幅度」与「优势值」的乘积，同时用 clip 机制防止步子迈得太大。 这个公式里有三个关键组件：

重要性采样比率 $r_t(\theta) = \frac{\pi_\theta}{\pi_{\theta_{old}}}$：衡量新旧策略的差异
优势函数 $A_t$：衡量这一步动作比「平均水平」好了多少
- $A_t > 0$：这一步比平均表现更好，应该增加对应动作概率
- $A_t < 0$：这一步比平均表现差，应该减小该动作概率
Clip 机制：给更新幅度加上「安全带」，$\text{clip}(r_t, 1 - \varepsilon, 1 + \varepsilon)$ 把比率 $r_t(\theta)$ 截断在区间 $[1 - \varepsilon, 1 + \varepsilon]$ 内，防止一次更新动得太狠，保证训练稳定，这样能限制单步更新幅度，避免策略离旧策略太远。
- 当 $A_t > 0$（想鼓励这一动作）时，$r_t$ 不允许大于 $1 + \varepsilon$，否则取被截断的版本
- 当 $A_t < 0$（想惩罚这一动作）时，$r_t$ 不允许小于 $1 - \varepsilon$
Clip机制与重要性采样比率 \(r_t(\theta) = \frac{\pi_\theta(o_t \mid q, o_{的配合

PPO 和下文中的 GRPO 的每一项都是用重要性采样比率来放大/缩小采样出的 logprob 梯度，再通过 clipping 限制更新幅度，这是 RL 的核心。 其中，$A_t$（优势函数）是整个公式的灵魂——它决定了每个 token 的更新方向和力度。那么 $A_t$ 到底是怎么算出来的？这就需要我们层层深入。接下来，我们先看数据是怎么采样的，然后再详细推导 $A_t$ 的计算过程。

1.3 数据采样与 $A_t$ 计算

1.3.1 采样轨迹（只用 old policy）

首先，用旧策略 $\pi_{\theta_{old}}$ 采样一条完整输出：

\[o = (o_1, \cdots, o_T) \sim \pi_{\theta_{old}}(O|q)\]

然后，用 Reward Model 对整条输出打分，结合 KL 惩罚得到每一步的奖励分数：

\[r_{t}=r_{\varphi}(q,o_{\leq t})-\beta\log\frac{\pi_{\theta}(o_{t}|q,o_{这里的 KL 惩罚项确保模型不会为了追求高奖励而生成与参考模型差异过大的文本。

1.3.2 用 GAE 从 reward + value 得到优势 $A_t$

有了每一步的奖励 $r_t$，接下来需要回答一个问题：这一步的动作到底比「平均水平」好了多少？ 这就是优势函数 $A_t$ 要衡量的。要算 $A_t$，光有奖励不够——我们还需要一个「平均水平」的参照物。这个参照物就是状态价值函数 $V(s_t)$，它由一个专门的 Critic 网络（也叫 Value Network） 负责输出。简单来说：

Reward Model：给完整回答打分，提供即时奖励信号 $r_t$（在 RL 阶段冻结不更新）
Critic 网络：预测从当前位置到序列结束的期望累积回报 $V(s_t) = \mathbb{E}[G_t \mid s_t]$，作为计算 Advantage 的 baseline（与 Actor 同步训练）

在本节中，我们先假设 Critic 已经训好、能给出合理的 $V(s_t)$，专注于理解 $A_t$ 的计算逻辑。至于 Critic 本身是怎么训练的，我们在 1.4 节详细展开。

在强化学习中，状态价值 $V(s_t)$ 的直观含义是：从现在开始，直到序列结束，我能拿到的所有奖励的折扣总和。

\[V(s_t) \approx r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \dots\]

利用数学上的递归关系，我们可以把它写成：

\[V(s_t) \approx \underbrace{r_t}_{\text{眼前的钱}} + \underbrace{\gamma V(s_{t+1})}_{\text{未来的钱}}\]

第一步：计算 TD Error（时序差分误差 $\delta_t$）

\[\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\]

各项含义：

$r_t$：当前这一步获得的即时奖励（通常是 KL 惩罚，最后一步才有大分）
$V(s_t)$：Critic 认为当前状态值多少分
$V(s_{t+1})$：走到下一步后，Critic 认为那个新状态值多少分
$\gamma$：折扣因子（比如 0.99），表示未来的分不如现在的分值钱 直观理解：如果 $\delta_t > 0$，说明 $r_t + \gamma V(s_{t+1})$（现实情况）比 $V(s_t)$（Critic 的预期）要高，说明这一步走得超出预期的好。 第二步：计算 GAE 优势 $\hat{A}_t$ TD Error 只看了一步，眼光太短浅。GAE 把当前这一步的误差，加上未来的误差（打折后）累加起来：

\[\hat{A}_t = \delta_t + (\gamma \lambda)\delta_{t+1} + (\gamma \lambda)^2 \delta_{t+2} + \cdots + (\gamma \lambda)^{T-t} \delta_T\]

$\lambda$：这是 GAE 特有的参数（比如 0.95），用于平衡方差和偏差

含义：当前这一步的优势，不仅取决于这一步走得好不好（$\delta_t$），还取决于它是否让后面几步也容易走好 PPO 的 Advantage 一句话总结：

\[\text{Advantage} = \text{加权累加的 (现实 - 预期)}\]

1.3.3 计算每个位置的「真实回报」

目标公式： $\text{Target}_t = V(s_t) + \hat{A}_t$ 这个公式看起来简单，但其背后蕴含着深刻的数学意义。下面我们来详细推导。 准备公式：回顾两个核心定义：

TD Error（$\delta_t$）： $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$
GAE（$\hat{A}_t$）： $\hat{A}_t = \sum_{k=0}^{\infty} (\gamma \lambda)^k \delta_{t+k} = \delta_t + (\gamma\lambda)\delta_{t+1} + (\gamma\lambda)^2\delta_{t+2} + \dots$ 展开推导：我们把 $\text{Target}_t = V(s_t) + \hat{A}_t$ 展开。为了看清规律，我们只写前两项，看看它是怎么「消消乐」的，但又是怎么「消不干净」的。

\[\begin{aligned} \text{Target}_t &= \mathbf{V(s_t)} \\ &+ \underbrace{(r_t + \gamma V(s_{t+1}) - \mathbf{V(s_t)})}_{\delta_t} \\ &+ (\gamma\lambda) \underbrace{(r_{t+1} + \gamma V(s_{t+2}) - V(s_{t+1}))}_{\delta_{t+1}} \\ &+ (\gamma\lambda)^2 \delta_{t+2} + \dots \end{aligned}\]

第一步整理：可以看到第一行的 $V(s_t)$ 和第二行的 $-V(s_t)$ 完美抵消了。剩下：

\[\text{Target}_t = r_t + \gamma V(s_{t+1}) + (\gamma\lambda)(r_{t+1} + \gamma V(s_{t+2}) - V(s_{t+1})) + \dots\]

第二步关键整理（观察 $V(s_{t+1})$）：我们把含有 $V(s_{t+1})$ 的项提取出来。一项是前面的 $\gamma V(s_{t+1})$，一项是后面的 $-(\gamma\lambda) V(s_{t+1})$。

\[\gamma V(s_{t+1}) - \gamma\lambda V(s_{t+1}) = \gamma (1-\lambda) V(s_{t+1})\]

于是公式变成了：

\[\begin{aligned} \text{Target}_t &= r_t + \gamma (1-\lambda)V_{t+1} \\ &+ \gamma\lambda r_{t+1} + (\gamma\lambda) \gamma (1-\lambda)V_{t+2} \\ &+ (\gamma\lambda)^2 \left[ r_{t+2} + \gamma (1-\lambda)V_{t+3} + \dots \right] \end{aligned}\]

最终的「一般形式」：如果你不断这样递归下去，会发现一个惊人的规律——

\[G_t^\lambda = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} G_t^{(n)}\]

这里的 $G_t^{(n)}$ 代表 n-step Return（看 $n$ 步真实奖励，后面用预测）：

$n=1$： $G_t^{(1)} = r_t + \gamma V(s_{t+1})$（只看 1 步）
$n=2$： $G_t^{(2)} = r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2})$（看 2 步）
$n=\infty$： $G_t^{(\infty)} = G_t$（Monte Carlo，全看真实） 推导结论：利用 $V_{old} + A$ 构造出来的 Target，本质上是所有可能的 n 步回报的加权平均值！权重由 $\lambda$ 决定——越大，越重视长远的真实奖励；越小，越重视近期的预测。

GAE 的智慧（$\lambda = 0.95$） 构造 $\text{Target} = V_{old} + A$ 是为了取其精华，去其糟粕。$\lambda=0.95$ 时，它相当于在说：「我 95% 相信现实发生的事（后面的 $r$），但也保留 5% 对 Critic 预测的信任（用来平滑噪音）。」

通过引入 $V$（预测）：我们削减了 $G_t$ 中因为环境随机性带来的巨大方差

通过引入 $r$（现实）：我们修正了 $V$ 可能会有的偏差

其中 $\gamma$ 是折扣因子（通常接近 1）， $r_t$ 是第 $t$ 步获得的奖励。 $G_t = V_{old} + A$ 构造的是 $\lambda$-Return：

如果 $\lambda = 1$，由于数学上的抵消，它就退化为蒙特卡洛回报 $G_t$
如果 $\lambda < 1$，它是 $G_t$ 的一个低方差近似版。我们故意用这个公式，是为了让 Critic 学得更稳，而不是完全照搬某一次采样的 $G_t$

小结与展望：回顾一下，整个 $A_t$ 的计算链条是：

\[\text{RM 打分} \xrightarrow{r_t} \text{结合 Critic 的 } V(s_t) \xrightarrow{\text{GAE}} \hat{A}_t\]

在这个链条中，Critic 提供的 $V(s_t)$ 质量直接决定了 $A_t$ 的准确性——如果 Critic 预测得不准，Advantage 的信噪比就会很差，Actor 的更新方向也会跟着跑偏。所以一个自然的问题是：Critic 网络本身是怎么训练的？它的训练目标是什么？ 这正是下一节要回答的问题。

1.4 训练 Critic 网络

在 1.3 节中，Critic 提供的 $V(s_t)$ 贯穿了整个 Advantage 计算过程。现在我们来看它自身是怎么训练的。 Critic 的架构：在 LLM-RLHF 的典型实现中，Critic 与 Actor 共享同一个 Transformer backbone，在最后一层额外接一个线性头（将 hidden state 映射到标量）。在每个时间步 $t$，Critic 利用当前状态 $s_t$（即 prompt + 已生成序列 \(o_{回归拟合从该位置出发的期望累积回报。 Value Network 的训练目标是：

\[\min_{V} \mathbb{E}_{s_t, R} \left[ (V(s_t) - R)^2 \right]\]

这是一个标准的 MSE 回归问题，我们想找到最优函数 $V^*(s_t)$。设模型在某一状态 $s_t$ 上预测为 $v$，真实未来回报是随机变量 $R$，则目标变成：

\[\min_{v} \mathbb{E}[(v - R)^2]\]

对 $v$ 求导：

\[\frac{d}{dv} \mathbb{E}[(v - R)^2] = 2\mathbb{E}[v - R] = 0\]

解得：

\[v = \mathbb{E}[R]\]

因此，最优 $V(s_t)$ 不是某次 $R$，也不是逼近 $R$ 的趋势曲线，而是： $V(s_t) = \mathbb{E}[R \mid s_t]$

关键洞察： $V(s_t)$ 是对未来累积回报的条件期望——一个预测基线，而不是 reward 的逐步逼近值。它不是试图越来越接近某一次具体的 reward，而是根据当前 state 估计「平均而言，未来还能拿多少分」。这正是它能作为 1.3 节中 Advantage 基线的数学根基。

1.5 PPO 训练流程

综上，PPO 的训练分为三个清晰的阶段 第一步：采样与打分（Rollout） 此时我们有旧的策略网络（Actor）和旧的价值网络（Critic）。

让 Actor 去环境里跑（比如生成文本），拿到状态 $s$、动作 $a$、奖励 $r$
用旧的 Critic 对这些状态打分，得到 $V_{old}(s)$

第二步：计算优势和目标（Calculation）—— 关键步骤 在这个阶段，网络是不更新的。我们利用刚才收集的数据计算出两个固定的张量：

计算 Advantage（$\hat{A}$）：利用 $r$ 和 $V_{old}$，套用 GAE 公式算出优势
计算 Returns（Target）：直接用公式 $\text{Returns} = V_{old} + \hat{A}$

注意：这一步做完后，$\hat{A}$ 和 $\text{Returns}$ 就变成了常数（不再带有计算图的梯度），也就是我们常说的 label。

第三步：训练更新（Optimization） 现在的输入数据是：$(s, a, \hat{A}, \text{Returns})$。进入 PPO 的 Update Loop（通常会循环几次）：

Actor 的任务：利用第二步算好的 $\hat{A}$ 来计算 PPO 的 Policy Loss（那个截断的 CLIP 公式），更新 Actor 参数 $L^{CLIP}(\theta) \approx \min(\dots) \cdot \hat{A}$
Critic 的任务：利用第二步算好的 $\text{Returns}$ 作为真值（GT），更新 Critic 参数 $L^{Value}(\phi) = (V_\phi(s) - \text{Returns})^2$

为什么要这样？ 因为 PPO 是 On-Policy（同策略） 算法。Advantage 的含义是：”在当时那个时刻，采取这个动作比平均水平好了多少”。这个”平均水平”（基线）必须是采样时的那个 Critic 给出的。如果你先更新了 Critic，基线变了，那么你之前算的 Advantage 就没意义了（偏差会变大），数学上就不成立了。 总结流程图：

旧 Critic → 算出 Advantage 和 Returns
锁定这两个值（当作固定数字）
Advantage → 用来训练 Actor
Returns → 用来训练新 Critic

2 DPO：绕过 RL 的优雅捷径

2.1 核心思想与主要发现

在 PPO 的框架中，我们需要先训练一个 Reward Model 对回复打分，再用 RL 算法（配合 Critic 网络）去最大化这个打分。整个流程链条很长：训练 RM → RM 打分 → 计算 Advantage → 更新 Actor → 同步更新 Critic。DPO（Direct Preference Optimization）的核心洞察是：

能不能跳过 Reward Model 和 RL 过程，直接从人类偏好数据中优化策略？

答案是可以的。DPO（Direct Preference Optimization）由 Rafailov 等人于 2023 年在 NeurIPS 上提出，其核心洞察是：语言模型本身就隐含地扮演了奖励模型的角色，我们可以跳过显式的奖励建模和 RL 训练。其主要发现可以概括为两步：

KL 约束下的最优策略存在闭式解——从 RLHF 的优化目标出发，可以推导出一个显式的 $\pi^*(y \mid x)$ 表达式；
将这个闭式解代入 Bradley-Terry 偏好模型，就能把”学习 Reward → 再做 RL”的两阶段流程，简化为一个直接在偏好数据上训练策略的分类损失。

下面我们沿着这个思路，逐步推导 DPO 的理论基础。

2.1.1 从 KL 约束优化到最优策略的闭式解

RLHF 的核心优化目标是：在最大化期望奖励的同时，不让策略偏离参考策略 $\pi_{\text{ref}}$ 太远（用 KL 散度约束）：

\[\max_{\pi_\theta} \; \mathbb{E}_{x \sim \mathcal{D},\, y \sim \pi_\theta(\cdot|x)} \left[ r(x, y) \right] - \beta \, \text{KL}\!\left[\pi_\theta(\cdot|x) \;\Vert \; \pi_{\text{ref}}(\cdot|x)\right]\]

其中 $r(x, y)$ 是 Reward Model 给出的奖励， $\beta$ 控制 KL 惩罚强度。对于这个 KL 约束优化问题，可以用变分法推导出其最优策略的闭式解：

\[\pi^*(y|x) = \frac{1}{Z(x)} \, \pi_{\text{ref}}(y|x) \, \exp\!\left(\frac{r(x,y)}{\beta}\right)\]

其中 $Z(x) = \sum_y \pi_{\text{ref}}(y \mid x) \exp\!\left(\frac{r(x,y)}{\beta}\right)$ 是归一化常数（配分函数），确保 $\pi^*$ 仍然是合法的概率分布。

直觉：最优策略在参考策略的基础上，按奖励大小做指数级的”re-weighting”——奖励越高的回复概率越大，但受到 $\beta$ 的约束不会偏离太远。

2.1.2 反解出隐式奖励函数

上面的闭式解建立了”奖励 → 最优策略”的映射，但 DPO 需要的是反方向：从策略反推出奖励。对闭式解取对数并移项，可以得到：

\[r(x, y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x)\]

这就是 DPO 的关键等式——奖励可以完全用策略的对数概率比来表示，即最优模型生成某个回答的概率，正比于初始模型生成该回答的概率乘以一个由奖励函数决定的指数项。 注意 $\beta \log Z(x)$ 只依赖于 prompt $x$，与具体回复 $y$ 无关。

2.1.3 代入 Bradley-Terry 模型，消去配分函数

人类偏好通常建模为 Bradley-Terry 模型：给定 prompt $x$ 和一对回复 $(y_w, y_l)$，人类更偏好 $y_w$ 的概率为：

\[p(y_w \succ y_l | x) = \sigma\!\left(r(x, y_w) - r(x, y_l)\right)\]

其中 $\sigma$ 是 sigmoid 函数。将 2.1.2 中的隐式奖励代入：

\[p(y_w \succ y_l | x) = \sigma\!\left(\beta \log \frac{\pi^*(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi^*(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\]

注意发生了什么：$\beta \log Z(x)$ 在做差时完美消去了。这意味着我们不需要计算那个难以处理的配分函数，偏好概率完全由策略与参考策略的对数概率比决定。这一步至关重要——正是配分函数的消去，使得 DPO 可以绕过 Reward Model 的显式训练，直接在偏好数据上优化策略。下一节，我们将基于这个结果写出 DPO 的训练损失函数。

2.2 DPO 损失函数

有了上面的推导，DPO 的损失函数就水到渠成了。将 2.1.3 中的偏好概率取负对数似然，就得到 DPO 的训练目标：

\[\mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma\!\left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]\]

这个损失函数的设计有三个精妙之处： 1. 隐式奖励差驱动优化 定义隐式奖励为 $\hat{r}_\theta(x, y) = \beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\text{ref}}(y \mid x)}$，则损失可以简写为：

\[\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\!\left(\hat{r}_\theta(x, y_w) - \hat{r}_\theta(x, y_l)\right)\right]\]

优化方向很清晰：拉大好回复与坏回复之间的隐式奖励差。 2. 梯度自带难度感知 对 $\mathcal{L}_{\text{DPO}}$ 求梯度，可以得到：

\[\nabla_\theta \mathcal{L}_{\text{DPO}} = -\beta \, \mathbb{E}\!\left[\underbrace{\sigma\!\left(\hat{r}_\theta(x, y_l) - \hat{r}_\theta(x, y_w)\right)}_{\text{隐式权重}} \left[\nabla_\theta \log \pi_\theta(y_w|x) - \nabla_\theta \log \pi_\theta(y_l|x)\right]\right]\]

其中的隐式权重 $\sigma(\hat{r}_\theta(x, y_l) - \hat{r}_\theta(x, y_w))$ 起到了自适应采样的作用：当模型已经能正确区分好坏回复（隐式奖励差大），这个权重趋近于 0，梯度很小；当模型判断错误（给坏回复的隐式奖励更高），权重趋近于 1，产生强烈的纠正梯度。这意味着 DPO 天然会把学习资源集中在”难样本”上。 3. 仅依赖策略概率，无需额外模型 整个损失只涉及 $\pi_\theta$ 和 $\pi_{\text{ref}}$ 的对数概率——不需要 Reward Model 打分，不需要 Critic 网络，不需要 GAE 计算。训练时只需做一次前向传播计算 log-prob 即可。至此，我们已经看到了 DPO 损失函数的完整形态。但一个自然的问题是：PPO 中需要显式的 KL 散度惩罚来防止策略崩塌，DPO 的损失里没有出现任何 KL 项——它是如何保持策略稳定性的？ 下一节将回答这个问题。

2.3 KL 散度惩罚的隐式机制

DPO 的损失函数中看不到显式的 KL 惩罚项，但这并不意味着 KL 约束不存在——它以两种方式隐含在损失设计中。

2.3.1 隐式奖励本身就是 KL 的”局部梯度”

回顾隐式奖励的定义：

\[\hat{r}_\theta(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}\]

这个对数比值正是 KL 散度 $\text{KL}[\pi_\theta \Vert \pi_{\text{ref}}]$ 在点 $y$ 上的”局部贡献”。当策略 $\pi_\theta$ 偏离参考策略时，这个值会增大，而 DPO 的梯度权重 $\sigma(\hat{r}_\theta(y_l) - \hat{r}_\theta(y_w))$ 会自动调节：

Case 1：策略大幅偏离参考策略。此时 $\hat{r}_\theta$ 的绝对值很大，如果偏离方向正确（好回复的隐式奖励 » 坏回复），sigmoid 趋近 0，梯度被抑制——防止策略继续偏离。
Case 2：策略接近参考策略。 $\hat{r}_\theta$ 较小，sigmoid 接近 0.5，梯度正常更新——允许策略在参考策略附近自由探索。

2.3.2 约束来源：闭式解的推导前提

更根本地说，DPO 损失的推导起点就是 KL 约束优化问题（2.1.1）。整个损失函数是在 “最优策略满足 KL 约束”这一前提下 推导出来的，因此 KL 约束已经被”编码”进了损失的数学结构中：

$\beta$ 参数直接控制约束强度：$\beta$ 越大，隐式奖励对策略偏离越敏感，等价于更强的 KL 惩罚；
参考策略 $\pi_{\text{ref}}$ 的对数概率始终作为”锚点”出现在损失中，任何偏离都会被自动计入优化目标。

小结：DPO 并非”没有 KL 约束”，而是将 KL 约束从 PPO 的显式惩罚项，转化为了损失函数的内在数学结构。这种设计更优雅，但也意味着 $\beta$ 的调参更为关键——它是唯一控制探索-利用平衡的旋钮。

2.4 DPO 相对于 PPO 的改进与效果

理解了 DPO 的理论基础和隐式约束机制后，我们可以系统地比较它与 PPO 的差异。下表总结了两者在训练流程、模型需求和优化特性上的关键区别：

改进点 (Improvement Area)	PPO (传统RLHF方法)	DPO (直接偏好优化)	带来的效果改善 (Resulting Improvement)
1. 训练流程 (Training Pipeline)	复杂的三阶段流程：1. 监督微调 (SFT) 2. 训练奖励模型 (RM) 3. PPO强化学习微调	简化的两阶段流程：1. 监督微调 (SFT) 2. DPO直接优化	极大简化了流程，降低了工程复杂度和出错可能。不再需要维护和调试一个独立的奖励模型。
2. 奖励机制 (Reward Mechanism)	显式的奖励模型：需要训练一个独立的神经网络来拟合人类偏好，给生成的文本打分。这个模型是真实奖励的一个代理（Proxy）。	隐式的奖励模型：不需要独立的奖励模型。奖励函数通过r ∝ log(π_θ / π_ref)被解析地、隐式地定义在策略模型本身。	消除了奖励模型和策略模型可能存在的不一致性（mismatch）。同时，由于奖励和策略是联动的，有效避免了奖励过度优化（reward hacking）的风险，即模型找到奖励模型的漏洞获得高分，但实际质量很差。
3. 优化算法 (Optimization Algorithm)	复杂的Actor-Critic算法：PPO需要维护一个策略网络（Actor）和一个价值网络（Critic），通过复杂的优势函数（Advantage Estimation）来计算梯度，方差较大。	简单的分类损失函数：DPO将问题转化为一个简单的二元交叉熵损失，这是一个非常成熟和稳定的监督学习问题，可以直接通过梯度下降优化。	训练过程更稳定、收敛更快。由于是直接优化，其方差更低，结果的可复现性更强。不再需要复杂的价值函数估计。
4. 训练过程中的采样 (Sampling During Training)	需要在训练中动态采样：PPO的训练循环中，需要不断从当前策略模型（Actor）中采样生成新的回答，然后用奖励模型打分，计算优势值。这是一个主要的计算瓶颈。	无需在训练循环中采样：DPO的训练完全基于静态的、离线的偏好数据集 (prompt, y_w, y_l) 进行。	训练速度大幅提升，计算资源需求显著降低。这使得DPO在同等硬件条件下可以更快地完成训练，或者用更少的资源完成训练。
5. 超参数调优 (Hyperparameter Tuning)	超参数众多且敏感：需要仔细调整Actor和Critic的学习率、折扣因子gamma、GAE的lambda、PPO的clipping epsilon、KL散度惩罚系数等，调优非常困难。	超参数少且鲁棒：最关键的超参数只有一个 β，它直接控制KL散度的强度，并且其含义清晰，调优相对简单得多。	调参难度大大降低，更容易获得好结果。这极大地降低了研究者和开发者应用偏好对齐技术的门槛。
6. 稳定性和实现难度 (Stability & Implementation Complexity)	实现复杂，训练不稳定：PPO的实现涉及多个组件和复杂的计算流程，代码容易出错。RL训练过程本身也可能非常不稳定。	实现简单，训练过程稳健：DPO损失函数的实现非常直接（在PyTorch中可能只需几行代码），整个训练过程就像普通的监督学习一样稳定。	更可靠，更容易部署和维护。简单性和稳定性使得这项关键的对齐技术能够被更广泛地应用和研究。

DPO 的优势可以概括为三点：

流程大幅简化：去掉了 RM 训练和 RL 采样循环，将对齐训练简化为一个标准的监督学习过程（偏好对上的二分类）；
资源开销降低：从 4 个模型缩减到 2 个，显存需求和工程复杂度显著下降；
训练更稳定：消除了 RM 质量传导误差、Critic 网络训练不稳定、以及 on-policy 采样方差等不稳定因素。

当然，DPO 也有其局限性：它依赖离线偏好数据的质量和覆盖度，无法像 PPO 那样通过在线采样持续探索新的回复空间。这一局限后来催生了如 Online DPO、IPO 等改进工作。

在下一章中，我们将介绍 GRPO——它从另一个角度简化 PPO：保留 RL 框架但去掉 Critic 网络，用组内归一化的方式直接估计优势函数。

3 GRPO：无 Critic 的群体智慧

3.1 背景与动机：去掉 Critic，还能做 RL 吗？

在前两章中，我们看到了两条通往对齐的路径：

PPO：完整的 RL 框架，效果强大但链条很长——需要 RM 打分、Critic 估值、GAE 计算、重要性采样与 Clip，同时维护 4 个模型；
DPO：彻底绕过 RL，用偏好数据直接优化策略，流程极简但放弃了在线采样的探索能力。

有没有一条中间路线——保留 RL 的在线采样优势，但去掉最沉重的 Critic 网络？ Group Relative Policy Optimization（GRPO）正是这个思路的产物。它由 DeepSeek 团队在 2024 年的 DeepSeekMath 论文中提出，核心创新只有一句话：

用”同一道题的多个回答之间的相对比较”来替代 Critic 网络的价值估计。

这带来两个直接好处：

节省显存：不再需要与策略模型同等规模的 Critic 网络（对于 67B 的模型，这意味着省下近一半的显存）。
简化流程：省去了 Critic 的训练、更新和同步维护，同时避免了 Critic 估值不准导致的训练不稳定。

那么问题来了：PPO 中 Critic 的核心作用是提供基线（baseline）来降低梯度方差，去掉它之后，GRPO 如何计算优势函数 $\hat{A}_{i,t}$？这正是下一节要回答的问题。

3.2 Advantage 计算：GRPO 的核心创新

回顾 PPO 中优势函数的计算链条：RM 打分 → $r_t$ → 结合 Critic 的 $V(s_t)$ → TD Error → GAE → $\hat{A}_t$。GRPO 的做法是把中间涉及 Critic 的部分全部替换掉——不再问”这个回答比 Critic 预测的好多少”，而是问”这个回答在同一组回答中排第几“。具体来说，GRPO 对同一个问题 $q$ 从旧策略 $\pi_{\theta_{\text{old}}}$ 采样 $G$ 个完整回答 $o_1, o_2, \dots, o_G$（例如同一道数学题生成 16 种解法），然后根据监督信号的粒度，分为两种计算方式。

3.2.1 结果监督（Outcome Supervision）：整条序列共享一个优势

当使用 Reward Model 对每个回答给出一个整体标量分数时，计算分两步： 第一步：组内标准化（Group Normalization） 用 RM 分别对 $G$ 个回答打分，得到 $r_1, r_2, \dots, r_G$，然后做标准化处理：

\[\tilde{r}_i = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}\]

标准化之后， $\tilde{r}_i > 0$ 意味着”比组内平均水平好”， $\tilde{r}_i < 0$ 意味着”比平均水平差”。这就是”相对比较”的含义——奖励信号不再是绝对值，而是相对于同组其他回答的排位。 第二步：优势广播（Broadcasting） 由于 RM 只给出整条回答的最终得分，没有逐 token 的细粒度信号，GRPO 采用最简单的策略——”一人得道，鸡犬升天“：序列中每个 token 的优势值都等于该序列的归一化得分：

\[\hat{A}_{i,t} = \tilde{r}_i \quad (\text{对于序列 } i \text{ 中的所有位置 } t)\]

直觉：如果一道题的某个解法最终答对了（$\tilde{r}_i$ 大），那么这个解法中的每一步推理都被视为”好的”，统一给予正向激励。这是一个粗粒度的近似，但实践中对数学推理任务效果很好。

3.2.2 过程监督（Process Supervision）：逐步累积优势

当使用 Process Reward Model（PRM）对每个推理步骤分别打分时，优势的计算可以更加精细： 第一步：步骤级标准化（Step-wise Normalization） GRPO 收集组内所有回答的所有步骤奖励，计算全局均值和标准差进行标准化：

\[\tilde{r}_{i,j} = \frac{r_{i,j} - \text{mean}(\text{GroupRewards})}{\text{std}(\text{GroupRewards})}\]

其中 $r_{i,j}$ 是第 $i$ 个回答中第 $j$ 个步骤的奖励。 第二步：计算累积优势（Accumulated Future Return） 与结果监督不同，过程监督下每一步都有独立的评分。此时 GRPO 借鉴了强化学习中”回报”（Return）的思想——当前步骤的优势不仅取决于自身得分，还要对后续所有步骤的表现负责：

\[\hat{A}_{i,t} = \sum_{k=j}^{K_i} \tilde{r}_{i,k} \quad (\text{其中 token } t \text{ 属于第 } j \text{ 个步骤})\]

这意味着：早期的推理步骤（如”设 $x$ 为…”）承担了更大的优势权重，因为它们影响了后续所有步骤的方向。如果后续推理全部正确，早期步骤会获得最高的正向激励；反之，如果在某一步开始出错，该步骤及之前的步骤都会受到惩罚。

小结：无论是结果监督还是过程监督，GRPO 的核心思想一致——用组内统计量替代 Critic 的价值估计。组均值充当了 PPO 中 Critic 的”基线”角色，标准差起到了方差归一化的作用。有了优势函数 $\hat{A}_{i,t}$，接下来就可以写出 GRPO 的目标函数了。

3.3 GRPO 目标函数

GRPO 的目标函数在形式上与 PPO 高度相似——同样使用重要性采样比率和 Clip 机制，但在两个关键位置做了修改：

\[\mathcal{J}_{GRPO}(\theta) = \mathbb{E}[q \sim P(Q), \{o_i\}_{i=1}^{G} \sim \pi_{\theta_{old}}(O|q)] \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left\{ \min \left[ \rho_{i,t} \hat{A}_{i,t}, \; \text{clip}(\rho_{i,t}, 1-\varepsilon, 1+\varepsilon) \hat{A}_{i,t} \right] - \beta \, \text{KL}[\pi_\theta \Vert \pi_{\text{ref}}] \right\}\]

其中 \(\rho_{i,t} = \frac{\pi_\theta(o_{i,t} \mid q, o_{i,

3.3.1 变化一：多样本”组”采样与双层平均

PPO 对单个 prompt 生成一条回复，在 token 维度计算优势并更新；GRPO 则对同一个问题生成 $G$ 条回复，形成一个”组”：

外层 $\frac{1}{G}\sum_{i=1}^{G}$：对 $G$ 个回答求平均——这是 GRPO 特有的，PPO 中没有这一层；
内层 $\frac{1}{\vert o_i \vert}\sum_{t=1}^{\vert o_i \vert}$：对单条回答中的 token 求平均——这与 PPO 相同，做长度归一化。

多样本采样不仅是优势计算的基础（需要组内统计量），还天然提供了更低方差的梯度估计：$G$ 个样本的平均梯度比单样本梯度稳定得多。

3.3.2 变化二：优势函数来源完全不同

	PPO	GRPO
优势来源	Critic 网络 $V(s_t)$ + GAE	组内奖励标准化
所需额外模型	Critic（与 Actor 同规模）	无
粒度	逐 token（通过 TD Error 链式传播）	结果监督：全序列统一；过程监督：逐步累积

其余结构——重要性采样比率 $\rho_{i,t}$、Clip 机制、KL 散度惩罚——与 PPO 完全一致。直觉上，GRPO 的优化动力可以用一句话概括：

组内表现高于平均的回答（$\hat{A}_{i,t} > 0$）→ 整条序列的生成概率被放大；
组内表现低于平均的回答（$\hat{A}_{i,t} < 0$）→ 整条序列的生成概率被压制。

这就完成了不依赖 Critic 网络的策略优化。接下来，我们看看这个目标函数在实际训练中是如何迭代执行的。

3.4 GRPO 训练流程

3.4.1 算法流程详解：三层嵌套循环

GRPO 的训练由三层嵌套循环构成，每一层承担不同的职责： 第一层：大周期（Iteration Loop）—— $T$ 轮这是迭代式强化学习的宏观周期。每轮开始时执行两个关键操作：

更新参考模型：将当前策略 $\pi_\theta$ 复制为 $\pi_{\text{ref}}$。此后在整个大周期内， $\pi_{\text{ref}}$ 保持冻结，用于计算 KL 散度惩罚；
更新 RM（可选）：DeepSeekMath 的特色设计——边训策略边优化奖励模型 $r_\phi$，形成”裁判与选手共同进步”的迭代。

第二层：采样周期（Step Loop）—— $N$ 步这是数据收集阶段，每步执行以下操作：

抽题：从题库中采样一批问题 $\mathcal{D}_b$；
快照：将当前 $\pi_\theta$ 复制给 $\pi_{\theta_{\text{old}}}$，作为本轮采样的冻结副本；
组采样：用 $\pi_{\theta_{\text{old}}}$ 对每个问题生成 $G$ 个回答；
打分与计算优势：用 RM/PRM 打分，按 3.2 节的方法计算 $\hat{A}_{i,t}$；
产出：得到一批固定的训练数据——包含问题、回答、优势值、以及旧策略的概率 \(\pi_{\theta_{\text{old}}}(o_{i,t} \mid q, o_{i,

第三层：学习周期（GRPO Loop）—— $\mu$ 轮拿着第二层采好的固定数据，对策略模型进行 $\mu$ 轮参数更新。数据会被切成 mini-batch，逐批计算 3.3 节的目标函数并执行梯度下降。

为什么要分三层？ 第一层控制”参考锚点的刷新频率”，第二层控制”数据采集与模型快照的节奏”，第三层控制”对同一批数据的复用程度”。三个频率解耦，使得训练的稳定性和数据效率都可以独立调节。

3.4.2 重要性采样比率（Ratio）为什么必不可少？

在第三层循环中，存在一个核心矛盾：数据是用 $\pi_{\theta_{\text{old}}}$ 生成的，但模型 $\pi_\theta$ 在每次梯度更新后都在变化。从第一个 mini-batch 更新后， $\pi_\theta$ 就已经不等于 $\pi_{\theta_{\text{old}}}$ 了；到第 $\mu$ 轮结束时，两者可能相差甚远。重要性采样比率 \(\rho_{i,t} = \frac{\pi_\theta(o_{i,t} \mid q, o_{i,

Ratio 取值	含义	对训练的影响
$\rho > 1$	新策略比旧策略更倾向于生成这个 token	若 $\hat{A} > 0$（好回答），放大梯度，强化该行为
$\rho < 1$	新策略认为这个 token 不太可能出现	降低该数据点的权重，减少其对更新的影响
$\rho \approx 1$	新旧策略一致	无修正，正常更新

Clip 机制则在 Ratio 的基础上再加一道保险：将 $\rho_{i,t}$ 截断在 $[1{-}\varepsilon, 1{+}\varepsilon]$ 范围内，防止任何单个 token 的梯度贡献过大，确保策略更新始终在旧策略的”信任域”内。

一句话总结：Ratio 解决的是”用旧经验训练新模型”的分布不一致问题（off-policy correction），Clip 限制的是”新模型一次能跑多远”的更新幅度——两者配合，保障了多轮复用数据时的训练稳定性。这一机制与 PPO 完全相同，是 GRPO “保留 RL 框架”的直接体现。

3.5 三大算法对比总览

从 PPO 到 DPO 再到 GRPO，三种算法代表了大模型对齐技术的三条不同路径：完整 RL、去 RL 化、以及轻量 RL。下表从多个维度系统对比三者的设计选择与工程特性：

对比维度	PPO（完整 RL 框架）	DPO（直接偏好优化）	GRPO（轻量 RL 框架）	关键差异说明
1. 训练流程	复杂的三阶段流程：1. 监督微调（SFT）→ 2. 训练奖励模型（RM）→ 3. PPO 强化学习微调	简化的两阶段流程：1. 监督微调（SFT）→ 2. DPO 直接优化	与 PPO 相同的三阶段流程，但第三阶段的 RL 过程大幅简化（无需 Critic 训练）	DPO 省去了独立 RM 训练阶段；GRPO 保留 RM 但简化了 RL 内部流程
2. 奖励机制	显式奖励模型：需训练独立的 RM 神经网络，对生成文本打分。RM 是真实奖励的代理（Proxy）	隐式奖励模型：不需要独立 RM，奖励通过 $r \propto \log(\pi_\theta / \pi_{\text{ref}})$ 被解析地、隐式地定义在策略模型本身中	显式奖励模型：与 PPO 相同需要独立 RM；支持结果监督（ORM）和过程监督（PRM）两种打分粒度	DPO 将奖励和策略联动，消除了 RM 与策略之间的不一致性（mismatch），但也失去了独立评估回复质量的能力
3. 优化算法	Actor-Critic 架构：需同时维护策略网络（Actor）和价值网络（Critic），通过 GAE 计算优势函数，梯度方差较大	分类损失函数：将问题转化为偏好对上的二元交叉熵损失，本质是监督学习问题，可直接通过梯度下降优化	Group Relative 架构：只保留 Actor，去掉 Critic，用组内奖励标准化替代 GAE 来估计优势函数	GRPO 在 PPO 和 DPO 之间取得折中——保留了 RL 的策略梯度框架，但用统计方法替代了最重的 Critic 组件
4. 训练采样	在线采样：需要在训练循环中不断从当前策略中采样生成回答，再用 RM 打分、计算优势值，是主要的计算瓶颈	无需在线采样：训练完全基于静态的、离线的偏好数据集 $(x, y_w, y_l)$ 进行，与标准监督学习流程一致	在线组采样：对同一问题从旧策略采样 $G$ 个回答（如 16/64 个），组内比较后构造优势信号	DPO 的离线特性大幅降低了计算需求；GRPO 虽需在线采样但多样本策略天然降低了梯度方差
5. 所需模型	4 个模型：Actor + Critic + RM + Reference，显存占用极高	2 个模型：Policy + Reference，显存需求最低	3 个模型：Actor + RM + Reference（无 Critic），显存介于两者之间	对于 70B 参数量的模型，去掉 Critic 可节省约 30-50% 的显存开销
6. 超参调优	超参众多且敏感：Actor/Critic 学习率、GAE 的 $\lambda$、clip 的 $\varepsilon$、KL 惩罚系数 $\beta$ 等，调参难度高	超参少且鲁棒：核心超参仅 $\beta$（控制 KL 约束强度），含义清晰，调优相对简单	超参适中：继承 PPO 的 clip $\varepsilon$ 和 KL 系数 $\beta$，新增组大小 $G$，但省去了 Critic 相关超参	DPO 的低调参门槛使其更易被研究者和开发者采用；GRPO 的 $G$ 选择对性能有显著影响
7. KL 约束	显式惩罚项：在目标函数中直接添加 $\beta \cdot \text{KL}[\pi_\theta \Vert \pi_{\text{ref}}]$	隐式约束：KL 惩罚被编码在损失函数的数学结构中，通过 $\log(\pi_\theta/\pi_{\text{ref}})$ 自动实现	显式惩罚项：与 PPO 相同，在目标函数中直接计算 KL 散度	DPO 的隐式约束更优雅，但也使得 $\beta$ 的调参更为关键——它是唯一的稳定性旋钮
8. 稳定性与实现复杂度	实现复杂，训练不稳定：涉及多组件协同（RM 质量传导误差、Critic 估值偏差、on-policy 采样方差），RL 训练本身也容易不稳定	实现简单，训练稳健：损失函数实现只需几行代码，整个训练过程就像普通的监督学习一样稳定	实现中等，训练较稳定：保留了 PPO 的采样和 clip 机制，但去掉 Critic 后消除了一个主要的不稳定源	GRPO 的组内标准化天然提供了低方差的优势估计，弥补了去掉 Critic 带来的精度损失
9. 适用场景	通用 RLHF：适合需要精细奖励信号和在线探索的场景	有偏好数据时的快速对齐：适合离线数据充足、追求训练效率的场景	可验证奖励的推理任务：特别适合数学、代码等有明确正误判定的场景	三者并非替代关系，而是适配不同的资源条件和任务特性
10. 代表应用	InstructGPT, ChatGPT	Llama 2, Zephyr	DeepSeekMath, DeepSeek-R1	—

4 延伸阅读

若你对本文涉及的 PPO、DPO、GRPO 及大模型对齐技术感兴趣，以下资源值得深入阅读：

原始论文

Proximal Policy Optimization Algorithms (Schulman et al., 2017) —— PPO 的原始论文，提出了 Clip 机制替代 TRPO 的二阶约束，奠定了现代策略梯度方法的工程基础。
Training language models to follow instructions with human feedback (Ouyang et al., 2022) —— InstructGPT 论文，首次将 PPO 应用于 LLM 的 RLHF 对齐流程，定义了 SFT → RM → PPO 的经典三阶段范式。
Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023) —— DPO 原始论文，推导了从 KL 约束最优策略到偏好分类损失的完整数学链条，展示了绕过 RL 的可行性。
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (Shao et al., 2024) —— GRPO 的提出论文，在数学推理任务上验证了用组内相对比较替代 Critic 网络的有效性。
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-AI, 2025) —— DeepSeek-R1 技术报告，展示了 GRPO 在大规模推理模型训练中的工程实践与效果。

进阶与前沿扩展

A General Theoretical Paradigm to Understand Learning from Human Feedback (Azar et al., 2023) —— 提出 IPO（Identity Preference Optimization），从理论上修正了 DPO 在有限偏好数据下的过拟合问题。
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models (Chen et al., 2024) —— SPIN 方法，探索了无需人类偏好标注、通过自博弈实现对齐的新路径。
RLHF Workflow: From Reward Modeling to Online RLHF (Dong et al., 2024) —— 系统梳理了从离线 DPO 到在线 RLHF 的完整工程流程与最佳实践。
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study (Xu et al., 2024) —— 对 PPO 与 DPO 在多个基准上的系统对比实验，揭示了两者在不同任务类型下的互补优势。

本文为论文阅读笔记和技术深度解读，如有疏漏欢迎指正。

位置编码的发展历程：从绝对、相对到多模态旋转编码

2026-03-25T00:00:00+00:00

TL;DR: 本文梳理了位置编码的四代演进：从最初的可学习绝对位置编码（BERT、GPT）和正弦绝对编码（Transformer）的局限性，到相对位置编码（T5、Transformer-XL）的改进，再到旋转位置编码（RoPE）的突破性创新。RoPE 通过以”绝对之形，行相对之实”的设计，同时兼得了绝对和相对编码的优点。随后的2D-RoPE 和 M-RoPE 将这一机制创造性地扩展到了视觉和多模态场景，为现代视觉语言模型（如 Qwen2-VL、Qwen3-VL）的多维时空位置感知提供了坚实的数学基础。本文的核心洞见是：位置编码的发展本质上是对”距离”这一根本概念理解的深化，从难以捕捉的隐式相对关系，到通过旋转矩阵显式编码的相对位置，再到能够同时处理文本、图像和视频的统一时空坐标系。

1. 引言

在 Transformer 成为深度学习基石的今天，我们往往容易忽略一个基础但至关重要的组件——位置编码（Positional Encoding）。Transformer 核心的 Self-Attention 机制本质上是对序列中所有 Token 做两两内积（$\boldsymbol{q}_{m}^{\top} \boldsymbol{k}_{n}$），这种由词袋模型演变而来的机制天生是”置换不变”的，完全不包含序列的位置与顺序信息。位置编码的作用，就是让这个内积的结果能够感知到两个 Token 之间的位置关系。为了让模型能够感知到“Black Cat”和“Cat Black”的语义差异，我们必须额外引入位置信息。本文将带你回顾位置编码的发展历程，探讨它是如何从最初的绝对位置编码，演进到相对位置编码，并最终发展为现代大模型（如 LLaMA、Qwen 等）标配的旋转位置编码（RoPE）及其多模态变体的。

2. 绝对位置编码 (Absolute Positional Encoding)

核心思想：直接将每个 Token 在序列中的绝对位置信息编码成一个向量，并叠加到 Token 的词嵌入 (Word Embedding) 上。

2.1. 可学习的位置编码 (Learned Positional Encoding)

这是最符合直觉的做法：为每个 token 的绝对位置（从 $0$ 到序列的最大长度 $L_{max}$）分配一个独一无二的向量。这些位置向量在模型训练过程中随机初始化，并作为模型参数一同学习和更新。

优势：灵活性极高，模型可以数据驱动地学习到最适合特定任务的位置表示。
局限性：
- 无外推能力 (No Extrapolation)：训练时若最大长度设为 2048，推理时一旦遇到 2049，就会因为查表越界（没有对应的训练参数）导致模型直接失效。
- 缺乏平移不变性 (No Translation Invariance)：同样的短语（如 “Black Cat”）出现在句首和句尾时，叠加的位置向量完全不同，导致模型必须在不同位置重复学习相同的语义关系，极大浪费了参数容量。
- 参数量大：处理长文本时需要实例化大量位置向量。
代表模型：BERT、GPT 等早期模型及部分现代 Transformer。

2.2. 正余弦位置编码 (Sinusoidal Positional Encoding)

由 Transformer 原始论文《Attention Is All You Need》提出。它舍弃了参数学习，转而使用预设的正弦和余弦函数生成位置编码向量。第 $pos$ 个位置、第 $i$ 个维度 ($PE_{(pos, i)}$) 的计算公式为：

\[PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}})\] \[PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}})\]

优势：
- 理论可外推：基于解析函数生成，理论上没有绝对的最大长度限制。
- 零参数负担：完全基于公式计算，不增加模型参数量。
- 隐含相对位置信息：利用三角函数和角公式，位置 $pos+\delta$ 的编码可以通过位置 $pos$ 的编码线性表示，利于 Self-Attention 学习相对位置关系。
局限性：虽然理论上具有一定的相对位置表达能力，但简单的“相加”操作使得模型难以捕捉精确的相对距离信息，且在极长序列下，注意力的远程噪声难以消除。

3. 相对位置编码 (Relative Positional Encoding)

既然语言的局部结构（相对距离）往往比绝对坐标更重要，研究者们提出了相对位置编码（RPE）。

核心思想：不改变 Embedding，而是直接在计算 Attention Score 时加入一个与相对距离 $(j-i)$ 相关的偏置项 (Bias)。
原理：计算 Attention Score ($e_{ij} = q_{i} \cdot k_{j}$) 时，额外考虑 $j$ 相对于 $i$ 的相对距离。公式演变为 $e_{ij} = q_{i} \cdot (k_{j} + r_{j-i})$ 等形式，其中 $r_{j-i}$ 即为相对距离的编码向量。
优势：
- 更自然：符合 Attention 机制的特性，直接建模相对关系。
- 可外推：对于未见过的相对距离，可以进行泛化（通常会截断最大相对距离，例如 -K 到 K，超出范围的共享编码）。
- 不增加参数量或少量增加：相对距离编码通常共享或使用函数生成。
致命缺陷：KV Cache 推理效率低。
- 原因：相对距离是动态的。在生成第 $t$ 个词时，Cache 中第 1 个词距离它是 $t-1$；但在生成第 $t+1$ 个词时，距离变成了 $t$。这意味着每生成一个新 token，必须重新查表计算历史所有 Token 的相对位置 Bias，无法直接利用缓存好的 KV 进行纯粹的高效矩阵乘法。
代表模型：Transformer-XL、T5 等。

4. 旋转位置编码 (Rotary Positional Encoding, RoPE)

4.1. 核心思想

总体来说，上述传统方案分为两派：

绝对位置编码（APE）：直接给每个位置加一个固定向量（如 Sinusoidal、Learned Embedding），简单但无法显式建模相对距离。
相对位置编码（RPE）：在 Attention 计算时注入相对距离偏置（如 T5 Bias），效果好但破坏了 KV Cache 的复用性。

而RoPE的核心思想是：通过绝对位置编码的方式实现相对位置编码。 其精妙之处在于：它在形式上是绝对的（对每个位置独立施加变换），但在效果上是相对的（内积结果只依赖相对距离），同时兼得了两派的优势。

4.2. 1D-ROPE

4.2.1. 数学推导

Step 1：二维情形的复数视角

考虑最简单的二维向量 $\boldsymbol{q} = (q_{0}, q_{1})$。将其视为复数 $\boldsymbol{q} = q_{0} + \mathrm{i} q_{1}$，则对位置 $m$ 处的向量施加 RoPE，等价于乘上一个单位复数旋转因子：

\[f(\boldsymbol{q}, m) = \boldsymbol{q} e^{\mathrm{i} m\theta} = \|\boldsymbol{q}\| e^{\mathrm{i}(\Theta(\boldsymbol{q}) + m\theta)}\]

几何意义非常直观：把向量 $\boldsymbol{q}$ 在二维平面上旋转了 $m\theta$ 的角度。向量的模长 $\|\boldsymbol{q}\|$ 保持不变，只有方向（辐角）增加了 $m\theta$。这就是 “旋转式位置编码” 名称的由来。

写成矩阵形式，就是一个标准的二维旋转矩阵左乘：

\[f(\boldsymbol{q}, m) = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \begin{pmatrix} q_{0} \\ q_{1} \end{pmatrix}\]

这是一个标准的二维旋转矩阵。

Step 2：推广到高维——分块对角旋转矩阵

实际的 Transformer 中，Query/Key 向量的维度 $d$ 远大于 2（通常为 64 或 128）。由于内积满足线性叠加性，任意偶数维的 RoPE 都可以表示为 $d/2$ 个二维旋转的拼接。

具体做法是将向量的分量两两分组 $(q_{0},q_{1}),(q_{2},q_{3}),\ldots,(q_{d-2},q_{d-1})$，对每组独立施加不同频率的旋转，得到分块对角旋转矩阵 $\mathcal{R}_{m}$：

\[\underbrace{\begin{pmatrix} \cos m\theta_{0} & -\sin m\theta_{0} & 0 & 0 & \cdots & 0 & 0 \\ \sin m\theta_{0} & \cos m\theta_{0} & 0 & 0 & \cdots & 0 & 0 \\ 0 & 0 & \cos m\theta_{1} & -\sin m\theta_{1} & \cdots & 0 & 0 \\ 0 & 0 & \sin m\theta_{1} & \cos m\theta_{1} & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2-1} & -\sin m\theta_{d/2-1} \\ 0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2-1} & \cos m\theta_{d/2-1} \end{pmatrix}}_{\mathcal{R}_{m}} \begin{pmatrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ \vdots \\ q_{d-2} \\ q_{d-1} \end{pmatrix}\]

这里的 $q$ 指的是一个 Token 对应的整个 Query 向量。

其中每组旋转的频率 $\theta_{i}$ 不同，定义为：

\[\theta_{i} = 10000^{-2i/d}, \quad i = 0, 1, \dots, d/2-1\]

这里有两个关键的变量维度需要特别注意（后续所有的优化和改进都是在这两个变量上做文章）：

Token 位置 $m$：随着 $m$ 增大，旋转角度增大，旋转速度变快，频率变大
分量位置 $i$：随着 $i$ 增大，旋转角度变小，旋转速度变慢，频率变小
- 低维分量（$i$ 小）→ $\theta_{i}$ 大 → 旋转快 → 捕捉高频/短距离关系
- 高维分量（$i$ 大）→ $\theta_{i}$ 小 → 旋转慢 → 捕捉低频/长距离关系

这种多频率设计使得不同维度的分量各司其职，共同构成一套完整的多尺度位置感知系统。

Step 3：核心恒等式 —— 为什么效果是 “相对的”

给位置 $m$ 的 Query 乘上 $\mathcal{R}_{m}$，位置 $n$ 的 Key 乘上 $\mathcal{R}_{n}$，用变换后的 $Q,K$ 序列做 Attention，那么 Attention 就自动包含相对位置信息了，因为成立恒等式：

\[(\mathcal{R}_{m} \boldsymbol{q})^{\top} (\mathcal{R}_{n} \boldsymbol{k}) = \boldsymbol{q}^{\top} \mathcal{R}_{m}^{\top} \mathcal{R}_{n} \boldsymbol{k} = \boldsymbol{q}^{\top} \mathcal{R}_{n-m} \boldsymbol{k}\]

关键恒等式 $\mathcal{R}_{m}^{\top} \mathcal{R}_{n} = \mathcal{R}_{n-m}$ 成立的原因是：旋转矩阵的转置等于其逆（正交矩阵性质），而两个旋转的复合等于角度相加。因此：

最终的内积结果只依赖相对位置 $(n - m)$，与绝对位置 $m, n$ 无关。

这就是 RoPE “以绝对之形，行相对之实”的核心数学机制。

4.2.2. 工程实现：利用稀疏性加速

值得指出的是，$\mathcal{R}_{m}$ 是一个正交矩阵，它不会改变向量的模长，因此通常来说不会改变原模型的稳定性。

同样也可以发现$\mathcal{R}_{m}$ 是一个非常稀疏的矩阵 —— 绝大部分元素都是 0。如果直接用矩阵乘法来实现会很浪费算力。实际工程中，推荐通过逐位对应相乘的方式来实现 RoPE：

\[\begin{pmatrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ \vdots \\ q_{d-2} \\ q_{d-1} \end{pmatrix} \otimes \begin{pmatrix} \cos m\theta_{0} \\ \cos m\theta_{0} \\ \cos m\theta_{1} \\ \cos m\theta_{1} \\ \vdots \\ \cos m\theta_{d/2-1} \\ \cos m\theta_{d/2-1} \end{pmatrix} + \begin{pmatrix} -q_{1} \\ q_{0} \\ -q_{3} \\ q_{2} \\ \vdots \\ -q_{d-1} \\ q_{d-2} \end{pmatrix} \otimes \begin{pmatrix} \sin m\theta_{0} \\ \sin m\theta_{0} \\ \sin m\theta_{1} \\ \sin m\theta_{1} \\ \vdots \\ \sin m\theta_{d/2-1} \\ \sin m\theta_{d/2-1} \end{pmatrix}\]

其中 ⊗ 是逐位对应相乘（element-wise），即 Numpy、PyTorch 等框架中的 * 运算。这个实现只需要两次逐位乘法和一次加法，计算量远低于完整的矩阵乘法。

从这个实现形式也可以看到，RoPE 本质上可以视为是乘性位置编码的变体 —— 它不是把位置向量 “加” 到特征上（如 Sinusoidal APE），而是把位置信息以 “乘” 的方式编织进每个分量中。

4.2.3. 直观理解

想象一个时钟的表盘。序列中的每个 Token 都是一根指针，它的”内容”决定了指针的长度和初始方向，而它的”位置”决定了额外旋转的角度。

第 1 个 Token 旋转 $1\theta$
第 2 个 Token 旋转 $2\theta$
第 m 个 Token 旋转 $m\theta$

当我们计算两个 Token 的内积（注意力分数）时，实际上在比较两根指针的夹角。而夹角只取决于它们旋转角度的差 $(n-m)\theta$——也就是相对距离，而不是各自的绝对位置。

更进一步，向量的每组分量使用不同频率 $\theta_{i}$ 旋转，就像多个指针以不同速度转动。低维分量的指针转得快（对近距离变化敏感），高维分量的指针转得慢（对远距离变化敏感），形成了一套完整的”多尺度位置感知系统”。

可视化示例

下图展示了旋转位置编码的具体效果。样本包含 6 个 token：Enhanced、Transformer、with、Rotary、Position、Embedding。每个 token 对应一个 d 维向量，其分量两两分组后各自执行旋转。

每个 token 的每组分量的旋转角度为 $m\theta_{i}$，其中 $\theta_{i}$ 的公式为 $\theta_{i} = 10000^{-2i/d}$：

随着 token 位置 $m$ 增大：旋转角度增大，旋转速度变快，频率变大
随着分量位置 $i$ 增大：旋转角度变小，旋转速度变慢，频率变小

4.2.4. 解决问题

解决“平移不变性”缺失问题

针对对象： 绝对位置编码 (APE)（如 BERT, GPT-2）。
问题： 同样的短语（如 “Black Cat”）在句首和句尾被加上了完全不同的位置向量，导致模型需要重复学习相同的语义关系。
RoPE 解决： 基于旋转角度差。
原理： 无论绝对位置m和n是多少，只要它们的相对距离不变，内积计算出的角度差 $(n−m)$就不变。这让模型能通过一次学习推广到任何位置。

解决“长序列外推”能力差问题

针对对象： 可学习的位置编码 (Learned Embedding)。
问题： 训练时最大长度（如 2048）限制了推理能力。推理时一旦超过该长度，查表越界（没有对应的训练参数），模型直接失效。
RoPE 解决： 基于数学函数。
原理： 函数具有周期性和数学连续性。即使位置索引超过了训练时的最大值，公式依然可算且保持规律，使模型能泛化到更长的序列。

远程衰减--解决“远程关注噪音”问题

针对对象： 标准 Attention 机制。
问题： 模型在处理超长文本时，难以自然地降低对极远距离、无关 Token 的关注度（缺乏远程衰减）。
RoPE 解决： 多频震荡抵消。
原理： 当两个 Token 距离很远（ $n−$很大）时，由于 $m$的频率不同，各个维度上的旋转在做内积求和时，正负值会相互抵消，导致 Attention 分数自然变小。这意味着 RoPE 天然赋予了模型一种“局部偏置” (Local Bias)，让模型更倾向于关注附近的上下文，这非常符合人类语言和视觉的习惯。

解决“KV Cache 推理效率”问题

针对对象： 相对位置编码 (RPE)（如 T5）。
问题： 相对距离是动态的。推理时每生成一个新词，Cache 中所有历史 Token 距当前词的距离都变了，必须重新查表计算 Bias 并加到矩阵上，无法做纯粹的矩阵乘法。
RoPE 解决： 位置注入向量。
原理： 位置信息在存入 Cache 前就已经通过旋转“刻”进 Key 向量了。推理时，只需拿当前的 Query 和 Cache 里的 Key 直接做矩阵乘法，相对位置关系会自动通过数学性质解算出来，无需额外的查表开销

4.3. 2D-ROPE

4.3.1. 计算流程

输入 (Input)
- 特征张量 $X$：形状为 (B, L, D)。
- 高度索引 $P_{h}$：形状为 (B, L)。例如 [0,0,0, 1,1,1...] (代表行号)。
- 宽度索引 $P_{w}$：形状为 (B, L)。例如 [0,1,2, 0,1,2...] (代表列号)。
参数含义 (Parameters)
- Split Ratio：切分比例，通常是 50% : 50%。即前一半维度给高度，后一半给宽度。
如何计算 (Calculation)
- 切分 (Split)：将 $X$ 在最后一个维度 $D$ 上切开：
- \[X_{height} = X[\ldots, 0 : D/2]\]
- \[X_{width} = X[\ldots, D/2 : D]\]
- 独立旋转 (Rotate Independently)：
- 使用 $P_{h}$ 对 $X_{height}$ 进行标准的 1D-RoPE 计算。
- 使用 $P_{w}$ 对 $X_{width}$ 进行标准的 1D-RoPE 计算。
- 拼接 (Concat)：
- $X_{out} = \text{Concat}(X'_{height}, X'_{width}, \text{dim}=-1)$。
输出 (Output)
- $X_{out}$：形状 (B, L, D)。此时向量的前半部分包含垂直位置信息，后半部分包含水平位置信息。

4.3.2. 解决问题

核心场景： 处理动态分辨率的图像。

问题 1：一维拉平破坏了“二维空间邻接性”

痛点：传统方法把图片按行扫描变成一维长条。
- 在二维网格中，点 $(0,0)$ 和点 $(1,0)$ 是紧挨着的（垂直邻居）。
- 但在拉平后，如果图片宽度是 100，它俩的索引分别是 0 和 100。
- 后果：模型很难理解“索引差 100 的两个点其实是邻居”，空间结构被打乱了。
解决：2D-RoPE 通过将向量切分为 $h, w$ 两部分，分别编码。
- 无论怎么拉平，垂直邻居在 $h$ 分量上的角度差永远是 $\theta_{0}$，在 $w$ 分量上的角度差永远是 0。几何关系被物理保留了。

问题 2：动态分辨率导致的“相对位置错乱”

痛点：Qwen2-VL 的核心卖点是支持任意分辨率。
- 情况 A：输入一张 $200 \times 200$ 的图。垂直邻居的索引差是 200。
- 情况 B：输入一张 $400 \times 400$ 的图。垂直邻居的索引差变成了 400。
- 后果：如果用 1D-RoPE，模型会困惑：“到底索引差 20 是邻居，还是差 40 是邻居？”这导致模型无法适应变化的图片尺寸。
解决：2D-RoPE 直接使用网格坐标 $(h, w)$。
- 无论图片多大，垂直邻居的坐标差永远是 $\Delta h=1, \Delta w=0$。
- 模型因此具备了“分辨率无关性”，可以处理任意长宽比的图片。

4.4. M-ROPE

4.4.1. 计算流程

输入 (Input)
- 特征张量 X：形状为 $(B, L, D)$。
- 时间索引 $P_{t}$： $(B, L)$。视频帧号（图片/文本设为常数或序列号）。
- 高度索引 $P_{h}$： $(B, L)$。空间行号。
- 宽度索引 $P_{w}$： $(B, L)$。空间列号。
如何计算 (Calculation)
- 三路切分 (Split into 3)：将 $X$ 沿 $D$ 维切成三份：
- \[X_{t} = X[\ldots, 0 : D_{t}]\]
- \[X_{h} = X[\ldots, D_{t} : D_{t}+D_{h}]\]
- \[X_{w} = X[\ldots, D_{t}+D_{h} : D]\]
- 三路并行旋转 (Parallel Rotation)：
- $X'_{t} = \text{RoPE}(X_{t}, P_{t})$ —— 注入时间信息。
- $X'_{h} = \text{RoPE}(X_{h}, P_{h})$ —— 注入高度信息。
- $X'_{w} = \text{RoPE}(X_{w}, P_{w})$ —— 注入宽度信息。
- 拼接 (Concat)：
- $X_{out} = \text{Concat}(X'_{t}, X'_{h}, X'_{w}, \text{dim}=-1)$。
输出 (Output)
- $X_{out}$：形状 (B, L, D)。
- 该向量现在是一个“全息”位置载体：
  - 计算 Attention 时，如果在时间上不同（帧不同），$X'_{t}$ 部分会产生角度差。
  - 如果在空间上不同（像素位置不同），$X'_{h}$ 和 $X'_{w}$ 部分会产生角度差。

4.4.2. 解决问题

核心场景： 统一处理 文本、图像、长视频 的混合输入。

问题 1：多模态数据的“维度不兼容”

痛点：
- 文本是 1D 的（只有前后）。
- 图片是 2D 的（有高宽）。
- 视频是 3D 的（有时空）。
- 以前的模型通常需要给每种模态设计不同的编码器，或者暴力地全部压成 1D，导致时空信息混杂，模型难以学习。
解决：M-RoPE 建立了一个统一的 $(t, h, w)$ 三维坐标系。
- 文本用 $(i, i, i)$ 模拟 1D。
- 图片用 $(1, h, w)$ 模拟 2D。
- 视频用 $(t, h, w)$ 模拟 3D。
- 结果：所有模态的数据都可以在同一个 Embedding 空间里从容交互，不需要切换编码方式。

问题 2：长视频的“索引爆炸”与“外推失败” (The Extrapolation Problem)

痛点：视频产生的 Token 数量极多。
- 假设一个视频有 1000 帧，每帧 256 个 Token，总 Token 数 = 256,000。
- 如果用 1D 索引，位置号 $pos$ 会一直飙升到 250,000+。
- RoPE 的弱点：当推理时的位置索引 $m$ 远超训练时的最大索引（比如训练时只见过 32k），$\cos(m\theta)$ 的旋转角度会变得非常陌生，模型性能急剧下降。
解决：M-RoPE 采用了 “分治策略” (Decomposition)。
- 虽然总 Token 有 25万个，但我们把索引拆开了：
  - 时间索引 $t$ 可能只到 1000。
  - 高度索引 $h$ 可能只到 16。
  - 宽度索引 $w$ 可能只到 16。
- 结果：每一个分量上的索引数值都非常小（都在模型训练见过的”舒适区”内）。
- 优势：这让模型能够理解比训练时长得多的视频（因为 $t$ 增加只会导致时间分量的旋转，而不会破坏空间分量的感知），实现了强大的长距离外推能力。

5. 总结与展望

5.1. 完整的技术演进脉络

位置编码的发展史是一部不断加深对”位置”和”距离”理解的历程。从简单的可学习向量，到周期函数，再到旋转矩阵，最后到统一的多维时空坐标系，每一步都解决了前一代方案的根本限制：

方案	核心机制	主要优势	关键局限	代表模型
Learned APE	查表取位置向量	灵活性高	无外推，参数多，缺乏平移不变性	BERT, GPT-2
Sinusoidal APE	三角函数	零参数，有外推	隐式相对性，长序列下远程衰减差	Transformer, GPT-3
Relative PE	相对距离偏置	显式相对，自然高效	破坏 KV Cache，推理成本高	T5, Transformer-XL
RoPE (1D)	旋转矩阵	绝对形式、相对效果、KV Cache友好	单维设计，难以直接扩展到多模态	LLaMA, Qwen-LM
2D/M-RoPE	多维旋转分解	统一多模态坐标系、强大外推	实现复杂，频谱分布需优化	Qwen2-VL, Qwen2.5-VL

5.2. 关键设计原则

从这些演进中，我们可以提炼出几条关键的设计原则：

显式优于隐式：从隐含的三角函数关系到显式的旋转矩阵，从相对距离偏置到绝对位置旋转，显式的数学表示能让模型更容易学习。
正交性保证稳定性：RoPE 之所以成功，关键在于旋转矩阵是正交的，不改变向量模长，天然保护了训练稳定性。
统一的坐标系胜于多套编码方案：M-RoPE 用一套三维坐标系 (t, h, w) 统一处理文本、图像、视频，比为每种模态设计不同编码器更优雅、更高效。
分解而非拼接：M-RoPE 的成功在于将高维问题分解成多个低维旋转，而不是简单地拼接不同模态的编码。这既保留了每个维度的完整频谱，也保证了外推能力。

5.3. 未来方向

当前的位置编码设计已经相当成熟，但仍有未来的探索空间：

自适应频率：不同的任务可能需要不同的频率分布（如密集物体检测 vs 长距离推理），能否动态调整 $\theta_i$ 的基座？
显式时间戳与隐式时间编码的融合：Qwen3-VL 引入的显式文本时间戳很直观，但能否进一步结合 RoPE 的数学优雅性？
多粒度位置的层次化表示：目前大多数方案把所有信息都编码到位置 ID 中，能否设计分层结构来区分”全局位置” vs “局部位置”？
位置编码与注意力机制的共同设计：RoPE 本身是与 Dot-Product Attention 绑定的。对于其他注意力变体（如线性注意力、稀疏注意力），应如何重新设计位置编码？

6. 延伸阅读

若你对本文涉及的位置编码技术感兴趣，以下资源值得深入阅读：

深度理论讲解 (中文)

科学空间：旋转位置编码（RoPE） —— RoPE 一作苏剑林的详细推导与直观讲解。
科学空间：位置编码与长度外推 —— 长序列外推问题分析。
科学空间：多维旋转位置编码的推广 —— M-RoPE 的理论推导与应用。

本文为论文阅读笔记和技术深度解读，如有疏漏欢迎指正。

从 Qwen-VL 到 Qwen3-VL：多模态大模型的四代进化之路

2026-03-24T00:00:00+00:00

TL;DR: 本文系统梳理了 Qwen-VL 系列四代视觉语言模型的技术演进——从基础的视觉-语言对齐（Qwen-VL），到原生动态分辨率与多模态位置编码（Qwen2-VL），再到工程级推理效率优化（Qwen2.5-VL），最终走向更深层的视觉-语言融合（Qwen3-VL）。

多模态大模型（Multimodal Large Language Models, MLLMs）正在成为 AI 领域最活跃的研究方向之一。在众多视觉语言模型中，阿里巴巴的 Qwen-VL 系列以其清晰的迭代路径和扎实的工程设计备受关注。从 2023 年初代 Qwen-VL 的发布到 2025 年 Qwen3-VL 的亮相，四代模型在架构设计、位置编码方案和训练策略上展现出一条连贯且富有洞见的演进主线。本文将沿时间线逐一解析每代模型的核心技术贡献。全文结构如下：

章节	模型	核心关键词
Part I	Qwen-VL (2023)	三阶段渐进训练、视觉-语言对齐、多任务统一
Part II	Qwen2-VL (2024)	M-RoPE、3D卷积、原生动态分辨率
Part III	Qwen2.5-VL (2025)	窗口注意力、动态FPS、拒绝采样与CoT
Part IV	Qwen3-VL (2025)	Interleaved MRoPE、DeepStack、显式时间戳

1. Part I: Qwen-VL —— 奠基之作（2023）

Qwen-VL 是整个系列的起点。基于 Qwen-7B 语言模型，它最核心的贡献并非某项单点技术突破，而是建立了一套三阶段渐进式训练范式——先对齐（Align）、再增强（Enhance）、后对话（Chat）。这一训练哲学深刻影响了后续所有版本的设计。

1.1. 核心训练思想：渐进式能力构建

先对齐 (Align)：在第一阶段，让模型建立最基础的“图像-文本”映射关系。
再增强 (Enhance)：在第二阶段，通过更复杂、更精细的任务，赋予模型高级技能，如定位、识别文字等。
后对话 (Align with Humans)：在第三阶段，将模型的能力与人类的交互习惯对齐，使其成为一个好用的对话助手。

1.2. 阶段一：预训练 (Stage 1: Pre-training)

🎯 目标: 建立基础的视觉-语言对齐 (Basic Vision-Language Alignment)。
🧱 数据构造 (Data Construction):
- 来源: 主要使用大规模、噪声较大的网页抓取图文对，如 LAION、DataComp、Coyo 等。论文中提到，经过清洗后使用了约 14亿 个图文对。
- 特点: 数据量巨大，但标签质量参差不齐（“弱标签”）。例如，一张图片可能只配了几个简单的关键词作为描述。
- 格式: 这是最简单的数据格式。每个训练样本由一张图片和一段对应的文本描述组成。在输入给模型时，格式如下：
[视觉特征序列] [文本描述]
- : 特殊标记，用于告诉LLM被包裹在中间的是视觉信息。
- [视觉特征序列]: 图片经过视觉编码器和适配器处理后得到的256个向量。
- [文本描述]: 与图片配对的文本。
- : 文本结束标记。
⚙️ 训练方法与目标达成:
- 模型状态: 冻结 (Freeze) 大语言模型 (LLM)，只训练视觉编码器 (ViT) 和 视觉-语言适配器。
- 为什么冻结LLM?:
  - 效率: 训练整个大模型的成本极高。只训练较小的视觉部分可以大幅提升训练速度。
  - 稳定性: 强大的预训练LLM已经具备了丰富的世界知识和语言能力。如果一开始就用噪声很大的网页数据去训练它，可能会破坏其原有的知识结构。冻结LLM可以保护它不被“污染”。
- 训练任务: 文本生成 (Text Generation)。具体来说，是自回归预测。模型在接收到图像特征后，需要逐字预测出对应的文本描述。
- 损失函数: 交叉熵损失 (Cross-Entropy Loss)。

1.3. 阶段二：多任务预训练 (Stage 2: Multi-task Pre-training)

🎯 目标: 注入高级和细粒度的视觉能力 (Injecting Advanced & Fine-grained Skills)。
- 在第一阶段的基础上，让模型从“看得懂大概”进化到“看得清细节”。这包括理解物体在图片中的具体位置、识别图片中的文字、理解图表等。
🧱 数据构造 (Data Construction):
- 来源: 使用多种高质量、人工标注的数据集，涵盖了7种不同的任务。
  - 黑色文本 (Prefix Sequence without loss): 这部分是模型的输入或上下文提示 (Prompt)。
  - 蓝色文本 (Ground Truth Labels with loss): 这部分是模型的学习目标或正确答案 (Ground Truth)。
- 格式: 针对不同任务，设计了不同的文本格式，核心是将所有任务都统一为序列到序列的文本生成问题。
  - Image Captioning (图像描述)
    1. 输入 (黑): …Generate the caption in English: (图像 + 生成描述的指令)
    2. 目标 (蓝): the beautiful flowers for design. (一句描述性的话)
    3. 解读: 这是最基础的任务。模型学习根据指令为图片生成一句通顺的描述。
  - Vision Question Answering (视觉问答)
    1. 输入 (黑): …Does the bandage have a different color than the wrist band? Answer: (图像 + 问题)
    2. 目标 (蓝): No, both the bandage and the wrist band are white. (问题的答案)
    3. 解读: 模型学习理解关于图像内容的问题，并生成相应的回答。
  - OCR VQA (基于文字的视觉问答)
    1. 输入 (黑): …What is the title of this book? Answer: (图像 + 关于图中文字的问题)
    2. 目标 (蓝): Asi Se Dice!, Volume 2: … (Spanish Edition) (从图中识别出的文字作为答案)
    3. 解读: 这是VQA的变种，要求模型具备OCR能力，能够“阅读”并理解图片中的文字来回答问题。
  - Caption with Grounding (带定位的描述)
    1. 输入 (黑): …Generate the caption in English with grounding: (图像 + 生成带定位描述的指令)
    2. 目标 (蓝): Beautiful shot of bees(...) gathering nectars from an apricot flower(...)
    3. 解读: 这是高级能力。模型不仅要生成描述，还要在描述中用特殊标签 ... 标记出物体，并紧接着用 (坐标) 生成其在图中的边界框坐标。这教会了模型将语言概念（如“蜜蜂”）和视觉空间位置联系起来。
  - Referring Grounding (指代定位)
    1. 输入 (黑): …the ear on a giraffe (图像 + 一个物体的文字描述)
    2. 目标 (蓝): (176,106),(232,160) (该物体的边界框坐标)
    3. 解读: 这个任务反了过来。模型接收一个物体的描述，它的任务就是直接生成这个物体的位置坐标。这直接训练了模型的定位能力。
  - Grounded Captioning (基于定位的描述)
    1. 输入 (黑): …This(360,542),(476,705) is (图像 + 一个边界框)
    2. 目标 (蓝): Yellow cross country ski racing gloves (对框内物体的描述)
    3. 解读: 这再次反转了任务。模型看到一个特定的区域，需要描述出这个区域里是什么。这训练了模型对局部图像的细粒度理解能力。
  - OCR (光学字符识别)
    1. 输入 (黑): …OCR with grounding: (图像 + OCR指令)
    2. 目标 (蓝): It is managed (...)…
    3. 解读: 类似于带定位的描述，但专门针对文字。模型需要生成识别出的文本，并用 (四点坐标) 给出文字的精确位置（使用四边形坐标是为了处理倾斜或透视的文本）。
  - 纯文本数据: 这一阶段也混合了大量的纯文本数据。目的是为了防止灾难性遗忘 (Catastrophic Forgetting)，确保模型在学习视觉能力的同时，不会丢失其原有的强大语言能力。
⚙️ 训练方法与目标达成:
- 模型状态: 解锁 (Unfreeze) 整个模型。视觉编码器、适配器和LLM全部参与训练。
- 为什么全部训练?: 因为这些高级任务（如定位和推理）需要视觉和语言深度融合。LLM不仅要知道图片里有什么，还需要理解空间关系、文本指令的意图，这要求LLM自身也进行微调，以更好地整合来自适配器的细粒度视觉信息。
- 训练任务: 统一的文本生成任务。无论是回答问题、生成坐标还是识别文字，都被模型视为生成一个特定的文本序列。
- 损失函数: 仍然是交叉熵损失 (Cross-Entropy Loss)。

1.4. 阶段三：监督微调 (Stage 3: Supervised Fine-tuning, SFT)

🎯 目标: 对齐人类意图，优化对话能力 (Aligning with Human Intent for Dialogue)。
- 让模型从一个强大的“能力集合”转变为一个易于使用的“对话助手”（即Qwen-VL-Chat）。模型需要学会理解指令、遵循对话流程、并以自然、有帮助的方式回答。
🧱 数据构造 (Data Construction):
- 来源: 高质量的多模态指令遵循和对话数据集。部分数据由人工编写，部分通过更强大的模型（如GPT-4）辅助生成（即“LLM自指令”）。
- 特点: 数据形式为多轮对话，可能包含一张或多张图片。
- 格式: 采用特定的对话格式，如论文中提到的ChatML格式。codeCode

⚙️ 训练方法与目标达成:
- 模型状态: 再次冻结 (Freeze) 视觉编码器，只训练适配器和大语言模型 (LLM)。
- 为什么冻结视觉编码器?: 经过前两个阶段，视觉编码器已经能够很好地提取图像特征了。这个阶段的重点是调整模型的“行为”和“说话方式”，这是LLM的任务，所以只需要微调语言相关的部分。
- 训练任务与损失函数: 同样是使用交叉熵损失的文本生成任务，但有一个关键区别：在训练期间，我们通过只监督（计算损失）答案和特殊标记（示例中的蓝色部分），而不监督角色名称或问题提示，来确保预测和训练分布的一致性。

Part I 小结： Qwen-VL 通过三阶段渐进式训练，首次为 Qwen 系列建立了完整的视觉-语言能力体系。但它也留下了几个关键瓶颈：固定的图像分辨率（所有图片都被 resize 到 448×448）限制了细粒度感知，缺乏原生视频理解能力，以及绝对位置编码在多模态场景下的局限性。这些问题，正是下一代 Qwen2-VL 要着力解决的。

2. Part II: Qwen2-VL —— 原生动态分辨率与多模态位置编码（2024）

2.1. 相对于qwen-vl的创新：

去除了原始的绝对位置嵌入，并引入了 2D-RoPE，来捕获图像的二维位置信息，支持Native Dynamic Resolution
M-RoPE (Multimodal Rotary Position Embedding)，
3D 卷积： 引入深度为 2 的 3D 卷积来处理视频输入，将 2D patches 变为 3D tubes。这意味着模型一次可以处理视频中的连续帧，而不是单帧，增强视频理解能力并支持长视频
多语言能力的提升

Qwen2-VL 对架构进行了大刀阔斧的改造。它不再满足于在 LLM 前面简单「接」一个视觉编码器，而是从位置编码的底层数学出发，构建了一套真正适配多模态数据的统一坐标体系。这一部分我们将从 RoPE 的基础原理讲起，逐步推导到 Qwen2-VL 的核心创新——M-RoPE。

2.2. M-ROPE

对一个单模态的 patch 进行编码，使其被映射到一个统一的‘多维时空坐标系’中，从而能够与视频、文本等其他模态的数据在同一个空间内进行对齐和交互。

2.2.1. 计算流程

输入 (Input)
- 特征张量 X：形状为 $(B, L, D)$。
- 时间索引 $P_t$： $(B, L)$。视频帧号（图片/文本设为常数或序列号）。
- 高度索引 $P_h$： $(B, L)$。空间行号。
- 宽度索引 $P_w$： $(B, L)$。空间列号。
如何计算 (Calculation)
- 三路切分 (Split into 3)：将 $X$ 沿 $D$ 维切成三份：
- \[X_t = X[\ldots, 0 : D_t)\]
- \[X_h = X[\ldots, D_t : D_t+D_h)\]
- \[X_w = X[\ldots, D_t+D_h : D)\]
- 三路并行旋转 (Parallel Rotation)：
- $X'_t = \text{RoPE}(X_t, P_t)$ —— 注入时间信息。
- $X'_h = \text{RoPE}(X_h, P_h)$ —— 注入高度信息。
- $X'_w = \text{RoPE}(X_w, P_w)$ —— 注入宽度信息。
- 拼接 (Concat)：
- $X_{out} = \text{Concat}(X'_t, X'_h, X'_w, \text{dim}=-1)$。
输出 (Output)
- $X_{out}$：形状 (B, L, D)。
- 该向量现在是一个“全息”位置载体：
  - 计算 Attention 时，如果在时间上不同（帧不同），$X'_t$部分会产生角度差。
  - 如果在空间上不同（像素位置不同），$X'_h$ 和 $X'_w$ 部分会产生角度差。

2.2.2. 解决问题

2.2.2.1. 多模态数据的”维度不兼容”

痛点：
- 文本是 1D 的（只有前后）。
- 图片是 2D 的（有高宽）。
- 视频是 3D 的（有时空）。
- 以前的模型通常需要给每种模态设计不同的编码器，或者暴力地全部压成 1D，导致时空信息混杂，模型难以学习。
解决：M-RoPE 建立了一个统一的 $(t, h, w)$ 三维坐标系。
- 文本用 $(i, i, i)$ 模拟 1D。
- 图片用 $(1, h, w)$ 模拟 2D。
- 视频用 $(t, h, w)$ 模拟 3D。
- 结果：所有模态的数据都可以在同一个 Embedding 空间里从容交互，不需要切换编码方式。

2.2.2.2. 长视频的“索引爆炸”与“外推失败” (The Extrapolation Problem)

痛点：视频产生的 Token 数量极多。
- 假设一个视频有 1000 帧，每帧 256 个 Token，总 Token 数 = 256,000。
- 如果用 1D 索引，位置号 $m$ 会一直飙升到 250,000+。
- RoPE 的弱点：当推理时的位置索引 $m$ 远超训练时的最大索引（比如训练时只见过 32k）， $\cos(m\theta)$ 的旋转角度会变得非常陌生，模型性能急剧下降。
解决：M-RoPE 采用了 “分治策略” (Decomposition)。
- 虽然总 Token 有 25万个，但我们把索引拆开了：
  - 时间索引 $t$ 可能只到 1000。
  - 高度索引 $h$ 可能只到 16。
  - 宽度索引 $w$ 可能只到 16。
- 结果：每一个分量上的索引数值都非常小（都在模型训练见过的“舒适区”内）。
- 优势：这让模型能够理解比训练时长得多的视频（因为 $t$ 增加只会导致时间分量的旋转，而不会破坏空间分量的感知），实现了强大的长距离外推能力。

2.2.3. 3D卷积–时空降采样 (Temporal Downsampling) 模块

2.2.3.1. 目的

核心目的是 压缩 Token 数量，提升计算效率。

无损压缩：视频中相邻的两帧通常非常相似（比如背景不动，只有人在动）。如果每一帧都独立编码，会有大量的信息冗余。
减半序列长度：通过 3D 卷积，模型将 2 个时间帧 融合成 1 个特征向量（Token）。
- 结果：在同样的 Token 预算（显存限制）下，Qwen2-VL 可以读取 2倍时长 的视频。或者说，处理同样时长的视频，它的计算量减少了一半

2.2.3.2. 实现

传统 ViT (2D 处理)：处理视频时，通常是一帧一帧处理。每帧图片被切成 $14 \times 14$ 的小方块（Patches）。
- 第 1 帧 -> 产生 N 个 Token。
- 第 2 帧 -> 产生 N 个 Token。
- 总 Token 数 = 帧数 $\times$ N。
Qwen2-VL 的 3D 卷积 (3D 处理)：它使用了一个 深度为 2 (Depth = 2) 的 3D 卷积核。这意味着它一次性”吐揉”时间上相邻的两帧画面。它不再提取平面的 Patch，而是提取立体的 “3D Tube” (时空管)。这个 Tube 的维度是：$2 \times 14 \times 14$

2.3. 训练

2.3.1. 核心训练原则

训练目标：Next-Token Prediction（下一词预测）。
损失计算 (Loss)：仅计算文本 Token 的交叉熵损失，视觉 Token 被 Mask 掉（权重为0）。
初始化：
- LLM：使用 Qwen2 (1.5B/7B/72B) 初始化。
- ViT：初始化自 DFN，但去掉了绝对位置编码，改为 2D-RoPE。

2.3.1.1. 第一阶段：视觉编码器预训练 (ViT Training)

目标：让视觉编码器（ViT）学会“看图”，并与 LLM 的语义空间对齐。
参数状态：
- 训练：ViT + Adapter。
- 冻结：LLM。
数据：600B tokens，大规模弱标注的图像-文本对。
关键点：ViT 开始适应 2D-RoPE 机制。

2.3.1.2. 第二阶段：全参数预训练 (Full Parameter Pre-training)

目标：提升细粒度视觉感知（如 OCR、图表）及视频理解能力。
参数状态：全参数解冻（ViT + LLM + Adapter 全部参与训练）。
数据：800B tokens（累计 1.4T）。
- 类型丰富：混合图文、OCR 数据、交错图文文章、视频数据。
- 混入纯文本数据以维持语言能力。
关键机制启用：
- Naive Dynamic Resolution：输入任意分辨率图片。
- M-RoPE：统一处理图/文/视频位置信息。
- 3D 卷积：将图片复制为两帧，或将视频两帧压为一组，统一输入接口。

2.3.1.3. 第三阶段：指令微调 (Instruction Fine-tuning)

目标：对齐人类意图，获得对话、指令遵循及 Agent 能力。
参数状态：
- 冻结：ViT（认为感知能力已足够）。
- 训练：LLM。
数据：ChatML 格式对话数据。
- 包含：多模态对话、长视频问答、Agent 操作序列、纯文本指令。
Loss 特性：进一步 Mask 掉 <|im_start|>user 部分，仅计算 Assistant 回复的 Loss。

Part II 小结： Qwen2-VL 实现了从初代到真正多模态原生模型的跨越——M-RoPE 统一了文本、图像、视频的位置编码体系，3D 卷积将视频处理效率提升了一倍，原生动态分辨率让模型彻底摆脱了固定尺寸的束缚。然而，随着输入分辨率的提升，ViT 全局注意力的二次复杂度成为新的瓶颈，同时模型在长视频场景下的时间感知仍依赖相对帧索引，缺乏对真实物理时间的理解。

3. Part III: Qwen2.5-VL —— 工程优化与训练范式的全面升级（2025）

3.1. 相对于Qwen2-VL的核心创新

窗口注意力机制，以优化推理效率
动态FPS采样，将动态分辨率扩展到时间维度，从而能够全面理解各种采样率下的视频
通过与绝对时间对齐，升级了时间域中的MRoPE，从而促进了更复杂的时间序列学习

3.2. 窗口注意力机制 (Window Attention)

为了解决高分辨率图像处理中计算复杂度爆炸的问题。传统 ViT 的全局注意力复杂度是 $O(N^2$，而窗口注意力将其降低为 $O(N$（线性）。

3.2.1. 实现原理与计算流程

Step 1: 动态分辨率输入与切片 (Patching)

输入： 假设输入图像为 $H \times W$。Qwen2.5-VL 强制将 $H, W$ resize 为 28 的倍数。
切片： Patch Size 为 $14 \times 14$。
Token 数量： 总 Token 数 $L = (H/14) \times (W/14)$。
维度变化： 输入 $(1, 3, H, W) \rightarrow \text{Flatten Patch} \rightarrow (1, L, D)$，其中 $D$ 是 Hidden Size (如 1280)。Step 2: 窗口划分 (Window Partitioning)
参数含义：
- Window Size (像素级): $112 \times 112$。
- Window Size (Patch级): $112 / 14 = 8$。即每个窗口包含 $8 \times 8 = 64$ 个 Patch。
逻辑： 将整张图的 Token 矩阵切分成多个不重叠的窗口。
计算： 窗口数量 $N_{win} = \frac{L}{8 \times 8} = \frac{L}{64}$。
维度变化： $(1, L, D) \rightarrow (N_{win}, 64, D)$。*注意：原来的 Batch Size 1 变成了 N_{win}，相当于把每个窗口当作一个独立的”小图片”并行处理。

Step 3: 局部注意力计算 (Local Attention)

推理： 在每个 $64 \times 64$ 的窗口内部计算 Self-Attention。

\[\text{Attention}(Q, K, V) = \text{Softmax}(\frac{QK^T}{\sqrt{d_k}})\]

复杂度： $N_{win} \times (64)^2$。因为 $N_{win}$ 与 $L$ 成正比，所以整体复杂度随图像面积线性增长，不再是指数级。

Step 4: 全局信息交互 (Global Interaction)

如果只做窗口注意力，窗口之间无法传递信息。
实现： Qwen2.5-VL 在特定的层（索引为 {7, 15, 23, 31} 的层）保留了全注意力 (Full Self-Attention)。
作用： 在这些层，不做窗口划分，让全图 Token 交互，打通全局语义。

3.3. 动态FPS采样 (Dynamic FPS Sampling)

为了让模型能够原生处理视频的时间维度，而不受固定帧率的束缚。

3.3.1. 实现原理与计算流程

Step 1: 3D Tube 处理单元

参数含义：
- 空间 Patch: $14 \times 14$。
- 时间 Stride: 2（即每 2 帧聚合一次）。
实现： 以前处理图片是 2D Patch，现在处理视频是 3D Tube。
计算： 取视频中连续的 2 帧，在相同空间位置切出的 Patch 组合成一个 Token。
维度变化：
- 假设视频采样了 $T$ 帧，分辨率 $H \times W$。
- 总 Patch 数并不是 $T \times (H/14) \times (W/14)$。
- 而是 $\frac{T}{2} \times (H/14) \times (W/14)$。
意义： Token 数量减半，计算效率提升一倍，且单个 Token 包含了短时间（2帧）内的动态变化信息。

Step 2: 动态采样策略

推理： 模型不强制要求固定的 FPS（如必须 1fps）。它可以接受 0.5fps 的慢节奏视频，也可以接受 2fps 的快节奏视频。
实现： 将采样到的帧序列视为一个长序列输入，结合下文提到的“绝对时间编码”来告知模型每两帧之间的时间跨度

3.4. 绝对时间 MRoPE (Multimodal Rotary Position Embedding with Absolute Time)

背景：Qwen2-VL 的相对做法 vs Qwen2.5-VL 的绝对做法

Qwen2-VL (旧版): 给帧打标签为 Frame ID: 0, 1, 2…
- 问题： Frame 1 到 Frame 2 是过了 0.1秒还是 10秒？模型不知道。
Qwen2.5-VL (新版): Frame ID 直接映射到绝对时间戳。

3.4.1. 实现原理与计算流程

Step 1: 位置编码分解 (Decomposition) MRoPE 将位置编码分为三个正交的部分：

Temporal (时间): $ID_t$
Height (高度): $ID_h$
Width (宽度): $ID_w$

Step 2: 绝对时间对齐 (Alignment) 对于第 $i$ 帧，其时间位置 ID 不是简单的 k，而是：$ID_t = \text{Round}(t_{abs} \times v)$，其中 $t_{abs}$: 某一帧在视频中的真实时间（秒），$v$: 帧率（例如每秒对应多少个 ID 单位）。

示例： $v=2$
- 帧1 (0.0s): $ID_t = 0$
- 帧2 (0.5s): $ID_t = 1$
- 帧3 (2.0s): $ID_t = 4$
推理差异： 在传统的 Transformer 中，位置 ID 通常是连续的 $(0, 1, 2)$。但在 Qwen2.5-VL 处理视频时， $ID_t$ 序列可能是跳跃的 $(0, 12, 48)$。

Step 3: 旋转应用 (Rotation)

在 Attention 计算 $Q, K, V$ 时，分别对特征向量的不同部分应用旋转：
- 向量的前一部分应用 $ID_t$ 的旋转矩阵。
- 中间部分应用 $ID_h$ 的旋转矩阵。
- 后一部分应用 $ID_w$ 的旋转矩阵。
推理效果： 当计算 Attention Score $QK^T$ 时，由于 RoPE 的相对位置特性，模型感知到的”距离”直接对应物理世界的”时间差”。
- 帧1和帧2的距离 $\Delta = 1$。
- 帧2和帧3的距离 $\Delta = 3$。
- 模型因此“知道”帧2到帧3的时间跨度比帧1到帧2长得多，从而理解了视频的节奏（Tempo）。

3.5. 总结：三者如何协同工作？

输入端： 视频被切分为 2 帧一组的 3D Tubes（动态FPS采样）。
位置编码： 每个 Tube 根据其代表的真实秒数，被赋予跳跃的、真实的绝对时间 ID（MRoPE）。
编码器： 这些 Token 进入 ViT，在大部分层中只在 $8 \times 8$ 的窗口内计算注意力（Window Attention），极低成本地提取特征，只在少数几层进行全局时空信息融合。

3.6. 与Swin Transformer “移动窗口（Shifted Window）”注意力的不同

3.6.1. 核心区别：信息的“跨窗口”交互方式

Swin Transformer 的方式 (Shifted Window):
- 为了让不同窗口之间的信息能够交流，Swin 采用交替策略：第 $l$ 层使用标准窗口，第 $l+1$ 层使用移动窗口（Shifted Window）。
- 通过移动窗口的重叠部分，信息在下一层传播到相邻窗口。它从未真正进行过全图的 Full Attention。
Qwen2.5-VL 的方式 (Interleaved Full Attention):
- 它不使用移动窗口。它的窗口在大部分层是固定的（不重叠，不移动）。
- 为了解决“窗口之间信息不互通”的问题，它每隔几层插入一个全全局注意力（Full Self-Attention）层。
- 机制： 在窗口层提取局部细节，在全注意力层进行一次彻底的全局信息交换。

3.6.2. 为什么不选 Swin 的 Shifted Window？

Qwen2.5-VL比 Swin 更适合Native Dynamic Resolution

动态分辨率的适配性：
- Swin Transformer 的 Shifted Window 在处理固定尺寸图片时很有效，但 Qwen2.5-VL 强调 Native Dynamic Resolution（原生动态分辨率），输入图片的宽高比千变万化。
- 在动态分辨率下实现“移动窗口”需要极其复杂的 Padding（填充）和 Masking（掩码）操作，尤其是当图片边缘切分不整齐时，计算效率会大打折扣。
- 相比之下，固定窗口 + 稀疏的全注意力层 实现起来更简单、高效，且利用 FlashAttention 等加速算子，那几个全注意力层的开销是完全可控的。
计算复杂度控制：
- 报告提到：“Only four layers employ full self-attention… computational cost scales linearly…”（只有四层使用全注意力…计算成本呈线性增长）。
- 这种设计在保留了 ViT 全局建模能力的“上限”（通过那4层全关注层）的同时，将整体 FLOPs 压低到了接近 Swin 的水平。

3.7. 训练

Qwen2.5-VL 的训练过程是一个从”视觉感知”到”多模态理解”再到”指令遵循与对齐”的递进过程。整个流程分为 预训练（Pre-training） 和 后训练（Post-training） 两大板块，共计 5 个关键阶段。

3.7.1. 预训练 (Pre-Training)

目标： 让模型学会”看”世界，并建立视觉与语言的基础连接。 数据规模： 从上一代的 1.2T 扩展到了 4.1T tokens。

阶段 1：ViT 初始对齐 (Visual Encoder Initialization)

训练对象： 只训练 Vision Transformer (ViT)，LLM 部分不参与或被冻结。
任务目标： 让重头设计（从零训练）的 ViT 具备将像素转化为语义特征的能力，并初步与语言空间对齐。
训练数据：
- 大量的基础图文对（Image-Caption）。
- 视觉知识数据（如百科图片）。
- OCR 数据（文字识别）。
关键点： 这是为了让 ViT 在进入复杂任务前，先学会提取“有意义”的视觉特征。

阶段 2：全参数多模态预训练 (Multimodal Pre-Training)

训练对象： 解冻所有参数（ViT + LLM 全量训练）。
任务目标： 建立视觉特征与语言逻辑的深度连接，让 LLM 真正理解 ViT 传进来的东西是什么。
训练数据： 数据变得更复杂、逻辑性更强。
- 图文交错数据 (Interleaved Image-Text): 类似网页截图或教材，图片和文字穿插出现，学习上下文关联。
- 视觉问答 (VQA): 一问一答。
- 多任务学习数据: 包括数学、代码等。
- 纯文本数据: 保持 LLM 的语言能力不退化。
序列长度： 此时上下文长度限制在 8,192 (8k)。

阶段 3：长上下文与高分辨率强化 (Long-Context Pre-Training)

训练对象： 全量训练 (ViT + LLM)。
任务目标： 解决“看不全”和“记不住”的问题，专门提升处理高分辨率大图、长视频和复杂推理的能力。
关键变化： 序列长度从 8k 扩展到 32,768 (32k)。
训练数据：
- 长视频 (Long Video): 需要跨度很大的时间记忆。
- Agent 数据: 多步操作的轨迹。
- 高分辨率文档: 需要细致的细节识别。
技术细节： 为了解决不同图片尺寸导致的计算负载不均衡，使用了动态打包 (Dynamic Packing) 技术，将不同长度的数据拼在一起塞进 GPU，保证计算效率。

3.7.2. 第二板块：后训练 (Post-Training)

目标： 让模型学会”听懂指令”，并符合人类的偏好（有用、无害）。

阶段 4：监督微调 (Supervised Fine-Tuning, SFT)

训练对象： 冻结 ViT，只微调 LLM。
- 原因： 经过预训练，ViT 的感知能力已经足够强，此时重点是教 LLM 如何根据视觉信息回答人类的特定指令。
数据格式： ChatML 格式（User/Assistant 对话），显式注入视觉 Embedding。
数据量与构成： 约 200万 (2M) 条数据。
- 50% 纯文本对话（保持语言能力）。
- 50% 多模态对话（图文、视频文）。
关键技术：数据过滤与增强
- 自动化过滤： 使用基于规则的方法（去除重复、破损数据）和基于模型的方法（用一个 72B 的模型给数据打分，剔除图文不相关的低质量数据）。
- 拒绝采样 (Rejection Sampling): 针对数学、代码等硬核推理任务。让模型生成多个答案，用 Ground Truth 验证，把答对且推理过程清晰的样本保留下来作为训练数据。这能显著增强思维链 (CoT) 能力。

阶段 5：直接偏好优化 (Direct Preference Optimization, DPO)

训练对象： 冻结 ViT，优化 LLM。
任务目标： 对齐人类价值观，减少幻觉，提升安全性。
训练数据： 偏好对数据（Preference Pairs）。
- 即：给模型同一个问题，提供两个回答（一个好 $y_w$，一个差 $y_l$），训练模型以此为目标优化。
策略： 仅针对图像-文本和纯文本数据进行 DPO。

3.7.3. 拒绝采样

简单来说，它的核心逻辑是：”广撒网，优中选优，以战养战”。通常我们也把它称为 Best-of-N 策略。

3.7.3.1. 通俗易懂的比喻

想象你要教一个学生（模型）解高难度的奥数题：

普通教学 (SFT): 你直接把标准答案抄给他看，让他背下来。
- 缺点： 学生可能只记住了答案，没学会中间的推理逻辑。
拒绝采样 (Rejection Sampling):
- 你让学生自己试着做这道题，允许他做100 遍，每次尝试不同的解题思路。
- 你拿着标准答案（Ground Truth）去批改。
- 其中 95 次都做错了，你直接拒绝（Reject） / 扔掉。
- 有 5 次做对了，而且步骤写得很清楚。
- 你把这 5 个“通过自己思考做对的完美步骤”整理出来，作为新的教材，让他重新学习。

3.7.3.2. Qwen2.5-VL 中具体的实施步骤

在论文中，这个过程主要针对 数学问题、代码生成 和 领域特定的 VQA 任务。 Step 1: 生成 (Generation)

使用一个中间版本的 Qwen2.5-VL 模型。
针对同一个问题（Prompt），让模型生成 $N$ 个不同的回答。
利用思维链 (Chain-of-Thought, CoT) 技术，强制模型一步步写出推理过程。

Step 2: 验证与筛选 (Verification & Rejection) 这是最关键的一步，如何判断这 $N$ 个回答哪个是好的？

硬性标准（答案正确性）： 拿 Ground Truth（标准答案）去比对。
- 比如数学题答案是 “42”，那么生成内容最后得出的也是 “42” 的保留，得不出 “42” 的统统拒绝 (Reject)。
- 代码题则运行一下代码，看能不能跑通测试用例。
软性标准（质量过滤）： 论文中提到，即使答案对了，有些回答质量也很差，需要过滤：
- Code-switching: 比如中英文夹杂得很乱的，拒绝。
- Repetitive patterns: 像复读机一样重复一句话的，拒绝。
- Excessive length: 废话连篇太长的，拒绝。

Step 3: 构造数据集 (Dataset Construction)

把经过筛选后留下的那些高质量、带推理过程、且答案正确的样本，加入到 SFT 的训练数据集中。

Step 4: 微调 (Fine-Tuning)

用这些“精选”出来的数据去微调模型。

3.7.3.3. 解决了两个痛点：

1. 标准答案通常太简略，缺乏“思维链”

数据现状： 很多数据集（如数学题库）只有 Question 和 Final Answer，没有中间的 step-by-step 推理过程。
拒绝采样的作用： 强迫模型自己把中间过程补全，并且通过答案验证来确保补全的过程是对的。这就自动生产了昂贵的 CoT 数据。

2. 消除“分布偏移” (Distribution Shift)

问题： 人类写的标准推理过程，有时候过于跳跃，或者用词习惯模型并不熟悉。模型“死记硬背”会很难受。
拒绝采样的作用： 既然是模型自己生成的（Self-generated），那么其语言风格、推理节奏完全符合模型自身的概率分布。模型学习“自己生成的高质量数据”比学习“人类写的数据”效率更高，效果更好。

3.7.3.4. CoT产生及其过滤

如何“强制”模型一步步写出推理过程？

依靠Prompt Engineering（提示工程）和Few-Shot Prompting（少样本提示）。

系统级指令 (System Prompting)在输入给模型的 Prompt 中，强行加入要求推理的指令。
普通指令： “图片里有几只猫？”
CoT 诱导指令： “请仔细观察图片，逐步思考（Think step-by-step）。首先，检测图片中所有的动物；其次，分辨哪些是猫；最后，数出猫的数量并给出最终答案。”
格式约束 (Format Enforcement)为了方便后续提取和清洗，通常会要求模型按照特定格式输出。示例格式：


第一步：识别图像左上角，发现一个红色物体...
第二步：根据形状判断这是一个苹果...
...


这是一个苹果

实现： 如果模型不按这个格式输出，程序可以直接报错并要求重试，或者在预训练微调阶段就让模型见过大量这种格式的数据。

少样本示范 (Few-Shot Demonstration)。Prompt 内容：

> 问题： 图中的三角形面积是多少？ > 回答： 首先，我看到底边长为4，高为3。根据三角形面积公式 1/2*底*高… 计算得出 1/2*4*3=6。答案是6。 > > 问题（当前任务）： 图中的圆形面积是多少？ > 回答： … (模型会模仿上面的语气和步骤开始写)

如何通过“软性标准”判断 CoT 的质量？

基于规则的过滤 (Rule-Based Filtering)

这些是写死在代码里的硬规则，用来快速剔除明显的垃圾数据。论文中明确提到的标准包括：

代码混用 (Code-switching):
- 烂 CoT： “First, 我们需要 calculate the area…“（中英文频繁无意义切换，语序混乱）。
- 判断： 检测句子中语言种类的切换频率，太高则丢弃。
重复模式 (Repetitive patterns):
- 烂 CoT： “因此我们得到3，因此我们得到3，因此我们得到3…”
- 判断： 使用 n-gram 算法检测文本重复率。
过度冗长 (Excessive length):
- 烂 CoT： 一个简单的加法写了 5000 字的废话。
- 判断： 设置 Token 长度阈值，或者计算“信息密度”。
格式错误: 没有按照标签闭合的，直接丢弃。

基于模型的过滤 (Model-Based Filtering) —— 查“逻辑分”

规则查不出逻辑漏洞，这时候需要用一个更强的模型（或同等级模型）作为“判卷老师”（Reward Model 或 Verifier）。Qwen2.5-VL 使用了自己的 72B 版本或专门训练的 Reward Model 来给生成的 CoT 打分。打分维度通常包括：

视觉-文本一致性 (Visual-Text Alignment): (这是 VLM 特有的)
- 烂 CoT： “因为图片左上角有一只蓝色的狗…“（实际上图里是一只红色的猫）。
- 判断： 判卷模型会同时看图和文字，发现文字描述与图片事实不符（幻觉），直接打低分剔除。这是最关键的一点，防止模型瞎编乱造。
逻辑连贯性 (Logical Coherence):
- 烂 CoT： “因为 1+1=2，所以天空是蓝色的。”（前后步骤没有因果关系）。
- 判断： 判卷模型评估 Step A 能否推导出 Step B。
有用性与安全性 (Helpfulness & Safety):
- 确保推理过程没有包含有害信息或绕弯子。

Part III 小结： Qwen2.5-VL 完成了一次全方位的工程升级：窗口注意力将 ViT 的计算复杂度从二次降为线性，动态 FPS 采样让时间维度实现了原生动态处理，绝对时间 MRoPE 赋予了模型真实的时间感知能力。在训练层面，拒绝采样机制大幅提升了推理数据质量和模型的 CoT 能力。Qwen3-VL 则在此基础上进一步探索更深层的视觉-语言融合机制。

4. Part IV: Qwen3-VL —— 走向更深层的视觉-语言融合（2025）

Qwen3-VL 不再仅仅满足于将视觉特征拼接到语言模型的输入端，而是让视觉信息真正的流入到 LLM 的每一层计算中。它的三项核心创新分别解决了位置编码、视觉融合深度和时间感知三个维度的问题。

4.1. 核心架构创新

4.1.1. Interleaved MRoPE（交错式多维旋转位置编码）

Qwen2.5-VL的做法： 使用标准的MRoPE。它将位置嵌入维度分块（chunking），分别分配给时间（t）、高度（h）和宽度（w）。
存在的问题： 这种分块方式会导致频谱不平衡（Imbalanced frequency spectrum）。即某些空间或时间维度只能接触到特定的频率范围，这会损害模型对长视频的理解能力。
Qwen3-VL的创新： 采用Interleaved MRoPE。
- 方法： 不再简单分块，而是将时间、高度、宽度的分量**交错（Interleave）**分布在整个嵌入维度中。
- 解决的问题： 确保了每个时空轴（t, h, w）都能均匀地覆盖低频和高频波段。这显著提升了模型在长视频理解和精细空间建模上的表现。

4.1.2. DeepStack（深层视觉融合机制）

Qwen2.5-VL的做法： 传统的视觉-语言对齐通常只使用Vision Transformer (ViT) 最后一层的输出，或者通过简单的MLP投影连接到LLM。
存在的问题： ViT的深层特征虽然语义丰富，但往往丢失了底层的细粒度视觉信息（如纹理、微小物体）。单层融合导致视觉信息损失。
Qwen3-VL的创新： 引入DeepStack机制（受Meng et al., 2024启发）。
- 方法： 从Vision Encoder（SigLIP-2）的不同层级（低层到高层）提取视觉Token。这些多层级的Token经过投影后，通过残差连接直接注入到LLM的前三层中。
- 解决的问题： 收紧了视觉与语言的对齐（Tighter alignment）。模型既能获得高层语义，又能保留低层视觉细节，且不增加额外的上下文长度（因为是并行注入而非串行拼接）。

4.1.3. Explicit Video Timestamp（显式文本时间戳）

Qwen2.5-VL的做法： 使用基于绝对时间的位置编码（Time-synchronized MRoPE）来表示时间。
存在的问题：
- 对于长视频，产生的位置ID非常大且稀疏，导致模型难以理解长跨度的时间上下文。
- 数据构建成本高，需要均匀采样帧率。
Qwen3-VL的创新： 采用基于文本的显式时间戳（Textual token-based time encoding）。
- **方法：**使用长度自适应采样 (Length-Adaptive Sampling)，并直接在视频帧组前插入文本格式的时间戳Token（例如 <3.0 seconds>）。训练时混合使用秒数和HMS（时:分:秒）格式，秒格式： "<125.5 seconds> HMS格式： "<00:02:05>"
- 解决的问题： 提供了更直接、更精确的时间感知能力，大幅提升了视频定位（Video Grounding）和密集描述（Dense Captioning）的能力，同时降低了对采样率的敏感度。

5. 总结与展望

5.1. 四代模型的技术演进脉络

回顾 Qwen-VL 系列的四代演进，可以清晰地看到一条从能看到看得好再到看得快且深的技术主线：

维度	Qwen-VL (2023)	Qwen2-VL (2024)	Qwen2.5-VL (2025)	Qwen3-VL (2025)
视觉编码器	ViT + 固定分辨率	ViT + 原生动态分辨率	ViT + 窗口注意力	SigLIP-2 + DeepStack
位置编码	绝对位置编码	M-RoPE (分块式)	M-RoPE + 绝对时间	Interleaved MRoPE
视频处理	不支持	3D卷积时空降采样	动态FPS采样	显式文本时间戳
训练范式	三阶段渐进训练	三阶段（ViT→全参→SFT）	五阶段（+长上下文+DPO）	延续并深化
核心突破	建立基础范式	多模态统一位置编码	工程效率与数据质量	深层视觉融合

5.2. 关键设计哲学

纵观整个系列，有几条贯穿始终的设计哲学值得特别关注：

渐进式训练的稳定性优先：每一代都严格遵循「先冻结后解冻」的训练策略，确保每个模块在被联合训练之前已经具备足够的基础能力。
统一的序列化范式：无论是定位坐标、OCR文本还是视频时间戳，所有信息都被统一表示为文本序列，充分利用了 LLM 的序列建模能力。
从相对到绝对的时间感知：时间编码经历了「无时间→相对帧索引→绝对时间位置编码→显式文本时间戳」的演进，每一步都让模型对时间的理解更加直接和精确。
数据质量驱动的能力提升：从简单的图文对到拒绝采样生成的 CoT 数据，数据工程的精细化程度与模型能力的提升高度正相关。

5.3. 展望

Qwen-VL 系列的演进为我们提供了一个观察多模态大模型发展趋势的绝佳窗口。从 Qwen3-VL 的 DeepStack 机制可以看到，未来的方向正在从「在 LLM 前面接一个视觉编码器」转向「让视觉信息深度参与语言模型的每一层计算」。随着视觉与语言的融合越来越深入，多模态模型与纯语言模型之间的界限也将越来越模糊。期待 Qwen-VL 系列的下一步演进。

6. 延伸阅读

如果你对本文涉及的技术细节感兴趣，以下论文值得进一步阅读：视觉编码器基础

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT, Dosovitskiy et al., 2020) —— Qwen-VL 全系列所依赖的视觉编码器骨干，开创了将 Transformer 直接应用于图像 patch 序列的范式。
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (Liu et al., 2021) —— 文中讨论 Qwen2.5-VL 窗口注意力时的重要对比对象，其 Shifted Window 机制与 Qwen2.5-VL 的 2D-RoPE 窗口注意力形成有趣对照。
Sigmoid Loss for Language Image Pre-Training (SigLIP, Zhai et al., 2023) —— Qwen3-VL 将视觉编码器从 ViT 切换为 SigLIP-2，SigLIP 用 sigmoid 损失替代 softmax 对比损失，在效率和性能上带来显著提升。

位置编码与序列建模

RoFormer: Enhanced Transformer with Rotary Position Embedding (Su et al., 2021) —— M-RoPE 的理论基础，旋转位置编码（RoPE）已成为现代大模型的标准组件，Qwen-VL 系列将其创造性地扩展到多模态场景。
ViViT: A Video Vision Transformer (Arnab et al., 2021) —— 理解 Qwen2-VL 3D 卷积时间降采样设计的重要参考，探索了将 ViT 扩展到视频理解的多种架构方案。

视觉-语言融合架构

Flamingo: a Visual Language Model for Few-Shot Learning (Alayrac et al., 2022) —— 多模态大模型的里程碑工作，其 cross-attention 融合机制是理解 Qwen3-VL DeepStack 深层视觉融合的重要背景。
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs (Meng et al., 2024) —— Qwen3-VL 核心创新之一，通过将视觉 token 分组注入 LLM 不同层实现深层融合，本文 Part IV 有详细解析。
Visual Instruction Tuning (LLaVA, Liu et al., 2023) —— 视觉指令微调的开创性工作，确立了「视觉编码器 + 投影层 + LLM」的经典多模态架构范式，也是 Qwen-VL 系列架构设计的重要参照。

训练策略与对齐

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO, Rafailov et al., 2023) —— Qwen2.5-VL 训练流程的关键技术，跳过显式奖励模型直接从偏好数据优化策略，本文 Part III 中有详细讨论。
Self-Rewarding Language Models (Yuan et al., 2024) —— 与 Qwen2.5-VL 的拒绝采样策略密切相关，探索了让模型自我评估和迭代提升的训练范式。

动态分辨率处理

Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution (Dehghani et al., 2023) —— 理解 Qwen2-VL 原生动态分辨率设计的重要参考，NaViT 通过 sequence packing 实现任意分辨率输入，与 Qwen 系列的动态分辨率方案异曲同工。

同期竞品对比

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks (Chen et al., 2023) —— 将视觉编码器扩展到 6B 参数的代表性工作，与 Qwen-VL 系列在架构设计和训练策略上形成有意义的对比。

特别推荐：旋转位置编码（RoPE）的提出者苏剑林先生的个人博客 科学空间，其中对 RoPE 的数学推导、NTK-aware 外推、多模态位置编码扩展等主题有极为深入且直觉友好的讲解，是理解本文 M-RoPE 及其各代变体不可多得的中文参考资源，此外苏剑林先生的每一篇文章都非常值得仔细拜读，干活满满

本文为个人论文阅读笔记整理，如有疏漏欢迎指正。

CapRL: 用强化学习激发视觉语言模型的描述能力

2026-03-18T00:00:00+00:00

Paper: CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning (CVPR 2025)
Authors: Xing et al.
TL;DR: CapRL提出了一种新颖的强化学习框架，通过将主观的”描述好不好”问题转化为客观的”问题能否答对”问题，有效解决了图像描述任务中的reward hacking难题，显著提升了模型生成稠密、准确（Dense and Accurate）描述的能力。

1. 引言：一个“简单”任务的深层挑战

图像描述（Image Captioning）看似是一个直观的任务——给定一张图片，让模型生成一段描述文字。然而，当我们追问”什么样的描述才是好的描述”时，事情变得复杂起来。这篇论文致力于解决图像描述生成领域的一个核心难题：如何让模型生成既信息丰富（Dense）又准确无误（Accurate）的图像描述。传统方法通常采用监督式微调（SFT），让模型学习”模仿”人类标注的描述。但这种方法面临几个根本性问题：

成本高昂且扩展性差：获取大规模、高质量的标注数据既昂贵又耗时，限制了模型的进一步发展。
缺乏泛化性和创造性：模型倾向于“背诵”训练数据中的特定描述，导致生成的描述比较单一，难以覆盖同一张图片可能存在的多种合理解释，创造性和多样性不足。
主观性难题：对于同一张图片，什么样的描述才算“好”本身就是一个主观问题。传统的评价指标（如BLEU、ROUGE）难以评估描述的丰富性和准确性。

为了克服SFT的局限性，研究者自然想到用强化学习（RL）来打破这些限制——让模型在探索中学习，而非死记硬背。但这引出了一个更棘手的问题：如何定义奖励函数（Reward Function）？

2. 现有RL方法的困境：Reward Hacking

早期的尝试，例如使用另一个大型视觉语言模型（LVLM）作为“裁判”（LVLM-as-a-Judge）来打分，被证明存在固有的偏见（例如，可能偏爱更长或更简短的描述），容易发生Reward Hacking，导致训练不稳定甚至崩溃。

2.1 “裁判”的偏见

任何模型都有其内在偏好：

通用LVLM往往偏爱冗长、详细的描述
通用奖励模型可能被训练得偏好简洁的输出

2.2 策略模型的”钻空子”

聪明的策略模型很快学会了利用裁判的偏见：

# 面对偏爱冗长的裁判
输出: "我的描述组织得很好，结构很完善，首先我要说明..."
结果: 高分！但完全没描述图像内容

# 面对偏爱简洁的裁判  
输出: "图中有三只动物"
结果: 高分！但信息量极低

这就是臭名昭著的Reward Hacking——模型找到了获取高奖励的”捷径”，却完全偏离了我们的真实目标。更糟糕的是，这种现象会导致训练过程极不稳定，甚至训练崩溃（Training Collapse）。因此，该论文的核心目标是为图像描述任务设计一个客观、可验证且可扩展的强化学习框架，从而激发模型生成更密集、更准确描述的能力。

3. CapRL的核心洞见

CapRL提出了一个精妙的思路来重新定义”好描述”：

一个高质量的图像描述，应该能让一个无法看到图像的纯语言模型，仅凭该描述就能准确回答关于图像的各种问题。

这个定义的巧妙之处在于：

客观可验证：问题回答对错是二元的，没有主观模糊空间
难以作弊：无法通过套话获得高分，必须包含实质信息
自然鼓励稠密性：覆盖更多细节 → 能回答更多问题 → 更高奖励

(a) Subjective Caption Reward (主观的描述奖励) - 阐述问题

这部分展示了当前主流的、基于“裁判模型”（LVLM as a Judge）的强化学习方法及其固有缺陷。

流程：一个强化学习智能体（Reinforcement Learning Agent）生成一个图像描述（Caption）。然后，这个描述被发送给一个大型视觉语言模型（LVLM as a Judge），这个“裁判”模型会根据图像给描述打一个主观的综合分数，这个分数作为奖励（Reward）返回给智能体，指导其后续学习。
核心缺陷：内在偏见 (Inherent Bias)：这个“裁判”本身是有偏见的。
- 有些通用的LVLM可能偏爱更详细、更冗长的描述 (Prefer Verbosity)。
- 有些通用的奖励模型（Unified Reward Model）可能经过训练后偏爱更简洁的描述 (Prefer Brevity)。
结果：Reward Hacking：policy模型发现并利用“裁判”的这些偏见来“钻空子”，而不是真正学习如何生成好的描述。
- 为了迎合偏爱冗长的裁判，模型会生成一些“冗长但无关” (Lengthy Irrelevant) 的描述，比如“我的描述组织得很好，结构很完善…”，这些话术虽然能得到高分，但完全没有描述图像内容。
- 为了迎合偏爱简洁的裁判，模型会生成“简短但不完整” (Brief Incomplete) 的描述，比如“图中有三只动物”，信息量极低。

(b) Objective Caption Reward (Ours) (客观的描述奖励 - 我们的方法) - 提出方

这部分详细介绍了论文提出的CapRL方法，它构建了一个客观、可验证的奖励机制。

核心思想：通过解耦的视觉问答（Decoupled VQA）来验证奖励。一个好的描述，应该能让一个看不见图像的模型仅凭描述就能回答关于图像的问题。
优势：难以被攻击 (Hard to Hack)：智能体无法通过生成无关的套话来获得高分。它必须生成包含问题答案所需信息的“密集且全面” (Dense and Comprehensive) 的描述，才能让LLM正确回答问题。CapRL方法将主观的“描述好不好”问题，巧妙地转化为了客观的“问题能否答对”的问题，从而创建了一个稳健、可靠的奖励信号。

(c) Training Curve and Caption Quality Comparison (训练曲线和描述质量对比) - 验证效果

这部分通过实验数据，从“过程”和“结果”两个维度证明了CapRL方法的优越性。

左侧图（Reward/奖励曲线）和中间图（Caption Length/描述长度曲线）：展示了训练过程的稳定性。
- 蓝色曲线 (Qwen2.5-VL-3B as a Judge)：奖励迅速达到1.0，但描述长度也急剧增加。这完美印证了(a)中提到的“奖励被攻击”，模型通过生成冗长无用的内容轻易获得了满分奖励。
- 橙色曲线 (Unified Reward Model as a Judge)：训练非常不稳定，奖励在上升后突然“训练崩溃” (Training collapse)，描述长度也骤降到几乎为零。
- 红色曲线 (Our CapRL)：奖励曲线平滑、稳定地增长，没有被轻易“攻击”，描述长度也保持在一个合理的范围内。这表明CapRL提供了一个有意义且稳定的学习信号。
右侧雷达图 (Performance in Prism Framework)：展示了最终模型的性能。
- 这是一个在多个基准测试（如ChartQA, MathVerse, SEED等）上的性能对比图，越靠外圈表示性能越好。
- 红色线 (Our CapRL) 在几乎所有维度上都显著优于其他模型，包括作为基线的原始模型（绿色）、以及其他两种奖励模型（蓝色和橙色）。

小结：这部分用数据证明，相比于现有的主观奖励方法，CapRL不仅训练过程更稳定，而且最终训练出的模型在各项任务上性能也更强大。

4. 高质量MCQ数据集构建

由于奖励机制的有效性高度依赖于问答数据的质量。研究团队首先构建了一个高质量的、与图像内容紧密相关的多项选择题问答（Multiple-Choice Questions, MCQs）数据集。这个数据集经过了严格的筛选，确保问题必须依靠图像信息才能回答，排除了仅靠常识或问题本身线索就能解答的“泄露”问题。

4.1 第一阶段：图像收集 (Image Collection)

这一步的目标是确保图像的多样性、高质量和安全性。

来源：从多个渠道收集图像，以确保模型能够处理各种类型的视觉信息。主要来源包括：
- 现有的高质量开源数据集：如ShareGPT4V-1M和DenseFusion-1M，这些数据集本身已经经过了一轮筛选。
- 网络搜集：涵盖了自然照片、文档、图表、用户界面等多种类别。
质量和安全过滤：对收集到的图像进行严格的过滤，去除低分辨率、过于简单、或包含暴力、色情等不安全内容的图片。同时，他们还移除了与常见评测基准中的图像高度相似的图片，以防止数据泄露（Benchmark Leakage）。

4.2 第二阶段：问答对生成 (QA Generation)

在收集好图像之后，为每张图片生成相应的问题和答案.

生成模型：使用 Qwen2.5-VL-72B
生成过程：对于数据集中的每一张图片，将图片输入Qwen2.5-VL-72B，并提示它生成多个与图片内容相关的多项选择题及其正确答案。

4.3 第三阶段：问答对筛选 (QA Filtering)

这是整个流程中最核心、最巧妙的一步。其目标是消除信息泄露（Information Leakage），确保每个留下的问题都必须通过看图才能回答。 “信息泄露”指的是，有些问题仅凭常识或问题本身的措辞就能回答，并不需要看图。例如，一张包含“Eiffel Tower”标志的图片，如果问题是“What is the capital of France?”，那么模型不需要看图就能回答“Paris”。这种问题对于评估描述质量是无效的。为了解决这个问题，设计了一个一正一反的双重验证机制：

正向验证 (保证问题可答)：
- 测试方法：将“图片 + 问题”*一同输入给一个LVLM（论文中提到为了节约成本，筛选时用的是Qwen2.5-VL-3B）。
- 通过条件：模型必须能够正确回答问题。这确保了问题与图片内容相关，并且答案可以在图片中找到。
反向验证 (保证视觉依赖)：
- 测试方法：只将“问题” 输入给同一个LVLM，不给它看图片。
- 通过条件：模型必须回答错误。这确保了问题不能仅凭语言逻辑或常识来回答，图像信息是回答问题的必要条件。

一个问答对 (q, a) 只有同时满足以上两个条件才会被保留下来。 用论文中的公式表达就是：

Q 是最终筛选出的数据集
(q, a) 是一个问答对
D 是初始生成的总数据集
Mv(q, I) = a 表示模型在看到图片I和问题q时，能答对答案a（正向验证）
Mv(q) ≠ a 表示模型只看到问题q时，答不对答案a（反向验证）

5. 方法详解

既然CapRL的核心思想是：重新定义“好”描述的标准， 一个高质量的图像描述，应该能让一个无法看到图像的纯语言模型（vision-free LLM）仅凭该描述就能准确回答关于这幅图像的各种问题。那么基于这个思想，我们可以设计一个解耦的两阶段流程来生成客观的奖励信号，并以此来训练图像描述模型。

5.1 第一阶段：LVLM生成图像描述 (Caption Generation)

在这个阶段，一个大型视觉语言模型（LVLM），也就是我们需要训练策略模型（Policy Model，论文中为Qwen2.5-VL-3B），会接收一张输入的图像，并根据指令（例如“详细描述这张图片”）生成一段候选的图像描述。

5.2 第二阶段：Vision-Free LLM回答问题以评估描述质量 (Reward Calculation)

将第一阶段生成的候选描述，与该图像对应的MCQ（详见第 4 章节），一同输入到一个独立的、无法访问图像的纯文本大语言模型（LLM）Qwen2.5-3B-instruct 中，注意这里是纯文本大语言模型（LLM），它是看不到图像的，这一步完成了RL中的VQA奖励机制的解耦。

5.3 奖励计算

这个纯文本LLM会仅根据候选描述来尝试回答问题。它的回答准确率就被直接用作奖励信号。如果LLM能够根据描述正确回答问题，就给予一个正向奖励（例如+1）；反之，则为0。为了保证奖励的稳定性，模型会针对一张图片的多个问题进行回答，并计算平均准确率作为最终的奖励分数。

对于生成的描述 $c$ 和问题集合 $\{q_1, q_2, ..., q_n\}$：

\[R(c) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{1}\left[\text{LLM}(c, q_i) = a_i\right]\]

其中：

$c$ 是生成的图像描述
$q_1, q_2, ..., q_n$ 是对应的问题集合
$a_i$ 是第 $i$ 个问题的正确答案
$\mathbb{1}[\cdot]$ 是示性函数（当条件为真时取1，否则取0）

即：纯文本LLM根据描述回答所有问题的平均准确率。通过这种方式，CapRL成功地将一个主观的“描述好不好”的问题，转化为了一个客观的“问题能不能答对”的问题。一个描述如果包含了图像中更多的细节、更准确地刻画了物体间的关系，那么纯文本LLM依据它来回答问题的准确率自然就更高，从而获得更高的奖励。

5.4 模型优化与训练

有了客观的奖励信号后，CapRL使用GRPO算法来更新图像描述模型（即第一阶段的LVLM）。模型会不断尝试生成新的描述，并通过第二阶段的奖励机制获得反馈，从而学习如何生成能够获得更高奖励（即更高问答准确率）的描述。整个流程形成了一个闭环：生成描述 -> 客观评估 -> 获得奖励 -> 优化模型 -> 生成更好的描述。

6. CapRL解决了什么问题？

总的来说，CapRL框架主要解决了以下几个关键问题：

克服了SFT的局限性：通过强化学习，模型不再局限于模仿固定的标注答案，而是可以在探索中学习生成更多样化、更具创造性的高质量描述，摆脱了对昂贵标注数据的依赖。
解决了主观任务的客观奖励设计难题：CapRL创新性地利用“下游任务（回答问题）”的性能来定义和量化一个开放式、主观任务（生成描述）的质量，创建了一个稳健、客观且不易被攻击的奖励机制。
提升了描述的信息密度和准确性：由于奖励直接与描述能否支持回答具体问题挂钩，该框架能有效激励模型关注并描述图像中的关键细节和复杂关系，从而生成信息更丰富、事实更准确的描述。从论文的图2可以看出，经过CapRL训练后，模型对图表和复杂场景的描述在结构、覆盖范围和准确性上都有了显著提升。
实现了可扩展的训练范式：CapRL的整个流程是自动化的，可以大规模地应用于各种图像数据，为训练更强大的视觉语言模型提供了一条高效且低成本的路径。

7. 深层思考

7.1 为什么CapRL能够奏效？

CapRL的成功并非偶然，其背后蕴含着几个值得深思的设计原则： 奖励与任务本质的对齐：图像描述的核心目标是信息传递——将视觉信息无损地转化为文字信息。传统的主观评分试图直接评价「描述写得好不好」，而CapRL则巧妙地转向评价「信息传递得完不完整」。通过问答验证，它直接度量了描述对原始视觉信息的保真程度。 将开放问题转化为封闭验证：「生成好的描述」是一个开放性任务，难以定义边界；而「回答问题是否正确」是一个封闭性验证，答案非对即错。这种转化消除了奖励信号中的主观模糊性，使得强化学习的优化目标变得清晰可追踪。解耦设计的鲁棒性：通过将「生成」与「评估」解耦到两个独立模型，CapRL避免了单一模型自我评价时的内在偏见。纯文本LLM作为评估者，天然无法被视觉无关的「套话」所欺骗。

7.2 方法论的普适性

CapRL的核心思想——通过下游任务的表现来定义上游任务的质量——具有广泛的迁移潜力：

任务	类比应用
文档摘要	好的摘要应能支持回答关于原文的问题
知识图谱构建	好的KG应能支持多跳推理查询
代码文档生成	好的文档应能帮助开发者正确使用API
数据标注	好的标注应能支持下游模型的准确预测

这种思路的本质是：当直接评价质量困难时，转而评价其功能性表现。

7.3 局限性与未来方向

尽管CapRL展现了显著的优势，仍有几点值得关注： MCQ覆盖范围的偏见：模型的「注意力分配」受限于问题集的设计。如果问题集偏重某类信息（如物体识别），模型可能忽视其他维度（如氛围、情感）。未来可探索更多样化的问题生成策略。 描述质量的多维性：问答准确率主要衡量信息完整性，但优秀的描述还应具备流畅性、可读性、逻辑组织等特质。如何在奖励函数中平衡这些维度，是一个开放问题。 评估模型的能力天花板：纯文本LLM的推理能力和指令遵循能力直接影响奖励信号的质量。随着LLM能力的提升，CapRL的效果有望进一步增强。 计算开销：两阶段的解耦设计增加了推理成本，如何在保持奖励质量的同时提升效率，值得探索。

8. 总结

CapRL为图像描述任务的强化学习训练提供了一个优雅而实用的解决方案。

8.1 核心贡献

提出了可验证奖励范式：将主观的描述质量评估转化为客观的问答验证，从根本上解决了Reward Hacking问题
设计了鲁棒的数据筛选机制：通过一正一反的双重验证，确保问题集的质量和有效性
实现了稳定可扩展的训练：无需人工标注，可大规模自动化训练

8.2 更广泛的启示

这篇工作的价值不仅在于图像描述任务本身，更在于它展示了一种务实的RL奖励设计哲学：

与其试图直接量化主观质量，不如找到一个客观可验证的代理指标，让它自然地引导模型向正确方向优化。

这一原则在当前大模型强化学习的研究浪潮中尤为重要。无论是RLHF、RLAIF还是RLVR，如何设计一个既能真实反映任务目标、又不易被模型「游戏」的奖励函数，始终是核心挑战之一。CapRL的设计思路为这一问题提供了有益的参考。

9. 延伸阅读

如果你对RLHF和奖励模型设计感兴趣，以下工作值得进一步了解：

RLAIF：Constitutional AI, Anthropic 2023 —— 使用AI反馈替代人类反馈
RLVR：DeepSeek-R1 —— 基于可验证奖励的强化学习
Self-Rewarding LM：Meta 2024 —— 让模型自我评判以实现迭代改进

符号	含义
\(q \sim P(Q)\)	从问题分布里采样一个问题/提示（prompt），例如一句用户指令。
\(o \sim \pi_{\theta_{old}}(O \mid q)\)	用旧策略生成一个完整输出序列 \(o = (o_1, \dots, o_{\vert o\vert})\)
\(\vert o\vert\)	输出序列长度；前面的 \(\frac{1}{\vert o\vert} \sum_{t=1}^{\vert o\vert}\) 是对所有 token 取平均，避免长回答在 loss 上权重更大。
\(\pi_\theta(o_t \mid q, o_{	当前待更新策略 \(\pi_\theta\) 在前缀 \((q, o_{
\(\pi_{\theta_{\text{old}}}(o_t \mid q, o_{	旧策略下的对应概率，用来构造重要性采样比率：\(r_t(\theta) = \frac{\pi_\theta(o_t \mid q, o_{
\(A_t\)	第 \(t\) 个 token 的 advantage（优势函数），一般由 GAE 计算：\(A_t \approx (\text{当前路径未来回报}) - (\text{价值网络给出的 baseline})\)
\(\varepsilon\)	PPO 的 clip 超参数，典型值 \(0.1 \sim 0.2\)

	PPO	GRPO
优势来源	Critic 网络 \(V(s_t)\) + GAE	组内奖励标准化
所需额外模型	Critic（与 Actor 同规模）	无
粒度	逐 token（通过 TD Error 链式传播）	结果监督：全序列统一；过程监督：逐步累积

Ratio 取值	含义	对训练的影响
\(\rho > 1\)	新策略比旧策略更倾向于生成这个 token	若 \(\hat{A} > 0\)（好回答），放大梯度，强化该行为
\(\rho < 1\)	新策略认为这个 token 不太可能出现	降低该数据点的权重，减少其对更新的影响
\(\rho \approx 1\)	新旧策略一致	无修正，正常更新

Yunpeng’s Homepage

从 PPO 到 DPO 再到 GRPO：经典大模型强化学习算法解读

1 PPO：强化学习对齐的奠基石

1.1 背景与动机

1.2 PPO 目标函数：从全局视角出发

1.3 数据采样与 \(A_t\) 计算

1.3.1 采样轨迹（只用 old policy）

1.3.2 用 GAE 从 reward + value 得到优势 \(A_t\)

1.3.3 计算每个位置的「真实回报」

1.4 训练 Critic 网络

1.5 PPO 训练流程

2 DPO：绕过 RL 的优雅捷径

2.1 核心思想与主要发现

2.1.1 从 KL 约束优化到最优策略的闭式解

2.1.2 反解出隐式奖励函数

2.1.3 代入 Bradley-Terry 模型，消去配分函数

2.2 DPO 损失函数

2.3 KL 散度惩罚的隐式机制

2.3.1 隐式奖励本身就是 KL 的”局部梯度”

2.3.2 约束来源：闭式解的推导前提

2.4 DPO 相对于 PPO 的改进与效果

3 GRPO：无 Critic 的群体智慧

3.1 背景与动机：去掉 Critic，还能做 RL 吗？

3.2 Advantage 计算：GRPO 的核心创新

3.2.1 结果监督（Outcome Supervision）：整条序列共享一个优势

3.2.2 过程监督（Process Supervision）：逐步累积优势

3.3 GRPO 目标函数

3.3.1 变化一：多样本”组”采样与双层平均

3.3.2 变化二：优势函数来源完全不同

3.4 GRPO 训练流程

3.4.1 算法流程详解：三层嵌套循环

3.4.2 重要性采样比率（Ratio）为什么必不可少？

3.5 三大算法对比总览

4 延伸阅读

位置编码的发展历程：从绝对、相对到多模态旋转编码

1. 引言

2. 绝对位置编码 (Absolute Positional Encoding)

2.1. 可学习的位置编码 (Learned Positional Encoding)

2.2. 正余弦位置编码 (Sinusoidal Positional Encoding)

3. 相对位置编码 (Relative Positional Encoding)

4. 旋转位置编码 (Rotary Positional Encoding, RoPE)

4.1. 核心思想

4.2. 1D-ROPE

4.2.1. 数学推导

4.2.2. 工程实现：利用稀疏性加速

4.2.3. 直观理解

4.2.4. 解决问题

解决“平移不变性”缺失问题

解决“长序列外推”能力差问题

远程衰减--解决“远程关注噪音”问题

解决“KV Cache 推理效率”问题

4.3. 2D-ROPE

4.3.1. 计算流程

4.3.2. 解决问题

问题 1：一维拉平破坏了“二维空间邻接性”

问题 2：动态分辨率导致的“相对位置错乱”

4.4. M-ROPE

4.4.1. 计算流程

4.4.2. 解决问题

问题 1：多模态数据的“维度不兼容”

问题 2：长视频的“索引爆炸”与“外推失败” (The Extrapolation Problem)

5. 总结与展望

5.1. 完整的技术演进脉络

5.2. 关键设计原则

5.3. 未来方向

6. 延伸阅读

从 Qwen-VL 到 Qwen3-VL：多模态大模型的四代进化之路

1. Part I: Qwen-VL —— 奠基之作（2023）

1.1. 核心训练思想：渐进式能力构建

1.2. 阶段一：预训练 (Stage 1: Pre-training)

1.3. 阶段二：多任务预训练 (Stage 2: Multi-task Pre-training)

1.4. 阶段三：监督微调 (Stage 3: Supervised Fine-tuning, SFT)

2. Part II: Qwen2-VL —— 原生动态分辨率与多模态位置编码（2024）

2.1. 相对于qwen-vl的创新：

2.2. M-ROPE

2.2.1. 计算流程

2.2.2. 解决问题

2.2.2.1. 多模态数据的”维度不兼容”

2.2.2.2. 长视频的“索引爆炸”与“外推失败” (The Extrapolation Problem)

2.2.3. 3D卷积–时空降采样 (Temporal Downsampling) 模块