SAPO:Soft Adaptive Policy Optimization
一、简介
基于组的强化学习用于 LLM
后训练通常依赖于重要性比率来重用轨迹跨策略更新,但在实践中这些比率在标记级别上是嘈杂的,方差在专家混合模型中尤其尖锐,其中路由异质性和长生成放大了每个标记的偏差。GRPO
的标准补救措施是硬标记裁剪:一旦标记的比率超出固定带,其贡献实际上被裁剪到零梯度,这稳定了极端步骤,但创造了一个脆弱的权衡,紧裁剪浪费样本并杀死学习信号,而松裁剪引入了离策略噪声并使优化不稳定。GSPO
将信任区域转移到序列级别以强制与序列奖励的一致性,但这引入了不同的病理:少数异常标记可以将序列比率推到裁剪带之外,导致整个序列的梯度(包括许多接近策略的、信息丰富的标记)被抑制。
软自适应策略优化(SAPO)被提出以解决这种“硬门脆性”问题,通过用温度控制的软门替代重要性比率中的裁剪:在策略点附近(
二、SAPO
2.1 SAPO 目标:“分组强化学习”+重要性比率上的门控函数
SAPO 优化一个分组代理:
:从你的提示分布中抽取的提示/查询。 : 你从行为策略(“旧”策略)中采样一组 响应。这是 GRPO/GSPO 机制:生成多个候选,组内比较,更新当前策略。 : 长度归一化,防止长生成结果仅因拥有更多 token 而主导。 : 优势信号(通常是组归一化的奖励);在许多组强化学习设置中,它在响应的每个 token 上是恒定的,即 。它告诉你“这个采样的整个轨迹比它的兄弟姐妹更好/更差。” : token 级别的重要性比率:
如果
整个新颖性在于门控函数
SAPO 门控:
其中温度参数
- 以
为中心:所谓的“信任区域中心”是 (基于策略的)。一切关键在于你当前策略与行为策略的偏差程度。 : 平滑单调门。温度 控制陡峭程度: - 小
⇒ 温和衰减(更能容忍偏差), - 大
⇒ 鲁棒衰减(更保守)。
- 小
- 非对称温度
, : SAPO 有意地区分正优势更新和负优势更新。 - 该因子
看起来像是一种技巧,但实际上是一种校准:它使最终梯度权重很好地归一化,使得有效权重在策略点处达到峰值 1。这就是为什么 SAPO 在 附近保留“未剪裁行为”,而与 无关。
对 SAPO 求导得到加权策略梯度:
如果我们使用
其中
在 处达到最大值。 发生正好当(r-1)=0$ ⇒ 因此,
在 为 1 时达到峰值,随着 远离 1 而平滑衰减。 具体来说: 如果
: , SAPO行为就像未剪裁的目标(强学习信号)。 如果
有一定偏差: ,你仍然在学习,但会谨慎行事。 如果
极度偏离: ,SAPO 基本上会忽略这些 token,但不会出现不连续的悬崖(与硬裁剪不同)。
这就是为什么论文将 SAPO
称为连续信任区域:随着偏差增大,“信任”会持续缩小,而不是在固定的
2.2
为什么 SAPO 使用两个不同的温度 和 ?
负优势 token 更新在大词汇 softmax
策略中本质上更不稳定,因为它们的梯度会分散到许多
logits(许多“未采样的”token)。因此 SAPO 通过设置
数学直觉:
设模型在解码步骤
在这个步骤中采样的标记是
我们想要
首先回顾标准的 softmax 对数导数:
乘以
- 对于采样到的Token(
):
-对于所有其他标记(
: 标记采样到的 token 的指示器。 : 模型在这个状态对 token 的概率分布。 :优势;符号决定是否强化或抑制采样的动作。
直觉:正负优势改变动量移动的方向
2.2.1 案例 A: (正向优势)
对于采样的 token
所以我们增加采样 token 的 logit(使其更可能)。
对于其他每个 token
所以我们稍微降低了所有其他 logits。
净效应:概率质量流向采样到的标记。
2.2.2 案例 B: (负优势)
现在符号反转。对于采样的Token:
所以我们会降低采样标记的 logit(使其可能性降低)。对于其他每个 token:
所以我们增加所有其他 token 的 logits。
净效应:概率质量被从采样的词元中推开,并分散到词汇表的其他部分。
2.3 为什么负向更新在 LLMs 中更不稳定?
在 LLM 强化学习中,动作空间就是词汇表:
- 带有负优势时,你是在为大量“未采样”的 token 增加 logits。
- 尽管每个单独的增加都通过
进行了缩放,但 的数量如此之多,以至于更新可能会“扩散”到许多不相关的方向。 - 这种扩散在离线策略(重要性比率远小于 1)时尤其有害,此时方差已经很高。
你可以从对未采样 logits 的总体“推动”中看到这一点:
因此,总幅度与采样 token 的幅度相当,但它分布在
2.4 SAPO
如何使用温度来控制这个:
SAPO 的 token 门使用一个温度
较大的
⇒ 远离 的衰减更快(对离策略 token 的抑制更激进)。 SAPO 设置:
- 正向优势(
):
- 负优势(
):
约束:
- 正向优势(
所以当
SAPO/GRPO/GSPO
可以表示为一个单一的门控代理(统一代理),它们之间唯一的区别在于门控函数
其中,
GSPO 是“序列级”的,因为它用长度归一化的序列比率(几何平均数)替换了 token 比率:
然后使用
所以当
特定于算法的
这些算法在
GSPO 的
对统一替代量求导得到常见的“门控 × 比率 × log 概率梯度 × 优势”形式:
针对 SAPO,特别是使用
经过训练后的优化领域已经明显超越了“只需使用 PPO”的时代。GRPO 及其后继者揭示了一种更深层次的模式:大多数实际进展来自于我们如何控制更新中的信任和方差,信任区域的位置(词元与序列),我们如何严格实施(硬裁剪与软门控),以及如何在保持探索的同时避免离策略噪声和长时程信用分配导致运行崩溃。所谓的“算法”越来越成为一种针对语言建模的几何结构、巨大词汇量、长序列以及稀疏、延迟且通常嘈杂的奖励信号进行定制的门控函数、归一化方案和稳定性调节的选择。
如果要说有什么值得传承的,那就是下一波进步将更多地来自于创造另一个缩写词,而更多地在于使这些设计轴明确和可衡量。在实验过程中,将这些方法视为一个工具箱:选择与你的奖励结构匹配的门控机制,选择与你的目标匹配的连贯性单位(局部于 token 还是全局于序列),并以能够用图表辩护的方式调整保守性。令人兴奋的是,我们仍处于早期阶段:随着可验证奖励、多模态策略和长上下文训练成为标准,这些关于截断、门控和方差控制的“小”选择将成为区分仅仅改进的模型和能够在规模化上可靠训练的系统之间的关键。