Loading...

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

GoodNav 4月12日消息,字节跳动于4月8日发布了一篇博文,宣布其Seed研究团队推出了VAPO强化学习训练框架,旨在提高大型语言模型在处理复杂且冗长任务时的推理能力。

当前面临的挑战

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能够精准追踪每个动作对后续回报的影响而展现出极大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。

首先,价值模型的初始化可能会引入偏差;其次,传统方法难以适应复杂任务中的序列长度变化;最后,在验证任务中,奖励信号稀疏使得优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。

VAPO简介

字节跳动新推出的VAPO框架,全名为Value Augmented Proximal Policy Optimization(增强价值的近端政策优化),基于PPO框架,通过三项创新技术来应对上述挑战。

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

首先,VAPO模型建立了一个详细的价值训练框架,以增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能够根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO整合了多项前期研究技术,形成一个协同增效的系统。

在不依赖特定的监督微调(SFT)数据的情况下,Qwen2.5-32B模型通过VAPO优化后,在AIME24基准测试中将得分从5分提升至60.4分,超越了DeepSeek R1的47分,并超越了之前的SOTA方法DAPO(50分)10分,仅用60%的更新步骤便达成了行业领先。

与传统的近端政策优化(PPO)算法相比,VAPO在数学推理能力上有所提升,训练曲线更加平滑,优化过程也更加稳定。

测试结果表明,由于其价值模型提供的细粒度信号,VAPO在长序列任务中表现优异,得分提升速度更快。尽管后期训练中的熵值下降可能会限制探索,VAPO通过平衡设计保证了稳定性与可重复性。

VAPO的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦GAE支持长回答优化,自适应GAE平衡短长回答,剪裁策略鼓励探索,词级损失提升长回答权重,正例语言模型损失提升6分,分组采样贡献5分。

字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

这些改进使得VAPO在探索与利用之间找到了最佳平衡,显著优于无价值导向的GRPO和DAPO方法。VAPO不仅提高了数学推理能力,同时也为LLM在复杂推理任务中的应用开辟了新的方向。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...