Loading...

英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力

GoodNav 5月14日消息,科技媒体marktechpost报道,英伟达推出Nemotron-Research-Tool-N1系列模型,该模型受DeepSeek-R1启发,采用新的强化学习方法,增强了模型的推理能力。

大型语言模型(LLMs)利用外部工具提升性能已成趋势,这些工具让LLMs在搜索、计算、视觉和Python等方面表现出色。但现有研究大多依赖合成数据,难以捕捉推理步骤,导致模型只是模仿表面模式,而非真正理解决策过程。

为提升LLMs的工具使用能力,研究者探索了两种主要策略:第一,改进数据集和模型优化。他们创建大规模监督数据集,并运用监督微调和强化学习等技术,使LLMs能更好地与外部工具结合,扩展功能。

第二,优化推理过程。研究者不再局限于训练阶段的扩展,而是侧重于测试阶段的复杂策略。早期方法依赖于步骤级监督和奖励模型,引导推理过程。

尽管这些方法有效,但仍然受限于合成数据的不足。研究者指出,虽然这些策略能让LLMs处理单轮或多轮工具调用,但其自主推理能力仍有待提升。

英伟达与宾夕法尼亚州立大学和华盛顿大学合作开发了该模型。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...