英伟达发布新 RL 范式：受 DeepSeek-R1 启发，重塑 AI 模型外部工具能力

610 0 0

GoodNav 5月14日消息，科技媒体marktechpost报道，英伟达推出Nemotron-Research-Tool-N1系列模型，该模型受DeepSeek-R1启发，采用新的强化学习方法，增强了模型的推理能力。

大型语言模型（LLMs）利用外部工具提升性能已成趋势，这些工具让LLMs在搜索、计算、视觉和Python等方面表现出色。但现有研究大多依赖合成数据，难以捕捉推理步骤，导致模型只是模仿表面模式，而非真正理解决策过程。

为提升LLMs的工具使用能力，研究者探索了两种主要策略：第一，改进数据集和模型优化。他们创建大规模监督数据集，并运用监督微调和强化学习等技术，使LLMs能更好地与外部工具结合，扩展功能。

第二，优化推理过程。研究者不再局限于训练阶段的扩展，而是侧重于测试阶段的复杂策略。早期方法依赖于步骤级监督和奖励模型，引导推理过程。

尽管这些方法有效，但仍然受限于合成数据的不足。研究者指出，虽然这些策略能让LLMs处理单轮或多轮工具调用，但其自主推理能力仍有待提升。

英伟达与宾夕法尼亚州立大学和华盛顿大学合作开发了该模型。

文章版权归作者所有，未经允许请勿转载。

GoodNav.net

1.2K

GoodNav.net

1.6K

GoodNav.net

2.3K

GoodNav.net

855

GoodNav.net

1.4K

GoodNav.net

2.1K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...