Loading...

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

结合强化学习 (RL) 和真实搜索引擎,可以显著提升大型语言模型 (LLM) 的检索和推理能力。

然而,存在两个主要挑战:

一是搜索引擎返回文档质量难以控制,这会扰乱训练过程并降低稳定性。

二是 RL 训练需要频繁调用搜索引擎,产生大量的 API 调用成本,严重限制了模型的扩展能力。

阿里巴巴通义实验室的 ZeroSearch 提供了解决方案:一个无需实际搜索引擎交互的强化学习框架。

实验结果显示,ZeroSearch 使用仅 30 亿参数的 LLM 作为检索模块,即可有效提升搜索能力,并大幅降低了 API 调用成本。

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...