通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API
结合强化学习 (RL) 和真实搜索引擎,可以显著提升大型语言模型 (LLM) 的检索和推理能力。
然而,存在两个主要挑战:
一是搜索引擎返回文档质量难以控制,这会扰乱训练过程并降低稳定性。
二是 RL 训练需要频繁调用搜索引擎,产生大量的 API 调用成本,严重限制了模型的扩展能力。
阿里巴巴通义实验室的 ZeroSearch 提供了解决方案:一个无需实际搜索引擎交互的强化学习框架。
实验结果显示,ZeroSearch 使用仅 30 亿参数的 LLM 作为检索模块,即可有效提升搜索能力,并大幅降低了 API 调用成本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...