Loading...

谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力

GoodNav 4月26日消息,科技媒体marktechpost昨日(4月25日)报道,谷歌DeepMind团队发布了QuestBench新基准。该基准利用约束满足问题(CSPs)框架,衡量模型在推理过程中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务(如数学、逻辑、规划和编码)中表现出色,但现实应用场景往往信息不完整。

用户提问可能遗漏关键信息,而机器人等自主系统也必须在部分可观测的环境中运作。这种理想化信息完备设定与现实问题的不确定性之间的矛盾,促使LLMs需要主动获取信息。

识别信息缺口并提出针对性问题,是LLMs在复杂场景中提供准确解决方案的关键所在,如博文中所述。

QuestBench:评估信息获取能力的新框架

为了应对信息获取的挑战,研究者开发了QuestBench基准,专门用于评估LLMs

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...