Loading...

谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”

GoodNav 5月20日消息,科技媒体marktechpost报道,谷歌DeepMind团队与约翰·开普勒林茨大学LIT AI实验室合作,利用强化学习微调(RLFT)技术,提升了大型语言模型的决策能力。

研究指出,基于互联网数据的语言模型具备了潜在的决策能力,能够通过内部知识推理在交互环境中做出选择。然而,这些模型存在一些问题:它们虽然能推导出正确的策略,却无法有效执行(“知行差距”),并且倾向于选择短期高回报的选项(“贪婪”)。

谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”

这些模型的决策能力还有待进一步提升。

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...