谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”
GoodNav 5月20日消息,科技媒体marktechpost报道,谷歌DeepMind团队与约翰·开普勒林茨大学LIT AI实验室合作,利用强化学习微调(RLFT)技术,提升了大型语言模型的决策能力。
研究指出,基于互联网数据的语言模型具备了潜在的决策能力,能够通过内部知识推理在交互环境中做出选择。然而,这些模型存在一些问题:它们虽然能推导出正确的策略,却无法有效执行(“知行差距”),并且倾向于选择短期高回报的选项(“贪婪”)。
这些模型的决策能力还有待进一步提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
没有相关内容!
暂无评论...