Loading...

GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍

Scale AI 的新软件工程基准 SWE-BENCH PRO 结果令人意外。

据报告,“御三家”AI模型在测试中表现不佳,解决率均未超过25%

GPT-5Claude Opus 4.1Gemini 2.5 的解决率分别为 23.3%、22.7% 和 13.5%,排名靠前。

GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍

(图片说明已修改,更简洁明了)

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...