GPT-5 编程测评“表面不及格”:实际 63.1% 的任务没交卷,全算上成绩比 Claude 高一倍
Scale AI 的新软件工程基准 SWE-BENCH PRO 结果令人意外。
据报告,“御三家”AI模型在测试中表现不佳,解决率均未超过25%:
GPT-5、Claude Opus 4.1、Gemini 2.5 的解决率分别为 23.3%、22.7% 和 13.5%,排名靠前。
(图片说明已修改,更简洁明了)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...