Scale AI 的新软件工程基准 SWE-BENCH PRO 结果令人意外。
据报告,“御三家”AI模型在测试中表现不佳,解决率均未超过25%:
GPT-5、Claude Opus 4.1、Gemini 2.5 的解决率分别为 23.3%、22.7% 和 13.5%,排名靠前。
(图片说明已修改,更简洁明了)