Loading...

GPT-5 编程测评“表面不及格”：实际 63.1% 的任务没交卷，全算上成绩比 Claude 高一倍

AI前沿资讯4个月前发布 GOODNAV.NET

2.5K 0 0

Scale AI 的新软件工程基准 SWE-BENCH PRO 结果令人意外。

据报告，“御三家”AI模型在测试中表现不佳，解决率均未超过25%：

GPT-5、Claude Opus 4.1、Gemini 2.5 的解决率分别为 23.3%、22.7% 和 13.5%，排名靠前。

GPT-5 编程测评“表面不及格”：实际 63.1% 的任务没交卷，全算上成绩比 Claude 高一倍

(图片说明已修改，更简洁明了)

# AI前沿资讯 # ChatGPT # Claude # 人工智能

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

《人工智能全球治理行动计划》在我国发布

GoodNav.net

3.2K

哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

GoodNav.net

4.4K

Meta 首席科学家杨立昆：实现 AGI 最乐观需至少五到六年

GoodNav.net

5K

比尔・盖茨：AI 进步速度远超预期，大学毕业生找工作更难

GoodNav.net

3.3K

谷歌通过机器学习判断用户年龄：你的搜索行为、观看内容都可作为依据

GoodNav.net

6.9K

消息称 OpenAI 将推无屏“AI 伴侣”设备，可感知用户周围环境

GoodNav.net

4.3K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GoodNav - 发现优质资源网站，探索无限可能！我们精选全球设计、编程、AI、站长、游戏、工具、搜索、百科、生活、教育、娱乐等优质资源网站，助你提升效率，开启精彩网络世界！

友链申请免责声明广告合作关于我们

Copyright © 2022-2025 goodnav.net All Rights Reserved