Loading...

68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩

AI前沿资讯14小时前发布 GOODNAV.NET
175 0 0

大模型的公信力再次受到质疑。

最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文引发了学术界的关注。

68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩

该论文指出,大模型领域备受推崇的 Chatbot Arena 排行榜存在系统性缺陷。例如:

  • 少数大型科技公司可以私下测试大量模型版本,例如Llama4 在发布前就测试了27个版本,最终只公布了表现最佳的版本

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...