68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩
大模型的公信力再次受到质疑。
最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文引发了学术界的关注。
该论文指出,大模型领域备受推崇的 Chatbot Arena 排行榜存在系统性缺陷。例如:
-
少数大型科技公司可以私下测试大量模型版本,例如Llama4 在发布前就测试了27个版本,最终只公布了表现最佳的版本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...