标签:大模型竞技场

N68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩

大模型的公信力再次受到质疑。最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文引发了学术界的关注。该论文指出,大模型领域备受推崇的 Chatbo...