哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

2.9K 0 0

GoodNav 3 月 13 日报道，外媒 Techspot 于周二发布消息，哥伦比亚大学的数字新闻研究中心（Tow Center for Digital Journalism）最近对八款 AI 搜索引擎进行了研究，包含 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究团队分析了每个引擎的准确性，并记录了它们不回答问题的频次。

研究者从 20 家新闻机构中随机选取了 200 篇报道（每家 10 篇），确保这些报道在 Google 搜索中排名前三，然后使用相同的查询测试各 AI 搜索工具，并评估它们是否正确引用了文章内容、新闻机构的名称以及原始链接。

测试结果显示，除了 Perplexity 和其付费版本，其余 AI 搜索引擎的表现都不太理想。总体来看，这些 AI 搜索引擎提供的答案中有 60% 是不准确的，而且 AI 对错误答案的非理性自信加大了问题的严重性。

这项研究的重要性在于，它用数据证实了外界多年来的担忧 —— 大语言模型不仅容易出错，还能够一本正经地胡说八道。它们经常以绝对肯定的语气提供错误的信息，即便在受到质疑时仍试图维护自己的说法。

即使在承认错误后，ChatGPT 仍可能在随后的回答中继续编造内容。在大语言模型的运行逻辑中，几乎是“无论如何都要给出答案”。研究数据显示：ChatGPT Search 是唯一一个回答了所有 200 个新闻查询的 AI 工具，但其“完全正确”的比例仅为28%，而“完全错误”的比例高达 57%。

尽管表现相对较差，ChatGPT 仍非表现最糟的。X 旗下的 Grok AI 则表现极为不佳，其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也面临许多问题——在 200 次查询中，有 104 次拒绝回应，在剩余的 96 次中，仅有 16 次是“完全正确”，14 次是“部分正确”，而 66 次是“完全错误”，整体错误率接近 70%。

尽管这些 AI 工具的开发公司并未公开承认这些问题，但它们仍向用户收取每月 20 至 200 美元（备注：当前约为 145 至 1449 元人民币）的订阅费。此外，付费版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）在回答数量上超出免费版本，但它们的错误率也居高不下。