OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

4.2K 0 0

GoodNav 9 月 27 日消息，科技媒体 ZDNet 昨日（9 月 26 日）发布了一篇博文，介绍了 OpenAI 推出的一款全新 AI 评估基准，名为 GDPval，旨在衡量先进模型在真实经济价值任务中的表现，以弥补学术测试与实际应用之间的差距。

尽管目前市场上涌现出大量声称能提升生产力的 AI 工具，但它们在企业中的实际效果却各不相同。为了应对 AI 模型在学术基准测试与实际应用表现之间的脱节问题，OpenAI 于上周四推出了一套名为 GDPval 的全新评估体系，其核心目标是“评估 AI 在具有经济价值的真实任务中的表现”，从而为行业提供一个更贴近实际的评价标准。

GDPval 的设计模拟了真实工作场景。它涵盖了对美国 GDP 贡献最大的九大行业中的 44 个职业，涉及共计 1320 个具体任务。这些任务由平均拥有 14 年相关经验的专业人士设计，确保其真实性和复杂性。