OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%
GoodNav 9 月 27 日消息,科技媒体 ZDNet 昨日(9 月 26 日)发布了一篇博文,介绍了 OpenAI 推出的一款全新 AI 评估基准,名为 GDPval,旨在衡量先进模型在真实经济价值任务中的表现,以弥补学术测试与实际应用之间的差距。
尽管目前市场上涌现出大量声称能提升生产力的 AI 工具,但它们在企业中的实际效果却各不相同。为了应对 AI 模型在学术基准测试与实际应用表现之间的脱节问题,OpenAI 于上周四推出了一套名为 GDPval 的全新评估体系,其核心目标是“评估 AI 在具有经济价值的真实任务中的表现”,从而为行业提供一个更贴近实际的评价标准。
GDPval 的设计模拟了真实工作场景。它涵盖了对美国 GDP 贡献最大的九大行业中的 44 个职业,涉及共计 1320 个具体任务。这些任务由平均拥有 14 年相关经验的专业人士设计,确保其真实性和复杂性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...