Loading...

OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

AI前沿资讯10小时前发布 GOODNAV.NET
175 0 0

GoodNav 报道,OpenAI 今日开源了面向医疗大模型的测试评估集 HealthBench,旨在评估 AI 系统在医疗领域的性能。

OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

HealthBench 由来自全球 60 多个国家/地区的 262 名医生撰写的 5000 段核心测试对话构成,其难度、真实性和覆盖范围都远超以往的测试集。它采用 262 名医生制定的 48562 个独特的评分标准,进行开放式评估,涵盖紧急情况、全球健康等多种医疗场景,评估更加全面。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...