GoodNav 报道,OpenAI 今日开源了面向医疗大模型的测试评估集 HealthBench,旨在评估 AI 系统在医疗领域的性能。
HealthBench 由来自全球 60 多个国家/地区的 262 名医生撰写的 5000 段核心测试对话构成,其难度、真实性和覆盖范围都远超以往的测试集。它采用 262 名医生制定的 48562 个独特的评分标准,进行开放式评估,涵盖紧急情况、全球健康等多种医疗场景,评估更加全面。