GoodNav 4 月 24 日报道,尽管 OpenAI 声称其新模型 GPT-4.1 在遵循指令方面表现出色,但独立测试结果却显示其可靠性(对齐性)可能低于之前的模型。
OpenAI 通常会发布包含模型安全评估报告,但这次并未为 GPT-4.1 提供此类报告,理由是该模型并非“前沿”模型。这一做法引发了部分研究人员和开发者的质疑,他们开始对 GPT-4.1 的能力进行深入调查。