这并不意味着 OpenAI 在说谎!
站长之家(ChinaZ.com) 4月21日 消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基准测试结果上存在差异,这也引发了人们对该公司透明度和模型测试实践的质疑。去年 12 月, OpenAI 的 o3 模型首次亮相,当时,该公司宣称这款模型能够解答 FrontierMath(一组极具挑战性的数学问题)中超过 25% 的题目 —— 这个成绩远超竞争对手 —— 第二名的正确率约为 2%。
“目前,市面上所有AI产品在 FrontierMath 上的得分都低于 2%,”OpenAI 首席研究官马克・陈(Mark Chen)在一次直播中表示,“我们(在内部测试中)发现,在激进的测试计算条件下,o3 能够达到超过 25% 的正确率。”
但事实证明,这个数字很可能是上限,实现这一成绩的 o3 版本所使用的计算资源比 OpenAI 上周公开推出的模型得多得多。
上周五,FrontierMath 所属研究机构 Epoch AI 公布了针对 o3 的独立基准测试结果。他们发现,o3 的得分约为 10% —— 远低于 OpenAI 所宣称的 25%。
当然,这并不意味着 OpenAI 在说谎 —— OpenAI 在去年 12 月公布的基准测试结果还游一个“下限得分”,这个“下限”与 Epoch 观察到的得分相符。Epoch 还指出,其测试设置可能与 OpenAI 的不同,并且在评估中使用了更新版的 FrontierMath。
Epoch 写道:“我们的结果与 OpenAI 的结果存在差异,可能是因为 OpenAI 使用了更强大的内部架构进行评估,在测试时使用了更多计算资源,或者是因为这些结果是在 FrontierMath 的不同子集上运行得出的(FrontierMath - 2024 - 11 - 26 中的 180 道题与 FrontierMath - 2025 - 02 - 28 - private 中的 290 道题)。”
曾测试过 o3 预览版的 ARC Prize Foundation 在 X 上发帖称,公开的 o3 模型 “是另一个为聊天 / 产品使用场景进行调优的模型”,这证实了 Epoch 的报告。ARC Prize 写道:“所有已发布的 o3 计算层级都比我们(做基准测试时使用的)版本要小。” 一般来说,计算层级越高,基准测试得分可能越好。
上周,OpenAI 的技术人员 Wenda Zhou 在一次直播中表示,与 12 月展示的 o3 版本相比,投入实际应用的 o3 “针对现实应用场景和速度进行了更多优化”。他补充说,因此可能会出现基准测试 “差异”。“我们进行了(优化),让(模型)更具成本效益,总体上更有用,” Zhou 说,“我们仍然希望 —— 也依旧认为 —— 这是一个更好的模型…… 当你提问时,不需要那么久的等待时间,对于这类模型来说,这很重要。”
这再次提醒人们,对于 AI 基准测试结果,最好不要轻信表面数据 —— 尤其是当数据来源是一家要推销服务的公司时。