机器之心编辑部

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务,传统的模型评测方式正在面临新的挑战。

长期以来,模型发布往往伴随着一张由多项基准测试构成的成绩表:数学、编程、科学问答、网络安全、知识推理等能力被压缩为若干分数,并据此与上一代模型进行横向比较。



OpenAI 研究员 Noam Brown 近日撰文指出,当模型能够在回答问题时使用更多推理步骤、调用更多工具或执行更长时间的搜索与试验后,单一分数已越来越难以准确反映模型的实际能力。



Brown 的核心观点是:大模型的表现不仅取决于模型本身,也越来越取决于模型在推理阶段获得了多少计算资源。未来评估模型时,不能只问「模型得了多少分」,还应回答另一个问题:模型是在消耗多少 token、多少费用和多长运行时间的前提下,获得这一成绩的?

他建议,行业应当从「单点成绩」转向「性能—推理计算量曲线」,并将推理预算视为模型能力评估和人工智能安全政策中的基础变量。

新模型的能力差距,可能被传统成绩表低估

Brown 以 GPT-5.5 发布后的市场反应为例,说明传统模型排行榜的局限性。

按照他的描述,GPT-5.5 发布初期,外界首先注意到的是一组并不算特别显眼的基准测试成绩。与 GPT-5.4 相比,新模型的分数有所提高,但从常规成绩表看,提升幅度似乎有限。部分用户因此对新版本持观望甚至质疑态度。

但在模型开放使用后的数小时内,随着开发者和研究人员开始测试更复杂的任务,一些用户发现,GPT-5.5 在长链条推理、持续执行和复杂问题处理方面表现出更加明显的代际差异。Brown 认为,这种「实际体验明显增强、榜单分数却变化有限」的现象,反映出传统评测没有完整呈现模型能力。

问题在于,不同模型的评测结果未必建立在相同的推理预算之上。

在传统评测框架中,研究者往往会为每个模型选择一套能够尽可能提高成绩的测试配置,再将最终分数放入同一张表格。这种方式看似公平,但可能掩盖一个关键变量:某些模型可以在获得更多推理 token、更多调用次数或更长运行时间后,继续显著提升表现;另一些模型则可能较早触及性能上限。

Brown 展示的网络安全评测案例表明,如果只比较各模型在所谓「最大测试时计算量」条件下的最终成绩,GPT-5.5 相较 GPT-5.4 的优势可能并不突出。但如果将 token 数量、推理成本或延迟控制在相同水平,再观察不同模型的表现,GPT-5.5 的能力提升会更加明显。



换言之,模型间的差距不仅体现在最终分数上,也体现在其利用额外推理计算量的效率上。

为什么不能简单地「跑到性能不再提升为止」

一种直观的解决方案是:为每个模型持续增加推理资源,直到其表现进入平台期,再比较各自的最高能力。

Brown 认为,这种思路在实践中未必可行。原因是,对于新一代模型而言,性能平台期可能远比预期更晚出现,甚至在现实可承受的预算范围内难以观测。

他引用了 Andrej Karpathy 发起的自动化研究实验作为例子。在相关实验中,模型持续执行大量试验后,性能仍然保持改善趋势。即使实验次数达到数百次,提升曲线也没有完全趋于平缓。



Brown 同时提到英国人工智能安全研究所(AI Security Institute)的网络安全评测结果。在该评测中,包括 Mythos 和 GPT-5.5 在内的部分模型,在累计使用超过 1 亿 token 后,任务表现仍然继续提高。



这一现象意味着,在复杂任务上,模型能够利用越来越长的运行时间和越来越大的推理预算,持续探索、试错和修正策略。更强的模型不仅起点更高,还可能更擅长将额外计算资源转化为有效能力。

Brown 据此推测,随着模型能力提高,其可有效运行的任务周期也会延长。过去,人们或许可以在相对有限的预算下观察到模型性能趋于稳定;未来,性能上限可能被不断推远。在某些任务中,所谓「平台期」甚至可能不再是一个容易测量的状态。

从单一分数转向「性能—成本曲线」

面对这一变化,Brown 建议,模型发布机构应改变基准测试的呈现方式。

与其只公布一个最终分数,不如在横轴上标注推理计算量,在纵轴上展示任务表现,绘制完整的性能变化曲线。横轴可以采用 token 数量、推理费用或实际运行时间等指标。

这种方法能够回答传统成绩表难以解释的问题。例如,在相同预算下,哪个模型表现更好?当预算增加十倍时,哪个模型提升更快?模型是否已经接近能力上限?不同模型的成本效益如何变化?

目前,部分基准测试已经开始采用类似方法。Brown 提到,ARC-AGI 等评测已尝试衡量模型分数与运行成本之间的关系,而不是只发布单一成绩。



另一种可行方案,是为评测设定明确的 token、成本或时间限制,并提前将预算信息告知模型。这种方式类似于人类参加标准化考试:无论是美国大学入学考试 SAT,还是国际数学奥林匹克竞赛,参赛者都需要在固定时间内完成任务。模型能力也可以在统一约束下进行比较。

不过,Brown 同时指出,不同指标都有局限。

token 数量未必能够直接跨模型比较,因为不同模型使用的分词器、生成速度和单位 token 成本可能存在差异。费用受到硬件利用率、批量处理方式和工程实现的影响。运行时间同样不是完美指标,因为「多智能体协作」或 best-of-N 等技术可以并行生成多个候选答案,在显著增加总计算量的同时,不一定明显增加用户感受到的等待时间。

尽管如此,他认为,上述指标中的任何一种,都比脱离推理预算的单一分数更具信息量。

推理预算问题正在延伸至人工智能安全评估

Brown 的讨论并不限于模型排行榜。他认为,推理预算还会直接影响前沿模型的安全治理。

在前沿人工智能模型发布前,研发机构通常会对网络攻击、生物风险、化学风险和其他潜在滥用能力进行评估。如果模型达到某一风险阈值,研发机构可能需要推迟发布,或在部署前增加访问限制、监控机制和其他缓解措施。

问题在于,如果模型能力会随着推理计算量增加而提升,那么安全评估应当使用多大的推理预算?

在现实中,普通用户可能只会为一次任务投入几美元或几十美元。但一个资金充足的组织、专业团队或国家级行为体,可能愿意为单一目标投入远高于普通用户的资源。如果评测机构只在较低预算下测试模型,就可能低估其在高资源条件下的风险能力。

Brown 以 Gemini 3 Deep Think 发布后的争议为例。他指出,Deep Think 的基准测试成绩显著高于此前模型,但发布时没有同步提供针对该版本风险能力的完整系统卡。这一做法引发部分人工智能安全研究者批评。





不过,在 Brown 看来,争议背后还有更深层的问题:人工智能企业和安全机构尚未形成一套稳定的方法,用于评估不同推理预算下的模型能力。

他推测,Deep Think 可能并不是一个完全独立训练的新模型,而是基于其他已有模型构建的一套推理脚手架系统。此类系统可以通过多次调用模型、并行生成候选结果、自动检验答案和迭代修正等方式,提高复杂任务表现。

如果这一判断成立,那么 Deep Think 所展示的部分能力,理论上并非只有平台自身能够实现。外部开发者只要愿意投入足够高的推理费用,也可能通过组合多次模型调用,构建出类似的工作流。Deep Think 的作用,更多是将原本需要专业开发能力的复杂推理流程,封装成普通用户也能便捷调用的产品形态。

因此,Brown 认为,真正值得关注的问题不是某一个产品是否单独发布了系统卡,而是当基础模型最初发布时,研发机构是否已经充分测试了它在不同推理预算和不同脚手架策略下可能达到的能力水平。

高预算评测难以全面实施,但可以尝试外推

理论上,一个资源充足的行为体可能为单一任务投入超过 1000 万美元的推理成本。但安全评估通常涉及成千上万甚至数百万次测试运行。如果每一次运行都使用极高预算,评测成本将迅速失去可行性。

Brown 提出,可以先在相对可控的推理预算范围内进行测试,再根据模型能力随计算量变化的趋势,对更高预算条件下的表现进行外推。同时,评测机构应明确标注预测区间和不确定性,而不是将推算结果视为确定结论。



这种方法类似于通过局部数据估算更大规模系统的变化趋势。它无法替代实际测试,但可以帮助研发机构和监管者理解:当模型被赋予更多时间、更多工具和更多计算资源后,风险边界可能发生怎样的变化。

不过,Brown 也承认,长周期任务仍然可能带来难以通过短期实验解决的问题。

例如,如果研究者希望判断一个自主智能体在持续运行一年后是否会出现目标偏移、策略欺骗或其他失配行为,那么最可靠的方法可能仍然是让该智能体实际运行足够长的时间。仅仅根据几小时或几天的实验结果进行外推,未必能够捕捉长期行为中的关键变化。

这将产生一个新的现实矛盾:人工智能模型的开发和发布周期可能只有数月,而智能体能够持续运行的任务周期却可能越来越长。未来,研发机构或许会面临一种特殊情况——新模型还没有完成覆盖其最大运行周期的安全测试,下一代模型就已经接近发布。

三项建议:让推理预算成为模型评估的基础变量

针对能力评测和安全治理中的上述问题,Brown 提出了三项具体建议。

第一,人工智能研发机构应当在发布新模型时,公布不同推理预算条件下的基准测试表现。理想情况下,企业应提供以 token 数量、成本或运行时间为横轴的性能曲线。至少,企业需要说明取得某一单点成绩时实际使用了多少推理资源。

第二,基准测试排行榜应当记录推理资源消耗,或者为参评模型设定统一的 token、费用或时间上限。目前,已经有部分评测开始纳入相关变量,但行业尚未形成标准做法。

第三,人工智能企业的准备度框架(Preparedness Framework)和负责任扩展政策(Responsible Scaling Policy,RSP)应当明确考虑推理阶段的计算资源。当机构判断模型是否跨越某一安全阈值时,不应只考察单一配置下的表现,还应评估多个推理预算水平,并对更高预算条件下的风险能力进行带有不确定性说明的预测。

行业已认识到问题,但评测体系仍未完全跟上

推理阶段增加计算资源可以提升模型表现,并不是一个全新的发现。

自 OpenAI 在 2024 年 9 月发布 o1 系列推理模型以来,行业已经普遍意识到:模型在回答问题时投入更多推理步骤,能够在数学、代码和复杂分析任务上取得更好的结果。围绕「测试时计算扩展」或「推理时计算扩展」的研究,也逐渐成为大模型发展的重要方向。

但 Brown 认为,在这一趋势出现近两年后,许多前沿模型发布仍然主要依靠单一基准分数进行传播和比较。部分安全机构也可能在某个脚手架系统使用数十倍、甚至上百倍推理预算获得更高成绩后,才重新审视模型能力边界。

随着模型越来越擅长利用长时间运行、多轮试错和大规模推理资源,传统排行榜的解释力可能继续下降。同一个基础模型,在低预算问答、高预算深度研究、多智能体协作和自动化工具调用等不同条件下,可能呈现出截然不同的能力水平。

Brown 的判断是,未来衡量人工智能能力时,推理预算不应再被视为测试过程中的附属信息,而应像模型规模、训练数据和上下文窗口一样,成为评测报告中的核心参数。

从更广泛的角度看,这也意味着,人工智能行业正在逐步告别「用一个数字定义一个模型」的阶段。对于能力评估、产品比较和安全治理而言,真正重要的问题可能不再只是模型能做什么,而是当它获得足够多的时间、资金和计算资源后,究竟可以做到什么程度。

参考连接:https://x.com/polynoamial/status/2064210146558136827