OpenAI科学家Noam Brown:AI的真正上限可能根本没人测得起
OpenAI科学家Noam Brown指出,AI的真正上限,可能从根本上就无人能够测得起
如果给AI投入一千万美元,它的智能水平究竟还能够提升到什么程度?
随着大语言模型逐步迈入复杂推理、自动化研究以及网络安全等高难度任务领域,传统的模型评测方式也正在面临新的挑战。
长期以来,模型的发布通常都会伴随一张由多项基准测试共同构成的成绩表,其中数学、编程、科学问答、网络安全以及知识推理等方面的能力,往往会被压缩为若干项分数,并以此为依据与上一代模型开展横向比较。
OpenAI 研究员 Noam Brown 近日在文章中指出,当模型在回答问题时能够运用更多的推理步骤、调用更多的工具,或者开展持续时间更长的搜索与试验时,单一分数已经越来越难以准确反映模型的实际能力。
Brown 的核心观点在于:大模型的整体表现,不仅取决于模型自身的能力,也越来越受到其在推理阶段所获得计算资源多少的影响。未来在对模型开展评估时,不能只问“模型得了多少分”,还需要进一步回答另一个问题:模型是在消耗多少 token、多少费用以及多长运行时间的前提之下,获得这一成绩的?

他提出,行业应当把「单点成绩」转向「性能—推理计算量曲线」,并把推理预算视为模型能力评估以及人工智能安全政策当中的基础变量。

新一代模型之间的能力差距,可能正在被传统成绩表所低估
Brown 以 GPT-5.5 发布之后的市场反应作为例证,用来说明传统模型排行榜在评估层面所存在的局限性。
按照他的描述,在 GPT-5.5 发布的初期阶段,外界最先注意到的,是一组并不算十分显眼的基准测试成绩。与 GPT-5.4 相比,这一新模型的分数虽然有所提高,但如果仅从常规成绩表来看,其提升幅度似乎仍然相对有限。也正因如此,部分用户因此对这一新版本持观望态度,甚至提出了质疑。
但在模型开放使用后的数小时之内,随着开发者以及研究人员开始对更复杂的任务进行测试,一些用户发现,GPT-5.5 在长链条推理、持续执行以及复杂问题处理等方面,表现出了更为明显的代际差异。Brown 认为,这种“实际体验被明显增强、榜单分数却变化有限”的现象,反映出传统评测并没有把模型能力完整呈现出来。
问题的关键在于,不同模型所对应的评测结果,未必是在相同的推理预算前提之下得出的。
在传统的评测框架之中,研究者通常会为每一个模型选用一套尽可能提升成绩的测试配置,再把最终所得分数放入同一张表格之中。这种做法看似公平,但却可能掩盖一个关键变量:某些模型在获得更多推理 token、更多调用次数或者更长运行时间之后,仍然可以继续显著提升表现;而另一些模型则可能会较早触及性能上限。
Brown 所展示的网络安全评测案例表明,如果仅比较各模型在所谓「最大测试时计算量」这一条件下所取得的最终成绩,那么 GPT-5.5 相较于 GPT-5.4 的优势可能并不会显得十分突出。但如果把 token 数量、推理成本以及延迟控制在相同水平之下,再对不同模型的表现进行观察,那么 GPT-5.5 的能力提升就会更加明显。
换言之,模型之间的差距不仅会体现在最终得分之上,也会体现在其对额外推理计算量加以利用的效率方面。
为什么不能简单地“持续运行,直到性能不再出现提升”为止

一种看似直观的解决方案是:持续为每个模型增加推理资源,直到其表现进入平台期,然后再对各自所能达到的最高能力进行比较。
Brown 认为,这一思路在实际操作中未必具备可行性。其原因在于,对于新一代模型而言,性能进入平台期的时间点可能会比预期更晚出现,甚至在现实可承受的预算范围之内也难以被观测到。
他以 Andrej Karpathy 发起的自动化研究实验作为例证。在这一相关实验之中,模型在持续开展大量试验之后,性能仍然维持着改善趋势。即使实验次数已经达到数百次,提升曲线也仍未完全趋于平缓。
Brown 同时提到英国人工智能安全研究所 AI Security Institute 所开展的网络安全评测结果。在该项评测之中,包括 Mythos 以及 GPT-5.5 在内的部分模型,在累计使用超过 1 亿 token 之后,任务表现仍然在继续提高。
这一现象所意味着的是,在复杂任务之上,模型可以依赖越来越长的运行时间以及越来越大的推理预算,持续开展探索、试错以及策略修正。能力更强的模型不仅具备更高的起点,还可能更善于把额外的计算资源转化为实际有效的能力。

Brown 据此进一步推测,随着模型能力的持续提高,其能够有效运行的任务周期也会相应延长。过去,人们或许还可以在相对有限的预算条件之下观察到模型性能逐步趋于稳定;而在未来,性能上限则可能会被不断向外推远。在某些任务场景之中,所谓「平台期」甚至可能不再是一种容易加以测量的状态。

从单一分数转向「性能—成本曲线」
面对这一变化,Brown 建议,模型发布机构有必要调整基准测试的呈现方式。
与其仅仅公布一个最终分数,不如在横轴上对推理计算量进行标注,并在纵轴上对任务表现加以展示,从而绘制出完整的性能变化曲线。横轴可以选用 token 数量、推理费用或者实际运行时间等指标。
这种呈现方式可以对传统成绩表难以加以解释的问题作出回答。例如,在相同预算条件之下,哪个模型的表现会更好?当预算提高十倍时,哪个模型的提升会更快?模型是否已经接近其能力上限?不同模型的成本效益又会如何变化?
目前,部分基准测试已经开始引入类似的方法。Brown 提到,ARC-AGI 等评测已经尝试对模型分数与运行成本之间的关系进行衡量,而不再只是发布单一成绩。
另一种具备可行性的方案,是为评测过程设定清晰的 token、成本或者时间边界,并提前把相关预算信息提供给模型。这种做法与人类参加标准化考试较为相似:无论是美国大学入学考试 SAT,还是国际数学奥林匹克竞赛,参赛者都需要在既定时间内完成相应任务。模型能力同样可以在统一约束条件之下加以比较。
不过,Brown 同时指出,不同指标都有局限。

token 数量未必能够被直接用于跨模型比较,因为不同模型所运用的分词器、生成速度以及单位 token 成本之间,可能会存在差异。费用也会受到硬件利用率、批量处理方式以及工程实现等因素的影响。运行时间同样并不是完美的指标,因为诸如「多智能体协作」或者 best-of-N 之类的技术,可以并行生成多个候选答案,并在显著增加总计算量的同时,不一定会明显增加用户实际感受到的等待时间。
尽管如此,他仍然认为,在上述各项指标之中,无论选用其中的哪一种,都比脱离推理预算而单独给出的分数具备更多信息量。
推理预算这一问题,正在进一步延伸到人工智能安全评估之中
Brown 的讨论并不局限于模型排行榜。他认为,推理预算还会对前沿模型的安全治理产生直接影响。
在前沿人工智能模型正式发布之前,研发机构通常会对网络攻击、生物风险、化学风险以及其他潜在滥用能力开展评估。如果模型达到了某一风险阈值,那么研发机构可能需要推迟发布,或者在部署之前增加访问限制、监控机制以及其他缓解措施。
关键问题在于,如果模型的能力会伴随推理阶段计算量的增加而持续提升,那么在开展安全评估时,究竟应当设定多大的推理预算?
在现实情境之中,普通用户可能只会为单次任务投入几美元或几十美元;但资金充足的组织、专业团队以及国家级行为体,则可能愿意围绕单一目标投入远高于普通用户的资源。如果评测机构仅在较低预算条件下对模型开展测试,那么就可能低估其在高资源条件之下所具备的风险能力。
Brown 以 Gemini 3 Deep Think 发布后所引发的争议作为例证。他指出,Deep Think 的基准测试成绩较此前模型出现了显著提升,但在发布时并未同步提供针对该版本风险能力的完整系统卡。这一做法也因此引发了部分人工智能安全研究者的批评。
不过,在 Brown 看来,这场争议的背后还存在着一个更深层的问题:人工智能企业以及安全机构,至今尚未形成一套稳定的方法,用来评估模型在不同推理预算条件之下的能力。


他进一步推测,Deep Think 也许并非一个经过完全独立训练的新模型,而更可能是以其他已有模型为基础所构建的一套推理脚手架系统。这类系统可以借助多次调用模型、并行生成候选结果、自动检验答案以及迭代修正等方式,提升其在复杂任务之中的整体表现。
如果这一判断得以成立,那么 Deep Think 所展示出的部分能力,从理论层面来看,并不只有平台自身才能够实现。外部开发者只要愿意投入足够高的推理费用,也同样可能借助多次模型调用的组合方式,构建出与之类似的工作流。Deep Think 所发挥的作用,更多在于把原本需要专业开发能力才能完成的复杂推理流程,封装成为普通用户也可以便捷调用的产品形态。
因此,Brown 认为,真正需要被关注的核心问题,并不在于某一个产品是否单独发布了系统卡,而在于当基础模型最初被发布时,相关研发机构是否已经在不同推理预算以及不同脚手架策略之下,对其可能达到的能力水平进行了充分测试。
高预算条件下的评测工作虽然难以得到全面实施,但仍然可以尝试开展外推分析
从理论层面来看,资源充足的行为体完全可能围绕单一任务投入超过1000万美元的推理成本。但安全评估往往会涉及成千上万次、甚至数百万次测试运行。如果每一次运行都选用极高预算,那么整体评测成本就会迅速失去现实可行性。
Brown提出,可以先在相对可控的推理预算范围之内开展测试,再依据模型能力随计算量变化所呈现出的趋势,对更高预算条件之下的表现进行外推分析。同时,评测机构应当明确标注预测区间以及不确定性,而不应把推算结果视为确定性的结论。
这种方法与借助局部数据来估算更大规模系统变化趋势的思路较为接近。它虽然无法替代实际测试,但可以帮助研发机构以及监管者理解:当模型被赋予更多时间、更多工具以及更多计算资源之后,风险边界可能会发生怎样的变化。

不过,Brown 也承认,长周期任务仍然可能会带来那些难以借助短期实验加以解决的问题。
例如,如果研究者希望判断一个自主智能体在持续运行一年之后,是否会出现目标偏移、策略欺骗以及其他失配行为,那么最为可靠的方法,可能仍然是让该智能体实际运行足够长的时间。仅仅依据数小时或者数天的实验结果来开展外推分析,未必可以捕捉长期行为当中的关键变化。
这将引出一种新的现实性矛盾:人工智能模型的开发以及发布周期可能仅有数月,而智能体所能够持续运行的任务周期却可能变得越来越长。未来,研发机构或许会面临这样一种特殊情形:新模型尚未完成对其最大运行周期的安全测试,下一代模型就已经接近发布。
三项建议:应把推理预算视为模型评估中的基础变量
围绕能力评测以及安全治理当中的上述问题,Brown 进一步提出了三项具体建议。
第一,人工智能研发机构在发布新模型时,应当同步公布其在不同推理预算条件之下的基准测试表现。理想情况下,企业应当提供以 token 数量、成本或者运行时间作为横轴的性能变化曲线。至少,企业需要说明在取得某一单点成绩时,实际消耗了多少推理资源。
第二,基准测试排行榜应当对推理资源的消耗情况进行记录,或者为参评模型统一设定 token、费用或者时间方面的上限。当前,已有部分评测开始把相关变量纳入其中,但行业层面仍然尚未形成标准化做法。
第三,人工智能企业的准备度框架Preparedness Framework以及负责任扩展政策Responsible Scaling Policy,也就是RSP,应当把推理阶段的计算资源明确纳入考量范围。当相关机构判断模型是否已经跨越某一安全阈值时,不应仅仅考察单一配置条件下的表现,还应对多个推理预算水平开展评估,并对更高预算条件之下的风险能力进行附带不确定性说明的预测。
行业已经逐步认识到这一问题,但相应的评测体系仍然尚未完全跟上
在推理阶段增加计算资源,能够带动模型表现的提升,这并不是一项全新的发现。
自 OpenAI 于 2024 年 9 月发布 o1 系列推理模型以来,行业已经普遍认识到:模型在回答问题的过程之中投入更多推理步骤,往往能够在数学、代码以及复杂分析任务方面取得更优的结果。围绕「测试时计算扩展」或者「推理时计算扩展」所开展的研究,也逐步成为大模型发展的重要方向。
但 Brown 认为,尽管这一趋势已经持续出现了近两年,许多前沿模型在发布时,仍然主要依赖单一基准分数来进行传播以及比较。部分安全机构也可能要等到某个脚手架系统在运用数十倍、甚至上百倍推理预算而取得更高成绩之后,才会重新审视模型能力的边界。
随着模型日益擅长对长时间运行、多轮试错以及大规模推理资源加以利用,传统排行榜在解释能力方面的效力,可能会继续下降。同一个基础模型,在低预算问答、高预算深度研究、多智能体协作以及自动化工具调用等不同条件之下,可能会呈现出截然不同的能力水平。
Brown 的判断在于,未来在衡量人工智能能力时,推理预算不应再被视为测试过程中的附属信息,而应当像模型规模、训练数据以及上下文窗口一样,成为评测报告当中的核心参数。
从更为广泛的角度来看,这也意味着人工智能行业正在逐步告别“借助一个数字来定义一个模型”的阶段。对于能力评估、产品比较以及安全治理而言,真正重要的问题或许已不再只是模型能够做什么,而是当它获得足够多的时间、资金以及计算资源之后,究竟可以把能力推进到什么程度。
参考连接:https://x.com/polynoamial/status/2064210146558136827
本文来自微信公众号“机器之心”账号almosthuman2014,作者为长期关注AI评测的相关人士
来源:OpenAI科学家Noam Brown:AI的真正上限,可能根本没人测得起-36氪 | 36氪