腾讯姚顺雨:AI是长期游戏,下半场刚刚开始

2026年06月05日 16:28
本文共计6119个字,预计阅读时长21分钟。
来源/财联社 责编/爱力方

《科创板日报》6月5日讯(记者 李佳怡) 今日,腾讯云AI产业大会如期举行。《科创板日报》记者赶到主论坛现场时发现,场内早已座无虚席,就连入口处的过道也被人群挤满,几乎没有落脚之处。记者了解到,不少参会观众都是慕腾讯首席AI科学家姚顺雨之名专程而来。

姚顺雨曾任OpenAI研究员,于2025年12月加入腾讯,出任“CEO/总裁办公室”首席AI科学家,并直接向腾讯总裁刘炽平汇报。同时,他还兼任AI Infra部以及大语言模型部负责人。

在大会现场,腾讯集团高级执行副总裁汤道生与腾讯首席AI科学家、混元大语言模型及AI Infra负责人姚顺雨展开了对谈。姚顺雨围绕“AI下半场”这一主题,分享了其对行业趋势、模型演进以及产品协同的核心判断。

▎AI下半场的定义与选择腾讯的原因

汤道生:为什么会在AI进入下半场时选择来到腾讯?在你看来,AI下半场最关键的是什么?

姚顺雨:首先需要解释一下,什么叫做“下半场”,因为最近这个词的确有些被滥用。这个概念最早是去年在一篇博客中提出来的。过去几十年里,AI一直在持续发展,但更重要的,其实始终是如何解决问题,以及如何找到更好的方法。到了最近,方法论已经变得相当成熟,但真正更困难的,反而成了寻找问题。

比如说,过去发明AIphaGo是为了下围棋,但这种方法只适用于围棋或者其他棋类。不过在有了预训练和后训练之后,逐渐发现它其实是一种通用方法论,能够解决各种各样的问题,反而更困难的,是如何找到真正值得解决的好问题。

之所以加入腾讯,很重要的一点在于,这里既有很多值得解决的好问题,也有很多可以落地的产品。

一方面,好的产品可以回应这一问题,也就是在完成预训练和后训练之后,究竟应当把它应用到什么地方来产生价值;另一方面,环境同样非常重要,如果没有合适的环境,Agent就没有办法去做各种各样的事情;其中最重要的是context,无论是企业还是个人都是如此。模型越来越擅长把一个非常复杂的输入转化为输出,很多时候,竞争壁垒就在于是否拥有最原始的输入,而在这一点上腾讯具备非常强的优势;另一个最重要的原因是文化。第一次与总办相关负责人交流时,最直接的感受就是大家都非常诚实,哪里做得好、哪里做得不好,都会讲得非常直白,也不会刻意掩盖;此外,腾讯总体上是一家基于trust、而不是基于metric来运转的公司,这一点对于做AI非常重要。同时,腾讯的文化当中还有非常low ego、非常solid的一面,这些文化对于长期建设一个AI组织也非常重要。

AI下半场最重要的是什么?在个人看来,更重要的是在中国建立一个长期推进、以AGI为基础的组织。今天的AI主要包含三个部分:Foundation,也就是如何把预训练和后训练这些最基础的内容做得足够solid;产品,也就是如何让这样的技术真正为人与社会产生价值;Frontier,也就是如何探索新的研究范式,以及探索新的机会。

个人认为,最重要的一点在于构建一个高度均衡的三角形组织。对于foundation而言,首要的是具备充足的资源,其次则是需要有正确的做事方式。对于产品来说,是否具备良好的产品sense,以及是否拥有真正做产品的人,都是至关重要的。第三,在中国当下所开展的前沿探索仍然不够多,因此希望能够把frontier exploration的精神更多地注入到组织之中。

汤道生:腾讯在做事方式以及产品理念上,始终坚持实事求是。毕竟AI赛道是一场长跑,认知在其中同样重要,做得好的地方与做得不好的地方都需要如实承认,关键在于这本身是一场多维度的竞赛。当前模型已经取得了很多进步,产品也在演化出越来越多的形态,不同场景对应着不同需求,因此未来依然值得期待。

▎Co-Design:产品与模型的相互成就

汤道生:你提到模型和产品,产品在很大程度上是在提供一个环境,并为模型提供context这一上下文。我想进一步问的是,常说的Co-Design,究竟应当怎样把产品与模型更紧密地结合起来。今天已有元宝、AI搜索、智能客服、CodeBuddy、Workbuddy等多样产品,它们对模型的依赖都很深,你怎么思考Co-Design?

姚顺雨:第一,Co-Design的前提在于模型本身足够solid。首先,预训练是一件相对agnostic的事情,其最大的特点在于,它属于可泛化的学习过程,因此每一次进步都可以为各种下游任务带来持续的价值提升;至于后训练,最重要的一点则是设立正确的Eval。当前在中国,一个不太好的倾向是偏好刷榜,但更重要的其实是坚持实事求是,基于产品以及真实应用,构造更加真实的Eval。

第二,需要明确“实用性”价值高于刷榜价值,围绕这一点已经开展了大量工作,并与各类产品进行了深度Co-Design,而Co-Design的关键在于形成相互信任;第三,LLM时代最本质的区别在于泛化性。今天即便只是做一个Coding Agent,也仍然需要聊天、搜索、指令遵循以及推理等复合能力。

汤道生:内部Eval与外部榜单之间,究竟有什么区别?

姚顺雨:首先,benchmark仍然具有其自身的价值,只不过这些榜单非常容易出现overfitting。真实世界数据可以帮助发现模型的底线问题,而预览版所承担的目的,就是获取真实反馈;另外,借助真实的Prompt distribution,也会对用户实际提问的分布形成更深入的理解。在现实场景当中,用户提出的问题往往比较模糊,模型会持续进行追问,而这一过程可以反过来启发训练;甚至还可以从这些产品当中获得灵感,进一步推动新榜单或者新领域的发展。产品与模型之间的相互成就,正在成为越来越重要的AI议题。

▎产品第一性原理与混元3.0的改进

姚顺雨:您做过QQ空间、QQ音乐,也覆盖了从云到元宝,toC和toB两端都有涉及。您做产品时的第一性原理是什么?其中哪些是不变的,哪些又是变化的?

汤道生:做产品这件事,不变的始终是围绕用户需求来展开,核心在于解决痛点并创造价值;无论处于怎样的时代,还是面对怎样的行业,这一点都始终如此。

变化体现在PC和移动时代,产品更像“预制菜”,只提供固定的功能菜单;到了AI时代,产品则转向开放式,用户会提出什么问题并不预先确定,需要依赖模型完成理解、推理以及工具调用,而产品负责提供相应的工具与环境。就连研发流程也在变化——今年大部分代码已由AI生成,工程师更多承担设计工作,测试持续左移,并且需要对开放式答案进行alignment,整体能力要求也更加全面。

汤道生:混元Hy3 preview可以说是你在腾讯的首次亮相,那么混元3.0具体进行了哪些改变?

姚顺雨:主要有三点。第一,是对Infrastructure进行重建,无论是预训练还是强化学习预,都需要在这一层面完成相应调整;第二,是改变数据和Eval,也就是要进一步思考如何定义更真实的问题、如何丰富数据的taxonomy,以及如何提高数据的质量,而这本身是一个没有终点的持续过程;第三,很多决策本质上是taste driven的,并不存在非常清晰的公式。个人也比较好奇,您如何看待Co-Design的边界,也就是哪些应当由模型来做,哪些应当由产品来做?

汤道生:Co-Design会随着模型能力的变化而变化。最深的感受其实是对齐:产品要解决某个问题,模型则需要数据,但数据如何标注、如何奖惩,以及评测是否认同,如果各方没有对齐,产品行为就会变得不可预测。关键在于让多个角色对开放式问题达成一致。

姚顺雨:在个人看来,最难的事情是建立信任以及同理心。做模型与做产品,在目标层面天然存在不align之处。举一个细节来说,曾安排后训练最强骨干去支持元宝开展后训练工作,当时预训练还没有准备好,很多算法同学并不理解,但现在回头来看,这一动作让产品团队意识到,模型团队确实是在为产品着想,并为Hy3 preview在元宝上线发挥了重要作用。技术问题可以探讨,真正最难的反而是信任以及换位思考。

汤道生:对于混元开展下一代模型研发而言,Token的调用环节中,你认为哪些方面比较重要?

姚顺雨:今天,Agent毫无疑问已经成为各家模型重点发力的方向,而在具体方法上,可能存在几个差异:

第一,尽管当下Coding已经成为最重要的方向,但仍然会持续强调体系层面的全面化。始终认为,要把Coding真正做好,所需要的远不只是Coding本身的数据,同时还离不开聊天、推理以及各种不同类型的能力,因为大模型最核心的一点就在于其泛化性。

第二,产品的作用显然正在变得越来越重要,如何把线上回流利用好,已经成为每一家模型厂商都在持续应对和思考的问题。在这一过程中,积累足够多的CoDesign经验会变得非常重要。

第三,个人认为还需要具备更多的想像力。无论是技术的演进,还是产品的演进,甚至是下一阶段范式的演进,都需要去开展具有探索性、乃至带有不确定性的工作。

▎从ReAct到智能体

汤道生:你提出了ReAct架构,博士阶段的研究也围绕语言智能体来展开。几年前提出的那些观点,到今天是否已经得以兑现?

姚顺雨: 之前曾重新读过2019年的博士论文《Language Agent: from next token prediction to digital automation》。那时的GPT2还只能完成next token prediction,输出既不流畅,也仍带有毛刺。当时所形成的设想其实相当大胆:GTP未来的潜力并不只在于吐出下一个Token,更在于把这个世界上的各种事情全部automate。从现在来看,当时的想象仍然不够大,最初所指向的是digital automation,但现在看来,也有可能进一步走向digital and physical automation。

博士期间主要开展了两部分工作:其一,是如何建立一套Agent方法论,其中最重要的一项工作就是ReAct。2022年7月,第一次把Palm 2 API与Wikipedia API连接在一起,让LLM能够基于网页进行多轮问题回答,在那个瞬间,感觉就像一盏微弱的电灯突然被点亮,因为那或许意味着,人类第一次把LLM与互联网连接起来并开展多轮交互。其二,是对digital automation任务进行定义,例如WebShop、InterCode以及SWE-bench。

从现在来看,Agent最重要的方向就是外部Agent以及Coding Agent。博士论文结尾所列的future work,包括train models for Agent、robust deployment、scientific discovery、help human,如今也确实有幸在做当时列出的future direction,这一点令人颇为感慨。

▎Token效率、Agent产品与组织变革

汤道生:当前,行业内普遍存在Token焦虑,同时Token成本也在呈现爆发式增长。对于如何优化Token效率,个人想进一步了解你的看法。

姚顺雨:在中国讨论性价比,不能只看模型架构。第一是performance,更好的模型如果能够一次做对,反而会更省钱,尤其在今年,简单任务的robustness十分重要。第二是成本,中国在这方面领先于世界,最重要的是思考如何用更小的模型把更高价值的任务做好,并在此基础上推进架构创新,脚手架层面还有很多事情需要做。

个人觉得,大概是在2022年下半年,开始逐步意识到Agent会成为一种新的产品机会。原因在于,当模型具备了更强的理解、推理以及调用工具的能力之后,它所能够完成的,就不再只是单轮问答,而是可以围绕一个目标去持续分解任务、执行步骤并完成反馈闭环,这实际上已经接近一种新的产品形态。

如果从当前的认知来看,Agent最核心的价值,在于把模型从“回答问题”进一步推进到“完成事情”。也就是说,重点不只是生成一段文本,而是要在真实环境当中,借助记忆、工具、工作流以及外部系统,去完成具有连续性的任务。在这个过程当中,产品所提供的环境、上下文以及约束条件,都会直接决定Agent最终能做到什么程度。

至于现在距离一个真正好用的Agent还有哪些瓶颈,个人认为主要集中在几个方面。第一,模型能力本身还不够稳定,尤其是在复杂任务、长链路任务以及开放环境当中,仍然会出现理解偏差、推理漂移或者执行不稳定的问题。第二,缺少足够真实的环境以及高质量的context,如果没有这些基础,Agent即使有能力,也很难把事情真正做好。第三,评测体系还不够完善,很多时候并不知道一个Agent到底是“看起来能用”,还是真的“在生产环境中可用”。第四,产品与模型之间的Co-Design仍然非常关键,也就是哪些能力应当交给模型,哪些环节应当借助产品机制来兜底,这里面还需要不断打磨。

总体来看,Agent的方向已经比较明确,但距离大规模、稳定、低成本并且真正让用户信任的阶段,仍然需要在模型、产品、数据以及环境这几个层面同时推进。

汤道生:在不同场景当中,对Agent进行设计时,需要把模型能力充分发挥出来。模型能力越强,Agent所需要承担的中间环节工作就越少。随着模型能力不断提升,产品本身可以进一步简化,并转而提供更多工具、技能以及记忆。不同场景例如编码、办公协作所需要的相关信息并不相同,关键在于理解场景当中哪些内容与当前任务最为相关,让模型获得其所需的信息,从而更高效地完成任务。

姚顺雨:Workbuddy等产品的背后,是小团队在快速迭代。您觉得在AI时代,研发以及组织管理究竟发生了哪些变化?

汤道生:Workbuddy采取的是非常扁平化的组织形态,三五个人围绕一个领域持续攻坚,在开展大量试验的同时,也要包容团队的试错,这正是原生AI产品所需要的组织方式。另外,工程师把代码编写交给AI之后,更像是在驱动多个Coding Agent的leader,围绕产品需求去推进研发与开发,同时还要参与评测与测试,也要把AI能力真正用好,从而把质量保证以及对齐工作尽可能前置。

▎AI是长期游戏,下半场刚刚开始

汤道生:不少人都认为腾讯在AI上的进展偏慢。你觉得这种看法真的准确吗?

姚顺雨:这个问题其实更适合反过来由您来回答。对于今天的AI,有两个判断:第一,AI是一场长期游戏,而不是一个短期窗口。他指出,硅谷部分从业者抱着“赶快赚两年钱退休”的心态并不可取,因为AI才刚刚开始,ChatGPT和Claude Code不会是仅有的超级应用,未来还会持续诞生新的产品机会,“今天可能就像70年代PC刚刚产生的时候”;第二,AI会走向多元,而不会沿着单一路径发展。过去几年,行业主要沿着预训练、后训练以及Agent这条清晰主线推进,但在未来,除了Coding Agent之外,多模态、具身智能等大量新方向都正在或即将形成,整个世界“还有很多空间没有被填满”。

汤道生:腾讯是一家多业态公司,有快有慢,也有失败与探索。但正如前面所说,这本质上是一场长跑。腾讯已经积累了丰富的场景以及context,在这场长跑当中,也希望大家多提醒、多提建议,并更多地使用腾讯的产品。

来源:对谈实录 | 腾讯姚顺雨:AI是长期游戏,下半场刚刚开始 | 财联社

声明:本文来自财联社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/