PI创始人Sergey Levine:我们为什么要造一台能理解世界的通用机器人

2026年04月18日 20:06
本文共计4859个字,预计阅读时长17分钟。
来源/机器人大讲堂 责编/爱力方

过去几年,人工智能最耀眼的故事,几乎都属于大语言模型。机器开始听懂语言、写出文章、完成推理,仿佛真的长出了“大脑”。但一个被长期忽略的事实是:一旦AI走出数字世界,踏进真实、杂乱、充满意外的物理场景,面对一间没见过的厨房、一堆形状不规则的物品、一项从未被预设的任务,绝大多数系统依然寸步难行。

机器人能搬运、焊接、会后空翻,却很难在陌生厨房里自主收拾碗筷;机械臂可以精准重复上万次动作,却无法应对一个位置偏移、一件材质特殊的东西。行业早已形成共识:机器人不缺电机与结构,不缺运动控制,真正缺的,是能理解世界、适应变化、把所有任务都做通的通用智能

Image

近日,Invest Like The Best栏目专访了全球机器人与具身智能领域的顶尖研究者、Physical Intelligence联合创始人Sergey Levine。这位曾在谷歌深耕、在加州大学伯克利分校带队的科学家,正走一条和主流截然不同的技术路线:不做只擅长单一任务的专用机器人,而是打造能控制任意机械体、适应任意环境、完成任意物理任务的机器人基础模型。

在数小时的对话里,Sergey没有堆砌术语,也没有描绘空洞的科幻未来,而是把通用机器人的困境、路径、争议与未来,一层层拆解得清晰而坦诚。他所做的事情,正在重新定义机器人的下一个时代。

PART 01

放弃“专精”,选择“通用”:一条反直觉却更长远的路

很多人第一次听到Physical Intelligence的方向都会疑惑:为什么不先做一款能高效洗碗、精准叠衣、稳定落地的专用机器人?把一件事做到极致,难道不比什么都做更现实吗?

Sergey给出的答案,违背直觉,却直指本质:从长期看,做通用机器人,比做无数个专用机器人更简单、更经济、更可持续。

他的判断,直接来自大语言模型的演进历史。在LLM出现之前,自然语言处理被细分任务切割:机器翻译、情感分析、文本分类各自为战。研究者为每个任务单独设计模型、标注数据、调优算法,成本高、扩展性差。直到通用大模型出现,用海量数据学习语言的底层规律,一个模型覆盖所有语言任务,泛化能力和成本效率,彻底碾压专用方案。

在Sergey看来,机器人正在复刻这一过程。按照传统思路,洗碗一套模型、叠衣一套模型、酒店清洁一套模型,每进一个新场景就要重新采集数据、重新训练、重新部署,不仅形不成技术复利,还会被无限抬高的成本拖死。人类之所以能快速学会新技能,靠的不是对单一动作死记硬背,而是拥有一套共通的物理常识——知道物体会坠落、力有方向、空间有结构,能凭这套底层直觉应对未知。

Physical Intelligence的目标,就是让机器人拥有这种通用物理智能。他们要做的不是某一款机器人,而是一类全新的基础模型:就像大模型能处理一切语言任务那样,让这套模型学会所有物理执行设备能完成的事。一旦通用模型成型,任何机械臂、任何机器人、任何新场景,只需要极少的适配数据就能落地,真正实现“一个大脑,控制所有身体”。

“我们不是在造机器人,我们是在为整个机器人世界,做一套操作系统。”Sergey说。

PART 02

通用机器人最残酷的真相:好看的Demo毫无意义,真正的突破是“泛化”

机器人行业有一个公开的秘密:做出惊艳的演示视频,远比做出能用的通用能力容易得多。

把机器人放在精心布置的环境里,控制光线、固定物品位置、反复调试参数,很容易让机械臂完成一次完美的高难度动作,在社交平台上收获惊叹。但这种温室里的表演,一进入真实世界的杂乱、变动与未知,立刻失效。

Sergey直言,这正是通用机器人研究最痛苦的地方:专用机器人容易炫技,通用机器人的突破,往往看起来平淡无奇。

Image

他提到团队此前公开的厨房清洁演示:机器人被放进一间完全没在训练数据里出现过的家庭厨房,没有人工干预、没有预设路径,却能自主识别餐具、收拾台面、完成清理。单看画面,机器人只是在做人类轻而易举的琐事,毫无炫酷感;但在行业内部,这是一次标志性的跨越——机器人第一次在完全陌生的环境里,靠常识完成任务,而不是靠固定程序与精准调试。

“通用智能的核心,不是在某一个完美场景下做到极致,而是在任何不完美的情况下,都能做出合理的行为。”Sergey说,他们选择的方向,注定做不出一秒抓住眼球的视频,但这是机器人从实验室走向现实的唯一可行路径。比起“能漂亮地做一次”,他们更在意“能在任何情况下把事情做成”。

PART 03

人形机器人很吸睛,但它不是机器人的未来全部

近两年,人形机器人成了科技圈最火的概念。特斯拉Optimus、波士顿动力Atlas、Figure等产品接连亮相,类人的肢体、灵活的动作,让大众默认:机器人就该长得像人。

但Sergey的观点非常明确:人形机器人只是一种形态,绝非终极答案。

他并不否认人形机器人的价值:直观、容易被人理解、能激发对未来的想象,在传播和认知上有天然优势。但从技术本质看,智能和身体形态无关。无论是双足人形、单臂机械台、无人机集群,还是微型医疗设备,它们需要的物理智能高度一致——物体交互、运动规律、因果判断,是所有物理系统共享的底层能力。

在他的构想里,未来机器人世界绝不会被“金属人”垄断。为任务而生、为效率优化,才是正确逻辑:天花板可以挂着多臂机器人,建筑现场可以用上万台无人机组成的集群,医疗可以进入微米级的微型机器人,工业可以是改造后的重型机械。这些形态千差万别的设备,完全可以共用同一套物理智能模型,只做少量微调就能适配。

Image

“机器人不必像人,就像飞机不必像鸟。我们要解决的是智能本身,而不是为某一种身体量身定做一套智能。”Sergey说。

PART 04

困扰机器人四十年的难题:常识从哪来?

过去四十年,机器人研究一直卡在一个死结:没有常识

路面漏油、临时路障、物品突然掉落,传统机器人只会瘫痪;人类却能凭经验快速判断。这种常识从何而来,曾是学界最大的谜题。直到多模态大语言模型出现,答案才真正浮现。

大模型有海量世界知识、语义理解和逻辑推理,短板是无法“落地”到物理空间;机器人擅长行动,却缺乏认知。两者结合,刚好补齐彼此最致命的缺陷。

Image

Sergey团队的技术路径,正是基于这一判断。他们先做视觉-语言-动作模型(VLA),把大语言模型改造为适合机器人控制的架构,先用文本数据建立认知,再用图像数据让模型看懂世界,最后用多样化机器人数据,把认知转化为动作。更关键的是,他们加入了思维链机制:让机器人先“想”,再“动”。

比如接到“清理厨房”的指令,机器人不会盲目挥舞手臂,而是先在内部完成推理:识别桌面上有什么、哪些是餐具、应该按什么顺序收拾、放到哪里。每一步推理,都调用大模型的知识,从而应对场景里的未知与变化。这是物理智能从“执行预设程序”走向“理解真实世界”的关键一步。

“过去我们不知道机器人的常识从哪来,现在我们找到了:来自多模态大模型的知识,来自海量数据沉淀的物理规律。”Sergey说。

PART 05

数据飞轮的真相:不必追求互联网级数据,先让机器人“有用”

行业里一直有一个经典追问:语言模型有互联网级文本数据,机器人没有这样的数据宝库,怎么训练通用模型?

Sergey的回答,打破了很多人的固有认知:我们不需要先算清楚到底需要多少数据,只需要先让机器人足够有用。

他以特斯拉为例:特斯拉从不担心自动驾驶数据不够,因为车先上路、先被使用,数据自然源源不断,形成“越用数据越多,数据越多越智能”的飞轮。机器人逻辑完全一致:当通用模型能真正进入家庭、工厂、酒店、餐厅,完成真实任务,机器人就会在工作中自主采集数据,不需要人工刻意收集,成本大幅下降,模型持续迭代。

在硬件上,他也提出一个反常识观点:通用机器人不需要堆料般的传感器。团队的测试平台只有三个低成本摄像头,没有触觉、没有力觉,依然能完成复杂精细操作。在他看来,好的学习算法,可以很大程度弥补传感器的不足,手腕上的相机,甚至能充当“伪装的触觉传感器”,通过视觉判断接触与形变。

硬件成本十年暴跌、通用模型效率持续提升,正在打破“高端机器人=高成本”的魔咒,让通用机器人的规模化落地,从不可能变成可能。

PART 06

莫拉维克悖论:人类觉得最简单的事,却是机器人的终极难题

机器人领域有一条无法绕过的规律——莫拉维克悖论:人类觉得难的事,比如微积分、逻辑推理,机器人很容易;人类觉得本能的小事,比如端杯子、开门、剥橘子、照顾婴儿,对机器人却是极高难度的挑战。

Sergey坦言,这一点在他们的研究中体现得淋漓尽致。在被称作“机器人奥运会”的日常任务测试里,他们的模型几乎完成了所有项目:开门、洗带油的平底锅、用塑料袋捡东西、剥橘子等。只有两项失败:把衬衫翻面,因为机械爪伸不进袖口;纯用手指剥橘子,因为力度控制不够。

而在他心中,机器人真正的终极难题,是老人照护与婴儿护理。这类任务涉及极高安全风险、精细触觉、复杂情感交互,是人类亿万年进化出的本能,融合了物理智能、社交认知与情绪判断,是通用机器人最后才能攻克的堡垒。

“这些看起来不起眼的日常动作,恰恰是物理智能的巅峰。我们能让机器人完成精密工业操作,却很难让它温柔地抱起一个孩子。”Sergey说。

PART 07

机器人的寒武纪大爆发:当任何人都能造一台机器人

回顾科技史,个人电脑打破了大型机的垄断,把使用门槛降到最低,引爆了创新的寒武纪大爆发。无数人基于PC做出海量应用,彻底改变社会。在Sergey眼里,机器人会走完全一样的路。

当通用物理智能模型成熟,机器人的开发门槛会大幅降低:任何人都可以在车库里组装一台自定义机器人,加载通用模型,用自然语言下指令,再简单微调就能适配自己的场景。不再需要庞大团队、海量标注、专业算法工程师,普通人也能参与机器人创新。

“我们不会被少数几款机器人形态定义,而是会迎来无数形态、无数用途的机器人。”Sergey说,物理智能模型的核心价值,就是把创新门槛拉平,让机器人从专用工业设备,变成人人可用、人人可改的工具,就像今天的电脑和手机。

趋势已经非常明确:十年前,一台科研级机器人造价近40万美元;如今,同款机械臂成本已跌至十分之一,并且还在继续下降。硬件与软件的双重跃进,正在把机器人推向大众化创新的时代。

PART 08

在乐观与谨慎之间:一位顶尖研究者的清醒

在全球机器人研究者里,Sergey的位置很特别:比保守的学院派更乐观,比狂热的创业者更谨慎。

他的乐观,来自亲眼看见的技术突破:从早期端到端学习,到深度强化学习成熟,再到多模态大模型与物理智能结合,困扰行业的难题正在一块块被补上。他的谨慎,则来自机器人领域的长期教训——翻过一座山,总会看见下一座,通用智能没有终点,只有持续的突破与迭代。

谈到行业榜样,他提到波士顿动力和OpenAI。他欣赏波士顿动力长期坚持探索边界,用一次次演示改变人们对“不可能”的认知;更推崇OpenAI的研发氛围,给研究者足够空间,让小众的宠物项目,长成改变世界的产品。这也是Physical Intelligence坚持的理念:尊重基础研究,鼓励自由探索,长期做难而正确的事。

“机器人不是短跑,是需要耐心的马拉松。我们不追短期的热闹,只专注把真正通用的物理智能做出来。”Sergey说。

PART 09

结语与未来

大语言模型解放了脑力,物理智能终将解放体力。

当机器人真正拥有理解世界、适应环境、泛化完成任务的能力,它就不再是实验室展品、工厂专用设备,而是融入生活的助手、生产中的伙伴、探索世界的延伸。

Sergey和他的团队,正在走一条孤独但重要的路:放弃短期可见的商业收益,沉下心打造机器人的通用大脑。他们不做昙花一现的演示,不追市场追捧的形态,只坚守一个判断:通用,是物理智能唯一的出路。

我们依然无法精准预测通用机器人落地的具体时间,但可以确定:当AI真正拥有身体、理解物理世界,人类的工作、生活与生产方式,都会被彻底改写。而这场变革的起点,正是一群人,对“通用物理智能”的长期坚守。

来源:PI创始人Sergey Levine:我们为什么要造一台“能理解世界”的通用机器人 | 机器人大讲堂

声明:本文来自机器人大讲堂,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/