王启斌:当机器学会动手,具身智能的胜负手不在整机

2026年06月08日 15:17
本文共计3368个字,预计阅读时长12分钟。
来源/具身研习社 责编/MoRanShiguang 墨染时光

2026年的具身智能赛道,喧嚣从未停止。

一边是资本热钱持续涌动,头部公司的估值随之水涨船高;另一边却是商业化落地所面临的骨感现实,“融资热、落地难”这一矛盾也因此显得愈发尖锐。

在这场围绕未来展开的豪赌之中,灵初智能创始人兼CEO王启斌所呈现出的姿态,显得格外“另类”。

他并未追逐人形机器人的风口,也没有陷入价格战的泥潭,而是把注意力持续聚焦在机器人的“手”这一核心环节之上。

这位曾亲历2018年机器人周期的资深从业者,依托其在云迹科技以及京东机器人所积累的实战经验,于2024年正式创立了灵初智能。

他的判断显得十分笃定:“操作才是皇冠上的明珠,移动只是入场券。”

在王启斌看来,具身智能正在经历一场深层次的范式转移。以下内容集中体现了他围绕技术路线、数据壁垒以及商业终局所展开的系统性思考。

图片来源自互联网

王启斌

790f4e6a3e21302f96a14744da6ce406.jpg

灵初智能创始人兼CEO,亦是具身智能领域的资深从业者,在消费电子以及机器人赛道已积累近20年的行业经验,完整经历了从功能机到智能机、从智能音箱到具身智能的多轮产业变革。

2008年毕业于乔治华盛顿大学,随后先后在黑莓智能手机以及Sonos智能音箱任职,主导公司产品全球化研发与商业化落地相关工作,对终端产品的定义以及量产环节形成了敏锐直觉。其在消费电子领域深耕十年,完整经历了移动互联网以及智能硬件的关键变革时期。

2018年,王启斌判断机器人将会成为“下一个终端形态”,因此毅然转入机器人赛道,先后在云迹科技以及京东X Lab任职,深度参与室内配送机器人与L4级无人车的研发工作,也由此清晰洞察到移动能力所存在的局限性,以及操作能力长期缺失这一关键问题。

2024年,基于对行业周期的深刻认知,其创立了灵初智能,致力于借助人类数据以及强化学习,攻克通用机器人在灵巧操作方面的难题,推动具身智能从“移动”向“操作”实现跨越。公司成立一年半内累计融资超过20亿元,估值上涨逾六倍。

以下内容综合整理自王启斌近期接受腾讯科技、雷锋网以及科技潜线等国内媒体与自媒体专访的相关信息。

一、拒绝“半身不遂”:操作才是皇冠上的明珠

回顾机器人的演进历程,过去十年间的行业焦点始终集中在“脚”这一环节之上。从室内场景中的扫地机到室外场景中的无人车,行业已经相继解决了“移动”以及“导航”的问题。但当机器人把物品运送到目的地之后,却依然无法完成“放下”或“组装”这最后一步时,王启斌敏锐地察觉到了其中的行业痛点:“如果不能闭环去做任务操作,它一定无法解决客户需求里最重要的那部分。”

因此,灵初智能在创立之初就把方向明确锚定在一种看似“保守”的形态之上,即轮式底盘加双臂。这一选择在2024年人形机器人热潮之中显得有些格格不入,但王启斌背后的判断逻辑却十分清晰:

1,移动与操作的解耦:移动能力也就是底盘已经相当成熟,甚至正在趋于同质化,因此不再构成核心壁垒。真正的价值洼地,则在于“操作”这一环节。

2,务实的工程选择:人形机器人虽然具备想象空间,但在当前技术条件之下,双足行走的稳定性以及高昂成本,都会对商业化落地产生限制。轮式双臂结构已经足以覆盖工业、物流等主流场景,是性价比最高的“入场券”。

王启斌始终坚信,未来的机器人未必需要具有人形外观,但必须配备一双能够像人手一样完成复杂任务的“手”。所谓“操作能力”,也就是那种能够实现穿针引线、折叠纸盒以及精密装配等任务的灵巧能力,才是具身智能皇冠上最璀璨的宝石。

二、打破“Sim2Real”魔咒:人类数据才是唯一的“真金”

如果说操作是目标,那么数据就是通往这一目标的核心燃料。

当前行业主流的数据获取方式主要有两种:其一是成本高昂的真机遥操作,其二是成本较低的仿真合成数据。但在王启斌看来,这两条路径都存在难以回避的关键缺陷。

遥操作所面临的瓶颈在于,操作员需要盯着屏幕来完成遥控,导致动作既僵硬又缓慢,而这一本质上相当于在教机器人“模仿残疾人的动作”。

仿真鸿沟即Sim2Real Gap所指向的问题在于:在精细操作这一场景之中,往往差之毫厘便会谬以千里。由于仿真环境无法对真实世界中的物理属性,如摩擦力以及物体形变,进行完全准确的模拟,因此模型即便在虚拟环境里训练得再充分,一旦进入现实场景,仍然会出现“水土不服”的情况。

王启斌给出的解法是“人类原生数据”。在他看来,人类经过千万年的演化,早已形成了最接近完备状态的操作直觉。

灵初智能没有沿用传统方案,而是转向研发多模态数据手套,直接在真实场景之中对人类手部的视觉、触觉以及关节角度进行捕捉。这类数据天然具备“任务分解逻辑”以及“自适应调整能力”,因此会成为机器人学习灵巧操作的最佳教材。

为了打破成本约束,灵初自研了Psi-SynEngine具身数采引擎。借助相关技术创新,其将采集成本降低到了传统真机方案的十分之一。目前,灵初已完成百套设备的部署,并计划在2026年底前冲刺百万小时级的人类操作数据。

“只有达到百万小时量级的数据积累,模型能力的‘涌现’才有可能被真正触发。”王启斌如此断言。这不仅体现为数量层面的持续积累,更意味着能力层面的质变跃迁,并将推动机器人从“死记硬背”逐步进化到“举一反三”。

三、 双脑协同:Psi-R2与Psi-W0的“阴阳互补”

拥有高质量数据之后,还需要配备足够强大的“大脑”来对其进行处理。2026年4月,灵初智能发布了由Psi-R2以及Psi-W0共同构成的双系统大模型这一核心技术架构。

这不仅体现为一次技术层面的升级,更意味着对机器人学习范式进行重构:

Psi-R2世界动作模型WAM是“行动派”,主要负责对指令进行理解、对动作进行规划,并直接完成具体执行。该模型基于10万小时人类数据完成预训练,因此使机器人具备了很强的泛化能力,只需要少于100条真机轨迹,就可以学会新的任务。

Psi-W0动作条件世界模型AC-WM更像“反思者”。它并不会直接对机器人进行控制,而是会在后台对物理规律展开模拟。其独特之处在于引入了约30%的失败样本,这也是王启斌提出的一项关键创新。借助让模型“学习失败”的方式,Psi-W0能够对动作后果进行预测,并评估Psi-R2的策略是否可靠,从而得以在虚拟环境之中以较低成本完成试错与优化。

这一“行动+反思”的双螺旋结构,构成了灵初智能的数据飞轮。

王启斌形象地比喻道:“Psi-R2负责冲锋陷阵,Psi-W0负责复盘推演。只有把二者结合起来,才能让机器人的能力实现指数级进化,而不是停留在线性堆砌的层面。”

四、 商业化的“中间态”哲学

面对资本对于“商业化爆发”的急切期待,王启斌所表现出的,是一位连续创业者应有的冷静判断。他也直言不讳地指出,当前行业存在两个典型的“集体盲区”:

1,数据迷信:并不是数据量越大就越好,真正更为重要的,是数据的多样性,尤其是任务层面的多样性,而并非单纯增加物体或场景的数量。

2,落地幻想:具身智能的商业化周期明显长于软件,从PoC概念验证到大规模采购,往往都需要2-3年的耐心培育。

基于这一清醒认知,灵初智能在场景选择方面采取了一种极为务实的“中间态”策略:

不触及家庭场景:虽然这一方向颇具吸引力,但家庭环境本身过于非标准化,泛化难度也非常大,同时用户对于价格又具有极高敏感度,因此在现阶段仍然属于一片“盐碱地”。

不碰纯流水线:虽然其节拍很快、标准化程度也较高,但对速度以及精度的极致要求,会使机器人在现阶段难以替代熟练工。

物流与零售,成为了灵初智能的切入方向。例如,服装仓储环节中的拣选以及商超场景中的打包。这类场景既具备由丰富SKU所带来的多样性数据价值,又拥有相对结构化的环境,因此成为验证机器人操作能力的最佳“练兵场”。

结语:做难而正确的事

在具身智能这场长跑之中,王启斌以及其创立的灵初智能,选择了一条最为艰难的路径:不去做相对简单的组装厂,而是持续攻坚最具挑战性的“灵巧操作”;不去迷信所谓通用的万能药,而是把重心放在垂直领域“数据飞轮”的持续深耕之上。

“不仅要让机器人学会走路,更要让它们掌握借助手部创造价值的能力。”王启斌表示。

当行业泡沫逐步退去之后,真正能够掌握核心数据资产、并且解决物理世界交互难题的企业,才会成为最终的赢家。对于王启斌而言,这场围绕“手”所展开的革命,才刚刚拉开序幕。

来源:王启斌:当机器学会“动手”,具身智能的胜负手不在整机 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/