王启斌:当机器学会动手,具身智能的胜负手不在整机
2026年的具身智能赛道,喧嚣从未停止。
一边是资本热钱持续涌动,头部公司的估值随之水涨船高;另一边却是商业化落地所面临的骨感现实,“融资热、落地难”这一矛盾也因此显得愈发尖锐。
在这场围绕未来展开的豪赌之中,灵初智能创始人兼CEO王启斌所呈现出的姿态,显得格外“另类”。
他并未追逐人形机器人的风口,也没有陷入价格战的泥潭,而是把注意力持续聚焦在机器人的“手”这一核心环节之上。
这位曾亲历2018年机器人周期的资深从业者,依托其在云迹科技以及京东机器人所积累的实战经验,于2024年正式创立了灵初智能。
他的判断显得十分笃定:“操作才是皇冠上的明珠,移动只是入场券。”
在王启斌看来,具身智能正在经历一场深层次的范式转移。以下内容集中体现了他围绕技术路线、数据壁垒以及商业终局所展开的系统性思考。
图片来源自互联网
王启斌

灵初智能创始人兼CEO,亦是具身智能领域的资深从业者,在消费电子以及机器人赛道已积累近20年的行业经验,完整经历了从功能机到智能机、从智能音箱到具身智能的多轮产业变革。
2008年毕业于乔治华盛顿大学,随后先后在黑莓智能手机以及Sonos智能音箱任职,主导公司产品全球化研发与商业化落地相关工作,对终端产品的定义以及量产环节形成了敏锐直觉。其在消费电子领域深耕十年,完整经历了移动互联网以及智能硬件的关键变革时期。
2018年,王启斌判断机器人将会成为“下一个终端形态”,因此毅然转入机器人赛道,先后在云迹科技以及京东X Lab任职,深度参与室内配送机器人与L4级无人车的研发工作,也由此清晰洞察到移动能力所存在的局限性,以及操作能力长期缺失这一关键问题。
2024年,基于对行业周期的深刻认知,其创立了灵初智能,致力于借助人类数据以及强化学习,攻克通用机器人在灵巧操作方面的难题,推动具身智能从“移动”向“操作”实现跨越。公司成立一年半内累计融资超过20亿元,估值上涨逾六倍。
以下内容综合整理自王启斌近期接受腾讯科技、雷锋网以及科技潜线等国内媒体与自媒体专访的相关信息。
一、拒绝“半身不遂”:操作才是皇冠上的明珠
回顾机器人的演进历程,过去十年间的行业焦点始终集中在“脚”这一环节之上。从室内场景中的扫地机到室外场景中的无人车,行业已经相继解决了“移动”以及“导航”的问题。但当机器人把物品运送到目的地之后,却依然无法完成“放下”或“组装”这最后一步时,王启斌敏锐地察觉到了其中的行业痛点:“如果不能闭环去做任务操作,它一定无法解决客户需求里最重要的那部分。”
因此,灵初智能在创立之初就把方向明确锚定在一种看似“保守”的形态之上,即轮式底盘加双臂。这一选择在2024年人形机器人热潮之中显得有些格格不入,但王启斌背后的判断逻辑却十分清晰:
1,移动与操作的解耦:移动能力也就是底盘已经相当成熟,甚至正在趋于同质化,因此不再构成核心壁垒。真正的价值洼地,则在于“操作”这一环节。
2,务实的工程选择:人形机器人虽然具备想象空间,但在当前技术条件之下,双足行走的稳定性以及高昂成本,都会对商业化落地产生限制。轮式双臂结构已经足以覆盖工业、物流等主流场景,是性价比最高的“入场券”。
王启斌始终坚信,未来的机器人未必需要具有人形外观,但必须配备一双能够像人手一样完成复杂任务的“手”。所谓“操作能力”,也就是那种能够实现穿针引线、折叠纸盒以及精密装配等任务的灵巧能力,才是具身智能皇冠上最璀璨的宝石。
二、打破“Sim2Real”魔咒:人类数据才是唯一的“真金”
如果说操作是目标,那么数据就是通往这一目标的核心燃料。
当前行业主流的数据获取方式主要有两种:其一是成本高昂的真机遥操作,其二是成本较低的仿真合成数据。但在王启斌看来,这两条路径都存在难以回避的关键缺陷。
遥操作所面临的瓶颈在于,操作员需要盯着屏幕来完成遥控,导致动作既僵硬又缓慢,而这一本质上相当于在教机器人“模仿残疾人的动作”。
仿真鸿沟即Sim2Real Gap所指向的问题在于:在精细操作这一场景之中,往往差之毫厘便会谬以千里。由于仿真环境无法对真实世界中的物理属性,如摩擦力以及物体形变,进行完全准确的模拟,因此模型即便在虚拟环境里训练得再充分,一旦进入现实场景,仍然会出现“水土不服”的情况。
王启斌给出的解法是“人类原生数据”。在他看来,人类经过千万年的演化,早已形成了最接近完备状态的操作直觉。
灵初智能没有沿用传统方案,而是转向研发多模态数据手套,直接在真实场景之中对人类手部的视觉、触觉以及关节角度进行捕捉。这类数据天然具备“任务分解逻辑”以及“自适应调整能力”,因此会成为机器人学习灵巧操作的最佳教材。
为了打破成本约束,灵初自研了Psi-SynEngine具身数采引擎。借助相关技术创新,其将采集成本降低到了传统真机方案的十分之一。目前,灵初已完成百套设备的部署,并计划在2026年底前冲刺百万小时级的人类操作数据。
“只有达到百万小时量级的数据积累,模型能力的‘涌现’才有可能被真正触发。”王启斌如此断言。这不仅体现为数量层面的持续积累,更意味着能力层面的质变跃迁,并将推动机器人从“死记硬背”逐步进化到“举一反三”。
三、 双脑协同:Psi-R2与Psi-W0的“阴阳互补”
拥有高质量数据之后,还需要配备足够强大的“大脑”来对其进行处理。2026年4月,灵初智能发布了由Psi-R2以及Psi-W0共同构成的双系统大模型这一核心技术架构。
这不仅体现为一次技术层面的升级,更意味着对机器人学习范式进行重构:
Psi-R2世界动作模型WAM是“行动派”,主要负责对指令进行理解、对动作进行规划,并直接完成具体执行。该模型基于10万小时人类数据完成预训练,因此使机器人具备了很强的泛化能力,只需要少于100条真机轨迹,就可以学会新的任务。
Psi-W0动作条件世界模型AC-WM更像“反思者”。它并不会直接对机器人进行控制,而是会在后台对物理规律展开模拟。其独特之处在于引入了约30%的失败样本,这也是王启斌提出的一项关键创新。借助让模型“学习失败”的方式,Psi-W0能够对动作后果进行预测,并评估Psi-R2的策略是否可靠,从而得以在虚拟环境之中以较低成本完成试错与优化。
这一“行动+反思”的双螺旋结构,构成了灵初智能的数据飞轮。
王启斌形象地比喻道:“Psi-R2负责冲锋陷阵,Psi-W0负责复盘推演。只有把二者结合起来,才能让机器人的能力实现指数级进化,而不是停留在线性堆砌的层面。”
四、 商业化的“中间态”哲学
面对资本对于“商业化爆发”的急切期待,王启斌所表现出的,是一位连续创业者应有的冷静判断。他也直言不讳地指出,当前行业存在两个典型的“集体盲区”:
1,数据迷信:并不是数据量越大就越好,真正更为重要的,是数据的多样性,尤其是任务层面的多样性,而并非单纯增加物体或场景的数量。
2,落地幻想:具身智能的商业化周期明显长于软件,从PoC概念验证到大规模采购,往往都需要2-3年的耐心培育。
基于这一清醒认知,灵初智能在场景选择方面采取了一种极为务实的“中间态”策略:
不触及家庭场景:虽然这一方向颇具吸引力,但家庭环境本身过于非标准化,泛化难度也非常大,同时用户对于价格又具有极高敏感度,因此在现阶段仍然属于一片“盐碱地”。
不碰纯流水线:虽然其节拍很快、标准化程度也较高,但对速度以及精度的极致要求,会使机器人在现阶段难以替代熟练工。
物流与零售,成为了灵初智能的切入方向。例如,服装仓储环节中的拣选以及商超场景中的打包。这类场景既具备由丰富SKU所带来的多样性数据价值,又拥有相对结构化的环境,因此成为验证机器人操作能力的最佳“练兵场”。
结语:做难而正确的事
在具身智能这场长跑之中,王启斌以及其创立的灵初智能,选择了一条最为艰难的路径:不去做相对简单的组装厂,而是持续攻坚最具挑战性的“灵巧操作”;不去迷信所谓通用的万能药,而是把重心放在垂直领域“数据飞轮”的持续深耕之上。
“不仅要让机器人学会走路,更要让它们掌握借助手部创造价值的能力。”王启斌表示。
当行业泡沫逐步退去之后,真正能够掌握核心数据资产、并且解决物理世界交互难题的企业,才会成为最终的赢家。对于王启斌而言,这场围绕“手”所展开的革命,才刚刚拉开序幕。
来源:王启斌:当机器学会“动手”,具身智能的胜负手不在整机 | 具身研习社