王启斌：当机器学会动手，具身智能的胜负手不在整机

2026年06月08日 15:17

本文共计3368个字，预计阅读时长12分钟。

来源/具身研习社责编/MoRanShiguang 墨染时光

2026年的具身智能赛道，喧嚣从未停止。

一边是资本热钱持续涌动，头部公司的估值随之水涨船高；另一边却是商业化落地所面临的骨感现实，“融资热、落地难”这一矛盾也因此显得愈发尖锐。

在这场围绕未来展开的豪赌之中，灵初智能创始人兼CEO王启斌所呈现出的姿态，显得格外“另类”。

他并未追逐人形机器人的风口，也没有陷入价格战的泥潭，而是把注意力持续聚焦在机器人的“手”这一核心环节之上。

这位曾亲历2018年机器人周期的资深从业者，依托其在云迹科技以及京东机器人所积累的实战经验，于2024年正式创立了灵初智能。

他的判断显得十分笃定：“操作才是皇冠上的明珠，移动只是入场券。”

在王启斌看来，具身智能正在经历一场深层次的范式转移。以下内容集中体现了他围绕技术路线、数据壁垒以及商业终局所展开的系统性思考。

图片来源自互联网

王启斌

灵初智能创始人兼CEO，亦是具身智能领域的资深从业者，在消费电子以及机器人赛道已积累近20年的行业经验，完整经历了从功能机到智能机、从智能音箱到具身智能的多轮产业变革。

2008年毕业于乔治华盛顿大学，随后先后在黑莓智能手机以及Sonos智能音箱任职，主导公司产品全球化研发与商业化落地相关工作，对终端产品的定义以及量产环节形成了敏锐直觉。其在消费电子领域深耕十年，完整经历了移动互联网以及智能硬件的关键变革时期。

2018年，王启斌判断机器人将会成为“下一个终端形态”，因此毅然转入机器人赛道，先后在云迹科技以及京东X Lab任职，深度参与室内配送机器人与L4级无人车的研发工作，也由此清晰洞察到移动能力所存在的局限性，以及操作能力长期缺失这一关键问题。

2024年，基于对行业周期的深刻认知，其创立了灵初智能，致力于借助人类数据以及强化学习，攻克通用机器人在灵巧操作方面的难题，推动具身智能从“移动”向“操作”实现跨越。公司成立一年半内累计融资超过20亿元，估值上涨逾六倍。

以下内容综合整理自王启斌近期接受腾讯科技、雷锋网以及科技潜线等国内媒体与自媒体专访的相关信息。

一、拒绝“半身不遂”：操作才是皇冠上的明珠

回顾机器人的演进历程，过去十年间的行业焦点始终集中在“脚”这一环节之上。从室内场景中的扫地机到室外场景中的无人车，行业已经相继解决了“移动”以及“导航”的问题。但当机器人把物品运送到目的地之后，却依然无法完成“放下”或“组装”这最后一步时，王启斌敏锐地察觉到了其中的行业痛点：“如果不能闭环去做任务操作，它一定无法解决客户需求里最重要的那部分。”

因此，灵初智能在创立之初就把方向明确锚定在一种看似“保守”的形态之上，即轮式底盘加双臂。这一选择在2024年人形机器人热潮之中显得有些格格不入，但王启斌背后的判断逻辑却十分清晰：

1，移动与操作的解耦：移动能力也就是底盘已经相当成熟，甚至正在趋于同质化，因此不再构成核心壁垒。真正的价值洼地，则在于“操作”这一环节。

2，务实的工程选择：人形机器人虽然具备想象空间，但在当前技术条件之下，双足行走的稳定性以及高昂成本，都会对商业化落地产生限制。轮式双臂结构已经足以覆盖工业、物流等主流场景，是性价比最高的“入场券”。

王启斌始终坚信，未来的机器人未必需要具有人形外观，但必须配备一双能够像人手一样完成复杂任务的“手”。所谓“操作能力”，也就是那种能够实现穿针引线、折叠纸盒以及精密装配等任务的灵巧能力，才是具身智能皇冠上最璀璨的宝石。

二、打破“Sim2Real”魔咒：人类数据才是唯一的“真金”

如果说操作是目标，那么数据就是通往这一目标的核心燃料。

当前行业主流的数据获取方式主要有两种：其一是成本高昂的真机遥操作，其二是成本较低的仿真合成数据。但在王启斌看来，这两条路径都存在难以回避的关键缺陷。

遥操作所面临的瓶颈在于，操作员需要盯着屏幕来完成遥控，导致动作既僵硬又缓慢，而这一本质上相当于在教机器人“模仿残疾人的动作”。

仿真鸿沟即Sim2Real Gap所指向的问题在于：在精细操作这一场景之中，往往差之毫厘便会谬以千里。由于仿真环境无法对真实世界中的物理属性，如摩擦力以及物体形变，进行完全准确的模拟，因此模型即便在虚拟环境里训练得再充分，一旦进入现实场景，仍然会出现“水土不服”的情况。

王启斌给出的解法是“人类原生数据”。在他看来，人类经过千万年的演化，早已形成了最接近完备状态的操作直觉。

灵初智能没有沿用传统方案，而是转向研发多模态数据手套，直接在真实场景之中对人类手部的视觉、触觉以及关节角度进行捕捉。这类数据天然具备“任务分解逻辑”以及“自适应调整能力”，因此会成为机器人学习灵巧操作的最佳教材。

为了打破成本约束，灵初自研了Psi-SynEngine具身数采引擎。借助相关技术创新，其将采集成本降低到了传统真机方案的十分之一。目前，灵初已完成百套设备的部署，并计划在2026年底前冲刺百万小时级的人类操作数据。

“只有达到百万小时量级的数据积累，模型能力的‘涌现’才有可能被真正触发。”王启斌如此断言。这不仅体现为数量层面的持续积累，更意味着能力层面的质变跃迁，并将推动机器人从“死记硬背”逐步进化到“举一反三”。

三、双脑协同：Psi-R2与Psi-W0的“阴阳互补”

拥有高质量数据之后，还需要配备足够强大的“大脑”来对其进行处理。2026年4月，灵初智能发布了由Psi-R2以及Psi-W0共同构成的双系统大模型这一核心技术架构。

这不仅体现为一次技术层面的升级，更意味着对机器人学习范式进行重构：

Psi-R2世界动作模型WAM是“行动派”，主要负责对指令进行理解、对动作进行规划，并直接完成具体执行。该模型基于10万小时人类数据完成预训练，因此使机器人具备了很强的泛化能力，只需要少于100条真机轨迹，就可以学会新的任务。

Psi-W0动作条件世界模型AC-WM更像“反思者”。它并不会直接对机器人进行控制，而是会在后台对物理规律展开模拟。其独特之处在于引入了约30%的失败样本，这也是王启斌提出的一项关键创新。借助让模型“学习失败”的方式，Psi-W0能够对动作后果进行预测，并评估Psi-R2的策略是否可靠，从而得以在虚拟环境之中以较低成本完成试错与优化。

这一“行动+反思”的双螺旋结构，构成了灵初智能的数据飞轮。

王启斌形象地比喻道：“Psi-R2负责冲锋陷阵，Psi-W0负责复盘推演。只有把二者结合起来，才能让机器人的能力实现指数级进化，而不是停留在线性堆砌的层面。”

四、商业化的“中间态”哲学

面对资本对于“商业化爆发”的急切期待，王启斌所表现出的，是一位连续创业者应有的冷静判断。他也直言不讳地指出，当前行业存在两个典型的“集体盲区”：

1，数据迷信：并不是数据量越大就越好，真正更为重要的，是数据的多样性，尤其是任务层面的多样性，而并非单纯增加物体或场景的数量。

2，落地幻想：具身智能的商业化周期明显长于软件，从PoC概念验证到大规模采购，往往都需要2-3年的耐心培育。

基于这一清醒认知，灵初智能在场景选择方面采取了一种极为务实的“中间态”策略：

不触及家庭场景：虽然这一方向颇具吸引力，但家庭环境本身过于非标准化，泛化难度也非常大，同时用户对于价格又具有极高敏感度，因此在现阶段仍然属于一片“盐碱地”。

不碰纯流水线：虽然其节拍很快、标准化程度也较高，但对速度以及精度的极致要求，会使机器人在现阶段难以替代熟练工。

物流与零售，成为了灵初智能的切入方向。例如，服装仓储环节中的拣选以及商超场景中的打包。这类场景既具备由丰富SKU所带来的多样性数据价值，又拥有相对结构化的环境，因此成为验证机器人操作能力的最佳“练兵场”。

结语：做难而正确的事

在具身智能这场长跑之中，王启斌以及其创立的灵初智能，选择了一条最为艰难的路径：不去做相对简单的组装厂，而是持续攻坚最具挑战性的“灵巧操作”；不去迷信所谓通用的万能药，而是把重心放在垂直领域“数据飞轮”的持续深耕之上。

“不仅要让机器人学会走路，更要让它们掌握借助手部创造价值的能力。”王启斌表示。

当行业泡沫逐步退去之后，真正能够掌握核心数据资产、并且解决物理世界交互难题的企业，才会成为最终的赢家。对于王启斌而言，这场围绕“手”所展开的革命，才刚刚拉开序幕。

来源：王启斌：当机器学会“动手”，具身智能的胜负手不在整机 | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: 具身智能机器人操作数据壁垒商业化落地灵初智能

通知

尊敬的用户

user

资讯

王启斌：当机器学会动手，具身智能的胜负手不在整机

王启斌：当机器学会动手，具身智能的胜负手不在整机

相关图文

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

训练世界模型开始从人类肌肉和大脑学习

极智嘉：人形机器人要“真干活”先跨过这三道坎

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

SK海力士涨超7%，ADR兑换通道已满额；谷歌母公司跌超3%，Q2自由现金流转负；OpenAI被曝上调算力预算支出至7500亿美元

面壁MiniCPM大模型首次搭载于三星Galaxy Z Fold8系列智能手机

奥海科技拟斥资5.7亿元布局AI赛道，达产后年产值相当于去年营收四成，但公司今年上半年净利润预降八成左右

云积压订单超5000亿美元也难救股价？Alphabet财报会实录：巨额AI投入引发分歧

AI需求驱动磷化铟景气度高涨，金属铟迎来量价齐升窗口

字节与千问同日“亮剑”，语音大模型竞争向端侧迁移

小红书开源 BigMac：实现多模态训练显存与速度的统一优化

特斯拉财报会实录：大举押注机器人、自动驾驶与储能，资本开支持持续扩张

蚂蚁集团组建物理AI特工队，蚂蚁灵波具身路线优势与困顿分析

拿下近10亿Pre-A轮融资后，未来如何跑通家庭机器人的商业化场景？

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

王启斌：当机器学会动手，具身智能的胜负手不在整机

王启斌：当机器学会动手，具身智能的胜负手不在整机

相关图文

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛 切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

训练世界模型开始从人类肌肉和大脑学习

极智嘉：人形机器人要“真干活”先跨过这三道坎

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

SK海力士涨超7%，ADR兑换通道已满额；谷歌母公司跌超3%，Q2自由现金流转负；OpenAI被曝上调算力预算支出至7500亿美元

面壁MiniCPM大模型首次搭载于三星Galaxy Z Fold8系列智能手机

奥海科技拟斥资5.7亿元布局AI赛道，达产后年产值相当于去年营收四成，但公司今年上半年净利润预降八成左右

云积压订单超5000亿美元也难救股价？Alphabet财报会实录：巨额AI投入引发分歧

AI需求驱动磷化铟景气度高涨，金属铟迎来量价齐升窗口

字节与千问同日“亮剑”，语音大模型竞争向端侧迁移

小红书开源 BigMac：实现多模态训练显存与速度的统一优化

特斯拉财报会实录：大举押注机器人、自动驾驶与储能，资本开支持持续扩张

蚂蚁集团组建物理AI特工队，蚂蚁灵波具身路线优势与困顿分析

拿下近10亿Pre-A轮融资后，未来如何跑通家庭机器人的商业化场景？

推荐专栏

爱力方

机器人大讲堂

下一篇

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场