工业具身机器人落地：六个答案

作者：lvy 出品：高工机器人

人形机器人、四足机器狗、VLA大模型、世界模型、WAM模型、数采、供应链、场景、商业化、IPO、股改、收购、融资......要怎么描述这个信息量大爆炸的具身智能行业呢？

恐怕不眠不休论说三日，第四日便会发现，新的概念与产品已再度涌现。

归根结底，都是为了让具身智能更快地与真实世界接触和接轨。

5月中旬，高工人形机器人、高工咨询举办了2026(第三届)高工人形机器人技术应用峰会，聊当具身智能开始冲入现实，具身智能商业化为何受阻？企业如何破局？

第一天，从数据与模型专场出发，聊具身智能的底层分水岭（VLA困局，世界模型破局：具身智能模型路线的真实战场）

第二天，聚焦于落地环节，我们回答的第一个问题：什么样的机器人，客户愿意为之付费？（客户愿意买的人形机器人画像）

本文则回答第二个落地问题，量产时刻来临的关键挑战。以下是演讲人的观点提取：

阿米奥机器人联合创始人兼CTO 冯骞

来自阿米奥机器人的冯骞在演讲《从单机可用到规模部署：具身智能落地的工程挑战》中表示：

在柔性制造领域面临3个危机，一是用工断层，即经验丰富的老技工逐年流失，行业正面临许多传统手艺面临无人继承的窘境；

二是柔性断层，即传统非标专机往往是为某一款产品量身定制的，一旦换线，设备就要推倒重来，改造成本高、周期长，造成大量人力物力的浪费；

三是智能断层，传统工业机器人虽然高效，但本质上只能按照预设程序重复执行固定动作，对环境变化和来料波动几乎没有自适应能力。

阿米奥机器人提出的解决方案是通过具身智能平台，实现从单点替代到整厂智能。

具体来说，首先，单点替代，从最容易见效的环节入手，选择产线中重复性最高、人力消耗最大的特定工位，实现“热插拔”式替换，无需改动原有产线布局，即插即用，快速验证机器人的投资回报率；

其次，工序协同，在单点替代验证成功后，进一步将前后多道工序打通，构建一个柔性的“加工岛”；

最后，整厂智能，当所有关键工序和加工岛都实现智能化之后，最终的愿景是迈向熄灯工厂。

幂特科技联合创始人林汉琛

来自幂特科技的林汉琛在演讲《如何利用human-centric技术破解Physical AI数据瓶颈》中表示：

真实场景的数据才具备足够的多样性，与质和量相比而言，多样性才是模型scale的关键，不scale的数据不是好数据。

换言之，真实场景的数据对具身大模型的爆发式发展具有直接影响。

当前，对于数据的标准已从文本标注进阶到动作标准阶段，动作标注指的是从人类视频数据中还原出与人相关的未知量，即人体姿态（pose）。因此，姿态标注（POSE Annotation）的核心在于如何有效利用人类视频数据来训练机器人。

动作标注的难点在于，一方面，要从视频中生成深度信息，即进行三维姿态标注时，则连人力也无法完成，因为人无法从视频中直接预估出深度；另一方面，6D位姿问题同样无法通过人工完成标注。

最后，一名人工标注员需要花费52.5天才能完成一小时视频数据的标注，这亟须人力密集型向算法密集型的转变。

幂特科技给出的解决方案是，通过人体位置识别模型或算法，从二维视频中自动提取头部以及手部的6D位姿，以及全球首款的AI数采眼镜。

林汉琛表示，ego-centric数据加上第三人称视角数据，才可视为完整的human-centric数据。因此，从去年的有本体数据采集，到今年的无本体数据采集，再到未来将更多资源投入于无感数据采集，即利用触手可及的廉价硬件完成对人类视频数据的采集，以辅助机器人具身智能大模型进行训练。

只有做到这一步，才认为真正进入了具身智能数据的平权时代。

步科股份人形机器人行业总监许骥

来自步科股份的许骥在演讲《以高性能运动控制产品，助力人形机器人快速落地》中表示：

步科股份针对人形机器人行业带来了2个全新解决方案，分别是iSWV 全向轮式底盘解决方案和iSMD 腰部升降解决方案。

前者尺寸紧凑并配备低噪音减速机；同时，旋转模组带有绝对值编码器的备用电源，确保掉电时不丢失位置；此外，其坚固耐用，防护等级达到IP54。

后者将电机与驱动器结合，减少了布线，提高了空间利用率，并带有CE、UL认证。

面对高工咨询总经理郑利瑶的问题，“今年以来，人形机器人与四足机器狗方面订单，以及客户对成本方面的关注出现了哪些新的变化？”

许骥表示，对比2025年，业务方面的变化在订单量上升，但成本持续下降。因为要实现批量生产，就需要在考虑批量的同时将成本控制到极致。把控成本的关键在于如何提升工艺与良品率，从而将成本优势发挥到极致。

据其披露，对比去年前个月，今年销量同比增长了约50%。从全年角度对比，今年无框力矩电机的整体出货量相比去年将翻数倍。

开普勒机器人 CTO 席奥

来自开普勒机器人的席奥在演讲《开普勒工业级通用人形机器人大脑KeplerBrain - VTLA架构》中表示：

要进入家庭场景，只要存在一个短板就无法进入；而工业场景则相对简单，只要有一个长板就可以进入。

在落地的过程中发现，B端客户的实际需求量并不大，例如一个工厂在做产线时大约只需要2到3台机器人，客户只愿意提供2到3条产线。在B端客户看来，按照当前的技术，机器人只能替代50%到60%的人力。

在工厂场景下，第一层数据是部署之前由工人所采集的；第二层是机器人部署时直接从机器人本体提取的数据。

如果不需要更复杂的处理，仅使用第一层数据就足够了，其本身已经能够实现约99%的成功率。然而，工业场景需要在效率与准确度之间找到平衡。因此，后续若要补足效率，不仅涉及数据，还需要解决硬件本体、机械臂自身的底层通信等问题。

因此，开普勒今年的业务将主要聚焦于科研教育场景、展厅讲解、数据采集。

其中，基于对工业场景的落地经验积累，开普勒的类UMI 触觉增强人类数据采集框架，通过由头部数采、腕部数采相机、触觉采集手套、同构外骨骼的UMI数据采集系统，获取包括本体感知、力/力矩、IMU、触觉信息、关节角状态、头部/腕部相机等多模态数据，最终生成机器人为主体的多视角数据。

康士达总经理袁强

来自康士达的袁强在演讲《从工业现场到人形机器人：具身智能控制器的新要求》中表示：

如果将工业现场和人形机器人的性能指标进行对比，控制周期方面，工业现场通常为1至10毫秒，而人形机器人需要不超过1毫秒，二者相差一到两个数量级，因此人形机器人必须实现高频响应，才能维持动态平衡；

在实时性方面，工业现场的抖动为微秒级，而人形机器人不仅要求硬实时且抖动同样为微秒级，还需要具备极致的稳定性；

在算力需求方面，工业现场仅为几瓦到几十瓦，而人形机器人则需要几十到几百TOPS的AI算力，二者差距巨大，算力需求呈指数级增长，以支撑复杂计算；

在控制目标方面，传统工业现场控制器追求精确重复预定义轨迹，即“执行命令”；而人形机器人控制器则聚焦于动态、自适应、目标导向的任务完成，即实现从“执行命令”到“完成任务”的转变。

总而言之，控制目标正从“执行命令”转向“完成任务”：传统工业现场控制器追求精确重复预定义轨迹，而人形机器人控制器则聚焦于动态、自适应、目标导向的任务完成。

华夏机器人副总经理石彪

来自华夏机器人的石彪在演讲《仿人机器人要如何做到“有温度”？》中表示：

交互智能领域正陷入一个结构性陷阱：尽管其技术已经成熟，商业化路径最短且最为清晰，但投入却最少。

而有温度的交互，由四层环环相扣，其中，感知是入口，记忆是根基，理解是核心，表达是呈现。

石彪给出了从H1-H5交互体验标准，H1是基础响应、H2能完成具体任务目标、H3能情感识别、H4可以提供主动关怀，H4才是深度共情。目前，行业多在H2-H3，目标率先达到H4以上。

实际上，这一目标还很远，面临着3重挑战：一是技术挑战，当前双足行走的稳定性仍需突破，多模态感知融合中触觉反馈仍存在缺失，“手”“眼”“脑”三者的协同能力有待提升，具身智能AI仍是最大的技术瓶颈；

二是成本挑战，核心部件仍然昂贵，尤其是6自由度灵巧手的成本较高，因此规模化降本成为必经之路，预计2027至2028年将出现明显的降价窗口；

三是，市场挑战，用户对情绪价值的付费意愿仍有待评估，关键在于如何让用户感知到其不可替代的价值，而当前行业标准尚未统一，这已成为整个行业的共同课题。

写在最后

落地专场Ⅱ作为本次峰会的最后一个专场，不仅是对当前业内部分解决方案的一次集结，也是对企业在真实落地过程中所积累的结论与思考的深度复盘。

在这里，我们看到的不是华丽的演示或理想化的蓝图，而是具身智能从实验室冲入现实世界后，所遭遇的一个个具体而微的挫折：技术栈的断层、场景适配的困境、数据采集的瓶颈、成本与性能之间的拉锯……这些问题不再抽象，而是以近乎残酷的方式呈现在每一段真实的生产线、每一次失败的抓取、每一个未被满足的用户需求之中。

正是这些挫折，构成了行业最宝贵的认知资产。

它们让企业不再盲目乐观，也让技术回归到解决实际问题的本源。

来源：当具身冲入现实，工业具身机器人落地的“6个答案” | 具身研习社