作者:lvy 出品:高工机器人
人形机器人、四足机器狗、VLA大模型、世界模型、WAM模型、数采、供应链、场景、商业化、IPO、股改、收购、融资......要怎么描述这个信息量大爆炸的具身智能行业呢?
恐怕不眠不休论说三日,第四日便会发现,新的概念与产品已再度涌现。
归根结底,都是为了让具身智能更快地与真实世界接触和接轨。
5月中旬,高工人形机器人、高工咨询举办了2026(第三届)高工人形机器人技术应用峰会,聊当具身智能开始冲入现实,具身智能商业化为何受阻?企业如何破局?
第一天,从数据与模型专场出发,聊具身智能的底层分水岭(VLA困局,世界模型破局:具身智能模型路线的真实战场)
第二天,聚焦于落地环节,我们回答的第一个问题:什么样的机器人,客户愿意为之付费?(客户愿意买的人形机器人画像)
本文则回答第二个落地问题,量产时刻来临的关键挑战。以下是演讲人的观点提取:
阿米奥机器人 联合创始人兼CTO 冯骞

来自阿米奥机器人的冯骞在演讲《从单机可用到规模部署:具身智能落地的工程挑战》中表示:
在柔性制造领域面临3个危机,一是用工断层,即经验丰富的老技工逐年流失,行业正面临许多传统手艺面临无人继承的窘境;
二是柔性断层,即传统非标专机往往是为某一款产品量身定制的,一旦换线,设备就要推倒重来,改造成本高、周期长,造成大量人力物力的浪费;
三是智能断层,传统工业机器人虽然高效,但本质上只能按照预设程序重复执行固定动作,对环境变化和来料波动几乎没有自适应能力。
阿米奥机器人提出的解决方案是通过具身智能平台,实现从单点替代到整厂智能。
具体来说,首先,单点替代,从最容易见效的环节入手,选择产线中重复性最高、人力消耗最大的特定工位,实现“热插拔”式替换,无需改动原有产线布局,即插即用,快速验证机器人的投资回报率;
其次,工序协同,在单点替代验证成功后,进一步将前后多道工序打通,构建一个柔性的“加工岛”;
最后,整厂智能,当所有关键工序和加工岛都实现智能化之后,最终的愿景是迈向熄灯工厂。
幂特科技 联合创始人 林汉琛

来自幂特科技的林汉琛在演讲《如何利用human-centric技术破解Physical AI数据瓶颈》中表示:
真实场景的数据才具备足够的多样性,与质和量相比而言,多样性才是模型scale的关键,不scale的数据不是好数据。
换言之,真实场景的数据对具身大模型的爆发式发展具有直接影响。
当前,对于数据的标准已从文本标注进阶到动作标准阶段,动作标注指的是从人类视频数据中还原出与人相关的未知量,即人体姿态(pose)。因此,姿态标注(POSE Annotation)的核心在于如何有效利用人类视频数据来训练机器人。
动作标注的难点在于,一方面,要从视频中生成深度信息,即进行三维姿态标注时,则连人力也无法完成,因为人无法从视频中直接预估出深度;另一方面,6D位姿问题同样无法通过人工完成标注。
最后,一名人工标注员需要花费52.5天才能完成一小时视频数据的标注,这亟须人力密集型向算法密集型的转变。
幂特科技给出的解决方案是,通过人体位置识别模型或算法,从二维视频中自动提取头部以及手部的6D位姿,以及全球首款的AI数采眼镜。
林汉琛表示,ego-centric数据加上第三人称视角数据,才可视为完整的human-centric数据。因此,从去年的有本体数据采集,到今年的无本体数据采集,再到未来将更多资源投入于无感数据采集,即利用触手可及的廉价硬件完成对人类视频数据的采集,以辅助机器人具身智能大模型进行训练。
只有做到这一步,才认为真正进入了具身智能数据的平权时代。
步科股份 人形机器人行业总监 许骥

来自步科股份的许骥在演讲《以高性能运动控制产品,助力人形机器人快速落地》中表示:
步科股份针对人形机器人行业带来了2个全新解决方案,分别是iSWV 全向轮式底盘解决方案和iSMD 腰部升降解决方案。
前者尺寸紧凑并配备低噪音减速机;同时,旋转模组带有绝对值编码器的备用电源,确保掉电时不丢失位置;此外,其坚固耐用,防护等级达到IP54。
后者将电机与驱动器结合,减少了布线,提高了空间利用率,并带有CE、UL认证。
面对高工咨询总经理郑利瑶的问题,“今年以来,人形机器人与四足机器狗方面订单,以及客户对成本方面的关注出现了哪些新的变化?”
许骥表示,对比2025年,业务方面的变化在订单量上升,但成本持续下降。因为要实现批量生产,就需要在考虑批量的同时将成本控制到极致。把控成本的关键在于如何提升工艺与良品率,从而将成本优势发挥到极致。
据其披露,对比去年前个月,今年销量同比增长了约50%。从全年角度对比,今年无框力矩电机的整体出货量相比去年将翻数倍。
开普勒机器人 CTO 席奥

来自开普勒机器人的席奥在演讲《开普勒工业级通用人形机器人大脑KeplerBrain - VTLA架构》中表示:
要进入家庭场景,只要存在一个短板就无法进入;而工业场景则相对简单,只要有一个长板就可以进入。
在落地的过程中发现,B端客户的实际需求量并不大,例如一个工厂在做产线时大约只需要2到3台机器人,客户只愿意提供2到3条产线。在B端客户看来,按照当前的技术,机器人只能替代50%到60%的人力。
在工厂场景下,第一层数据是部署之前由工人所采集的;第二层是机器人部署时直接从机器人本体提取的数据。
如果不需要更复杂的处理,仅使用第一层数据就足够了,其本身已经能够实现约99%的成功率。然而,工业场景需要在效率与准确度之间找到平衡。因此,后续若要补足效率,不仅涉及数据,还需要解决硬件本体、机械臂自身的底层通信等问题。
因此,开普勒今年的业务将主要聚焦于科研教育场景、展厅讲解、数据采集。
其中,基于对工业场景的落地经验积累,开普勒的类UMI 触觉增强人类数据采集框架,通过由头部数采、腕部数采相机、触觉采集手套、同构外骨骼的UMI数据采集系统,获取包括本体感知、力/力矩、IMU、触觉信息、关节角状态、头部/腕部相机等多模态数据,最终生成机器人为主体的多视角数据。
康士达 总经理 袁强

来自康士达的袁强在演讲《从工业现场到人形机器人:具身智能控制器的新要求》中表示:
如果将工业现场和人形机器人的性能指标进行对比,控制周期方面,工业现场通常为1至10毫秒,而人形机器人需要不超过1毫秒,二者相差一到两个数量级,因此人形机器人必须实现高频响应,才能维持动态平衡;
在实时性方面,工业现场的抖动为微秒级,而人形机器人不仅要求硬实时且抖动同样为微秒级,还需要具备极致的稳定性;
在算力需求方面,工业现场仅为几瓦到几十瓦,而人形机器人则需要几十到几百TOPS的AI算力,二者差距巨大,算力需求呈指数级增长,以支撑复杂计算;
在控制目标方面,传统工业现场控制器追求精确重复预定义轨迹,即“执行命令”;而人形机器人控制器则聚焦于动态、自适应、目标导向的任务完成,即实现从“执行命令”到“完成任务”的转变。
总而言之,控制目标正从“执行命令”转向“完成任务”:传统工业现场控制器追求精确重复预定义轨迹,而人形机器人控制器则聚焦于动态、自适应、目标导向的任务完成。
华夏机器人 副总经理 石彪

来自华夏机器人的石彪在演讲《仿人机器人要如何做到“有温度”?》中表示:
交互智能领域正陷入一个结构性陷阱:尽管其技术已经成熟,商业化路径最短且最为清晰,但投入却最少。
而有温度的交互,由四层环环相扣,其中,感知是入口,记忆是根基,理解是核心,表达是呈现。
石彪给出了从H1-H5交互体验标准,H1是基础响应、H2能完成具体任务目标、H3能情感识别、H4可以提供主动关怀,H4才是深度共情。目前,行业多在H2-H3,目标率先达到H4以上。
实际上,这一目标还很远,面临着3重挑战:一是技术挑战,当前双足行走的稳定性仍需突破,多模态感知融合中触觉反馈仍存在缺失,“手”“眼”“脑”三者的协同能力有待提升,具身智能AI仍是最大的技术瓶颈;
二是成本挑战,核心部件仍然昂贵,尤其是6自由度灵巧手的成本较高,因此规模化降本成为必经之路,预计2027至2028年将出现明显的降价窗口;
三是,市场挑战,用户对情绪价值的付费意愿仍有待评估,关键在于如何让用户感知到其不可替代的价值,而当前行业标准尚未统一,这已成为整个行业的共同课题。
写在最后
落地专场Ⅱ作为本次峰会的最后一个专场,不仅是对当前业内部分解决方案的一次集结,也是对企业在真实落地过程中所积累的结论与思考的深度复盘。
在这里,我们看到的不是华丽的演示或理想化的蓝图,而是具身智能从实验室冲入现实世界后,所遭遇的一个个具体而微的挫折:技术栈的断层、场景适配的困境、数据采集的瓶颈、成本与性能之间的拉锯……这些问题不再抽象,而是以近乎残酷的方式呈现在每一段真实的生产线、每一次失败的抓取、每一个未被满足的用户需求之中。
正是这些挫折,构成了行业最宝贵的认知资产。
它们让企业不再盲目乐观,也让技术回归到解决实际问题的本源。
