4月28日,第三届中国具身智能与人形机器人产业大会在北京中关村国家自主创新示范区展示交易中心隆重举行。
具身智能作为国家“十五五”规划明确布局的六大未来产业之一,正加速从技术验证阶段跨越至规模化应用临界点。人形机器人作为其最成熟的物理载体,已不再停留于“能走能跑”的演示层面,而是在灵巧操作、自然交互、任务泛化等核心能力上实现系统性突破,被产业界普遍视为“下一代实体智能基础设施”的雏形。然而,模型泛化能力不足、高质量交互数据稀缺、本体-算法-算力协同效率偏低等结构性挑战,仍制约着其从单点示范走向千行百业的深度渗透。
为此,本届大会由中关村科学城管理委员会指导,立德机器人平台(机器人大讲堂)主办,以“竞逐具身人形万亿赛道·重塑未来产业新纪元”为主题,汇聚了千余位来自政产研学金各界顶尖力量。本次活动由灵心巧手总冠名,同时得到了因时机器人、坤维科技、星汇传感、晨昏线科技、月泉仿生、他山科技、星动纪元、百度智能云、超维传感、强脑科技、宇树科技、千寻智能、乐聚机器人等具身智能产业链上的五十余家企业大力支持。
接下来,我们将围绕大会主旨演讲、圆桌论坛等环节,呈现核心嘉宾的深度观点与实践洞察。
01.
灵巧操作、AI大脑、自然交互:人形机器人三大核心突破
尹周平院士:人形机器人需突破灵巧操作、自然交互与具身智能三大核心能力
产业界普遍认为灵巧操作、自然交互与通用AI大脑构成技术攻坚的“三维坐标系”,而仿真工具链、高质量数据集、核心零部件则是亟待补强的基础设施。当前企业正沿仿生驱动、多模态感知、数据闭环、端到端建模等差异化路径展开技术竞赛,在推动性能跃迁的同时实现成本的工程化下探,为规模化落地奠定产业基础。
中国科学院院士、华中科技大学机械科学与工程学院院长尹周平指出,人形机器人要真正“能干活”,必须具备类人的灵巧操作能力。这依赖于高精度、多模态触觉感知系统的突破,这需要实现力、形变、温度等多维物理量的实时测量,并与视觉、动作数据对齐融合,形成边缘端智能决策闭环。当前仿生触觉传感器已实现百万次耐久性及亚毫米级精度,但与人类手部相比,机器人在动态适应性、多任务泛化能力上仍有显著差距。
交互是人形机器人走向家庭与社会的关键门槛。现阶段重点已从预设指令转向“意图-表情-动作”三维理解与生成,需通过视觉语言动作大模型实现语义、情绪、肢体动作的联合建模。仿生面部需50+自由度以表达细微情感,情感计算需轻量化、token级响应。未来交互系统必须实现“理解-推理-表达”闭环,并与具身智能深度耦合。
产业链上,高校联合企业共建创新联合体,推动科技-教育-人才一体化。尹院士表示,长远来看,物理智能阶段或需10年落地,但跨学科融合将极大提速产业化进程。
董凯:政策引导推动智能机器人和具身智能产业高质量发展
工信部赛迪研究院科技处处长、机器人质量基础共性技术测评工信部重点实验室副主任董凯指出,具身智能作为赋能物理世界的新一代AI技术,其发展需坚持长期主义、强化预期管理。董凯强调,智能机器人技术涵盖感知交互、学习决策、控制作业、结构材料、安全伦理五大共性技术维度,核心在于软硬协同与跨学科融合。当前行业面临技术路线分散、缺乏国家实验室级统筹的困境,亟需提升科研战略协同能力。
研发工具链是重中之重,董凯认为,需建立自主物理仿真引擎与数据资产管理体系,补足“物理AI”底层缺失。模型层面,VLA与世界模型正趋于融合,未来3-5年有望迎来GPT时刻。董凯认为结构是智能的基石,很多创新结构的设计让我们的算法变为了可能。制造交付能力提升需传统制造业与新兴企业协同,探索供应链管理新范式。安全治理方面,提升系统安全需要关注物理本体的安全、算法模型的安全、数据和网络的安全、伦理与合规的安全。
董凯强调,当前存在结构性泡沫但行业整体健康,需理性管理预期,将资源投向核心技术攻关,推动从情绪价值向经济与社会价值的跃迁。
周永:灵巧手是自进化智能体,目标在于创造万物
灵心巧手创始人、CTO周永阐述了灵巧手的核心定位:灵巧手不仅是硬件,更是连接物理世界、能够自我学习和自我进化的智能体,公司希望通过自进化的智能体实现匠人技能,实现灵心驱动的匠人之手。公司使命是“100万双手、100万种技能”。周永表示,灵心巧手目前引领全球灵巧手产业,拥有最深厚的研发团队,月产量已超4000台(超过很多国家的年产量),即将突破月产万台。
技术突破方面,灵心巧手将百万价位级产品降至普及价格,推出16自由度全直驱灵巧手O20,其尺寸缩减到6自由度灵巧手同等水平,并即将开源一款20自由度灵巧手。公司研发的关键模组采用先进滚珠丝杠,将效率从40%提升至90%以上,与合作伙伴推出的塑料关节降至399元实现“以塑代钢”。公司还与合作伙伴推出多种机械臂供客户搭配使用。
软件层面,灵心巧手搭建了Open TeleDex开源平台支持任意灵巧手/机械臂/采集设备,与阿里云摩达社区、京东机器人合作推出UMI-Dex。公司开发的Linker Dex手部操作模型可实现捏拉拧拿及工具使用,Agent开发平台通过对话完成智能体开发,基于原子化技能实现穿针引线、系鞋带、功夫茶、包饺子等精细操作。灵心造物大模型可在虚拟世界生成、真实世界制造任意物品,包括机械臂、灵巧手甚至整个人形机器人。
周永预测2-3年内机器人将大规模落地,并认为中国将成为全球机器人领航者和定义者。公司愿景是一年内进一步扩展灵巧手量产能力,三年内实现还原人类全部技能,十年后在外太空创造宇宙飞船,通过全面开放的软硬件平台开创具身智能新纪元。
孙荣毅:数据飞轮+端到端模型+Agent调度构建通用机器人大脑
千寻智能董事、副总裁孙荣毅明确指出,具身智能落地的关键在于构建能理解物理世界、驱动任意形态机器人的通用AI大脑。
第一,数据是底座。千寻智能已构建约10T token高质量真机数据(有效性95%),其中20万小时为真机作业数据。公司首创“数据飞轮”闭环:任务设计→采集→AI自动清洗标注→模型训练→真机推理,简单任务2–3小时即可完成一轮迭代。千寻智能通过便携式穿戴设备+众包模式,2026年目标收集100万小时真实场景数据,打破“影棚围墙”,走进家庭真实环境。
第二,模型实现跨越式迭代。千寻智能是中国首家验证具身智能Scaling Law的企业:预训练数据增10倍,微调数据可减半。2026年1月千寻智能V1.5模型已支持语音驱动复杂任务;千寻智能在权威榜单击败北美开源模型π 0.5,实现中美模型由并跑到领跑的跃迁。千寻智能模型训练分三阶段:预训练、后训练、强化学习,工业任务成功率已达99.5%。
第三,Agent是家庭落地关键。孙荣毅强调,面对复杂、中断、多优先级任务,必须依赖强健的Agent大脑进行长程规划、动态重规划与任务调度。现场演示中,千寻智能机器人在桌面收纳任务中能应对抽屉卡顿、抓取失败、物品掉落等异常,机器人自主调整顺序,体现真实场景下的鲁棒决策能力。
孙荣毅认为通用具身大模型+稳定本体+可扩展Infra平台+顶尖团队,构成具身智能核心范式;千寻智能目标是10年内让全球10%的人拥有自己的机器人。
胡喆祺:月泉仿生以肌肉化仿生方案打破产业桎梏
月泉仿生副总经理胡喆祺指出,尽管当前人形机器人已展现强大运动能力,但运动能耗高、手臂操控能力弱、人机交互安全性差三大问题严重制约其大规模落地应用。月泉仿生的解决方案是真正模仿人体骨骼肌肉系统。人体经历数十万年进化优化,是人形机器人的绝佳范本。
月泉仿生由中科院院士任露泉(我国仿生科学与工程一级交叉学科创始人)和任雷教授(2017年国际首创仿生拉压体机器人理论)联合创立,团队已发表800余篇论文、获得280余项专利。基于仿生拉压体技术,月泉仿生实现三大突破:颠覆传统刚性铰链设计,单关节最高可达三维6自由度;自研磁机电驱人工肌肉,实现驱动、传动、变速一体化,大幅降低能耗;多层多节刚柔耦合系统优化能量管理,仿生机械臂负载自重比达50%。
月泉仿生已构建从核心零部件到整机的完整产品线。旗舰产品应手Y-Hand M2拥有全球最高的38自由度,指尖力达180牛,远超行业30-40牛水平,寿命超30万次无明显性能衰减。该产品可实现单手开瓶盖、单手使用工具、穿针引线等真正灵巧操作,超高柔顺性保障人机交互安全,2026年2月向总书记展示。信手X-Hand M1搭载11自由度与472感知单元,提拉负载达40kg。轮式人形机器人W-Bot 2.0拥有全球最小底盘(0.238㎡)与宽膝踝三折叠结构,工作空间覆盖0-2.2米,已应用于一汽、文旅、仓储物流场景。月泉仿生还自研YQ Motor5系列空心杯电机(直径4-22mm共7款),形成全栈自研能力。
胡喆祺强调,月泉仿生致力于与产业链共同推动人形机器人在智能制造、家政养老、医疗健康等场景的真正落地应用。
王乐天:星动纪元灵巧手技术突破与产业化路径
星动纪元产品副总裁王乐天认为,优秀的灵巧手不仅仅是“能动”,更重要的是“能被训练”、支持高效的智能决策。具身智能系统除了依赖模型、算力和数据三大支柱外,执行能力是其必不可少的第四个维度。在模型应用方面,VLA(视觉语言辅助)适合泛化的意图建模,而强化学习则更擅长实现高频、高精度的动态细致动作,满足复杂操作需求。
实现这些能力的关键在于提升灵巧手的执行精度。首先,需降低关节背隙,通过双编码器技术实现输出端与电机端的闭环控制,有效减少机械传动的误差。其次,全直驱结构避免非线性传动关系,简化运动控制,有助降低算力消耗;全驱方案确保各关节独立驱动,数据正交,便于并行训练与精准控制。另外,触觉传感器数据虽海量,但目前低分辨率触觉对于提升模型效果更为实际。
灵巧手的工业应用考验其真实寿命。市面上多数厂商宣传空载寿命,但实际使用中,外壳撞击、抓取过程的冲击负载及电机堵转所引发的大电流,才是灵巧手寿命的真正考验。星动纪元通过反驱容错设计和柔顺力控策略,不仅提升了系统的鲁棒性,也保障了在物流仓储、工业装配等复杂场景的稳定运行。其主力产品XHand系列灵巧手,结合了高密度触觉传感、全自研紧凑关节模组及领先的控制算法,已被多家模型厂商广泛采购,并实现了端到端的落地应用,推动工业智能装备向更精细、更可靠的方向发展。
02.
触觉革命:中国力传感器如何打破机器人“感知盲区”
2025年,中国具身智能产业迎来关键转折点。传感器企业将航天技术转化为民用产品,灵巧手年交付量首次突破万台大关,世界模型从像素理解转向物理交互。在这场从实验室走向量产的竞赛中,力传感、触觉感知、灵巧手执行、AI决策和安全防护已成为推动行业从技术突破走向规模化落地的关键环节。
袁明论:从航天测力到机器人触觉的技术跨越
坤维科技常务副总经理袁明论介绍,公司创始团队来自中国航天空气动力技术研究院,拥有20多年航天飞行器测量技术经验。袁明论表示,公司针对力传感器长期参数标准不清晰、国内缺乏核心技术和产能不足的行业痛点,将航天六维力测量技术转化为民用产品。公司在江苏常州建有超1万平米生产基地,配备金属材料实验室和力觉溯源实验室,确保产品获得国家计量院认可。
袁明论指出,坤维科技自研了全自动六维联合标定技术和半导体应变技术,产品精度达满量程0.1%,准度达0.3%,性能优于国外主流产品。公司年产能达10万台,市场占有率53%,去年营收增长120%,服务超100家客户,包括优必选、ABB、华为、比亚迪等头部企业。袁明论强调,公司主笔撰写了GB/T 43199-2023《机器人多维力/力矩传感器检测规范》,这是民用机器人力传感器领域唯一的国家标准,让客户选择有参照,行业生产有规范。
袁明论表示,坤维科技产品广泛应用于人形机器人数据采集、医疗手术安全保障、汽车零部件质感检测等场景。公司未来将结合AI技术升级产品,实现生产环节自动化和智能化,面向全球市场发展,以智能传感技术助力新质生产力。
余庆:因果世界模型赋能驱动具身智能迈入自主决策新阶段
晨昏线科技联合创始人&CTO余庆表示,世界模型将是具身机器人大脑的核心底座,GCWM1目标因果世界模型以“因果思考”重构具身智能,让机器人先推演物理因果链条,实现理解、预测、干预闭环。模型可精准理解复杂指令、支持断点续推、过程监督与多任务并发,通过多世界线搜索提升预判能力,搭配原子技能库实现精准执行。公司已搭建全栈落地体系,技术已在多场景验证,将推动机器人从“看见”走向“想透”,真正实现自主决策与高效作业。
余庆强调,团队自研的4B世界理解模型通过因果链路和过程目标强化学习提升空间理解正确率,在复杂空间推理任务中超越了开源32B模型和部分闭源大模型。公司还构建了14种基础技能和7种高阶技能库,通过结构化Skill定义和Agentic RL技术,未来要将近百个DigitalAgent落地经验迁移到PhysicalAgent场景里去。
余庆透露,晨昏线科技已完成近20余种具身硬件适配和10余个场景落地。目前,公司正与工信部某所、国产算力公司、多个制造场景企业等联合打造Task-Centric的数据采集训练验证闭环系统TermiDataClaw。同时公司正在构建具身世界理解模型评测体系TermiBenchmark,特别是在精细化操作理解等维度做了大量工作,未来会同各高校和标准评测机构一起不断完善。
晨昏线科技【目标因果世界模型】,让每一个动作都根植于对物理世界的深度理解,让每一次决策都源于场景化目标与物理因果的精准预判,为具身智能注入真正“有思想的大脑”,实现更强的泛化能力,更准确的状态预测与更高确定性的自主作业。赋予机器人在复杂现实世界中自由行动与深度思考的能力,与行业一道推动具身机器人走向规模化商用。
王泰格:具身智能安全不能“等出事再补救”
百度智能云云安全部场景安全负责人王泰格指出,具身智能行业正处高速爆发期,2025年中国具身智能投资达380亿元,相关企业超230家,但安全风险已真实显现。王泰格列举了多起典型案例:特斯拉工厂机器人伤人事件导致5100万美元赔偿;海外物流仓库发生机器人"僵尸集群"攻击造成数百万美元损失;格斗机器人在调试中突然失控;GeekCon黑客大会演示了机器人间传染性攻击。王泰格强调,当前三大核心风险亟待应对:一是远程劫持攻击可导致资产损失、人身伤害与品牌危机;二是知识产权泄露,端侧模型易被逆向提取复现,内网机密数据随人员流动外泄;三是智能行为决策诱导,训练数据投毒或语音视频欺骗可触发隐蔽攻击行为。
王泰格坦言,行业整体安全基础薄弱:80%以上企业没有专职安全团队,企业对信息安全缺乏系统理解,且行业尚未建立统一安全标准。尽管2026年将发布人形机器人安全行业标准,但企业需要主动建设安全能力。百度智能云提出分阶段安全体系建设方案:以TARA分析平台为起点,通过大模型自动输出安全目标与实施路径;安全产品层面构建"PKI安全基座—安全运营平台、安全OTA、安全存储、漏洞扫描、智能决策安全、训练数据毒性检测"全栈安全能力。整套体系化安全解决方案覆盖从概念设计到研发、测试、认证以及量产运营的五个阶段,并为具身本体厂商提供了按P0到P2优先级分级落地的完整安全建设思路。王泰格强调:"安全不是成本,而是产品可信的必要前提,企业不能等到机器人伤人、泄密或被操控后才补救。"
沈新星:力传感破局关键在于“轻薄高精+生态协同”
星汇传感联合创始人沈新星指出,当前机器人力传感器行业面临三大困局:一是市场体量小,六维力传感器因价格高昂、缺乏人形机器人专属设计而难以放量;二是技术创新滞后,传统工业级传感器无法满足机器人对轻量化、高精度、抗干扰、耐高温等复合需求;三是定制需求碎片化,用户应用场景高度不确定,这倒逼供应商必须具备极强的快速响应与原创能力。
沈新星介绍,星汇传感依托中鼎股份支持与航天军工背景研发团队,公司构建了“推广系列+创新系列”双轨产品矩阵。公司创新系列实现多项行业首创:超轻薄六维力传感器本体厚度仅13mm、通孔11mm、量程达500N/30Nm,厚度优于市面主流20mm以上产品;全球首款高集成六维联合标定仪“水星1.2”支持来料全参数自主检测与量产快速标定;抗轴向力C型梁扭矩传感器精度不受轴向力影响,电路板工作温度上限高至105°C;8mm直径迷你一维拉压力传感器底座仅12×10mm、量程达150N,填补了灵巧手等狭小空间测力空白。
沈新星强调,未来传感器企业的核心优势在于产业链协同与量产能力:星汇传感与中鼎旗下谐波减速器、微型电机、轻量化骨骼等企业形成生态闭环,企业可以进行联合开发、空间集成;公司依托汽车级供应链体系,已在质量管控、批次稳定性、成本控制上建立先发优势,为机器人C端商业化落地提供可靠底层支撑。
房海南:灵巧手十年商业化的突破与挑战
因时机器人CMO房海南表示,公司在2025年实现了五指灵巧手单年交付量1万台的突破,这是灵巧手行业近20年来首次突破万台大关。房海南强调,这一成就不仅反映了下游需求的爆发,更体现了因时机器人在供应链、产能、装配效率和成本控制方面的全面提升。
房海南指出,灵巧手行业存在性能、成本和可靠性的“不可能三角”困境。她坦言,目前没有一款灵巧手能完美解决这三个问题。高性能必然带来高成本,而可靠性需要长期的经验积累和测试验证。因时机器人通过近10年的深耕,在出厂前对每款产品进行近20多项标准可靠性测试,包括高低温、盐雾、振动和带负载的寿命测试,这是行业内为数不多能做到的。
房海南表示,微型伺服电缸是灵巧手的“肌肉”,因时机器人作为该技术的开创者,大幅降低了灵巧手的制造门槛。因时机器人目前拥有6个系列的灵巧手产品,从6自由度到13自由度不等,并实现了触觉传感器的标准化和模块化配置。2026年,因时机器人的灵巧手产能将达到5万台以上,微型伺服电缸产能将达到50万台以上。
付宜晖:触觉感知成为具身智能核心瓶颈
他山科技市场及生态副总裁付宜晖表示,触觉传感器赛道在2021年就已经是超百亿美金的市场规模,预计2028年将达到260亿美金的空间。随着人形机器人的发展,触觉正在成为继视觉之后机器人的第二感官,给触觉传感器赛道带来了一波新的增量。当前机器人发展已经进入泛化能力和物理世界大模型阶段,机器人与外界的交互对触觉有了更高要求,触觉感知的缺失已经成为目前阶段的核心瓶颈。
付宜晖通过触觉丧失的罕见病案例说明了触觉的重要性。触觉感知丧失的病人过度依赖视觉,抓取物品时需要仔细观察,且经常捏爆柔性物品。机器人在没有触觉维度感知时,需要穷尽式观察被测物体,数据采集的时间成本投入较高。当机器人有了触觉之后,可以大大提升数据采集效率和学习效率,实现自适应力抓取和精细化操作。
他山科技自研了全球首款数模混合AI传感芯片,这是第一款基于脉冲神经网络应用的芯片。
作为唯一打通“底层芯片+传感器+整手算法”全链路的企业,他山科技在2025年已占据全球触觉传感器80%的市场份额。目前,公司已与150家机器人商业客户达成合作,在工业质检、智慧农副业等垂直场景实现规模化落地。
张栋:触觉数据是物理世界模型的关键突破口
戴盟机器人合伙人兼首席商业官张栋表示,过去两年行业出现了大量demo和投资热潮,但更多展现的是单点能力。当机器人从demo走向真实物理场景应用时,触觉是必不可少的元素,也是聚焦物理世界模型必不可少的工作。过去几年AI在语言和编程方面能力很强,但机器人在真实物理世界的泛化和操作能力仍有很大瓶颈,简单的插拔对齐、防滑抓取、工具使用都非常困难。
张栋强调,下一代包含物理属性的高质量数据必须理解物体的摩擦力、错误用力造成的损伤、接触力与接触形变如何影响下一步动作,从而创造新的物理世界模型。这个新的物理世界模型不仅要包含文字、视觉、本体感知,还需要具备更多的物理模态信息。以划火柴、拿鸡蛋、捏水果等为例,如果缺少多模态高密度的触觉感知,尤其是指尖触觉感知,机器人的操作会非常困难,甚至无法完成。触觉可以有效弥补视觉的盲区和错觉,在精密装配和商用服务场景中尤为关键。
张栋介绍了戴盟机器人的3D战略和产品布局。戴盟机器人将自己定位为触觉和数据基础设施的建设者,打造了Device(设备)、Data(数据)、Deployment(部署)的3D战略。戴盟机器人的触觉传感器可以覆盖从工业级夹爪到指尖、涵盖从传统工业自动化到具身机器人等多种模态信息触觉的入口。此外,戴盟不仅提供外骨骼和异构机器人采集设备,还有无本体可分发式的数据采集设备,可以以最低成本进入到C端商用服务场景。戴盟机器人本月发布了全球最大规模的含触觉全模态物理世界数据集Daimon-Infinity,并在阿里魔搭社区上线。戴盟希望将基础设施做得更牢,让行业更快从单一demo走向产业化和真正量产的应用。
张知阁:21自由度全直驱灵巧手破解不可能三角
强脑科技具身智能系统部总经理张知阁表示,灵巧手行业一直存在性能、稳定性和成本三维构成的“不可能三角”, 这也是灵巧手进入快速商业化通道前需要解决的问题。
张知阁介绍了人手的复杂性。人手有27个自由度, 其中手掌21个、手腕6个,包括36块肌肉以及数不清的神经末梢。以抓矿泉水为例,人类的抓握过程依赖神经系统、肌肉控制和多模态感知相互链接,包括前馈控制和反馈控制两个闭环,需要类人神经系统的分层控制架构。
张知阁介绍了强脑科技的产品布局和技术突破。强脑科技本月发布了Revo3-U21系列灵巧手,实现了21个自由度的全直驱设计。该灵巧手采用直驱技术,电机与关节直接相连,省去了中间传动结构,使同一输入对应同一动作的关系更加稳定。该产品实现了反驱结构,关节可以被外力推动,系统可以通过电流直接控制进行力的调节,实现柔性控制和人机交互安全。在性能方面,该灵巧手开合频率达到3Hz,五指握力达到70N,同时集成了全掌触觉和指尖视触觉,实现了全开源的结构,全面兼容主流的具身智能仿真与部署生态。
03.
50万亿市场,具身智能如何熬过“热启动”,迎来“冷成长”?
本次圆桌论坛以“具身智能产业规模化构建路径与发展机遇”为核心命题,汇聚具身智能科研机构与核心企业的重磅嘉宾,围绕端侧大脑、灵巧手、小脑控制、算力基础设施、场景落地等关键环节,就技术工程化取舍、数据与算力瓶颈、产业链协同创新等核心议题展开深度对话,探寻具身智能从“尝鲜”走向“常用”的可行路径。
圆桌论坛由国家自然基金委高技术中心研究员、科技部专业技术二级刘进长,具身智航联合创始人兼CEO 刘竞元、灵生科技创始人兼CEO杨洪兵、灵心巧手联合创始人曹岗、华成工控董事杜晓磊、启物科技创始人兼COO 周炀皓、宽恒科技研究院院长乔晶共同参与话题讨论。
刘竞元:理性看待“泡沫论”政策与资本共筑长期确定性
具身智航联合创始人兼CEO刘竞元指出,当前具身智能的高热度并非无源之水。从国家政策支持与资本持续涌入来看,行业发展的长期性与确定性显著增强。他明确表示:“我不认为投资机构或国家政策在战略导向上存在根本问题。”
针对“泡沫”争议,他持审慎理性态度:一方面承认确有部分缺乏核心技术的企业获得了资源配置;另一方面强调,这类现象需时间检验与市场出清,不能简单否定整体趋势。
作为专注“端侧大、小脑及全栈”研发的科技企业,具身智航正通过底层技术创新(如高精度无源导航、L4级自主飞行驾驶系统等),推动具身智能从概念验证迈向真实落地。他总结道:当前390亿级融资热潮,实为产业跨越关键拐点的必然反映。同时也为上游供应商带来广阔跨领域发展机遇。真正具备技术积淀与工程化能力的企业,将在竞争中胜出,最终实现“从尝鲜到常用”的规模化跃迁。
杨洪兵:短期过热≠长期泡沫,50万亿级市场是“泡沫消化器”
灵生科技创始人兼CEO杨洪兵对行业泡沫问题采取了辩证的看法,将其分为短期和长期两个维度来分析。他坦承短期内确实存在投资和宣传过热的现象,但从长期来看,具身智能市场足够大,能够给整个产业带来根本性变化。这个市场的容量足以消化当前的泡沫,因此他对行业前景持乐观态度。
杨洪兵强调,真正有技术实力和应用场景的企业将在市场竞争中脱颖而出,而泡沫的存在反而能加速行业优胜劣汰的进程。他认为,当前的投资热度是产业爆发前的正常现象,随着技术成熟和应用落地,市场将逐步回归理性,最终推动产业健康可持续发展。
在数据方面,杨洪兵明确指出当前最大短板是高质量真实场景数据,而非算力。他主张“人本采集”,以真实人类行为为中心在自然场景中采集数据,强调其多样性与真实性不可替代;反对工业场景中规则驱动的机器人日志等“有毒数据”,认为其缺乏多样性易导致过拟合。他倡导数据开源共享,认为协作可加速行业进步。其团队(灵生科技)正构建以UMI与Ego数据为核心的“真实世界具身数据引擎”,推动具身大脑突破数据瓶颈,实现通用泛化性。
曹岗:“三步走”战略打通灵巧手规模化最后一公里
灵心巧手联合创始人曹岗从产业演进规律切入,指出:机器人行业历经数十年技术沉淀,已迎来模型能力跃升所驱动的爆发拐点——大模型在数字世界验证的“Scaling Law”正在向物理世界迁移,一旦具身智能实现可靠作业,其市场空间将远超当前预期。他援引摩根士丹利的预测:到2050年,全球具身智能相关产值有望达50万亿美元,而当前资本投入“远远不是泡沫,只是刚刚开始”。
灵心巧手作为全球灵巧手领军企业,正在三个方面推进工作:第一,加大核心零部件自研力度,达成更加稳定、性能更好、价格更低的表现三角;第二,深化产品量产能力,进一步提升灵巧手的成品下线一致性,为模型训练提供标准化的硬件平台基础;第三,推动平台化和生态化建设,通过系统开源、灵心巧手学者计划、天才研究员计划等方式,支持高校院所开发更多技能和应用场景,最终实现应用规模化。
杜晓磊:垂域模型驱动机器人真正“进厂干活”
华成工控董事杜晓磊指出,华成工控深耕运动控制领域21年,自研具身智能的“小脑”层,即全身运动规划与力控融合的执行底座。他以具身机器人半马挑战为例说明技术跃迁:2025年完成时长需2小时以上,2026年已缩短至最快48分钟,印证运控能力正以前所未有的速度进化。
同时他强调:当前通用VLA模型在工业场景仍面临严峻挑战——在搬箱、打螺丝、涂胶等具体工艺环节,作业准确率普遍不足。问题根源在于:通用模型缺乏对工艺细节的理解,而传统示教编程效率低下、泛化性差,难以适配柔性生产需求。
华成工控持续落地VLA技术在装配场景的应用,目前首批方案已进入工厂上量验证阶段,推动工业机器人从基础运动执行,升级为稳定、可靠的自主作业。谈及未来,杜晓磊坚信:随着工业具身进入“ChatGPT时刻”,华成工控将以核心控制器为支点,赋能制造业突破传统模式,推动产业从 “工程师意志复现” 的固定化作业,全面迈向 “自主感知、智能执行” 的全新发展范式。
蒲中柱:全球首台通用农业具身智能机器人发布,做具身智能机器人的端侧大脑!
启物科技创始人&CEO蒲中柱介绍,公司定位为具身智能机器人的端侧大脑研发商,具身智能机器人软硬件一体交付,技术重点在于本地化部署的轻量化模型与高鲁棒性运动控制栈的协同,确保在离线环境、低功耗边缘算力条件下稳定运行。谈到当前的落地阻力,抛开算法本身的成熟度,启物认为最大的瓶颈在于“端侧推理延迟与硬件成本的矛盾”,不可能在每一台具身机器人上都背一块昂贵的服务器级 GPU。在不破坏商业 ROI 的前提下,如何利用极其有限的端侧算力完成 VLA 模型的极速推理,是规模化的胜负手。
谈及这次具身智能的发展浪潮与过往机器人行业周期的不同,他认为最大的不同在于底层的范式转移,过去的机器人行业是以“规则和编程”为主导的被动执行,而这一轮是由“数据和学习”驱动的主动泛化。他指出,具身智能的规模化落地不会一蹴而就实现全场景通用,而将遵循“半结构化场景切入→商业闭环验证→数据反哺模型→软硬件深度融合迈向通用”的演进路径。
关于真机数据和合成数据他认为:真正决定模型上限和商业落地效果的,是高质量的真机数据。 Sim2Real 和世界模型确实能扩充数据广度,但在精细的物理接触和力觉反馈上,真机采的高质量数据依然是当前最稀缺的资源。启物通过在真实业务中部署大量机器人,通过实际自主工作来收集数据并进行优化,起到了数据飞轮的作用。
蒲中柱表示,农业采摘是当前最具落地可行性的突破口:该场景具备刚性需求(全球劳动力短缺)、工业属性(工厂化标准种植)、柔性操作(高难度柔性采摘),为算法迭代提供了安全窗口。基于此,启物科技已实现关键落地成果——于2026年4月21日在荷兰正式发布全球首台通用农业具身智能机器人。
他进一步说明,公司当前聚焦采摘场景,同期也在做物流分拣与零售前置仓方向的落地。关于未来发展,明确表示:未来5–10年,通用具身智能机器人能够落地,前提是以真实付费场景为起点、以指数级高质量数据积累为驱动。“没有商业闭环的‘通用’是空中楼阁;而采摘,正是我们找到的那个切入点。”
宽恒科技乔晶:如何把“天价算力”塞进低利润制造企业?
宽恒科技研究院院长乔晶指出,当前具身智能发展的关键瓶颈在于算力供给与制造业低利润现实之间的矛盾。她强调:从第一性原理看,世界最高端芯片通过Transformer架构实现智能转化的路径已明确“最高端的芯片能产生智能,这是毫无疑问的”。但对制造业等利润率普遍偏低的行业而言,高昂的算力成本构成切实障碍,“他们确实有困境,没有办法支撑这么高昂的费用”。
面对这一现实,乔晶提出分阶段推进路径:短期(当下) :算力资源极度稀缺且优先配置给头部企业。“现在面临的状况就是有钱也买不到,只能是最头部的企业才能买得到”,这是对社会资源的最大化利用,将有限的高端算力集中供给“最有创造力的公司”,加快范式验证与技术突破。中期(3–5年内) :随着具身智能在真实场景中跑出可行范式,算力成本将随规模效应与技术迭代显著下降,进而实现“面向全世界、全行业普惠”。她明确表示:“过3、5年之后,具身智能把整个范式跑出来……到时候肯定是普惠的出现。”
关于自身角色,乔晶说明宽恒科技定位为算力整合与落地服务商:“我们整合所有能用到的力量,需要投资人支持,因为投资很大;我们在中间做好服务商角色,把投资人的钱用好,把这么高的算力真正用在企业里。”她强调,公司并非单纯提供硬件或云服务,而是通过“投资+服务”双轮驱动,推动高算力在制造企业中实现可落地、可持续的应用闭环。
最后,她回应行业热议的“泡沫”问题时指出:“这次具身智能的兴起,到今天还不到3年时间”,大量企业成立于2023年,技术演进仍处早期阶段,“现在的泡沫,我觉得言之过早”。她坚信:具身智能是AI走向物理世界的必然延伸,其价值不在于替代人,而在于“帮助人完成人不能做的事情”,这才是驱动第四次工业革命持续向前的核心动力。
04.
数据、触觉、架构、生态:具身智能跨越产业化鸿沟的全链路突破
从实验室走向真实世界,具身智能正站在产业化的十字路口。高质量数据短缺、感知执行链路割裂、泛化能力不足、商业闭环缺失,这些共性难题困扰着整个行业。下面单元将从数据基础设施、触觉感知突破、模型架构创新、开源生态构建、消费级产品探索、柔性仿真补足等多个维度,呈现行业对破局路径的系统性思考。
江磊:人形机器人需从“体外智能”迈向“身体智能”
国地共建人形机器人创新中心首席科学家江磊指出,人形机器人发展三年来,大脑、小脑、肢体等单项技术已基本成熟,但真正的卡点在于通用数据。江磊强调,行业必须坚持“先通用、后垂类”的路径,即先解决通用数据问题,实现通用智能,再做垂类应用。他认为过去40年垂类应用路线下没有一家人形机器人公司成功,这一轮不能重蹈覆辙。目前高质量数据不足1T,距离所需的10T数据量还有很大差距,按线性逻辑可能需要10年才能完成数据积累。
江磊提出,当前的具身智能仍停留在“体外智能”阶段,智能不在身体里,身体不参与智能发育,机器人只是被动执行大模型的规划。他认为下一步需要实现“身体智能”,让机器人具备长时因果能力、感知-动作-认知一体化能力,以及在未知环境中的探索泛化能力。江磊建议构建“老师-学生”双模型架构:体外预训练模型作为老师,体内学生模型实现自主学习闭环,形成观察-决策-执行-反馈的身体智能新范式。
江磊呼吁行业不要折腾、不要摇摆,要坚持AI+机器人的技术体系深耕。他特别强调当前机会在于构建垂类大脑和数据集,各行业应快速做好垂类数据集储备,而非急于做垂类应用,待2-3年后技术成熟时通过超级终端实现场景落地。江磊表示,通过标委会可以定义行业通用人形和专用人形标准,实现体系不折腾、数据制胜不内卷、标准引领不散乱,人形机器人的机会和蓝海市场依然存在。
史淼泓:具身智能需以“场景驱动、闭环迭代”为核心,通过VTFLA技术与人机协同机制推动真实场景落地
瑞为技术副总裁史淼泓指出,当前具身智能面临两大核心瓶颈:一是真实场景中执行能力弱,实验室Demo与现场部署存在显著落差;二是商业闭环缓慢,从验证到规模化推广周期过长。他强调,行业普遍存在的痛点包括产品形态与应用需求错配、复杂业务流程适配难、高质量训练数据获取成本高、通用模型在感知-决策-执行链路上仍不够平滑。
基于瑞为十余年B端落地经验,史淼泓提出“让机器人在场景中进化”的路径。瑞为的做法是:产品定义始于深入一线挖掘真实业务痛点,适配客户现有流程,避免因流程改造推高落地成本;聚焦真实场景训练,通过任务数据、示教与异常案例持续完善模型;运行中持续训练反哺模型迭代,形成“数据闭环”与“商业闭环”双轮驱动。史淼泓表示,瑞为聚焦泛民航等垂直行业,通过端到端感知执行方案、快慢协同异构大脑和高效可靠本体,为客户创造价值的同时实现产品持续迭代。
史淼泓以机场行李搬运场景为例说明落地实践。他调研发现,搬运工人每天需搬运1000件行李约16—20吨,饱受职业病困扰。瑞为推出的VTFLA多模态协同架构融合视觉、触觉、力觉与语言,通过慢系统负责逻辑推理和任务规划、快系统负责运动控制和实时响应,解决了传统VLA缺乏力感和触觉反馈的缺陷。其“晓蚁”行李转运机器人已实测落地,并创新引入人机协同机制,保留人类处理非标物体的能力。史淼泓呼吁产业开放协作,瑞为愿共享视觉感知、认知组件及具身大模型等核心能力,共同推动具身智能价值创造。
李炎辉:高精度触觉是具身智能“最后一厘米”的破局关键
超维传感创始人兼CEO李炎辉指出,当前人形机器人虽在视觉、运动控制等领域进展显著,但在灵巧操作上仍普遍存在“抓不稳、放不轻”的问题——例如拿起装满水的无盖矿泉水瓶时,常因力控失稳导致溢水或跌落。他强调,问题核心在于非结构环境下的力控失效,尤其是切向力感知缺失,导致机器人无法实现类人级的精细操作。
李炎辉提出,灵巧手80%的操作失败源于法向力与切向力的精准度不足。真正的挑战不是“看到物体”,而是“稳稳抓住并动态调整”。他以拿放水瓶为例说明:需实时感知指尖位置、法向力(如5N)、切向力(如2.5N),并在放置时依据切向力归零信号精准松手——这一过程离不开高精度三向力反馈。他进一步指出,触觉并非不重要,而是现有传感器数据噪声大、重复性差(误差常达15%–30%)、一致性低,导致AI模型无法从低质数据中学习有效规律,进而误判“触觉无用”。
李炎辉主张:灵巧手通用泛化的底层基础是高一致性(≤1%误差)、高精度(≤0.2%误差)、高可靠性的触觉信息。他对比主流触觉技术路线,指出压阻、电容、霍尔及视触觉方案在切向力标定、线性精度与批次一致性上普遍不足;而超维传感通过自研纳米材料、非弹性结构设计与独家算法,实现指尖级传感器千分之二的精度误差、1%的一致性误差,并支持百万次寿命,同时解决迟滞、漂移等工业级可靠性痛点。
李炎辉介绍,超维传感已推出HSP系列(指尖)、HSM系列(指腹)和HSE系列柔性阵列(手掌)三大触觉产品线,构成全手触觉感知系统,可融合位置、法向力、切向力与温度等多维信息,支撑VTLA等具身模型训练。他强调,只有当触觉数据足够干净可靠,视觉-触觉闭环协同才能真正实现“感知—决策—执行—反馈”的类人灵巧操作。最终,他呼吁行业重视触觉这一“最后一厘米”的技术鸿沟。未来机器人将不仅是执行者,更是“懂轻重、知冷暖”的贴心守护者。
唐剑:开源开放是破解具身智能泛化难题的关键路径
北京人形机器人创新中心CTO唐剑指出,机器人行业发展70年仍未在商业服务和家庭场景大规模落地,核心痛点在于泛化能力不足——传统机器人需要针对特定场景编写专用程序,换场景就需要重新开发。他强调,具身智能的核心目标就是让人形机器人具备通用泛化能力,走入千行百业。北京人形机器人创新中心定位为平台型生态企业,通过开源开放构建新生态,主要抓手是两大平台:硬件平台“天工”通用人形机器人和软件平台“慧思开物”一站式具身智能开发平台。
唐剑介绍北京人形机器人创新中心是行业内最开源开放的企业之一,已开源具身多模态大模型Pelican、具身世界模型WOW、VLA模型XR-1等核心技术,并以SDK形式开放慧思开物平台。该平台采用分布式具身智能体架构:大脑由Pelican和WOW双模驱动,负责场景理解和任务规划;小脑作为Agent调用各类技能模型完成具体操作。平台设计目标是“一脑多能、一脑多机”,目前已适配9种硬件平台,支持工业、商业服务、家庭服务等多类应用场景。
唐剑特别强调世界模型的三大作用:作为事件模拟器辅助大脑自主学习、生成合成数据训练VLA模型、直接作为VLA模型控制机器人。他认为VLA和世界模型会长期并存——VLA适用于结构化环境已达到能用状态,世界模型因预训练使用大量互联网视频数据而具备更强泛化能力,更适合商业和家庭场景。中心开源的XR-1模型支持7种本体跨平台操作,是首个通过国家标准评测的VLA模型。在硬件方面,天工3.0全尺寸双足机器人主打“灵活运动、灵巧操作”,是全球首个完成托马斯全旋的全尺寸机器人,并在亦庄半马障碍赛中凭自主导航获得智行奖。
目前北京人形机器人创新中心已建立5000平米具身智能数据基地,拥有500多台本体机器人和100多名数据采集员,今年产能可达千万条。已开源的RoboMIND 2.0数据集包含30万条轨迹、700多项任务及1.2万条触觉数据,下载量近300万。他呼吁行业共建生态,坚信通用人形机器人将像个人电脑和智能手机一样,全部或部分取代专用机器人,推动具身智能走进千家万户、赋能千行百业。
黄岩:空间认知增强架构可破解具身大模型数据饥渴难题
中科第五纪青年首席科学家、中科院自动化所研究员黄岩指出,具身大模型虽具备跨场景、跨任务学习的想象空间,但面临严峻的数据困境——当前开源数据规模仅千万级,远低于大语言模型,而具身任务复杂度更高且需跨本体适配,理论上需要的数据量应远超大语言模型。他强调,虽然UMI等遥操作方式提升了采集效率,世界模型也能生成虚拟数据,但生成数据质量能否真正带来性能增益仍需技术突破。黄岩认为,除了数据采集,模型架构优化同样关键——能否通过架构创新降低对数据的依赖性,避免单一任务需要数百甚至数万条数据的低效局面。
黄岩提出,认知神经科学对模型架构创新具有决定性作用,例如Transformer的自注意力机制源于人眼视觉注意机制。他的团队聚焦将人脑空间认知能力,包括认知地图、空间注意力、空间推理,迁移到具身大模型架构中,以降低数据需求并减少复杂场景下的运动规划失败率。在导航领域,黄岩团队开发了基于空间户型图的具身导航大模型,通过输入粗略手绘户型图作为空间先验,让模型无需提前建图或实时定位即可自适应导航,已在宇树机械狗上实现公司场景下的行人规避与自主导航。
在操作领域,黄岩指出现有VLA架构存在“漏斗式”问题:输入输出均包含三维结构信息,但建模过程将其压缩为一维特征向量,导致物体体积、位置、形状等关键空间信息丢失,模型转而关注“瓶子是红色”“标有农夫山泉”等语义信息。他的团队将模型架构全面三维化,把一维向量升级为三维热力图,并在CVPR可泛化VLA竞赛中获得第一名。该方案在不同光照、角度、距离、背景下实现少样本泛化,并进一步结合世界模型,将热力图思想扩展到视频基础模型,统一少样本VLA与世界模型架构。黄岩团队在世界模型评测基准World Arena上也获得第一名。
黄岩表示,中科第五纪依托少样本具身大模型能力,已与宇树、零跑、中石化、美的、国家电网等展开深度合作,应用场景涵盖电力巡检、物体分拣、插拔、零售、加油等。他认为未来具身大模型仍需突破三大技术点:一是提升数据利用效率,世界模型需在人-物交互细节生成上进一步突破;二是模型小型化,需将3B-7B体量压缩至0.5B以实现端侧稳定运行;三是全身运动控制,现阶段较现实的方案是VLA+VLN协同。黄岩呼吁行业关注少样本VLA、模型架构设计、行为条件世界模型、人在环路强化学习等前沿方向,共同推动具身智能技术突破。
孙佳:类人灵巧操作需模型-本体-数据-场景全链条闭环
中科硅纪CTO孙佳指出,机器人要像人一样用手干活并落地真实场景,需具备通用类人灵巧操作能力,这依赖四大关键指标:适应性(对不同物体、环境、任务的包覆识别抓取能力)、灵巧性(足够多关节自由度完成精细操作)、工具性(复用现有为人手设计的基础设施和工具)、人机性(与人协作共融而非割裂)。她强调,在人类生产生活中50%任务是通用抓取可以完成的,40%是由精细化抓取和功能性操作完成的,而后者才是创造经济价值的关键。
中科硅纪将类人灵巧操作能力分为五级:DL1-2是固定编程和遥操作,DL3是多样化物体通用抓取,DL4是精细化抓取和功能性操作,DL5是人机协同作业。基于团队20年探索经验,孙佳提出必须坚持“模型-本体-数据-场景”完整闭环——模型作为核心,引导本体设计,数据实时配合模型与本体的变化而快速调整,最终与场景任务结合才能完成落地。她强调,机器人全身自由度中一半以上集中在双手,通用具身模型会降低精细操作能力,因此团队推出CasiaHand Brain类人灵巧操作具身基座模型,该模型顶层负责任务理解与规划,中层为核心基座模型层,涵盖了通用抓取、功能性操作、响应式人机交接、双手协同、人机融合、预抓取与辅助操作等六大核心能力模块,底层则嵌入实时闭环控制算法。该架构使复杂的类人灵巧操作能力模块化,通过任务调度模式使机器人精细化操作成为可能。
在本体方面,孙佳介绍到中科硅纪今年全新发布了全自研三大系列灵巧手产品,包括M系列小手、X系列工业手以及G系列三指手,同时聚焦无际(工业自主操作)和无畏(特种遥操作)两款机器人整机产品。在数据方面, 孙佳强调具身数据处于行业公认的匮乏状态,针对灵巧手的操作数据更是少之又少,而涵盖功能性操作及人机交接等五指灵巧手精细化数据则是凤毛麟角。团队自研可穿戴数采设备,同时支持遥操作实机采集、无本体数据采集和大规模物理仿真采集三种方案,已积累百万级类人灵巧操作数据。目前团队在物流搬运、柔性上下料、仓库分拣等与多家上市公司达成合作,实现了场景落地。
张淼:消费级人形机器人需重塑成本性能边界
松延动力首席市场官张淼指出,人形机器人想要走进千家万户,核心机遇在于C端市场,只有切入消费级赛道才能支撑产业宏大叙事,企业必须率先跳出同质化竞争找到差异化优势。她强调,2024年行业整体处于实验室时代,厂商发布大量demo进行多元化探索;2025年进入产品竞赛阶段,产品性能成为竞争壁垒焦点;今年大多数公司已完成从产品发布到商业化落地的关键跨越,规模化落地能力、商业化能力和场景解决方案闭环成为核心竞争力。
张淼介绍,松延动力的选择是重塑人形机器人成本和性能边界,达到消费级水平的核心是提升核心零部件自研比例,在供应链上进入深度垂直整合。团队在材料和结构方面进行探索性创新,大量采用复合材料和极致轻量化设计方法带动成本降低。她强调,松延动力从成立之初就致力于打造机器人产品而非demo,秉持从用户需求出发,实现消费级定位需要“造买得起的产品、做好用的设计、建有未来的生态”。
在技术能力方面,松延动力通过多重能力组合推动机器人从实验室走向生活:自研运动控制算法让消费级产品具备动态运动控制水平;为家庭场景打造安全防护体系,通过极致轻量化减重保证使用安全性;通过情感化设计让交互更具亲和力。张淼特别强调内容生态是提高C端用户粘性的核心抓手,因此团队高维度进行生态合作实现平台化发展。
张淼透露,松延动力推出的消费级人形机器人小布米Bumi采用万元级定价,这一定价成为撬动C端市场的关键支点,大多数订单来自C端消费者。该产品身高不到1米,小尺寸设计更适配家庭场景,高运动性能可配合7-13岁核心用户群体完成编程实操、互动游戏和教育陪伴功能。产品搭载图形化编程系统,采用拖拽式编程和可视化配置,让小孩子无需掌握复杂代码就能轻松完成机器人动作设定;配备专属控制APP,界面极致简约、功能分区清晰;搭载语言识别和自然语言处理技术,可陪伴小朋友聊天解闷、讲故事、答疑解惑。她强调,做出一台机器人不难,难的是批量交付高质量机器人,2025年底松延动力初步建立产能释放、渠道承接和场景落地的商业化闭环,这离不开稳定供应链、严苛质检和规模化生产线三大条件。
陈溥:构建以人为中心的高精度具身智能数据闭环
凌云光·元客视界CTO陈溥指出,当前具身智能面临的核心瓶颈是高质量交互数据极度缺失,尤其真实场景中人-物体-环境(HOI/HRC)的物理交互数据稀缺,制约模型泛化与Sim2Real迁移。他强调,行业过去以“机器人为中心”的遥操作数采模式成本高、本体依赖强、跨平台复用难,难以支撑复杂任务训练。为此,元客视界提出转向“以人为中心”的新范式:通过高精度多视点立体视频+运动捕捉+多模态力学传感(精度达0.1mm/0.1N),构建富含三维几何与力学反馈的真实交互数据,大幅降低真机采集成本,提升数据质量与跨本体泛化能力。
陈溥介绍,团队基于4DGS(4D高斯泼溅)与VGGT 3D基础模型,实现单场景亚厘米级重建(<5分钟/场景)、PSNR>30dB照片级渲染与82FPS实时交互,支持连续时序动态场景生成,解决传统仿真缺乏物理真实感与时序连贯性问题。其数据策略为:先用约1万条高精度人类示范数据训练工业具身智能基础模型,再基于此生成百万级合成仿真数据,实现“小样本精炼+大规模扩展”。
他进一步说明,该体系已应用于工业产线建模、人形机器人全身运动(如跑酷、舞蹈)训练及量产质检,如为智元机器人1万台量产下线提供自动化运动性能评估和一致性稳定性质量检测,单台测试时间从4小时缩短至15分钟。元客视界已采集高质量多模态数据超1000小时,为行业共建具身职能“数据粮仓”。
王佳梨:柔性物体仿真是具身智能进入真实世界的关键一环
凌迪科技物理AI业务产品总监王佳梨指出,机器人要从结构化工业环境进入轻工业或居家等复杂场景,必须处理大量柔性可变形物体,而当前机器人数据采集中面料、皮革等柔性材质数据极度欠缺。她强调,凌迪科技将10年服装行业技术积累转向具身智能领域,核心优势在于自研的基于GPU形变体仿真技术,仿真效率是isaac sim未对接newton引擎情况下的3-10倍,大幅降低算力成本。
王佳梨介绍,团队已解决柔性仿真的三大行业难题:面料抖动、机械爪抓取穿透和多层材质稳定性表现。她以叠衣服任务为例说明,真正的难点不是折叠摊平的衣服,而是识别任意初始状态(半折叠或随意堆放)并进行展开,这需要高质量训练数据反馈系统。凌迪科技基于10年服装建模经验,可快速进行语义标注,标记抓取点和缝纫线等关键信息,为机器人提供精准的训练数据。
在数据资产方面,王佳梨强调团队已积累数千块面料的物理属性库,自研面料数字化处理硬件可一次性采集面料PBR、拉伸弹性、弯曲重量等物理参数。团队的3D建模软件自带语义属性,通过大量拓扑算法优化网格质量,解决公开数据集中狭长三角形和图生3D网络的穿模问题,确保机器人抓取时的稳定性。她进一步介绍,团队开发的SynReal Arena平台支持像搭乐高积木一样快速构建训练场景,可用Python脚本随意变换灯光、材质和物体,实现空间世界模型的泛化能力。所有资产可导出USD通用格式,兼容Isaac、Mujoco等主流生态。此外,凌迪科技也是英伟达Newton 物理引擎平台全球唯一形变体模拟引擎公司。
王佳梨透露,团队的力反馈仿真能力源于早期与内衣客户的合作,通过分析柔体模特穿戴后的应变量和变形程度评估舒适度,这一底层逻辑完全契合灵巧手的力反馈分析需求,可补充VLA数据采集无法覆盖的场景。
05.
具身智能进入“拂晓期”:破解四要素循环困境,标准与数据飞轮加速落地
具身智能正处于技术探索到规模化应用的关键拂晓期。业界专家指出,当前行业面临本体、数据、模型、应用四要素紧密耦合的“循环困境”。破局之道在于构建系统性“生长飞轮”:通过一站式Infra平台打通全流程,以开源数据集推动共识,用三层评测基准建立量化标尺,借助L1-L5分级明确演进路径。触觉传感、全身协同控制、真机训练场等关键技术正在突破,工业场景落地已初见成效,具身智能有望从“能动”迈向“可靠可用”。
姚国才:具身智能尚处拂晓期,需构建“本体-数据-模型-应用”协同生长的迭代飞轮
智源研究院具身Infra&数据负责人、北京大学多媒体信息处理全国重点实验室副研究员姚国才指出,当前具身智能整体仍处于“拂晓到清晨”阶段,路径尚未收敛,技术仍在持续迭代,虽有亮眼demo但离规模化落地仍有距离。他分析,行业受困于本体、数据、模型、应用四要素紧密耦合形成的“循环困境”:本体不成熟导致数据采集低效且设备易损坏,数据短缺又制约模型能力提升,模型能力不足则难以支撑真实场景应用,而应用场景的模糊与非共识进一步加剧方向分散。
姚国才强调,破解困境不能依赖单点突破,而应秉持“生长说”理念:本体是根基,模型与数据是躯干,应用是花果,四者相互依存需系统性培育。为此,智源研究院构建了一站式具身Infra平台,打通本体接入、任务规划、数据采集标注、训练扩增与评测部署全流程。
他特别指出,当前模型仍缺失关键拼图——认知与记忆能力。机器人尚无法理解常识,比如不会递喝剩的水;无法主动追问模糊指令,比如询问“可乐要无糖的吗”;也无法基于环境线索自主决策,比如找卫生间时主动寻找指示牌或问路。这表明单纯依赖“大力出奇迹”的数据堆叠路径难以奏效,具身智能亟需引入脑启发与神经科学视角,构建具备主动学习、智能体驱动与循环迭代能力的新一代Infra体系,真正让四要素形成正向飞轮,推动行业从早期探索走向成熟落地。
应茹:百舸全栈AI Infra支撑具身智能从范式探索到规模化训练
百度智能云主任架构师应茹介绍,百度百舸是构建在百度智能云上的全栈AI Infra平台,从2025年开始重点支持具身智能方向。她将云上客户的具身研发方向分为操作类模型和运动控制策略两大类,其中操作类模型专注长程任务如家务、拆快递、折衣服等,运动控制策略则服务于舞蹈、武术等动作编排。
应茹指出,操作类模型目前呈现两条主流范式并行发展的态势。VLA模型经过2025年集中研发后架构逐步成熟,云端Infra的核心任务是快速适配新开源VLM主干。而VLA引入World Model的路线正处于快速试错和范式探索阶段,模型呈现高度模块化特征,有的将World Model作为外挂辅助模块,有的直接融入VLA结构做联合训练,模型结构经常变更。现有的开源训练框架鲜少同时兼顾灵活性和加速能力。百度百舸在开源灵活框架上提供加速套件,让客户在灵活修改模型结构敏捷迭代的同时,能保持高效的多机并行训练。另外,百舸也开源了全模态训练框架 LoongForge,内置主流VLM、VLA、WAM模型加速能力。同时针对World Model的扩散结构推理效率问题,团队对主流WAM、VA模型做了工程化加速,推理延迟可降至原来的1/2到1/4。应茹也提出百舸期待与更多的企业做深度合作,工程助力算法,将模型推理延迟降低到一个新的数量级。
在运动控制策略方面,百度百舸集成了英伟达WBC AGILE 框架以及前沿的 SONIC/CLOT 等全身控制策略训练流水线,客户可以在平台一键将运控策略的训练 Scale 到128 卡以上。同时百舸在开源版本基础上优化多机通信并通过显存offload等技术提升训练时仿真并行数,让客户用同样卡数获得更大训练吞吐。
针对目前主流的10B-20B量级的VLA或WAM模型,团队设计了高性价比服务器配置和加速方案,均衡使用显存、显卡带宽、卡间和机间互联带宽以及核心算力,在资源供给紧张的当下,避免单一维度的硬件资源浪费,实现更高的性价比,确保具身企业的模型高速迭代。
梁学修:赛迪联合清华等高校推出ET-Benchmark 构建三层评测体系架构
中国软件评测中心人工智能研究测评事业部总经理梁学修提出,当前具身智能产业虽发展迅速,但缺乏统一、可量化、可复现的评估标准,导致技术进展如“盲人摸象”。为此,赛迪研究院联合清华大学、复旦大学、哈尔滨工业大学、香港中文大学等多所顶尖高校,共同发布“具身图灵测评基准体系ET-Benchmark”,并推出首个能力套件“ET-Benchmark Manipulation CS”操作能力套件。ET-Benchmark是国内首个具身智能领域的系统性测评基准体系,包含系列能力套件(Capability Suite),每个套件聚焦一类特定的“身”或一类特定的“能力”进行评测。
梁学修指出,ET-Benchmark Manipulation CS,类比于人类的通识教育水平、专业能力水平和职业发展水平构建三层评测体系架构:第一层为通用基础能力层,通过"五阶能力魔方"评价动作执行(M1-M5)、物理认知(T1-T5)与环境抗扰(E1-E5)三大维度,精准定位模型基础能力短板;第二层为专业任务能力层,采用六维雷达图衡量完整任务周期的整体运行质量;第三层为岗位职业技能层,按五级职业发展水平评测细分场景中的人机协作可用性。该基准采用"实物+虚拟仿真"双考场融合机制,形成完整的能力评估闭环。实物考场侧重检验系统在真实物理环境中的执行效果与落地表现,虚拟仿真考场侧重对复杂场景、长尾场景的测试。
ET-Benchmark重要价值在于:一是打造一套统一的“通用语言”和“标准试卷”,让不同机器人在同一把尺下客观衡量,终结行业乱象,使技术进展真正可测量、可复现。二是告别“黑盒判断”,构建分层诊断体系,让能力可拆解。ET-Benchmark的设计能像“X光”一样,诊断出是“身体”不协调(动作执行弱)、“大脑”不够用(认知能力差),还是“免疫系统”有问题(环境抗扰低),为技术研发提供明确的方向指引,让短板可溯源。三是跨越“鸿沟”,连接技术与产业,让进步可落地。ET-Benchmark既兼顾了学术界对顶尖技术的需求,又兼顾了产业界需要得到“到底能不能用、值不值得用”的答案,一套体系,两端服务,让学术进步有方向,让产业选型有依据。
梁学修表示,ET-Benchmark将前置服务于世界人形机器人运动会,通过基地构建标准化的“训练场”与“测评关”,为参赛者提供从研发、训练、测评、调优的全流程技术支撑,帮助参赛者在训练过程中更精准的提升短板弱项,推动技术和产品加速从实验室走向产业应用。另一方面,赛后,ET-Benchmark将作为基地的“生态桥梁”,ET-Benchmark的测评数据将成为一份权威的“产品说明书”和“选型目录”,能够为更多的需求方快速筛选出能力达标、成熟度高的产品,实现从“赛场优胜”到“市场应用”的无缝衔接,真正形成“以赛促用”的产业闭环。
陶永:人形机器人行标委启动11项标准制定,构建L1-L5智能化分级体系
北京航空航天大学副教授陶永介绍,在工信部科技司指导下成立的人形机器人与具身智能行业标准委员会,由工信部总工程师谢少峰任主任委员,秘书处设在中国电子学会,已组建70余位专家委员会。行标委下设总体组等六个工作组,陶永担任总体组组长。
陶永重点介绍总体组牵头的11项标准进展。核心标准《人形机器人智能化能力分级标准》参照新能源汽车模式,将智能化划分为L1基础执行级至L5完全智能级五个等级,综合考量大脑、小脑、协作三大维度。配套标准包括运动能力分级、作业操作能力分级、交互能力分级等。此外还推进数字身份标识、能效测试方法、平均无故障时间测定等标准。总体组已吸纳154家会员单位,涵盖小米、阿里达摩院、优必选等企业。
方斌:具身智能操作分L0-L5六级,触觉信息是精细装配的“最后一毫米”
北京邮电大学“拔尖人才”教授、瞬恒智能首席科学家、中国人工智能学会认知系统与信息处理专委会秘书长方斌提出,具身智能灵巧操作可以参照自动驾驶分级框架,从智能化与通用化两个维度划分为L0-L5六个等级。他指出,L0-L2主要体现机械臂的灵巧性,聚焦工业场景的重复性劳动与视觉定位抓取;L3-L5则强调臂+手的协同灵巧性,要求机器人像人一样使用工具并形成“熟能生巧”的进化能力,场景也从封闭产线走向开放的人机共融环境。
方斌强调,具身智能发展的核心在于构建“本体-场景-数据-模型”四要素迭代飞轮。他回顾了数据采集赛道的演进历程:从2014年他本人开展的穿戴式遥操作模仿学习,到Aloha推动的双臂遥操范式,再到当前火热的UMI与Ego第一视角数采方式。他观察到一个现象——美国公司在模型能力上引领方向,但中国数采企业在数据价值上占据优势,美国模型公司甚至找中国企业采集具身数据。不过他也指出,技术路径尚未收敛,真实数据与仿真数据的融合配比、世界模型能否真正解决操作问题,都有待验证。
方斌特别强调触觉在精细操作中的不可替代性。他透露,团队是国内最早开展灵巧手研究的团队之一,2019—2020年就出版了机器人操作学习的英文专著,并开发了纯国产自主可控的Tacchi触觉仿真器,在柔性变形方面比英伟达仿真性能更优。团队首创TLA(触觉-语言-动作)模型,将触觉信息融入操作序列,在最后0.1mm甚至0.01mm级别的动作输出中,触觉对于精细操作的作用显著。最新成果显示,团队提出的视触觉融合小脑操作模型在精度测试中达到90%成功率,在工业0.1mm装配精度任务上达到80%,目前也已交付立迅、三星等头部企业产线迭代。方斌还展示了团队在动态操作领域的突破,国际首次让假肢灵巧手使用工具完成锤钉子、刮胡萝卜等动态撞击任务,这一能力可迁移至人形机器人,推动机器人灵巧手从静态抓取走向动态工具使用。
曾泽斌:破局具身智能产业瓶颈,以全流程工具链、真机数据生态与规模化落地实践,推进具身智能开发平台建设
乐聚机器人副总监曾泽斌介绍,乐聚2025年联合中国移动推出5GA工业场景解决方案,同时主导运营国内多个人形机器人真机训练场。他指出,人形机器人产业化面临的核心挑战已从“小脑”(运动控制)转向“大脑”(数据驱动的经验技能学习),而当前具身智能模型尚未出现突破性基座模型,真机数据成为制约算法训练上限的关键瓶颈。
曾泽斌强调,乐聚构建的具身智能开发平台有两大特色。一是提供包含全尺寸全身协同的运动控制工具链,从动捕系统采集人体轨迹、仿真训练到真机部署Sim2Real全流程,零基础用户一周即可上手场景demo训练。他特别指出,市面上很多数采方案只采集上肢数据导致上下层割裂,而双足人形机器人在全地形作业场景中必须实现上下身统一协同,轮臂无法替代。二是降低数据采集与模型训练成本,乐聚开源了OpenLET数据集,包含基础操作、灵巧操作、触觉信息、全身协同等多维度真机数据。
在产业化路径上,曾泽斌判断具身智能将经历科研商服、工业、家庭三阶段演进。他透露,乐聚去年走访大量工厂发现,工厂总装线等非标场景招工困难且机械臂难以胜任,乐聚目前已实现拆码垛、工箱搬运、SMT料盘分拣等技能落地。乐聚与东方精工联合建设的佛山产线已实现批量化生产,目标是万台级产能。在生态建设方面,乐聚参与建设全国多个训练场,其中北京石景山训练场是目前国内最大规模的人形机器人真机数采训练场。曾泽斌强调,训练场依托真实场景需求搭建并执行严格的数据检测标准,乐聚牵头了首个国家级具身智能开源数据集社区成立,目前开源的OpenLET数据集全网下载量超百万次居具身智能数据集首位,6月将在ICRA顶会举办奖金超9万美金的平行赛事,各项具身智能赛事参赛队伍累计超千支、开发者超万人。未来将以训练场基座为土壤、赛事为种子、中试基地为筛选器、孵化基金为养分,构建从数据开放到开发者社区的具身智能开源生态闭环。
范永:“行者泰山”48天从立项到行走,单策略实现走跑跨越全身运动控制
优宝特创始人兼CEO范永介绍,行者泰山从立项到行走仅48天,2025年6月攀登泰山,在世界人形机器人运动会获100米冠军、4×100米季军,亦庄马拉松位列全国八强。
范永指出,优宝特全自研关节电机,实现响应时间小于10毫秒、扭矩精度0.1nm,已形成50w到1000w系列产品,并在研发下一代YASA轴向磁通电机。
在运动控制上,优宝特针对走跑跨越统一建模,单策略覆盖全身运动。通过动捕采集学习自然运动风格,通过VR设备实现跳舞、翻滚等动作。在作业控制方面,优宝特提出行走与操作分层解耦技术,通过PPO算法优化控制器,已部署搬运、抓取、推车、导览等场景。
雷志荣:六维力传感器让机器人从“瞎用力”到“会感知”
宇立仪器市场部经理雷志荣介绍,宇立在力控领域拥有30多年技术积累。创始人黄约博士曾任美国Human Netis总工程师,主导开发全球首款商业化假人有限元模型,设计超过100种多维力传感器并参与制定美国交通法规第572类国家标准。宇立2007年在国内成立,从碰撞假人传感器起步与通用上汽、大众合作,2010年将技术应用于机器人行业与ABB、库卡、富士康合作,2021年上海分部成立聚焦人形机器人方案,2026年完成产能升级实现大规模交付。
雷志荣解释,六维力传感器能同时测量三维空间中六个分量——三个力(FX、FY、FZ)和三个力矩,是机器人的触觉神经。他从四个层面对比有无传感器的差异:精度层面,有传感器可实现实时力反馈,定位精度提升1个数量级;良品率层面,能自动兼容工件工差避免刚性卡死;安全层面,可监测力阈值异常时触发急停;应用边界层面,机器人从简单搬运拓展到装配打磨等精细任务。
在人形机器人应用上,雷志荣介绍了三大场景。手腕六维力传感器可实现上肢柔顺运动消除刚性抖动、负载补偿提升稳定性、双臂协同操作;指尖传感器可实现精密抓取轻拿轻放易碎品、通过力变化自动调整夹持力度、支持拧瓶盖插拔等精细操作;足底传感器可实时调控行走姿态适应复杂路面、感知地面变化自主切换步态、实现落地缓冲减震。宇立针对人形机器人推出的传感器具有超紧凑尺寸可嵌入灵巧手、内置数据采集卡简化布线、支持原生EtherCAT传输三大优势。性能方面实现精度达满量程千分之五、室内每升高10度零点变化在满量程万分之五、超强抗冲击能力、单侧便携式安装、隔离电源设计在强电磁干扰环境中保持信号稳定五项突破。
06.
结语与未来:
第三届中国具身智能与人形机器人产业大会的举办,映射出一个清晰信号:中国在全球智能制造领域的战略重心,正在从技术积累转向产业落地。这一转变的技术基础在于,当AI大模型赋予机器“认知能力”,具身智能则让这种能力真正嵌入物理世界,人形机器人作为其重要载体之一,有望深刻影响未来的劳动力结构与生产方式。
大会所呈现的产业图景,“大脑-小脑-本体”全产业链生态、从“能动”到“能干”的技术跃迁、灵巧操作与多模态感知的工程化突破,集中展现了具身智能商业化的核心命题:高精尖技术如何穿透实验室壁垒,在真实产业场景中实现稳定价值输出。
以海淀为代表的产业集群,通过产业链协同组织、供需精准对接、场景迭代验证等机制创新,正在将分散的技术突破转化为系统性产业能力。这不仅是中国从“制造大国”向“智造强国”转型的生动实践,更预示着具身智能有望成为继移动互联网之后,重构全球产业分工格局、定义下一代通用技术平台的重要力量。