机器人产业真相:理性审视人形热潮

2026年06月08日 16:01
本文共计5611个字,预计阅读时长19分钟。
来源/具身研习社 责编/ShuxiangMama 书香妈妈

01.

一个被反复高估的时间表

从更高的视角来看,围绕机器人所形成的集体性兴奋情绪,既有其可以成立的情感层面的评价依据,也在相当大的程度上夹杂着情绪化的泡沫。

《2026全球机器人产业前瞻》报告援引了世界经济论坛所提供的数据,到2030年,全球制造业将会出现约1000万工人缺口。中国自身老龄化以及少子化的趋势正在加剧,劳动力短缺已不再是遥远的警示,而是正在逐步逼近的现实压力。“如果说AI是数字世界的生产力,那么机器人就是物理世界的生产力。”他借助这句话界定了机器人的战略位置。

这一逻辑,直接推动资本在短时间内迅速涌入。高挺列举了一个具有代表性的案例:美国某知名机器人公司的估值在一年时间里暴涨了15倍,由此足以看出整个行业的热度之高。

但在这股热度之外,他进一步指出了一个更值得持续关注的现实案例,即特斯拉。2025年,马斯克曾高调宣布将要生产5000台人形机器人Optimus。然而,等到同年第四季度财报发布时,马斯克本人又承认,工厂里的机器人仅仅完成了“一些比较基础的任务”,距离形成真正意义上的产能仍然相去甚远。据悉,特斯拉第三代人形机器人预计会在年中亮相,而正式投产则要等到2026年7至8月才会启动。

5a6e03570c5204f81f43206e73dd4308.png

“大众预期与实际落地之间,的确存在着相当明显的落差。”高挺在介绍相关情况时这样表示。

02.

人形,真的是最优解吗

在解读《2026全球机器人产业前瞻》报告时,高挺提出了一个让全场一度安静下来的问题:为什么承担劳动任务的主体,必须呈现为人形机器人的样态?

这个问题,实际上折射出整个中国机器人产业在持续演进过程中正在酝酿的一处认知盲区。

他进一步解释说,人形机器人背后的那套逻辑之所以能够成立,是因为整个人类世界原本就是依照人体结构来进行设计的,无论是工厂当中的工具、生产线所处的高度,还是门框所在的位置,几乎全部都是围绕人体来完成定制的。正因如此,机器人如果呈现出接近人的形态,往往也就能够更好地融入各类场景系统之中。

但他随后补充了一句令人印象深刻的话:“人类在结构层面上,其实并不是完美的。”他进一步提到,人类是由爬行动物逐步进化而来的,因此脊柱以及膝盖的构造,并不意味着在所有场景之下都属于最佳形态。他在演讲PPT上展示了一种膝盖向后转弯的机器人,这种结构可以使机器人下蹲得更为对位,在负重时更加稳定,并且也更有利于对重心进行控制;而如果用轮子来替代双脚,那么在一些情形之下,移动速度会更快,成本也会更低。

“面向未来,不必反复纠结机器人是否一定要长得像人,更关键的问题在于,这个机器人究竟能不能真正好用。”他在回应编辑追问时进一步补充说,“如果人形机器人在实际场景中更好用,那么就选用人形;如果人形并不好用,那么就改用其他形态。其背后的逻辑,就是如此。”

他的判断是,未来真正占据主流位置的机器人形态,更可能会表现为“类人形”:它会具备两只手,也会拥有明确的本体结构,但未必一定需要头部,眼睛可以被布置在胸口的位置,脚部也完全可以由轮子来进行替代。它既不是纯粹意义上的人形,也不是完全脱离人体逻辑的异形,而是会随着具体场景的变化,不断趋近于效率与适配性之间的最优解。

03.

机器人的“GPT-2时刻”

那么,今天的机器人产业究竟处于怎样的发展阶段?高挺对此给出了一个新的分析框架。他认为,当前机器人产业的成熟度,大致相当于大语言模型发展到GPT-2时的水平,并且预计在未来一到两年之内,有望进一步达到GPT-3的水平。

“GPT-2最重要的意义,其实并不在于它本身有多么厉害,而在于它成功跑通了基于Transformer架构的那套范式,也就是完成了从0到1的关键突破。此后的GPT-3以及GPT-4,从本质上来看,就是不断去堆叠数据、堆叠算力,而一旦实现规模化,这套路径就会生效。”他说,机器人产业如今也已经走到了一个类似的节点,基于VLA的架构目前已相对成熟,产业界普遍认为,只要持续投入更多的数据,机器人的泛化能力就会不断得到增强。

但他随即指出了一个关键性的结构差异:机器人要走向scaling law,其难度要显著高于大型语言模型。原因在于,语言模型所依赖的数据,本质上是互联网上现成存在的海量文本,因此相对更容易获取;而机器人真正需要的,则是高质量的物理交互数据,例如抓取、搬运、行走、避障以及失败恢复等操作数据。这一类数据不仅采集过程缓慢,而且成本也相当高。更棘手的一点在于,机器人对于数据质量的要求,明显高于语言模型。“如果语言模型的数据质量稍差,带来的后果可能只是表达不够准确;但如果机器人的数据出现错误,那么它所获取的物理特性就会发生偏差,进而使真实操作出现问题。”

04.

2f310bc6b7801541b740f7a90503d2d6.png

数据依然是行业最大的瓶颈

在整场采访过程当中,高挺围绕数据问题所展开讨论的篇幅,明显超过了其他任何话题。这并非偶然。他在接受编辑采访时表示,中国以及西方在解决数据问题这件事上,所选用的路径并不相同。由于中国的人力成本相对较低,因此部分厂商会选择建立“数据工厂”,由人工逐条去完成数据采集;而西方则更倾向于让工人在头部佩戴摄像头,以此采集第一人称视角下的作业数据。

“无论选用哪一种方法,数据对于机器人行业而言,始终都是一个非常大的挑战。”他说。仿真数据则是另一条被寄予较高期待的路径。英伟达所走的,正是这一路径,也就是借助算力来生成合成数据,并在虚拟环境当中对机器人进行训练。它的优势在于成本相对较低,也更容易实现规模化。但这条路径存在一个难以回避的核心问题,即“Sim-to-real Gap”,也就是从仿真到现实之间所存在的鸿沟。

他举了一个比方:“在游戏机上把赛车开得再熟,也并不意味着真的能够去参加F1。”虚拟场景当中的摩擦力、光线变化以及物体柔软度,与真实世界之间始终都会存在差距,而要把这一差距真正消除,仍然需要时间。

“未来更现实的路线,并不是‘只依赖仿真’。”高挺表示,“而是要建立起混合数据闭环:以真实机器人交互数据作为核心,其中包括遥操作、人工示教以及现场运行反馈;再结合动作捕捉、第一人称视频等人类行为数据,以及仿真/合成数据,从而提升机器人模型的泛化能力和可靠性。”

还有一种思路,是借助互联网上的海量视频资源,甚至把动作捕捉技术结合进来,用于对机器人开展训练。这一路径的成本相对较低,相关数据也相对更容易获取。但高挺指出,其中还存在另一个问题。由于人的身体与机器人的身体结构并不相同,因此把人类的动作数据直接用于训练机器人时,会天然存在缺失以及偏差。“眼睛学会了,手没学会。”他引用了一个网上流行的比喻,较为形象地说明了这种数据迁移所面临的困境。

“数据仍然是机器人走向规模化的第一道门槛。”高挺在阐述相关判断时表示。

05.

VLA:当前阶段实现工程化落地的主流技术范式

关于VLA技术的未来,业界一直存在一种观点,认为VLA的泛化能力可能存在上限,而“世界模型”才是下一代技术范式。高挺在回答编辑提问时,也被问到了这个较为尖锐的问题。他并没有否定世界模型这一方向本身,而是进一步提出了新的问题。“今天所有的世界模型,基本上仍然停留在研究阶段,业界对于世界模型的定义也并不清晰。大多数世界模型还停留在视频生成阶段,并没有真正运用到工业化机器人当中,或者说并没有用得特别好。”他说,世界模型在工业化应用方面的能力仍然处于很早期的阶段,而产业界真正需要的,是能够完成工程化建设的东西,而不是概念。

因此,他的判断是,在当前这一阶段,以及未来相当长的一段时期之内,机器人的主流技术范式仍然会以VLA为主,“除非世界模型出现重大突破,否则这一局面并不会发生改变”。VLA的核心逻辑,在于把大语言模型所具备的理解能力迁移到机器人体系之中,再结合视觉模块以及动作模块,从而形成一种“看得懂环境、听得懂指令、做得出整套动作”的完整能力闭环。它与传统感知规划路径之间最大的不同在于:以往的机器人,往往是先把某一个特定任务做到极致,最后再试图向外泛化,但结果通常是越做越专、也越来越难以迁移;而VLA则恰好相反,它是先具备泛化能力,再针对具体场景开展深度优化。

06.

灵巧手是被严重低估的硬件问题?

说完软件之后,高挺随即把话题转向了一个并不经常受到媒体关注、却被他明确认为是在机器人硬件体系当中“最重要、没有之一”的核心部件:灵巧手。

“无论让机器人去完成什么任务,都需要把这件事纳入考虑范围之中。”他说。人类的手拥有27个自由度,既能够弹钢琴,也能够攀岩,既可以承担精细操作,又具备足够的力量,而且每天都在使用,历经几十年也不易损坏。这件事在人们看来或许显得理所当然,但对于机器人工程师而言,却构成了近乎噩梦级别的挑战。高挺的原话是:“让机器人去跑马拉松,比让灵巧手达到这样人手的高度要更容易。”

他描述了当前灵巧手市场所面临的结构性困境:海外产品如Shadow Robot,产品能力虽然出色,但公开数据显示其单只价格高达10万美元,两只手一旦装配上去,整体成本就已经足以让大部分商业场景望而却步;部分开源项目的灵巧手虽然能够把价格降到几百美元,但往往只能用于科研,放到真实场景当中则完全不够;而那些价格便宜且相对可靠的产品,又往往在功能层面作出了折扣,可能只有4根手指,甚至只剩下一个夹爪,自由度也随之出现缩水。

“直到今天,既便宜、又好用、可信度还高,这三点仍然很难同时具备。”高挺在说出这句话时语气平静,但其中所包含的判断分量很重。正因为如此,他特别强调了灵巧手在耐用性方面所面临的问题:“机器人每完成一次抓取动作,本质上都属于一次碰撞过程。如果手部结构不够精巧,那么真正实现商业化落地就会十分困难。”他指出,经过这几年的持续发展,灵巧手已经取得了较为明显的进步,不仅自由度在不断增大,价格也在逐步下降,但真正能够满足商业落地要求的产品,至今仍然相当稀缺。

07.

机器人今天到底能做什么?

采访过程当中,编辑直接抛出了一个最为现实的问题:机器人在当下究竟能不能真正干活?对此,高挺给出了一个较为清晰的判断框架:凡是已经能够落地的场景,通常都具备一个共同特征,即高度结构化、重复性较强,以及任务链条相对较短。他随后列举了几个已经实现落地的典型场景,例如仓储搬运,亚马逊在全球范围内已部署超过100万台专用机器人,以及酒店前台导引、商场导览、工业线边物流、餐厅上菜等。这些环境本身相对固定,流程也较为标准,因此把机器人导入其中,往往具备真实的商业价值。

暂时无法实现的场景,同样呈现出一组高度一致的特征,即开放环境、任务链条较长,以及安全要求更高。“让机器人在家里完成全屋大扫除,这件事在当前阶段根本做不到。”他说,这类任务要求机器人持续完成多个步骤的规划,而不同家庭在环境布局、人员构成以及光线条件等方面都不相同,属于高度非结构化的开放场景,因此以机器人目前的能力来看,恐怕仍然难以胜任。

但他谈得最深的,仍然是安全问题。“机器人进入家庭,并不是技术层面的问题,而是安全层面的问题。”他举了一个例子:在工厂里打碎一个零件,造成的是事故责任;机器人在家里炒菜一旦出事,则可能直接伤人。他提到一个端鸡汤上桌的场景,“100次里如果有1次没有拿稳,汤碗碎在桌子上,旁边又坐着老人和小孩,那就是事故。”这个问题,在短期之内比任何技术问题都更难跨越。

对于正在考虑引入机器人的企业而言,高挺也进一步给出了三条具有很强现实指向性的务实建议。

322ce4a99b81ddbb8b64ace596d1d0c5.png

第一,起点并不是“买一个机器人”,而是“找到一个高价值、低复杂度的任务”。需要先把问题梳理清楚:在现有业务当中,究竟有哪些事情具备重复性、环境相对固定,以及错误代价处于可控范围之内?从这些环节入手,要比一开始就反复纠结究竟购买人形、协作型还是机械手臂,更有现实意义。

第二,需要把机器人视为运营改造项目,而不是单纯的硬件采购项目。CIO的思维需要从“买机器人”转向“设计机器人可运行的企业架构”。这并不意味着只要购买一台机器人,就能够直接实现落地。无论是现场流程再造、工厂布局调整、IT系统集成,还是协作方式变化,这些软性的“能力集”同样都需要同步跟上。“并不是简单地把机器人插入旧流程当中,就可以指望它发挥出最大价值。”

第三,要先完成论证,再推进扩展。应当从一两个真实且封闭的小场景开始,把ROI数据跑出来。只有当经济层面已经能够确认,机器人确实带来了可量化的回报,后续复制才更适合系统性展开。他提出的另一条建议是,企业在现阶段更适合从成熟品类入手,例如协作机器人、机械臂以及工业机器人,然后对人形机器人的成熟度曲线进行长期跟踪,而不是在当下就直接押注。

临近采访结束时,编辑向高挺追问,中国机器人产业真正的优势究竟体现在哪里。他几乎没有停顿,便直接给出了答案:供应链。“宇树科技已经把一款人形机器人的价格压到了3万块人民币以下了。”他说,这款产品目前主要面向科研场景,暂时还无法进入工厂,但这件事本身已经释放出一个十分强烈的信号。中国供应链在成本压缩方面所具备的能力,正是这一行业当中无可替代的结构性优势。一旦机器人的软件以及数据等问题得以解决到足够程度,中国实现规模化推进的速度就会非常快。他所作出的这一判断,或许也更接近市场最真实的答案。

08.

工程师的速度,启动的速度

高挺在对《2026全球机器人产业前瞻》进行解读的过程当中,始终贯穿着一个鲜明基调:理性、克制,以及不煽情。

高挺既没有刻意唱衰机器人,也没有主动打击市场热情。他反复强调的,是技术范式的成熟度、数据资源的稀缺性、硬件能力的现实限制,以及安全层面的关键约束。这些内容听上去或许并不“性感”,却很可能正是决定这一行业究竟能够走多远、走多快的真正变量。

他围绕机器人产业提出了一个具有判断意义、也具备现实参考价值的重要语言模型类比:“机器人的GPT-4时刻还没有到来,但GPT-2时刻,已经近在眼前。”

现在是埋头做事的时候。

来源:机器人产业的真相:别被“人形热潮”骗了 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/