阿里、字节再加码具身智能,互联网大厂能给机器人行业带来什么想象空间?
6月16日,阿里巴巴发布了千问具身智能大模型Qwen-Robot系列,其中包含VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav以及世界模型Qwen-RobotWorld三大模型。
这则消息引发了一个问题:拥有数亿用户资源的互联网大厂,进入机器人领域就一定能成功吗?答案并非如此。
尽管这些企业从PC时代一路竞争到移动互联网时代,并且在当下的人工智能时代依然占据着主导地位,然而具身智能所涉及的复杂性与未知风险却呈现出数量级的提升。
然而,互联网大厂在品牌影响力、技术实力以及资金支持方面均具备显著优势,因此,它们有可能为具身智能行业带来新的发展机遇。
例如,本次发布的Qwen-Robot系列作为千问大模型家族当中首个完整的具身智能模型体系,由三个模型共同构成。它们分别致力于为机器人赋予灵巧的操作能力、自主的导航能力以及智能的决策能力,既可以进行单独部署,也能够实现协同运转,从而为不同形态的机器人迈向真实落地提供了可靠的"通用底座"。
与此同时,近期字节跳动也采取了一系列重要举措。该公司已将具身智能纳入其核心业务范畴,相应地,多模态负责人周畅所管辖的业务范围得到了进一步扩展。这一调整的主要原因在于,由李航负责的Seed Robotics团队在此前已正式划归周畅管理。
这一动态值得关注。阿里、字节相继采取行动,这些迹象共同表明,互联网大厂对于具身智能领域的战略部署,正从初期的技术观察阶段逐步迈入实质性的产业参与阶段。它们必然会积极介入,以期在这一新兴市场中占据一席之地。

互联网企业掌握着算法、数据、算力与应用场景等多方面的优势积累,确实能够为机器人产业带来新的迭代思路。然而具身智能本质上属于硬件属性极强的硬科技赛道,核心零部件供应与商业化盈利等产业层面的瓶颈,并不会因为大厂的入局参与而自动消解。
因此,这一跨界战略的实施,究竟能在多大程度上开拓出广阔的可能性空间,以及机器人产业的发展又会遇到哪些难以跨越的现实障碍,是值得整个行业深入思考的重要问题。
01.
all in具身智能,大厂下场再加码
从回顾的角度审视,6月16日阿里巴巴发布的这一模型,其策略与华为不直接造车,而是赋能车企的模式存在相似之处。这一逻辑的核心在于,阿里的具身智能大模型Qwen-Robot系列,有望对解决机器人智能水平有限的痛点提供帮助。
我们可以这样理解,目前大家所熟悉的大语言模型,其主要功能仍局限于数字环境中进行对话交流与文本生成;而具身智能则进一步将这种能力的应用范围扩展至真实的物理环境中。
鉴于全球具身智能行业目前正处于从实验室研发阶段迈向真实场景商业化应用的关键节点,模型是否能够在陌生环境中准确理解指令并稳定执行任务,便构成了跨越这一障碍的核心要素。因此,Qwen-Robot针对大模型实施了三类关键的设计与训练工作,从而使模型能够更好地理解人类语言指令、感知三维空间结构并掌握物理规律,进而指导机器人在现实环境中自主完成复杂操作与精准移动任务,即使面对从未接触过的任务也能够有效应对。
作为另一股重要力量,字节跳动的介入同样不容忽视,它对具身智能行业所施加的影响,也正在逐步显现。长期以来,字节跳动针对机器人业务所推进的升级工作,被外界广泛视为其一项战略级的重心倾斜。
与此前AI Lab下属团队侧重于前沿探索的定位不同,在具身智能被正式纳入核心业务板块之后,相关团队得以进入一个资源更为集中的业务线。这一调整使得团队能够获得覆盖产品、研发以及商业化环节的更为完整的权限与支持,其目标明确指向推动技术从实验室走向真实的产业落地场景。

具体在落地应用层面,字节的布局已从实验室研究拓展至真实场景的验证与实施。在算法层面,此前重点打磨的Robix视觉语言大模型已历经多次的迭代与优化,能够使机器人在端侧有效实现对环境的感知、对物体的识别以及对指令的理解,从而为构建通用机器人的智能核心提供了关键支撑。
在商业化落地层面,字节跳动已将具身智能纳入其核心业务布局。目前其累计投产的机器人已超过一千台,为此,其研发团队已扩充至超过一百人的规模。现阶段,该公司已完成量产的机器人主要为轮式物流机器人,其设计用途是在仓库或生产线上运输包裹与零部件。借助于视觉感知与自主决策算法,这些机器人能够独立学习、规划行进路径,并准确抵达目标位置。
当前所取得的成就与字节跳动多年来的战略布局存在关联。将时间尺度拉长观察的话,该公司在机器人领域的投入早已持续多年,其投入的时间点甚至可能早于阿里巴巴。
2021年,隶属于字节跳动AI Lab的机器人团队推出了专门的楼宇服务机器人,从而得以在办公楼内部署,执行诸如餐食配送及快递包裹递送等任务。
2023年,字节跳动推出了豆包通用大模型。在这一背景下,其人工智能整体布局得以持续快速推进,为机器人赋予了更为智能的算法以及一系列其他的智能化技术支持。
也正是在上述一系列多方面举措的协同推进,以及底层技术架构持续演进与突破的共同作用下,字节跳动的人形机器人得以从幕后的研发阶段,逐步走向前台,进入公众与产业的视野。
根据公开信息,在2023年时,字节的机器人团队已拥有约50名成员。发展到2024年,其现场应用工程师团队规模已扩展至接近百人。具体而言,该团队中负责自主移动机器人(AMR)的人员占据了三分之二,而通用具身智能方向的人员则占三分之一。

到了2024年10月,字节跳动正式对外发布了第二代机器人大模型GR-2,这一成果构成了其在具身智能体领域的一项突出亮点。根据国泰君安的研究指出,字节的第二代机器人大模型GR-2已经初步具备了世界模型能力,在处理无序摆放物品的抓取任务,以及提升关节行动灵活度方面,均展现出优异的性能。
随着新的组织架构调整的落实,字节对具身智能业务重视程度的提升变得更为显著,所释放出的信号也更加清晰明确。
事实上,互联网大厂的集体入场,利用其在人工智能领域的技术优势与庞大的用户与数据资源,必然会给机器人产业带来一套截然不同的运营玩法与发展节奏。然而,这些源自互联网生态的基因优势,究竟能在多大程度上对属性更为传统的制造业进行系统性重塑,业界仍然需要将其置于产业逻辑的框架内,针对其所依赖的核心能力与策略进行逐项拆解与审视。
02.

互联网大厂凭借其在数据、算法、生态与场景方面的深厚积累,对机器人产业的重塑作用主要体现在几个关键维度。首先,在核心算法与模型层面,它们将成熟的AI大模型能力(如感知、决策、自然语言理解)迁移至机器人领域,为机器人提供了更为通用的“智能大脑”,使其能够更好地理解复杂指令并适应非结构化环境。其次,在数据闭环与迭代效率方面,互联网公司庞大的线上用户行为数据、多模态数据以及应用反馈,可以加速机器人算法的训练与优化,形成“数据驱动”的快速迭代闭环。再者,在生态构建与应用落地层面,它们能够依托现有的云平台、开发者社区和应用场景,降低机器人应用的开发与部署门槛,推动机器人更快融入物流、零售、服务等实际业务流中。
然而,这种重塑作用也存在明确的边界与挑战。机器人产业的核心在于硬件与制造,涉及精密的机械设计、传感器、电机以及复杂的供应链管理,这与互联网公司轻资产、快速迭代的模式存在根本差异。因此,互联网大厂的角色更多是提供强大的“软件定义硬件”的赋能平台,而非替代整个硬件制造与供应链体系。它们的加入,更可能催生一种新的产业分工与协作模式——即由大厂提供算法、模型与云服务底座,由专业的硬件与集成商负责机器人本体制造与场景交付。最终,产业将走向“软件智能”与“硬件制造”深度融合的协同发展路径,而不会是单方面的彻底颠覆。
客观来看,当互联网企业将资源投入至机器人这一领域时,其核心优势并非体现在硬件制造环节,而恰恰存在于构建智能大脑、储备数据算力以及形成应用闭环这三个维度。这些独特能力正好弥补了传统机器人产业长期以来的薄弱之处,有望为整个行业的演进带来一种体系性的、范式层面的升级。
一个最直观的转变在于,通用智能大脑的迭代速度得以显著提升。相比之下,传统机器人大多沿用专用化的设计路线,这导致针对每一个应用场景或每一类任务,都需要工程师为其单独编写特定的控制程序,从而使得完成新场景适配的周期往往长达数月乃至一个季度。
互联网企业将大模型能力从数字领域迁移至物理世界,以此来构建一套通用型的机器人智能控制系统。这一方案的核心在于,它能够借助视觉、语言与运动控制模型的协同运作,从而实现对各类新任务的快速适应。
例如,传统工业机器人在新增一类商品的分拣流程时,从调试到最终落地至少需要三周时间;而基于大模型的机器人方案,则借助图像识别和自然语言指令,能够快速识别新物件并规划新路径,从而使整个适配周期大幅压缩至数天。这种迭代速度上的显著差异,实质上是互联网式敏捷开发模式对传统工业研发模式的一种降维打击。这一效率优势从当前大型科技企业每隔几个月就召开发布会、宣布大模型迭代升级的行动中,便可以清晰看出。
当然,对于机器人智能的提升,来自数据资源与计算能力这两个方面的协同驱动,可能具有更为关键的支撑作用。机器人的通用智能水平在很大程度上依赖于在海量真实场景中获得的训练数据,而这恰恰构成了互联网企业所具备的一项显著优势。
以美团为例,其庞大的即时配送网络在每日运行中会产生千万级别的路径规划与环境交互数据;京东物流的仓储体系则在其作业过程中积累并沉淀了海量的物料搬运、堆叠分拣等场景数据;字节跳动则凭借其业务布局,掌握了来自电商仓储、内容办公等多个维度的物理场景数据。
这些源自真实场景的多模态数据,构成了机器人感知、决策与运动能力训练过程中的核心支撑要素。相比之下,传统机器人厂商由于受限于有限的部署场景规模,往往难以积累同等量级的数据资源。与此同时,互联网企业自身所具备的算力基础设施,能够有效支撑大规模模型的训练以及仿真测试工作的开展,从而得以形成涵盖数据、算法与迭代的完整正向循环。
还有一点不可忽视,大厂所自带的应用场景加速了机器人技术的规模化商用进程。对于机器人企业而言,寻找应用场景与潜在客户,构成了商业化过程中最大的障碍。互联网大厂自身便拥有海量的内部场景,这些可直接作为落地试验场。
例如,京东的物流机器人最先在自有亚洲一号仓内完成实际部署与验证,充分验证其效率提升效果与成本节约潜力,随后才向外部进行商业化输出。字节的自主移动机器人,简称AMR,也已获得若干外部客户,例如顺丰以及比亚迪电子,用于在其生产基地内部运输零部件与成品。

这些自有场景实际上构成了互联网企业最为直接的客户群体与天然的试验场,使得漫长的商务拓展流程与前期信任建立周期得以省略,进而实现了技术算法的迭代优化与商业化路径的验证工作能够并行开展,从而显著压缩了从实验室原型到实现规模化商业部署所需的时间跨度。
这些来自生态、场景、数据以及算力层面的多重优势若能形成合力,将从不同维度共同为机器人产业的智能化升级提供有力支撑。然而,产业发展始终遵循其内在的客观逻辑,互联网企业在软件与算法层面的能力无论多么强大,都无法绕开具身智能在硬件层面存在的根本性瓶颈。
03.
赛道现存核心瓶颈,大厂也难以规避
首先,在硬件与制造这一环节,核心零部件的自研能力与供应链话语权始终存在不足。机器人的价值很大程度上依赖于精密的机械结构、高可靠性的传感器与电机等核心组件。互联网企业的技术基因主要集中在软件与算法层面,在这些需要长期工艺积累和供应链深耕的硬件领域,很难成功规避依赖外部供应商的局面。这直接导致了其对产品成本、迭代节奏以及供应链稳定性的掌控力存在明显短板。
其次,面临着盈利模式的严峻考验。机器人作为实体产品,其硬件毛利与互联网服务毛利之间存在的巨大差距,前者往往仅在20%至30%的范围内浮动,而后者则可以轻易超过70%。与此同时,研发、制造与供应链管理所需的投入却异常高昂。这种“高投入、低毛利”的属性,与互联网行业惯用的“通过规模效应摊薄边际成本,最终实现高利润”的商业模式形成了尖锐矛盾。大厂能否忍受漫长的投资回报周期,并找到可持续的盈利路径,仍是一个巨大问号。
最后,互联网思维与制造业规律之间存在着深刻的模式差异。互联网业务的边际成本几乎为零,能够借助网络效应实现爆炸式增长。但机器人作为实体制造,其生产、交付与服务都伴随着高昂的边际成本,无法复制简单的“赢者通吃”逻辑。大厂习惯的快速迭代、烧钱换规模等策略,在硬件领域不仅失效,反而可能因忽视产品质量与供应链管理而招致失败。因此,如何真正理解并遵循制造业的客观规律,进行组织、流程与文化的彻底变革,是其面临的最根本性挑战。
目前,在该领域内尚未有研究团队真正构建出具备通用任务执行能力的具身大脑系统,即能够使机器人完成大量多样化任务,同时保持高度可靠与稳定的智能核心。现有机器人系统普遍严格遵循预设指令执行,缺乏对用户意图进行主动理解与解析的能力。简言之,当前的具身智能产品难以实现“向上管理”——即主动感知环境变化、理解任务目标并自主调整行为策略,从而缺乏真正的主动作为能力。
具身智能虽被业界普遍认为是下一代通用生产力的重要载体,其行业增长速度已经得到了广泛认可,但该赛道底层所面临的核心瓶颈客观存在且难以逾越。这些源自于工业制造基础领域的硬约束,不会因为互联网大厂的入场就简单地消解或绕过,即便这些企业在算法与应用场景方面具备固有优势,也同样必须直面产业发展所固有的现实挑战。
需要认识到,在表面繁荣的增长态势之下,整个行业均面临着相同的底层约束条件。
第一个无法绕开的瓶颈,是核心零部件在供应方面严重依赖外部市场。
从产业发展现状来看,精密减速器、伺服电机与高端传感器等关键部件,其供给能力与技术成熟度,仍然是制约国内机器人产业向高阶迈进的主要短板。以应用最为广泛的精密减速器为例,日本企业如纳博特斯克与哈默纳科等,凭借其先发的技术积累与工艺壁垒,长期占据着全球超过百分之七十的市场份额。相比之下,国产同类产品在运动精度、使用寿命以及长期运行的可靠性等核心指标上,与国际领先水平尚存有显著差距。目前,国产减速器在中端应用市场的渗透率虽已突破百分之六十,但在对性能要求更为严苛的高端工业与精密制造领域,其市场接受度与综合竞争力仍有待进一步提升。
在一台工业机器人中,减速器这一核心部件的成本就占据了整机总成本的三成左右。进口零部件由于其高昂的价格以及不稳定的供货周期,会直接推高整机的制造成本,并限制其规模化普及的速度。这一问题构成了整个行业的共性痛点。互联网大厂虽然能够通过优化算法来提升效率,却难以在短时间内弥补数十年积累的精密制造差距,因此同样需要接受供应链的现实约束。
另外一个现实存在的难题在于商业化盈利过程所具有的长期性。由于具身智能这一赛道整体上依然处于投入阶段,其研发投入往往十分巨大,且落地应用场景呈现出碎片化的特征,单一场景的复用效率较低,导致大多数企业尚未成功构建起可持续的盈利模型。
在当前的发展阶段,由于技术复杂度、供应链成熟度以及研发投入分摊等因素的共同影响,人形机器人单台成本动辄可达数十万元之高,因而其距离实现民用普及仍有相当距离。以2025年宇树科技的人形机器人为例,其年出货量已突破5500台(需注意这代表实际交付数量而非订单量),这构成了全球范围内的最高出货水平。然而,这一规模若要实现真正意义上的规模化量产,并将成本降至民用可接受区间,则面临着产量规模、供应链协同、生产效率以及市场验证等多重维度的现实挑战。
而且,服务机器人由于其应用场景高度分散且多样化,使得其难以通过标准化产品来实现大规模的盈利。尽管大型科技企业确实具备雄厚的资金储备,有能力支撑其度过漫长的研发与市场投入周期,但它们依然无法违背基本的商业规律,同样需要正视投入与产出之间长期不对等的客观现实,其商业回报模式无法完全复刻互联网产品那种快速实现规模化盈利的路径。
这也就意味着,互联网大厂虽然凭借着算法、数据、算力、场景等多重优势入场参与竞争,但也仅仅是赛道数百家玩家当中的一员。在移动互联网时代,大厂凭借流量、算法和资本能够有效地快速建立壁垒,形成赢家通吃的格局。
然而,具身智能作为软硬深度结合的硬科技赛道,其供应链、制造工艺以及硬件可靠性的权重,丝毫不低于软件算法。传统机器人厂商在制造、行业理解与客户资源方面的积累,也非仅靠资本与算法所能快速超越。互联网玩家能够加速行业智能化进程,却难以复刻其过去的统治力。
阿里与字节跳动等大型互联网企业的入局,一方面使得互联网技术能够赋能机器人产业这一设想成为可能,另一方面也进一步巩固了具身智能作为下一代计算平台的产业共识。
产业的演进始终遵循其自身的客观节奏,软件能力能够有效加速迭代过程,然而硬件基础则需要经历逐步积累与沉淀的阶段。互联网大厂的参与会使赛道竞争变得更加活跃、迭代周期进一步缩短,但这并不会从根本上改变产业发展的底层逻辑。
大厂引入的新兴变量,最终能够转化成多少产业价值,仍需交由时间与市场来给出答案。
来源:阿里、字节再加码具身,互联网大厂能给机器人带来什么想象? | 具身研习社