圆桌对话:模型跑不通,不只是数据的原因?
数据,在2025年乃至当前的具身智能领域,已跃升为该领域内备受瞩目的核心议题。
各地密集地建设并投入运营的数采工厂、专注于机器人数据业务的公司、以及各个企业持续地进行技术迭代与产品升级的数采设备,上述这些动态共同印证了一个行业性的结论:以数据赋能模型已成为全领域的共识。
自从Generalist AI借助高达27万小时的庞大数据集,成功实现了模型能力的飞跃式提升之后,从而在具身智能行业内引发了颠覆性的连锁反应。自此,业界各方纷纷将百万小时的数据规模确立为核心目标并展开攻坚,一场围绕数据资源的激烈竞赛随之全面爆发。
然而,当前的数据体系尚未形成统一的范式,其间涵盖了视频数据与真实数据等多种类型,同时亦存在真机遥操作、通用操作接口等多元化的采集手段。这些不同的方式各自具有独特的优势与局限,因此需要在数据的舍弃与获取之间进行审慎的权衡。
为了深入剖析具身智能行业的核心痛点,并进一步厘清数据与模型所面临的复杂挑战,高工人形机器人与高工咨询在上海组织并召开了一场专题圆桌对话。本次对话围绕以下三大核心议题展开了深度解析:其一,何种数据与模型架构能够支撑机器人有效进入真实应用场景;其二,具身智能大模型的技术主线将走向视觉语言动作模型(VLA)还是世界模型;其三,具身智能大模型应如何从实验室的演示能力进阶至实际的部署能力。
在这场圆桌对话中,每位嘉宾都以极为坦诚和直率的方式分享了观点。首先,千寻智能副总裁孙荣毅明确指出,当前存在部分企业迫于资本压力,刻意夸大其落地规模并渲染技术成果;随后,松应科技CEO聂凯旋则提出了截然不同的见解,他并不认为追求规模庞大且无所不包的数据量是一条理想的路径。
本文以圆桌对话的详细记录为基础,对各位嘉宾的观点进行了深度的还原,试图为具身智能行业梳理出清晰的发展思路,并照亮未来的微光。
破除Demo泡沫
随着机器人行业热度的持续攀升,大量初创企业纷纷涌入这一赛道展开竞争,市场上也因此陆续涌现出了一个又一个以"炫酷"为主要特征的机器人Demo演示。

然而,在光鲜亮丽的演示文稿背后,产品实际呈现出的效果却良莠不齐,这已然成为资本市场最为关切的核心问题之一。
在本次圆桌论坛上,高工咨询的总经理郑利瑶精准地切中了这一关键痛点,他在现场即与投资人进行了直接的联动,并引导与会嘉宾将注意力集中,就“如何判断这些Demo与模型的真假?”这一核心问题展开深入探讨与解答。
北京人形机器人创新中心世界模型负责人邹世龙率先指出,评估模型优劣的首要切入点在于考察团队的专业构成与研发能力。他同时坦言,当前领域尚未建立起统一的评判基准,因此亟需依托一个正规化、规范化的平台来对模型进行全面评价。
北京人形机器人创新中心世界模型负责人邹世龙
而松应科技CEO聂凯旋则从模型评判标准的角度出发,指出具身智能大模型的能力是否达标,应当由最终的消费方或场景应用方来进行定义。也就是说,不能单纯地追求模型能力的强大,如果模型未能在实际场景中落地并产生价值,那么也就无法获得市场的认可。相反,如果能够紧密围绕未来消费者与用户的实际需求来设计模型,即便不是所谓的超级智能体或世界模型,也能够满足当前场景所提出的设计需求。

这一观点同样获得了越来越多从业者所支持,今年能够观察到一个十分显著的变化在于,越来越多的具身智能企业开始聚焦于真实场景当中的实际需求。
星源智机器人联合创始人何嘉伟亦是从行业普遍关注的落地维度展开阐释,他指出,判断一个演示Demo真实与否最为可靠的依据,在于其能否切实进入特定场景并完成落地应用。在此过程中,不仅涉及模型本身,硬件、软件以及系统等组成部分均需要具备可交付的状态。
星源智机器人联合创始人何嘉伟
千寻智能副总裁孙荣毅亦持相似观点。此外,他还指出了当下普遍存在的一个认知误区,即对那些将具身智能与人形机器人简单等同起来的企业,他提出了明确的否定意见。孙荣毅认为,业界需具备清晰的分辨能力,以判断“哪些任务是具身智能理应承担的?以及具身智能的核心目标究竟是什么?”。

因此,在孙荣毅看来,客户的反馈至关重要;与此同时,产品究竟承担着怎样的职能同样不容忽视——它所执行的任务,是传统机器人便能胜任的,还是唯有具身智能才能完成的。
基于此,孙荣毅在最后还向在场的所有人发出了提醒,指出具身智能当前乃是一个长坡厚雪的赛道,因此眼光必须放得更为长远。由于不少企业受到资本压力的制约,会发布一些夸大其词的信息,例如声称几千台机器人已经在工厂中实现量产落地,这就需要大家以长远的视角来审视,究竟这些说法是否符合事实以及常理。
数据的价值和难点
在破解演示中的虚假繁荣、聚焦于实际应用场景落地的行业共识之下,数据采集已跃升为本次论坛的重点研讨议题之一。当前,众多企业正意图借助数据采集工厂的模式,来推动数据的正向循环。截至2026年3月,中国已建成、在建以及规划中的人形机器人数据采集与训练中心,总数已突破50家。
关于数据采集工厂的实际效用问题,需要从其核心价值与固有局限两个层面进行审视。数采工厂模式的核心价值在于,它能够通过标准化的流程与专业化的设备,围绕特定任务和场景,实现大规模、持续性数据产出的规模化与标准化。这种方式在短期内确实能够为模型训练提供坚实的基础数据支撑,是目前行业内快速积累数据资产的一条有效路径。然而,其局限性也十分突出,例如采集环境相对单一、数据多样性受限、以及长期维持其高效运营所伴随的高昂成本。因此,如果仅依赖这一种方式,所获取的数据可能难以覆盖现实世界中无限复杂的交互情境。
鉴于此,为了构建更可持续、更接近真实世界的数据采集体系,业界正积极探索并融合多元化的数据获取路径。一种重要的思路是,大力借助于合成数据生成技术。通过高质量的物理仿真环境和数据生成算法,可以低成本、高效率地创建海量且标注精准的虚拟训练数据,以此来弥补真实数据在多样性上的不足。另一种核心路径是,有效利用互联网上已有的海量公开视频数据。这些视频蕴含着人类与物体交互的丰富先验知识,通过先进的视频理解与动作解析模型,可以从中提取出有价值的交互模式与物理规律,用于模型的预训练或辅助学习。此外,构建开放、共享的数据众包平台也是一个极具潜力的方向,它能够汇聚来自不同实验室、不同场景的长尾数据,极大地丰富数据的覆盖面。
总而言之,行业未来的数据战略不应是单一模式的取舍,而应是多种路径的有机融合。目标在于构建一个包含高质量真机数据、多样化合成数据、以及互联网视频先验知识在内的多模态、多层次的数据生态系统,从而为具身智能模型提供真正意义上的“营养均衡”的数据食谱。
针对这一问题,孙荣毅首先指出,需要首先对高质量数据的内涵进行定义。模型的泛化能力本质上源自于数据的多样性,因此多样性必然构成高质量数据的一个核心维度;其次则涉及多模态特性,例如触觉、力觉等信息;最后,低成本也是一个需要考量的重要方面。
孙荣毅在对话中坦率指出,2025年全国各地建立的许多数采场,实际上所采集的数据中,有相当部分属于低效重复的内容。同时,在模型训练、数据处理以及模型治理这几个方面的技术体系尚不完整,这导致商业模式无法健全。即使以最低价格出售数据也难以成交,因为数据的售卖主要取决于其价值,缺乏价值的数据自然无法流通。
千寻智能副总裁孙荣毅

行业内持续地探讨着能够进入真实场景的模型究竟具备何种特质,然而其首要前提在于数据必须源自于真实场景,唯有如此,方能真正做到从真实场景中来,再到真实场景中去。
何嘉伟亦进行了补充阐述,他指出,当前各地数采工厂面临的一个核心痛点在于,那些跨本体、跨场景的泛化数据难以被直接应用,这同样也反映了现有模型的局限性。
大公司有能力构建起一套自主的数采系统,但这对于众多初创企业而言并不友好。因此,像星源智这样的公司便会在探索预购数据的同时,致力于降低数据采集的成本,并计划未来构建一个真实数据的范式,以系统性解决这些难题。
中科第五纪联合创始人兼首席运营官(COO)曹恩华进一步强调了真实数据的重要性,他明确指出:"模型若未能与真实数据相结合,想要进入工厂以及其他真实应用场景,是无法实现的。"这是由于在这些场景当中往往会存在大量的意外干扰因素,而这种过程当中的变化唯有结合真实的bad case,方能对模型进行有效优化。
面对这些痛点,曹恩华随后阐述了他们提出的解决方法。他指出,中科第五纪目前在着力构建一个贯穿模型、数据直至部署环节的完整闭环体系。待这一闭环体系建立完成后,将能够有效降低数据采集与处理的成本,并为训练出性能更为卓越的模型提供进一步的支持。
聂凯旋则对传统的数据采集思维进行了反思,并试图跳出其固有的框架,从而提出了一种面向未来的全新数据交互构想:当机器人在物理环境中与其他机器人展开协同时候,其交互方式未必需要完全依赖于人类的沟通模式,而是有可能在彼此之间直接进行高效的数据交换与共享。
松应科技CEO聂凯旋

在数据量方面,聂凯旋持有与大众相反的观点,他认为追求大而全并非一种理想的路线。目前普遍存在一种预测,即当数据量达到足够庞大的规模时,模型将能够具备所有能力。然而,在数据尚未达到这一标准之前,应如何应对?例如,在1到3年、3到5年甚至更长的时间内,如果数据始终无法凑齐,届时又该如何处理?
在他的构想当中,未来的终极模型或许是一种分级式的架构,由一个超级智能体来负责决策与执行,而其余的二、三级智能体则负责完成与之相关的具体任务,这种分层式的模型架构反而更有可能实现落地。
模型跑通的核心门槛
模型决定了能力的下限,而数据则决定了能力的上限。在围绕演示示例与数据议题进行充分探讨之后,圆桌论坛的最后一个议题重新聚焦于模型本身,直指模型实现技术突破与场景贯通所面临的核心门槛。
邹世龙就此发表了自身的看法,首先提出了前面所讨论的高质量数据问题;其次是模型方面,他认为在未来一两年内,当算力和数据规模都提升上去之后,模型之间的差异可能不会十分显著,因此在模型构建完成之后,从仿真到现实的迁移便显得尤为关键;除此之外,还有整个硬件系统。上述这几个环节都是缺一不可的,当这些环节全部得到完善之后,距离实际落地应用或许就更为接近了。
对于基础设施与应用场景的关键作用,聂凯旋则进行了着重的强调,他指出,能够切实落地的模型必须具备坚实的专业知识背景,同时还必须对基础的物理定律有所掌握。例如,当模型掌握了特定行业的电力相关数据之后,便能够将其中蕴含的电力知识迁移应用到其他相关行业之中。
而且,未来的机器人发展必然会走向场景化,而非行业化,单一场景当中可能会运用到大量不同形态的机器人,因此,唯有先把场景定义好,并将基础设施完善到位,模型才能更好地部署到真实的应用场景当中。
长期专注于传感器领域研究的陈书厅则从硬件数据的维度提出见解,他认为在大模型的训练过程中,除视觉信息外,触觉数据被视为第二关键要素。然而当前触觉传感技术尚未形成统一范式,不同工作机制的触觉传感器会产出差异化的数据,因此首要任务是将触觉传感器的规格与数据格式进行统一。此外,还需实现规模化生产并确保产品一致性,当这些条件达成后,大模型所蕴含的真正价值将得以凸显。
福莱新材的首席科学家陈书厅

曹恩华结合产业合作当中的实际案例进行了总结,他认为大模型的落地存在两个主要的门槛。第一个门槛是业界普遍形成的共识,即数据采集与处理的成本过高;第二个门槛则是视觉语言动作模型(VLA)应当与世界模型相结合。在其看来,VLA相当于机器人的"大脑",负责指示其行为方式与执行内容;而世界模型则扮演着"小脑"的角色,承担预测与判断的职能,能够告知机器人是否面临危险。
中科第五纪联合创始人&COO曹恩华

由于VLA模型在高可靠性、高速度的工业应用场景下难以实现零失误,而世界模型在高效生成复杂执行轨迹方面也存在显著困难,因此将两者进行结合便能够有效弥补彼此所存在的缺陷,并辅以高可靠性的校验机制,从而更好地实现技术在实际场景中的落地应用。
何嘉伟则把目光重新聚焦于模型本身,指出需要做好模型的设计工作,以实现与数据之间更好的适配,此外,模型的端侧部署能力同样至关重要。
孙荣毅在最后补充了两点看法。他认为技术门槛主要在于模型的基模能力方面,在基模能力尚不够强大的情况下,针对应用领域的拓展将会受到很大限制;其次,具身智能本身作为一个庞大且复杂的系统工程,若缺乏一个功能完善的基础设施平台作为支撑,整套功能闭环便难以得到有效的沉淀,进而导致后续的模型迭代将会变得十分缓慢。
本次圆桌论坛期间,与会嘉宾们反复强调了数据对模型所具备的关键作用,精准地揭示了模型实现落地所面临的门槛以及高质量数据资源稀缺这一行业共性难题,同时还从多个角度补充提出了一些独具特色的见解与视角。
总而言之,每一位嘉宾都持有不同的见解以及各异的解决路径,但其最终目标始终是殊途同归的。正如嘉宾所言,具身智能本身是一条长坡厚雪的赛道,技术路线之间存在的分歧并不重要,真正关键的是能够解决问题并最终抵达山顶。
来源:圆桌对话:模型跑不通,不只是数据的锅? | 具身研习社