编者按:在具身智能的浪潮中,总有人站在潮头,定义流向。星河频率推出全新访谈系列《浪潮之上》。
聚焦具身智能行业内的关键人物,分享从技术拐点到商业抉择,从产品落地到产业远望。我们不谈空泛的趋势,只记录那些真正推动浪潮的思考、判断与行动。
不追热点,只抓浪尖,让更多人先听见,具身智能的下一个频率。
作者|毛心如
对具身智能来说,当前最棘手的瓶颈不是模型不够大,而是数据不够多、不够真。
尤其到了家庭场景,这个问题会变得更明显:客厅里可能同时摆着茶几、扫地机器人、儿童玩具和一摞临时堆放的杂物。
对机器人来说,这些看似琐碎的细节,恰恰决定了它能不能真正进入家庭。
也正因为如此,家庭场景的数据采集一直很难做。
一方面,真实家庭的空间结构千差万别;另一方面,具备物理属性与交互关系的三维数据,采集和标注成本极高,且难以规模化。
正是为了破解这一困局,大晓机器人推出了全屋三维可交互世界模型,Kairos-HomeWorld。
这是全球首个实现全屋生成、个体物体全交互的世界模型统一框架。
在这套框架下,不用再去费力采集真实家庭数据,而是用算法生成一个可以无限复制、无限拓展,而且每一个物体都可交互的中国家庭虚拟训练场。
目前,该项目已经在 GitHub 上开源了 30 万套真实中国家庭户型图、 5000 个完整全屋可交互场景,配套自研四阶段分层生成流程,为行业补齐了本土仿真短板。
项目开源后,也收到了海内外多所高校和科研机构的关注与申请使用需求。
在这些数字背后,站着的是大晓机器人具身大模型科学家,同时担任香港中文大学多媒体实验室(CUHK MMLab)教授李鸿升。
在 Kairos-HomeWorld 开源后,我们与李鸿升进行了一场深度对话。
话题覆盖了大模型引发的范式转移、Kairos-HomeWorld 的设计理念、仿真与真机数据的配比哲学,以及具身智能大脑的未来演进。
既是学者,也是产业实践者,他选择了一条更慢、更难,但他相信真正有影响力的路。
AI 从虚向实,具身智能迎来工程落地拐点
复盘近十年人工智能的发展脉络,大模型的落地彻底改写了 AI 的进化方向。
大模型普及之前,传统 AI 长期局限于软件层面的感知与推理,擅长文本、图像、语音等虚拟信息处理,能够完成大量轻量化任务,但完全不具备解决真实物理世界问题的能力。
这种虚拟智能与物理现实之间的巨大落差,推动了近三年整个 AI 赛道迎来明确的转型。
技术重心从纯软件推理转向软硬融合,AI 正式开启从虚拟走向现实、赋能物理设备的新阶段。
与此同时,机器人硬件产业链也完成了长期积累,迎来成熟临界点。
过去制约机器人落地的减速器、驱动马达、底层运动控制等核心硬件与技术难题,经过十年产业迭代已经基本攻克,硬件端的稳定性与性价比足以支撑规模化试用。
因此,具身智能行业迎来了绝佳的时机:上层大模型为机器人注入通用智能与决策能力,底层硬件为智能落地提供物理载体。
自上而下的智能赋能,与自下而上的硬件成熟双向奔赴,让具身智能从一个学术概念,彻底转化为可落地、可迭代、可优化的工程问题。
行业趋势的变革,也影响了李鸿升的职业选择。
他的学术研究横跨自动化、计算机视觉、多模态智能等多个领域,几乎覆盖了当下具身智能从业者的核心知识体系。
深耕学术多年后,他意识到纯学术研究的局限性。
「顶会论文每年几万篇,作为研究学者,我们追求的是有影响力的工作。真正有影响力的工作,往往是落地的、真的 work 的东西。」
计算机视觉领域的分割任务就是个典型的例子,该领域数十年的学术积累,最终是依靠 Meta 的 SAM 系列模型,才实现了技术的通用化、工具化落地,真正赋能全行业。
对李鸿升而言,真正有价值的技术创新,最终都要落地真实场景、解决真实问题。
秉持着这个核心诉求,他选择加入大晓机器人。与商汤系团队十余年的深度合作,让双方形成了深厚的信任与默契。
对李鸿升来说,入局产业是个人学术研究与技术理想的自然延伸。
全屋、可交互、无限生成,补齐本土实训场景空白
Kairos-HomeWorld 的发布,直指当前机器人训练数据严重不足的行业痛点。
市面上公开的仿真训练环境,普遍存在场景局限、交互失效的硬伤。多数仅支持桌面、单房间小范围场景训练,无法覆盖完整全屋空间。
这类静态仿真环境,只能满足机器人基础的导航避障训练,支撑不了抓取、放置、精细操作等核心交互任务。
更关键的是,整个行业始终没有一套适配中国家庭、覆盖全屋、全物体可交互的开源训练场。
「我们看了一下市面上的情况,桌面场景有,单房间场景有,但全屋范围的、可交互的、中国家庭特色的,一个都没有。」李鸿升回忆道。
针对这个空白,大晓机器人选择从零搭建全新训练体系,并确立了三个目标:覆盖完整全屋空间、所有场景物体可交互、支持场景无限生成迭代。
团队自研了四阶段分层生成架构,摒弃黑箱式端到端生成模式,用模块化、可拆解、可微调的工程化思路,搭建出了高保真的真实家庭场景。
第一阶段是户型构架定型。
依托真实户型数据锁定房屋整体框架,明确居室数量、功能分区、门窗方位等结构,遵循人类空间设计逻辑,先定图纸、再建场景,从根源上保证户型布局的合理性与真实性。
第二阶段是全屋软装与细节填充。
家具尺寸、地板墙面材质、壁纸风格、灯光排布等细节被逐一还原。
不同于实验室纯白统一的极简环境,中国家庭多样化的家装风格、灯光色调、个性化软装,都会直接影响机器人的视觉识别与任务判断。
精细化的场景还原,是适配本土家庭的基础。
第三阶段开展自动化冲突校验。
通过规则算法对生成场景进行全面筛查,自动剔除家具穿模、动线堵塞、布局不合理等瑕疵,保障每一套仿真空间都符合真实人居逻辑,为后续机器人训练提供有效样本。
第四阶段也是项目最核心的创新,为静态场景注入生活气息。
传统仿真场景完成家具布置后就选择收尾,产出的是空旷样板间,但真实家庭的核心特征是杂乱、动态、充满生活化杂物。
其团队在桌面、书架、厨房、电视柜等区域,批量生成水杯、遥控器、书籍、玩具、餐具、零食等高频日常物件。
这些看似细碎的杂物,恰恰是机器人家庭作业的最大难点。
面对随意摆放、形态不规则、重心多变的日常杂物,机器人操作成功率往往会大幅下滑。
这一步关于多样化物体物理属性的细节填充,让仿真场景无限贴近真实人居环境,也为机器人提升泛化能力提供了更优质的训练场。
整套四阶段流程采用模块化设计,各阶段可独立训练、独立校验、灵活调优,最后拼接成完整的生成链路。
这种工程化方案虽然前期工作量翻倍,但稳定性、可控性和适配性远超端到端黑箱模型。
李鸿升坦言,行业同类项目普遍规模偏小,团队一次性拓展至全屋全场景、全物件可交互的体量,工程压力极大。
「但最大的挑战不是技术,技术总有方案。最大的挑战是下决心,下定决心把一个没人做过的项目突破出来、硬扛下来。」
在数据来源上,其团队储备了 80 万套真实民用户型数据,全部源于真实中国本土住宅,涵盖常规户型、小众奇葩户型以及特殊布局户型。
考虑到标准化 CAD 图纸带来的高昂成本,其选用性价比更高、覆盖更广但存在噪声的数据源。
再通过模型智能打标+人工精细化修正的循环清洗,保留真实户型的多样性,同时剔除数据瑕疵,让仿真场景更贴合中国家庭的真实样貌。
相较于行业主流三维生成项目,像李飞飞的 World Labs,Kairos-HomeWorld 的核心差异化在于可交互性。
World Labs 生成的三维场景视觉效果逼真、支持自由漫游,但所有物体相互绑定、无法单独操作。
而 Kairos-HomeWorld 实现了全物体解耦,场景内每一件家具、每一个杂物都可独立抓取、移动、开合,是真正服务于机器人训练的实训场。
除此之外,Kairos-HomeWorld 已经开源 30 万套中国家庭户型图,且配套 5000 个完整可交互全屋场景。
这一开源体量也远超现有开源数据集一个数量级。
更重要的是,依托统一生成算法,这套体系可以无限迭代产出新场景,从万级到十万级、百万级场景都能低成本复刻,为行业提供了可复用、可进化的本土化仿真基础设施。
仿真数据不死,虚实结合是具身智能的最优解
过去一年,行业对仿真数据的认知经历了一轮极致的舆论波动。
从初期被奉为低成本落地神器,到因仿真与真机的鸿沟被全面质疑,再到如今行业对数据根本需求的日益清晰,从业者们逐渐达成共识。
仿真数据与真机数据不是一道非此即彼的必选题,而是需要根据任务场景动态调配的工程组合方案。
李鸿升的判断,基于最务实的成本与效率逻辑。
他不否认仿真到现实的鸿沟,纯仿真训练模型在真实环境的表现,确实不及真机数据训练模型。
但问题在于,放在全屋家居场景下,真机数据的采集成本是产业无法承受的。
采集一套真实的全屋三维数据,需要上门扫描、三维重建、物体分割、物理属性标注,整套流程耗时耗力、成本极高。
即便投入大规模人力,也无法实现海量数据积累。而机器人家庭交互数据的采集难度,更是呈指数级上升,根本无法支撑模型的高频迭代需求。
团队根据任务类型动态调整数据配比,像全屋空间理解任务,真机数据占比会在 5%-10%;标准化抓取任务,则以真机数据为主。
数据配比的核心原则,是权衡数据采集难度、成本、模型迭代需求,做到按需调配、动态优化。
值得一提的是,大晓机器人并没有把家庭机器人作为现阶段的落地载体。
在李鸿升看来,家庭全屋机器人是具身智能落地的终极形态,作为初期切入点并不合适。
核心在于安全风险难以把控,家用机器人自重较大,一旦出现断电、失控、倾倒等问题,极易对老人、儿童造成伤害,行业暂时没有成熟的安全兜底方案。
因此他选择循序渐进、由易到难,将现阶段落地重心放在商业、工业可控场景,包括前置仓打包、工厂装配、大空间导航等领域。
这类场景技术难度更低、环境可控、安全风险更小,能够快速落地迭代。
当然,这并不矛盾。
家庭是具身智能的终极落地形态,正因为难、因为风险高,才需要提前用最低成本积累数据和能力,这也是 Kairos-HomeWorld 的价值。
而商业、工业场景是现阶段的练兵场,很多底层技术栈,像抓取、放置、导航是相通的。
先在可控场景把模型跑通、把成功率做上去,再迁移回家庭,是更务实的路径。
尽管不急于落地家庭终端,Kairos-HomeWorld 在当下的机器人模型训练中依然起到了显著作用。
像桌面仿真训练转真机的成功率已经达到了 50%,处于行业上游水平。
李鸿升的训练逻辑很简单,仿真环境里都做不好,那就先不用进真实环境,仿真不做到 80%、90%,放到真实环境只会更差。
仿真场景的核心意义,就是为机器人提供一个低成本、零风险、无限迭代的预训练平台,成为模型落地真实世界的前置预科班。
技术路线未定局,长期耐心是核心竞争力
相较于大语言模型赛道的成熟稳定,具身智能的技术架构仍处于混沌迭代期,行业并没有形成统一标准。
一年前,VLA 模型还是绝对主流,如今世界模型、世界动作模型快速崛起,成为全新研发热点。
技术路线的快速迭代与偏移,都印证了具身智能仍处于早期探索阶段。
在李鸿升看来,VLA 模型与世界模型并非替代与对立关系,未来将走向融合统一。
二者各司其职、互补赋能。
世界模型主打空间感知、场景记忆、未来状态预测与物理推理,是机器人的空间智能大脑;VLA 模型依托大语言模型能力,擅长长程任务拆解、逻辑规划与语义理解。
两条路线各有不可替代的优势,盲目取舍反而会错失技术机会。
以灵巧手精细操作为例,李鸿升认为灵巧手训练就更适合用世界模型。
人类手部操作大多是手内旋转、搓捏、滑动等精细化动作。
他用人拿手机举了个例子,你从桌面拿起手机,屏幕朝向手心,需要很精细地转 180度才能用。这个动作人觉得简单,但通过遥操作采集数据,效率要低 5 到 10 倍。
因为遥操作的效率低、成本高,所以也几乎无法规模化积累数据集。
但世界动作模型能够自主生成精细化动作策略,完美适配灵巧手的训练需求,补齐了传统 VLA 模型依赖人工演示数据的短板。
除此之外,行业不仅技术路线未收敛,评测体系也处在碎片化状态。
不同于大模型领域成熟的基准测试与排行榜,具身智能行业里,不同企业、机构采用不同的仿真环境、任务体系和评判标准,横向对比难度极大,行业优劣难以界定。
这种碎片化的行业现状,虽然会引发一些短期舆论关注,但也意味着巨大的弯道超车机会。
过往资本、资源堆砌形成的短期优势,可能会被一次底层架构迭代彻底颠覆。
当下没有绝对的领跑者,所有头部玩家都在多路线布局、多点试错,等待技术终局收敛。
对于想要进入具身智能赛道的年轻从业者,李鸿升给出的建议只有两个字,耐心。
「具身智能的技术栈比纯大模型宽得多,不仅要懂 AI,还要学机器人、控制、硬件,训练周期更长。很多同学比较着急,但真正能做出大工作的,是那些有耐心的人。」
至于通用家庭机器人什么时候才能普及,李鸿升认为当下给不出明确时间表,但大晓机器人的技术发展思路很清晰。
与其被动等待行业数据成熟,不如主动搭建本土化仿真基础设施;与其纠结仿真技术的价值争议,不如用工程落地验证技术可行性。
Kairos-HomeWorld 就是这套务实理念的落地成果,是一项立足长期、赋能全行业的基础设施级创新。
在具身智能的长跑竞赛中,单点算法优势难以构建长期护城河,唯有场景数据的深度、广度与可持续迭代能力,才是无法复制的核心壁垒。
现在还远谈不上进入收获期,但行业已经进入了必须搭底座的阶段。
需要有人把数据、场景和工程能力持续做厚,把技术想象力变成真实作战的耐心。
原文标题 : 对话大晓机器人李鸿升:与其等数据,不如给机器人造出无限的“中国家庭训练场”