对话大晓机器人李鸿升：与其等数据，不如给机器人造出无限的“中国家庭训练场”

编者按：在具身智能的浪潮中，总有人站在潮头，定义流向。星河频率推出全新访谈系列《浪潮之上》。

聚焦具身智能行业内的关键人物，分享从技术拐点到商业抉择，从产品落地到产业远望。我们不谈空泛的趋势，只记录那些真正推动浪潮的思考、判断与行动。

不追热点，只抓浪尖，让更多人先听见，具身智能的下一个频率。

作者｜毛心如

对具身智能来说，当前最棘手的瓶颈不是模型不够大，而是数据不够多、不够真。

尤其到了家庭场景，这个问题会变得更明显：客厅里可能同时摆着茶几、扫地机器人、儿童玩具和一摞临时堆放的杂物。

对机器人来说，这些看似琐碎的细节，恰恰决定了它能不能真正进入家庭。

也正因为如此，家庭场景的数据采集一直很难做。

一方面，真实家庭的空间结构千差万别；另一方面，具备物理属性与交互关系的三维数据，采集和标注成本极高，且难以规模化。

正是为了破解这一困局，大晓机器人推出了全屋三维可交互世界模型，Kairos-HomeWorld。

这是全球首个实现全屋生成、个体物体全交互的世界模型统一框架。

在这套框架下，不用再去费力采集真实家庭数据，而是用算法生成一个可以无限复制、无限拓展，而且每一个物体都可交互的中国家庭虚拟训练场。

目前，该项目已经在 GitHub 上开源了 30 万套真实中国家庭户型图、 5000 个完整全屋可交互场景，配套自研四阶段分层生成流程，为行业补齐了本土仿真短板。

项目开源后，也收到了海内外多所高校和科研机构的关注与申请使用需求。

在这些数字背后，站着的是大晓机器人具身大模型科学家，同时担任香港中文大学多媒体实验室（CUHK MMLab）教授李鸿升。

在 Kairos-HomeWorld 开源后，我们与李鸿升进行了一场深度对话。

话题覆盖了大模型引发的范式转移、Kairos-HomeWorld 的设计理念、仿真与真机数据的配比哲学，以及具身智能大脑的未来演进。

既是学者，也是产业实践者，他选择了一条更慢、更难，但他相信真正有影响力的路。

AI 从虚向实，具身智能迎来工程落地拐点

复盘近十年人工智能的发展脉络，大模型的落地彻底改写了 AI 的进化方向。

大模型普及之前，传统 AI 长期局限于软件层面的感知与推理，擅长文本、图像、语音等虚拟信息处理，能够完成大量轻量化任务，但完全不具备解决真实物理世界问题的能力。

这种虚拟智能与物理现实之间的巨大落差，推动了近三年整个 AI 赛道迎来明确的转型。

技术重心从纯软件推理转向软硬融合，AI 正式开启从虚拟走向现实、赋能物理设备的新阶段。

与此同时，机器人硬件产业链也完成了长期积累，迎来成熟临界点。

过去制约机器人落地的减速器、驱动马达、底层运动控制等核心硬件与技术难题，经过十年产业迭代已经基本攻克，硬件端的稳定性与性价比足以支撑规模化试用。

因此，具身智能行业迎来了绝佳的时机：上层大模型为机器人注入通用智能与决策能力，底层硬件为智能落地提供物理载体。

自上而下的智能赋能，与自下而上的硬件成熟双向奔赴，让具身智能从一个学术概念，彻底转化为可落地、可迭代、可优化的工程问题。

行业趋势的变革，也影响了李鸿升的职业选择。

他的学术研究横跨自动化、计算机视觉、多模态智能等多个领域，几乎覆盖了当下具身智能从业者的核心知识体系。

深耕学术多年后，他意识到纯学术研究的局限性。

「顶会论文每年几万篇，作为研究学者，我们追求的是有影响力的工作。真正有影响力的工作，往往是落地的、真的 work 的东西。」

计算机视觉领域的分割任务就是个典型的例子，该领域数十年的学术积累，最终是依靠 Meta 的 SAM 系列模型，才实现了技术的通用化、工具化落地，真正赋能全行业。

对李鸿升而言，真正有价值的技术创新，最终都要落地真实场景、解决真实问题。

秉持着这个核心诉求，他选择加入大晓机器人。与商汤系团队十余年的深度合作，让双方形成了深厚的信任与默契。

对李鸿升来说，入局产业是个人学术研究与技术理想的自然延伸。

全屋、可交互、无限生成，补齐本土实训场景空白

Kairos-HomeWorld 的发布，直指当前机器人训练数据严重不足的行业痛点。

市面上公开的仿真训练环境，普遍存在场景局限、交互失效的硬伤。多数仅支持桌面、单房间小范围场景训练，无法覆盖完整全屋空间。

这类静态仿真环境，只能满足机器人基础的导航避障训练，支撑不了抓取、放置、精细操作等核心交互任务。

更关键的是，整个行业始终没有一套适配中国家庭、覆盖全屋、全物体可交互的开源训练场。

「我们看了一下市面上的情况，桌面场景有，单房间场景有，但全屋范围的、可交互的、中国家庭特色的，一个都没有。」李鸿升回忆道。

针对这个空白，大晓机器人选择从零搭建全新训练体系，并确立了三个目标：覆盖完整全屋空间、所有场景物体可交互、支持场景无限生成迭代。

团队自研了四阶段分层生成架构，摒弃黑箱式端到端生成模式，用模块化、可拆解、可微调的工程化思路，搭建出了高保真的真实家庭场景。

第一阶段是户型构架定型。

依托真实户型数据锁定房屋整体框架，明确居室数量、功能分区、门窗方位等结构，遵循人类空间设计逻辑，先定图纸、再建场景，从根源上保证户型布局的合理性与真实性。

第二阶段是全屋软装与细节填充。

家具尺寸、地板墙面材质、壁纸风格、灯光排布等细节被逐一还原。

不同于实验室纯白统一的极简环境，中国家庭多样化的家装风格、灯光色调、个性化软装，都会直接影响机器人的视觉识别与任务判断。

精细化的场景还原，是适配本土家庭的基础。

第三阶段开展自动化冲突校验。

通过规则算法对生成场景进行全面筛查，自动剔除家具穿模、动线堵塞、布局不合理等瑕疵，保障每一套仿真空间都符合真实人居逻辑，为后续机器人训练提供有效样本。

第四阶段也是项目最核心的创新，为静态场景注入生活气息。

传统仿真场景完成家具布置后就选择收尾，产出的是空旷样板间，但真实家庭的核心特征是杂乱、动态、充满生活化杂物。

其团队在桌面、书架、厨房、电视柜等区域，批量生成水杯、遥控器、书籍、玩具、餐具、零食等高频日常物件。

这些看似细碎的杂物，恰恰是机器人家庭作业的最大难点。

面对随意摆放、形态不规则、重心多变的日常杂物，机器人操作成功率往往会大幅下滑。

这一步关于多样化物体物理属性的细节填充，让仿真场景无限贴近真实人居环境，也为机器人提升泛化能力提供了更优质的训练场。

整套四阶段流程采用模块化设计，各阶段可独立训练、独立校验、灵活调优，最后拼接成完整的生成链路。

这种工程化方案虽然前期工作量翻倍，但稳定性、可控性和适配性远超端到端黑箱模型。

李鸿升坦言，行业同类项目普遍规模偏小，团队一次性拓展至全屋全场景、全物件可交互的体量，工程压力极大。

「但最大的挑战不是技术，技术总有方案。最大的挑战是下决心，下定决心把一个没人做过的项目突破出来、硬扛下来。」

在数据来源上，其团队储备了 80 万套真实民用户型数据，全部源于真实中国本土住宅，涵盖常规户型、小众奇葩户型以及特殊布局户型。

考虑到标准化 CAD 图纸带来的高昂成本，其选用性价比更高、覆盖更广但存在噪声的数据源。

再通过模型智能打标+人工精细化修正的循环清洗，保留真实户型的多样性，同时剔除数据瑕疵，让仿真场景更贴合中国家庭的真实样貌。

相较于行业主流三维生成项目，像李飞飞的 World Labs，Kairos-HomeWorld 的核心差异化在于可交互性。

World Labs 生成的三维场景视觉效果逼真、支持自由漫游，但所有物体相互绑定、无法单独操作。

而 Kairos-HomeWorld 实现了全物体解耦，场景内每一件家具、每一个杂物都可独立抓取、移动、开合，是真正服务于机器人训练的实训场。

除此之外，Kairos-HomeWorld 已经开源 30 万套中国家庭户型图，且配套 5000 个完整可交互全屋场景。

这一开源体量也远超现有开源数据集一个数量级。

更重要的是，依托统一生成算法，这套体系可以无限迭代产出新场景，从万级到十万级、百万级场景都能低成本复刻，为行业提供了可复用、可进化的本土化仿真基础设施。

仿真数据不死，虚实结合是具身智能的最优解

过去一年，行业对仿真数据的认知经历了一轮极致的舆论波动。

从初期被奉为低成本落地神器，到因仿真与真机的鸿沟被全面质疑，再到如今行业对数据根本需求的日益清晰，从业者们逐渐达成共识。

仿真数据与真机数据不是一道非此即彼的必选题，而是需要根据任务场景动态调配的工程组合方案。

李鸿升的判断，基于最务实的成本与效率逻辑。

他不否认仿真到现实的鸿沟，纯仿真训练模型在真实环境的表现，确实不及真机数据训练模型。

但问题在于，放在全屋家居场景下，真机数据的采集成本是产业无法承受的。

采集一套真实的全屋三维数据，需要上门扫描、三维重建、物体分割、物理属性标注，整套流程耗时耗力、成本极高。

即便投入大规模人力，也无法实现海量数据积累。而机器人家庭交互数据的采集难度，更是呈指数级上升，根本无法支撑模型的高频迭代需求。

团队根据任务类型动态调整数据配比，像全屋空间理解任务，真机数据占比会在 5%-10%；标准化抓取任务，则以真机数据为主。

数据配比的核心原则，是权衡数据采集难度、成本、模型迭代需求，做到按需调配、动态优化。

值得一提的是，大晓机器人并没有把家庭机器人作为现阶段的落地载体。

在李鸿升看来，家庭全屋机器人是具身智能落地的终极形态，作为初期切入点并不合适。

核心在于安全风险难以把控，家用机器人自重较大，一旦出现断电、失控、倾倒等问题，极易对老人、儿童造成伤害，行业暂时没有成熟的安全兜底方案。

因此他选择循序渐进、由易到难，将现阶段落地重心放在商业、工业可控场景，包括前置仓打包、工厂装配、大空间导航等领域。

这类场景技术难度更低、环境可控、安全风险更小，能够快速落地迭代。

当然，这并不矛盾。

家庭是具身智能的终极落地形态，正因为难、因为风险高，才需要提前用最低成本积累数据和能力，这也是 Kairos-HomeWorld 的价值。

而商业、工业场景是现阶段的练兵场，很多底层技术栈，像抓取、放置、导航是相通的。

先在可控场景把模型跑通、把成功率做上去，再迁移回家庭，是更务实的路径。

尽管不急于落地家庭终端，Kairos-HomeWorld 在当下的机器人模型训练中依然起到了显著作用。

像桌面仿真训练转真机的成功率已经达到了 50%，处于行业上游水平。

李鸿升的训练逻辑很简单，仿真环境里都做不好，那就先不用进真实环境，仿真不做到 80%、90%，放到真实环境只会更差。

仿真场景的核心意义，就是为机器人提供一个低成本、零风险、无限迭代的预训练平台，成为模型落地真实世界的前置预科班。

技术路线未定局，长期耐心是核心竞争力

相较于大语言模型赛道的成熟稳定，具身智能的技术架构仍处于混沌迭代期，行业并没有形成统一标准。

一年前，VLA 模型还是绝对主流，如今世界模型、世界动作模型快速崛起，成为全新研发热点。

技术路线的快速迭代与偏移，都印证了具身智能仍处于早期探索阶段。

在李鸿升看来，VLA 模型与世界模型并非替代与对立关系，未来将走向融合统一。

二者各司其职、互补赋能。

世界模型主打空间感知、场景记忆、未来状态预测与物理推理，是机器人的空间智能大脑；VLA 模型依托大语言模型能力，擅长长程任务拆解、逻辑规划与语义理解。

两条路线各有不可替代的优势，盲目取舍反而会错失技术机会。

以灵巧手精细操作为例，李鸿升认为灵巧手训练就更适合用世界模型。

人类手部操作大多是手内旋转、搓捏、滑动等精细化动作。

他用人拿手机举了个例子，你从桌面拿起手机，屏幕朝向手心，需要很精细地转 180度才能用。这个动作人觉得简单，但通过遥操作采集数据，效率要低 5 到 10 倍。

因为遥操作的效率低、成本高，所以也几乎无法规模化积累数据集。

但世界动作模型能够自主生成精细化动作策略，完美适配灵巧手的训练需求，补齐了传统 VLA 模型依赖人工演示数据的短板。

除此之外，行业不仅技术路线未收敛，评测体系也处在碎片化状态。

不同于大模型领域成熟的基准测试与排行榜，具身智能行业里，不同企业、机构采用不同的仿真环境、任务体系和评判标准，横向对比难度极大，行业优劣难以界定。

这种碎片化的行业现状，虽然会引发一些短期舆论关注，但也意味着巨大的弯道超车机会。

过往资本、资源堆砌形成的短期优势，可能会被一次底层架构迭代彻底颠覆。

当下没有绝对的领跑者，所有头部玩家都在多路线布局、多点试错，等待技术终局收敛。

对于想要进入具身智能赛道的年轻从业者，李鸿升给出的建议只有两个字，耐心。

「具身智能的技术栈比纯大模型宽得多，不仅要懂 AI，还要学机器人、控制、硬件，训练周期更长。很多同学比较着急，但真正能做出大工作的，是那些有耐心的人。」

至于通用家庭机器人什么时候才能普及，李鸿升认为当下给不出明确时间表，但大晓机器人的技术发展思路很清晰。

与其被动等待行业数据成熟，不如主动搭建本土化仿真基础设施；与其纠结仿真技术的价值争议，不如用工程落地验证技术可行性。

Kairos-HomeWorld 就是这套务实理念的落地成果，是一项立足长期、赋能全行业的基础设施级创新。

在具身智能的长跑竞赛中，单点算法优势难以构建长期护城河，唯有场景数据的深度、广度与可持续迭代能力，才是无法复制的核心壁垒。

现在还远谈不上进入收获期，但行业已经进入了必须搭底座的阶段。

需要有人把数据、场景和工程能力持续做厚，把技术想象力变成真实作战的耐心。

原文标题 : 对话大晓机器人李鸿升：与其等数据，不如给机器人造出无限的“中国家庭训练场”

来源：对话大晓机器人李鸿升 : 与其等数据，不如给机器人造出无限的“中国家庭训练场” | OFweek机器人网

通知

尊敬的用户

user

资讯

对话大晓机器人李鸿升：与其等数据，不如给机器人造出无限的“中国家庭训练场”

相关图文

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

训练世界模型开始从人类肌肉和大脑学习

极智嘉：人形机器人要“真干活”先跨过这三道坎

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

高盛：Meta广告业务已验证AI价值巨额资本开支仍是主要压力

今晚美国公布GDP，存储股普跌，SK海力士跌超3%，亚马逊财报前瞻：2000亿美元AI投资迎大考，Meta跌近9%，高通跌超5%

扎克伯格称卖算力换短期利润是愚蠢的

因存在滥用情况易引发安全风险智驾“小蓝灯”将被禁用新车不得安装老车无需拆除

字节跳动重组AI业务整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布行业回归终端生态

中国创新药国际化先行者携手金山办公，WPS 365开启新药研发AI协同

国家能源集团人工智能全域赋能，应用水平跻身行业前列

智达明远AI获客系统全链路获客方案亮相CFS2026财经峰会，树立数字经济AI创新标杆

临科智华与吉布提政府签署合作备忘录，全球化算力布局再提速

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

对话大晓机器人李鸿升：与其等数据，不如给机器人造出无限的“中国家庭训练场”

相关图文

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛 切入千亿级康复服务市场

2026全球具身智能产业链协作出海对接会在沪成功举办

报告：长三角具身智能企业数量和融资规模均占全国五成以上

ATHENA将影响函数扩展到十亿参数VLA，实现313倍加速筛选高价值数据

训练世界模型开始从人类肌肉和大脑学习

极智嘉：人形机器人要“真干活”先跨过这三道坎

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

高盛：Meta广告业务已验证AI价值 巨额资本开支仍是主要压力

今晚美国公布GDP，存储股普跌，SK海力士跌超3%，亚马逊财报前瞻：2000亿美元AI投资迎大考，Meta跌近9%，高通跌超5%

扎克伯格称卖算力换短期利润是愚蠢的

因存在滥用情况易引发安全风险 智驾“小蓝灯”将被禁用 新车不得安装 老车无需拆除

字节跳动重组AI业务 整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布 行业回归终端生态

中国创新药国际化先行者携手金山办公，WPS 365开启新药研发AI协同

国家能源集团人工智能全域赋能，应用水平跻身行业前列

智达明远AI获客系统全链路获客方案亮相CFS2026财经峰会，树立数字经济AI创新标杆

临科智华与吉布提政府签署合作备忘录，全球化算力布局再提速

推荐专栏

爱力方

机器人大讲堂

下一篇

慧辰股份“孤独症具身智脑”亮相具身智能产业论坛切入千亿级康复服务市场

高盛：Meta广告业务已验证AI价值巨额资本开支仍是主要压力

因存在滥用情况易引发安全风险智驾“小蓝灯”将被禁用新车不得安装老车无需拆除

字节跳动重组AI业务整合豆包、飞书和火山引擎

华为、小米等首批手机端侧AI备案名单公布行业回归终端生态