Genesis World 1.0开源，机器人评估成本降至零的基础设施发布

2026年05月29日 17:12

本文共计6760个字，预计阅读时长23分钟。

来源/具身研习社责编/huazi56 爱力方

2026年，机器人基础模型之间的竞争，已经从单纯比较数据规模，转向了比拼迭代速度的快慢。Genesis AI在一年之内，对整个仿真技术栈进行了重构，由此给出了一个清晰的答案：仿真的核心价值并非仅仅在于生成训练数据，而是在于使其成为评估与迭代过程的加速器。当Physical Intelligence、BeingBeyond等公司致力于在真机设备上演示时，Genesis却在从事一项表面上看似“更慢”的工作——将仿真的真实相关性做到了89%。这一数字的意义在于，你能够在虚拟环境中完成绝大部分的验证工作，直至最后的极小部分，才真正需要与物理硬件进行交互。这是一个关乎基础设施的故事。数据飞轮虽然提供了原材料，但若没有高效的评估系统作为支撑，再多的数据也只会被闲置。Genesis World从一个物理求解器的整合框架，逐步进化为了一个完整的“机器人开发操作系统”。它的价值，不在于亲自打造出爆款的演示，而在于赋能其他开发者，使他们能够持续地创造出爆款。

PART 01

评估瓶颈：硬件成本与统计需求之间的矛盾

对机器人基础模型开展评估的成本极其高昂。这一评估过程，需要模型能够跨越多种任务、不同对象以及各类条件来执行运行，同时还必须能够识别出相应的故障模式，以便为数据收集工作提供指导。这就要求评估系统必须同时具备两种关键特性：即能够覆盖任务与条件组合空间的可扩展性，以及能够完整执行从感知到行动全流程的闭环性，而非仅仅依赖静态数据集上的离线指标。

自动驾驶行业对此早有共识。Waymo数年前便已开始每日进行高达约2000万英里的模拟驾驶，而通用汽车在公共道路测试前，每天所模拟的驾驶里程约等同于人类驾驶100年的时间。那些成功构建了可扩展闭环评估流程的团队因而脱颖而出，因为他们成功地将开发周期从过去那种“等待硬件排期”的时间瓶颈问题，转化为了一个可以通过“增加算力”来解决的计算问题。

机器人技术领域目前仍然缺乏成熟的大规模仿真评估基础设施。即便在已经配置了自动重置基础设施、VLM批评者以及将人为干预尽可能减少的情况下，现实世界的评估过程仍然会受到硬件可用性、物理空间以及机器人运行成本的制约。评估成本十分高昂，同时在不同站点和时间段会产生噪声，并且由于机械方面的限制，无法实现基础模型所要求的广度。

Genesis的典型模型评估流程涵盖了数百项任务，并且每一项任务都需要被重复执行数百次。在实际部署的场景下，仅仅完成一次评估，就需要一名操作员与一个机器人工作站持续工作超过200个小时。因此，若要开展具备统计学显著性的跨检查点比较，则意味着需要进行多次这样高成本的评估循环。

当面对同样规模达数万起的事件时，在仿真环境中进行处理：仅需不足0.5小时即可完成全部运行，相较于现实世界，其效率实现了两个数量级的跃升；整个过程无需任何人工干预或物理硬件的介入；并能确保每一次运行都产出精确且可复现的结果。这正解释了为何仿真已从一种可选工具，转变为不可或缺的必要设施。

PART 02

从真实到虚拟的89%：如何缩小sim-to-real gap

传统仿真的问题核心，并非在于其虚拟环境“不够真实”，而在于开发者无法精确地判断“哪一个环节不够真实”。为了应对这一挑战，Genesis搭建起一套可实时并排运行的系统：物理机器人与虚拟仿真器均从完全一致的初始状态启动，并且对于每一个传感器的输入，都支持对其数据来源进行独立的切换。在这一设置下，策略模型所依赖的输入——无论是摄像头的图像帧还是机器人的本体感觉数据——其来源可以灵活指定为仿真器、实体机器人，或两者按照可调节的比例进行混合。

这种设计使他们能够实现对sim-to-real差距来源的精确定位。通过每次对其中一个组件进行替换，并对由此产生的差异进行观察，就能够将差距归因于特定的层面，例如物理、渲染、通信或是控制等方面，而非将其简化为单一的、二元化的成功或失败结果。

视觉层面，材质属性、光照模型以及相机特性均经历了针对性的调整，从而匹配真实的感官处理流程。这并非仅仅是对参数进行简单拟合，而是对整个渲染管线所开展的系统性校准。

在物理引擎层面，Genesis致力于实现对关节行为、摩擦效应以及接触动力学的精确建模。具体而言，该引擎对libuipc进行了功能扩展，将外部关节约束融入其中，从而把关节空间动力学直接集成到增量势能接触（IPC）的优化框架之内。对于一个包含m个关节的系统，其内部的刚体求解器会先行预测关节的位移量，并计算出相应的关节空间有效质量矩阵。随后，该矩阵被作为外部关节动能项，注入至IPC的能量最小化过程。IPC算法由此对包含接触势垒、摩擦约束以及关节约束的联合目标进行求解。在无接触发生的情况下，求解器能够精确地还原由关节预测所给出的运动状态；而在存在接触的情况下，求解器则会依据各连杆的有效质量进行加权处理，使得质量较大的连杆在运动修正时表现出更强的惯性阻力。

控制层：其核心在于对硬件上所运行的实际控制器进行忠实的复制，这其中包括了时序、延迟以及通信特性等方面。此层面虽最容易被忽视，但其对仿真真实感所产生的影响却最为显著。

通过这项工作的开展，仿真评估与硬件部署之间的相关性达到了89%。研究团队对三种不同规模与架构的模型开展了评估工作，选取了14项任务，在真实世界与仿真环境中分别执行了200次运行。随后对相关性指标进行了计算，并借助100万次自助法迭代来估计置信区间。实验结果表明，该仿真器能够保持不同模型之间的性能排名。

更为关键的是，这套评估完全基于真实世界数据训练的策略来开展，并未采用任何仿真数据。这一做法有效确保了训练流程与评估流程之间的解耦，从而规避了"针对仿真进行优化"的潜在陷阱。当模型在仿真环境和实际环境中的行为及性能能够实现匹配时，便表明两者之间的差距已经足够小，足以对该模型建立起充分的信任。

借助FID分数来进行衡量，Genesis所实现的现实差距相较于次优的替代模拟器要小45%。这并非渐进式的改进，而是一次质的飞跃。

PART 03

开展零成本的压力测试，以系统性地探测策略的边界。

在拥有了高保真仿真技术之后，评估便能够完成现实世界测试所无法实现的目标：即以远超现实硬件所能支撑的规模与频率，对策略的鲁棒性进行全方位、多维度的探测。

The effective evaluation process involves, far beyond a single numerical indicator. Even if a certain strategy has already achieved an 80% score on a standard benchmark, when facing changes such as illumination variations, camera position movement, or instruction phrasing adjustments, it may still potentially fail. Genesis constructs the entire evaluation process into a classification system composed of multiple orthogonal perturbation axes, where the design of each axis is aimed at conducting stress tests targeting a specific type of model understanding ability.

视觉维度方面：涵盖了光照条件、相机扰动以及背景变化等因素。这些因素在真实世界中难以进行精确控制，但在仿真环境当中却可以实现精确的调节。

行为维度方面：涵盖了未见组合、物体放置以及机器人配置等评估项。该设计的目的在于检验模型的泛化能力，而非其记忆能力。

语义维度方面：涵盖了语言重述、子任务排序以及摄像机视角等多个评估项。该设计的目的在于检验，当面对同一任务的不同表达方式时，模型是否真正理解了任务意图。

对于每一个轴，系统会只改变其中一个特定参数，同时将其余所有参数严格保持在各自的标称值不变。这些被识别出的失效模式，能够直接用来指导数据收集工作的优先排序。例如，假如模型在光照条件发生变化时出现失效，那么就可以明确知道需要收集更多在不同光照条件下所采集的数据。

Genesis 还借助此框架来开展模型之间的比较。对于每一个给定的扰动轴，研究者将其鲁棒性定义为：在扰动条件下，模型性能相对于标称未扰动设置下的性能保持率。研究对每一个轴所对应的鲁棒性曲线开展测量，并追踪这些曲线如何随着累积训练浮点运算量的变化而演变。

这些分析能够深入揭示不同模型之间的能力差异，而这些差异往往会被汇总的成功率指标所掩盖。它们还明确指出了哪些维度需要进行额外的数据收集，从而提升模型的鲁棒性。由于这种扰动方法需要在多个模型尺度上对训练检查点进行遍历，并且每个数据点都要求开展数千次评估，因此只有在评估成本趋近于零的情况下才能实现。

一个在标准基准测试中成功率达到80%的策略，当面临光照条件的变化时，其性能可能会完全失效。传统评估方法往往只能观察到最终的分数，而Genesis系统则能够识别出策略在哪个具体维度上表现脆弱，并追踪其性能随着训练所消耗浮点运算量的增加是如何演变的。这种深度的分析要求开展数千次评估，而这只有在每次评估的成本逼近于零时才具备可行性。

PART 04

统一物理引擎的技术突破

若要实现高频评估，便需具备极致的性能支撑。Genesis对整个物理引擎进行了全面重写，并在三个方向上取得了突破性进展：

标准IPC借助采用对数障碍方法来强制执行非穿透约束，这一做法既会导致Hessian矩阵在紧密接触场景下出现病态问题，同时也会由于过滤线搜索机制的存在而拖慢活动集的探索进程。Genesis则采取了不同的策略，其利用自定义的增强拉格朗日函数来替代原有的对数障碍：对于连续碰撞检测所识别出的每一个必需接触对，系统会立即将其纳入活动集，而约束的满足则通过自适应拉格朗日乘子的迭代更新来驱动实现，而非依赖于单纯提高惩罚刚度的方式来达成。

对于每个具有当前线性化穿透深度的接触对，引入一个松弛变量从而将非穿透不等式约束转换为等式约束。并基于此来定义每步优化目标，其中包含增量势能项、主动接触约束集以及增广拉格朗日项。在每次原始求解完成后，交替更新拉格朗日乘数与活动集，使该过程在保持紧凑性的同时维持其有效性。

即便应力有所增加，Hessian矩阵仍然能够保持良好的条件数，并且在复杂场景中，接触密集型基准测试的运行速度相较于传统IPC提升了103倍，与此同时仍然确保了无交叉点的存在。这并非理论上的改进，而是经过实测验证的性能提升。

线搜索过程中所部署的协同线程、在分解求解阶段所运用的GPU图、分块Hessian分解以及宽阶段优化、仅针对寄存器的Cholesky变换和求解器分块，还有针对最小线程发散与最大GPU核心利用率进行优化的窄阶段。这些改进使得复杂场景下的刚体模拟速度获得了显著提升，并行模拟的能力也扩展到了可变形物体和路径规划等多个应用场景，同时许多原本仅限于CUDA的优化方案现在已经能够支持其他GPU后端。

采用惯性轴对齐技术以提升自由关节的稳定性，对求解器容差进行自动校准，并运用安全的GJK碰撞检测回退机制，同时抑制滑移与漂移现象，以及在分解式求解器和整体式求解器之间统一线搜索路径。已解决了关于USD、MJCF及URDF格式解析，复合关节雅可比矩阵计算，盒-盒碰撞与MPR碰撞检测，IK求解中的四元数奇异性问题，以及跨平台运行稳定性等方面的长期存在的极端情况。

除了在统一物理学方面的进展之外，Genesis还进一步扩展了其技术覆盖范围。在现有的FOTS弹性体位移传感器、磁力计-IMU以及接触式探针套件的基础上，现在新增了对点云触觉传感器、温度网格传感器和接近传感器的支持。在求解器集方面，Genesis进行了扩展，引入了隐式有限元法和线性共旋弹性体。资源支持范围现已扩展至包括URDF xacro、MuJoCo通用执行器、复合或模拟关节，以及等式或焊接约束。

这些技术细节所追求的共同目标是：使仿真能够成为消除开发周期瓶颈的手段，而非成为新的瓶颈所在。

PART 05

从数据生成器到迭代引擎

在过去几年间，行业普遍将仿真视为“廉价数据工厂”，其主要功能是生成大量轨迹数据，以供模型训练使用。然而，这一范式存在一个根本性缺陷：仿真与现实之间的差距会污染所生成的训练数据，致使模型习得的是仿真器本身的偏差，而非真实世界中普适的物理规律。

具身智能领域当前正处于其自身的“巴别塔时刻”。在大语言模型中，人类的“文本Token”被视为一个完美的抽象模态，这是因为它去除了声音、口音以及字体等方面的物理噪音，从而纯粹地承载了逻辑与语义。然而，在具身智能领域中，这个属于物理世界的统一“抽象模态”尚未完全收敛。

在基础预训练数据来源方面，已经出现了显著的变化。GEN-1的基础预训练完全不依赖机器人数据，其核心数据来源转向了通过低成本UMI设备采集的人类日常活动数据，数据规模则从Gen-0版本的27万小时大幅扩展至50万小时。Being-H0.7引入了超过30种跨本体的多样化数据，将H0.5版本中约1万小时的人类中心预训练数据扩展到了20万小时，实现了约15倍的显著提升。GR00T N1.7则引入了超过2万小时的人类操作视频，将其作为基座预训练的核心数据燃料。

数据量本身已不再构成瓶颈。然而，大量来源各异的数据——包括来自机器人平台的遥操作轨迹、人类第一视角视频、互联网图文信息，以及包含失败的片段——相互交织混合，其质量参差不齐，所涉及的模态也各不相同。如何将这些庞杂的数据有效消化，并转化成为能够驱动具体动作的统一表征，成为了关键问题。

Genesis给出的答案是：仿真不参与训练过程，其作用在于专攻评估环节。策略借助真实数据完成训练，随后在仿真环境中，以现实世界无法企及的规模与频率进行验证。这一做法将开发周期的瓶颈，从依赖“等待硬件排期”的时间问题，成功转化为了通过“增加算力”来解决的计算问题。

当开环评估指标——包括R平方值以及在固定数据集上动作预测的平均绝对误差——落在一个狭窄的范围之内时，各个模型之间在开环层面的差异便会变得难以区分，而闭环指标则会变得更具信息量。开环指标在捕捉峰值以及进行健全性检查方面具有重要价值，然而一旦这些指标趋于收敛，就需要借助闭环评估来真正区分不同模型之间的能力差异。

PART 06

基础设施决定迭代速度

机器人基础模型之间的竞争，本质上关乎迭代速度方面的竞争。数据、算法以及硬件固然是重要的，但真正的杠杆在于基础设施——它决定了你能够多快验证一个想法、多快发现问题、多快修复并重新验证。

Genesis World并非一个单纯的仿真器，而是一套完整的评估与迭代系统：

Nyx是一款专为机器人应用从零开始设计的实时照片级渲染引擎，其开发过程针对机器人视觉的特定需求进行了定制。它并非基于通用渲染器所进行的改装版本，而是完全针对机器人视觉需求来开展了定制设计。

Quadrants：面向高性能基础设施的跨平台编译器。同一套物理计算流程需要能够在机器人的机载计算机、工程师的MacBook，以及GPU集群上同时运行，并且不能针对不同的目标平台分别进行代码生成。Quadrants专为GPU级别的工作负载而开发，使得这一目标得以实现。

Genesis World是面向刚性体与可变形体的高保真统一物理模拟器。它并非多个求解器的简单拼凑，而是从底层架构出发所进行的统一设计。

仿真接口：一系列旨在降低下游应用接入门槛，从而提升引擎易用性的工具集合。基于该接口，开发团队成功构建了跨实体仿真环境。该环境覆盖了Wuji、Sharpa、Genesis手以及Pika夹爪等多种机器人实体，并全面支持包括软体操作与刚体交互在内的各类典型任务。

各个组件均围绕同一目标进行优化设计，即通过构建类似软件工程师调试代码的迭代环境，使机器人研究者能够快速完成策略的迭代与调整。

当其他研究者正为“该演示程序在实体硬件上运行失败的原因”而深感困惑时，Genesis平台的用户已然在仿真环境中完成了对1000种参数变体的测试，精确地定位了导致失效的关键维度所在，并对修复方案进行了验证。这正体现了基础设施所蕴含的强大推动力。它本身并不直接创造爆款演示，却从根本上决定了谁能持续地创造出爆款。其开源地址为：https://github.com/Genesis-Embodied-AI/quadrants

来源：Genesis World 1.0重磅开源：把机器人评估成本降到零的基础设施来了！ | 具身研习社

声明：本文来自具身研习社，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

TAGS: []

通知

尊敬的用户

user

资讯

Genesis World 1.0开源，机器人评估成本降至零的基础设施发布

Genesis World 1.0开源，机器人评估成本降至零的基础设施发布

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

OpenAI反击马斯克窃密诉讼：要求xAI承担百万美元法律费用，称其“先起诉后找证据”

ADSGTR国际法规正式发布，长安汽车深度参与共建全球统一自动驾驶标准

领星ERP推出覆盖全流域与多平台的AI广告解决方案

华瀚国际与创晟集团联合布局AIGC数字文创，投资百部AI仿真人短剧

千味央厨与灵心巧手推进技术合作，加速布局具身智能赛道

QuestMobile发布6月AI原生App月活榜：豆包月活3.8亿断层第一，千问增速近58倍

苹果起诉OpenAI窃取机密？马斯克嘲讽阿尔特曼将“诈骗”提到新高度

谷歌发布移动端 AI 应用更新，首次支持历史聊天记录搜索与文件上传

三星据称已完成特斯拉AI5芯片流片将采用2nm工艺

国内首部《AI健康教练赋能健康行为改变白皮书》发布：从“经验驱动”迈入“数智创新”

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

Genesis World 1.0开源，机器人评估成本降至零的基础设施发布

Genesis World 1.0开源，机器人评估成本降至零的基础设施发布

相关图文

这次AI热潮如何走向终局？褪去滤镜，别让故事战胜估值

Meta开始卖算力，机构的AI信仰变了吗？

“BAT”历史性同台！30亿美元“弹药”落定，可灵立下的5年IPO军令状，藏着资本对AI视频赛道的耐心上限

AI时代Token成为“统一度量衡” 业内呼吁合力解决计费不透明等问题

八部门推动工业互联网和算力基础设施同步建设 宇树科技IPO注册获批

直击慕尼黑上海电子展：云端AI加速下沉至端侧

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

OpenAI反击马斯克窃密诉讼：要求xAI承担百万美元法律费用，称其“先起诉后找证据”

ADSGTR国际法规正式发布，长安汽车深度参与共建全球统一自动驾驶标准

领星ERP推出覆盖全流域与多平台的AI广告解决方案

华瀚国际与创晟集团联合布局AIGC数字文创，投资百部AI仿真人短剧

千味央厨与灵心巧手推进技术合作，加速布局具身智能赛道

QuestMobile发布6月AI原生App月活榜：豆包月活3.8亿断层第一，千问增速近58倍

苹果起诉OpenAI窃取机密？马斯克嘲讽阿尔特曼将“诈骗”提到新高度

谷歌发布移动端 AI 应用更新，首次支持历史聊天记录搜索与文件上传

三星据称已完成特斯拉AI5芯片流片 将采用2nm工艺

国内首部《AI健康教练赋能健康行为改变白皮书》发布：从“经验驱动”迈入“数智创新”

推荐专栏

爱力方

机器人大讲堂

下一篇

八部门推动工业互联网和算力基础设施同步建设宇树科技IPO注册获批

三星据称已完成特斯拉AI5芯片流片将采用2nm工艺