Genesis World 1.0开源,机器人评估成本降至零的基础设施发布
2026年,机器人基础模型之间的竞争,已经从单纯比较数据规模,转向了比拼迭代速度的快慢。Genesis AI在一年之内,对整个仿真技术栈进行了重构,由此给出了一个清晰的答案:仿真的核心价值并非仅仅在于生成训练数据,而是在于使其成为评估与迭代过程的加速器。当Physical Intelligence、BeingBeyond等公司致力于在真机设备上演示时,Genesis却在从事一项表面上看似“更慢”的工作——将仿真的真实相关性做到了89%。这一数字的意义在于,你能够在虚拟环境中完成绝大部分的验证工作,直至最后的极小部分,才真正需要与物理硬件进行交互。这是一个关乎基础设施的故事。数据飞轮虽然提供了原材料,但若没有高效的评估系统作为支撑,再多的数据也只会被闲置。Genesis World从一个物理求解器的整合框架,逐步进化为了一个完整的“机器人开发操作系统”。它的价值,不在于亲自打造出爆款的演示,而在于赋能其他开发者,使他们能够持续地创造出爆款。
PART 01
评估瓶颈:硬件成本与统计需求之间的矛盾

对机器人基础模型开展评估的成本极其高昂。这一评估过程,需要模型能够跨越多种任务、不同对象以及各类条件来执行运行,同时还必须能够识别出相应的故障模式,以便为数据收集工作提供指导。这就要求评估系统必须同时具备两种关键特性:即能够覆盖任务与条件组合空间的可扩展性,以及能够完整执行从感知到行动全流程的闭环性,而非仅仅依赖静态数据集上的离线指标。
自动驾驶行业对此早有共识。Waymo数年前便已开始每日进行高达约2000万英里的模拟驾驶,而通用汽车在公共道路测试前,每天所模拟的驾驶里程约等同于人类驾驶100年的时间。那些成功构建了可扩展闭环评估流程的团队因而脱颖而出,因为他们成功地将开发周期从过去那种“等待硬件排期”的时间瓶颈问题,转化为了一个可以通过“增加算力”来解决的计算问题。
机器人技术领域目前仍然缺乏成熟的大规模仿真评估基础设施。即便在已经配置了自动重置基础设施、VLM批评者以及将人为干预尽可能减少的情况下,现实世界的评估过程仍然会受到硬件可用性、物理空间以及机器人运行成本的制约。评估成本十分高昂,同时在不同站点和时间段会产生噪声,并且由于机械方面的限制,无法实现基础模型所要求的广度。
Genesis的典型模型评估流程涵盖了数百项任务,并且每一项任务都需要被重复执行数百次。在实际部署的场景下,仅仅完成一次评估,就需要一名操作员与一个机器人工作站持续工作超过200个小时。因此,若要开展具备统计学显著性的跨检查点比较,则意味着需要进行多次这样高成本的评估循环。
当面对同样规模达数万起的事件时,在仿真环境中进行处理:仅需不足0.5小时即可完成全部运行,相较于现实世界,其效率实现了两个数量级的跃升;整个过程无需任何人工干预或物理硬件的介入;并能确保每一次运行都产出精确且可复现的结果。这正解释了为何仿真已从一种可选工具,转变为不可或缺的必要设施。

PART 02
从真实到虚拟的89%:如何缩小sim-to-real gap
传统仿真的问题核心,并非在于其虚拟环境“不够真实”,而在于开发者无法精确地判断“哪一个环节不够真实”。为了应对这一挑战,Genesis搭建起一套可实时并排运行的系统:物理机器人与虚拟仿真器均从完全一致的初始状态启动,并且对于每一个传感器的输入,都支持对其数据来源进行独立的切换。在这一设置下,策略模型所依赖的输入——无论是摄像头的图像帧还是机器人的本体感觉数据——其来源可以灵活指定为仿真器、实体机器人,或两者按照可调节的比例进行混合。
这种设计使他们能够实现对sim-to-real差距来源的精确定位。通过每次对其中一个组件进行替换,并对由此产生的差异进行观察,就能够将差距归因于特定的层面,例如物理、渲染、通信或是控制等方面,而非将其简化为单一的、二元化的成功或失败结果。
视觉层面,材质属性、光照模型以及相机特性均经历了针对性的调整,从而匹配真实的感官处理流程。这并非仅仅是对参数进行简单拟合,而是对整个渲染管线所开展的系统性校准。
在物理引擎层面,Genesis致力于实现对关节行为、摩擦效应以及接触动力学的精确建模。具体而言,该引擎对libuipc进行了功能扩展,将外部关节约束融入其中,从而把关节空间动力学直接集成到增量势能接触(IPC)的优化框架之内。对于一个包含m个关节的系统,其内部的刚体求解器会先行预测关节的位移量,并计算出相应的关节空间有效质量矩阵。随后,该矩阵被作为外部关节动能项,注入至IPC的能量最小化过程。IPC算法由此对包含接触势垒、摩擦约束以及关节约束的联合目标进行求解。在无接触发生的情况下,求解器能够精确地还原由关节预测所给出的运动状态;而在存在接触的情况下,求解器则会依据各连杆的有效质量进行加权处理,使得质量较大的连杆在运动修正时表现出更强的惯性阻力。

控制层:其核心在于对硬件上所运行的实际控制器进行忠实的复制,这其中包括了时序、延迟以及通信特性等方面。此层面虽最容易被忽视,但其对仿真真实感所产生的影响却最为显著。

通过这项工作的开展,仿真评估与硬件部署之间的相关性达到了89%。研究团队对三种不同规模与架构的模型开展了评估工作,选取了14项任务,在真实世界与仿真环境中分别执行了200次运行。随后对相关性指标进行了计算,并借助100万次自助法迭代来估计置信区间。实验结果表明,该仿真器能够保持不同模型之间的性能排名。
更为关键的是,这套评估完全基于真实世界数据训练的策略来开展,并未采用任何仿真数据。这一做法有效确保了训练流程与评估流程之间的解耦,从而规避了"针对仿真进行优化"的潜在陷阱。当模型在仿真环境和实际环境中的行为及性能能够实现匹配时,便表明两者之间的差距已经足够小,足以对该模型建立起充分的信任。
借助FID分数来进行衡量,Genesis所实现的现实差距相较于次优的替代模拟器要小45%。这并非渐进式的改进,而是一次质的飞跃。

PART 03
开展零成本的压力测试,以系统性地探测策略的边界。
在拥有了高保真仿真技术之后,评估便能够完成现实世界测试所无法实现的目标:即以远超现实硬件所能支撑的规模与频率,对策略的鲁棒性进行全方位、多维度的探测。
The effective evaluation process involves, far beyond a single numerical indicator. Even if a certain strategy has already achieved an 80% score on a standard benchmark, when facing changes such as illumination variations, camera position movement, or instruction phrasing adjustments, it may still potentially fail. Genesis constructs the entire evaluation process into a classification system composed of multiple orthogonal perturbation axes, where the design of each axis is aimed at conducting stress tests targeting a specific type of model understanding ability.
视觉维度方面:涵盖了光照条件、相机扰动以及背景变化等因素。这些因素在真实世界中难以进行精确控制,但在仿真环境当中却可以实现精确的调节。

行为维度方面:涵盖了未见组合、物体放置以及机器人配置等评估项。该设计的目的在于检验模型的泛化能力,而非其记忆能力。
语义维度方面:涵盖了语言重述、子任务排序以及摄像机视角等多个评估项。该设计的目的在于检验,当面对同一任务的不同表达方式时,模型是否真正理解了任务意图。
对于每一个轴,系统会只改变其中一个特定参数,同时将其余所有参数严格保持在各自的标称值不变。这些被识别出的失效模式,能够直接用来指导数据收集工作的优先排序。例如,假如模型在光照条件发生变化时出现失效,那么就可以明确知道需要收集更多在不同光照条件下所采集的数据。

Genesis 还借助此框架来开展模型之间的比较。对于每一个给定的扰动轴,研究者将其鲁棒性定义为:在扰动条件下,模型性能相对于标称未扰动设置下的性能保持率。研究对每一个轴所对应的鲁棒性曲线开展测量,并追踪这些曲线如何随着累积训练浮点运算量的变化而演变。
这些分析能够深入揭示不同模型之间的能力差异,而这些差异往往会被汇总的成功率指标所掩盖。它们还明确指出了哪些维度需要进行额外的数据收集,从而提升模型的鲁棒性。由于这种扰动方法需要在多个模型尺度上对训练检查点进行遍历,并且每个数据点都要求开展数千次评估,因此只有在评估成本趋近于零的情况下才能实现。
一个在标准基准测试中成功率达到80%的策略,当面临光照条件的变化时,其性能可能会完全失效。传统评估方法往往只能观察到最终的分数,而Genesis系统则能够识别出策略在哪个具体维度上表现脆弱,并追踪其性能随着训练所消耗浮点运算量的增加是如何演变的。这种深度的分析要求开展数千次评估,而这只有在每次评估的成本逼近于零时才具备可行性。
PART 04
统一物理引擎的技术突破
若要实现高频评估,便需具备极致的性能支撑。Genesis对整个物理引擎进行了全面重写,并在三个方向上取得了突破性进展:
标准IPC借助采用对数障碍方法来强制执行非穿透约束,这一做法既会导致Hessian矩阵在紧密接触场景下出现病态问题,同时也会由于过滤线搜索机制的存在而拖慢活动集的探索进程。Genesis则采取了不同的策略,其利用自定义的增强拉格朗日函数来替代原有的对数障碍:对于连续碰撞检测所识别出的每一个必需接触对,系统会立即将其纳入活动集,而约束的满足则通过自适应拉格朗日乘子的迭代更新来驱动实现,而非依赖于单纯提高惩罚刚度的方式来达成。

对于每个具有当前线性化穿透深度的接触对,引入一个松弛变量从而将非穿透不等式约束转换为等式约束。并基于此来定义每步优化目标,其中包含增量势能项、主动接触约束集以及增广拉格朗日项。在每次原始求解完成后,交替更新拉格朗日乘数与活动集,使该过程在保持紧凑性的同时维持其有效性。

即便应力有所增加,Hessian矩阵仍然能够保持良好的条件数,并且在复杂场景中,接触密集型基准测试的运行速度相较于传统IPC提升了103倍,与此同时仍然确保了无交叉点的存在。这并非理论上的改进,而是经过实测验证的性能提升。
线搜索过程中所部署的协同线程、在分解求解阶段所运用的GPU图、分块Hessian分解以及宽阶段优化、仅针对寄存器的Cholesky变换和求解器分块,还有针对最小线程发散与最大GPU核心利用率进行优化的窄阶段。这些改进使得复杂场景下的刚体模拟速度获得了显著提升,并行模拟的能力也扩展到了可变形物体和路径规划等多个应用场景,同时许多原本仅限于CUDA的优化方案现在已经能够支持其他GPU后端。
采用惯性轴对齐技术以提升自由关节的稳定性,对求解器容差进行自动校准,并运用安全的GJK碰撞检测回退机制,同时抑制滑移与漂移现象,以及在分解式求解器和整体式求解器之间统一线搜索路径。已解决了关于USD、MJCF及URDF格式解析,复合关节雅可比矩阵计算,盒-盒碰撞与MPR碰撞检测,IK求解中的四元数奇异性问题,以及跨平台运行稳定性等方面的长期存在的极端情况。
除了在统一物理学方面的进展之外,Genesis还进一步扩展了其技术覆盖范围。在现有的FOTS弹性体位移传感器、磁力计-IMU以及接触式探针套件的基础上,现在新增了对点云触觉传感器、温度网格传感器和接近传感器的支持。在求解器集方面,Genesis进行了扩展,引入了隐式有限元法和线性共旋弹性体。资源支持范围现已扩展至包括URDF xacro、MuJoCo通用执行器、复合或模拟关节,以及等式或焊接约束。

这些技术细节所追求的共同目标是:使仿真能够成为消除开发周期瓶颈的手段,而非成为新的瓶颈所在。
PART 05
从数据生成器到迭代引擎
在过去几年间,行业普遍将仿真视为“廉价数据工厂”,其主要功能是生成大量轨迹数据,以供模型训练使用。然而,这一范式存在一个根本性缺陷:仿真与现实之间的差距会污染所生成的训练数据,致使模型习得的是仿真器本身的偏差,而非真实世界中普适的物理规律。
具身智能领域当前正处于其自身的“巴别塔时刻”。在大语言模型中,人类的“文本Token”被视为一个完美的抽象模态,这是因为它去除了声音、口音以及字体等方面的物理噪音,从而纯粹地承载了逻辑与语义。然而,在具身智能领域中,这个属于物理世界的统一“抽象模态”尚未完全收敛。
在基础预训练数据来源方面,已经出现了显著的变化。GEN-1的基础预训练完全不依赖机器人数据,其核心数据来源转向了通过低成本UMI设备采集的人类日常活动数据,数据规模则从Gen-0版本的27万小时大幅扩展至50万小时。Being-H0.7引入了超过30种跨本体的多样化数据,将H0.5版本中约1万小时的人类中心预训练数据扩展到了20万小时,实现了约15倍的显著提升。GR00T N1.7则引入了超过2万小时的人类操作视频,将其作为基座预训练的核心数据燃料。

数据量本身已不再构成瓶颈。然而,大量来源各异的数据——包括来自机器人平台的遥操作轨迹、人类第一视角视频、互联网图文信息,以及包含失败的片段——相互交织混合,其质量参差不齐,所涉及的模态也各不相同。如何将这些庞杂的数据有效消化,并转化成为能够驱动具体动作的统一表征,成为了关键问题。
Genesis给出的答案是:仿真不参与训练过程,其作用在于专攻评估环节。策略借助真实数据完成训练,随后在仿真环境中,以现实世界无法企及的规模与频率进行验证。这一做法将开发周期的瓶颈,从依赖“等待硬件排期”的时间问题,成功转化为了通过“增加算力”来解决的计算问题。
当开环评估指标——包括R平方值以及在固定数据集上动作预测的平均绝对误差——落在一个狭窄的范围之内时,各个模型之间在开环层面的差异便会变得难以区分,而闭环指标则会变得更具信息量。开环指标在捕捉峰值以及进行健全性检查方面具有重要价值,然而一旦这些指标趋于收敛,就需要借助闭环评估来真正区分不同模型之间的能力差异。
PART 06
基础设施决定迭代速度
机器人基础模型之间的竞争,本质上关乎迭代速度方面的竞争。数据、算法以及硬件固然是重要的,但真正的杠杆在于基础设施——它决定了你能够多快验证一个想法、多快发现问题、多快修复并重新验证。
Genesis World并非一个单纯的仿真器,而是一套完整的评估与迭代系统:
Nyx是一款专为机器人应用从零开始设计的实时照片级渲染引擎,其开发过程针对机器人视觉的特定需求进行了定制。它并非基于通用渲染器所进行的改装版本,而是完全针对机器人视觉需求来开展了定制设计。
Quadrants:面向高性能基础设施的跨平台编译器。同一套物理计算流程需要能够在机器人的机载计算机、工程师的MacBook,以及GPU集群上同时运行,并且不能针对不同的目标平台分别进行代码生成。Quadrants专为GPU级别的工作负载而开发,使得这一目标得以实现。
Genesis World是面向刚性体与可变形体的高保真统一物理模拟器。它并非多个求解器的简单拼凑,而是从底层架构出发所进行的统一设计。
仿真接口:一系列旨在降低下游应用接入门槛,从而提升引擎易用性的工具集合。基于该接口,开发团队成功构建了跨实体仿真环境。该环境覆盖了Wuji、Sharpa、Genesis手以及Pika夹爪等多种机器人实体,并全面支持包括软体操作与刚体交互在内的各类典型任务。
各个组件均围绕同一目标进行优化设计,即通过构建类似软件工程师调试代码的迭代环境,使机器人研究者能够快速完成策略的迭代与调整。
当其他研究者正为“该演示程序在实体硬件上运行失败的原因”而深感困惑时,Genesis平台的用户已然在仿真环境中完成了对1000种参数变体的测试,精确地定位了导致失效的关键维度所在,并对修复方案进行了验证。这正体现了基础设施所蕴含的强大推动力。它本身并不直接创造爆款演示,却从根本上决定了谁能持续地创造出爆款。其开源地址为:https://github.com/Genesis-Embodied-AI/quadrants
来源:Genesis World 1.0重磅开源:把机器人评估成本降到零的基础设施来了! | 具身研习社