Genesis World 1.0开源发布:将机器人评估成本降至零的基础设施推出
2026年,机器人基础模型领域的竞争重心,已从比拼数据规模,转向了追求更快的技术迭代速度。Genesis AI在这一年中,对其整个仿真技术栈进行了重构,从而给出了一个清晰的答案:仿真的核心价值,并不在于生成训练数据,而在于使其自身成为加速评估与迭代进程的工具。
当Physical Intelligence、BeingBeyond等公司正专注于在真机上进行实机演示之际,Genesis所从事的,却是一项表面看来“节奏更慢”的工作——即致力于将仿真的真实相关性提升至89%。这一具体数值所代表的意义在于:用户能够于虚拟环境中完成高达99%的验证任务,仅需在最后的关键一步——即触及实体硬件的环节——才进行实机操作。
这是一个关乎基础设施构建的叙事。数据飞轮所能提供的,仅是基础性的原料;然而,如果缺乏高效的评估系统,那么无论积累的数据量多么庞大,其最终形态也只会是简单的堆砌。Genesis World已从最初的物理求解器整合框架,逐步演进为一个完整的“机器人开发操作系统”。其所具备的核心价值,并不在于自身打造出具有广泛影响力的技术演示,而在于赋予其他开发者以能力,使他们得以持续地创造出此类成果。

评估瓶颈:硬件成本与统计需求之间所存在的矛盾
机器人基础模型的评估成本往往极其高昂。一个模型需要能够跨越不同的任务、对象以及运行条件进行测试,并且需要识别出其中的故障模式,以此来指导后续的数据收集工作。这就要求评估系统能够同时具备可扩展性与闭环性:其中,可扩展性用于覆盖任务与条件所构成的庞大组合空间,而闭环性则确保了从感知到行动的完整流程得以执行,而非仅仅依赖于静态数据集上的离线指标进行评判。
自动驾驶行业对于这一认知早已有所理解。Waymo早在数年之前便已开始每天进行大约2000万英里的模拟驾驶,通用汽车则会在公共道路测试之前,每天模拟大约相当于100年的人类驾驶里程。那些能够构建起可扩展闭环评估流程的团队得以脱颖而出,这是因为这些团队把开发周期从原先"等待硬件排期"所带来的时间瓶颈,转化成了"增加算力"便可应对的计算问题。
机器人技术领域当前缺乏一套成熟的、能够支撑大规模应用的仿真评估基础设施。即便部署了自动重置功能、VLM评估器并尽可能减少人为干预,现实世界中的评估工作依然会受到硬件设备可用性、物理空间布局以及机器人运行所需成本等多方面因素的制约。此类评估不仅成本高昂,其结果还会因测试地点与时间段的差异而产生显著波动,加之机械层面的固有限制,使其难以满足基础模型在评估广度方面的要求。
Genesis所构建的典型模型评估流程涵盖了数百项任务,每一项任务均需被重复执行数百次。在实际应用过程中,仅完成一次评估,便需要一名操作员与一个机器人工作站连续运行超过200小时。若要开展具有统计学意义的跨检查点比较工作,则需要对这样的评估流程进行多次重复。
当需要在仿真的环境当中处理同样的数万起事件时,其运行时间仅需不到0.5个小时,这比在现实世界当中进行要快上两个数量级;与此同时,整个过程省去了任何人工操作以及硬件设备参与的环节;此外,还能够确保每一次的运行结果均具备精确的一致性。正是基于这些原因,仿真并非是一个可供选择的方案,而是一项必不可少的工具。

PART 02
从真实到虚拟的89%:如何缩小sim-to-real gap
传统仿真所面临的核心挑战并非在于真实程度不足,而是在于其无法定位到具体的失真环节。针对此问题,Genesis构建了一套支持实时并排运行的系统,该系统能够使物理机器人与仿真器自相同的初始状态开始运行,且其中每一个传感器输入均可被独立地切换其数据来源。与此同时,策略输入的来源——即摄像头所捕获的帧图像以及本体感觉数据——则均可源自仿真器、实际机器人,或是两者之间经过调和的混合模式。
这种设计使得用户能够对仿真与真实环境之间的差距(即sim-to-real gap)进行精确的来源定位。通过每次替换一个组件并观察差异出现的位置,可以将差距归因于特定的层面,例如物理、渲染、通信或控制,而不是将其简化为单一的二元成功或失败结果。
在视觉层方面,材质属性、光照模型以及相机特性均经过了针对性的调整,从而能够与真实的感官流程相匹配。这并非简单的参数拟合操作,而是对整个渲染管线所开展的系统性校准工作。
In the physical layer aspect, Genesis carried out precise modeling on joint behavior, friction, as well as contact phenomena. It performed expansion on libuipc, added the external joint constraint function, thereby directly embedding the joint space dynamics into the IPC optimization process. For a system having m joints, the rigid body solver will predict the joint displacement situation, and compute the joint space effective mass matrix, subsequently injecting this matrix as external joint kinetic energy into the IPC. The IPC then will jointly minimize this mapping process, while simultaneously taking into account contact obstacles, friction, as well as joint constraint factors. In the case of no contact, the solver is able to precisely restore the joint prediction state; whereas in the case of existing contact, the solver will conduct weighting according to effective mass, causing the links with larger mass to generate greater resistance to the correction process.
控制层:忠实地复制运行于硬件设备之上的实际控制器,涵盖其计时机制、延迟特性以及通信特征。这是最容易遭到忽视但影响却最为显著的一层。
这项工作的目标,在于检验仿真评估与硬件部署之间的相关性,并最终测得该数值为89%。为此,他们选取了三种在规模与架构上均存在差异的模型,并确定了14项具体的任务。随后,在真实世界环境以及构建的仿真环境当中,分别对每项任务执行了200个回合的运行。接着,他们对相关性指标进行了计算,并运用了100万次自助法迭代,来对置信区间进行估计。实验结果表明,该仿真器能够有效保持不同模型之间的性能排名。
更为重要的一点在于,整个评估流程所依赖的策略完全基于真实世界数据进行训练,未曾使用任何仿真数据。这一设计确保了训练流程与评估流程之间实现了解耦,从而有效规避了模型专门为仿真环境进行优化的风险。当该模型在仿真环境与实际物理环境中的行为表现及性能指标达到一致时,即表明两者之间的差距已足够微小,此时便可对该模型予以信赖。
从FID分数这一指标来看,Genesis所呈现的现实差距,相较于位列其次的替代模拟器,要小上45%。这并非一种渐进式的改进,而是一种质的飞跃。
PART 03

零成本的压力测试:系统性地探测策略边界
High-fidelity simulation allows assessments to accomplish what real-world tests cannot: probing strategy robustness across every dimension at scales and frequencies unsupported by real-world hardware.
Effective evaluation is not merely a scalar number. A strategy that achieves an 80% score on a standard benchmark can still fail when confronted with changes in lighting, camera positioning, or instruction phrasing. Genesis constructs evaluation as a taxonomy of orthogonal perturbation axes, with each axis designed to stress-test a specific category of model understanding:
视觉维度方面,主要涵盖了光照条件、相机扰动以及背景变化等多个要素。这些因素在真实世界当中难以进行精确控制,但在仿真环境里则可以实现精准的调节。
在行为维度方面,主要涵盖了未见组合、物体放置以及机器人配置等多项要素。这些要素旨在测试模型的泛化能力,而不仅仅是对其记忆能力进行评估。
在语义维度方面,主要涵盖了语言重述、子任务排序以及摄像机视角等要素。这些要素旨在检验模型面对同一任务的不同表达方式时,是否能够真正理解其内在意图。
针对每一轴而言,仅对其中单一参数进行调整,同时将其他所有参数均维持在其标称值范围内保持不变。这些所暴露出的失效模式能够直接指导后续数据收集工作的优先级排序。当模型在光照条件发生变化时出现失效情况,便能够明确需要收集更多不同光照条件下的相关数据。
Genesis同样运用这一框架来比较模型之间的表现差异。针对每一个扰动轴,将鲁棒性具体定义为,在施加扰动的条件下,模型性能相对于基准未扰动设置的性能保持率。随后,对每一个轴的鲁棒性曲线开展具体的测量工作,并进一步追踪这些曲线随着累积训练计算量(FLOPs)的变化所呈现出的演变情况。
These analyses are able to reveal the capability differences that exist between different models, and these differences are something that cannot be reflected by only relying on the success rate at the aggregated level. They also help to indicate which dimensions require additional data collection to improve the robustness of models. This perturbation method traverses training checkpoints across multiple model scales, and each data point requires thousands of evaluations. Therefore, it is only feasible in situations where the evaluation cost is almost zero.
一个在标准基准上达到80%成功率的策略,可能会在光照条件发生变化时出现完全失效的情况。传统的评估方法仅能观察到最终的分数表现,而Genesis则能够识别出策略在具体维度上的脆弱性,以及随着训练FLOPs的增加,这些脆弱性会如何进行演变。这种系统性的分析需要开展数千次的评估工作,因此只有在评估成本接近于零的情况下才具备可行性。
PART 04
统一物理引擎的技术突破
要实现高频评估,就必须具备极其卓越的性能表现。为此,Genesis对整个物理引擎进行了全面的重写工作,并在三个方向上取得了关键性突破:
标准IPC采用了对数障碍来对非穿透约束进行强制执行,这会导致Hessian矩阵在紧密接触场景下出现病态问题,同时也会由于过滤线搜索机制而减慢活动集的探索速度。Genesis用自定义的增强拉格朗日函数替代了该障碍:由连续碰撞检测所返回的每个必需接触对会立即进入活动集,并且约束的满足由自适应拉格朗日乘子更新来驱动,而非通过增加惩罚刚度来实现。
针对每一个具备当前线性化穿透深度的接触对,首先引入一个松弛变量,把非穿透不等式约束转换为等式约束。随后,对每一步的目标进行定义,该目标会涵盖增量势、主动接触约束集以及增广拉格朗日项。在每次原始求解完成之后,便会交替地更新拉格朗日乘数以及活动集,从而使整个过程在保持紧凑性的同时具备有效性。
即便在应力持续增加的情况下,Hessian矩阵仍然能够保持良好的条件数。在复杂场景的测试中,针对接触密集型基准,该方法的运行速度相比传统IPC快出103倍之多,且保证不会出现交叉现象。这些改进并非停留在理论层面,而是经由实测所验证的真实性能提升。
在线搜索过程中引入了协同线程机制,分解求解阶段则利用GPU图结构,分块Hessian分解、宽阶段优化、仅寄存器Cholesky变换和求解器分块技术,以及针对最小化线程发散与最大化GPU核心利用率所优化的窄阶段。复杂场景下的刚体模拟速度获得了显著提升,平行模拟的范围扩展至可变形物体及路径规划领域,许多以往仅限于CUDA环境的优化措施,现在也支持其他GPU后端。
具体实现了惯性轴对齐以保障自由关节的稳定性,对求解器的容差进行了自动校准处理,并提供了安全的GJK回退机制。同时消除了滑移以及漂移现象,并在分解式与整体式求解器之间建立了统一的线搜索路径。针对USD、MJCF以及URDF格式的解析,复合关节雅可比矩阵的计算,盒-盒碰撞及MPR碰撞的检测,IK四元数奇异性,以及平台稳定性等方面长期存在的极端情况,均已得到妥善解决。
在实现统一的物理仿真能力之外,Genesis进一步拓宽了其支持范围。除了现有的光学触觉传感器(FOTS)、磁力计-惯性测量单元(IMU)组合以及接触式探针套件之外,系统目前还支持点云触觉传感器、温度网格传感器以及接近传感器。此外,其对求解器集合进行了扩展,新增了隐式有限元法(FEM)和线性共旋弹性体求解器。在资源兼容性方面,支持范围现已扩展至URDF xacro格式、MuJoCo通用执行器、复合或模拟关节,以及等式或焊接约束等多种格式与功能。
这些技术细节的共同目标在于:使仿真成为消除开发周期瓶颈的手段,而非新的瓶颈。
PART 05
从数据生成器到迭代引擎
Genesis对于仿真的定位发生了根本性的转变。在过去数年当中,业界普遍将仿真视为一种"廉价的数据工厂",其作用在于生成大量的轨迹数据,从而为模型提供训练素材。然而这一范式存在一个根本性的问题:仿真与现实之间的差距会污染训练数据,使得模型所学习到的是仿真器自身存在的偏差,而非真实世界当中的物理规律。
具身智能领域正经历着属于自身的"巴别塔时刻"。在大语言模型当中,人类所产出的"文本Token"堪称那个完美的抽象模态——它已然洗去了声音、口音以及字体等方面的物理噪音,纯粹地承载着逻辑与语义信息。然而在具身智能领域,这种统一的、属于物理世界的"抽象模态"却尚未完全收敛成形。
数据来源已经发生了根本性转变。GEN-1的基础预训练工作完全不依赖于机器人数据,其核心数据来源为借助低成本UMI设备所采集的人类日常活动数据,数据规模从Gen-0的27万小时扩展至50万小时。Being-H0.7引入了涵盖30余种跨本体的多样化数据,从H0.5版本约1万小时的人类中心预训练数据扩充至20万小时,实现了15倍的增长。GR00T N1.7则把超过2万小时的人类操作视频作为其基座预训练的核心数据来源。
数据量本身已不再构成瓶颈。然而,大量异构数据——机器人平台的遥操作轨迹、人类第一视角视频、互联网图文资料以及失败片段等各类数据混合在一起,质量参差不齐且模态各异,如何将其消化并转化为能够驱动动作的统一表征,成为当前面临的关键问题。
Genesis所给出的答案在于:仿真并不参与模型的训练过程,而是专门承担评估职责。策略模型借助真实数据来开展训练工作,随后在仿真环境当中,以现实世界所无法企及的规模以及频率进行验证。这一做法将开发周期从"等待硬件排期"的时间性问题,成功转化为了"增加算力"的计算性问题。
这一转变得以成立,其前提是仿真必须具备足够高的准确度。89%的相关性仅仅是达到及格水平,远非最终目标。Genesis正在持续致力于缩小剩余的11%差距,其目标在于使仿真评估能够全面替代硬件测试。
当开环评估指标,包括R平方值以及在固定数据集上进行动作预测时的平均绝对误差,当其落定于一个相对狭窄的范围内时,不同模型之间的差异于开环维度就变得难以有效区分,而闭环指标则呈现出更强的信息承载能力。开环指标在捕捉峰值表现以及开展健全性检查方面具备实用价值,但一旦这些指标趋于收敛状态,便需要借助闭环评估来真正区分模型能力之间的差异。
PART 06
基础设施决定迭代速度
机器人基础模型领域的竞争,其本质在于迭代速度方面的竞争。数据、算法以及硬件都很重要,然而真正的杠杆存在于基础设施层面,它决定了你能够以多快的速度来验证一个想法、多快地发现问题,以及多快地完成修复并重新进行验证。
Genesis World所构建的并非单纯的仿真器,而是一套完整的评估与迭代系统。
Nyx is a from scratch specifically for robotic applications designed real-time photo-realistic rendering engine. It is not a modified version of a general-purpose renderer, but is customized for robotic visual needs.
Quadrants:一款针对高性能基础设施所设计的跨平台编译器。同一套物理计算流程必须能够在机器人的机载计算机、工程师的MacBook以及GPU集群上运行,并且无需针对不同的目标平台分别生成代码。Quadrants专为GPU级别的工作负载而开发,使得这一切得以成为可能。
Genesis World:一款高保真的统一刚性与可变形物理模拟器。其并非多个求解器的简单拼凑,而是从底层进行统一设计的物理引擎。
仿真接口:使得引擎能够便于下游应用进行调用的工具。在此基础上构建了跨实体仿真环境,涵盖了Wuji、Sharpa、Genesis手以及Pika夹爪,同时支持软体和刚体操作任务的开展。
每一个组件均针对同一目标进行了优化:使机器人研究者能够像软件工程师调试代码那般,对策略进行快速的迭代更新。
当其他团队仍在为“某项演示为何在真实机器人上出现失败”而费力排查时,Genesis的用户早已在仿真环境中系统化地完成了上千种参数变体的测试,精确定位到了导致失效的具体维度,并在此基础上验证了相应的修复方案。这便是基础设施所具备的力量。它并不直接制造引人注目的技术突破,但它决定了谁能够持续地取得此类突破。
开源地址:https://github.com/Genesis-Embodied-AI/quadrants
来源:Genesis World 1.0重磅开源:把机器人评估成本降到零的基础设施来了 | 机器人大讲堂