训练世界模型开始从人类肌肉和大脑学习

2026年07月03日 19:32
本文共计7828个字,预计阅读时长27分钟。
来源/具身研习社 责编/TouziXiaohu 投资小狐

具身智能数据的竞争格局,正从“量大管饱”的阶段进入新的竞争阶段。

在过去的这一年中,第一视角视频已成为机器人训练的主要数据来源。人类佩戴相机设备来执行烹饪、桌面整理以及抽屉开启等日常操作,由此可以生成大量的操作样本。

数据量层面的问题已经得到了初步的缓解,但一个更深层次的缺口随之显现出来。

这类数据(通常以第一视角视频形式呈现)虽然记录了人类执行任务的具体动作序列,但并未对操作背后的意图或动因进行记录,更未捕捉到在动作执行过程中,人类神经系统与肌骨系统如何进行实时的协调与修正。

FaceMind脸谱心智想填的,就是这个缺口。

这家由两位95后博士所创立的公司,正式提出了一套全新的 Ego-NeuroLoop 数据范式。

它同时对四类信号进行采集,把人类在完成某一动作时所涉及的"看哪里、准备做什么、肌肉如何发力、反馈如何修正"等完整闭环,统一整合至同一条时间轴之中。

配套的硬件方案 NeuroMatrix 致力于简化数据采集流程,信号处理层 NeuroBooster 则对来自高噪声环境的原始数据进行处理,将其转换为模型可直接处理的格式。

△图片为AI生成

这套研究思路的起点,源于神经科学中一条经过反复验证的理论,即贝叶斯大脑假说。

f6f1f4f00ba4a719bc0d52dd03acc8d9.jpg

贝叶斯大脑:大脑一直在预测世界

神经科学领域中有一条已在实验中被反复验证的理论,它被称作“贝叶斯大脑假说”,时常与预测处理、自由能原则相提并论。

这个理论的核心观点在于,大脑并非只是一个被动接收信息的容器,而是始终主动地进行预测。它基于过往经验与当前上下文信息,对外部世界以及身体状态生成概率化的预期,随后再借助感官反馈来加以校准。

△图片为AI生成

具身智能数据领域的竞争,正迈入一个新阶段。过去一年,第一视角视频已成为机器人训练的核心数据源,通过佩戴相机设备执行日常操作,能够产生海量的操作样本。然而,当数据量的瓶颈初步缓解后,一个更深层次的缺口便凸显出来。这类以第一视角视频呈现的数据,虽然记录了人类执行任务的动作序列,却并未捕捉操作背后的意图,更未反映在动作进行中,人类的神经系统与肌骨系统是如何实时协调与反馈修正的。

b0901a74e8ce570de8c21f4ebf63455e.png

为此,这家由两位95后博士创立的公司,正式提出了一种名为 Ego-NeuroLoop 的全新数据范式。该范式同时对四种不同类型的信号进行并行采集,将人类在执行任务时“看向何处、准备执行何种动作、肌肉如何产生力量、以及如何依据反馈进行调整”的完整闭环,统一整合至同一条时间轴上。其配套的硬件方案 NeuroMatrix 旨在简化数据采集流程,而信号处理层 NeuroBooster 则负责对来自高噪声环境的原始数据进行处理,将其转换为模型可直接利用的格式。

这一研究思路的理论根基,源于神经科学中一条经过反复验证的假说,即贝叶斯大脑假说。该假说的核心观点认为,大脑并非被动接收信息的容器,而是会始终基于过往经验和当前情境,主动对外部世界及身体状态进行概率性预测,随后再通过感官反馈对这些预测进行校准。

当来自感官的真实输入被接收后,大脑会将其与内部模型的预测进行对比,这个对比过程所产生的差值便构成了预测误差。正是这个预测误差,作为关键的驱动力,持续地推动着内部模型向前演进与更新。

借助人工智能领域的概念进行类比,大脑本身就在运行一套世界模型。

AI领域对世界模型的研究核心在于理解环境如何随动作而改变。人类大脑所执行的任务与此高度相似,区别在于人类的认知系统天然与身体融合为一体。视觉、视线、触觉、本体感觉、肌肉反馈、注意力及误差信号等机制,都在同一条链路上协同运行。

具身智能想学的,恰恰是这个。

机器人若要进入厨房、仓库、实验室及家庭等实际应用场景,仅仅具备视觉识别与动作模仿能力仍是不够的。

在真实场景中,物体表面可能打滑、视线会遭遇遮挡、状态会发生变化,甚至可能遭遇任务的突然中断。因此,如何选择目标、在何时启动动作、当出现偏差时如何修正,以及在遭遇失败后如何切换策略,所有这些能力都难以仅仅依赖一段视频记录来有效习得。

具身智能领域所面临的核心数据瓶颈,并不在于获取更多如同录像机般被动记录操作序列的数据,而是在于需要能够揭示决策与推理过程的大脑运行日志式数据。

摄像头拍到了手,但拍不到大脑

具身智能数据层面的竞争,已从追求数据规模的阶段,迈入了新的发展时期。
在刚刚过去的一年里,第一视角视频数据作为机器人训练的主流数据来源,其地位得以确立。通过让人类佩戴相机设备来执行烹饪、整理桌面以及开启抽屉等日常操作,能够生成大量的任务执行样本。
随着数据量方面的瓶颈得到初步缓解,一个更为根本性的缺口随之浮现。这类数据虽然对人类执行任务的具体动作序列进行了记录,但并未阐明操作背后的意图,更未能捕捉在动作执行过程中,人类的神经系统与运动系统是如何进行实时协同与调整的。
这家由两位95后博士创立的公司,因此正式提出了一种全新的数据范式,称为Ego-NeuroLoop。该范式对四种不同类型的信号进行并行采集,将人类在执行任务时“注视何处、准备执行什么动作、肌肉如何发力、以及如何根据反馈进行调整”的完整闭环,统一整合到同一条时间轴上。
其配套的硬件方案NeuroMatrix旨在简化数据采集流程,而信号处理模块NeuroBooster则负责对高噪声环境下的原始数据进行处理,将其转换为模型可直接使用的格式。
这一研究思路的理论基石,源自神经科学中一条经过反复验证的核心假说,即贝叶斯大脑假说。该假说的核心观点认为,大脑并非被动的信息接收器,而是会始终基于过往经验和当前情境,主动对外部世界及身体状态形成概率性的预测,随后再利用感官输入对这些预测进行校准。
当来自感官的真实信号被接收后,大脑会将其与内部模型的预测进行比对,由此产生的差异便构成了预测误差。这个预测误差正是驱动内部模型不断演进与更新的关键动力。
借助人工智能领域的概念来类比,大脑本身就在持续运行着一套世界模型。AI领域对世界模型的研究,其核心在于理解环境如何随着动作而发生改变。人类大脑所执行的任务与此高度相似,区别在于人类的认知系统天然与身体融合为一体。视觉、注意力、触觉、本体感觉、肌肉反馈以及误差修正等机制,都融合在同一条信息处理链路上。
机器人若要进入厨房、仓库、实验室及家庭等真实应用场景,仅仅具备视觉识别与动作模仿的能力是远远不够的。在真实场景中,物体表面可能会打滑、视线会遭到遮挡、状态会发生变化,甚至可能遭遇任务的突然中断。因此,如何选择目标、在何时启动动作、当出现偏差时如何进行修正,以及在遭遇失败后如何切换策略,这些能力都难以仅凭一段操作视频记录来有效习得。

机器人真机数据的采集过程,由于依赖专业设备与人员操作,往往成本高昂且速度缓慢;加之硬件设备本身价格不菲,导致其在多样化实际应用场景中的覆盖范围受到限制。

相比之下,人类第一视角数据的采集则因依赖于人体自身与简易佩戴设备,其实施门槛显著降低。个体只需佩戴相机设备,在烹饪、整理桌面、开启抽屉或拿取工具等日常活动中自然行动,便能够生成数量庞大的原始任务数据集。

这类数据能够对环境中的物体与状态信息进行记录,对物体状态随时间发生的转变过程进行追踪,对人手与物体之间的交互关系加以捕捉,并对任务执行的最终成效作出评估。对于模型的训练而言,这些多维度的信息共同构成了模型学习真实世界操作的基础性材料。

但第一视角视频数据存在一个固有局限:它主要对人所执行的动作进行记录。

摄像头能够捕捉手部伸向杯子这一动作过程,却无法记录人为何要先行观察杯沿这一决策背后的认知意图;

虽然能够观察到杯子被拿起这一具体动作,却无法察觉动作决策环节何时启动,这一认知层面的准备过程并未被记录。

虽然能够观察到手指与物体接触这一外在动作,却无法捕捉到肌肉发力状态如何发生改变;

能够观察到任务是否取得成功或遭遇失败,却无法察觉反馈误差是如何触发下一步修正操作的。

现有human-centric数据的特征更接近于一个行为结果库,其主要功能是对已发生的动作轨迹和任务结果进行记录。

具身智能真正需要学习的内容,是行为生成机制——即目标的识别过程、注意力的转移机制、意图的形成路径、肌肉的执行指令,以及反馈如何对动作进行动态调节。

如果将大脑视为一套基于预测机制运作的世界模型,那么在为其构建训练数据时,就应当尽可能地对这套模型的动态运作过程进行完整记录。这不仅仅需要捕捉人所感知到的视觉信息与手部执行的动作,更需要全面覆盖从预测形成、行动决策、反馈接收到模型更新的整个闭环过程。

FaceMind脸谱心智想填的就是这个缺口。

这家公司是由两位95后博士陆弘远与韦怡然所共同创立的,在其早期发展阶段主要从端侧全模态模型这一方向切入开展研究工作,随后将研究重心转移至更为底层的世界模型研究方向。

但更为关键的研究切入点,在于如何将贝叶斯大脑理论进行有效转译,并将其应用于解决具身智能领域所面临的数据挑战。

神经科学研究表明,大脑会借助内部模型来对世界进行预测,并依据反馈误差来对模型进行更新;而人工智能领域的世界模型,其目标同样在于帮助智能体理解环境如何随动作而发生改变。

具身智能要将大脑、身体与环境这三者有效连接,就必须依赖一类新型数据,旨在记录人类大脑、身体和环境如何构建完整的互动闭环。

Ego-NeuroLoop就是在这个背景下出现的。

它并非单纯增加视频的采集量,也不是对人类动作重新进行标注。

它所要采集的,是人类完成任务时的完整闭环过程:人将视线投向何处,何时准备启动动作,肌肉如何参与发力,反馈如何随之产生,以及动作又如何依据这些反馈被及时修正。

贝叶斯大脑假说中所阐述的预测、误差与更新机制,其核心在于大脑会不断将预测与实际反馈进行比对,并以此驱动内部模型的持续优化。借助Ego-NeuroLoop这一新的数据范式,上述机制得以被显式地记录并结构化,从而转化为可供机器人系统进行学习的结构化数据资产。

给大脑和肌肉也装上摄像头

Ego-NeuroLoop这一数据范式,将人类完成任务的过程进行了系统性分解,提取出四类并行采集的信号。其中,视觉摄像头(world camera)负责记录外部环境信息,视线追踪(gaze)用以捕捉注意力焦点,脑电图(EEG)信号映射了内部的神经状态,而表面肌电图(sEMG)则记录了肌肉的执行活动。这四类信号共同构成了一个结构化的多模态数据序列。

12dcf0dba3d8fae5298b9f5b6f71e9d8.png

图片为AI生成

其中,world camera记录 环境。

通过对桌面上存在的物体进行识别、对目标物体的位置加以定位、对手与物体之间的接触方式展开分析,以及对任务执行的进度进行判断,这一层为世界模型提供了必要的外部输入信息。

gaze记录 视线 。

在人开始执行动作之前,目光往往会先行移向目标区域,随后才会查看可供抓取的部分。在必要时,视线会快速扫过潜在的障碍物或是下一步计划放置物品的位置。这条视线所形成的轨迹,能够帮助模型从复杂的视觉环境中,筛选出那些与当前任务真正相关的关键信息。

EEG补的则是动作发生之前那段“前奏”。

尽管脑电图技术难以直接读取完整的思维内容,但对于动作准备、注意状态、任务切换以及误差感知等关键神经信号,它均能够进行有效的捕捉与分析。

在手部实际动作发生之前,运动相关脑区已开始活动并进入执行准备状态,这个短暂的时间差构成了意图与行动的神经分离,而EEG凭借其毫秒级的时间分辨率,正是捕捉这一动态过程的唯一技术手段。

sEMG把动作落到 肌肉 层面。

手臂、手腕与手指分别在哪个时间点被激活,肌肉发力的动态变化过程如何,以及动作修正具体发生在哪个阶段。与仅仅观察手部运动轨迹相比,表面肌电图(sEMG)数据额外提供了执行力度和控制细节方面的量化信息。

将四类信号整合至同一条时间轴上,一个动作从而从一段轨迹演变为一条完整链路。

当目标进入感知范围并被识别出来后,注意力便会随之聚焦于目标区域。此时,神经系统的相关区域会提前进入准备与激活状态,特定的肌群也会开始被激活,进行发力前的准备。在手部接触并操作物体的过程中,反馈信号会随即传回,系统依据这些反馈信息,对肌肉的发力和动作轨迹进行重新调整与校准。

模型从这类数据中所习得的,并非仅仅局限于人的行为执行方式本身,更涵盖了人得以正确完成任务的判断依据。

先于实验室绘制完整的地图,再将设备进行小型化。

数据定义好了,得先采得到。

FaceMind所提出的专用硬件方案NeuroMatrix,实现了对视觉、视线、EEG与sEMG这四类信号的同步采集。

图片为AI生成

5a73ce613c35ab3257c12bddd8bb5b68.png

当前所面临的最为显著的现实层面挑战,主要集中在成本控制以及部署落地这两大核心问题上。

高精度脑电、肌电与视线追踪设备通常更适配于实验室环境,这主要源于其具备通道数量较多、购置成本偏高、佩戴流程复杂等特点,因而很难直接部署到真实世界的大规模任务之中。

NeuroMatrix的技术思路在于,首先借助高精度版本来建立完整的信号地图。

在高精度数据采集阶段,所获取的是包含脑电、肌电、视线轨迹及视觉信息在内的完整数据集。

系统在此阶段对动作意图与脑区信号的映射关系进行了系统性分析,旨在精确揭示特定的头皮电极通道、肌肉区域与视觉目标三者之间所存在的稳定关联。

在完成高精度信号地图的绘制工作后,硬件设计便聚焦于关键位置进行优化。通过减少电极数量并压缩传感器点位,该方案致力于将设备设计得更加轻量化、成本更低,同时便于佩戴使用。

这一步决定数据生产能铺多远。

为了支撑通用机器人的训练,具身智能对长期、稳定且贴近真实场景的数据供应存在切实需求。仅仅依赖少量在实验室环境中采集的样本是远远不够的。

若采集门槛未能降低,那么人类闭环操作数据就无法进入更高频、更大规模的生产阶段。

四路信号,互相兜底

采集获得的数据尚不能直接投入使用,因为这些信号中均存在噪声干扰。

EEG易于受到电极接触、头动、眨眼以及环境干扰等因素的影响;sEMG则会受到佩戴偏移、肌肉串扰以及动作幅度等方面的影响;gaze可能发生漂移或短时丢失的现象;视觉数据同样难以避免遮挡、模糊以及视角变化等问题。

更为棘手的是,多模态数据之间存在着时间同步方面的挑战,这导致原始信号往往难以被直接转化为可用的训练样本。

FaceMind给出的第二层,是 NeuroBooster 。

这是一种针对神经与身体信号的多模态基座模型。它能够把原本粗糙、异步且信噪比低的原始数据,整理成为一条可供模型消费的闭环时间轴。

或许通过类比能更直观地理解,就像视觉语言模型(VLM)将视觉信息与语言文本对齐到同一表征空间那样,NeuroBooster的核心作用则是将视觉、视线、EEG与sEMG这类多源异构信号进行有效对齐。

这套系统的关键在于 模态互补 。

When the signal strength of electroencephalography (EEG) is insufficient or unstable, the data collected by gaze tracking and surface electromyography (sEMG) can effectively supplement the model with target localization information and action execution status information.

当sEMG信号的噪声水平较高时,视觉和EEG信号能够提供辅助判断,以确定当前动作正处于哪一个执行阶段。

当视线跟踪信号出现漂移现象时,视觉信息与手部状态数据能够提供必要的上下文信息,以实现对齐的恢复。

当视觉信息出现遮挡时,借助于神经与肌肉信号,仍可以承载有关于动作意图与执行阶段的线索。

经过一系列包括时间对齐、信号配对、增强重建以及结构化输出的处理步骤之后,模型所获取的就不再是若干相互孤立的传感器原始记录,而是一条更为完整和连贯的操作链路:具体涵盖了观察到了何种场景、将注意力置于何处、预备执行何种操作、如何调动相应的肌力、何时以及如何接收到反馈信息,并据此规划下一步的调整策略。

数据竞争会进入闭环质量阶段

具身智能数据方面的竞争,历来聚焦于规模、场景与动作这三个维度而展开。

当数据量充足、任务覆盖广泛且动作样本丰富时,系统训练出强大策略模型的机会将显著提升。

下一轮竞争的核心指标已发生了根本性的转变,其中闭环质量将占据最为关键的位置。

同样是“拿杯子”这个具体动作,普通视频能够为模型所提供的数据,主要是关于动作轨迹的记录,具体包括手部的起始位置、移动路径以及最终是否成功将杯子拿起。

而脸谱心智Ego-NeuroLoop所呈现的则是一套更为精细的过程机制,具体涵盖了目标如何被发现、注意力怎样转移、动作准备何时出现、肌肉何时开始发力,以及在完成接触之后反馈信息是如何对后续动作产生影响的。

基于两种不同数据训练得到的模型,其能力边界存在哪些差异?

如果模型仅仅学习轨迹数据,那么它便容易停留在表层的模仿阶段;这类模型虽然擅长复现,并且能够对于它曾经见过的场景照着执行一遍,然而一旦物体出现滑动、光线发生变化或是任务被中途打断,它便缺乏相应的内部状态,从而无法判断偏差具体出现在哪一个环节。

在闭环过程的学习中,模型获得了额外的能力维度:它观察了人类在相同偏差情境下如何调整发力、重新分配注意力以及切换策略的过程,这使得它有机会将这些修正逻辑迁移并整合到自身的决策机制之内。

从这个角度来讲,Ego-NeuroLoop的核心意义在于把训练数据从"行为库"推向"闭环库"。

它不仅能够记录人类的行为表现,还可以记录大脑、身体与环境之间是如何相互协作,从而将行动任务完成的。

机器人所缺乏的世界模型,存在于人类大脑之中。

机器人所缺失的世界模型,或许就潜藏于人类大脑之中。

更为准确地说,其存在之处,正是大脑、身体以及环境三者之间的连续交互过程之中。

贝叶斯大脑理论为理解这一过程提供了一个清晰的理论框架:大脑依赖其内部生成的模型来对外部世界进行预测,并借助实时的感官输入来对这些预测进行校准,最终将预测误差作为信号,来驱使内部模型进行更新和优化。

具身智能若要迈向真实操作,其背后所依赖的核心能力是高度统一的。这意味着,机器人不仅需要感知世界,还必须具备预测世界的能力;不仅需要执行动作,更需要依据实时反馈来动态调整后续动作。

FaceMind所采取的做法,是在这一过程中沿着该框架,从数据端出发,一路贯通并构建至模型端。

Ego-NeuroLoop成功定义了一种全新的数据范式,而NeuroMatrix则将多模态信号采集的门槛显著降低,同时NeuroBooster通过将低成本信号进行对齐与增强,使其转换为模型能够直接使用的格式。

模型侧同样采取了相应的应对措施。FaceMind此前发布的Looped World Models,采用参数共享的transformer block来对环境状态进行迭代式更新,从而使世界模型得以在内部完成多轮自我修正的过程。

数据端构建并完成了闭环采集,模型端得以实现闭环训练,这确保了整个流程的前后贯通。

此项研究路线所秉持的核心假设在于:若要使机器人实现更接近人类的任务执行能力,其性能瓶颈并非仅仅取决于所采用的模型架构,而更大程度上还受限于训练数据究竟在何种深度上,真实捕捉并还原了人类操作的完整过程。

轨迹、结果、成功率,这些是表层。

借助预测、反馈与修正这样的动态过程,这三个要素或许正是控制策略真正得以生长的土壤。

来源:训练世界模型,开始从人类的肌肉和脑子里偷师了 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。
0
TAGS: []

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 爱力方

https://www.agentren.cn/