OmniVTA让机器人学会预测“手感”并修正动作

2026年05月29日 15:43
本文共计10148个字,预计阅读时长34分钟。
来源/具身研习社 责编/爱力方

出品:具身释界

很多时候,我们会觉得机器人操作物体,最重要的是“看得准”。

比如机器人要抓一个杯子,只要摄像头看到杯子在哪里,机械臂移动过去,然后夹起来,任务似乎就完成了。

但如果任务稍微复杂一点,事情就没有这么简单了。

想象一下,人类在擦桌子、削黄瓜、切菜、插 USB、拧瓶盖的时候,其实并不是只靠眼睛。很多关键细节,都是靠“手感”完成的。

比如擦桌子的时候,我们会感觉抹布有没有贴住桌面;削皮的时候,会感觉刀有没有真正贴住食材表面;插 USB 的时候,会通过手上的阻力判断有没有对准;抓葡萄、蓝莓这类易碎物体的时候,也会根据手指的压力判断有没有夹太紧。

这些信息,光靠视觉很难判断。

因为摄像头只能看到外部画面,但接触力、摩擦、滑动、卡住、对齐、松动这些变化,很多时候都发生在物体和手指接触的地方。特别是机器人自己的夹爪经常会挡住物体,视觉看到的画面并不完整。

这篇论文 OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation 关注的正是这个问题:

机器人能不能不只是“看到物体在哪里”,而是像人一样,提前预测接下来会发生什么接触,并且在接触出问题时快速修正动作?

换句话说,这篇论文想让机器人真正学会“摸着操作”。

一、为什么接触密集型操作这么难?

在机器人操作任务里,有一类任务叫 contact-rich manipulation,也就是“接触密集型操作”。

这类任务的特点是,机器人和物体之间不是简单地碰一下,而是需要持续、稳定、精细地接触。

比如:

擦拭,需要保持合适的压力,不能太轻,也不能太重。

削皮,需要刀具持续贴住食材表面,同时沿着表面滑动。

切割,需要逐渐增加向下的力,并判断什么时候切断。

装配,需要感知插入过程中的阻力和对齐状态。

手内调整,需要判断物体有没有滑动、有没有转到目标姿态。

这些任务的难点不只是“空间位置”,而是“接触状态”。

机器人需要知道:

现在有没有碰到?

碰得够不够?

是不是太用力了?

有没有打滑?

有没有偏离目标接触位置?

接触状态接下来会怎么变化?

如果只靠视觉,这些问题很难回答。

因为视觉看到的是物体表面,而触觉感受到的是物理交互本身。对于接触密集型任务来说,触觉不是一个可有可无的补充,而是决定任务能不能稳定完成的关键。

过去也有一些工作把触觉加入机器人策略中,但很多方法只是把触觉当作额外输入。也就是说,模型看到图像,再读到触觉信号,然后直接输出动作。

这当然有帮助,但还不够。

因为真正稳定的操作,不只是“感知当前触觉”,还需要“预测未来触觉”,并且根据真实触觉和预测触觉之间的差异,快速调整动作。

这就是 OmniVTA 的核心出发点。

二、这篇论文做了什么?

简单来说,这篇论文主要做了两件事。

第一,作者构建了一个大规模视触觉操作数据集,叫 OmniViTac。

这个数据集包含 21,879 条操作轨迹,覆盖 86 个任务和 100 多个物体。数据里不仅有视觉信息,还有触觉信息和机器人动作信息,并且这些信息在时间上做了同步。

更重要的是,作者没有简单按照“任务名称”来组织数据,而是按照物理接触模式,把任务分成六大类:

擦拭 Wiping

剥皮 Peeling

切割 Cutting

抓取 Grasping

装配 Assembly

手内调整 Adjustment

这六类任务代表了不同的接触机制,比如法向力、剪切力、摩擦、滑动、对齐、插入、扭转等。

第二,作者提出了一个机器人操作框架,叫 OmniVTA

它的核心不是简单地“视觉 + 触觉 → 动作”,而是:

先根据当前视觉和触觉,预测未来短时间内的接触状态;

再根据预测的触觉状态生成动作;

执行过程中不断比较“预测触觉”和“真实触觉”;

如果发现真实接触状态偏离预期,就用高频触觉反馈快速修正动作。

可以把它理解为一个会“提前想象手感”、又会“根据手感临时调整动作”的机器人策略。

三、先看总览图:OmniVTA 的整体思路

352c6bcdff0870f04c56074ecbf5f6b8.jpg

Figure 1 是整篇论文的总览图,可以从左到右来看。

左边是 OmniViTac 数据集。它包含大量真实接触操作数据,里面有图像、触觉和动作轨迹。

中间是 OmniVTA 的方法框架。这里最关键的是一个 Visuo-Tactile World Model,也就是视触觉世界模型。它会根据当前和历史观察,预测未来的接触状态。

右边是机器人真实执行实验。论文展示了模型在真实机器人上的效果,说明这种“预测触觉 + 高频修正”的方式可以提升接触密集型任务的稳定性。

这张图里最值得注意的是中间部分:

模型不是直接从当前图像输出动作,而是会先生成未来的触觉 latent,也就是未来接触状态的压缩表示。然后策略会利用这些预测结果来生成动作。

同时,机器人执行动作时还有一个 reflexive controller,可以理解成“触觉反射控制器”。它会不断检查当前真实触觉和预测触觉是否一致。如果不一致,就给动作加一个修正量。

这和人类操作物体很像。

比如我们擦桌子时,如果手突然感觉抹布离开桌面了,就会下意识往下压一点;如果感觉太用力了,就会稍微放轻一点。这个修正不是慢慢思考出来的,而是快速的触觉反馈。

OmniVTA 也在模仿这种机制。

四、OmniViTac:为什么作者要先做一个大数据集?

b9c3c0bb1a85e1240de1a07c8c62936e.jpg

Figure 2 展示了 OmniViTac 数据集的整体设计。

这张图可以分成几个部分来看。

左边是数据采集平台。论文使用了两种采集方式:一种是真实机器人 xArm,另一种是 TacUMI 手持式采集设备。两者使用类似的末端夹爪和触觉传感器,这样可以减少不同采集方式之间的差异。

中间是六类视触觉操作模式,包括擦拭、剥皮、切割、抓取、装配和调整。

右上角是数据规模对比。OmniViTac 有 21,879 条轨迹,在视触觉操作数据集里规模比较大。

右下角是数据处理流程,包括时间戳对齐、可视化检查和人工验证。因为触觉信号频率比视觉高,如果不同模态之间时间对不齐,模型学到的就可能是错误的对应关系。比如图像里机器人还没碰到物体,但触觉里已经出现接触信号,这样训练出来的模型就会混乱。

所以这篇论文很强调“对齐”的重要性。

这也很好理解。触觉变化通常发生得很快,尤其是滑动、接触丢失、突然卡住这种情况。如果数据同步不准,模型就很难学到真正的接触动态。

五、六类接触任务:不是按名字分类,而是按物理机制分类

7692c1dbf80c53589b2c82580ee2e230.jpg

Figure 3 展示了数据集里的六类任务,每个任务都配有第三人称视角、末端执行器轨迹和对应的触觉图。

这张图很适合用来解释为什么触觉对机器人重要。

Assembly:装配

装配任务看起来像是“把一个东西插进去”,但真正难的是对齐和接触判断。

比如插 USB 或插接头时,视觉只能告诉机器人大概位置,但最后几毫米是否对齐,往往要靠触觉判断。如果插入时感觉到异常阻力,说明可能偏了;如果阻力变化变得稳定,可能说明已经进入正确位置。

Cutting:切割

切割任务主要依赖法向力,也就是向下压的力。

切黄瓜、香蕉、辣椒时,机器人需要知道有没有真正切进去,以及什么时候切断。如果只看图像,可能很难判断刀刃内部发生了什么。但触觉可以感受到阻力变化。切断的瞬间,力的变化会很明显。

Adjustment:手内调整

手内调整涉及滑动、旋转和重新定位。

比如夹住一个物体后,让它在夹爪中转到某个角度。这个过程中,触觉能帮助机器人判断物体有没有滑动、滑动方向是什么、是否已经到达稳定姿态。

Peeling:剥皮

剥皮需要持续保持工具和物体表面的接触。

如果刀离开表面,就剥不到皮;如果压得太深,又可能切到里面。这是一个非常典型的“视觉不够,必须靠触觉”的任务。

Wiping:擦拭

擦拭任务需要控制压力和摩擦。

太轻,擦不干净;太重,可能卡住或者损坏传感器。机器人必须持续感知接触是否稳定。

Grasping:抓取

抓取听起来很基础,但触觉依然很重要。

尤其是透明物体、易碎水果、形状复杂的物体,视觉判断可能不可靠。触觉可以告诉机器人是否真的夹住了、是否夹得太紧、有没有滑落风险。

这六类任务覆盖了接触密集型操作中很典型的物理过程。作者这样分类的好处是,模型不只是学“怎么擦一个花瓶”或者“怎么切一根黄瓜”,而是学不同接触模式背后的物理规律。

六、数据分析:触觉信号真的有结构吗?

ea5268e399face54283cdc6daeb02054.png

Figure 4 是数据集分析图,里面包含接触面积分布、力强度分布、任务分布、有效接触比例和触觉 latent 的 t-SNE 可视化。

这张图想说明一个关键问题:

OmniViTac 里的触觉信号不是杂乱无章的,而是和不同任务的物理接触模式高度相关。

比如装配、抓取、手内调整这类任务,通常接触面积比较小,更依赖局部、精细的触觉反馈。它们往往只需要指尖某个区域感受到接触变化。

而擦拭、剥皮、切割这类任务,接触面积更大,通常需要传感器表面更大范围参与接触。特别是擦拭和剥皮,会出现持续的摩擦和剪切力。

图里的 t-SNE 可视化也很有意思。不同任务的触觉特征在 latent space 里形成了比较清晰的聚类。擦拭和剥皮因为都涉及连续摩擦,所以分布比较接近;装配因为更依赖局部几何接触,所以形成了更独立的区域;抓取则比较分散,因为抓取本身包含很多不同物体和不同力模式。

这说明触觉信号确实携带了丰富的任务信息,而且这种信息和物理接触机制有关。

所以这篇论文不是简单地说“加触觉会更好”,而是进一步证明:触觉本身有结构,可以被建模,可以被预测,也可以用于控制。

七、OmniVTA 的核心:慢速规划 + 快速反射

67e99ece467afa204ded816586fdc175.png

Figure 5 展示了 OmniVTA 的整体系统结构。

这个系统可以理解成两个层次:

上层是 Slow Policy,频率较低,负责规划一段动作。

下层是 Fast Policy,频率更高,负责根据实时触觉反馈修正动作。

这和人类动作控制很像。

比如我们削黄瓜的时候,大脑可能决定“沿着黄瓜表面往前削”。这是一个较慢的计划。但在真正削的过程中,手会根据刀和黄瓜之间的接触不断微调角度和力度。这个调整非常快,并不需要每次都重新做完整规划。

OmniVTA 也是这样。

Slow Policy 主要包括两个部分:

第一个是 Visuo-Tactile World Model,用来预测未来触觉状态。

第二个是 Adaptive Visuo-Tactile Fusion Policy,用来融合视觉、触觉和机器人状态,并生成 action chunk。

Fast Policy 则是 Reflexive Latent Tactile Controller,简称 RLTC。它以 60Hz 的频率运行,根据当前真实触觉和预测触觉之间的差异输出修正动作。

最终执行的动作不是单纯来自上层规划,也不是单纯来自下层修正,而是两者的组合:

慢速策略给出主要动作方向;

快速控制器根据触觉反馈进行细粒度补偿。

这种设计特别适合接触密集型任务,因为接触变化往往很快。如果模型只依赖低频规划,等它发现接触已经偏了,可能已经来不及了。

八、第一步:TactileVAE,把复杂触觉压缩成可用表示

f1f9f23a239be96b135216bed88cbfb7.png

触觉传感器输出的信息通常很复杂。

以光学触觉传感器为例,它可以记录接触引起的表面形变。原始触觉图像分辨率可能比较高,而且频率也比视觉更高。如果直接把这些高维触觉数据输入策略模型,计算开销会很大,也不利于模型学习稳定的表示。

所以论文提出了 TactileVAE,用来把触觉信号压缩成低维 latent。

可以简单理解为:

原始触觉信号是一张很复杂的“手感地图”;

TactileVAE 把这张地图压缩成一个更小、更抽象的表示;

后面的 world model 和 policy 就不需要处理原始触觉图,而是处理这个压缩后的触觉表示。

Figure 6 中,TactileVAE 包含一个时空编码器和一个隐式解码器。

编码器负责把一段触觉变化压缩成 latent feature。

解码器负责根据 latent 和空间坐标,重建连续的触觉形变场。

这里比较有意思的是,作者没有把触觉当成普通图片来重建,而是把它看作一个连续的表面形变场。因为触觉传感器感受到的,本质上是接触导致的弹性表面形变,而不是普通 RGB 图像。

这样设计的好处是,模型能更自然地学习局部接触和连续形变。

九、第二步:Visuo-Tactile World Model,预测未来接触状态

ce19b8ee48f25522959954a88d810d40.png

这篇论文最核心的地方,是它把 world model 引入了视触觉操作。

这里的 world model 不是简单预测未来图像,而是重点预测未来的触觉状态。

为什么要预测未来触觉?

因为机器人在接触密集型操作中,真正关心的是:

如果我继续这样动,接下来会不会接触?

接触会不会变强?

会不会打滑?

是不是快要失去接触?

是不是会产生过大的力?

比如擦拭的时候,机器人当前可能还贴着物体,但如果继续沿着当前方向移动,下一秒可能会滑出表面。模型如果能提前预测未来触觉变化,就可以提前调整动作,而不是等失败发生后再补救。

论文里的 Visuo-Tactile World Model 采用双流结构

一条流建模视觉,一条流建模触觉。视觉 latent 和触觉 latent 分别进入对应的时空扩散 Transformer,但它们共享一个多模态条件,包括历史视觉、历史触觉和动作信息。

这相当于让模型同时学习:

视觉世界怎么变化;

触觉世界怎么变化;

动作如何影响视觉和触觉变化;

视觉和触觉之间如何互相对应。

不过在实际推理时,作者主要使用未来触觉预测,而不是未来视觉预测。原因也很好理解:当前图像已经提供了足够的全局空间信息,而触觉预测更直接反映未来接触动态。同时,生成未来视觉会增加计算开销,降低推理速度。

所以这篇论文真正关心的是:

让机器人提前“想象”未来的手感。

十、第三步:Adaptive Fusion,什么时候相信视觉,什么时候相信触觉?

fa8d58223abac5659984d8e7bad29487.png

视觉和触觉都重要,但它们的重要性不是固定的。

在机器人还没接触物体之前,触觉基本没有信息。这个时候更应该相信视觉,因为视觉可以告诉机器人物体在哪里。

但一旦进入接触阶段,触觉就变得非常关键。比如刀是否贴住表面、夹爪是否抓稳、插头是否对齐,这些都需要触觉判断。

所以 OmniVTA 设计了一个 Adaptive Visuo-Tactile Fusion Policy,也就是自适应视触觉融合策略。

它会根据预测的接触状态,动态调整视觉和触觉的权重。

论文里有一个很关键的模块,叫 LTD Encoder,Latent Tactile Differential Encoder。

它做的事情很直观:

拿当前触觉 latent;

拿 world model 预测的未来触觉 latent;

计算两者之间的关系和差异。

这个差异很重要。

如果预测的未来触觉和当前触觉差别很大,可能说明接触状态即将发生变化。比如将要接触、将要脱离、将要滑动、将要受力变大。

然后模型会基于这些信息预测未来接触概率,并通过 gating mechanism 动态决定视觉和触觉的权重。

可以这样理解:

还没碰到物体时,视觉权重大;

开始接触后,触觉权重上升;

接触状态变化明显时,触觉对动作生成的影响更大。

这比简单拼接视觉和触觉更合理。

简单拼接的问题是,模型自己要从一大堆特征里判断什么时候用视觉、什么时候用触觉。但 OmniVTA 显式加入了接触概率和 gating 机制,让融合过程更符合接触任务的规律。

十一、第四步:RLTC,让机器人有“触觉反射”

b56f02e9f23f303b7cb484446e7b35e0.png

在很多 diffusion policy 或 action chunking 方法里,模型会一次性生成一段未来动作,然后机器人按这段动作执行。

这种方式效率高,但问题是,它通常比较 open-loop。

也就是说,一旦动作开始执行,中间如果发生接触变化,比如物体突然移动、刀具偏离表面、夹爪压力变化,模型不一定能立刻修正。

OmniVTA 为了解决这个问题,加入了 RLTC,也就是 Reflexive Latent Tactile Controller。

它的作用可以理解成机器人的“触觉反射”。

RLTC 的输入包括:

当前真实触觉反馈;

world model 预测的触觉特征;

机器人最近的状态变化。

它会比较真实触觉和预测触觉之间的差异,然后输出一个细粒度修正动作。

比如模型原本预测应该保持稳定接触,但真实触觉突然变弱,说明可能快要离开表面。RLTC 就可以让机器人稍微压回去。

如果真实触觉突然变得过强,说明可能用力过大。RLTC 就可以让机器人减小压力,避免损坏传感器或物体。

这个模块以 60Hz 的频率运行,比慢速策略更快。因此它可以处理快速接触变化。

这也是 OmniVTA 和很多传统方法的关键区别:

它不只是“预测动作”,而是把预测和实时反馈结合起来,让机器人可以边做边修正。

十二、实验:OmniVTA 真的更好吗?

631900946052cd52559f5230bea30235.png

论文在真实机器人上评估了六类任务,包括擦拭、剥皮、切割、装配、抓取和调整。

评估重点有三个:

第一,物体多样性。也就是同一类任务中,换不同物体,模型是否还能成功。

第二,泛化能力。比如换不同高度,或者在切割任务里换一把没见过的刀。

第三,扰动鲁棒性。比如任务执行过程中突然把目标物体上下移动,打破当前接触状态,看模型能不能恢复。

论文比较了多种 baseline,包括 Diffusion Policy、加入触觉的 Diffusion Policy、KineDex、ForceMimic、RDP,以及去掉 RLTC 的 OmniVTA。

实验结果显示,OmniVTA 在六类任务中整体表现最好。

尤其是在接触强、扰动多的任务中,比如擦拭、剥皮、切割,OmniVTA 的优势更明显。

这说明它不是简单依赖视觉记住轨迹,而是真的利用触觉反馈来调节接触。

十三、实验结果怎么看?

bfd5a58d675aa74d37c880dc1dfb6dba.jpg

Figure 10 和 Table III 展示了真实机器人实验结果。

这里可以重点看几个结论。

首先,OmniVTA 在 object diversity 评估中表现最好。也就是说,在不同物体上,它比其他方法更稳定。

这说明模型不是只记住某一个物体的轨迹,而是学到了一些可迁移的接触规律。

其次,在 unseen height 评估中,很多 baseline 表现下降明显。因为物体高度变化后,原来学到的视觉-动作对应关系可能不再准确。

但 OmniVTA 依然表现较好,说明触觉预测和闭环修正让它对几何变化更鲁棒。

第三,在切割任务中,论文换了一把训练时没见过的小刀。OmniVTA 仍然能保持较好的性能。这说明它并不是简单记住“用某把刀怎么切”,而是利用接触反馈判断切割过程。

第四,在扰动实验中,OmniVTA 的闭环控制器作用非常明显。当物体突然移动、接触状态被打破时,RLTC 可以帮助机器人重新建立稳定接触。

这对真实机器人操作非常重要。因为真实环境不可能永远静止、完美、没有干扰。物体可能滑动,人可能碰到桌子,工具可能位置稍微偏移。如果机器人不能实时修正,就很容易失败。

十四、消融实验:到底是哪部分有用?

7a8c2a52a967efa86f7cffe957e50d08.png

论文还做了很多消融实验,用来回答一个问题:

OmniVTA 的提升到底来自哪里?

TactileVAE 有用吗?

aa6531243fe155aba4b81f491bb41baa.png

作者比较了不同触觉编码方式,发现带隐式解码器的 TactileVAE 重建效果最好。

这说明把触觉建模成连续形变场是有效的。它能更好地保留局部接触结构,而不是把触觉粗暴压缩成一个普通向量。

未来触觉预测有用吗?

63263af22b788d42f63a2f2b1142ba16.png

论文比较了多种触觉预测方式,OmniVTA 的 world model 在短期和长期预测上都更好。

这说明双流视触觉 world model 确实能学习视觉、动作和触觉之间的动态关系。

更重要的是,后续实验也说明,触觉预测越准确,策略成功率越高。如果触觉预测变差,模型对未来接触概率的判断也会变差,最终动作也更容易失败。

LTD 和 gating 有用吗?

3a11e16f75f26e465b107bb3cb685db6.png

作者逐步加入未来触觉预测、LTD Encoder 和 gating mechanism,成功率逐渐提升。

这说明不是“随便预测一点触觉”就够了。关键是要用合理的方式把预测触觉转化成策略信息。

LTD 让模型关注当前触觉和未来触觉之间的差异;gating 让模型根据接触状态动态调整视觉和触觉权重。

这两个模块共同帮助策略更好地理解“接下来接触会发生什么”。

RLTC 有用吗?

Figure 15 展示了扰动实验。

当接触被突然破坏时,OmniVTA 可以通过 RLTC 重新恢复接触。这说明 RLTC 不只是锦上添花,而是在真实接触环境中非常关键。

如果没有这个模块,模型执行 action chunk 时更像是在按计划走,一旦环境变化,恢复能力就弱。

而加上 RLTC 后,机器人可以根据实时触觉反馈快速修正。

十五、这篇论文最值得关注的点

我觉得这篇论文最重要的价值,不只是“用了触觉传感器”,而是它重新定义了触觉在机器人操作中的角色。

过去很多方法里,触觉只是一个额外 observation。

就像给模型多加了一个传感器,让它知道当前有没有碰到。

但 OmniVTA 进一步提出:

触觉不应该只是被动观察,而应该被预测、被比较、被用于闭环控制。

这就把触觉从“输入信息”变成了“动态模型的一部分”。

可以用一句话概括:

普通视触觉策略是: 看到 + 摸到 → 输出动作。

OmniVTA 是: 看到 + 摸到 → 预测接下来会摸到什么 → 执行动作 → 检查真实触觉是否符合预测 → 不符合就快速修正。

这个逻辑明显更接近人类操作物体的方式。

我们在操作物体时,也不是只根据当前一瞬间的触觉做反应,而是会形成某种预期。比如削皮时,我们预期刀应该持续贴着表面;插 USB 时,我们预期轻微阻力之后应该顺利进入;擦桌子时,我们预期抹布应该持续和桌面接触。

一旦真实手感和预期不一致,我们马上调整动作。

OmniVTA 就是在机器人系统里实现了类似机制。

十六、这篇论文和 world model 有什么关系?

现在很多机器人论文都在讲 world model,但不同论文里的 world model 含义不完全一样。

有些 world model 关注未来图像生成,希望模型预测执行某个动作后画面会变成什么样。

有些 world model 关注长时序任务规划,希望模型在脑中模拟未来很多步。

OmniVTA 的 world model 更偏向 contact dynamics model,也就是接触动态模型。

它不是重点生成一个漂亮的未来视频,而是重点预测未来触觉状态。

这点很重要。

因为在接触密集型操作里,未来图像不一定是最关键的。比如削皮时,画面变化可能很小,但触觉变化非常关键。机器人真正需要知道的是刀具和物体之间的接触是不是稳定、力是不是合适、有没有滑动。

所以 OmniVTA 的 world model 可以理解成:

不是让机器人“看见未来”,而是让机器人“预感未来的手感”。

这也是它和很多纯视觉 world model 的区别。

十七、这篇论文有什么局限?

当然,这篇论文也不是解决了所有问题。

首先,它主要使用的是平行夹爪和指尖触觉传感器,而不是复杂的五指灵巧手。平行夹爪的接触形式相对简单,如果迁移到灵巧手,触觉分布会更复杂,动作空间也会更高维。

其次,方法比较依赖高质量触觉传感器和稳定的时间同步。触觉数据频率高、变化快,如果传感器噪声大或者同步不准,world model 的预测可能会受影响。

第三,OmniVTA 的 world model 主要预测短期触觉变化,而不是长时序任务级别的世界模型。它更适合解决“接下来这段接触怎么变化”,而不是负责完整的高级任务规划。

第四,数据集虽然规模已经很大,但仍然集中在特定硬件和传感器配置上。未来如果要推广到更多机器人本体、更多传感器、更多家庭场景,还需要更大规模的数据和跨平台适配。

十八、对机器人学习有什么启发?

这篇论文给我的一个很重要的启发是:

未来的机器人操作模型,可能不能只追求更强的视觉理解,也不能只把触觉当作一个额外模态简单拼接进去。

真正有价值的是让模型理解不同模态在物理交互中的作用。

视觉适合提供全局空间信息,比如物体在哪里、目标在哪里、环境结构是什么。

触觉适合提供局部接触信息,比如有没有碰到、压力多大、有没有滑动、摩擦状态如何。

动作则连接视觉和触觉,决定接触状态如何随时间变化。

如果把视觉、触觉和动作放在一个动态模型里,机器人就不只是被动感知环境,而是可以预测自己动作带来的物理后果。

这对 contact-rich manipulation 非常关键。

尤其是未来如果要做灵巧手、全身人形机器人、家务机器人、工具使用机器人,触觉预测和高频触觉反馈可能会变得越来越重要。

因为越是接近真实世界,越会遇到视觉看不清、物体会滑动、接触状态不稳定的问题。

十九、总结

OmniVTA 这篇论文可以用一句话总结:

它让机器人不只是“看着操作”,而是能够“预测接触、感知偏差、快速修正”,从而更稳定地完成擦拭、剥皮、切割、装配、抓取和手内调整等接触密集型任务。

它的核心贡献包括:

构建了大规模视触觉操作数据集 OmniViTac;

把接触任务按照物理接触模式分成六大类;

提出了 TactileVAE,用于学习紧凑的触觉表示;

提出了 Visuo-Tactile World Model,用于预测未来触觉状态;

设计了自适应视触觉融合策略,根据接触状态动态调整视觉和触觉权重;

加入了 60Hz 的 RLTC 触觉反射控制器,实现高频闭环修正。

这篇论文最值得学习的地方,是它没有把触觉当成一个简单附加输入,而是把触觉放进了“预测—执行—反馈—修正”的闭环里。

对于机器人来说,真正困难的不是在静态画面里识别物体,而是在真实物理世界里稳定地和物体发生接触。

而 OmniVTA 走出的这一步,就是让机器人开始学会:

不只用眼睛看世界,也用“手感”理解世界。

来源:OmniVTA 让机器人学会预测“手感”并修正动作 | 具身研习社

声明:本文来自具身研习社,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/