ETH Zurich灵巧手仅凭本体感觉将转速提升3倍,告别视觉依赖
你是否曾思考过,为什么人们能够在行走的同时操作手机,而手指还能在口袋中准确地找到钥匙?这种不依赖视觉便能感知自身身体的能力,在科学上被称作本体感觉。它类似于一个嵌入在肌肉和关节中的陀螺仪,能够持续地提供四肢位置及运动状态的信息。
在机器人领域,实现机械手如人类般灵活地转笔或把玩魔方,一直以来都是极具挑战性的前沿课题。以往,顶尖的机械手大多依赖于“眼睛”——即外部摄像头与视觉算法——来追踪手中的物体。然而,这带来了诸多现实难题:手指的运动极易造成遮挡,光线条件的变化会影响追踪效果,而庞大的图像处理任务则会拖慢系统的反应速度。由此引出了一个核心问题:假如让机械手闭上眼睛,仅凭借其自身的“肌肉感”,是否能够完成精细灵巧的操作呢?
第一段:
你是否曾思考过,为什么人们能够在行走的同时操作手机,而手指还能在口袋中准确地找到钥匙?这种不依赖视觉便能感知自身身体位置的能力,在科学上被称作本体感觉。它类似于一个嵌入在肌肉与关节当中的陀螺仪,能够持续地提供有关四肢位置及其运动状态的信息。
第二段:
近日,来自苏黎世联邦理工学院(ETH Zurich)软体机器人实验室(Soft Robotics Laboratory)的最新研究"Learning Robust Dexterous In-Hand Manipulation from Joint Sensors with Proprioceptive Transformer",开发了一种名为本体感觉变换器(Proprioceptive Transformer,简称PT)的系统,成功让一只肌腱驱动的灵巧机械手,在没有任何外部视觉或触觉传感器提供辅助的情况下,仅凭借"关节的本能"便完成了连续旋转立方体的任务,其性能甚至比依赖高端视觉系统的方案还要高出数倍。
肌腱驱动的感知难题

在灵巧手技术领域,主流的设计方案主要分为两大类别,分别为刚性连杆驱动以及肌腱驱动。ORCA手所采用的便是后者,该手部装置具备17个自由度,借助电机对细钢丝绳的牵引来带动手指关节的运动。这种设计方案具有良好的柔顺性以及紧凑的结构,然而也由此带来了一个较为棘手的技术难题——传动不确定性。
该方法整体概览
由于钢丝绳的弹性拉伸、与护套之间产生的摩擦,以及关节回差等多重因素的影响,导致了电机端的转动角度与手指关节的真实角度之间存在着明显的非线性偏差。如果直接读取电机编码器的数据,这就如同只盯着汽车油门踏板的刻度来推测车速一般,在中低速行驶时或许还能够勉强使用,但一旦需要进行精细的动态操控,那么误差就会被急剧地放大。
为解决上述传动不确定性问题,研究团队在ORCA的16个手指关节内部直接集成了微型磁角度传感器(AS5600)。该传感器能够直接测量关节的真实转动角度,从而完全绕过了从电机到关节的整条传动链。这种直接关节传感的方式,构成了本体感觉变换器(PT)系统感知基础的底层,也为后续所展现出的一系列卓越性能奠定了基础。
02.
师生蒸馏方法实现了从“上帝视角”向“纯本体感知”的转变。
PT的训练过程遵循了经典的师生蒸馏范式。在NVIDIA Isaac Lab仿真环境当中,研究者首先训练了一位拥有"上帝视角"的教师策略。
这位教师策略借助PPO强化学习算法进行训练,其输入观测的维度多达81维,涵盖了无噪声条件下的关节位置及速度信息,以及立方体所具有的真实三维位置与四元数姿态。奖励函数被设定为角速度跟踪(可分解为幅值与方向两个方面)、位置跟踪以及多项平滑正则项的加权组合。其中,动作变化率惩罚对于后续迁移到真实硬件平台上实现平滑运动具有关键意义。通过在8192个并行环境中开展大规模训练,教师策略能够以极高的精度对立方体实施绕Z轴的持续旋转操控。

师生蒸馏流程
接下来轮到学生策略的训练环节。学生的感知能力被刻意加以限制:仅能够访问带有噪声的关节位置及速度的历史数据、目标指令,以及前一时刻的动作和位置指令。为了能够逼真地模拟真实传感器所具备的特性,关节位置被叠加了每一回合都会发生变化的偏置噪声以及高斯白噪声,速度方面也同样受到了逐步噪声的干扰。
学生策略需要仅凭借这些带有噪声的"模糊自我感知",来对教师策略的行为进行模仿。但单纯的模仿,也即行为克隆,往往并不足够,因为学生所要面对的是一个部分可观测的环境,它既无法看见物体,也无法感知手与物体之间微妙的接触力。为了让学生能够"学会想象",研究者设计了一个辅助任务,要求学生同时重建出无噪声的关节状态与立方体的实时位置。通过该辅助任务的重建损失与动作模仿损失进行联合优化,迫使Transformer编码器将物体动力学隐式地编码进本体感觉序列的特征表示之中。
03.
时间序列中的“触觉推理”
学生策略所依赖的‘大脑’,正是本体感觉变换器(PT)。该变换器的核心架构方面,选用了Transformer模型。
在与物体进行交互的过程中,关节所接收到的指令目标与其实际位置之间,会逐步形成某种特定的偏差模式。物体的尺寸越大,手指便会越早被物理阻挡;物体的质量越重,支撑手指被压弯的幅度也就越大。这些偏差模式并非瞬间产生的,而是在时间轴上逐步展开的动态信号。要准确解码出物体的尺寸、存在性,乃至其运动趋势,模型必须能够审视一段较长的观测历史。
Transformer所具备的自注意力机制天然地契合了这一需求。PT会接收过去10个时间步(约0.5秒)的关节数据,并将其与动作、指令上下文一同编码为12个token,随后送入至3层4头的Transformer编码器当中。相较于同等参数量的MLP或LSTM,Transformer能够灵活地关注到接触发生与脱离的关键时刻,从而在快速的状态变化过程中保持对物体运动状态的准确"脑补"。
定量的实验结果进一步证实了上述分析。在模拟环境当中,PT针对物体位置进行重建所得到的均方根误差(RMSE)仅为13.70 mm,而MLP以及LSTM的相应数值则分别为17.87 mm与15.64 mm,其中PT相较于MLP的降幅达到了23.4%。更为关键的是,上述误差远小于立方体自身的尺寸(55 mm),这意味着该策略能够建立起足够准确的内部表征,从而得以完成操控任务。
04.
实验结果惊艳:转速提升超3倍
真正的考验在于真实ORCA手上的实际表现。研究者运用两块不同尺寸(分别为55 mm与65 mm)的立方体开展了对比测试,所采用的评估指标涵盖了每分钟转数(RPM)、旋转精度(RA)、不掉落成功率(DFSR)以及掉落次数(DC)。
实验结果表明,运用直接关节传感技术的PT-Joint方案,在针对55 mm立方体开展测试时,其平均转速达到了11.83 RPM。该数值不仅相较于单纯依赖电机编码器的PT-Motor方案(9.33 RPM)有了显著提升,更是将仅通过本体感觉反馈进行训练的Proprio-PPO基线(3.83 RPM)远远甩在身后,整体转速提升了约3.1倍。

该策略在仿真环境当中用到了真实的物体姿态,而在实际部署时则借助类似DeXtreme的视觉姿态检测系统来提供目标状态。然而,视觉检测所存在的噪声以及延迟问题,导致其实际转速仅为3.08 RPM,尚不足PT-Joint方案的三分之一。换言之,PT通过关节序列所"脑补"得出的物体状态,相较于视觉姿态估计而言,反而更加可靠且更具实用价值。

当换用65 mm的大立方体时,PT-Joint策略并不需要进行任何重新训练,其转速依然能够达到11.33 RPM的高水平,而Extero-PPO策略则仅为4.83 RPM,这从而证明了该策略对物体尺寸具备良好的泛化能力。此外,研究还借助可视化手段,针对不同立方体尺寸下的关节指令与实际位置散点图进行了分析,清晰地展示了体积效应以及重量效应是如何被自然编码在关节跟踪误差之中的。该结果表明,在没有触觉皮肤的情况下,仅依靠关节传感器便实现了对物体存在以及尺寸的隐式检测。
05.
哪些设计真正起作用?
为了厘清各项技术创新对于最终性能的具体贡献,研究者开展了一系列消融实验,其中几项关键发现如下:
观测窗口的大小设定至关重要。当窗口从1步扩展至10步时,平均转速提升了31%。这一结果表明,Transformer需要足够长的历史信息,才能够有效地捕捉接触动力学当中的时序模式。
重建辅助损失的设置实属不可或缺。在去除重建头(即无侦察模式)之后,策略的性能出现了断崖式的下跌:物体持续旋转不掉落的成功率(DFSR)急剧降至35.0%,平均每次试验会掉落5次之多。这一结果印证了,辅助任务对于塑造富有意义的潜在空间具有至关重要的作用。如果没有对物体状态进行建模的任务作为驱动,那么Transformer便会退化为一个仅能进行盲目模仿的模块。
传感器类型的选取与架构设计之间的相互作用关系同样十分显著。PT-Joint策略在所有设置的观测窗口尺寸下,均维持了极高的旋转精度(RA)与不掉落成功率(DFSR)。与之形成对比的是,PT-Motor策略的这两项指标在小窗口尺寸条件下出现了明显的性能下滑。该现象表明,源自直接关节传感器的本体感觉信号具有更高的纯净度与可靠性,从而使得强化学习过程更容易收敛至稳健的解决方案。
来源:告别视觉依赖!ETH Zurich灵巧手仅凭“本体感觉”将转速提升3倍 | 机器人大讲堂