作者:Marilyn Liu 出品:具身纪元
前段时间,一个令人惊讶的demo刷屏网络。
Sharpa North削苹果。一只手握削皮刀,一只手托住苹果,削完一条皮之后,手指配合把苹果原地旋转一个角度,继续削下一条。力控、触觉感知、手内精细操作,造就了一个完美的demo
可能削得比我还好一些。
年初,CES 2026,拉斯维加斯。我也亲眼见证了Sharpa的灵巧操作能力。Sharpa的展台前围满了人。
黑杰克的展台上,North一边轻松捻着,精准地从众多扑克牌中抽出一张,一边和观众打趣。 North正在组装风车——拿起细杆、插入底座、旋紧螺丝、逐片安装扇叶,连续三十多个步骤,全程没有人类介入。四天展会期间,它组装了超过300个完好无损的风车。这涉及改变物体形状的操作,难度又上了一个层级
这些demo已经站在了灵巧操作的天花板。但一个关键问题几乎没人追问:教会它做这些动作的数据,到底是怎么来的?
Sharpa的一些demo视频。
Sharpa最近发表了一篇新论文DexEMG,让人隐约意识到:支撑这些demo的,是一套针对数据采集的系统性解法——而这套解法,行业里几乎没人去细问过。
63个自由度,行业内解法的空白。
先看一组数字。
Sharpa North的上半身有63个活动自由度:两条7自由度机械臂,两只22自由度的Sharpa Wave灵巧手,再加颈部和躯干关节。要给这样一台机器人采集训练数据,操作员需要同时精确控制63个维度的运动。
这个难度什么概念?就如最近播客脑放电波邀请了Sharpa的朱雪洲播客提到,宇树G1是23个自由度,而控制Sharpa North的上半身,难度可能翻倍还不止。

Sharpa North自由度极高
如果说夹爪的pick and place随着更多的数据量和模型能力的提升,可以无限扩展,那么灵巧手的训练有个很大的问题是,在数据采集上,行业内还没有一个共识
我们曾经盘点过灵巧手数采的方法,有仿真、有遥操作也有Ego/灵巧手umi等人类数据采集。但其实没有一种方法,可以兼顾灵巧、规模化以及精度。灵巧手UMI能否复刻UMI的成功?灵巧手数据采集,正从仿真和数采厂走向真实世界
先说遥操作,它的精确度是最高的,因为从机器人操作端到部署,几乎不存在retargeting的问题,但是灵巧操作里最关键也最难采集数据的环节叫“手内操作”——物体已经在手中,靠手指配合完成旋转、翻转、重新调整握姿。这类动作人类做来几乎无意识,但通过遥操作来完成,成功率极低。
Sharpa团队在论文里给出了实测数据:纯遥操作完成手内旋转的总体成功率只有34%。换成乒乓球这类小物体,成功率掉到10%。
十次里只成一次。这还是经过训练的专业操作员。
纯仿真可以做到更精细的操作,我们看到的非常多的灵巧操作都是但是它存在着老生常谈的问题:sim to real gap。而且对于多个技能联合的任务,例如削苹果,需要工具使用、切削和手内旋转,在仿真中的训练就更加困难了。
Ego数据以及灵巧手手套等潜在的分布式采集方式,虽然可以让数据的多样性和规模都上去。但在采集到极其灵巧的数据上也会有瓶颈。
模型依赖大量高质量示教数据来训练,但数据采集环节遇到瓶颈,模型能力的天花板也就遇到了瓶颈。 可想而知,从灵巧硬件到真正的灵巧操作,在fancy的demo背后,Sharpa一定是在数据采集方面下了很多功夫。
外骨骼:多种路线并存
在Sharpa的论文中,我们看到了两种外骨骼路线,一个就是吸引我注意力的Sharpa联合上交的作品DexEMG,一个就是可能是让所有训灵巧操作的人都想得到的重装遥操设备。
跳过手,直接读肌肉
DexEMG是跳出我灵巧手数采的综述框架之外的一篇文章,在此之前,行业内不是没有尝试过用EMG的路径,不过只是停留在“从肌电信号还原手部姿态”或“生成控制指令”的阶段,本质上属于开环方法。

EMG-Controlled Non-Anthropomorphic Hand Teleoperation Using a Continuous Teleoperation Subspace 2019
DexEMG 的突破在于,将 EMG 真正引入到闭环遥操作系统中,实现了从“理解人”到“让人通过机器人与环境交互”的转变。
先介绍一下,什么是sEMG?当人类想要活动手指或手部时,小臂上的肌肉会产生高频的电生理活动。sEMG表面电肌信号,就成为了获取这一信息的有效介质。

图注:EMG手环
常见获取sEMG信号的工具就是臂环,通过直接贴合在人的前臂上,从皮肤表面捕捉这些神经肌肉产生的电信号(表面肌电信号,sEMG)
团队选择了8通道sEMG臂环,戴在前臂上,重量和运动手表差不多。8个电极贴着皮肤,采集前臂肌群的表面肌电信号。当操作员做出握拳、张开、旋转等动作时,不同肌群的激活模式各不相同,这些模式就是解码的信号源。
可以看两个直观的视频,遥操员可以通过腕带来抓工具,也可以做连续的黑板擦拭。
三个阶段,让肌电信号转化成灵巧手指令
但从8个通道的肌电信号映射到22个自由度的手部关节运动,会产生较大的gap,团队也找到了自己的解法,主要分为三个阶段:
阶段一:数据收集
建立人类内在“神经肌肉活动”与外在“手部运动”之间的精准映射关系。
操作员需要同时佩戴两套设备:一是可穿戴的多通道 sEMG 臂带,用来记录肌肉被激活时的电信号模式;二是高保真动作捕捉手套,用来提供真实的手部姿态和骨骼关键点。 两套设备同步工作,就是为了建立一组精准的配对:人类内在的神经肌肉活动,和外在的手部运动之间,到底是什么映射关系。
阶段二:模型训练
利用第一阶段收集到的配对数据,训练 EMG2Pose 神经网络模型。
拿到配对数据之后,训练EMG2Pose神经网络,让它学会直接从原始sEMG信号流中,预测出连续的手部姿态。
这里有一个关键的设计选择:训练目标不是预测绝对关节角度,而是预测角速度(velocity-based)。
为什么?
想象一下,如果直接预测绝对角度,信号强度就等于弯曲程度。但当操作员死死捏住一个物体不动时,肌肉依然在强烈发力,系统会误以为手指还要继续往里弯,灵巧手就失控了。
换成预测速度就不一样。只要操作员的意图是"静止",预测出的速度就是0,不管肌肉有多用力。还有一个附带好处是sEMG信号极其敏感,操作员重新穿戴、出汗、运动导致臂环轻微滑动,都会让绝对信号发生偏移。但预测速度天然对这种位移不敏感——它只看信号的变化量,不看绝对水平。
模型输出速度之后怎么让手动起来?一个简单的迭代公式:θt = θt-1 + θ̇t。当前角度等于上一时刻的角度加上当前预测的速度。这就意味着,系统只需要知道你“现在想往哪个方向、以多快的速度改变手势”,这种关注相对运动趋势的方法,不仅能有效抵抗个体的信号噪音,还能确保在不同的精细操作任务之间实现更加平滑的过渡。

DexEMG系统概览
阶段三:实时遥操,
将训练好的系统投入实际使用,实现对多指灵巧手的低延迟实时控制。
在真正的部署应用阶段,操作员可以彻底摘掉笨重的动作捕捉手套,只需依赖轻便的 sEMG 臂带和空间追踪设备即可遥操作Sharpa Wave。
系统会在一个不断滑动的窗口(sliding window)内接收肌电信号输入,执行在线推理,并生成预测关节角度的“动作块(action chunks)”。通过执行每个动作块的初始帧并不断向前推进滑动窗口,系统就能实现平滑且连续的姿态估计。
这种轻量级的设置彻底消除了对外置摄像头的依赖,让操作员可以在没有限制、也不怕视觉被遮挡的工作空间中进行极其直观的遥操作。
效果怎么样
姿态估计的精度超出预期。基础抓取任务中平均误差仅 0.09 rad,即便是手内旋转这种动作耦合密集的场景,误差也控制在 0.15 rad。
泛化是更关键的指标。五类物体形状(微小件、圆柱、球体、不规则件、可变形体)的在训物成功率 76%;换成从未见过的新物体依然有 66%。这说明模型学到的不是特定物体的肌肉模式,而是通用的发力意图。
加入杂乱背景后成功率降至 56%,论文指出主要是手臂接近规划变难,而非肌电解码本身退化(球体这类容错高的物体在杂乱环境下仍保持 80%)。
执行长周期复杂任务的能力为了测试系统是否能在真实应用中长时间稳定工作,实验选择了“桌面打包”和“擦拭”两个需要抓取、运输和持续多点接触转换的长周期任务:
一次性成功率
:打包任务为 60%,而要求极高的擦拭任务为 40%(擦拭需要持续的接触力,微小的姿态漂移都可能导致抹布滑落)。
允许重试的成功率
:当允许操作员在失败后重新尝试抓取时,打包任务的成功率飙升至80%,擦拭任务升至70%。

DexEMG的优势在哪里,解决了什么问题?
一个是它让遥操作更加轻便,不需要携带沉重的外骨骼;
而另外一点是相对于轻便的视觉方案,它又从根本上解决了遮挡的优势。当手指包裹住物体时,摄像头看不到手指。而灵巧操作恰恰充满了这类场景:抓紧杯子、握住工具、手内旋转物体,手指大部分时间都被遮挡。
相比于mocap手套,它又是极其低成本的。
但EMG路线又是非常难的,如何从肌电信号转为末端的操作信号,其实需要比较强的retargeting算法。Sharpa Wave的22自由度灵巧手,极其类人,其实大大降低了retargeting的难度
但在我心中,这篇文章的意义可能并不在于此。读取肌肉信号,是一种尚未被挖掘完的获取操作信息的渠道,同时它也有可能解析出触觉、力觉的信息。延展到更精细的灵巧操作上。
我们可以继续期待这个路线的发展。
外骨骼 + AI接管:灵巧手遥操作界的爱马仕

Sharpa在削苹果demo的论文中,很慷慨地披露了遥操作的细节。这是一套重装备方案,保真度极高。
Sharpa遥操作体系概览
操作员穿戴一整套设备:上半身外骨骼追踪手臂运动,一对外骨骼手套追踪手指关节,手指触碰物体时手套还会提供振动反馈,这一点设计让数采员在遥操作中不会有无从使力的感觉。
VR头显提供机器人视角的立体视觉,关节力矩和指尖触觉数据以可视化叠加层的形式投射在VR画面中。为了防止干扰遥操作员的操作,腕部相机的视频流被隐去。
操作员能看到机器人看到的、感受到机器人触碰到的,每一个运动都被精确捕捉。但即便装备到这种程度,再牛的遥操作员也无法完成极其精细的操作。手内操作太难了。
操作员通过外骨骼手套来控制机器人手指做精细旋转,成功率还是只有34%。
Sharpa的解法叫IMCopilot——一组用强化学习在仿真环境中预训练好的手内操作原子技能,主要包含两个部分,一个是稳定抓握,在外部扰动下保持物体不掉落,一个是手内旋转,围绕指定轴旋转手中物体。
这个策略是仿真中用PPO算法加师生蒸馏来训练的。
教师策略可以接触到物体质量、摩擦系数、质心偏移等特权信息,学生策略则只用可观测的本体感觉和指尖接触力来复现教师行为。
域随机化覆盖了物体尺寸、质量、摩擦、重力方向和PD控制器增益,确保策略能零样本迁移到真实硬件。这个设计背后的逻辑是:教师在仿真里靠特权信息学会了最优策略,学生通过模仿教师的行为,被迫学会在不知道物理参数的情况下完成同样的任务。而这恰好是真实机器人的处境,不知道接触物体的真实参数,在真实场景中摸索干活。 IMCopilot在采集阶段和执行阶段扮演了两个不同的角色。
采集时,它是操作员的「外挂」。
操作员负责手臂的大幅度运动——伸手够物体、调整位置、控制削皮刀的进给方向。当遇到手内旋转环节时,操作员踩下脚踏板,IMCopilot接管手指控制,自动完成旋转动作。踩完松开,控制权交还操作员。这个人机协作方案的效果立竿见影:手内旋转的总体成功率从34%提升到89%。乒乓球从10%升到83%,苹果从27%升到90%。
执行时,它是VLA的「下位机」。
训练好的MoDE-VLA模型在推理时输出动作向量,其中包含一个标量触发信号。信号超过阈值时,IMCopilot自动激活执行手内旋转。
VLA负责全局规划和视觉语言理解,IMCopilot负责底层手指协调。这个分层架构和人类的运动控制系统有结构上的相似性——大脑皮层做决策,脊髓和小脑协调精细运动。 除了以上两种遥操作路线,其实Sharpa还提供了动捕手套的遥操作方式。著名的机器人大V Scott还在现场体验过。为了方便开发者,Sharpa还开源了其Sharpa Manus SDK,给 Manus MetaGloves Pro 做手部追踪和动作重定向。

Sharpa开源manus glove
除了遥操作路线,Sharpa在仿真和人类数据上的推进,在之前的文章中或多或少有过提及。
仿真
遥操作下的灵巧手数据采集,很容易遇到灵巧操作的瓶颈,厉害于削苹果的demo,遥操作员还需要借助一个仿真模块来完成精细操作。仿真确实是灵巧操作训练中不可不谈的一环。
很多任务在真实环境里采集的成本极高,且物理上难以次次复现。同样一个in-hand rotation,操作员每次执行的细节都不一样,失败轨迹更是难以系统性收集。仿真便有这样的优势。
但灵巧手仿真有一个长期悬而未决的问题:sim-to-real gap,尤其是触觉。
真实的视觉触觉传感器(比如Sharpa指尖上的那颗)拍到的图像非常复杂,存在弹性体变形、内部反射、光散射,各种光学噪声混在一起。
传统的仿真方法要么用简单的深度缓冲来模拟,物理真实性很差,要么用有限元方法(FEM)去硬算,精度高但计算量大到无法支撑大规模RL训练。
Tacmap试图用一张统一的几何形变深度图,把仿真和真实两端的触觉信号翻译成同一种接触几何语言,从而实现零样本 Sim-to-real 迁移。绕过复杂的光学现象了,直接把仿真和真实都统一到一个穿透深度图的几何空间里。

除此之外,Sharpa还开源了其在 GitHub 上的sharpa-tacmap官方代码仓库,将这套高保真触觉传感器无缝集成到了主流的 Isaac Lab 仿真环境中。
开源内容不仅包含了TacMap传感器的运行时核心代码与环境配置示例,还提供了一套端到端的按压测试与可视化脚本。 开发者可以直接在虚拟环境中对不同形状的物体进行触觉交互测试,实时可视化形变图(Deform Map)、接触力和接触位置,并一键导出仿真生成的触觉数据用于后续分析。
人类数据
年初英伟达EgoScale项目所用的灵巧手正是Sharpa Wave。正是因为Sharpa Wave拥有22个极致类人的自由度,人类数据才得以充分发挥价值。
20,854小时的标注人类第一人称操作视频,覆盖9,869个场景、6,015个任务、43,237个物体

图注:EgoScale数据集:20,854小时、9,869场景、6,015任务、43,237物体
在第一阶段用大规模人类视频做flow-based VLA预训练,第二阶段用少量human-robot play data做mid-training对齐,团队把人类动作先验迁移到Sharpa Wave上,也证明了人类视频作为预训练阶段的燃料的价值。
在Sharpa Wave 22自由度灵巧机器人手上,预训练比无预训练基线成功率提升54%,且支持单样本任务适应。
举一个最具挑战性的注射器液体转移的结果。这是一个长时程多步骤任务,需要精确抓取注射器、吸取液体、转移到目标容器。无预训练和仅中间训练的成功率都是 0.00;仅人类预训练为 0.17;加上中间训练后跃升至 0.70。
Sharpa Wave 与人手高度同构的 22 自由度设计,让人类视频中提取的 21 个手部关键点可以直接映射到 Sharpa 的关节空间,无需复杂的翻译层。
多种路线背后,Sharpa其实是在认真解决工具链的问题
Sharpa在一系列研究上展现出它在灵巧操作数据采集上的细致思考。
EMG路线极致轻量,一个臂环就能工作。操作员可以在正常环境中自然地做各种操作,采集门槛低,适合大批量、长时间的数据场景。
外骨骼+共享自主路线走的是高保真方向,重在质量。力觉、触觉、立体视觉全覆盖,IMCopilot解决了最难的手内操作环节,适合采集削苹果这类需要持续力控和手指协调的高难度任务数据。
同时,Sharpa还把灵巧操作在仿真中的上限提升,做了较好的触觉仿真的基础设施 人类数据上,还与英伟达一道证明了,人类数据作为预训练数据的可行性。 能把这些路线都走通,背后是三个环节的第一手认知的相互作用:
懂模型,才知道什么样的硬件以及生态适合模型,什么样的数据是适宜模型训练的懂硬件,才知道数采工具该怎么设计,才知道如何让算法部署到真机上懂数采,才知道只有硬件本体越接近人,才能借用这个世界上最广泛的构型去收集数据
灵巧操作领域还有大量工作没做完。 但能同时在本体、工具链、模型三个维度持续投入的玩家,在行业里寥寥无几。Sharpa是其中最全栈的一个。