中科院与南京大学及Dexmal推出Realtime-VLA FLASH，机器人操控实现毫秒级

作者:Lingshu 出品:具身智能观察室

引言

基于扩散的视觉-语言-动作模型（Diffusion-based Vision-language-action Models）凭借流匹配（Flow Matching）生成连续动作分布的能力，已成为具身智能系统中实现跨模态感知与决策的核心范式。

然而，其多步去噪推理过程的高延迟严重制约了实时部署——在高速传送带抓取等延迟敏感场景中，动作决策的滞后性直接导致任务失败。现有加速策略或通过压缩推理pipeline、或通过模型蒸馏减少推理步数，但均未触及控制环路层面的本质矛盾：重规划阶段是否必须依赖完整推理路径以保障决策可靠性？

本文提出Realtime-VLA FLASH，首次将投机推理（Speculative Inference）范式引入流匹配dVLA，通过轻量草稿模型（Draft Model）生成候选动作块、结合主模型（Main Model）动作专家的并行验证机制、以及基于动作切换的阶段感知回退机制，在重规划阶段大幅减少全推理调用。

该框架在保障任务性能的同时，将推理延迟从58.0ms降至7.8ms，平均推理延迟降至19.1ms，实现3.04倍加速，为具身智能的实时应用提供了理论支撑与技术范式。

论文链接：https://arxiv.org/abs/2605.13778v1

GitHub链接：https://github.com/dexmal/realtime-vla-flash

一、研究现状与动机

当前，dVLA的效率优化主要沿两条技术路线展开：其一为推理流水线加速，通过模型小型化、层压缩、token剪枝、量化及内核级系统优化降低单次推理开销；其二为扩散/流匹配生成加速，通过蒸馏技术构建少步模型或直接训练单步模型以缩短去噪过程。

然而，前者仅优化单次推理成本，未深入质疑每次重规划（Replanning）是否均需调用完整路径；后者通常需额外训练或调整策略架构。

投机推理（Speculative Reasoning）在LLM与自回归VLA中已获验证，其核心机制是让轻量草稿模型提出候选动作序列，主模型并行验证以减少昂贵的动作解码步骤。但将该范式扩展至dVLA面临根本挑战：连续动作空间缺乏token级概率分布，多步去噪的串行特性阻碍并行验证，且无显式似然作为接受判据。

本文的关键洞察在于：流匹配（Flow Matching）的训练结构天然提供了验证所需的插值路径——给定草稿端点，可沿从高斯噪声到端点的线性路径构造中间状态，利用动作专家（Action Expert）在少量时间步上并行重建端点并开展一致性检查，从而以远低于完整去噪计算成本的方式完成验证。

二、Realtime-VLA FLASH框架

Realtime-VLA FLASH采用双路径推理架构：完整路径（Full Path）执行标准的图像编码、VLM Prefill与多步动作生成；快速路径（Flash Path）编码当前图像后跳过VLM Prefill，由轻量草稿模型生成候选动作块，再利用主模型Action Expert复用上一轮视觉KV Cache进行并行一致性验证。若验证未通过，系统回退至完整路径刷新上下文并修正轨迹。

1，草稿动作生成

2，多步并行验证

3，阶段感知回退

仅凭局部一致性验证不足以覆盖任务执行的所有风险阶段。在平滑运动阶段，观测变化平缓，动作草稿误差可被容忍；但在精细调整阶段（如夹爪状态切换），微小偏差会迅速累积放大，导致任务失败。

本文通过LIBERO-Spatial碗到盘子任务的轨迹对比直观展示了这一问题：无回退机制时，快速路径在最终放置阶段漂移至盘子边缘，导致碗未对齐；有回退机制时，系统在夹爪切换后回退至完整路径，成功完成任务。

阶段感知回退机制利用夹爪通道的离散语义表征：夹爪通道编码开（-1）与闭（1）两种模式，经标准化处理后，两种模式围绕零值分离，因此通过将标准化夹爪值在零处阈值化即可检测夹爪状态切换。

若候选动作块的任一验证分支中出现夹爪状态切换，系统将其视为进入精细调整阶段的信号，立即回退至完整路径重新生成更高质量的动作，避免在精度敏感阶段因误差累积导致任务失败。

此外，系统还引入周期性完整路径刷新（Periodic Full-path Refresh）机制，每轮快速路径后强制调用一次完整路径，以纠正长时间漂移。

从Roofline性能分析视角看，Image Encoder与VLM Prefill主要处于计算受限区域，其延迟响应通过消除冗余计算来降低——VLM Prefill自然地通过复用前轮KV Cache实现；而Action Denoise处于内存受限区域，每步去噪需反复读取Cache且无法跨步并行执行，导致计算资源闲置，这恰好为并行验证而非重复调用完整路径提供了动机。

三、实验结果

1，仿真评估（LIBERO）

在LIBERO的四个任务套件上，FLASH+Triton-将任务级平均推理延迟从Torch-no的58.0ms降至19.1ms，实现3.04倍推理加速;单动作推理延迟从5.0ms降至1.9ms（2.63倍性能提升），平均任务成功率仅下降0.3个百分点（93.8% vs 94.1%）。其中，快速路径的推理轮次仅需7.8ms，而完整路径的推理轮次为58.0ms。

在重规划轮次中，FLASH+Triton-有66.8%采用快速路径，且接受前缀覆盖了69.7%的重规划窗口。

2，消融实验（LIBERO-10）

仅依赖快速路径的基线任务成功率为58.4%，引入周期性完整路径刷新机制（PF=2）后，任务成功率提升至80.6%；进一步引入阶段感知回退机制（FB）后，任务成功率提升至84.6%，验证了两个组件的协同效应：周期性完整路径刷新（PF）用于纠正长时域漂移，阶段感知回退（FB）则在精度敏感阶段进行定向修正。

3，真实世界评估（传送带分拣）

在实时同步推理配置下，JAX-在中速（10m/min）传送带分拣任务中，玩具狗的分拣成功率仅20%，高速（13m/min）时完全失败;Triton-在高速条件下仅保留有限的分拣成功率;FLASH+Triton-在超高速（15m/min）环境下仍维持20%（玩具狗）和10%（梳子）的分拣成功率，是唯一在15m/min速度下实现非零成功率的方案。

失败归因分析显示，慢速基线方法的失效主要源于时序滞后动作块——机器人执行动作时，目标物体已偏离初始传送带分拣位置，导致夹爪到达时物体超出可达操作范围。

总结

Realtime-VLA FLASH首次将投机推理范式引入流匹配驱动的dVLA框架，通过三大核心创新——轻量草稿模型并行生成候选动作块、基于流匹配插值路径的多步并行一致性验证、以及夹爪切换驱动的阶段感知回退——构建了双路径推理运行时。该运行时以低成本的快速路径服务大部分重规划轮次，仅在验证失败或进入精细调整阶段时回退至完整路径。

实验表明，FLASH在LIBERO任务集上实现3.04倍推理加速，且仅造成0.3个百分点任务成功率损失；在真实传送带分拣场景中，是唯一在15m/min超高速下仍可完成抓取的方法，验证了投机推理对延迟敏感具身操控任务的实用价值。

然而，FLASH仍依赖启发式阈值（固定接受阈值与手动选取的验证时间步），缺乏轨迹自适应的验证策略。未来可探索上下文依赖的自适应验证规则、与实时分块方法的联合优化、以及面向边缘设备的低功耗部署，进一步拓展低延迟dVLA的应用边界。

来源：中科院联合南大与Dexmal推出Realtime-VLA FLASH，机器人操控迈入毫秒级 | 具身研习社

通知

尊敬的用户

user

资讯

中科院与南京大学及Dexmal推出Realtime-VLA FLASH，机器人操控实现毫秒级

中科院与南京大学及Dexmal推出Realtime-VLA FLASH，机器人操控实现毫秒级

相关图文

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

手机成为大模型竞争新赛场 AI超级载体利好哪些硬件环节

周末要闻 | 国常会要求加快新一代通信网和算力网建设

白林松：当世界聚焦“规模化创新”，创意科技正把AI带入物理世界

中国第二届“绿色光疗·孝爱同行”健康发展大会暨康企集团七周年AI健康公益盛典圆满落幕

30万内智驾SUV横评：四款车功能体验落差谁最小？

碳达峰行动方案正式落地：数据中心与AI基建纳入控碳版图

MLCC涨价潮下的华强北众生相：结构性紧缺下渠道躁动商户喜忧分化

毕业季｜上科大校长：AI时代如何看待“我”与“我们”的关系

业绩暴增1810%却换来股价暴跌，光伏踩过的坑AI能否避开？

两家大模型公司发布内部信：智谱创始人提出“摸高计划”，MiniMax创始人宣布暂停自己薪酬

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

中科院与南京大学及Dexmal推出Realtime-VLA FLASH，机器人操控实现毫秒级

中科院与南京大学及Dexmal推出Realtime-VLA FLASH，机器人操控实现毫秒级

相关图文

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

手机成为大模型竞争新赛场 AI超级载体利好哪些硬件环节

周末要闻 | 国常会要求加快新一代通信网和算力网建设

白林松：当世界聚焦“规模化创新”，创意科技正把AI带入物理世界

中国第二届“绿色光疗·孝爱同行”健康发展大会暨康企集团七周年AI健康公益盛典圆满落幕

30万内智驾SUV横评：四款车功能体验落差谁最小？

碳达峰行动方案正式落地：数据中心与AI基建纳入控碳版图

MLCC涨价潮下的华强北众生相：结构性紧缺下渠道躁动 商户喜忧分化

毕业季｜上科大校长：AI时代如何看待“我”与“我们”的关系

业绩暴增1810%却换来股价暴跌，光伏踩过的坑AI能否避开？

两家大模型公司发布内部信：智谱创始人提出“摸高计划”，MiniMax创始人宣布暂停自己薪酬

推荐专栏

爱力方

机器人大讲堂

下一篇

MLCC涨价潮下的华强北众生相：结构性紧缺下渠道躁动商户喜忧分化