作者:Lingshu 出品:具身智能观察室
引言
基于扩散的视觉-语言-动作模型(Diffusion-based Vision-language-action Models)凭借流匹配(Flow Matching)生成连续动作分布的能力,已成为具身智能系统中实现跨模态感知与决策的核心范式。
然而,其多步去噪推理过程的高延迟严重制约了实时部署——在高速传送带抓取等延迟敏感场景中,动作决策的滞后性直接导致任务失败。现有加速策略或通过压缩推理pipeline、或通过模型蒸馏减少推理步数,但均未触及控制环路层面的本质矛盾:重规划阶段是否必须依赖完整推理路径以保障决策可靠性?
本文提出Realtime-VLA FLASH,首次将投机推理(Speculative Inference)范式引入流匹配dVLA,通过轻量草稿模型(Draft Model)生成候选动作块、结合主模型(Main Model)动作专家的并行验证机制、以及基于动作切换的阶段感知回退机制,在重规划阶段大幅减少全推理调用。
该框架在保障任务性能的同时,将推理延迟从58.0ms降至7.8ms,平均推理延迟降至19.1ms,实现3.04倍加速,为具身智能的实时应用提供了理论支撑与技术范式。

论文链接:https://arxiv.org/abs/2605.13778v1
GitHub链接:https://github.com/dexmal/realtime-vla-flash
一、研究现状与动机

当前,dVLA的效率优化主要沿两条技术路线展开:其一为推理流水线加速,通过模型小型化、层压缩、token剪枝、量化及内核级系统优化降低单次推理开销;其二为扩散/流匹配生成加速,通过蒸馏技术构建少步模型或直接训练单步模型以缩短去噪过程。
然而,前者仅优化单次推理成本,未深入质疑每次重规划(Replanning)是否均需调用完整路径;后者通常需额外训练或调整策略架构。
投机推理(Speculative Reasoning)在LLM与自回归VLA中已获验证,其核心机制是让轻量草稿模型提出候选动作序列,主模型并行验证以减少昂贵的动作解码步骤。但将该范式扩展至dVLA面临根本挑战:连续动作空间缺乏token级概率分布,多步去噪的串行特性阻碍并行验证,且无显式似然作为接受判据。
本文的关键洞察在于:流匹配(Flow Matching)的训练结构天然提供了验证所需的插值路径——给定草稿端点,可沿从高斯噪声到端点的线性路径构造中间状态,利用动作专家(Action Expert)在少量时间步上并行重建端点并开展一致性检查,从而以远低于完整去噪计算成本的方式完成验证。
二、Realtime-VLA FLASH框架

Realtime-VLA FLASH采用双路径推理架构:完整路径(Full Path)执行标准的图像编码、VLM Prefill与多步动作生成;快速路径(Flash Path)编码当前图像后跳过VLM Prefill,由轻量草稿模型生成候选动作块,再利用主模型Action Expert复用上一轮视觉KV Cache进行并行一致性验证。若验证未通过,系统回退至完整路径刷新上下文并修正轨迹。
1,草稿动作生成

2,多步并行验证



3,阶段感知回退

仅凭局部一致性验证不足以覆盖任务执行的所有风险阶段。在平滑运动阶段,观测变化平缓,动作草稿误差可被容忍;但在精细调整阶段(如夹爪状态切换),微小偏差会迅速累积放大,导致任务失败。
本文通过LIBERO-Spatial碗到盘子任务的轨迹对比直观展示了这一问题:无回退机制时,快速路径在最终放置阶段漂移至盘子边缘,导致碗未对齐;有回退机制时,系统在夹爪切换后回退至完整路径,成功完成任务。
阶段感知回退机制利用夹爪通道的离散语义表征:夹爪通道编码开(-1)与闭(1)两种模式,经标准化处理后,两种模式围绕零值分离,因此通过将标准化夹爪值在零处阈值化即可检测夹爪状态切换。
若候选动作块的任一验证分支中出现夹爪状态切换,系统将其视为进入精细调整阶段的信号,立即回退至完整路径重新生成更高质量的动作,避免在精度敏感阶段因误差累积导致任务失败。
此外,系统还引入周期性完整路径刷新(Periodic Full-path Refresh)机制,每轮快速路径后强制调用一次完整路径,以纠正长时间漂移。

从Roofline性能分析视角看,Image Encoder与VLM Prefill主要处于计算受限区域,其延迟响应通过消除冗余计算来降低——VLM Prefill自然地通过复用前轮KV Cache实现;而Action Denoise处于内存受限区域,每步去噪需反复读取Cache且无法跨步并行执行,导致计算资源闲置,这恰好为并行验证而非重复调用完整路径提供了动机。
三、实验结果
1,仿真评估(LIBERO)

在LIBERO的四个任务套件上,FLASH+Triton-将任务级平均推理延迟从Torch-no的58.0ms降至19.1ms,实现3.04倍推理加速;单动作推理延迟从5.0ms降至1.9ms(2.63倍性能提升),平均任务成功率仅下降0.3个百分点(93.8% vs 94.1%)。其中,快速路径的推理轮次仅需7.8ms,而完整路径的推理轮次为58.0ms。

在重规划轮次中,FLASH+Triton-有66.8%采用快速路径,且接受前缀覆盖了69.7%的重规划窗口。
2,消融实验(LIBERO-10)

仅依赖快速路径的基线任务成功率为58.4%,引入周期性完整路径刷新机制(PF=2)后,任务成功率提升至80.6%;进一步引入阶段感知回退机制(FB)后,任务成功率提升至84.6%,验证了两个组件的协同效应:周期性完整路径刷新(PF)用于纠正长时域漂移,阶段感知回退(FB)则在精度敏感阶段进行定向修正。
3,真实世界评估(传送带分拣)

在实时同步推理配置下,JAX-在中速(10m/min)传送带分拣任务中,玩具狗的分拣成功率仅20%,高速(13m/min)时完全失败;Triton-在高速条件下仅保留有限的分拣成功率;FLASH+Triton-在超高速(15m/min)环境下仍维持20%(玩具狗)和10%(梳子)的分拣成功率,是唯一在15m/min速度下实现非零成功率的方案。
失败归因分析显示,慢速基线方法的失效主要源于时序滞后动作块——机器人执行动作时,目标物体已偏离初始传送带分拣位置,导致夹爪到达时物体超出可达操作范围。
总结
Realtime-VLA FLASH首次将投机推理范式引入流匹配驱动的dVLA框架,通过三大核心创新——轻量草稿模型并行生成候选动作块、基于流匹配插值路径的多步并行一致性验证、以及夹爪切换驱动的阶段感知回退——构建了双路径推理运行时。该运行时以低成本的快速路径服务大部分重规划轮次,仅在验证失败或进入精细调整阶段时回退至完整路径。
实验表明,FLASH在LIBERO任务集上实现3.04倍推理加速,且仅造成0.3个百分点任务成功率损失;在真实传送带分拣场景中,是唯一在15m/min超高速下仍可完成抓取的方法,验证了投机推理对延迟敏感具身操控任务的实用价值。
然而,FLASH仍依赖启发式阈值(固定接受阈值与手动选取的验证时间步),缺乏轨迹自适应的验证策略。未来可探索上下文依赖的自适应验证规则、与实时分块方法的联合优化、以及面向边缘设备的低功耗部署,进一步拓展低延迟dVLA的应用边界。