北航联合团队提出RoboSafe，保障具身智能体物理世界安全行动

2026年06月17日 19:51

本文共计6418个字，预计阅读时长22分钟。

来源/具身研习社责编/MoRanShiguang 墨染时光

随着大模型技术开始深度应用于操控机械臂以及家用机器人等实体设备，‘安全’这一概念的内涵也随之发生了根本性的演变。

过去，当一个大语言模型生成了包含风险或不当信息的内容时，其产生的风险主要停留在文本层面；相比之下，如果一个机器人错误地执行了带有风险的操作指令，那么危险的后果将直接在物理世界中发生，例如打碎物品、损坏设备，甚至造成人身伤害。

更为棘手的是，指令所蕴含的危险性往往不会直接显现在文字表面，而是与智能体的执行情境以及运行状态紧密相关。

具身智能体的安全风险难以通过一条简单的提示指令来消除。这是由于机器人所处的环境是动态的，其执行的动作具有连续性，并且执行上下文也会不断变化，因此许多潜在的安全隐患都具有隐式特征。

针对这一问题，来自北航、360 AI安全实验室、牛津大学、北京大学等机构的联合研究团队提出了RoboSafe框架，以弥补现有防御方法在识别隐式风险方面的不足。该研究工作成功荣获了ICLR 2026 ESR 研讨会杰出论文奖（Outstanding Paper Award，CCF-A）。

具身智能体所面临的安全挑战，其复杂性远远超越了简单地拒绝恶意指令这一层面。

研究团队指出，当前为具身智能体提供的安全防护措施，主要采用了两类技术路径。其中一种路径是向大语言模型的输入提示词中嵌入安全约束指令，另一种则是预先定义一套显式的规则库，用以过滤和阻断危险动作。在应对“显式危险指令”时，上述两类方法能够发挥一定的作用。这是因为，诸如“打碎杯子”之类的指令，其背后所隐含的风险是显而易见的，因此比较容易被系统识别与拦截。

第一种风险类型即是情境风险。执行相同的动作在不同环境之下，其安全属性会呈现出完全不同的状态。例如，执行“开启微波炉”这一动作，其安全性会直接取决于微波炉内部所容纳的物品：反之如果其中所容纳的仅为普通食物，那么该动作即是一个安全的动作；反之如果其中存在金属餐具，那么该动作便是一个危险的动作。

第二种风险类型则是时序风险：尽管每一个独立的动作在执行时都符合安全标准，但当这些动作按照特定的时序组合在一起时，便可能产生潜在的危险。以一个典型的场景为例，当智能体执行了开启炉灶的操作之后，未能及时返回关闭，而是继续执行其他任务，这种长时间的持续运行状态便会引发炉灶过热，进而导致火灾事故的发生。

RoboSafe：让机器人行动前多一道安全护栏

RoboSafe为具身智能体构建起了一层运行时安全护栏，其核心在于论文所提出的“可执行安全逻辑”。

简而言之，RoboSafe将安全判断过程转化为具备可执行性与可验证性的逻辑代码。在具体运行过程中，系统会借助代码逻辑来评估此类问题：当前执行的动作是否会在所处环境中造成破坏？在此之前是否已经触发过某个危险设备？

一旦系统检测到潜在风险，RoboSafe便会立刻启动明确的安全干预：阻止当前动作的执行，或者指示系统重新规划并生成更安全的执行序列。

前瞻视角：识别存在于当前运行环境之中所潜藏的情境危险

其首个模块被称为前向预测推理。该模块的核心关注点在于智能体即将执行的下一步动作。例如，当智能体规划执行如下指令时：将叉子置入微波炉内。

此处的危险不仅源自动作本身，同时还源自所处的情境上下文：涉及动作的目标对象、所处位置以及当前状态等要素。

RoboSafe会把当前的视觉场景、任务指令以及智能体的运行状态结合起来，从长期安全记忆库中提取相关的安全知识，进而构建出专门适用于当前情境的可执行安全逻辑。若该逻辑判定即将执行的动作可能引发风险，系统便会立即介入并阻止该动作。

核心关键点在于，安全判断机制并非简单地看到微波炉就立即拒绝执行任务，而是要深入理解“将叉子置于微波炉内部”这一动作组合在当前特定场景下所构成的潜在危险。

向后看：从动作序列中分析正在累积的时序风险

RoboSafe的第二个核心模块，即回顾性分析，其核心关注点在于智能体在执行多个动作之后所形成的累计后果。时序风险的典型特征在于，其危险性并非源于任何单一的动作本身，而是源于这些动作按特定顺序组合执行时所产生的累积效应。以一个典型的家庭服务场景为例，智能体在完成开启炉灶的动作之后，由于任务调度或上下文切换的原因，并未及时返回关闭，而是转而执行其他任务。这种长时间的持续开启状态，会使得炉灶不断积聚热量，最终可能引发过热乃至火灾事故。因此，回顾性分析模块会对智能体的完整动作序列进行复盘，旨在识别这种随着时间推移而逐渐显现、仅通过检查单一动作难以发现的潜在危险。

RoboSafe的第二个模块被命名为后向反思推理。其核心功能在于审视与分析已经发生的事件序列，旨在从执行历史中识别出潜在的、随时间累积的风险。

物理风险往往并非瞬间爆发，而是在一系列连续动作中逐步累积形成的。例如，智能体首先执行了打开炉灶的动作，随后转向其他任务，由于未能及时返回关闭，导致炉灶持续开启状态，从而逐渐积累风险。

RoboSafe构建并维护着一个短期安全记忆库，专门用于记录当前任务中最近执行的动作序列，其中系统会持续分析这些动作的组合是否违反了时序安全逻辑。

当系统检测到必要的安全动作尚未执行时，它并不会简单地终止当前任务，而是会触发重新规划机制，将所需的安全纠正动作有机地插入到原有的执行计划之中。

例如，通过持续监测发现炉灶已经开启过久的情况，系统可以即时触发并执行相应的纠正动作——即“关闭炉灶”，在完成这一安全干预之后，随后再重新接入到原定的任务流中，以确保整体执行的安全与连贯。

这使得RoboSafe不仅仅是一个安全拦截器，更通过持续监控与回溯分析执行轨迹，具备了监督员般的反思与干预能力。

实验评估结果：危险动作识别与任务安全保障
针对该实验评估部分，研究工作对RoboSafe框架在不同威胁场景下的性能进行了测试，其中重点考察了那些可能危害机器人自身或人类安全的危险动作。实验结果表明，该框架能够有效地减少不安全行为的产生，同时并不会对完成正常任务的操作序列造成过度的限制与约束。

研究团队在AI2-THOR这一仿真环境中，对多种多模态具身智能体开展了实验研究，并借助SafeAgentBench这一基准平台，对其实施了全面的评估工作。

实验结果表明，在情境风险任务场景下，原始智能体对于危险行为几乎不实施拒绝。而在RoboSafe的防护机制下，危险执行率则被大幅压低至4.78%。

在长时序风险任务这一特定场景中，RoboSafe的防护性能同样表现出对当前基线方法的显著优势。实验结果表明，与现有的防护方案相比，RoboSafe将危险动作的整体执行率降低了36.8%。

值得注意的是，在安全任务执行过程中，它仍能够保持较高的执行成功率。这充分表明，它并非简单粗暴地对所有动作进行拦截，而是会对正常行为与真正风险实施区分。

面对越狱攻击时，RoboSafe依然能够守住执行前的最后一道防线

该论文还专门测试了RoboSafe在面对越狱攻击时的防御有效性。这类攻击试图通过精心设计的上下文诱导，来操控智能体进而生成包含危险意图的动作计划。

实验结果表明，RoboSafe在面对越狱攻击的情形下依然能够展现出较为突出的鲁棒性表现。即便系统前端所接收的提示词遭受到一定程度的扰动与干扰，该框架仍然能够在具体动作执行之前对安全状态开展必要的检查工作。

随着大模型技术开始深度应用于操控机械臂以及家用机器人等实体设备，‘安全’这一概念的内涵也随之发生了根本性的演变。过去，当一个大模型生成了包含风险或不当信息的内容时，其产生的风险主要停留在文本层面；相比之下，如果一个机器人错误地执行了带有风险的操作指令，那么危险的后果将直接在物理世界中发生，例如打碎物品、损坏设备，甚至造成人身伤害。更为棘手的是，指令所蕴含的危险性往往不会直接显现在文字表面，而是与智能体的执行情境以及运行状态紧密相关。具身智能体的安全风险难以通过一条简单的提示指令来消除。这是由于机器人所处的环境是动态的，其执行的动作具有连续性，并且执行上下文也会不断变化，因此许多潜在的安全隐患都具有隐式特征。针对这一问题，来自北航、360 AI安全实验室、牛津大学、北京大学等机构的联合研究团队提出了RoboSafe框架，以弥补现有防御方法在识别隐式风险方面的不足。该研究工作成功荣获了ICLR 2026 ESR 研讨会杰出论文奖（Outstanding Paper Award，CCF-A）。具身智能体所面临的安全挑战，其复杂性远远超越了简单地拒绝恶意指令这一层面。研究团队指出，当前为具身智能体提供的安全防护措施，主要采用了两类技术路径。其中一种路径是向大语言模型的输入提示词中嵌入安全约束指令，另一种则是预先定义一套显式的规则库，用以过滤和阻断危险动作。在应对“显式危险指令”时，上述两类方法能够发挥一定的作用。这是因为，诸如“打碎杯子”之类的指令，其背后所隐含的风险是显而易见的，因此比较容易被系统识别与拦截。第一种风险类型即是情境风险。执行相同的动作在不同环境之下，其安全属性会呈现出完全不同的状态。例如，执行“开启微波炉”这一动作，其安全性会直接取决于微波炉内部所容纳的物品：反之如果其中所容纳的仅为普通食物，那么该动作即是一个安全的动作；反之如果其中存在金属餐具，那么该动作便是一个危险的动作。第二种风险类型则是时序风险：尽管每一个独立的动作在执行时都符合安全标准，但当这些动作按照特定的时序组合在一起时，便可能产生潜在的危险。以一个典型的场景为例，当智能体执行了开启炉灶的操作之后，未能及时返回关闭，而是继续执行其他任务，这种长时间的持续运行状态便会引发炉灶过热，进而导致火灾事故的发生。RoboSafe为具身智能体构建起了一层运行时安全护栏，其核心在于论文所提出的“可执行安全逻辑”。简而言之，RoboSafe将安全判断过程转化为具备可执行性与可验证性的逻辑代码。在具体运行过程中，系统会借助代码逻辑来评估此类问题：当前执行的动作是否会在所处环境中造成破坏？在此之前是否已经触发过某个危险设备？一旦系统检测到潜在风险，RoboSafe便会立刻启动明确的安全干预：阻止当前动作的执行，或者指示系统重新规划并生成更安全的执行序列。前瞻视角：识别存在于当前运行环境之中所潜藏的情境危险其首个模块被称为前向预测推理。该模块的核心关注点在于智能体即将执行的下一步动作。例如，当智能体规划执行如下指令时：将叉子置入微波炉内。此处的危险不仅源自动作本身，同时还源自所处的情境上下文：涉及动作的目标对象、所处位置以及当前状态等要素。RoboSafe会把当前的视觉场景、任务指令以及智能体的运行状态结合起来，从长期安全记忆库中提取相关的安全知识，进而构建出专门适用于当前情境的可执行安全逻辑。若该逻辑判定即将执行的动作可能引发风险，系统便会立即介入并阻止该动作。核心关键点在于，安全判断机制并非简单地看到微波炉就立即拒绝执行任务，而是要深入理解“将叉子置于微波炉内部”这一动作组合在当前特定场景下所构成的潜在危险。向后看：从动作序列中分析正在累积的时序风险 RoboSafe的第二个核心模块，即回顾性分析，其核心关注点在于智能体在执行多个动作之后所形成的累计后果。时序风险的典型特征在于，其危险性并非源于任何单一的动作本身，而是源于这些动作按特定顺序组合执行时所产生的累积效应。以一个典型的家庭服务场景为例，智能体在完成开启炉灶的动作之后，由于任务调度或上下文切换的原因，并未及时返回关闭，而是转而执行其他任务。这种长时间的持续开启状态，会使得炉灶不断积聚热量，最终可能引发过热乃至火灾事故。因此，回顾性分析模块会对智能体的完整动作序列进行复盘，旨在识别这种随着时间推移而逐渐显现、仅通过检查单一动作难以发现的潜在危险。RoboSafe的第二个模块被命名为后向反思推理。其核心功能在于审视与分析已经发生的事件序列，旨在从执行历史中识别出潜在的、随时间累积的风险。物理风险往往并非瞬间爆发，而是在一系列连续动作中逐步累积形成的。例如，智能体首先执行了打开炉灶的动作，随后转向其他任务，由于未能及时返回关闭，导致炉灶持续开启状态，从而逐渐积累风险。RoboSafe构建并维护着一个短期安全记忆库，专门用于记录当前任务中最近执行的动作序列，其中系统会持续分析这些动作的组合是否违反了时序安全逻辑。当系统检测到必要的安全动作尚未执行时，它并不会简单地终止当前任务，而是会触发重新规划机制，将所需的安全纠正动作有机地插入到原有的执行计划之中。例如，通过持续监测发现炉灶已经开启过久的情况，系统可以即时触发并执行相应的纠正动作——即“关闭炉灶”，在完成这一安全干预之后，随后再重新接入到原定的任务流中，以确保整体执行的安全与连贯。这使得RoboSafe不仅仅是一个安全拦截器，更通过持续监控与回溯分析执行轨迹，具备了监督员般的反思与干预能力。实验评估结果：危险动作识别与任务安全保障针对该实验评估部分，研究工作对RoboSafe框架在不同威胁场景下的性能进行了测试，其中重点考察了那些可能危害机器人自身或人类安全的危险动作。实验结果表明，该框架能够有效地减少不安全行为的产生，同时并不会对完成正常任务的操作序列造成过度的限制与约束。研究团队在AI2-THOR这一仿真环境中，对多种多模态具身智能体开展了实验研究，并借助SafeAgentBench这一基准平台，对其实施了全面的评估工作。实验结果表明，在情境风险任务场景下，原始智能体对于危险行为几乎不实施拒绝。而在RoboSafe的防护机制下，危险执行率则被大幅压低至4.78%。在长时序风险任务这一特定场景中，RoboSafe的防护性能同样表现出对当前基线方法的显著优势。实验结果表明，与现有的防护方案相比，RoboSafe将危险动作的整体执行率降低了36.8%。值得注意的是，在安全任务执行过程中，它仍能够保持较高的执行成功率。这充分表明，它并非简单粗暴地对所有动作进行拦截，而是会对正常行为与真正风险实施区分。面对越狱攻击时，RoboSafe依然能够守住执行前的最后一道防线该论文还专门测试了RoboSafe在面对越狱攻击时的防御有效性。这类攻击试图通过精心设计的上下文诱导，来操控智能体进而生成包含危险意图的动作计划。实验结果表明，RoboSafe在面对越狱攻击的情形下依然能够展现出较为突出的鲁棒性表现。即便系统前端所接收的提示词遭受到一定程度的扰动与干扰，该框架仍然能够在具体动作执行之前对安全状态开展必要的检查工作。