英伟达开源 Polar 框架，助力 AI 编码智能体实现强化学习零门槛进化

2026年05月28日 17:20

本文共计1253个字，预计阅读时长5分钟。

来源/aibase 责编/huazi56 爱力方

5月28日，英伟达（NVIDIA）研究团队正式开源了名为 Polar 的强化学习训练框架。该框架的核心创新在于，它能够让 Codex、Claude Code、Qwen Code 等现有主流代码智能体（Agent）在不修改任何原生代码的情况下，无缝接入 GRPO（广义相对策略优化）强化学习训练。

一、行业痛点:智能体强化学习的“围墙”

随着代码智能体从简单的单步任务迈向复杂长流程任务（如仓库级修改、OS 交互），开发者愈发依赖成熟的执行框架(Harness)。然而，将这些复杂的框架接入传统的强化学习基础设施面临巨大的壁垒:

接入成本高: 传统方法要求将代码逻辑强行重写为 env.init（）、env.step() 等标准环境接口，极其繁琐。
信息丢失: 在重构过程中，往往会丢失关键的工具调用细节、多轮对话上下文或子智能体协作逻辑，导致模型无法获取高质量的训练信号。

二、核心解法:将“边界”作为训练入口

Polar 不要求重写执行框架，而是将“模型 API 边界”作为训练的切入点。

黑盒化处理: Polar 在代码执行框架与模型推理服务器之间设置了一个透明代理（Gateway）。无论智能体使用的是 Anthropic、OpenAI 还是 Google 的 API 接口，Polar 都能无缝拦截、转发请求。
轨迹重构: 在转发过程中，Polar 实时记录提示词、采样 Token、对数概率等关键信息，并将其重建成强化学习训练器所需的“轨迹”数据。
高效异步架构: 系统通过 Rollout Server 负责调度与持久化，Gateway Node 处理生命周期与资源回收。通过预热缓冲池（READY buffer）与并行任务处理，有效消除了长尾任务对 GPU 的训练阻塞。

三、性能飞跃:让编码智能体脱胎换骨

实验数据显示，Polar 配合 GRPO 训练带来了显著的性能增益:

SWE-Bench Verified 基准测试: 基于同一个 Qwen3.5-4B 底座模型，在不同代码框架下表现惊人:
- Codex 框架: pass@1分数从3.8% 飙升至26.4%（涨幅高达 594.74%）。
- Claude Code 框架: 从29.8% 提升至34.6%。
- Pi 框架: 从34.2% 提升至40.4%。
极致效率: 引入 prefix_merging 策略后，相比传统的 per_request 模式，训练墙钟时间缩短约 5.39倍，GPU 利用率从20.4% 跃升至 87.7%。

行业点评

英伟达 Polar 的开源，实质上是为“AI 智能体”领域铺设了一条通往强化学习训练的“高速公路”。它不仅让研究人员能够利用海量开源代码框架进行高效训练，更通过系统层面的优化降低了 GPU 算力门槛。

随着 Polar 的普及，开发者无需再为“如何让模型适配训练框架”而苦恼，未来 AI 编码智能体的进化路径将变得更加标准化与高效。这标志着 AI 智能体的训练正在从实验室的手动调优，向规模化、系统化的工程化生产迈进。

论文地址:https://arxiv.org/pdf/2605.24220

来源：英伟达开源 Polar 框架：让 AI 编码智能体实现强化学习“零门槛”进化 | AIbase

声明：本文来自aibase，版权归作者所有。文章内容仅代表作者独立观点，不代表爱力方立场，转载目的在于传递更多信息。如有侵权，请联系 copyright#agent.ren。

通知

尊敬的用户

user

资讯

英伟达开源 Polar 框架，助力 AI 编码智能体实现强化学习零门槛进化

英伟达开源 Polar 框架，助力 AI 编码智能体实现强化学习零门槛进化

一、行业痛点:智能体强化学习的“围墙”

二、核心解法:将“边界”作为训练入口

三、性能飞跃:让编码智能体脱胎换骨

行业点评

相关图文

黄仁勋穿过的黑色皮夹克将拍卖：有亲笔签名，预计成交价4万-6万美元（约27万-40万元人民币）

前NVIDIA工程师用强化学习让人形机器人担任办公室实习生

图灵奖获得者-"强化学习之父"Richard Sutton教授参访北京人形机器人创新中心

AReaL2.0开源，打造面向自演进智能体的RL基础设施

利好来袭！突然集体飙涨！英伟达、特斯拉传出大动作

英伟达发布Nemotron-Labs-TwoTower扩散语言模型性能提升超两倍

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

周末要闻汇总：国常会部署加快新一代通信网、算力网建设长江存储IPO有最新进展

新产品配套英伟达产业链液冷概念股3天2板本周机构密集调研相关上市公司

2026世界人工智能大会期间，上海部分道路和区域将实施交通管制

上海发布两项通告加强2026世界人工智能大会安全管理

人民锐评：AI智能荐股？投资没有一键致富！

手机成为大模型竞争新赛场 AI超级载体利好哪些硬件环节

周末要闻 | 国常会要求加快新一代通信网和算力网建设

白林松：当世界聚焦“规模化创新”，创意科技正把AI带入物理世界

中国第二届“绿色光疗·孝爱同行”健康发展大会暨康企集团七周年AI健康公益盛典圆满落幕

30万内智驾SUV横评：四款车功能体验落差谁最小？

推荐专栏

爱力方

机器人大讲堂

下一篇

user

资讯

英伟达开源 Polar 框架，助力 AI 编码智能体实现强化学习零门槛进化

英伟达开源 Polar 框架，助力 AI 编码智能体实现强化学习零门槛进化

一、行业痛点:智能体强化学习的“围墙”

二、核心解法:将“边界”作为训练入口

三、性能飞跃:让编码智能体脱胎换骨

行业点评

相关图文

黄仁勋穿过的黑色皮夹克将拍卖：有亲笔签名，预计成交价4万-6万美元（约27万-40万元人民币）

前NVIDIA工程师用强化学习让人形机器人担任办公室实习生

图灵奖获得者-"强化学习之父"Richard Sutton教授参访北京人形机器人创新中心

AReaL2.0开源，打造面向自演进智能体的RL基础设施

利好来袭！突然集体飙涨！英伟达、特斯拉传出大动作

英伟达发布Nemotron-Labs-TwoTower扩散语言模型 性能提升超两倍

热门资讯

微软开源项目遭黑客入侵，多款AI开发工具被植入密码窃取软件

LabVLA：浙大与上海AI Lab联合探索科学具身智能，推动AI进入实验室

通义实验室联合开源首个统一科学大模型LOGOS，1B参数性能超越NatureLM

富士通推出PHOTON新架构，性能提升475倍以应对AI算力瓶颈

世界模型到底在建模什么

余承东发声，鸿蒙智能将迈向Agent时代

快讯

周末要闻汇总：国常会部署加快新一代通信网、算力网建设 长江存储IPO有最新进展

新产品配套英伟达产业链 液冷概念股3天2板 本周机构密集调研相关上市公司

2026世界人工智能大会期间，上海部分道路和区域将实施交通管制

上海发布两项通告 加强2026世界人工智能大会安全管理

人民锐评：AI智能荐股？投资没有一键致富！

手机成为大模型竞争新赛场 AI超级载体利好哪些硬件环节

周末要闻 | 国常会要求加快新一代通信网和算力网建设

白林松：当世界聚焦“规模化创新”，创意科技正把AI带入物理世界

中国第二届“绿色光疗·孝爱同行”健康发展大会暨康企集团七周年AI健康公益盛典圆满落幕

30万内智驾SUV横评：四款车功能体验落差谁最小？

推荐专栏

爱力方

机器人大讲堂

下一篇

英伟达发布Nemotron-Labs-TwoTower扩散语言模型性能提升超两倍

周末要闻汇总：国常会部署加快新一代通信网、算力网建设长江存储IPO有最新进展

新产品配套英伟达产业链液冷概念股3天2板本周机构密集调研相关上市公司

上海发布两项通告加强2026世界人工智能大会安全管理