阿里开源 Page Agent:大模型读懂 DOM,网页控制新范式

2026年07月03日 10:31
本文共计778个字,预计阅读时长3分钟。
来源/aibase 责编/PixelHunter 像素猎人

在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具,通过复杂的截图或底层协议来“强行”驱动网页。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。

image.png

Page Agent 的核心技术在于“DOM 脱水”。不同于传统方案需要将复杂的网页转化为多模态图片供 AI 识别,Page Agent 直接在网页内部运行,将实时 DOM 结构压缩为轻量化的“FlatDomTree”纯文本映射。这一技术创新使得模型无需处理繁重的视觉信息,仅凭精简的结构文本,就能精准定位并执行点击按钮、填写表单等指令。

image.png

对于开发者而言,这一方案具备明显的优势。由于 Page Agent 直接嵌入页面运行,它能无缝继承用户的 Cookie 和会话信息,免去了繁琐的后端对接与身份验证工作。该项目采用了模型无关的设计,支持任何兼容 OpenAI 接口的大语言模型。在实际应用场景中,如构建 SaaS 产品内的 AI 副驾、自动化表单处理,乃至提升应用的无障碍交互能力,Page Agent 都能提供极具性价比的落地方案。

image.png

尽管 Page Agent 在易用性上表现亮眼,但开发团队也强调了其技术边界:目前该库聚焦于单页面范围内的交互。同时,出于安全性考量,基于提示词的权限管控(如“禁止自动支付”)属于引导性限制,而非硬性逻辑隔离。因此,对于涉及资金划拨或数据修改等高风险操作,开发者仍需在服务端保留严格的校验机制。

目前,Page Agent 已在 GitHub 以 MIT 协议开源。对于希望快速在自有应用中内嵌 AI 操作能力,又不愿投入高昂多模态模型成本的团队来说,这无疑提供了一个高效且务实的工程选择。

来源:网页控制新范式:阿里开源 Page Agent,让大模型读懂 DOM | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 爱力方

https://www.agentren.cn/