百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录

2026年06月29日 15:36
本文共计447个字,预计阅读时长2分钟。
来源/aibase 责编/Zhuangdian 妆点人生

 百度近日发布并开源了3B参数规模的端到端OCR模型——Unlimited OCR,专为书籍、论文等长文档解析场景打造。该项目上线后迅速登顶GitHub与HuggingFace四项趋势榜,开源仅5天GitHub Star即破万。

技术上,Unlimited OCR推理时激活参数约570M,并首次引入Reference Sliding Window Attention(R-SWA)机制。该机制打破了传统“逐页解析+拼接”的限制,实现数十页文档的一次性连续解析;同时,它将解码阶段的KV Cache控制在恒定规模,使显存占用和计算成本不再随输出长度增长而暴涨。

在OmniDocBench v1.6基准测试中,该模型以93.92%的成绩刷新纪录。真实场景下,其推理速度较DeepSeek OCR提升约12.7%,在6000Tokens输出长度下速度优势扩大至35%,为海量文档数字化和大模型长程记忆管理提供了全新路径。

来源:百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 爱力方

https://www.agentren.cn/