Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

AI框架 2026-06-23

Unlimited-OCR是什么

Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转录数十页文档。模型基于 3B 总参 MoE 架构,在 OmniDocBench v1.6 上以 93.92% 总分取得端到端 SOTA,推理速度达 5580 TPS,代码与权重已全面开源。

Unlimited-OCR

Unlimited-OCR的主要功能

  • 超长文档一次识别:支持 2 页至 40+ 页 PDF 文档的单次前向转录,无需逐页 for 循环处理。
  • 多类型文档解析:覆盖 PPT、学术论文、书籍、彩色教材、试卷、杂志、报纸、笔记、研究报告等 9 类版式。
  • 高精度内容提取:文本、公式、表格、阅读顺序全链路端到端输出,公式 CDM 达 95.79%,表格 TEDS 达 93.32%。
  • 双分辨率视觉编码:Base 模式 1024×1024 用于多页长文档,Gundam 模式动态分辨率用于单页高精度识别。
  • 常数延迟推理:无论输出序列多长,KV cache 恒定为 m+n,推理延迟与显存占用保持水平稳定。

Unlimited-OCR的技术原理

  • R-SWA 注意力机制:每个生成 token 仅关注全部参考 token(视觉+提示词)和最近 128 个输出 token,视觉 token 被排除在滑动窗口状态转移之外,避免长程生成中视觉特征被逐步糊化。
  • 常数 KV Cache 设计:将 KV cache 实现为容量 m+n 的队列,每生成一个新 token 即淘汰第 (m+1) 个 token,计算成本与内存占用不随序列长度递增。
  • DeepEncoder 视觉编码:沿用 SAM-ViT 级联 CLIP-ViT 架构,通过 bridge 层做 16 倍 token 压缩,1024×1024 图像压缩为 256 个视觉 token,编码一次后冻结。
  • MoE-LLM 解码器:3B 总参、500M 激活的 MoE 架构,全部注意力层替换为 R-SWA,基于 DeepSeek-OCR checkpoint 续训 4000 步,全局 batch 256,最大序列 32K。
  • 推理引擎优化:在 Transformers 与 SGLang 中均实现常数 TPS 与常数显存的 KV cache 管理,Flash Attention v3 内核下 per-call 延迟全程水平。
挖挖GitHub

微信关注回复 “开源”,加入AI开源项目交流群

如何使用Unlimited-OCR

  • 模型下载:通过 Hugging Face baidu/Unlimited-OCR 或 GitHub baidu/Unlimited-OCR 获取代码与权重。
  • 环境准备:支持 Transformers 库与 SGLang 推理引擎,需配置对应 GPU 环境。
  • 输入格式:支持 PDF 页面图像输入,Base 模式用于多页长文档,Gundam 模式用于单页高分辨率识别。
  • 推理调用:单次前向即可完成整本/整份文档的 OCR 转录,无需外部调度器分页处理。
  • 扩展应用:R-SWA 机制可迁移至 ASR、翻译、字幕生成等长输出任务。

Unlimited-OCR的核心优势

  • SOTA 识别精度:OmniDocBench v1.5 总分 93.23%,v1.6 总分 93.92% 端到端第一。
  • 常数资源占用:KV cache 不随文档页数增长,20 页、40+ 页长文档显存与延迟保持稳定。
  • 速度随长度放大:输出越长优势越明显,6144 token 时理论 TPS 上限较 DeepSeek-OCR 领先约 35%。
  • 通用解码架构:R-SWA 非 OCR 专属 trick,适用于任何”参考源+长输出”的生成任务。
  • 轻量开源:3B 总参、500M 激活,模型与代码已开源,便于部署与二次开发。

Unlimited-OCR的项目地址

  • GitHub仓库:https://github.com/baidu/Unlimited-OCR
  • HuggingFace模型库:https://github.com/baidu/Unlimited-OCR

Unlimited-OCR的同类竞品对比

维度 Unlimited-OCR DeepSeek-OCR
模型规模 3B-A0.5B (MoE) 3B-A0.5B (MoE)
注意力机制 R-SWA(参考滑动窗口注意力) 标准全注意力
KV Cache 增长 常数(m+n),不随序列长度增加 线性增长,随输出序列持续累积
OmniDocBench v1.5 总分 93.23% 87.01%
OmniDocBench v1.6 总分 93.92% 90.25%(DeepSeek-OCR 2)
文本编辑距离 0.038 0.073
公式 CDM 92.61% 83.37%
表格 TEDS 90.93% 84.97%
阅读顺序编辑距离 0.045 0.086
推理速度 5580 TPS,全程常数延迟 4951 TPS,延迟随长度递增
长文档支持 单次前向 40+ 页,无需分页 长序列受限于 KV cache 膨胀,需分页处理
训练基础 基于 DeepSeek-OCR checkpoint 续训 4000 步 基座模型

Unlimited-OCR的应用场景

  • 企业档案数字化:批量处理成百上千页扫描版 PDF、古籍、合订本,无需拆分即可一次性结构化提取。
  • 学术文献解析:整本论文、期刊合辑、研究报告的端到端转录,保留公式、表格与阅读顺序。
  • 教育试卷批改:多页试卷、练习册的批量识别,支持彩色教材与复杂版式。
  • 法律合同审核:长篇幅合同文本的精准 OCR 提取,用于后续 NLP 分析与合规审查。
  • 多语言翻译流水线:作为 R-SWA 通用解码方案的验证场景,可扩展至 ASR、字幕生成等长序列任务。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章