Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

AI框架 2026-06-23

Unlimited-OCR是什么

Unlimited-OCR 是百度推出的端到端长文档 OCR 模型，通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数，实现单次前向转录数十页文档。模型基于 3B 总参 MoE 架构，在 OmniDocBench v1.6 上以 93.92% 总分取得端到端 SOTA，推理速度达 5580 TPS，代码与权重已全面开源。

Unlimited-OCR的主要功能

超长文档一次识别：支持 2 页至 40+ 页 PDF 文档的单次前向转录，无需逐页 for 循环处理。
多类型文档解析：覆盖 PPT、学术论文、书籍、彩色教材、试卷、杂志、报纸、笔记、研究报告等 9 类版式。
高精度内容提取：文本、公式、表格、阅读顺序全链路端到端输出，公式 CDM 达 95.79%，表格 TEDS 达 93.32%。
双分辨率视觉编码：Base 模式 1024×1024 用于多页长文档，Gundam 模式动态分辨率用于单页高精度识别。
常数延迟推理：无论输出序列多长，KV cache 恒定为 m+n，推理延迟与显存占用保持水平稳定。

Unlimited-OCR的技术原理

R-SWA 注意力机制：每个生成 token 仅关注全部参考 token（视觉+提示词）和最近 128 个输出 token，视觉 token 被排除在滑动窗口状态转移之外，避免长程生成中视觉特征被逐步糊化。
常数 KV Cache 设计：将 KV cache 实现为容量 m+n 的队列，每生成一个新 token 即淘汰第 (m+1) 个 token，计算成本与内存占用不随序列长度递增。
DeepEncoder 视觉编码：沿用 SAM-ViT 级联 CLIP-ViT 架构，通过 bridge 层做 16 倍 token 压缩，1024×1024 图像压缩为 256 个视觉 token，编码一次后冻结。
MoE-LLM 解码器：3B 总参、500M 激活的 MoE 架构，全部注意力层替换为 R-SWA，基于 DeepSeek-OCR checkpoint 续训 4000 步，全局 batch 256，最大序列 32K。
推理引擎优化：在 Transformers 与 SGLang 中均实现常数 TPS 与常数显存的 KV cache 管理，Flash Attention v3 内核下 per-call 延迟全程水平。

微信关注回复 “开源”，加入AI开源项目交流群

如何使用Unlimited-OCR

模型下载：通过 Hugging Face baidu/Unlimited-OCR 或 GitHub baidu/Unlimited-OCR 获取代码与权重。
环境准备：支持 Transformers 库与 SGLang 推理引擎，需配置对应 GPU 环境。
输入格式：支持 PDF 页面图像输入，Base 模式用于多页长文档，Gundam 模式用于单页高分辨率识别。
推理调用：单次前向即可完成整本/整份文档的 OCR 转录，无需外部调度器分页处理。
扩展应用：R-SWA 机制可迁移至 ASR、翻译、字幕生成等长输出任务。

Unlimited-OCR的核心优势

SOTA 识别精度：OmniDocBench v1.5 总分 93.23%，v1.6 总分 93.92% 端到端第一。
常数资源占用：KV cache 不随文档页数增长，20 页、40+ 页长文档显存与延迟保持稳定。
速度随长度放大：输出越长优势越明显，6144 token 时理论 TPS 上限较 DeepSeek-OCR 领先约 35%。
通用解码架构：R-SWA 非 OCR 专属 trick，适用于任何”参考源+长输出”的生成任务。
轻量开源：3B 总参、500M 激活，模型与代码已开源，便于部署与二次开发。

Unlimited-OCR的项目地址

GitHub仓库：https://github.com/baidu/Unlimited-OCR
HuggingFace模型库：https://github.com/baidu/Unlimited-OCR

Unlimited-OCR的同类竞品对比

维度	Unlimited-OCR	DeepSeek-OCR
模型规模	3B-A0.5B (MoE)	3B-A0.5B (MoE)
注意力机制	R-SWA（参考滑动窗口注意力）	标准全注意力
KV Cache 增长	常数（m+n），不随序列长度增加	线性增长，随输出序列持续累积
OmniDocBench v1.5 总分	93.23%	87.01%
OmniDocBench v1.6 总分	93.92%	90.25%（DeepSeek-OCR 2）
文本编辑距离	0.038	0.073
公式 CDM	92.61%	83.37%
表格 TEDS	90.93%	84.97%
阅读顺序编辑距离	0.045	0.086
推理速度	5580 TPS，全程常数延迟	4951 TPS，延迟随长度递增
长文档支持	单次前向 40+ 页，无需分页	长序列受限于 KV cache 膨胀，需分页处理
训练基础	基于 DeepSeek-OCR checkpoint 续训 4000 步	基座模型

Unlimited-OCR的应用场景

企业档案数字化：批量处理成百上千页扫描版 PDF、古籍、合订本，无需拆分即可一次性结构化提取。
学术文献解析：整本论文、期刊合辑、研究报告的端到端转录，保留公式、表格与阅读顺序。
教育试卷批改：多页试卷、练习册的批量识别，支持彩色教材与复杂版式。
法律合同审核：长篇幅合同文本的精准 OCR 提取，用于后续 NLP 分析与合规审查。
多语言翻译流水线：作为 R-SWA 通用解码方案的验证场景，可扩展至 ASR、字幕生成等长序列任务。

Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

Unlimited-OCR是什么

Unlimited-OCR的主要功能

Unlimited-OCR的技术原理

如何使用Unlimited-OCR

Unlimited-OCR的核心优势

Unlimited-OCR的项目地址

Unlimited-OCR的同类竞品对比

Unlimited-OCR的应用场景

Seedance 2.5 – 字节跳动推出的最新视频生成模型

豆包音频生成模型1.0 – 火山引擎推出的端到端音频创作模型

相关文章

最新文章

热门工具

AI导航 爱途网络

Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

Unlimited-OCR是什么

Unlimited-OCR的主要功能

Unlimited-OCR的技术原理

如何使用Unlimited-OCR

Unlimited-OCR的核心优势

Unlimited-OCR的项目地址

Unlimited-OCR的同类竞品对比

Unlimited-OCR的应用场景

Seedance 2.5 – 字节跳动推出的最新视频生成模型

豆包音频生成模型1.0 – 火山引擎推出的端到端音频创作模型

相关文章

最新文章

热门工具

AI导航爱途网络