MOCR – 小红书联合华中科技推出的多模态文档解析模型
MOCR是什么
MOCR(Multimodal OCR)是华中科技大学与小红书hi lab联合推出的多模态文档解析模型,仅3B参数在文档解析和图形重建上实现突破性表现。模型打破传统OCR只识别文字的局限,将图表、公式、流程图等视觉元素解析为可编辑的SVG代码,实现”解析一切”的新范式。在开源模型中排名第一,图形重建能力更超越Gemini 3 Pro,为文档AI领域带来范式转变。

MOCR的主要功能
-
文档全要素解析:支持识别文字、表格、公式、图表等所有页面元素,输出结构化数据并保持阅读顺序。
-
图形转SVG代码:将统计图表、科学插图、UI布局等视觉内容重建为可编辑的SVG代码。
-
多格式输入支持:支持PDF、网页截图、扫描件、手机拍照等多种文档类型的解析。
-
通用视觉能力:模型具备视觉问答、视觉定位、图像描述等通用多模态理解能力。
-
双版本模型:提供均衡版dots.mocr和SVG优化版dots.mocr-svg,满足不同场景需求。
MOCR的关键信息和使用要求
- 开发团队:华中科技大学 × 小红书hi lab
- 模型参数:3B(1.2B视觉编码器 + 1.5B语言解码器)
- 模型版本:dots.mocr(均衡版)、dots.mocr-svg(SVG增强版)
- 核心创新:将图形解析为SVG代码,实现”解析一切”的新范式
- 性能表现:文档解析开源第一,图形重建超越Gemini 3 Pro
-
GPU:支持CUDA的NVIDIA显卡(推荐用于推理加速)
-
内存:根据输入分辨率调整,高分辨率文档需要更大显存
MOCR的核心优势
- 小参数大能力:仅3B参数,性能却超越众多大模型,文档解析开源第一,图形重建反超Gemini 3 Pro。
- 全要素解析:模型打破传统OCR只识文字的局限,将图表、公式、流程图等视觉元素统一解析为结构化代码。
- 图形可编辑化:将图形转换为SVG代码,实现无损重建和二次编辑,非简单裁剪为像素图片。
- 数据引擎创新:支持构建PDF、网页、SVG资产等多源数据管道,解决图形监督信号稀缺难题。
- 评估方法革新:模型提出OCR Arena框架,用强VLM作裁判进行可靠对比评估。
如何使用MOCR
-
环境准备:创建Python 3.12虚拟环境,克隆GitHub仓库并安装依赖。
-
下载模型:运行下载脚本获取模型权重,注意保存路径不要包含英文句点。
-
启动服务:使用vLLM部署模型服务,支持GPU加速推理。
-
文档解析:调用解析脚本处理图片或PDF文件,输出结构化结果。
-
图形转换:使用SVG专用脚本将图表转换为可编辑的SVG代码。
-
获取结果:获取生成包含边界框的JSON文件、Markdown文本和可视化标注图。
MOCR的项目地址
- GitHub仓库:https://github.com/rednote-hilab/dots.mocr
- arXiv技术论文:https://arxiv.org/pdf/2603.13032
- 在线体验Demo:https://dotsocr.xiaohongshu.com/
MOCR的同类竞品对比
| 维度 | MOCR | Gemini 3 Pro | PaddleOCR-VL |
|---|---|---|---|
| 开发方 | 华中科大×小红书 | 谷歌 | 百度 |
| 参数规模 | 3B | 未公开(大得多) | 0.9B |
| 开源状态 | 完全开源 | 闭源API | 开源 |
| 核心定位 | 文档全要素解析+图形重建 | 通用多模态大模型 | 传统文字识别 |
| 文档解析Elo | 1125(开源第一) | 1211(业界第一) | 920.5 |
| olmOCR-Bench | 83.9 | 未公开 | 80.0 |
| 图形处理能力 | 转为SVG代码(可编辑) | 基础识别 | 不支持 |
| 部署方式 | vLLM/Transformers本地部署 | API调用 | 本地部署 |
| 核心优势 | 小参数大能力、图形可编辑化 | 通用能力极强、生态完善 | 轻量快速、中文优化好 |
MOCR的应用场景
- 学术科研:解析论文PDF、提取公式、重建图表,将扫描论文转为可编辑LaTeX,复现科研图表数据。
- 金融财经:分析财报、提取数据报表、数字化图表,把PDF财报中的柱状图折线图转为Excel可用数据。
- 法律政务:审查合同、数字化卷宗、识别证件,结构化提取多页合同关键信息并保持格式完整。
- 教育出版:数字化教材、建设试题库、识别板书,将印刷教材中的复杂公式和图表转为电子资源。
- 医疗健康:解析病历、提取检验报告、标注医学影像,处理包含化学分子式和医学示意图的文档。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号