PP-OCRv6 – 百度飞桨 PaddleOCR 开源的第六代 OCR 模型

AI项目 2026-06-14

PP-OCRv6是什么

PP-OCRv6 是百度飞桨 PaddleOCR 团队推出的第六代开源 OCR 模型，首次推出 Tiny（1.5M）、Small（7.7M）、Medium（34.5M）三档模型，覆盖从浏览器端到服务器的全算力平台。相比前代，检测精度提升 4.9%，识别精度提升 5.1%，其中 Medium 在 Intel Xeon CPU 上端到端仅需 1.40 秒，速度达 v5_server 的 5.2 倍，Tiny 在浏览器端单图预测低至 97ms。单模型支持语言从 4 种扩展至 50 种，新增电路板、数码管、CAD 图纸、喷码点阵字符等工业场景。

PP-OCRv6的主要功能

三档模型灵活部署：提供 Tiny（1.5M）、Small（7.7M）、Medium（34.5M）三种规格，分别适配浏览器端、嵌入式设备到服务器，按需选择开箱即用。
高精度文本检测与识别：端到端完成文字区域定位与内容识别，检测精度达 86.2%，识别精度达 83.2%，较上一代实现代际跨越式提升。
50 种语言单模型覆盖：单模型同时支持中文、英文、日文及 46 种拉丁语系语言，无需切换模型即可处理多语言混合文档。
工业场景专项增强：新增电路板、数码管、CAD 图纸、喷码点阵字符、轮胎印刷等复杂工业场景的检测与识别能力。
极速推理与低延迟：Tiny 档在纯浏览器前端单图预测低至 97ms；Medium 在 Intel Xeon CPU 上端到端仅 1.40 秒，速度为前代 server 模型的 5.2 倍。
高鲁棒性稳定输出：检测多尺寸预测一致性方差仅 5.19%，识别边缘尺寸扰动一致性较 v5 提升 20.5%，对输入分辨率变化和裁剪边界具有强抗干扰能力。
多后端与私有化部署：支持 OpenVINO、ONNX Runtime、TensorRT 等推理后端，可在内网、离线及安全敏感环境中私有化部署。
结构化文档解析：结合 PP-StructureV3，可将复杂 PDF 和图片转换为 Markdown 或 JSON 格式，输出细粒度的文本坐标与版面信息。

如何使用PP-OCRv6

命令行快速调用：安装 PaddleOCR 3.7.0+ 后，直接执行 paddleocr ocr -i image.png --text_detection_model_name PP-OCRv6_medium_det --text_recognition_model_name PP-OCRv6_medium_rec 即可对图片进行 OCR。
Python API 集成：在代码中导入 from paddleocr import PaddleOCR，初始化时指定模型名称如 PaddleOCR(text_detection_model_name="PP-OCRv6_medium_det", text_recognition_model_name="PP-OCRv6_small_rec")，调用 predict() 方法传入图片路径即可获取识别结果。
模型自动下载：首次使用指定模型时，PaddleOCR 会自动从 HuggingFace 或 ModelScope 下载对应权重，无需手动配置；也可提前从 ModelScope 集合页或 GitHub 仓库下载模型文件到本地。
浏览器端前端部署：选用 Tiny 档（1.5M）模型，通过 ONNX Runtime Web 或 OpenVINO 前端推理，可在纯浏览器环境中实现单图 97ms 的极速预测，无需后端服务器。
多后端推理加速：支持 OpenVINO、ONNX Runtime、TensorRT 等后端，在 CPU、GPU 及嵌入式设备上按需切换推理引擎，优化生产环境性能。
结构化文档解析：结合 PP-StructureV3 模块，将图片或 PDF 输入后，可输出 Markdown 或 JSON 格式的结构化结果，包含文本内容、坐标位置及版面层级信息。
按需选择模型档位：根据部署环境算力选择 Tiny（移动端/浏览器）、Small（嵌入式/中等算力）或 Medium（服务器/高精度），三档模型接口统一，替换模型名称即可无缝切换。

PP-OCRv6的项目地址

项目官网：https://paddleocr.com
ModelScope：https://modelscope.cn/collections/PaddlePaddle/PP-OCRv6

PP-OCRv6的核心优势

精度跨越式代际提升：文字检测精度较 v5 提升 4.9%，识别精度提升 5.1%，Medium 档检测 Hmean 达 86.2%，识别准确率达 83.2%，实现大幅跃升。
极致推理速度：Medium 在 Intel Xeon CPU 上端到端仅 1.40s，速度为前代 server 模型的 5.2 倍；Tiny 在浏览器端单图预测低至 97ms，适配极低算力环境。
史上最高鲁棒性：检测多尺寸预测一致性方差仅 5.19%（较 v5 降低 35%），识别边缘尺寸扰动一致性提升 20.5%，对输入变化和裁剪边界抗干扰能力极强。
全算力平台无缝覆盖：Tiny、Small、Medium 三档模型从浏览器端、嵌入式设备到服务器全场景部署，按需选择，开箱即用。
50 种语言统一识别：单模型支持语言从 4 种扩展至 50 种，涵盖中、英、日及 46 种拉丁语系，无需切换模型即可处理多语言混合内容。
工业场景深度增强：新增电路板、数码管、CAD 图纸、喷码点阵字符、轮胎印刷等真实复杂工业场景的专项识别能力。
轻量参数碾压大模型：Medium 以 34.5M 参数在检测与识别精度上超越 Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro 等百亿级视觉语言模型。
极低幻觉忠实还原：对原始文本（包括故意拼写错误）的还原准确率远高于通用大模型，避免大模型常见的”幻觉式”篡改。

PP-OCRv6的同类竞品对比

对比维度	PP-OCRv6	EasyOCR	MMOCR
开发方	百度飞桨 PaddleOCR	JaidedAI	OpenMMLab（商汤）
开源协议	Apache 2.0	Apache 2.0	Apache 2.0
系统架构	统一 MetaFormer（LCNetV4 + RepLKFPN + LightSVTR）	CRAFT/DB 检测 + CRNN 识别	DB/PSENet/FCENet 检测 + CRNN/SAR/NRTR 识别
端到端支持	检测与识别一体化，三档开箱即用	端到端一体化，自动语言检测	模块化组合，需手动配置检测+识别链路
支持语言	50 种（中、英、日及 46 种拉丁语系）	80+ 种	依赖所选模型配置，需自行扩展
模型大小	1.5M–34.5M（极轻量）	检测约 10M+，识别模型按语言累计可达 50M+	灵活配置，通常单模型 10M–100M+
中文场景优化	深度优化，支持竖排、古籍、拼音标注	一般水平，中文精度弱于 PP-OCR	支持，但需自行调优
工业场景	内置电路板、数码管、CAD、点阵字符、轮胎印刷等	通用场景为主，无工业专项	通用场景为主，无工业专项
CPU 推理速度	极快：Tiny 浏览器 97ms，Medium CPU 1.40s	中等，通常秒级	中等，通常秒级
浏览器/前端部署	原生支持（Tiny 档 ONNX/Web）	不支持原生浏览器推理	不支持
幻觉控制	极低（忠实还原率 93.2%）	低，但存在错漏	中等，依赖模型组合

PP-OCRv6的应用场景

移动端与边缘设备实时识别：Tiny 档（1.5M）可在手机、IoT 设备、嵌入式终端上实现毫秒级 OCR，适合离线扫描、快递面单识别等低功耗场景。
浏览器端前端集成：在纯网页环境中通过 ONNX/Web 部署，单图预测低至 97ms，无需后端服务器即可实现用户上传图片的即时文字提取。
文档数字化与档案管理：身份证、驾驶证、营业执照、发票、单据、合同等证件票据的批量结构化提取，结合 PP-StructureV3 输出 JSON/Markdown 格式。
金融与医疗数据录入：凭借极低幻觉率（93.2% 忠实还原），精准识别票据、病历、处方、保单等对准确性要求极高的敏感文本。
工业质检与自动化：新增电路板丝印、数码管读数、CAD 图纸标注、喷码点阵字符、轮胎印刷、工业铭牌等复杂工业场景的自动化检测与识别。
多语言国际化处理：单模型覆盖 50 种语言，适用于跨境电商、外贸单据、多语言说明书、国际化内容审核与翻译预处理。