PaddleOCR

74.9k 10.2k 中等 313 次阅读今天Apache-2.0语言模型图像开发框架其他

AI 解读由 AI 自动生成，仅供参考

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。

面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。

PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

使用场景

某跨境电商企业的财务团队每周需处理数百份来自不同国家的供应商扫描版发票，用于成本核算与报销审核。

没有 PaddleOCR 时

财务人员需手动将图片文字逐字转录到电子表格，耗时巨大且极易出现数字录入错误。
面对混合了英语、日语及特殊符号的复杂发票，通用软件识别率低，常需人工二次校对修正。
提取结果仅为无格式的纯文本，无法直接喂给大模型进行分析，仍需人工整理。

使用 PaddleOCR 后

PaddleOCR 精准定位表格区域，自动区分金额、日期等关键信息，大幅减少人工干预环节。
凭借百种语言支持能力，无缝处理各国本地化票据，无需针对每种语言切换不同的识别引擎。
直接输出 JSON 等结构化数据，不仅可接入 ERP，还能作为高质量上下文输入给大模型进行智能审核。

PaddleOCR 成功打通了图像文档与数字化流程的壁垒，将原本数小时的人工工作压缩至分钟级完成。

运行环境要求

操作系统

Linux
Windows
macOS

GPU

支持 GPU、NPU、XPU，具体型号及显存要求未说明

内存

未说明

依赖

notes支持 MCP Server 集成；提供 PaddleOCR 3.0 及 VL 技术报告；可通过官方网页在线体验

python3.8 ~ 3.13

paddlepaddle>=3.0

快速开始

PaddleOCR 横幅

英语 | 简体中文 | 繁体中文 | 日语 | 韩语 | 法语 | 俄语 | 西班牙语 | 阿拉伯语

PaddleOCR 是一款业界领先的、可直接投入生产的 OCR（光学字符识别）和文档 AI 引擎，提供从文本提取到智能文档理解的端到端解决方案

PaddleOCR

[!TIP] PaddleOCR 现已提供 MCP 服务器（Model Context Protocol），支持集成至 Claude Desktop 等智能体（Agent）应用。详情参见 PaddleOCR MCP 服务器。

PaddleOCR 3.0 技术报告现已发布。详见：PaddleOCR 3.0 技术报告。

PaddleOCR-VL 技术报告现已发布。详见 PaddleOCR-VL 技术报告。

PaddleOCR 官方网站 Beta 版现已上线，提供更便捷的在线体验及大规模 PDF 文件解析，并提供免费 API 和 MCP 服务。更多详情请访问 PaddleOCR 官方网站。

PaddleOCR 将文档和图像转换为结构化、AI 友好的数据（如 JSON 和 Markdown），具备业界领先的准确率——为全球从独立开发者、初创公司到大型企业的各类用户构建 AI 应用赋能。拥有超过60,000 个星标，并深度集成于MinerU, RAGFlow, pathway 和 cherry-studio等领先项目中，PaddleOCR 已成为AI 时代开发者构建智能文档应用的首选方案。

PaddleOCR 3.0 核心功能

PaddleOCR-VL-1.5：面向真实世界文档解析与文本检测（Text Spotting）的 0.9B VLM（视觉语言模型） 一款 SOTA（State-of-the-Art，最先进）且资源高效的模型，专为真实世界文档解析和文本检测任务设计。它在文档解析任务的六大主要场景中实现了全面领先：正常、倾斜、弯曲、扫描、光照变化和屏幕拍摄。它引入了领先的文本检测和印章识别新能力，加强了对复杂元素（如文本、表格、公式和图表）的解析，并将语言支持扩展到 111 种语言——同时保持极低的资源消耗。
PaddleOCR-VL - 通过 0.9B VLM 实现多语言文档解析
专为文档解析量身定制的 SOTA 和资源高效模型，支持 109 种语言，擅长识别复杂元素（例如文本、表格、公式和图表），同时保持最低的资源消耗。
PP-OCRv5 — 通用场景文本识别
单模型支持五种文本类型（简体中文、繁体中文、英文、日文和拼音），准确率提升 13%。解决多语言混合文档识别挑战。
PP-StructureV3 — 复杂文档解析
智能地将复杂的 PDF 和文档图像转换为保留原始结构的 Markdown 和 JSON 文件。在公开基准测试中优于众多商业解决方案。完美保持文档布局和层级结构。
PP-ChatOCRv4 — 智能信息提取
原生集成 ERNIE 4.5，从海量文档中精确提取关键信息，相比上一代准确率提升 15%。使文档能够"理解"您的问题并提供准确答案。

除了提供出色的模型库外，PaddleOCR 3.0 还提供了用户友好的工具，涵盖模型训练、推理和服务部署，使开发人员能够快速将 AI 应用投入生产。

PaddleOCR Architecture

特别提示：PaddleOCR 3.x 引入了若干重要的接口变更。基于 PaddleOCR 2.x 编写的旧代码可能与 PaddleOCR 3.x 不兼容。请确保您阅读的文档与您使用的 PaddleOCR 版本相匹配。本文档解释了升级原因以及从 PaddleOCR 2.x 到 3.x 的主要变更。

📣 近期更新

🔥🔥 2026.1.29：发布 PaddleOCR 3.4.0，包含：

发布 PaddleOCR-VL-1.5：
- 模型介绍：
  - PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新版本，更加关注真实世界场景下的文档解析能力并扩展新功能。依托创新的 PP-DocLayoutV3 算法进行不规则形状定位，它在涉及倾斜、弯曲、扫描、光照变化和屏幕拍摄的自然文档场景中实现了精确的布局分析。紧凑的多模态模型 PaddleOCR-VL-1.5-0.9B 保持了原有的参数量，同时扩展了其在文本检测和印章识别方面的领先能力。语言支持已扩展至 111 种语言，复杂场景中的元素识别能力显著增强。该模型现已在 HuggingFace 上提供。您也可以通过 PaddleOCR 官方网站在线体验或调用 API。
- 核心功能：
  - 文档解析领域的 SOTA 性能： PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准测试上达到了 94.5% 的高精度，超越了顶级全球通用大模型和专用文档解析模型。
  - 五大真实世界场景的 SOTA 性能： 引入创新的文档解析方法，它是首个支持不规则文档布局定位的模型。在所有五个真实世界场景中均优于开源和闭源模型：倾斜、弯曲、扫描、光照变化和屏幕拍摄。
  - 基于 0.9B 紧凑模型的扩展能力： 仅 0.9B 的参数量，PaddleOCR-VL-1.5 将其范围扩展至包括文本检测和印章识别，在这些相关任务中设定了新的 SOTA 结果。
  - 增强的多元素识别： 该模型针对特定场景和多语言内容的识别性能有所提升，包括特殊符号、古籍文本、多语言表格、下划线和复选框。语言覆盖范围已扩展至包括 藏文和孟加拉文。
  - 长文档跨页解析： 该模型支持跨页表格的自动合并以及跨页段落标题的识别，有效解决了长文档解析中的内容碎片化问题。

2025.10.16：发布 PaddleOCR 3.3.0

发布 PaddleOCR-VL：
- 模型介绍：
  - PaddleOCR-VL 是一款 SOTA 且资源高效的模型，专为文档解析量身定制。其核心组件是 PaddleOCR-VL-0.9B，这是一个紧凑而强大的视觉语言模型（VLM），集成了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，以实现准确的元素识别。这款创新模型高效支持 109 种语言，擅长识别复杂元素（例如文本、表格、公式和图表），同时保持最低的资源消耗。通过在广泛使用的公开基准测试和内部基准测试上的综合评估，PaddleOCR-VL 在页面级文档解析和元素级识别方面均实现了 SOTA 性能。它显著优于现有解决方案，在与顶级 VLM 的竞争中表现出强劲的竞争力，并提供了快速的推理速度。这些优势使其非常适合在实际场景中进行部署。该模型已在 HuggingFace 上发布。欢迎大家下载和使用！更多信息可在 PaddleOCR-VL 中找到。
核心功能： - 紧凑而强大的 VLM（视觉语言模型）架构：我们提出了一种专为资源高效推理设计的新型视觉语言模型，在元素识别方面取得了卓越的性能。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合，我们显著增强了模型的识别能力和解码效率。这种集成在降低计算需求的同时保持了高精度，使其非常适合高效且实用的文档处理应用。 - 文档解析的 SOTA（业界领先）性能：PaddleOCR-VL 在页面级文档解析和元素级识别方面均实现了业界领先的性能。它显著优于现有的基于流水线的方法，并在文档解析方面展现出与领先的视觉语言模型（VLMs）竞争的强大实力。此外，它在识别复杂文档元素（如文本、表格、公式和图表）方面表现出色，使其适用于各种具有挑战性的内容类型，包括手写文本和历史文档。这使其具有高度通用性，适用于广泛的文档类型和场景。 - 多语言支持：PaddleOCR-VL 支持 109 种语言，涵盖主要全球语言，包括但不限于中文、英文、日文、拉丁字母语言、韩文，以及具有不同书写系统和结构的语言，如俄语（西里尔字母）、阿拉伯语、印地语（天城文）和泰语。这种广泛的语言覆盖范围显著增强了我们的系统在多语言和全球化文档处理场景中的适用性。
发布 PP-OCRv5 多语言识别模型：
- 提高了拉丁字母识别的准确率和覆盖率；增加了对西里尔字母、阿拉伯语、天城文、泰卢固语、泰米尔语等其他语言系统的支持，涵盖 109 种语言的识别。该模型仅拥有 200 万参数，部分模型的准确率相比上一代提升了超过 40%。

2025.08.21: PaddleOCR 3.2.0 发布

重大模型新增：
- 推出了 PP-OCRv5 英语、泰语和希腊语识别模型的训练、推理和部署。PP-OCRv5 英语模型在英语场景下相比主 PP-OCRv5 模型提升了 11%，泰语和希腊语识别模型的准确率分别达到了 82.68% 和 89.28%。
部署能力升级：
- 完全支持 PaddlePaddle 框架版本 3.1.0 和 3.1.1。
- 全面升级 PP-OCRv5 C++ 本地部署方案，现同时支持 Linux 和 Windows，功能与 Python 实现保持一致，精度相同。
- 高性能推理现在支持 CUDA 12，推理可使用 Paddle Inference 或 ONNX Runtime 后端进行。
- 高稳定性面向服务的部署方案现已完全开源，允许用户根据需要自定义 Docker 镜像和 SDK。
- 高稳定性面向服务的部署方案还支持通过手动构建的 HTTP 请求进行调用，使得可以使用任何编程语言开发客户端代码。
基准测试支持：
- 所有流水线现在都支持细粒度基准测试，能够测量端到端推理时间以及逐层和逐模块的延迟数据，以协助性能分析。这里介绍了如何设置和使用基准测试功能。
- 文档已更新，包含主流硬件上常用配置的关键指标，如推理延迟和内存占用，为用户提供部署参考。
修复问题：
- 解决了模型训练期间日志保存失败的问题。
- 升级了公式模型的数据增强组件以兼容较新版本的 albumentations 依赖项，并修复了在多进程场景中使用 tokenizers 包时的死锁警告。
- 修复了 PP-StructureV3 配置文件中与其他流水线相比开关行为不一致的问题（例如 use_chart_parsing）。
其他增强：
- 分离了核心和可选依赖项。基础文本识别仅需最小核心依赖；可根据需要安装用于文档解析和信息提取的其他依赖项。
- 启用了 Windows 上 NVIDIA RTX 50 系列显卡的支持；用户可以参考安装指南获取相应的 PaddlePaddle 框架版本。
- PP-OCR 系列模型现在支持返回单字符坐标。
- 添加了 AIStudio、ModelScope 等其他模型下载源，允许用户指定模型下载来源。
- 添加了对通过 PP-Chart2Table 模块进行图表转表格转换的支持。
- 优化了文档描述以提高可用性。

2025.08.15: PaddleOCR 3.1.1 发布

修复问题：
- 在 PP-ChatOCRv4 类中添加了缺失的方法 save_vector、save_visual_info_list、load_vector 和 load_visual_info_list。
- 在 PPDocTranslation 类的 translate 方法中添加了缺失的参数 glossary 和 llm_request_interval。
文档改进：
- 在 MCP 文档中添加了演示。
- 在文档中添加了用于性能指标测试所使用的 PaddlePaddle 和 PaddleOCR 版本的信息。
- 修复了流水线文档翻译中的错误和遗漏。
其他：
- 将 MCP 服务器依赖更改为使用纯 Python 库 puremagic 而不是 python-magic，以减少安装问题。
- 使用 PaddleOCR 版本 3.1.0 重新测试了 PP-OCRv5 性能指标并更新了文档。

2025.06.29: PaddleOCR 3.1.0 发布

关键模型与流程（Pipelines）：
- 新增了 PP-OCRv5 多语言文本识别模型，支持 37 种语言（包括法语、西班牙语、葡萄牙语、俄语、韩语等）文本识别模型的训练和推理过程。平均准确率提升了 30% 以上。 详情
- 升级了 PP-StructureV3 中的 PP-Chart2Table 模型，进一步增强了图表转表格的能力。在内部自定义评估集上，指标 (RMS-F1) 增加了 9.36 个百分点 (71.24% -> 80.60%)。
- 全新推出了基于 PP-StructureV3 和 ERNIE 4.5 的 文档翻译流程（PP-DocTranslation），支持 Markdown 格式文档、各种复杂布局 PDF 文档以及文档图像的翻译，并将结果保存为 Markdown 格式文档。详情
新的 MCP 服务器： 详情
- 同时支持 OCR（光学字符识别）和 PP-StructureV3 流程。
- 支持三种工作模式：本地 Python 库、AIStudio 社区云服务以及自托管服务。
- 支持通过 stdio 调用本地服务，通过 Streamable HTTP 调用远程服务。
文档优化： 改进了部分用户指南的描述，以获得更流畅的阅读体验。

2025.06.26：PaddleOCR 3.0.3 发布

- **问题修复：** 解决了 `enable_mkldnn` 参数未生效的问题，恢复了使用 MKL-DNN 进行 CPU 推理的默认行为。

2025.06.19：PaddleOCR 3.0.2 发布

- **新功能：**

默认下载源已从 BOS 更改为 HuggingFace。用户也可以将环境变量 PADDLE_PDX_MODEL_SOURCE 更改为 BOS，将模型下载源设置回百度对象存储 (BOS)。
为 PP-OCRv5、PP-StructureV3 和 PP-ChatOCRv4 等流程添加了六种语言（C++、Java、Go、C#、Node.js 和 PHP）的服务调用示例。
改进了 PP-StructureV3 流程中的布局分区排序算法，增强了复杂垂直布局的排序逻辑，以提供更好的结果。
增强了模型选择逻辑：当指定了语言但未指定模型版本时，系统将自动选择支持该语言的最新模型版本。
设置了 MKL-DNN 缓存大小的默认上限以防止无限增长，同时也允许用户配置缓存容量。
更新了高性能推理的默认配置以支持 Paddle MKL-DNN 加速，并优化了自动配置选择的逻辑以实现更智能的选择。
调整了获取默认设备的逻辑，以考虑已安装的 Paddle 框架对计算设备的实际支持情况，使程序行为更加直观。
添加了 PP-OCRv5 的 Android 示例。详情。
问题修复：
- 修复了 PP-StructureV3 中某些 CLI 参数未生效的问题。
- 解决了在某些情况下 export_paddlex_config_to_yaml 无法正常工作的问题。
- 纠正了 save_path 的实际行为与其文档描述之间的差异。
- 修复了在基础服务部署中使用 MKL-DNN 时的潜在多线程错误。
- 纠正了 Latex-OCR 模型图像预处理中的通道顺序错误。
- 修复了文本识别模块中保存可视化图像时的通道顺序错误。
- 解决了 PP-StructureV3 流程中可视化表格结果的通道顺序错误。
- 修复了 PP-StructureV3 流程中 overlap_ratio 计算在极端特殊情况下的溢出问题。
文档改进：
- 更新了文档中 enable_mkldnn 参数的描述，以准确反映程序的实际行为。
- 修复了关于 lang 和 ocr_version 参数的文档错误。
- 添加了通过 CLI 导出流程配置文件的说明。
- 修复了 PP-OCRv5 性能数据表中缺失的列。
- 完善了不同配置下 PP-StructureV3 的基准测试指标。
其他：
- 放宽了对 numpy 和 pandas 等依赖项的版本限制，恢复了对 Python 3.12 的支持。

历史日志

2025.06.05：PaddleOCR 3.0.1 发布，包含：

部分模型及模型配置的优化：
- 更新了 PP-OCRv5 的默认模型配置，将检测和识别均从移动端模型更改为服务端模型。为了在大多数场景中提高默认性能，配置中的参数 limit_side_len 已从 736 更改为 64。
- 新增了一个准确率为 99.42% 的文本行方向分类模型 PP-LCNet_x1_0_textline_ori。OCR、PP-StructureV3 和 PP-ChatOCRv4 流程的默认文本行方向分类器已更新为此模型。
- 优化了文本行方向分类模型 PP-LCNet_x0_25_textline_ori，准确率提升了 3.3 个百分点，当前准确率为 98.85%。
针对 3.0.0 版本部分问题的优化与修复，详情

🔥🔥2025.05.20：PaddleOCR v3.0 正式发布，包括：

PP-OCRv5：全场景高精度文本识别模型 - 图片/PDF 即时提取文本。
1. 🌐 单模型支持五种文本类型 - 在单个模型内无缝处理简体中文、繁体中文、简体中文拼音、英语和日语。
2. ✍️ 改进了手写体识别：在处理复杂草书和非标准手写体方面显著更好。
3. 🎯 相比 PP-OCRv4 准确率提升 13 个点，在各种真实场景中实现了最先进的性能（SOTA）。
PP-StructureV3：通用文档解析 – 释放 SOTA（最先进）图片/PDF 解析能力以应对真实场景！
1. 🧮 高精度多场景 PDF 解析，在 OmniDocBench 基准测试中领先开源和闭源解决方案。
2. 🧠 专项能力包括印章识别、图表转表格、带嵌套公式/图像的表格识别、竖排文档解析和复杂表格结构分析。
PP-ChatOCRv4: 智能文档理解——从图像/PDF 中提取关键信息，而不仅仅是文本。
1. 🔥 在 PDF/PNG/JPG 文件的关键信息提取方面，相比上一代提升了 15 个百分点的准确率。
2. 💻 原生支持 ERNIE 4.5（文心），并兼容通过 PaddleNLP、Ollama、vLLM 等进行的大模型部署。
3. 🤝 集成 PP-DocBee2，支持提取和理解复杂文档中的印刷文本、手写体、印章、表格、图表等常见元素。

更新日志

⚡ 快速开始

1. 运行在线演示

2. 安装

请参考安装指南安装 PaddlePaddle（飞桨），之后安装 PaddleOCR 工具包。

# If you only want to use the basic text recognition feature (returns text position coordinates and content), including the PP-OCR series
python -m pip install paddleocr
# If you want to use all features such as document parsing, document understanding, document translation, key information extraction, etc.
# python -m pip install "paddleocr[all]"

从 3.2.0 版本开始，除了上述演示的 all 依赖组外，PaddleOCR 还支持通过指定其他依赖组来安装部分可选功能。PaddleOCR 提供的所有依赖组如下：

依赖组名称	对应功能
`doc-parser`	文档解析：可用于从文档中提取布局元素，如表格、公式、印章、图片等；包含 PP-StructureV3、PaddleOCR-VL 等模型
`ie`	信息抽取：可用于从文档中提取关键信息，如姓名、日期、地址、金额等；包含 PP-ChatOCRv4 等模型
`trans`	文档翻译：可用于将文档从一种语言翻译成另一种语言；包含 PP-DocTranslation 等模型
`all`	完整功能

3. 通过 CLI（命令行接口）运行推理

# Run PP-OCRv5 inference
paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png --use_doc_orientation_classify False --use_doc_unwarping False --use_textline_orientation False  

# Run PP-StructureV3 inference
paddleocr pp_structurev3 -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png --use_doc_orientation_classify False --use_doc_unwarping False

# Get the Qianfan API Key at first, and then run PP-ChatOCRv4 inference
paddleocr pp_chatocrv4_doc -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png -k 驾驶室准乘人数 --qianfan_api_key your_api_key --use_doc_orientation_classify False --use_doc_unwarping False 

# Run PaddleOCR-VL inference
paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

# Get more information about "paddleocr ocr"
paddleocr ocr --help

4. 通过 API（应用程序编程接口）运行推理

4.1 PP-OCRv5 示例

# Initialize PaddleOCR instance
from paddleocr import PaddleOCR
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# Run OCR inference on a sample image 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

# Visualize the results and save the JSON results
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

4.2 PP-StructureV3 示例

from pathlib import Path
from paddleocr import PPStructureV3

pipeline = PPStructureV3(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False
)

# For Image
output = pipeline.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_structure_v3_demo.png",
)

# Visualize the results and save the JSON results
for res in output:
    res.print() 
    res.save_to_json(save_path="output") 
    res.save_to_markdown(save_path="output")

4.3 PP-ChatOCRv4 示例

from paddleocr import PPChatOCRv4Doc

chat_bot_config = {
    "module_name": "chat_bot",
    "model_name": "ernie-3.5-8k",
    "base_url": "https://qianfan.baidubce.com/v2",
    "api_type": "openai",
    "api_key": "api_key",  # your api_key
}

retriever_config = {
    "module_name": "retriever",
    "model_name": "embedding-v1",
    "base_url": "https://qianfan.baidubce.com/v2",
    "api_type": "qianfan",
    "api_key": "api_key",  # your api_key
}

pipeline = PPChatOCRv4Doc(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False
)

visual_predict_res = pipeline.visual_predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",
    use_common_ocr=True,
    use_seal_recognition=True,
    use_table_recognition=True,
)

mllm_predict_info = None
use_mllm = False

如果使用多模态大模型（Multimodal Large Model），则需要启动本地多模态大语言模型（MLLM）服务。您可以参考文档：https://github.com/PaddlePaddle/PaddleX/blob/release/3.0/docs/pipeline_usage/tutorials/vlm_pipelines/doc_understanding.en.md 进行部署并更新 mllm_chat_bot_config 配置。

if use_mllm: mllm_chat_bot_config = { "module_name": "chat_bot", "model_name": "PP-DocBee", "base_url": "http://127.0.0.1:8080/", # your local mllm service url "api_type": "openai", "api_key": "api_key", # your api_key }

mllm_predict_res = pipeline.mllm_pred(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/vehicle_certificate-1.png",
    key_list=["驾驶室准乘人数"],
    mllm_chat_bot_config=mllm_chat_bot_config,
)
mllm_predict_info = mllm_predict_res["mllm_res"]

visual_info_list = [] for res in visual_predict_res: visual_info_list.append(res["visual_info"]) layout_parsing_result = res["layout_parsing_result"]

vector_info = pipeline.build_vector( visual_info_list, flag_save_bytes_vector=True, retriever_config=retriever_config ) chat_result = pipeline.chat( key_list=["驾驶室准乘人数"], visual_info=visual_info_list, vector_info=vector_info, mllm_predict_info=mllm_predict_info, chat_bot_config=chat_bot_config, retriever_config=retriever_config, ) print(chat_result)


</details>

<details>
   <summary><strong>4.4 PaddleOCR-VL 示例</strong></summary>

```python
from paddleocr import PaddleOCRVL

pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")
for res in output:
    res.print()
    res.save_to_json(save_path="output")
    res.save_to_markdown(save_path="output")

5. 国产异构 AI 加速器

🧩 更多功能

将模型转换为 ONNX 格式：获取 ONNX 模型。
使用 OpenVINO、ONNX Runtime、TensorRT 等引擎加速推理，或使用 ONNX 格式模型进行推理：高性能推理。
使用多 GPU 和多进程加速推理：流水线并行推理。
将 PaddleOCR 集成到使用 C++、C#、Java 等编写的应用程序中：服务化。

⛰️ 高级教程

🔄 执行结果快速概览

PP-OCRv5

PP-OCRv5 演示

PP-StructureV3

PP-StructureV3 演示

PaddleOCR-VL

PaddleOCR-VL 演示

✨ 敬请期待

⭐ Star 此仓库以关注激动人心的更新和新版本发布，包括强大的 OCR 和文档解析能力！ ⭐

Star 项目

👩‍👩‍👧‍👦 社区

PaddlePaddle 微信公众号	加入技术交流群

😃 利用 PaddleOCR 的精选项目

PaddleOCR 能有今天的成就离不开其令人惊叹的社区！💗 衷心感谢所有长期合作伙伴、新协作者以及每一位为 PaddleOCR 倾注热情的朋友——无论我们是否公开点名。你们的支持是我们前进的动力！

项目名称	描述
RAGFlow	基于深度文档理解的 RAG（检索增强生成）引擎。
pathway	用于流处理、实时分析、LLM（大语言模型）管道和 RAG 的 Python ETL（抽取 - 转换 - 加载）框架。
MinerU	多类型文档转 Markdown 转换工具
Umi-OCR	免费、开源、批量离线 OCR（光学字符识别）软件。
cherry-studio	支持多个 LLM 提供商的桌面客户端。
OmniParser	OmniParser：基于纯视觉的 GUI Agent（图形用户界面智能体）屏幕解析工具。
QAnything	基于任意内容的问答系统。
PDF-Extract-Kit	一个强大的开源工具包，旨在从复杂多样的 PDF 文档中高效提取高质量内容。
Dango-Translator	识别屏幕上的文本，翻译它并实时显示翻译结果。
了解更多项目	更多基于 PaddleOCR 的项目

👩‍👩‍👧‍👦 贡献者

🌟 星标

Star-history

📄 许可证

本项目根据 Apache 2.0 许可证发布。

🎓 引用

@misc{cui2025paddleocr30technicalreport,
      title={PaddleOCR 3.0 Technical Report}, 
      author={Cheng Cui and Ting Sun and Manhui Lin and Tingquan Gao and Yubo Zhang and Jiaxuan Liu and Xueqing Wang and Zelun Zhang and Changda Zhou and Hongen Liu and Yue Zhang and Wenyu Lv and Kui Huang and Yichao Zhang and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2507.05595},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.05595}, 
}

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}

PaddleOCR 快速上手指南

PaddleOCR 是一款工业级、生产就绪的 OCR 和文档 AI 引擎，提供从文本提取到智能文档理解的端到端解决方案。支持 100+ 种语言，兼容 CPU、GPU、XPU 及 Ascend NPU 等多种硬件。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, Windows, macOS
Python 版本：3.8 ~ 3.13
硬件支持：CPU, NVIDIA GPU, Kunlunxin XPU, Ascend NPU
核心依赖：PaddlePaddle (飞桨深度学习框架)

💡 提示：推荐使用 NVIDIA GPU 以获得最佳推理性能。若使用国内网络，建议配置镜像源以加速下载。

2. 安装步骤

2.1 安装 PaddlePaddle

根据您的需求选择 CPU 或 GPU 版本的 PaddlePaddle。国内用户建议使用清华大学开源软件镜像站加速。

# 安装 CPU 版本
pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 GPU 版本 (需已安装 CUDA 环境)
pip install paddlepaddle-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple

2.2 安装 PaddleOCR

安装完成后，通过 PyPI 获取 PaddleOCR 包：

pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple

⚠️ 注意：首次运行时，PaddleOCR 会自动下载默认模型文件（约几百 MB），请确保网络连接稳定。

3. 基本使用

3.1 Python API 调用

最简单的方式是直接使用 PaddleOCR 类进行图像识别。

from paddleocr import PaddleOCR

# 初始化 OCR 对象 (默认加载中英文模型)
ocr = PaddleOCR(use_angle_cls=True, lang="ch")

# 对图片进行识别
img_path = 'test_image.jpg'
result = ocr.ocr(img_path, cls=True)

# 打印结果
for line in result:
    print(line)

3.2 命令行工具

您也可以直接在终端运行预测脚本，无需编写代码：

# 基础文字识别
python tools/infer/predict_system.py --image_dir=./docs/imgs_en/

# 表格识别 (需要额外安装 tabnet 相关依赖)
python tools/infer/predict_table.py --image_dir=./docs/imgs/table/

3.3 高级功能

PaddleOCR 还支持文档版面分析、公式识别及多模态理解（PaddleOCR-VL）。更多详细用法请参考官方文档或访问 PaddleOCR 官网。

版本历史

v3.4.02026/01/29

v3.3.32026/01/20

v3.3.22025/11/13

v3.3.12025/10/29

v3.3.02025/10/16

v3.2.02025/08/21

v3.1.12025/08/15

v3.1.02025/06/29

v3.0.32025/06/26

v3.0.22025/06/18

v3.0.12025/06/05

v3.0.02025/05/20

v2.10.02025/03/07

v2.9.12024/10/22

v2.9.02024/10/18

v2.8.12024/07/17

v2.8.02024/07/04

v2.7.52024/03/29

v2.7.42024/03/29

v2.7.32024/03/28

常见问题

ONNX 推理时是否需要获取固定的输入形状？

PaddleLabel 启动时调用的是环境中的 PaddleOCR 而非本地代码，如何解决？

图像处理中遇到通道数不匹配问题怎么办？

PyQt 开发中遇到 float 隐式转 int 报错如何处理？

图像 resize 预处理环节存在什么问题？

PaddleLabel 自动标注使用的模型是否可以修改？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架