MinerU
MinerU 是一款专为大语言模型(LLM)打造的文档解析工具,旨在将复杂的 PDF 文件高效转化为机器易读的 Markdown 或 JSON 格式。在日常工作中,许多用户面临从扫描版论文、技术手册或包含复杂排版的文档中提取高质量文本的难题,传统方法往往难以保留原有的公式、表格和结构信息,导致后续 AI 处理效果不佳。MinerU 正是为了解决这一痛点而生,它能精准识别并还原文档中的多栏布局、数学公式及图表内容,确保输出数据干净、结构化,直接适配各类智能体(Agentic)工作流。
这款工具特别适合开发者、数据科学家以及需要构建知识库的研究人员使用。无论是希望微调专属模型的算法工程师,还是试图搭建企业级 RAG(检索增强生成)系统的技术团队,MinerU 都能提供强有力的支持。其核心技术亮点在于对复杂版面分析的深度优化,不仅支持批量处理,还能在保持高准确率的同时,大幅降低数据清洗的人力成本。通过 MinerU,用户可以轻松打通从原始文档到 AI 应用的数据链路,让非结构化文档真正变成可被智能体理解的高价值资产。
使用场景
某金融科技公司的数据团队需要构建一个基于大模型的财报分析助手,首要任务是将数千份包含复杂表格、公式和多栏排版的上市公司 PDF 年报转化为高质量的结构化数据。
没有 MinerU 时
- 排版混乱导致信息丢失:直接提取的文本往往打乱原有的多栏布局,导致段落顺序错乱,大模型无法理解上下文逻辑。
- 表格与公式解析失败:PDF 中的关键财务表格被拆解为无意义的纯文本,数学公式变成乱码,严重阻碍量化分析。
- 人工清洗成本极高:工程师需编写大量脆弱的正则规则或安排专人手动校对,处理一份百页财报平均耗时数小时。
- 非结构化数据难利用:由于缺乏统一的 Markdown 或 JSON 格式,后续的智能体(Agent)工作流难以自动调用这些数据进行推理。
使用 MinerU 后
- 完美还原文档结构:MinerU 精准识别并重组多栏排版,输出的 Markdown 完整保留了标题层级和阅读顺序,确保语义连贯。
- 高精度还原图表公式:自动将复杂财务报表转换为标准的 Markdown 表格,并将数学公式转为 LaTeX 格式,直接可供计算引擎使用。
- 自动化流程效率倍增:无需人工干预,MinerU 可在分钟级内完成单份财报的清洗与转换,整体数据处理效率提升数十倍。
- 无缝对接智能体工作流:生成的标准化 JSON/Markdown 数据可直接喂给下游 LLM,让财报分析助手能立即执行趋势预测和风险预警任务。
MinerU 通过将“死”的复杂文档瞬间转化为大模型可理解的“活”数据,彻底打通了从原始资料到智能决策的最后一公里。
运行环境要求
- Linux
- macOS
- Windows
- 非必需
- 支持纯 CPU 运行(pipeline 后端)
- 若使用 VLM 引擎或追求高精度/高吞吐,建议使用 NVIDIA GPU(支持 CUDA),并兼容国产 AI 芯片(如昇腾、寒武纪等)
- 具体显存和 CUDA 版本未在片段中明确说明
未说明(提及 pipeline 后端资源占用极低)

快速开始
[](https://github.com/opendatalab/MinerU)
[
| 推理后端 | 最佳适用场景 |
|---|---|
| pipeline | 速度快且稳定,无幻觉,可在 CPU 或 GPU 上运行 |
| vlm-engine | 精度高,支持 vLLM / LMDeploy / mlx 生态系统 |
| hybrid-engine | 精度高,原生文本提取,幻觉少 |
国产 AI 芯片:Ascend · Cambricon · Enflame · MetaX · Moore Threads · Kunlunxin · Iluvatar · Hygon · Biren · T-Head
更改日志
2026年3月29日 3.0.0 发布
本次发布围绕 解析能力、系统架构和工程可用性 进行了系统性升级。主要更新包括:
- 原生
DOCX解析- 正式支持原生
DOCX解析,结果精确无幻觉。 - 相比于传统先将
DOCX转为PDF再解析的工作流程,端到端速度提升了数十倍,更适合对准确性和吞吐量都有较高要求的场景。
- 正式支持原生
pipeline后端升级pipeline后端在 OmniDocBench (v1.5) 上得分达到86.2,超越了上一代主流 VLMMinerU2.0-2505-0.9B的准确率。- 新增支持解析表格内的图片/公式、印章文字识别、竖排文本支持以及行间公式编号识别等功能,持续提升复杂文档场景下的解析质量。
- 在保持高精度的同时,资源占用极低,继续支持纯 CPU 环境下的推理。
API / CLI / Router编排升级mineru现在以mineru-api为基础运行编排客户端;当未提供--api-url时,会自动启动本地临时服务。mineru-api新增异步任务接口POST /tasks,支持任务提交、状态查询和结果获取;同时保留同步解析接口POST /file_parse,以兼容旧版插件。- 新增
mineru-router,专为多服务、多 GPU 环境下的统一入口部署及任务路由设计;其接口与mineru-api完全兼容,支持自动任务负载均衡。
- 部署与可用性改进
- 解决了与
torch >= 2.8的兼容性问题;基础镜像已升级至vllm0.11.2 + torch2.9.0,统一了不同计算能力下的安装路径。 - 优化了解析管道中的滑动窗口机制,大幅降低了长文档场景下的峰值内存使用,数万页的文档不再需要手动拆分。
pipeline中的批处理推理现在支持流式写入磁盘,已完成的解析结果可以及时写出,进一步改善长时间任务的体验。- 完成了线程安全优化,全面支持多线程并发推理;结合
mineru-router,实现了多 GPU 的一键部署,轻松构建高并发、高吞吐量的解析系统。 - 彻底移除了两个 AGPLv3 许可模型(
doclayoutyolo和mfd_yolov8)以及一个 CC-BY-NC-SA 4.0 许可模型(layoutreader)。
- 解决了与
本次更新不仅是功能上的增强,更是 MinerU 整体系统能力的一次关键飞跃。我们特别解决了长文档解析中的峰值内存问题。通过滑动窗口和流式写盘等优化措施,超长文档解析已从“需手动拆分、小心处理”转变为“稳定、可扩展,可直接用于生产工作负载”。与此同时,我们完成了线程安全优化,全面启用了多线程并发推理,进一步提升了单机资源利用率和高并发工作负载下的运行稳定性。在此基础上,借助
mineru-router和全新的API / CLI编排框架,MinerU 现已支持多 GPU 的一键部署、多服务间的统一接入以及任务的自动负载均衡,大大降低了大规模部署的难度。因此,MinerU 正在从一款独立的数据生产工具,演变为面向高并发、高吞吐量场景的大规模文档解析基础平台,为企业级文档数据处理提供更加稳定、高效且易于扩展的基础设施。- 原生
📝 查看完整 更改日志 获取更多历史版本信息
MinerU
项目介绍
MinerU 是一款文档解析工具,可将 PDF、图像和 DOCX 格式的输入转换为机器可读的格式,如 Markdown 和 JSON,以便进行下游的检索、提取和处理。
MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展贡献力量。
与知名的商业产品相比,MinerU 仍处于起步阶段。如果您遇到任何问题或结果不符合预期,请在 issue 上提交问题,并 附上相关文档或示例文件。
https://github.com/user-attachments/assets/4bea02c9-6d54-4cd6-97ed-dff14340982c
核心功能
- 支持
PDF、图像和DOCX输入。 - 去除页眉、页脚、脚注、页码等,确保语义连贯性。
- 按照人类阅读顺序输出文本,适用于单栏、多栏及复杂布局。
- 保留原始文档的结构,包括标题、段落、列表等。
- 提取图片、图片说明、表格、表标题和脚注。
- 自动识别并把文档中的公式转换为 LaTeX 格式。
- 自动识别并把文档中的表格转换为 HTML 格式。
- 自动检测扫描版 PDF 和乱码 PDF,并启用 OCR 功能。
- OCR 支持 109 种语言的检测与识别。
- 支持多种输出格式,如多模态和 NLP Markdown、按阅读顺序排序的 JSON,以及丰富的中间格式。
- 支持多种可视化结果,包括布局可视化和跨度可视化,以高效确认输出质量。
- 内置 CLI、FastAPI 和 Gradio WebUI,便于本地编排和多服务部署。
- 支持纯 CPU 环境运行,同时也支持 GPU(CUDA)/NPU(CANN)/MPS 加速。
- 兼容 Windows、Linux 和 Mac 平台。
快速开始
如果在安装过程中遇到任何问题,请先参阅 常见问题解答。 如果解析结果不符合预期,请参考 已知问题。
在线体验
官方在线 Web 应用
官方在线版本与客户端功能相同,界面美观、功能丰富,需登录后使用。
基于Gradio的在线演示
基于Gradio开发的Web界面,界面简洁,仅提供核心解析功能,无需登录
本地部署
[!WARNING] 安装前须知—硬件与软件环境支持
为确保项目的稳定性和可靠性,我们在开发过程中仅针对特定的硬件和软件环境进行优化和测试。这样可以保证用户在推荐的系统配置上部署和运行项目时,能够获得最佳性能并减少兼容性问题。
通过将资源集中在主流环境中,我们的团队可以更高效地解决潜在的bug并开发新功能。
在非主流环境中,由于硬件和软件配置的多样性以及第三方依赖的兼容性问题,我们无法保证项目100%可用。因此,对于希望在非推荐环境下使用本项目的人士,建议先仔细阅读文档和常见问题解答。大多数问题在FAQ中已有相应的解决方案。我们也鼓励社区反馈,以帮助我们逐步扩大支持范围。
| 解析后端 | pipeline | *-auto-engine | *-http-client | ||
|---|---|---|---|---|---|
| hybrid | vlm | hybrid | vlm | ||
| 后端特性 | 兼容性好 | 硬件要求高 | 适用于OpenAI兼容服务器2 | ||
| 准确率1 | 86+ | 90+ | |||
| 操作系统 | Linux3 / Windows4 / macOS5 | ||||
| 纯CPU支持 | ✅ | ❌ | ✅ | ||
| GPU加速 | Volta及更高架构的GPU或Apple Silicon | 无需 | |||
| 最小显存 | 4GB | 8GB | 8GB | 2GB | |
| 内存 | 最低16GB,推荐32GB及以上 | 最低16GB | |||
| 磁盘空间 | 最低20GB,建议使用SSD | 最低2GB | |||
| Python版本 | 3.10-3.13 | ||||
1 准确率指标基于MinerU最新版本,在OmniDocBench(v1.5)中的端到端评估总分。
2 兼容OpenAI API的服务器,例如本地模型服务器或通过vLLM/SGLang/LMDeploy等推理框架部署的远程模型服务。
3 Linux仅支持2019年及以后发布的发行版。
4 由于关键依赖项ray在Windows上不支持Python 3.13,因此仅支持3.10~3.12版本。
5 macOS需要14.0或更高版本。
安装MinerU
使用pip或uv安装MinerU
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
从源代码安装MinerU
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]
[!TIP]
mineru[all]包含所有核心功能,兼容Windows / Linux / macOS系统,适合大多数用户。 如果您需要指定VLM模型的推理框架,或者仅打算在边缘设备上安装轻量级客户端,请参阅文档中的扩展模块安装指南。
使用Docker部署MinerU
MinerU提供了便捷的Docker部署方式,可以帮助快速搭建环境并解决一些棘手的环境兼容性问题。 您可以在文档中找到Docker部署说明。
使用MinerU
如果您的设备符合上表中的GPU加速要求,您可以使用简单的命令行进行文档解析:
mineru -p <input_path> -o <output_path>
如果您的设备不符合GPU加速要求,可以将后端指定为pipeline,以便在纯CPU环境下运行:
mineru -p <input_path> -o <output_path> -b pipeline
mineru目前支持本地PDF、图像和DOCX文件或目录输入,并可通过CLI、API、WebUI以及mineru-router进行文档解析。有关详细说明,请参阅使用指南。
待办事项
- 基于模型的阅读顺序
- 主文中
index和list的识别 - 表格识别
- 标题分类
- 手写文本识别
- 竖排文本识别
- 拉丁文重音符号识别
- 主文中代码块识别
- 化学式识别(mineru.net)
- 几何形状识别
已知问题
- 阅读顺序由模型根据可读内容的空间分布决定,在布局极其复杂的区域可能会出现顺序错乱。
- 对竖排文本的支持有限。
- 目录和列表通过规则识别,某些不常见的列表格式可能无法被识别。
- 布局模型中尚未支持代码块。
- 漫画书、艺术画册、小学教材和练习册等难以很好地解析。
- 表格识别在复杂表格中可能出现行列识别错误。
- OCR识别在小语种PDF中可能出现字符不准确的情况(如拉丁字母中的变音符号、阿拉伯文字中容易混淆的字符)。
- 部分公式在Markdown中可能无法正确渲染。
常见问题解答
- 如果在使用过程中遇到任何问题,您可以先查看常见问题解答以寻找解决方案。
- 如果问题仍未解决,您也可以使用DeepWiki与AI助手互动,它能够解决大多数常见问题。
- 如果仍然无法解决问题,欢迎您通过Discord或微信加入我们的社区,与其他用户和开发者交流讨论。
感谢所有贡献者
许可证信息
本仓库中的源代码采用AGPLv3许可证。
致谢
- UniMERNet
- TableStructureRec
- PaddleOCR
- PaddleOCR2Pytorch
- fast-langdetect
- pypdfium2
- pdftext
- pdfminer.six
- pypdf
- magika
- vLLM
- LMDeploy
引用
@article{dong2026minerudiffusion,
title={MinerU-Diffusion: 将文档OCR重新思考为基于扩散解码的逆向渲染},
author={Dong, Hejun and Niu, Junbo and Wang, Bin and Zeng, Weijun and Zhang, Wentao and He, Conghui},
journal={arXiv预印本 arXiv:2603.22458},
year={2026}
}
@article{niu2025mineru2,
title={Mineru2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型},
author={Niu, Junbo and Liu, Zheng and Gu, Zhuangcheng and Wang, Bin and Ouyang, Linke and Zhao, Zhiyuan and Chu, Tao and He, Tianyao and Wu, Fan and Zhang, Qintong et al.},
journal={arXiv预印本 arXiv:2509.22186},
year={2025}
}
@article{wang2024mineru,
title={Mineru:一种开源的精确文档内容提取解决方案},
author={Wang, Bin and Xu, Chao and Zhao, Xiaomeng and Ouyang, Linke and Wu, Fan and Zhao, Zhiyuan and Xu, Rui and Liu, Kaiwen and Qu, Yuan and Shang, Fukai et al.},
journal={arXiv预印本 arXiv:2409.18839},
year={2024}
}
@article{he2024opendatalab,
title={Opendatalab:以开放数据集赋能通用人工智能},
author={He, Conghui and Li, Wei and Jin, Zhenjiang and Xu, Chao and Wang, Bin and Lin, Dahua},
journal={arXiv预印本 arXiv:2407.13773},
year={2024}
}
星标历史
链接
版本历史
mineru-3.0.8-released2026/04/03mineru-3.0.7-released2026/04/01mineru-3.0.6-released2026/04/01mineru-3.0.5-released2026/03/31mineru-3.0.4-released2026/03/30mineru-3.0.3-released2026/03/30mineru-3.0.1-released2026/03/29mineru-3.0.0-released2026/03/28mineru-2.7.6-released2026/02/06mineru-2.7.5-released2026/02/02mineru-2.7.4-released2026/01/30mineru-2.7.3-released2026/01/26mineru-2.7.2-released2026/01/23mineru-2.7.1-released2026/01/06mineru-2.7.0-released2025/12/30mineru-2.6.8-released2025/12/15mineru-2.6.7-released2025/12/12mineru-2.6.6-released2025/12/01mineru-2.6.5-released2025/11/26mineru-2.6.4-released2025/11/04常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
