grobid
GROBID 是一款专注于学术文献处理的机器学习软件,旨在将非结构化的 PDF 文档(如科研论文)自动转换为结构清晰、机器可读的 XML/TEI 格式数据。它有效解决了研究人员和开发者在面对海量纸质或电子文献时,难以高效、准确地提取标题、摘要、作者、参考文献及正文段落等关键信息的痛点,让杂乱无章的文档变得井然有序。
这款工具特别适合需要构建文献数据库、进行大规模文本挖掘的科研人员、数据工程师以及数字图书馆开发者使用。无论是处理生物医学领域的 PubMed Central 文献,还是预印本平台 bioRxiv 的文章,GROBID 都能胜任。其技术亮点在于采用了先进的深度学习模型,在参考文献解析和引用上下文识别上表现卓越,F1 分数高达 0.87 至 0.95。此外,它还能精准提取文本在原始 PDF 中的坐标位置,支持生成可交互的“增强型”文档,并能自动通过 DOI 或 PMID 对引文进行校验与补全。作为一个自 2008 年起步并持续维护的开源项目,GROBID 以其高精度和稳定性,成为了学术数据挖掘领域值得信赖的基础设施。
使用场景
某高校图书馆正在构建学术资源知识图谱,需要从海量 PDF 论文中自动提取标题、作者、摘要及参考文献等元数据。
没有 grobid 时
- 研究人员只能依靠正则表达式或简单的文本解析库处理 PDF,面对双栏排版、页眉页脚干扰时提取准确率极低,大量数据需要人工清洗。
- 参考文献列表往往被识别为一整段混乱的文本,无法自动区分作者、期刊名、年份和 DOI,导致引文网络分析无法开展。
- 不同出版社的论文格式差异巨大,每适配一种新模板都需要编写新的解析规则,开发维护成本高昂且难以扩展。
- 提取出的结构化数据缺失严重,缺乏坐标信息,无法回溯原文位置进行校验,后续数据融合工作举步维艰。
使用 grobid 后
- 利用 grobid 预训练的深度学习模型,直接输入原始 PDF 即可高精度提取标题、摘要、作者单位等关键字段,自动忽略版面噪声。
- grobid 能将杂乱的参考文献列表解析为结构化的 XML/TEI 格式,精准分离出作者、刊名、卷期号及 DOI,并自动关联引用上下文。
- 无需针对特定期刊编写规则,grobid 泛化能力强,一套模型即可处理来自 IEEE、Springer、Elsevier 等不同出版商的复杂排版文档。
- 输出结果包含每个字段的 PDF 坐标信息,支持生成可交互的增强型文档,同时提供标准化的日期和姓名格式,极大便利了数据入库与对齐。
grobid 将非结构化的学术文档瞬间转化为机器可读的高质量结构化数据,让大规模文献挖掘从“手工劳作”变为“自动化流水线”。
运行环境要求
- Linux (64 bits)
- macOS (Intel and ARM)
- 可选
- 需要支持 CUDA 的 NVIDIA GPU 以加速深度学习模型(默认配置不使用 GPU,仅使用 CRF 模型)
- 具体显存大小和 CUDA 版本未在文中明确说明
未说明(示例中提到 32GB RAM 用于高并发处理,但非最低启动要求)

快速开始
GROBID
[!提示] 从这里开始使用。
概述
GROBID(或 Grobid,但不是 GroBid 或 GroBiD)代表 GeneRation Of BIbliographic Data。
GROBID 是一个机器学习库,用于从 PDF 等原始文档中提取、解析并重新构建为结构化的 XML/TEI 编码文档,尤其专注于技术和科学出版物。该项目最早于 2008 年作为一项业余爱好启动,灵感来源于法国 Inria 的 Laurent Romary 的建议。2011 年,该工具以开源形式发布。自始至终,GROBID 一直作为一个副业项目稳步发展,并预计将继续保持这种状态,这在很大程度上得益于 Inria 的持续支持。
以下是 GROBID 提供的主要功能:
- 从 PDF 格式的文章中__提取和解析页眉信息__,涵盖常见的书目信息(如标题、摘要、作者、单位、关键词等)。
- 从 PDF 格式的文章中__提取和解析参考文献__,在独立的 PubMed Central 数据集(包含 1943 个 PDF,共 90,125 条参考文献)上的 F1 分数约为 0.87;在类似的 bioRxiv 数据集(2000 个 PDF)上的 F1 分数约为 0.90,均采用深度学习引用模型。所有常规的出版元数据(包括 DOI、PMID 等)均可覆盖。
- 对文章中的完整书目引用进行__引用上下文识别与解析__,其准确率在不同评估数据集上介于 0.76 至 0.91 F1 分数之间,这既包括正确识别引用标记,也包括将其与完整的书目引用正确关联。
- 从 PDF 文章中__提取和结构化全文__,包括用于整体文档分割的模型以及用于文本主体结构化的模型(段落、章节标题、参考文献和脚注标记、图表、表格、数据可用性声明等)。
- 提供提取信息的__PDF 坐标__,允许基于已识别结构的边界框创建“增强型”交互式 PDF。
- 对__孤立的参考文献__进行解析(实例级别 F1 分数超过 0.90,字段级别 F1 分数达到 0.95,采用深度学习模型)。
- 解析姓名(如称谓、名、中间名等),特别是页眉中的作者姓名以及参考文献中的作者姓名(分别使用不同的模型)。
- __解析单位和地址__块。
- 解析日期,输出 ISO 标准格式的日、月、年。
- 使用 biblio-glutton 服务或 CrossRef REST API 对提取的书目引用进行__整合/解析__。在这两种情况下,从 PDF 提取到 DOI/PMID 解析的性能均高于 0.95 F1 分数。
- 在专利类出版物中__提取和解析专利及非专利引用__。
- 提取资助方及资助信息,并可选择将提取的资助方与 CrossRef 资助方注册表进行匹配。
- 识别文档的版权持有者及许可类型,例如出版社或作者的版权,以及 CC-BY、CC-BY-NC 等许可协议。
在完整的 PDF 处理流程中,GROBID 使用 68 种最终标签来构建相对细粒度的结构,涵盖传统的出版元数据(标题、作者的姓/名/中间名、单位类型、详细地址、期刊、卷、期、页码、DOI、PMID 等)以及全文结构(章节标题、段落、参考文献标记、页眉/页脚注释、图表说明等)。
GROBID 包含一个全面的__Web 服务 API、Docker 镜像、批处理功能、一个 JAVA API,以及一个通用的训练与评估框架(精确率、召回率等,n 折交叉验证),并提供针对数千份文档的系统性端到端基准测试_,以及半自动化的训练数据生成功能。
GROBID 可被视为已具备生产就绪条件。其在生产环境中的部署案例包括 ResearchGate、Semantic Scholar、HAL 研究档案库、scite.ai、Academia.edu、Internet Archive Scholar、INIST-CNRS、CERN(Invenio)等众多机构。该工具专为速度和高可扩展性而设计,旨在应对整个科学文献语料库的需求。
需求
- OpenJDK 21:用于从源代码构建 GROBID
- Linux(64位)或 macOS(Intel 和 ARM):用于原生构建
- 【可选】Python 3.10–3.11,配备 JEP 支持,用于深度学习模型
- 【可选】支持 CUDA 的 NVIDIA GPU:用于加速深度学习模型
有关详细的安装说明,包括 JDK 设置和特定平台的要求,请参阅【安装文档】(doc/Install-Grobid.md)。
如果您是从早期版本升级而来,请参阅【升级指南】(doc/Upgrading.md),以获取特定版本的迁移注意事项。
GROBID 在 Linux(64位)以及 macOS(Intel 和 ARM)上应能“开箱即用”地正常运行。目前我们无法像以前那样确保对 Windows 的支持(欢迎提供帮助!)。
GROBID 使用依赖于 DeLFT 库的深度学习模型。DeLFT 是一个与任务无关的深度学习框架,适用于序列标注和文本分类,并通过 JEP 进行集成。GROBID 可以运行深度学习架构(RNN 或 Transformer,无论是否包含布局特征通道),也可以使用特征工程的 CRF(默认设置),或者将 CRF 和 DL 混合使用,以在可扩展性和准确性之间取得平衡。这些模型会利用 pdfalto 提供的文本、视觉和布局联合信息。
请注意,默认配置中不会启用深度学习模型,仅使用 CRF,以便适应“开箱即用”的硬件环境。若要提升准确性,您需要根据自身需求和硬件条件(尤其是 GPU 的可用性及运行时要求)在 GROBID 配置文件中【选择深度学习模型】(https://grobid.readthedocs.io/en/latest/Deep-Learning-models/#recommended-deep-learning-models)。**某些 GROBID 深度学习模型的表现显著优于默认的 CRF**,尤其是在参考文献解析方面,因此建议考虑启用这些模型,以更有效地使用该工具。
演示
演示服务器
出于测试目的,借助 Hugging Face Spaces,现已提供两台公开的 GROBID 演示服务器。
一台结合了深度学习模型和 CRF 模型的 GROBID 演示服务器位于以下地址:https://grobidOrg-grobid.hf.space/。不过,该演示仅在 CPU 上运行。如果您为自己的服务器部署配备了 GPU,则运行速度将大幅提升。
另一台仅使用 CRF 模型的更快演示服务器位于:https://grobidOrg-grobid-crf.hf.space/。然而,其准确率较低。
Web 服务的相关文档请参见:[https://grobid.readthedocs.io/en/latest/Grobid-service/]。
警告:演示服务器存在配额和查询限制!请文明使用,不要过度占用服务器资源。对于任何正式工作,您都需要部署并使用自己的 Grobid 服务器。有关如何轻松完成此操作并启用部分深度学习模型,请参阅【GROBID 与 Docker 容器文档】(https://grobid.readthedocs.io/en/latest/Grobid-docker/)。
在 Play With Docker 中试用
请等待 30 秒,待 Grobid 容器创建完毕后再打开浏览器并访问端口 8080。此演示容器仅运行 CRF 模型。需要注意的是,首次处理 PDF 时,由于是在“冷”容器上加载模型,还需额外等待 60 秒。之后,该 Grobid 容器将为您保留 4 小时。
客户端
为了便于大规模使用 GROBID 服务,我们提供了基于 Python、Java 和 Node.js 的客户端,它们通过【Web 服务】(https://grobid.readthedocs.io/en/latest/Grobid-service/) 实现并行批处理:
- Python GROBID 客户端(在支持的服务和选项方面最为全面)
- Java GROBID 客户端
- Node.js GROBID 客户端
此外,还有一款第三方 Go 客户端,功能与 Python 客户端类似:
所有这些客户端都将利用多线程技术来扩展大规模 PDF 处理能力。因此,它们的效率远高于【批处理命令行】(https://grobid.readthedocs.io/en/latest/Grobid-batch/)(后者仅使用单线程),建议优先使用。
例如,我们曾使用上述 Node.js 客户端,在一台 16 核 CPU 的机器上(16 个线程,32GB 内存,无 SSD,数据来自主流出版商的文章)连续一周实现了每秒约 10.6 份 PDF 的全文处理速度(约合每天 915,000 份 PDF,每天约 2,000 万页)。详情请参见:[https://github.com/kermitt2/grobid/issues/443#issuecomment-505208132](2 台服务器在 6 天内不间断地处理了 1,130 万份 PDF)。
此外,还有一个 Java 示例项目,展示了如何将 GROBID 作为 Java 库进行使用:[https://github.com/kermitt2/grobid-example]。该项目利用 GROBID Java API 从 PDF 中提取标题元数据和引用信息,并以 BibTeX 格式输出结果。
最后,以下 Python 工具可用于创建结构化的科学论文全文语料库。该工具只需输入 DOI 或 PMID 等强标识符列表,即可实现在线开放获取 PDF 的识别、全文抓取、元数据聚合以及 GROBID 处理的一体化流程,且可大规模运行:article-dataset-builder
GROBID 的工作原理
请访问描述该系统的文档页面。简而言之,GROBID 的关键设计原则如下:
GROBID 使用一个【序列标注模型的级联】来解析文档。
不同的模型并非直接处理文本,而是基于【布局标记】进行操作,以便利用每个标记所包含的各种视觉和布局信息。
GROBID 并不使用源自现有出版商 XML 文档的训练数据,而是采用【小规模、高质量的数据集】作为手动标注的训练数据。
技术选择和【默认设置】以能够在普通硬件上快速处理 PDF 文件,并具备良好的并行化和可扩展性为目标。
详细的端到端【基准测试】可在【GROBID 文档】中找到,并会持续更新。
GROBID 模块
为了在学术 PDF 上直接进行__结构感知__的文本挖掘,我们开发了一系列附加模块,这些模块复用了 GROBID 的 PDF 处理和序列标注技术:
- software-mention:识别科学文献中的软件提及及其相关属性
- datastet:识别科学论文中介绍数据集的章节和句子,识别数据集名称及属性(隐式和命名的数据集),并对数据集类型进行分类
- grobid-quantities:识别并归一化物理量/测量值
- grobid-superconductors:识别科学文献中的超导材料及其特性
- entity-fishing,一种从文本和文档中提取 Wikidata 实体的工具,它还可以利用 Grobid 对 PDF 格式的科学论文进行预处理,从而实现更精确、更相关的实体提取,并能够为 PDF 添加交互式布局标注
- grobid-ner:命名实体识别
- grobid-astro:识别科学论文中的天文学实体
- grobid-bio:基于 BioNLP/NLPBA 2004 数据集的生物实体标注器
- grobid-dictionaries:对原始 PDF 格式的词典进行结构化处理
发布与变更
请参阅【变更日志】(CHANGELOG.md)。
许可证
GROBID 依据【Apache 2.0 许可证】进行分发。
文档依据【CC-0 许可证】分发,而标注数据则依据【CC-BY 许可证】分发。
如果您为 GROBID 做出贡献,即表示您同意按照这些许可证共享您的贡献。
主要作者及联系方式:Patrice Lopez (patrice.lopez@science-miner.com)
赞助商
ej-technologies 为我们提供了其 Java Profiler 的免费开源许可证。请点击下方的 JProfiler 标志了解更多详情。
JetBrains 也为我们提供了开发用的免费许可证:
如何引用
如果您希望引用本软件,请参考当前的 GitHub 项目,同时注明【Software Heritage】项目级别的永久标识符。
例如,BibTeX 格式可以写成如下形式:
@misc{grobid,
title = {GROBID},
howpublished = {\url{https://github.com/grobidOrg/grobid}},
publisher = {GitHub},
date = {2008/},
archivePrefix = {swh},
eprint = {1:dir:dab86b296e3c3216e2241968f0d63b68e8209d3c}
}
[!TIP] 若要获取最新的 SWID,您可以使用以下命令行(需安装
curl和jq):
curl -s "https://archive.softwareheritage.org/api/1/origin/https://github.com/grobidOrg/grobid/visit/latest/" \
-H "Accept: application/json" | jq -r '.snapshot' | \
xargs -I {} curl -s "https://archive.softwareheritage.org/api/1/snapshot/{}/" | \
jq -r '.branches["refs/heads/master"].target' | \
xargs -I {} echo "swh:1:dir:{}"
swh:1:dir:324a18113b0c7624a66a21550bd0e8522e328b4e
更多相关资源请参阅【GROBID 文档】(https://grobid.readthedocs.org/en/latest/References)。
版本历史
0.9.02026/04/070.8.22025/05/110.8.12024/09/140.8.02023/11/260.7.32023/05/130.7.22022/11/210.7.12022/04/160.7.02021/07/170.6.22021/03/200.6.12020/08/120.6.02020/04/240.5.62019/10/160.5.52019/05/280.5.42019/02/120.5.32018/12/100.5.22018/10/170.5.12018/01/290.5.02017/11/09grobid-parent-0.4.42017/10/13grobid-parent-0.4.32017/10/07常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器


