[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-grobidOrg--grobid":3,"tool-grobidOrg--grobid":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160015,2,"2026-04-18T11:30:52",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":74,"owner_location":74,"owner_email":74,"owner_twitter":74,"owner_website":74,"owner_url":75,"languages":76,"stars":116,"forks":117,"last_commit_at":118,"license":119,"difficulty_score":10,"env_os":120,"env_gpu":121,"env_ram":122,"env_deps":123,"category_tags":131,"github_topics":132,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":144,"updated_at":145,"faqs":146,"releases":176},9212,"grobidOrg\u002Fgrobid","grobid","A machine learning software for extracting information from scholarly documents","GROBID 是一款专注于学术文献处理的机器学习软件，旨在将非结构化的 PDF 文档（如科研论文）自动转换为结构清晰、机器可读的 XML\u002FTEI 格式数据。它有效解决了研究人员和开发者在面对海量纸质或电子文献时，难以高效、准确地提取标题、摘要、作者、参考文献及正文段落等关键信息的痛点，让杂乱无章的文档变得井然有序。\n\n这款工具特别适合需要构建文献数据库、进行大规模文本挖掘的科研人员、数据工程师以及数字图书馆开发者使用。无论是处理生物医学领域的 PubMed Central 文献，还是预印本平台 bioRxiv 的文章，GROBID 都能胜任。其技术亮点在于采用了先进的深度学习模型，在参考文献解析和引用上下文识别上表现卓越，F1 分数高达 0.87 至 0.95。此外，它还能精准提取文本在原始 PDF 中的坐标位置，支持生成可交互的“增强型”文档，并能自动通过 DOI 或 PMID 对引文进行校验与补全。作为一个自 2008 年起步并持续维护的开源项目，GROBID 以其高精度和稳定性，成为了学术数据挖掘领域值得信赖的基础设施。","# GROBID\n\n[![License](http:\u002F\u002Fimg.shields.io\u002F:license-apache-blue.svg)](http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0.html)\n[![Coverage Status](https:\u002F\u002Fcoveralls.io\u002Frepos\u002Fkermitt2\u002Fgrobid\u002Fbadge.svg)](https:\u002F\u002Fcoveralls.io\u002Fr\u002Fkermitt2\u002Fgrobid)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_13d664e1afd7.png)](https:\u002F\u002Freadthedocs.org\u002Fprojects\u002Fgrobid\u002F?badge=latest)\n[![GitHub release](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease\u002FgrobidOrg\u002Fgrobid.svg)](https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Freleases\u002F)\n[![Demo grobidOrg-grobid.hf.space](https:\u002F\u002Fimg.shields.io\u002Fwebsite-up-down-green-red\u002Fhttps\u002FgrobidOrg-grobid.hf.space.svg)](https:\u002F\u002FgrobidOrg-grobid.hf.space)\n[![Docker Hub](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Fgrobid\u002Fgrobid.svg)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fgrobid\u002Fgrobid\u002F \"Docker Pulls\")\n[![Docker Hub](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Flfoppiano\u002Fgrobid.svg)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Flfoppiano\u002Fgrobid\u002F \"Docker Pulls\")\n[![SWH](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_5c37786aa8ae.png)](https:\u002F\u002Farchive.softwareheritage.org\u002Fbrowse\u002Forigin\u002F?origin_url=https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid)\n\n> [!TIP]\n> Getting started [here](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002Fgetting_started\u002F).\n\n## Summary\n\nGROBID (or Grobid, but not GroBid nor GroBiD) means **G**ene**R**ation **O**f **BI**bliographic **D**ata.\n\nGROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured XML\u002FTEI encoded documents with a particular focus on technical and scientific publications. First developments started in 2008 as a hobby, following a suggestion by Laurent Romary (Inria, France). In 2011, the tool has been made available in open source. Work on GROBID has been steady as a side project since the beginning and is expected to continue as such, facilitated in particular to the continuous support of Inria.\n\nThe following functionalities are available:\n\n- __Header extraction and parsing__ from article in PDF format. The extraction here covers the usual bibliographical information (e.g. title, abstract, authors, affiliations, keywords, etc.).\n- __References extraction and parsing__ from articles in PDF format, around .87 F1-score against on an independent PubMed Central set of 1943 PDF containing 90,125 references, and around .90 on a similar bioRxiv set of 2000 PDF (using the Deep Learning citation model). All the usual publication metadata are covered (including DOI, PMID, etc.).\n- __Citation contexts recognition and resolution__ of the full bibliographical references of the article. The accuracy of citation contexts resolution is between .76 and .91 F1-score depending on the evaluation collection (this corresponds to both the correct identification of the citation callout and its correct association with a full bibliographical reference).\n- __Full text extraction and structuring__ from PDF articles, including a model for the overall document segmentation and models for the structuring of the text body (paragraph, section titles, reference and footnote callouts, figures, tables, data availability statements, etc.). \n- __PDF coordinates__ for extracted information, allowing to create \"augmented\" interactive PDF based on bounding boxes of the identified structures.\n- Parsing of __references in isolation__ (above .90 F1-score at instance-level, .95 F1-score at field level, using the Deep Learning model).\n- __Parsing of names__ (e.g. person title, forenames, middle name, etc.), in particular author names in header, and author names in references (two distinct models).\n- __Parsing of affiliation and address__ blocks.\n- __Parsing of dates__, ISO normalized day, month, year.\n- __Consolidation\u002Fresolution of the extracted bibliographical references__ using the [biblio-glutton](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fbiblio-glutton) service or the [CrossRef REST API](https:\u002F\u002Fgithub.com\u002FCrossRef\u002Frest-api-doc). In both cases, DOI\u002FPMID resolution performance is higher than 0.95 F1-score from PDF extraction.\n- __Extraction and parsing of patent and non-patent references in patent__ publications.\n- __Extraction of Funders and funding information__ with optional matching of extracted funders with the CrossRef Funder Registry.\n- __Identification of copyrights' owner and license associated to the document__, e.g. publisher or authors copyrights, CC-BY\u002FCC-BY-NC\u002Fetc. license.\n\nIn a complete PDF processing, GROBID manages 68 final labels used to build relatively fine-grained structures, from traditional publication metadata (title, author first\u002Flast\u002Fmiddle names, affiliation types, detailed address, journal, volume, issue, pages, DOI, PMID, etc.) to full text structures (section title, paragraph, reference markers, head\u002Ffoot notes, figure captions, etc.).\n\nGROBID includes a comprehensive [web service API](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F), [Docker images](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-docker\u002F), [batch processing](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-batch\u002F), a JAVA API, a generic [training and evaluation framework](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FTraining-the-models-of-Grobid\u002F) (precision, recall, etc., n-fold cross-evaluation), systematic [end-to-end benchmarking](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FBenchmarking\u002F) on thousand documents and the semi-automatic generation of training data.\n\nGROBID can be considered as production ready. Deployments in production includes ResearchGate, Semantic Scholar, HAL Research Archive, scite.ai, Academia.edu, Internet Archive Scholar, INIST-CNRS, CERN (Invenio), and many more. The tool is designed for speed and high scalability in order to address the full scientific literature corpus.\n\n## Requirements\n\n- **OpenJDK 21** for building GROBID from source\n- Linux (64 bits) or macOS (Intel and ARM) for native builds\n- [Optional] Python 3.10-3.11 with JEP for Deep Learning models \n- [Optional] NVIDIA GPU with CUDA support for faster Deep Learning models\n\nFor detailed installation instructions, including JDK setup and platform-specific requirements, see the [Installation documentation](doc\u002FInstall-Grobid.md).\n\nIf you are upgrading from an earlier version, see the [Upgrade guide](doc\u002FUpgrading.md) for version-specific migration notes.\n\nGROBID should run properly \"out of the box\" on Linux (64 bits) and macOS (Intel and ARM). We cannot ensure currently support for Windows as we did before (help welcome!).\n\nGROBID uses Deep Learning models relying on the [DeLFT](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fdelft) library, a task-agnostic Deep Learning framework for sequence labelling and text classification, via [JEP](https:\u002F\u002Fgithub.com\u002Fninia\u002Fjep). GROBID can run Deep Learning architectures (RNN or transformers with or without layout feature channels) or with feature engineered CRF (default), or any mixtures of CRF and DL to balance scalability and accuracy. These models use joint text and visual\u002Flayout information provided by [pdfalto](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fpdfalto). \n\nNote that by default the Deep Learning models are not used, only CRF are selected in the default configuration to accommodate \"out of the box\" hardware. For improved accuracy, you need to [select the Deep Learning models](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FDeep-Learning-models\u002F#recommended-deep-learning-models) to be used in the GROBID configuration file, according to your need and hardware capacities (in particular GPU availability and runtime requirements). **Some GROBID Deep Learning models perform significantly better than default CRF**, in particular for bibliographical reference parsing, so it is recommended to consider selecting them to use this tool appropriately. \n\n## Demo\n\n### Demo server\n\nFor testing purposes, two public GROBID demo servers are available thanks to Hugging Face Spaces.\n\nA GROBID demo server with a combination of Deep Learning models and CRF models is available at the following address: [https:\u002F\u002FgrobidOrg-grobid.hf.space\u002F](https:\u002F\u002FgrobidOrg-grobid.hf.space\u002F). This demo runs however on CPU only. If you have GPU for your own server deployment, it will be significantly faster. \n\nA faster demo with CRF only is available at [https:\u002F\u002FgrobidOrg-grobid-crf.hf.space\u002F](https:\u002F\u002FgrobidOrg-grobid-crf.hf.space\u002F). However, accuracy is lower.\n\nThe Web services are documented [here](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F).\n\n_Warning_: Some quota and query limitation apply to the demo server! Please be courteous and do not overload the demo server. \nFor any serious works, you will need to deploy and use your own Grobid server, see the [GROBID and Docker containers documentation](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-docker\u002F) for doing that easily and activate some Deep Learning models. \n\n### Try in Play With Docker\n\n\u003Ca href=\"https:\u002F\u002Flabs.play-with-docker.com\u002F?stack=https:\u002F\u002Fraw.githubusercontent.com\u002FgrobidOrg\u002Fgrobid\u002Fmaster\u002Fcompose.yml\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_084a46bc982a.png\" alt=\"Try in PWD\"\u002F>\n\u003C\u002Fa>\n\nWait for 30 seconds for Grobid container to be created before opening a browser tab on port 8080. This demo container runs only with CRF models. Note that there is an additional 60s needed when processing a PDF for the first time for the loading of the models on the \"cold\" container. Then this Grobid container is available just for you during 4 hours. \n\n## Clients\n\nFor facilitating the usage GROBID service at scale, we provide clients written in Python, Java, node.js using the [web services](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F) for parallel batch processing:\n\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-client-python\" target=\"_blank\">Python GROBID client\u003C\u002Fa> (the most complete one in term of supported services and options)\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-client-java\" target=\"_blank\">Java GROBID client\u003C\u002Fa>\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-client-node\" target=\"_blank\">Node.js GROBID client\u003C\u002Fa>\n\nA third party client for Go is available offering functionality similar to the Python client:\n\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmiku\u002Fgrobidclient\" target=\"_blank\">Go GROBID client\u003C\u002Fa>\n\nAll these clients will take advantage of the multi-threading for scaling large set of PDF processing. As a consequence, they will be much more efficient than the [batch command lines](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-batch\u002F) (which use only one thread) and should be preferred.\n\nFor example, we have been able to run the complete full-text processing at around 10.6 PDF per second (around 915,000 PDF per day, around 20M pages per day) with the node.js client listed above during one week on one 16 CPU machine (16 threads, 32GB RAM, no SDD, articles from mainstream publishers), see [here](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fissues\u002F443#issuecomment-505208132) (11.3M PDF were processed in 6 days by 2 servers without interruption).\n\nIn addition, a Java example project is available to illustrate how to use GROBID as a Java library: [https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-example](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-example). The example project is using GROBID Java API for extracting header metadata and citations from a PDF and output the results in BibTeX format.  \n\nFinally, the following python utilities can be used to create structured full text corpora of scientific articles. The tool simply takes a list of strong identifiers like DOI or PMID, performing the identification of online Open Access PDF, full text harvesting, metadata aggregation and Grobid processing in one workflow at scale: [article-dataset-builder](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Farticle-dataset-builder)\n\n## How GROBID works \n\nVisit the [documentation page describing the system](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FPrinciples\u002F). To summarize, the key design principles of GROBID are:\n\n- GROBID uses a [cascade of sequence labeling models](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FPrinciples\u002F#document-parsing-as-a-cascade-of-sequence-labeling-models) to parse a document. \n\n- The different models [do not work on text, but on **Layout Tokens**](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FPrinciples\u002F#layout-tokens-not-text) to exploit various visual\u002Flayout information available for every tokens.\n\n- GROBID does not use training data derived from existing publisher XML documents, but [small, high quality sets](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FPrinciples\u002F#training-data-qualitat-statt-quantitat) of manually labeled training data. \n\n- Technical choices and [default settings](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FPrinciples\u002F#balancing-accuracy-and-scalability) are driven by the ability to process PDF quickly, with commodity hardware and with good parallelization and scalability capacities.\n\nDetailed end-to-end [benchmarking](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FBenchmarking\u002F) are available [GROBID documentation](https:\u002F\u002Fgrobid.readthedocs.org) and continuously updated.\n\n## GROBID Modules\n\nA series of additional modules have been developed for performing __structure aware__ text mining directly on scholar PDF, reusing GROBID's PDF processing and sequence labelling weaponry:\n\n- [software-mention](https:\u002F\u002Fgithub.com\u002Fourresearch\u002Fsoftware-mentions): recognition of software mentions and associated attributes in scientific literature\n- [datastet](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fdatastet): identification of sections and sentences introducing datasets in a scientific article, identification of dataset names and attributes (implict and named datasets) and classification of the type of datasets\n- [grobid-quantities](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-quantities): recognition and normalization of physical quantities\u002Fmeasurements\n- [grobid-superconductors](https:\u002F\u002Fgithub.com\u002Flfoppiano\u002Fgrobid-superconductors): recognition of superconductor material and properties in scientific literature\n- [entity-fishing](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fentity-fishing), a tool for extracting Wikidata entities from text and document, which can also use Grobid to pre-process scientific articles in PDF, leading to more precise and relevant entity extraction and the capacity to annotate the PDF with interactive layout\n- [grobid-ner](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-ner): named entity recognition\n- [grobid-astro](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-astro): recognition of astronomical entities in scientific papers\n- [grobid-bio](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-bio): a toy bio-entity tagger using BioNLP\u002FNLPBA 2004 dataset\n- [grobid-dictionaries](https:\u002F\u002Fgithub.com\u002FMedKhem\u002Fgrobid-dictionaries): structuring dictionaries in raw PDF format\n\n## Release and changes\n\nSee the [Changelog](CHANGELOG.md).\n\n## License\n\nGROBID is distributed under [Apache 2.0 license](http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0). \n\nThe documentation is distributed under [CC-0](https:\u002F\u002Fcreativecommons.org\u002Fpublicdomain\u002Fzero\u002F1.0\u002F) license and the annotated data under [CC-BY](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby\u002F4.0\u002F) license.\n\nIf you contribute to GROBID, you agree to share your contribution following these licenses. \n\nMain author and contact: Patrice Lopez (\u003Cpatrice.lopez@science-miner.com>)\n\n## Sponsors\n\nej-technologies provided us a free open-source license for its Java Profiler. Click the JProfiler logo below to learn more.\n\n[![JProfiler](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_2f2c97553701.png)](http:\u002F\u002Fwww.ej-technologies.com\u002Fproducts\u002Fjprofiler\u002Foverview.html)\n\nJetBrains provided us with a free licence for the development: \n\n[![JetBrains logo.](https:\u002F\u002Fresources.jetbrains.com\u002Fstorage\u002Fproducts\u002Fcompany\u002Fbrand\u002Flogos\u002Fjetbrains.svg)](https:\u002F\u002Fjb.gg\u002FOpenSource)\n\n\n## How to cite\n\nIf you want reference this software, please refer to the present GitHub project, together with the [Software Heritage](https:\u002F\u002Fwww.softwareheritage.org\u002F) project-level permanent identifier.\n\nFor example, the BibTeX would look like this:\n\n```bibtex\n@misc{grobid,\n    title = {GROBID},\n    howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid}},\n    publisher = {GitHub},\n    date = {2008\u002F},\n    archivePrefix = {swh},\n    eprint = {1:dir:dab86b296e3c3216e2241968f0d63b68e8209d3c}\n}\n```\n\n> [!TIP]\n> To fetch the latest SWID you can use the following command line (requires `curl` and `jq`):\n    \n```\ncurl -s \"https:\u002F\u002Farchive.softwareheritage.org\u002Fapi\u002F1\u002Forigin\u002Fhttps:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fvisit\u002Flatest\u002F\" \\\n  -H \"Accept: application\u002Fjson\" | jq -r '.snapshot' | \\\n  xargs -I {} curl -s \"https:\u002F\u002Farchive.softwareheritage.org\u002Fapi\u002F1\u002Fsnapshot\u002F{}\u002F\" | \\\n  jq -r '.branches[\"refs\u002Fheads\u002Fmaster\"].target' | \\\n  xargs -I {} echo \"swh:1:dir:{}\"\n  \nswh:1:dir:324a18113b0c7624a66a21550bd0e8522e328b4e\n```\n\n\nSee the [GROBID documentation](https:\u002F\u002Fgrobid.readthedocs.org\u002Fen\u002Flatest\u002FReferences) for more related resources. \n","# GROBID\n\n[![许可证](http:\u002F\u002Fimg.shields.io\u002F:license-apache-blue.svg)](http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0.html)\n[![覆盖率](https:\u002F\u002Fcoveralls.io\u002Frepos\u002Fkermitt2\u002Fgrobid\u002Fbadge.svg)](https:\u002F\u002Fcoveralls.io\u002Fr\u002Fkermitt2\u002Fgrobid)\n[![文档状态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_13d664e1afd7.png)](https:\u002F\u002Freadthedocs.org\u002Fprojects\u002Fgrobid\u002F?badge=latest)\n[![GitHub发布](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease\u002FgrobidOrg\u002Fgrobid.svg)](https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Freleases\u002F)\n[![演示 grobidOrg-grobid.hf.space](https:\u002F\u002Fimg.shields.io\u002Fwebsite-up-down-green-red\u002Fhttps\u002FgrobidOrg-grobid.hf.space.svg)](https:\u002F\u002FgrobidOrg-grobid.hf.space)\n[![Docker Hub](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Fgrobid\u002Fgrobid.svg)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fgrobid\u002Fgrobid\u002F \"Docker 拉取\")\n[![Docker Hub](https:\u002F\u002Fimg.shields.io\u002Fdocker\u002Fpulls\u002Flfoppiano\u002Fgrobid.svg)](https:\u002F\u002Fhub.docker.com\u002Fr\u002Flfoppiano\u002Fgrobid\u002F \"Docker 拉取\")\n[![SWH](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_5c37786aa8ae.png)](https:\u002F\u002Farchive.softwareheritage.org\u002Fbrowse\u002Forigin\u002F?origin_url=https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid)\n\n> [!提示]\n> 从[这里](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002Fgetting_started\u002F)开始使用。\n\n## 概述\n\nGROBID（或 Grobid，但不是 GroBid 或 GroBiD）代表 **G**ene**R**ation **O**f **BI**bliographic **D**ata。\n\nGROBID 是一个机器学习库，用于从 PDF 等原始文档中提取、解析并重新构建为结构化的 XML\u002FTEI 编码文档，尤其专注于技术和科学出版物。该项目最早于 2008 年作为一项业余爱好启动，灵感来源于法国 Inria 的 Laurent Romary 的建议。2011 年，该工具以开源形式发布。自始至终，GROBID 一直作为一个副业项目稳步发展，并预计将继续保持这种状态，这在很大程度上得益于 Inria 的持续支持。\n\n以下是 GROBID 提供的主要功能：\n\n- 从 PDF 格式的文章中__提取和解析页眉信息__，涵盖常见的书目信息（如标题、摘要、作者、单位、关键词等）。\n- 从 PDF 格式的文章中__提取和解析参考文献__，在独立的 PubMed Central 数据集（包含 1943 个 PDF，共 90,125 条参考文献）上的 F1 分数约为 0.87；在类似的 bioRxiv 数据集（2000 个 PDF）上的 F1 分数约为 0.90，均采用深度学习引用模型。所有常规的出版元数据（包括 DOI、PMID 等）均可覆盖。\n- 对文章中的完整书目引用进行__引用上下文识别与解析__，其准确率在不同评估数据集上介于 0.76 至 0.91 F1 分数之间，这既包括正确识别引用标记，也包括将其与完整的书目引用正确关联。\n- 从 PDF 文章中__提取和结构化全文__，包括用于整体文档分割的模型以及用于文本主体结构化的模型（段落、章节标题、参考文献和脚注标记、图表、表格、数据可用性声明等）。\n- 提供提取信息的__PDF 坐标__，允许基于已识别结构的边界框创建“增强型”交互式 PDF。\n- 对__孤立的参考文献__进行解析（实例级别 F1 分数超过 0.90，字段级别 F1 分数达到 0.95，采用深度学习模型）。\n- __解析姓名__（如称谓、名、中间名等），特别是页眉中的作者姓名以及参考文献中的作者姓名（分别使用不同的模型）。\n- __解析单位和地址__块。\n- __解析日期__，输出 ISO 标准格式的日、月、年。\n- 使用 [biblio-glutton](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fbiblio-glutton) 服务或 [CrossRef REST API](https:\u002F\u002Fgithub.com\u002FCrossRef\u002Frest-api-doc) 对提取的书目引用进行__整合\u002F解析__。在这两种情况下，从 PDF 提取到 DOI\u002FPMID 解析的性能均高于 0.95 F1 分数。\n- 在专利类出版物中__提取和解析专利及非专利引用__。\n- __提取资助方及资助信息__，并可选择将提取的资助方与 CrossRef 资助方注册表进行匹配。\n- __识别文档的版权持有者及许可类型__，例如出版社或作者的版权，以及 CC-BY、CC-BY-NC 等许可协议。\n\n在完整的 PDF 处理流程中，GROBID 使用 68 种最终标签来构建相对细粒度的结构，涵盖传统的出版元数据（标题、作者的姓\u002F名\u002F中间名、单位类型、详细地址、期刊、卷、期、页码、DOI、PMID 等）以及全文结构（章节标题、段落、参考文献标记、页眉\u002F页脚注释、图表说明等）。\n\nGROBID 包含一个全面的__[Web 服务 API](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F)__、__[Docker 镜像](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-docker\u002F)__、__[批处理功能](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-batch\u002F)__、一个 JAVA API，以及一个通用的__[训练与评估框架](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FTraining-the-models-of-Grobid\u002F)__（精确率、召回率等，n 折交叉验证），并提供针对数千份文档的系统性__[端到端基准测试](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FBenchmarking\u002F)_，以及半自动化的训练数据生成功能。\n\nGROBID 可被视为已具备生产就绪条件。其在生产环境中的部署案例包括 ResearchGate、Semantic Scholar、HAL 研究档案库、scite.ai、Academia.edu、Internet Archive Scholar、INIST-CNRS、CERN（Invenio）等众多机构。该工具专为速度和高可扩展性而设计，旨在应对整个科学文献语料库的需求。\n\n## 需求\n\n- **OpenJDK 21**：用于从源代码构建 GROBID\n- Linux（64位）或 macOS（Intel 和 ARM）：用于原生构建\n- 【可选】Python 3.10–3.11，配备 JEP 支持，用于深度学习模型\n- 【可选】支持 CUDA 的 NVIDIA GPU：用于加速深度学习模型\n\n有关详细的安装说明，包括 JDK 设置和特定平台的要求，请参阅【安装文档】(doc\u002FInstall-Grobid.md)。\n\n如果您是从早期版本升级而来，请参阅【升级指南】(doc\u002FUpgrading.md)，以获取特定版本的迁移注意事项。\n\nGROBID 在 Linux（64位）以及 macOS（Intel 和 ARM）上应能“开箱即用”地正常运行。目前我们无法像以前那样确保对 Windows 的支持（欢迎提供帮助！）。\n\nGROBID 使用依赖于 [DeLFT](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fdelft) 库的深度学习模型。DeLFT 是一个与任务无关的深度学习框架，适用于序列标注和文本分类，并通过 [JEP](https:\u002F\u002Fgithub.com\u002Fninia\u002Fjep) 进行集成。GROBID 可以运行深度学习架构（RNN 或 Transformer，无论是否包含布局特征通道），也可以使用特征工程的 CRF（默认设置），或者将 CRF 和 DL 混合使用，以在可扩展性和准确性之间取得平衡。这些模型会利用 [pdfalto](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fpdfalto) 提供的文本、视觉和布局联合信息。\n\n请注意，默认配置中不会启用深度学习模型，仅使用 CRF，以便适应“开箱即用”的硬件环境。若要提升准确性，您需要根据自身需求和硬件条件（尤其是 GPU 的可用性及运行时要求）在 GROBID 配置文件中【选择深度学习模型】(https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FDeep-Learning-models\u002F#recommended-deep-learning-models)。**某些 GROBID 深度学习模型的表现显著优于默认的 CRF**，尤其是在参考文献解析方面，因此建议考虑启用这些模型，以更有效地使用该工具。\n\n## 演示\n\n### 演示服务器\n\n出于测试目的，借助 Hugging Face Spaces，现已提供两台公开的 GROBID 演示服务器。\n\n一台结合了深度学习模型和 CRF 模型的 GROBID 演示服务器位于以下地址：[https:\u002F\u002FgrobidOrg-grobid.hf.space\u002F](https:\u002F\u002FgrobidOrg-grobid.hf.space\u002F)。不过，该演示仅在 CPU 上运行。如果您为自己的服务器部署配备了 GPU，则运行速度将大幅提升。\n\n另一台仅使用 CRF 模型的更快演示服务器位于：[https:\u002F\u002FgrobidOrg-grobid-crf.hf.space\u002F](https:\u002F\u002FgrobidOrg-grobid-crf.hf.space\u002F)。然而，其准确率较低。\n\nWeb 服务的相关文档请参见：[https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F]。\n\n_警告_：演示服务器存在配额和查询限制！请文明使用，不要过度占用服务器资源。对于任何正式工作，您都需要部署并使用自己的 Grobid 服务器。有关如何轻松完成此操作并启用部分深度学习模型，请参阅【GROBID 与 Docker 容器文档】(https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-docker\u002F)。\n\n### 在 Play With Docker 中试用\n\n\u003Ca href=\"https:\u002F\u002Flabs.play-with-docker.com\u002F?stack=https:\u002F\u002Fraw.githubusercontent.com\u002FgrobidOrg\u002Fgrobid\u002Fmaster\u002Fcompose.yml\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_084a46bc982a.png\" alt=\"在 PWD 中试用\"\u002F>\n\u003C\u002Fa>\n\n请等待 30 秒，待 Grobid 容器创建完毕后再打开浏览器并访问端口 8080。此演示容器仅运行 CRF 模型。需要注意的是，首次处理 PDF 时，由于是在“冷”容器上加载模型，还需额外等待 60 秒。之后，该 Grobid 容器将为您保留 4 小时。\n\n## 客户端\n\n为了便于大规模使用 GROBID 服务，我们提供了基于 Python、Java 和 Node.js 的客户端，它们通过【Web 服务】(https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F) 实现并行批处理：\n\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-client-python\" target=\"_blank\">Python GROBID 客户端\u003C\u002Fa>（在支持的服务和选项方面最为全面）\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-client-java\" target=\"_blank\">Java GROBID 客户端\u003C\u002Fa>\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-client-node\" target=\"_blank\">Node.js GROBID 客户端\u003C\u002Fa>\n\n此外，还有一款第三方 Go 客户端，功能与 Python 客户端类似：\n\n- \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmiku\u002Fgrobidclient\" target=\"_blank\">Go GROBID 客户端\u003C\u002Fa>\n\n所有这些客户端都将利用多线程技术来扩展大规模 PDF 处理能力。因此，它们的效率远高于【批处理命令行】(https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-batch\u002F)（后者仅使用单线程），建议优先使用。\n\n例如，我们曾使用上述 Node.js 客户端，在一台 16 核 CPU 的机器上（16 个线程，32GB 内存，无 SSD，数据来自主流出版商的文章）连续一周实现了每秒约 10.6 份 PDF 的全文处理速度（约合每天 915,000 份 PDF，每天约 2,000 万页）。详情请参见：[https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fissues\u002F443#issuecomment-505208132]（2 台服务器在 6 天内不间断地处理了 1,130 万份 PDF）。\n\n此外，还有一个 Java 示例项目，展示了如何将 GROBID 作为 Java 库进行使用：[https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-example]。该项目利用 GROBID Java API 从 PDF 中提取标题元数据和引用信息，并以 BibTeX 格式输出结果。\n\n最后，以下 Python 工具可用于创建结构化的科学论文全文语料库。该工具只需输入 DOI 或 PMID 等强标识符列表，即可实现在线开放获取 PDF 的识别、全文抓取、元数据聚合以及 GROBID 处理的一体化流程，且可大规模运行：[article-dataset-builder](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Farticle-dataset-builder)\n\n## GROBID 的工作原理\n\n请访问[描述该系统的文档页面](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FPrinciples\u002F)。简而言之，GROBID 的关键设计原则如下：\n\n- GROBID 使用一个【序列标注模型的级联】来解析文档。\n\n- 不同的模型并非直接处理文本，而是基于【布局标记】进行操作，以便利用每个标记所包含的各种视觉和布局信息。\n\n- GROBID 并不使用源自现有出版商 XML 文档的训练数据，而是采用【小规模、高质量的数据集】作为手动标注的训练数据。\n\n- 技术选择和【默认设置】以能够在普通硬件上快速处理 PDF 文件，并具备良好的并行化和可扩展性为目标。\n\n详细的端到端【基准测试】可在【GROBID 文档】中找到，并会持续更新。\n\n## GROBID 模块\n\n为了在学术 PDF 上直接进行__结构感知__的文本挖掘，我们开发了一系列附加模块，这些模块复用了 GROBID 的 PDF 处理和序列标注技术：\n\n- [software-mention](https:\u002F\u002Fgithub.com\u002Fourresearch\u002Fsoftware-mentions)：识别科学文献中的软件提及及其相关属性\n- [datastet](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fdatastet)：识别科学论文中介绍数据集的章节和句子，识别数据集名称及属性（隐式和命名的数据集），并对数据集类型进行分类\n- [grobid-quantities](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-quantities)：识别并归一化物理量\u002F测量值\n- [grobid-superconductors](https:\u002F\u002Fgithub.com\u002Flfoppiano\u002Fgrobid-superconductors)：识别科学文献中的超导材料及其特性\n- [entity-fishing](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fentity-fishing)，一种从文本和文档中提取 Wikidata 实体的工具，它还可以利用 Grobid 对 PDF 格式的科学论文进行预处理，从而实现更精确、更相关的实体提取，并能够为 PDF 添加交互式布局标注\n- [grobid-ner](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-ner)：命名实体识别\n- [grobid-astro](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-astro)：识别科学论文中的天文学实体\n- [grobid-bio](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid-bio)：基于 BioNLP\u002FNLPBA 2004 数据集的生物实体标注器\n- [grobid-dictionaries](https:\u002F\u002Fgithub.com\u002FMedKhem\u002Fgrobid-dictionaries)：对原始 PDF 格式的词典进行结构化处理\n\n## 发布与变更\n\n请参阅【变更日志】(CHANGELOG.md)。\n\n## 许可证\n\nGROBID 依据【Apache 2.0 许可证】进行分发。\n\n文档依据【CC-0 许可证】分发，而标注数据则依据【CC-BY 许可证】分发。\n\n如果您为 GROBID 做出贡献，即表示您同意按照这些许可证共享您的贡献。\n\n主要作者及联系方式：Patrice Lopez (\u003Cpatrice.lopez@science-miner.com>)\n\n## 赞助商\n\nej-technologies 为我们提供了其 Java Profiler 的免费开源许可证。请点击下方的 JProfiler 标志了解更多详情。\n\n[![JProfiler](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_readme_2f2c97553701.png)](http:\u002F\u002Fwww.ej-technologies.com\u002Fproducts\u002Fjprofiler\u002Foverview.html)\n\nJetBrains 也为我们提供了开发用的免费许可证：\n\n[![JetBrains logo.](https:\u002F\u002Fresources.jetbrains.com\u002Fstorage\u002Fproducts\u002Fcompany\u002Fbrand\u002Flogos\u002Fjetbrains.svg)](https:\u002F\u002Fjb.gg\u002FOpenSource)\n\n\n## 如何引用\n\n如果您希望引用本软件，请参考当前的 GitHub 项目，同时注明【Software Heritage】项目级别的永久标识符。\n\n例如，BibTeX 格式可以写成如下形式：\n\n```bibtex\n@misc{grobid,\n    title = {GROBID},\n    howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid}},\n    publisher = {GitHub},\n    date = {2008\u002F},\n    archivePrefix = {swh},\n    eprint = {1:dir:dab86b296e3c3216e2241968f0d63b68e8209d3c}\n}\n```\n\n> [!TIP]\n> 若要获取最新的 SWID，您可以使用以下命令行（需安装 `curl` 和 `jq`）：\n    \n```\ncurl -s \"https:\u002F\u002Farchive.softwareheritage.org\u002Fapi\u002F1\u002Forigin\u002Fhttps:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fvisit\u002Flatest\u002F\" \\\n  -H \"Accept: application\u002Fjson\" | jq -r '.snapshot' | \\\n  xargs -I {} curl -s \"https:\u002F\u002Farchive.softwareheritage.org\u002Fapi\u002F1\u002Fsnapshot\u002F{}\u002F\" | \\\n  jq -r '.branches[\"refs\u002Fheads\u002Fmaster\"].target' | \\\n  xargs -I {} echo \"swh:1:dir:{}\"\n  \nswh:1:dir:324a18113b0c7624a66a21550bd0e8522e328b4e\n```\n\n\n更多相关资源请参阅【GROBID 文档】(https:\u002F\u002Fgrobid.readthedocs.org\u002Fen\u002Flatest\u002FReferences)。","# GROBID 快速上手指南\n\nGROBID (GeneRation Of BIbliographic Data) 是一个强大的机器学习库，专门用于从 PDF 文档（特别是科技论文）中提取、解析并重构为结构化的 XML\u002FTEI 数据。它能高效提取标题、作者、摘要、参考文献、全文结构及坐标信息。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：推荐 Linux (64 位) 或 macOS (支持 Intel 和 ARM 架构)。\n    *   *注意：目前官方不再保证 Windows 原生支持的稳定性，Windows 用户建议使用 Docker。*\n*   **JDK 版本**：**OpenJDK 21**（源码构建必需）。\n*   **可选依赖（深度学习模式）**：\n    *   Python 3.10 - 3.11 (配合 JEP 使用)\n    *   NVIDIA GPU + CUDA 支持（可显著提升深度学习模型的推理速度）\n    *   *默认配置使用 CRF 模型，无需 Python 和 GPU 即可运行，但精度略低于深度学习模型。*\n\n## 安装步骤\n\n推荐使用 **Docker** 进行部署，这是最简便且环境隔离最好的方式。\n\n### 方法一：使用 Docker（推荐）\n\n拉取官方镜像并启动容器：\n\n```bash\ndocker pull grobid\u002Fgrobid\ndocker run --rm -it -p 8070:8070 grobid\u002Fgrobid\n```\n\n启动成功后，服务将监听在 `http:\u002F\u002Flocalhost:8070`。\n\n> **提示**：若需启用深度学习模型以获得更高精度，请在启动时挂载配置文件或构建自定义镜像（详见官方 Docker 文档）。默认镜像仅包含 CRF 模型。\n\n### 方法二：源码构建（仅限 Linux\u002FmacOS）\n\n如果您需要修改源码或使用最新开发版：\n\n1.  克隆仓库：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid.git\n    cd grobid\n    ```\n\n2.  使用 Gradle 构建（项目自带 wrapper）：\n    ```bash\n    .\u002Fgradlew build\n    ```\n\n3.  启动服务：\n    ```bash\n    .\u002Fgradlew run\n    ```\n\n## 基本使用\n\nGROBID 启动后会自动提供 RESTful API 和一个简单的 Web 界面。\n\n### 1. 访问 Web 界面\n打开浏览器访问 `http:\u002F\u002Flocalhost:8070`，您可以直接上传 PDF 文件测试提取效果。\n\n### 2. 调用 API 示例\n使用 `curl` 命令提取 PDF 的头部信息（标题、作者、摘要等）：\n\n```bash\ncurl --form input=@.\u002Ftest.pdf http:\u002F\u002Flocalhost:8070\u002Fapi\u002FprocessHeaderDocument\n```\n\n提取参考文献列表：\n\n```bash\ncurl --form input=@.\u002Ftest.pdf http:\u002F\u002Flocalhost:8070\u002Fapi\u002FprocessReferences\n```\n\n提取全文结构化内容：\n\n```bash\ncurl --form input=@.\u002Ftest.pdf http:\u002F\u002Flocalhost:8070\u002Fapi\u002FprocessFulltextDocument\n```\n\n### 3. 使用客户端库（批量处理推荐）\n对于大规模批量处理，建议使用官方提供的多线程客户端，效率远高于命令行批处理。\n\n**Python 客户端示例：**\n\n首先安装客户端：\n```bash\npip install grobid-client-python\n```\n\n简单使用代码：\n```python\nfrom grobid_client.grobid_client import GrobidClient\n\nclient = GrobidClient(config_path=\".\u002Fconfig.json\")\n\n# 处理单个文件\noutput, status = client.process(\"processFulltextDocument\", \".\u002Ftest.pdf\")\nprint(output)\n\n# 批量处理文件夹中的 PDF\nclient.process(\"processFulltextDocument\", input_path=\".\u002Fpdfs\", output_path=\".\u002Ftei_output\")\n```\n\n*其他语言客户端：Java (`grobid-client-java`), Node.js (`grobid-client-node`), Go (`grobidclient`) 可在 GitHub 官方组织页面找到。*","某高校图书馆正在构建学术资源知识图谱，需要从海量 PDF 论文中自动提取标题、作者、摘要及参考文献等元数据。\n\n### 没有 grobid 时\n- 研究人员只能依靠正则表达式或简单的文本解析库处理 PDF，面对双栏排版、页眉页脚干扰时提取准确率极低，大量数据需要人工清洗。\n- 参考文献列表往往被识别为一整段混乱的文本，无法自动区分作者、期刊名、年份和 DOI，导致引文网络分析无法开展。\n- 不同出版社的论文格式差异巨大，每适配一种新模板都需要编写新的解析规则，开发维护成本高昂且难以扩展。\n- 提取出的结构化数据缺失严重，缺乏坐标信息，无法回溯原文位置进行校验，后续数据融合工作举步维艰。\n\n### 使用 grobid 后\n- 利用 grobid 预训练的深度学习模型，直接输入原始 PDF 即可高精度提取标题、摘要、作者单位等关键字段，自动忽略版面噪声。\n- grobid 能将杂乱的参考文献列表解析为结构化的 XML\u002FTEI 格式，精准分离出作者、刊名、卷期号及 DOI，并自动关联引用上下文。\n- 无需针对特定期刊编写规则，grobid 泛化能力强，一套模型即可处理来自 IEEE、Springer、Elsevier 等不同出版商的复杂排版文档。\n- 输出结果包含每个字段的 PDF 坐标信息，支持生成可交互的增强型文档，同时提供标准化的日期和姓名格式，极大便利了数据入库与对齐。\n\ngrobid 将非结构化的学术文档瞬间转化为机器可读的高质量结构化数据，让大规模文献挖掘从“手工劳作”变为“自动化流水线”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FgrobidOrg_grobid_27a9d44a.png","grobidOrg","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FgrobidOrg_157cee6e.png",null,"https:\u002F\u002Fgithub.com\u002FgrobidOrg",[77,81,85,89,93,97,101,105,109,113],{"name":78,"color":79,"percentage":80},"Java","#b07219",54.2,{"name":82,"color":83,"percentage":84},"HTML","#e34c26",27.7,{"name":86,"color":87,"percentage":88},"JavaScript","#f1e05a",10.8,{"name":90,"color":91,"percentage":92},"Kotlin","#A97BFF",2.8,{"name":94,"color":95,"percentage":96},"Ruby","#701516",1.5,{"name":98,"color":99,"percentage":100},"Roff","#ecdebe",1,{"name":102,"color":103,"percentage":104},"CSS","#663399",0.8,{"name":106,"color":107,"percentage":108},"Python","#3572A5",0.6,{"name":110,"color":111,"percentage":112},"XSLT","#EB8CEB",0.2,{"name":114,"color":115,"percentage":112},"Shell","#89e051",4797,544,"2026-04-18T10:50:40","Apache-2.0","Linux (64 bits), macOS (Intel and ARM)","可选。需要支持 CUDA 的 NVIDIA GPU 以加速深度学习模型（默认配置不使用 GPU，仅使用 CRF 模型）。具体显存大小和 CUDA 版本未在文中明确说明。","未说明（示例中提到 32GB RAM 用于高并发处理，但非最低启动要求）",{"notes":124,"python":125,"dependencies":126},"1. Windows 系统目前官方不再确保支持。2. 默认配置仅使用 CRF 模型，无需 Python 或 GPU 即可运行；若需更高精度（特别是参考文献解析），需在配置文件中手动启用深度学习模型。3. 深度学习模型依赖 DeLFT 库并通过 JEP 与 Java 交互。4. 生产环境建议使用 Docker 部署。","3.10-3.11 (可选，仅在使用深度学习模型并通过 JEP 调用时需要)",[127,128,129,130],"OpenJDK 21","DeLFT (深度学习框架)","JEP (Java Embedded Python)","pdfalto",[14,35,16],[133,134,135,136,137,138,139,140,141,142,143],"machine-learning","scientific-articles","pdf","metadata","fulltext","bibliographical-references","hamburger-to-cow","deep-learning","rnn","transformers","crf","2026-03-27T02:49:30.150509","2026-04-19T03:06:53.747430",[147,152,157,162,167,172],{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},41356,"如何将 GROBID 嵌入到 Java 项目中？文档和 API 参数似乎过时了。","官方正在更新开发者指南以解决文档滞后和参数不匹配的问题。您可以参考最新的预览文档来获取正确的 Gradle\u002FMaven 配置及 API 使用方法（例如 fullTextToTei 方法的正确参数）。预览地址：https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Fadd-developers-guide\u002F","https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fissues\u002F577",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},41357,"如何在 macOS ARM64 (M1\u002FM2) 芯片上运行 GROBID Docker 镜像？遇到 AVX 指令错误或架构不匹配警告。","由于深度学习模型依赖的 TensorFlow 编译时使用了 AVX 指令，而 ARM64 Mac 默认不支持，导致报错。维护者已发布修复版本，请尝试使用 `lfoppiano\u002Fgrobid:0.9.0-RC2` 或更新版本的镜像。该版本解决了在 ARM64 架构上的兼容性问题。命令示例：`docker run --init -p 8070:8070 lfoppiano\u002Fgrobid:0.9.0-RC2`。","https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fissues\u002F1089",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},41358,"在 Docker 中运行 GROBID 服务器处理大量 PDF 时出现内存泄漏（OOM），即使设置了 Xmx 限制也无效。","这是一个已知问题，特别是在处理批任务时子进程内存未正确释放。维护者已在 `lfoppiano\u002Fgrobid:0.7.3` 和 `lfoppiano\u002Fgrobid:0.7.3-arm` 镜像中修复了此问题。如果您遇到内存持续增长导致服务器崩溃的情况，请升级到这些版本或更新的版本。","https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fissues\u002F1036",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},41359,"GROBID 错误地将化学实验步骤或合成部分识别为参考文献或图片，导致提取内容丢失。","这是全文模型（fulltext model）和分割模型（segmentation model）的已知局限性。维护者已合并相关改进（PR），并计划采取更保守和稳健的方法来识别文章的主要章节。对于包含大量化学合成步骤的文档，建议关注后续模型更新，或者手动检查提取结果中的 `\u003CbiblStruct>` 和 `\u003Cfigure>` 标签是否误包含了正文内容。","https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fissues\u002F1249",{"id":168,"question_zh":169,"answer_zh":170,"source_url":171},41360,"在 macOS 上配置使用 DELFT 模型时遇到 JEP (Java Embedded Python) 支持问题或路径警告。","当未显式设置 GROBID 属性文件路径时，系统会尝试在当前目录查找并抛出警告。虽然这通常不影响运行，但建议在启动时通过系统变量明确指定属性文件位置，例如：`-Dorg.grobid.property=\u002Fpath\u002Fto\u002Fgrobid-home\u002Fconfig\u002Fgrobid.properties`。对于 macOS 上的 JEP 支持，确保已正确安装 Python 环境且 JEP 库与当前 Java 版本兼容。","https:\u002F\u002Fgithub.com\u002FgrobidOrg\u002Fgrobid\u002Fissues\u002F409",{"id":173,"question_zh":174,"answer_zh":175,"source_url":161},41361,"GROBID 支持哪些操作系统？Windows 或 macOS ARM64 可以直接运行吗？","原生支持 Linux 系统。Windows 不被直接支持，macOS ARM64 (M1\u002FM2) 的原生支持也在完善中。对于这些不支持的系统，官方推荐使用 Docker 运行。Docker 镜像提供了跨平台的解决方案，包括针对 ARM 架构优化的镜像（如 `lfoppiano\u002Fgrobid:xxx-arm`）。",[177,182,187,192,197,202,207,212,217,222,227,232,237,242,247,252,257,262,267,272],{"id":178,"version":179,"summary_zh":180,"released_at":181},333329,"0.9.0","## 变更内容\n\n### 新增\n- 在页眉和分段模型中新增利益冲突及作者贡献声明的提取功能 #1319\n- 从附录部分提取图表和公式 #1215\n- 从全文 PDF 的注释中提取 URL #1315\n- 在 TEI 输出中显式标记整合后的参考文献和页眉信息 #1313\n- 在 BibTeX 输出中包含中间名并格式化缩写 #1356\n- 当 Grobid 未能提取时，从 Crossref 获取 ORCID 号码 #1406\n- 整合请求的超时配置（分别设置 glutton 和 Crossref 的超时时间）#1340\n- 引入 Lingua 作为语言识别的替代方案 #1239\n- 引入 Blingfire 作为句子分段引擎的替代方案 #1378\n- 原生支持 Linux ARM 64 架构\n- 支持 ARM64 的多架构 Docker 镜像构建（适用于 Linux ARM 64 的 pdfalto 和 wapiti 二进制文件）\n- 支持 Python 环境管理工具（virtualenv、conda），用于集成 DeLFT #1010\n- 在 Web UI 中添加版本和修订信息 #1390\n- 在 Web UI 中添加定期更新的健康状态指示器 #1403\n- 在 Web UI 中增加更多说明和文档链接 #1391\n- 更具信息量的 `\u002Fapi\u002Fhealth` 端点，在模型部分初始化时尽早报错 #1373\n- 用于训练和评估模式加载模型的 `-modelPath` CLI 参数 #1383、#1389\n- 提供从仓库根目录运行端到端评估的脚本\n- 启用 Trivy 安全代码扫描 #1295\n- 更新 Citation.cff 和 SWID 元数据 #1341\n\n### 变更\n- 与 Crossref 团队合作，修订并更新了 Crossref 集成，更好地处理 API 限制和错误 #1398\n- 升级至 JDK 21 和 Gradle 9 #1321\n- 将 TensorFlow 更新至 2.17，并支持 Python 3.10–3.11 #1188\n- 将 pdfalto 更新至 0.6.0\n- 将 wapiti 更新至 1.5.1\n- 将 JEP 更新至 4.2.2 #1332\n- 在文档和 Dockerfile 中将 DeLFT 版本更新至 > 0.4.1 #1400\n- 将 JRuby 更新至 9.4.12.1，并使用 pragmatic segmenter #1293\n- 将 Docker 基础镜像从已弃用的 openjdk 更新为 eclipse-temurin（21.0.10_7）\n- 更新 Dropwizard，以修复 Docker 镜像中的 Trivy 漏洞\n- 更新 grobid-lucene-analyzers #1346\n- 更新 build.gradle 中的依赖版本 #1377\n- 大规模重新训练模型：页眉、分段、全文、article-light 和 article-light-ref 模型在 CRF、BidLSTM_CRF_FEATURES 和 BidLSTM_ChainCRF_FEATURES 架构上均进行了更新\n- 大幅扩充分段、全文、页眉、姓名及机构地址模型的训练数据\n- 重构训练框架，使其更具可扩展性 #1393\n- 更新基准测试结果 #1392\n- 移除过时且未使用的模型 #1367\n- 优化文档结构，提升对新用户的清晰度 #1310、#1382\n- 默认返回 XML 格式，当没有提供 HTTP Accept 头时 #1405\n- 加速 CI 流程 #1374\n\n### 修复\n- 正文和附录中图表和公式的标识符唯一性及 ID 重叠问题 #1342\n- IndexOutOfBoundException 错误 in","2026-04-07T20:37:17",{"id":183,"version":184,"summary_zh":185,"released_at":186},333330,"0.8.2","## 变更内容\n\n### 新增\n- 新的模型专业化\u002F变体机制 #1151\n- 针对不遵循通用分段模式的其他类型科学文献（如更正、编辑信等）的轻量级处理流程 #1202\n- 包含数据可用性声明跨多页情况的额外训练数据 #1200\n- 添加了一个标志，允许在 TEI 格式中输出原始版权信息 #1181\n- 用于运行端到端评估的新 Docker 容器 #1255\n- 新的 Go 语言 Grobid 客户端 #1159\n- 使页眉处理的起始页和结束页可自定义 #282\n- 在 TEI XML 响应头中返回配置处理参数 #1274\n\n### 变更\n- 更新 PDFalto 对非标准字体的识别 #1216\n- 将不属于图形的文字作为段落处理，而不是直接丢弃 #1266\n- 更新了 Grobid 的 CJK 语言 Lucene 分词器 #1228\n\n### 修复\n- 修复某些边缘情况下的 URL 识别问题 #1190、#1191、#1185\n- 修复全文模型训练数据 #1107\n- 修复页眉模型训练数据 #1128\n- 更新 Docker 镜像中的软件包以减少漏洞 #1173\n- 修复了对格式不良的图表\u002F表格的处理错误 #1207\n- 更正了生成的全文文件名中的替换问题 #1204\n- 修复了全文块的起始问题 #1203\n- 修复使用 DL 联系方式地址模型时出现的联系单位缺失问题 #1166\n- 修复了多项安全漏洞 #1125、#1123、#1205\n- 避免在遍历可能包含空边界框的注释时出现空指针异常 #1194\n\n## 新贡献者\n* @annelhote 在 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F1179 中做出了首次贡献\n* @miku 在 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F1159 中做出了首次贡献\n* @Schroedi 在 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F1107 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fcompare\u002F0.8.1...0.8.2","2025-05-11T17:40:45",{"id":188,"version":189,"summary_zh":190,"released_at":191},333331,"0.8.1","### 新增\n - 现在会在 TEI 输出中添加已识别的 URL #1099\n - 添加了用于专利处理的深度学习模型 #1082\n - 版权所有者和许可信息识别模型 #1078\n - 为资助信息处理添加了科研基础设施识别功能 #1085\n - 在 TEI 输出中添加段落坐标 #1068\n - 指定启用深度学习模型的配置文件，用于完整的 Docker 镜像 #1117\n - 支持 biblio-glutton 0.3 #1086\n\n### 变更\n - 更新机构归属处理流程 #1069\n - 改进了 URL 的识别，利用 PDF 注释（如可点击链接）来提高准确性\n - 更新了 TEI 模式 #1084\n - 重新审视专利处理流程 #1082\n - 增加 Kotlin 语言以支持开发和测试 #1096\n\n### 修复\n - 避免将 URL 分割到不同句子中 #1097\n - 在资助和致谢部分补充缺失的句子分隔 #1106\n - 优化了 Docker 镜像，减少了所需存储空间 #1088\n - 修复了处理大量笔记时的首次使用体验问题 #1075\n - 更正了 `\u003Ctitle>` 元素的坐标属性名称 #1070\n - 修复了段落延续部分缺失的坐标 #1076\n - 修复了 JSON 日志输出问题\n - 修复了笔记识别问题 #1124\n - 修复了训练数据中多余的分号 #1133\n - 降低了依赖项中的安全漏洞 #1136 #1137\n\n#### 新贡献者\n* @tanaynayak 在 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F1133 中做出了首次贡献\n* @vipulg13 在 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F1137 中做出了首次贡献","2024-09-14T08:29:19",{"id":193,"version":194,"summary_zh":195,"released_at":196},333332,"0.8.0","### 新增\n\n+ 使用特定的新模型提取资助方及资助信息，详情请参阅 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F1046\n+ 可选地将资助方与 CrossRef 资助方注册表进行整合\n+ 在致谢部分识别被感谢的实体\n+ 标题元素中可选包含坐标信息\n\n### 变更\n\n+ Dropwizard 升级至 4.0\n+ 构建和运行该项目的最低 JDK\u002FJVM 要求现为 1.11\n+ 日志系统现已切换为 Logback，移除了 Log4j2，并支持以 JSON 格式输出日志\n+ 对日志进行了全面审查\n+ 启用 GitHub Actions \u002F 禁用 CircleCI #678\n\n### 修复\n\n+ 在 pdfalto_server 中设置动态内存限制 #1038\n+ 模型训练时的日志文件记录功能现已按预期工作\n+ 多项依赖库升级\n+ 修复可能存在问题的 PDF 文件 #1051\n+ 修复 pdfalto 内存限制问题 #1036\n+ 修复 ReadTheDocs 构建问题 #1040\n+ 修复空方程问题 #1030\n+ 其他若干小修复","2023-11-26T19:50:09",{"id":198,"version":199,"summary_zh":200,"released_at":201},333333,"0.7.3","### 新增\n\n+ 支持 JDK 1.11 以上的版本，已测试至 Java 17，这得益于在 JVM 启动后移除了动态本地库加载机制\n+ 增量训练（所有模型和机器学习引擎），已在训练命令行和训练 Web 服务中添加此选项 (#971)\n+ 在两个新数据集上进行了系统性基准测试：PLOS（1000 篇文章）和 eLife（984 篇文章）\n+ 所有端到端评估数据集现均可在同一位置获取：https:\u002F\u002Fzenodo.org\u002Frecord\u002F7708580\n+ 新增在注释及图表标题中输出坐标信息的选项\n+ 支持 Mac ARM 架构 (#975)\n+ Play With Docker 文档 (#962)\n\n### 变更\n\n+ 更新至 DeLFT 0.3.3 版本\n+ 演示现托管为 HuggingFace Space\n+ 增加了额外的训练数据，尤其针对引用、参考文献分段、段落分割、页眉等任务\n+ 更新了深度学习模型（以及部分 CRF 模型）\n+ 标准的亚词汇级分词分析器现已集成至 grobid-core，并用于引用模型（特别是用于改进 CJK 引用）(#990)\n+ 更新了评估结果\n\n### 修复\n\n+ 修正了 processCitation Web 服务文档中的错误内容类型\n+ 对注释应用了句子分割功能 (#995)\n+ 其他一些小的修复","2023-05-13T22:07:00",{"id":203,"version":204,"summary_zh":205,"released_at":206},333334,"0.7.2","### 新增\n\n+ 明确标识数据\u002F代码可用性声明（#951）和资助信息声明（#959），包括这些声明在文章头部的具体位置\n+ 在正文中链接脚注及其“引用标记”（#944）\n+ 如果已提取DOI，则可选择仅使用DOI合并文章头部（#742）\n+ 将RNN模型应用于参考文献分段器，以处理较长的参考文献部分\n+ 为pdfalto_server添加动态超时设置（#926）\n+ 编写了一个简单的Python脚本，用于帮助在JATS与PDF配对的代码库中查找“有趣”的错误案例：grobid-home\u002Fscripts\u002Fselect_error_cases.py\n\n### 变更\n\n+ 更新至DeLFT 0.3.2版本\n+ 增加了一些训练数据（参考文献中的作者、分段、引用、参考文献分段器等），包括#961和#864的相关内容\n+ 更新了部分模型，包括带有特征通道的RNN和CRF模型（用于分段、文章头部、参考文献分段器和引用识别）\n+ 审查并更新了分段模型的评估指南\n+ 改进了URL匹配算法，尤其利用了账户中的PDF URL标注信息\n\n### 修复\n\n+ 修复短文中图表编号不一致的问题\n+ 在将ORCID与作者匹配时，优先使用Crossref信息，而非从PDF中提取的ORCID（#838）\n+ 修复了致谢部分及其他小处的标注错误\n+ 修复了Mac系统上Python库加载的问题\n+ 更新Docker文件以支持新的CUDA密钥\n+ 不对上标或下标中的文本进行连字符拆分\n+ 允许使用绝对临时路径\n+ 修复了pdfalto重定向的stderr未被Java ProcessBuilder调用捕获的问题（#923）\n+ 其他一些小的修复","2022-11-21T08:31:08",{"id":208,"version":209,"summary_zh":210,"released_at":211},333335,"0.7.1","### 新增\n\n+ 用于训练模型的 Web 服务 (#778)\n+ 来自 arXiv 的一些额外的书目引用训练数据\n+ 添加一个处理引用字符串列表的 Web 服务，详情请参见 https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Fprocesscitationlist\u002FGrobid-service\u002F#apiprocesscitationlist\n+ 扩展了 processHeaderDocument 方法，使其能够以 BibTeX 格式输出结果\n\n### 变更\n\n+ 将 DeLFT 版本升级至 0.3.1，并将 TensorFlow 升级至 2.7，包含多项改进，详情请参见 https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fdelft\u002Freleases\u002Ftag\u002Fv0.3.0\n+ 更新了深度学习模型\n+ 更新了 JEP，并添加了安装脚本\n+ 升级到新的 biblio-glutton 版本 0.2，以提升书目引用匹配的效率和准确性\n+ 使用 CircleCI 替代 Travis\n+ 更新了 processFulltextAssetDocument 服务，使其使用与 processFulltextDocument 相同的参数\n+ 如果正则表达式尚未预编译，则进行预编译\n+ 审查了标题模型的功能\n\n### 修复\n\n+ 改进了日期规范化 (#760)\n+ 修复了与引用标记相关的坐标问题 (#908) 以及句子相关的问题 (#811)\n+ 修复了位图\u002F矢量图形的路径问题 (#836)\n+ 修复了可能发生的正则表达式灾难性回溯问题 (#867)\n+ 其他一些小的修复","2022-04-16T18:31:03",{"id":213,"version":214,"summary_zh":215,"released_at":216},333336,"0.7.0","### 新增\n\n+ 新的 YAML 配置：所有设置集中在一个 YAML 文件中，每个模型都可以独立进行完整配置。\n+ 分割模型和标题模型的改进（对于标题模型，在 PMC 评估中 F1 分数提升 1 分，在 bioRxiv 评估中提升 4 分），正文和引用部分也有所优化。\n+ 在控制台演示中新增 PDF 中图表的弹出式可视化功能。\n+ 在 TEI 结果中添加 PDF 的 MD5 摘要（仅限服务端）。\n+ 为 pdfalto 提供语言支持包和 xpdfrc 文件，支持 CJK 字体及特殊字体。\n+ Prometheus 监控指标。\n+ 更多模型可使用 BidLSTM-CRF-FEATURES 实现。\n+ 在文档中新增“GROBID 工作原理”页面。\n\n### 变更\n\n+ 使用 JitPack 发布（JCenter 已停止维护）。\n+ DOI 清理功能优化。\n+ 性能提升约 10%，通过优化布局标记处理逻辑实现。\n+ 更新 CrossRef 请求实现，使其与 CrossRef 的 `X-Rate-Limit-Limit` 响应参数当前用法保持一致。\n\n### 修复\n\n+ 修复演示控制台中的基础 URL。\n+ 在使用 `-noImage` 参数时，补充缺失的 pdfalto 图形信息，并修复 TEI 中图形数据路径。\n+ 修复表格在彼此靠近时容易合并的问题。","2021-07-17T15:01:47",{"id":218,"version":219,"summary_zh":220,"released_at":221},333337,"0.6.2","### 新增\n\n+ 包含深度学习和 CRF 模型的 Docker 镜像，支持 GPU 检测及嵌入向量预加载\n+ 对于深度学习模型，标注现以批处理方式进行：引用识别 DL 模型的应用速度在 BidLSTM-CRF（无论是否使用特征）上提升了 4 倍，在 SciBERT 上提升了 6 倍\n+ 增加了更多句子切分测试\n+ 在 PDF 中或通过整合（例如 CrossRef 元数据中）可获取时，添加人员的 ORCID\n+ 添加 BidLSTM-CRF-FEATURES 头部模型（包含特征通道）\n+ 添加 bioRxiv 端到端评估\n+ 为可选部分标题坐标添加边界框\n\n### 变更\n\n+ 减小 Docker 镜像体积\n+ 改进端到端评估：PDF 多线程处理、进度条显示，并将评估报告以 Markdown 格式输出\n+ 更新了多个模型，涵盖 CRF、BidLSTM-CRF 和 BidLSTM-CRF-FEATURES，主要提升了引用和作者识别效果\n+ OpenNLP 成为默认的可选句子切分器（经基准测试，在学术文档上其效果与 Pragmatic Segmenter 相似，但速度提升 30 倍）\n+ 优化句子切分，以充分利用版面信息和预测的参考文献标记\n+ 将 JEP 版本更新至 3.9.1\n\n### 修复\n\n+ 忽略无效的 UTF-8 序列\n+ 更新 CrossRef 多线程调用，避免使用 CrossRef REST API 服务返回的不可靠时间间隔；更新 `Crossref-Plus-API-Token` 的使用方式，并移除已弃用的 CrossRef 字段 `query.title`\n+ 生成全文模型训练数据时，遗漏最后一张表格或图片\n+ 修复与全文模型参考文献标记特征值相关的错误\n+ 审查并修正 DeLFT 配置文档，提供逐步配置指南\n+ 其他若干小问题修复","2021-03-20T01:23:45",{"id":223,"version":224,"summary_zh":225,"released_at":226},333338,"0.6.1","### 新增\n\n+ 支持行号（通常用于预印本）\n+ 使用 bioRxiv 10k 数据集对预印本进行端到端评估和基准测试\n+ 检查 PDF 注释中是否包含 ORCID，并在 TEI 结果中为作者添加 ORCID\n+ 配置序列标注引擎（CRF Wapiti 或深度学习），使其特定于不同模型\n+ 在文档中新增开发者指南和常见问题解答部分\n+ 在演示控制台中可视化 PDF 布局上的公式\n+ 在全文模型中添加下标\u002F上标样式功能\n\n### 变更\n\n+ 新的显著改进的页眉模型：包含新功能、新的训练数据（600 个新标注样本，旧训练数据已完全移除）、新标签，并更新了数据结构以与其他模型保持一致\n+ 使用更多训练数据更新分段模型\n+ 移除与页眉相关的启发式规则\n+ 更新至 Gradle 6.5.1，以支持 JDK 13 和 14\n+ TEI 模式\n+ 本版本不支持 Windows 系统\n\n### 修复\n\n+ 在合并作者信息后保留机构信息\n+ 所有属性均可通过环境变量覆盖配置\n+ 修复 TEI 结果中摘要偶尔出现重复的问题\n+ 修复机构信息合并错误的问题\n+ 修复书目引用标记中括号过于嘈杂的问题\n+ 在控制台演示中，修复使用文本表单时输出文件名错误地从输入表单中获取的问题\n+ 在多线程环境下同步语言检测单例初始化\n+ 其他一些小的修复","2020-08-12T20:17:46",{"id":228,"version":229,"summary_zh":230,"released_at":231},333339,"0.6.0","### Added\r\n\r\n+ Table content structuring (thanks to @Vitaliy-1), see [PR #546](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fgrobid\u002Fpull\u002F546)\r\n+ Support for `application\u002Fx-bibtex` at `\u002Fapi\u002FprocessReferences` and `\u002Fapi\u002FprocessCitation` (thanks to @koppor)\r\n+ Optionally include raw affiliation string in the TEI result\r\n+ Add dummy model for facilitating test in Grobid modules\r\n+ Allow environment variables for config properties values to ease Docker config \r\n+ ChangeLog\r\n\r\n### Changed\r\n\r\n+ Improve CORS configuration #527 (thank you @lfoppiano)\r\n+ Documentation improvements\r\n+ Update of segmentation and fulltext model and training data\r\n+ Better handling of affiliation block fragments\r\n+ Improved DOI string recognition\r\n+ More robust n-fold cross validation (case of shared grobid-home)","2020-04-24T13:51:51",{"id":233,"version":234,"summary_zh":235,"released_at":236},333340,"0.5.6","+ Better abstract structuring (with citation contexts)\r\n+ n-fold cross evaluation and better evaluation report (thanks to @lfoppiano)\r\n+ Improved PMC ID and PMID recognition\r\n+ Improved subscript\u002Fsuperscript and font style recognition (via [pdfalto](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fpdfalto))\r\n+ Improved JEP integration (support of python virtual environment for using DeLFT Deep Learning library, thanks @de-code and @lfoppiano)\r\n+ Several bug fixes (thanks @de-code, @bnewbold, @Vitaliy-1 and @lfoppiano)\r\n+ Improved dehyphenization (thanks to @lfoppiano)","2019-10-16T14:04:47",{"id":238,"version":239,"summary_zh":240,"released_at":241},333341,"0.5.5","+ Using [pdfalto](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fpdfalto) instead of pdf2xml for the first PDF parsing stage, with many improvements in robustness, ICU support, unknown glyph\u002Ffont normalization \r\n+ Improvement and full review of the integration of consolidation services, supporting [biblio-glutton](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fbiblio-glutton) (additional identifiers and Open Access links) and [Crossref REST API](https:\u002F\u002Fgithub.com\u002FCrossRef\u002Frest-api-doc) (add specific user agent, email and token for Crossref Metadata Plus)\r\n+ Fix bounding box issues for some PDF #330\r\n+ Updated lexicon #396","2019-05-28T20:55:06",{"id":243,"version":244,"summary_zh":245,"released_at":246},333342,"0.5.4","Changes:\r\n\r\n+ transparent usage of [DeLFT](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fdelft) deep learning models (usual BidLSTM-CRF) instead of Wapiti CRF models, native integration via [JEP](https:\u002F\u002Fgithub.com\u002Fninia\u002Fjep)\r\n\r\n+ support of [biblio-glutton](https:\u002F\u002Fgithub.com\u002Fkermitt2\u002Fbiblio-glutton) as DOI\u002Fmetadata matching service, alternative to crossref REST API \r\n\r\n+ improvement of citation context identification and matching (+9% recall with similar precision, for PMC sample 1943 articles, from 43.35 correct citation contexts per article to 49.98 correct citation contexts per article)\r\n\r\n+ citation callout now in abstract, figure and table captions\r\n\r\n+ structured abstract (including update of TEI schema)\r\n\r\n+ bug fixes and some more parameters: by default using all available threads when training and possibility to load models at the start of the service","2019-02-12T19:23:18",{"id":248,"version":249,"summary_zh":250,"released_at":251},333343,"0.5.3","Changes:\r\n\r\n+ Improvement of consolidation options and processing (better handling of CrossRef API, but the best is coming soon ;)\r\n+ Better recall for figure and table identification (thanks to @detonator413) \r\n+ Support of proxy for calling crossref with Apache HttpClient\r\n+ Minor bugfixing\r\n","2018-12-10T00:06:31",{"id":253,"version":254,"summary_zh":255,"released_at":256},333344,"0.5.2","Changes: \r\n- Corrected back status codes from the REST API when no available engine (503 is back again to inform the client to wait, it was removed by error in version 0.5.0 and 0.5.1 for PDF processing services only, see documentation of the REST API)\r\n- Added metrics in the REST entrypoint (accessible via `http:\u002F\u002Flocalhost:8071`) \r\n- Added [Grobid clients](https:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F#clients-for-grobid-web-services) for Java, Python and NodeJS\r\n- Added counters for consolidation tasks and consolidation results\r\n- Add case sensitiveness option in lexicon\u002FFastMatcher \r\n- Updated documentation\r\n- Bugfixing: #339, #322, #300, and other ","2018-10-17T16:12:43",{"id":258,"version":259,"summary_zh":260,"released_at":261},333345,"0.5.1","Bug fixes","2018-01-29T07:48:23",{"id":263,"version":264,"summary_zh":265,"released_at":266},333346,"0.5.0","The latest stable release of GROBID is version ```0.5.0```. As compared to previous version ```0.4.3```, this version brings:\r\n\r\n+ Migrate from maven to gradle for faster, more flexible and more stable build, release, etc.\r\n+ Usage of Dropwizard for web services\r\n+ Move the Grobid service manual to [readthedocs](http:\u002F\u002Fgrobid.readthedocs.io\u002Fen\u002Flatest\u002FGrobid-service\u002F)\r\n+ (thanks to @detonator413 and @lfoppiano for this release! future work in versions 0.5.* will focus again on improving PDF parsing and structuring accuracy)","2017-11-09T18:11:39",{"id":268,"version":269,"summary_zh":270,"released_at":271},333347,"grobid-parent-0.4.4","Fixed issue that was making the release build not working","2017-10-13T14:53:48",{"id":273,"version":274,"summary_zh":275,"released_at":276},333348,"grobid-parent-0.4.3","The latest stable release of GROBID is version 0.4.3. As compared to previous version 0.4.2, this version brings:\r\n\r\n- New models: f-score improvement on the PubMed Central sample, bibliographical references +2.5%, header +7%\r\n- New training data and features for bibliographical references, in particular for covering HEP domain (INSPIRE), arXiv identifier, DOI and url (thanks @iorala and @michamos !)\r\n- Support for CrossRef REST API (instead of the slow OpenURL-style API which requires a CrossRef account), in particular for multithreading usage (thanks @Vi-dot)\r\n- Improve training data generation and documentation (thanks @jfix)\r\n- Unicode normalisation and more robust body extraction (thanks @aoboturov)\r\n- fixes, tests, documentation and update of the pdf2xml fork for Windows (thanks @lfoppiano)\r\n","2017-10-07T00:55:48"]