grobid

4.8k 544 中等 1 次阅读今天Apache-2.0开发框架语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

GROBID 是一款专注于学术文献处理的机器学习软件，旨在将非结构化的 PDF 文档（如科研论文）自动转换为结构清晰、机器可读的 XML/TEI 格式数据。它有效解决了研究人员和开发者在面对海量纸质或电子文献时，难以高效、准确地提取标题、摘要、作者、参考文献及正文段落等关键信息的痛点，让杂乱无章的文档变得井然有序。

这款工具特别适合需要构建文献数据库、进行大规模文本挖掘的科研人员、数据工程师以及数字图书馆开发者使用。无论是处理生物医学领域的 PubMed Central 文献，还是预印本平台 bioRxiv 的文章，GROBID 都能胜任。其技术亮点在于采用了先进的深度学习模型，在参考文献解析和引用上下文识别上表现卓越，F1 分数高达 0.87 至 0.95。此外，它还能精准提取文本在原始 PDF 中的坐标位置，支持生成可交互的“增强型”文档，并能自动通过 DOI 或 PMID 对引文进行校验与补全。作为一个自 2008 年起步并持续维护的开源项目，GROBID 以其高精度和稳定性，成为了学术数据挖掘领域值得信赖的基础设施。

使用场景

某高校图书馆正在构建学术资源知识图谱，需要从海量 PDF 论文中自动提取标题、作者、摘要及参考文献等元数据。

没有 grobid 时

研究人员只能依靠正则表达式或简单的文本解析库处理 PDF，面对双栏排版、页眉页脚干扰时提取准确率极低，大量数据需要人工清洗。
参考文献列表往往被识别为一整段混乱的文本，无法自动区分作者、期刊名、年份和 DOI，导致引文网络分析无法开展。
不同出版社的论文格式差异巨大，每适配一种新模板都需要编写新的解析规则，开发维护成本高昂且难以扩展。
提取出的结构化数据缺失严重，缺乏坐标信息，无法回溯原文位置进行校验，后续数据融合工作举步维艰。

使用 grobid 后

利用 grobid 预训练的深度学习模型，直接输入原始 PDF 即可高精度提取标题、摘要、作者单位等关键字段，自动忽略版面噪声。
grobid 能将杂乱的参考文献列表解析为结构化的 XML/TEI 格式，精准分离出作者、刊名、卷期号及 DOI，并自动关联引用上下文。
无需针对特定期刊编写规则，grobid 泛化能力强，一套模型即可处理来自 IEEE、Springer、Elsevier 等不同出版商的复杂排版文档。
输出结果包含每个字段的 PDF 坐标信息，支持生成可交互的增强型文档，同时提供标准化的日期和姓名格式，极大便利了数据入库与对齐。

grobid 将非结构化的学术文档瞬间转化为机器可读的高质量结构化数据，让大规模文献挖掘从“手工劳作”变为“自动化流水线”。

运行环境要求

操作系统

Linux (64 bits)
macOS (Intel and ARM)

GPU

可选
需要支持 CUDA 的 NVIDIA GPU 以加速深度学习模型（默认配置不使用 GPU，仅使用 CRF 模型）
具体显存大小和 CUDA 版本未在文中明确说明

内存

未说明（示例中提到 32GB RAM 用于高并发处理，但非最低启动要求）

依赖

notes1. Windows 系统目前官方不再确保支持。2. 默认配置仅使用 CRF 模型，无需 Python 或 GPU 即可运行；若需更高精度（特别是参考文献解析），需在配置文件中手动启用深度学习模型。3. 深度学习模型依赖 DeLFT 库并通过 JEP 与 Java 交互。4. 生产环境建议使用 Docker 部署。

python3.10-3.11 (可选，仅在使用深度学习模型并通过 JEP 调用时需要)

OpenJDK 21

DeLFT (深度学习框架)

JEP (Java Embedded Python)

pdfalto

快速开始

GROBID

[!提示] 从这里开始使用。

概述

GROBID（或 Grobid，但不是 GroBid 或 GroBiD）代表 GeneRation Of BIbliographic Data。

GROBID 是一个机器学习库，用于从 PDF 等原始文档中提取、解析并重新构建为结构化的 XML/TEI 编码文档，尤其专注于技术和科学出版物。该项目最早于 2008 年作为一项业余爱好启动，灵感来源于法国 Inria 的 Laurent Romary 的建议。2011 年，该工具以开源形式发布。自始至终，GROBID 一直作为一个副业项目稳步发展，并预计将继续保持这种状态，这在很大程度上得益于 Inria 的持续支持。

以下是 GROBID 提供的主要功能：

从 PDF 格式的文章中__提取和解析页眉信息__，涵盖常见的书目信息（如标题、摘要、作者、单位、关键词等）。
从 PDF 格式的文章中__提取和解析参考文献__，在独立的 PubMed Central 数据集（包含 1943 个 PDF，共 90,125 条参考文献）上的 F1 分数约为 0.87；在类似的 bioRxiv 数据集（2000 个 PDF）上的 F1 分数约为 0.90，均采用深度学习引用模型。所有常规的出版元数据（包括 DOI、PMID 等）均可覆盖。
对文章中的完整书目引用进行__引用上下文识别与解析__，其准确率在不同评估数据集上介于 0.76 至 0.91 F1 分数之间，这既包括正确识别引用标记，也包括将其与完整的书目引用正确关联。
从 PDF 文章中__提取和结构化全文__，包括用于整体文档分割的模型以及用于文本主体结构化的模型（段落、章节标题、参考文献和脚注标记、图表、表格、数据可用性声明等）。
提供提取信息的__PDF 坐标__，允许基于已识别结构的边界框创建“增强型”交互式 PDF。
对__孤立的参考文献__进行解析（实例级别 F1 分数超过 0.90，字段级别 F1 分数达到 0.95，采用深度学习模型）。
解析姓名（如称谓、名、中间名等），特别是页眉中的作者姓名以及参考文献中的作者姓名（分别使用不同的模型）。
__解析单位和地址__块。
解析日期，输出 ISO 标准格式的日、月、年。
使用 biblio-glutton 服务或 CrossRef REST API 对提取的书目引用进行__整合/解析__。在这两种情况下，从 PDF 提取到 DOI/PMID 解析的性能均高于 0.95 F1 分数。
在专利类出版物中__提取和解析专利及非专利引用__。
提取资助方及资助信息，并可选择将提取的资助方与 CrossRef 资助方注册表进行匹配。
识别文档的版权持有者及许可类型，例如出版社或作者的版权，以及 CC-BY、CC-BY-NC 等许可协议。

在完整的 PDF 处理流程中，GROBID 使用 68 种最终标签来构建相对细粒度的结构，涵盖传统的出版元数据（标题、作者的姓/名/中间名、单位类型、详细地址、期刊、卷、期、页码、DOI、PMID 等）以及全文结构（章节标题、段落、参考文献标记、页眉/页脚注释、图表说明等）。

GROBID 包含一个全面的__Web 服务 API、Docker 镜像、批处理功能、一个 JAVA API，以及一个通用的训练与评估框架（精确率、召回率等，n 折交叉验证），并提供针对数千份文档的系统性端到端基准测试_，以及半自动化的训练数据生成功能。

GROBID 可被视为已具备生产就绪条件。其在生产环境中的部署案例包括 ResearchGate、Semantic Scholar、HAL 研究档案库、scite.ai、Academia.edu、Internet Archive Scholar、INIST-CNRS、CERN（Invenio）等众多机构。该工具专为速度和高可扩展性而设计，旨在应对整个科学文献语料库的需求。

需求

OpenJDK 21：用于从源代码构建 GROBID
Linux（64位）或 macOS（Intel 和 ARM）：用于原生构建
【可选】Python 3.10–3.11，配备 JEP 支持，用于深度学习模型
【可选】支持 CUDA 的 NVIDIA GPU：用于加速深度学习模型

有关详细的安装说明，包括 JDK 设置和特定平台的要求，请参阅【安装文档】(doc/Install-Grobid.md)。

如果您是从早期版本升级而来，请参阅【升级指南】(doc/Upgrading.md)，以获取特定版本的迁移注意事项。

GROBID 在 Linux（64位）以及 macOS（Intel 和 ARM）上应能“开箱即用”地正常运行。目前我们无法像以前那样确保对 Windows 的支持（欢迎提供帮助！）。

GROBID 使用依赖于 DeLFT 库的深度学习模型。DeLFT 是一个与任务无关的深度学习框架，适用于序列标注和文本分类，并通过 JEP 进行集成。GROBID 可以运行深度学习架构（RNN 或 Transformer，无论是否包含布局特征通道），也可以使用特征工程的 CRF（默认设置），或者将 CRF 和 DL 混合使用，以在可扩展性和准确性之间取得平衡。这些模型会利用 pdfalto 提供的文本、视觉和布局联合信息。

请注意，默认配置中不会启用深度学习模型，仅使用 CRF，以便适应“开箱即用”的硬件环境。若要提升准确性，您需要根据自身需求和硬件条件（尤其是 GPU 的可用性及运行时要求）在 GROBID 配置文件中【选择深度学习模型】(https://grobid.readthedocs.io/en/latest/Deep-Learning-models/#recommended-deep-learning-models)。**某些 GROBID 深度学习模型的表现显著优于默认的 CRF**，尤其是在参考文献解析方面，因此建议考虑启用这些模型，以更有效地使用该工具。

演示

演示服务器

出于测试目的，借助 Hugging Face Spaces，现已提供两台公开的 GROBID 演示服务器。

一台结合了深度学习模型和 CRF 模型的 GROBID 演示服务器位于以下地址：https://grobidOrg-grobid.hf.space/。不过，该演示仅在 CPU 上运行。如果您为自己的服务器部署配备了 GPU，则运行速度将大幅提升。

另一台仅使用 CRF 模型的更快演示服务器位于：https://grobidOrg-grobid-crf.hf.space/。然而，其准确率较低。

Web 服务的相关文档请参见：[https://grobid.readthedocs.io/en/latest/Grobid-service/]。

警告：演示服务器存在配额和查询限制！请文明使用，不要过度占用服务器资源。对于任何正式工作，您都需要部署并使用自己的 Grobid 服务器。有关如何轻松完成此操作并启用部分深度学习模型，请参阅【GROBID 与 Docker 容器文档】(https://grobid.readthedocs.io/en/latest/Grobid-docker/)。

在 Play With Docker 中试用

请等待 30 秒，待 Grobid 容器创建完毕后再打开浏览器并访问端口 8080。此演示容器仅运行 CRF 模型。需要注意的是，首次处理 PDF 时，由于是在“冷”容器上加载模型，还需额外等待 60 秒。之后，该 Grobid 容器将为您保留 4 小时。

客户端

为了便于大规模使用 GROBID 服务，我们提供了基于 Python、Java 和 Node.js 的客户端，它们通过【Web 服务】(https://grobid.readthedocs.io/en/latest/Grobid-service/) 实现并行批处理：

Python GROBID 客户端（在支持的服务和选项方面最为全面）
Java GROBID 客户端
Node.js GROBID 客户端

此外，还有一款第三方 Go 客户端，功能与 Python 客户端类似：

Go GROBID 客户端

所有这些客户端都将利用多线程技术来扩展大规模 PDF 处理能力。因此，它们的效率远高于【批处理命令行】(https://grobid.readthedocs.io/en/latest/Grobid-batch/)（后者仅使用单线程），建议优先使用。

例如，我们曾使用上述 Node.js 客户端，在一台 16 核 CPU 的机器上（16 个线程，32GB 内存，无 SSD，数据来自主流出版商的文章）连续一周实现了每秒约 10.6 份 PDF 的全文处理速度（约合每天 915,000 份 PDF，每天约 2,000 万页）。详情请参见：[https://github.com/kermitt2/grobid/issues/443#issuecomment-505208132]（2 台服务器在 6 天内不间断地处理了 1,130 万份 PDF）。

此外，还有一个 Java 示例项目，展示了如何将 GROBID 作为 Java 库进行使用：[https://github.com/kermitt2/grobid-example]。该项目利用 GROBID Java API 从 PDF 中提取标题元数据和引用信息，并以 BibTeX 格式输出结果。

最后，以下 Python 工具可用于创建结构化的科学论文全文语料库。该工具只需输入 DOI 或 PMID 等强标识符列表，即可实现在线开放获取 PDF 的识别、全文抓取、元数据聚合以及 GROBID 处理的一体化流程，且可大规模运行：article-dataset-builder

GROBID 的工作原理

请访问描述该系统的文档页面。简而言之，GROBID 的关键设计原则如下：

GROBID 使用一个【序列标注模型的级联】来解析文档。
不同的模型并非直接处理文本，而是基于【布局标记】进行操作，以便利用每个标记所包含的各种视觉和布局信息。
GROBID 并不使用源自现有出版商 XML 文档的训练数据，而是采用【小规模、高质量的数据集】作为手动标注的训练数据。
技术选择和【默认设置】以能够在普通硬件上快速处理 PDF 文件，并具备良好的并行化和可扩展性为目标。

详细的端到端【基准测试】可在【GROBID 文档】中找到，并会持续更新。

GROBID 模块

为了在学术 PDF 上直接进行__结构感知__的文本挖掘，我们开发了一系列附加模块，这些模块复用了 GROBID 的 PDF 处理和序列标注技术：

software-mention：识别科学文献中的软件提及及其相关属性
datastet：识别科学论文中介绍数据集的章节和句子，识别数据集名称及属性（隐式和命名的数据集），并对数据集类型进行分类
grobid-quantities：识别并归一化物理量/测量值
grobid-superconductors：识别科学文献中的超导材料及其特性
entity-fishing，一种从文本和文档中提取 Wikidata 实体的工具，它还可以利用 Grobid 对 PDF 格式的科学论文进行预处理，从而实现更精确、更相关的实体提取，并能够为 PDF 添加交互式布局标注
grobid-ner：命名实体识别
grobid-astro：识别科学论文中的天文学实体
grobid-bio：基于 BioNLP/NLPBA 2004 数据集的生物实体标注器
grobid-dictionaries：对原始 PDF 格式的词典进行结构化处理

发布与变更

请参阅【变更日志】(CHANGELOG.md)。

许可证

GROBID 依据【Apache 2.0 许可证】进行分发。

文档依据【CC-0 许可证】分发，而标注数据则依据【CC-BY 许可证】分发。

如果您为 GROBID 做出贡献，即表示您同意按照这些许可证共享您的贡献。

主要作者及联系方式：Patrice Lopez (patrice.lopez@science-miner.com)

赞助商

ej-technologies 为我们提供了其 Java Profiler 的免费开源许可证。请点击下方的 JProfiler 标志了解更多详情。

JetBrains 也为我们提供了开发用的免费许可证：

如何引用

如果您希望引用本软件，请参考当前的 GitHub 项目，同时注明【Software Heritage】项目级别的永久标识符。

例如，BibTeX 格式可以写成如下形式：

@misc{grobid,
    title = {GROBID},
    howpublished = {\url{https://github.com/grobidOrg/grobid}},
    publisher = {GitHub},
    date = {2008/},
    archivePrefix = {swh},
    eprint = {1:dir:dab86b296e3c3216e2241968f0d63b68e8209d3c}
}

[!TIP] 若要获取最新的 SWID，您可以使用以下命令行（需安装 curl 和 jq）：

curl -s "https://archive.softwareheritage.org/api/1/origin/https://github.com/grobidOrg/grobid/visit/latest/" \
  -H "Accept: application/json" | jq -r '.snapshot' | \
  xargs -I {} curl -s "https://archive.softwareheritage.org/api/1/snapshot/{}/" | \
  jq -r '.branches["refs/heads/master"].target' | \
  xargs -I {} echo "swh:1:dir:{}"
  
swh:1:dir:324a18113b0c7624a66a21550bd0e8522e328b4e

更多相关资源请参阅【GROBID 文档】(https://grobid.readthedocs.org/en/latest/References)。

GROBID 快速上手指南

GROBID (GeneRation Of BIbliographic Data) 是一个强大的机器学习库，专门用于从 PDF 文档（特别是科技论文）中提取、解析并重构为结构化的 XML/TEI 数据。它能高效提取标题、作者、摘要、参考文献、全文结构及坐标信息。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：推荐 Linux (64 位) 或 macOS (支持 Intel 和 ARM 架构)。
- 注意：目前官方不再保证 Windows 原生支持的稳定性，Windows 用户建议使用 Docker。
JDK 版本：OpenJDK 21（源码构建必需）。
可选依赖（深度学习模式）：
- Python 3.10 - 3.11 (配合 JEP 使用)
- NVIDIA GPU + CUDA 支持（可显著提升深度学习模型的推理速度）
- 默认配置使用 CRF 模型，无需 Python 和 GPU 即可运行，但精度略低于深度学习模型。

安装步骤

推荐使用 Docker 进行部署，这是最简便且环境隔离最好的方式。

方法一：使用 Docker（推荐）

拉取官方镜像并启动容器：

docker pull grobid/grobid
docker run --rm -it -p 8070:8070 grobid/grobid

启动成功后，服务将监听在 http://localhost:8070。

提示：若需启用深度学习模型以获得更高精度，请在启动时挂载配置文件或构建自定义镜像（详见官方 Docker 文档）。默认镜像仅包含 CRF 模型。

方法二：源码构建（仅限 Linux/macOS）

如果您需要修改源码或使用最新开发版：

克隆仓库：

git clone https://github.com/grobidOrg/grobid.git
cd grobid

使用 Gradle 构建（项目自带 wrapper）：
```
./gradlew build
```
启动服务：
```
./gradlew run
```

基本使用

GROBID 启动后会自动提供 RESTful API 和一个简单的 Web 界面。

1. 访问 Web 界面

打开浏览器访问 http://localhost:8070，您可以直接上传 PDF 文件测试提取效果。

2. 调用 API 示例

使用 curl 命令提取 PDF 的头部信息（标题、作者、摘要等）：

curl --form input=@./test.pdf http://localhost:8070/api/processHeaderDocument

提取参考文献列表：

curl --form input=@./test.pdf http://localhost:8070/api/processReferences

提取全文结构化内容：

curl --form input=@./test.pdf http://localhost:8070/api/processFulltextDocument

3. 使用客户端库（批量处理推荐）

对于大规模批量处理，建议使用官方提供的多线程客户端，效率远高于命令行批处理。

Python 客户端示例：

首先安装客户端：

pip install grobid-client-python

简单使用代码：

from grobid_client.grobid_client import GrobidClient

client = GrobidClient(config_path="./config.json")

# 处理单个文件
output, status = client.process("processFulltextDocument", "./test.pdf")
print(output)

# 批量处理文件夹中的 PDF
client.process("processFulltextDocument", input_path="./pdfs", output_path="./tei_output")

其他语言客户端：Java (grobid-client-java), Node.js (grobid-client-node), Go (grobidclient) 可在 GitHub 官方组织页面找到。

版本历史

0.9.02026/04/07

0.8.22025/05/11

0.8.12024/09/14

0.8.02023/11/26

0.7.32023/05/13

0.7.22022/11/21

0.7.12022/04/16

0.7.02021/07/17

0.6.22021/03/20

0.6.12020/08/12

0.6.02020/04/24

0.5.62019/10/16

0.5.52019/05/28

0.5.42019/02/12

0.5.32018/12/10

0.5.22018/10/17

0.5.12018/01/29

0.5.02017/11/09

grobid-parent-0.4.42017/10/13

grobid-parent-0.4.32017/10/07

常见问题

如何将 GROBID 嵌入到 Java 项目中？文档和 API 参数似乎过时了。

如何在 macOS ARM64 (M1/M2) 芯片上运行 GROBID Docker 镜像？遇到 AVX 指令错误或架构不匹配警告。

在 Docker 中运行 GROBID 服务器处理大量 PDF 时出现内存泄漏（OOM），即使设置了 Xmx 限制也无效。

GROBID 错误地将化学实验步骤或合成部分识别为参考文献或图片，导致提取内容丢失。

在 macOS 上配置使用 DELFT 模型时遇到 JEP (Java Embedded Python) 支持问题或路径警告。

GROBID 支持哪些操作系统？Windows 或 macOS ARM64 可以直接运行吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架