pdf-reader-mcp

GitHub
634 62 简单 1 次阅读 今天MITAgent语言模型
AI 解读 由 AI 自动生成,仅供参考

pdf-reader-mcp 是一款专为 AI 智能体打造的生产级 PDF 处理服务器,基于模型上下文协议(MCP)构建。它旨在解决传统 PDF 解析工具处理速度慢、内容顺序混乱以及错误容错性差等痛点。通过引入自动并行处理技术,pdf-reader-mcp 能够利用多核 CPU 同时解析多个页面,将处理效率提升了 5 到 10 倍,即使是百页文档也能在秒级内完成提取。

该工具特别适合开发者、AI 工程师及需要高效处理大量文档的研究人员使用。其核心技术亮点在于独特的"Y 轴坐标排序”算法,能智能还原文档的自然阅读顺序,避免文本错乱;同时具备强大的错误隔离机制,单页解析失败不会影响整体任务。此外,pdf-reader-mcp 拥有超过 94% 的测试覆盖率,支持 TypeScript 严格模式,并提供灵活的路径处理能力,确保在复杂生产环境中的稳定运行。无论是进行文档分析、批量数据提取还是构建知识库,它都能提供轻量、快速且可靠的解决方案。

使用场景

某法律科技团队的 AI 助手需要每天自动审查数百页的并购合同 PDF,从中提取关键条款并生成摘要报告。

没有 pdf-reader-mcp 时

  • 处理速度极慢:传统工具逐页顺序解析,处理一份 50 页的合同需耗时约 10 秒,面对批量任务时队列严重积压。
  • 内容逻辑错乱:提取的文本常因 PDF 排版问题导致段落顺序颠倒(如脚注插入正文中间),AI 难以理解上下文逻辑。
  • 系统稳定性差:一旦遇到某个损坏或加密的页面,整个解析进程直接崩溃,导致整批任务失败。
  • 环境兼容困难:在 Windows 和 Linux 混合部署的开发环境中,文件路径格式差异常引发读取错误,调试成本高。

使用 pdf-reader-mcp 后

  • 效率提升 10 倍:利用多核并行处理技术,50 页文档的解析时间缩短至 1 秒左右,批量任务实现秒级响应。
  • 还原真实布局:基于 Y 轴坐标智能排序内容,完美保留合同条款的原始阅读顺序,大幅提升了 AI 摘要的准确率。
  • 故障隔离稳健:具备单页错误容错机制,即使个别页面解析失败,也能跳过错误继续处理剩余部分,确保任务不中断。
  • 跨平台无缝运行:原生支持绝对与相对路径,自动适配 Windows/Unix 系统差异,开发人员无需再为路径问题编写额外代码。

pdf-reader-mcp 将原本耗时且不稳定的 PDF 数据清洗工作,转变为高吞吐、高可靠的自动化流程,让 AI 代理真正具备了企业级的文档处理能力。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes该工具是基于 Node.js 的 MCP 服务器,无需 Python 环境。主要通过 npx 或 npm 安装运行。支持绝对路径和相对路径(v1.3.0+),可利用多核 CPU 进行并行处理以提升性能。配置时需根据使用的客户端(如 Claude Desktop, VS Code, Cursor 等)在相应的 JSON 配置文件中添加启动命令。
python未说明
Node.js (隐含,因使用 npx/npm)
TypeScript 5.0+
pdf-reader-mcp hero image

快速开始

📄 @sylphx/pdf-reader-mcp

面向 AI 代理的生产级 PDF 处理服务器

npm version License CI/CD codecov coverage TypeScript Downloads

并行处理速度提升 5–10 倍按 Y 坐标内容排序测试覆盖率 94%+103 项测试全部通过

安全验证

🚀 概述

PDF Reader MCP 是一个生产就绪的模型上下文协议服务器,为 AI 代理提供企业级 PDF 处理能力。以无与伦比的性能和可靠性提取文本、图像和元数据。

问题所在:

// 传统 PDF 处理方式
- 逐页处理(速度慢)
- 内容无自然顺序
- 路径处理复杂
- 错误隔离性差

解决方案:

// PDF Reader MCP
- 并行处理速度提升 5–10 倍 ⚡
- 基于 Y 坐标的排序 📐
- 灵活的路径支持(绝对/相对)🎯
- 每页独立错误恢复 🛡️
- 测试覆盖率 94%+ ✅

结果:可扩展的生产级 PDF 处理方案。


⚡ 核心特性

性能

  • 🚀 速度提升 5–10 倍,自动并行化
  • 12,933 ops/sec 错误处理,5,575 ops/sec 文本提取
  • 💨 多核利用,可在几秒钟内处理 50 页 PDF
  • 📦 轻量级,依赖极少

开发者体验

  • 🎯 路径灵活性 - 支持绝对路径和相对路径,兼容 Windows 和 Unix(v1.3.0)
  • 🖼️ 智能排序 - 基于 Y 坐标的排序保留文档布局
  • 🛡️ 类型安全 - 完全 TypeScript,启用严格模式
  • 📚 实战检验 - 103 项测试,覆盖率 94%+,函数覆盖率 98%+
  • 🎨 简单 API - 单一工具优雅地完成所有操作

📊 性能基准测试

生产环境实测表现:

操作 ops/sec 性能 使用场景
错误处理 12,933 ⚡⚡⚡⚡⚡ 验证与安全性
提取全文 5,575 ⚡⚡⚡⚡ 文档分析
提取单页 5,329 ⚡⚡⚡⚡ 单页操作
多页处理 5,242 ⚡⚡⚡⚡ 批量处理
仅提取元数据 4,912 ⚡⚡⚡ 快速检查

并行处理加速效果

文档 串行 并行 加速倍数
10 页 PDF ~2s ~0.3s 5–8 倍更快
50 页 PDF ~10s ~1s 10 倍更快
100+ 页 ~20s ~2s 随 CPU 核心线性扩展

基准测试结果因 PDF 复杂度和系统资源而异。


📦 安装

Claude Code

claude mcp add pdf-reader -- npx @sylphx/pdf-reader-mcp

Claude Desktop

将以下内容添加到 claude_desktop_config.json

{
  "mcpServers": {
    "pdf-reader": {
      "command": "npx",
      "args": ["@sylphx/pdf-reader-mcp"]
    }
  }
}
📍 配置文件位置
  • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  • Windows: %APPDATA%\Claude\claude_desktop_config.json
  • Linux: ~/.config/Claude/claude_desktop_config.json

VS Code

code --add-mcp '{"name":"pdf-reader","command":"npx","args":["@sylphx/pdf-reader-mcp"]}'

Cursor

  1. 打开 设置MCP添加新 MCP 服务器
  2. 选择 命令 类型
  3. 输入:npx @sylphx/pdf-reader-mcp

Windsurf

将以下内容添加到你的 Windsurf MCP 配置中:

{
  "mcpServers": {
    "pdf-reader": {
      "command": "npx",
      "args": ["@sylphx/pdf-reader-mcp"]
    }
  }
}

Cline

将以下内容添加到 Cline 的 MCP 设置中:

{
  "mcpServers": {
    "pdf-reader": {
      "command": "npx",
      "args": ["@sylphx/pdf-reader-mcp"]
    }
  }
}

Warp

  1. 进入 设置AI管理 MCP 服务器添加
  2. 命令:npx,参数:@sylphx/pdf-reader-mcp

Smithery(一键安装)

npx -y @smithery/cli install @sylphx/pdf-reader-mcp --client claude

手动安装

# 快速启动 - 无需安装
npx @sylphx/pdf-reader-mcp

# 或全局安装
npm install -g @sylphx/pdf-reader-mcp

🎯 快速入门

基本用法

{
  "sources": [{
    "path": "documents/report.pdf"
  }],
  "include_full_text": true,
  "include_metadata": true,
  "include_page_count": true
}

结果:

  • ✅ 提取了完整文本内容
  • ✅ 包含 PDF 元数据(作者、标题、日期等)
  • ✅ 统计了总页数
  • ✅ 保留了未修改部分的结构共享

提取指定页面

{
  "sources": [{
    "path": "documents/manual.pdf",
    "pages": "1-5,10,15-20"
  }],
  "include_full_text": true
}

绝对路径(v1.3.0+)

// Windows - 两种格式均可!
{
  "sources": [{
    "path": "C:\\Users\\John\\Documents\\report.pdf"
  }],
  "include_full_text": true
}

// Unix/Mac
{
  "sources": [{
    "path": "/home/user/documents/contract.pdf"
  }],
  "include_full_text": true
}

不再出现 "不允许使用绝对路径" 错误!

提取图像并保持自然顺序

{
  "sources": [{
    "path": "presentation.pdf",
    "pages": [1, 2, 3]
  }],
  "include_images": true,
  "include_full_text": true
}

响应包含:

  • 文本和图像按文档原始顺序排列(按 Y 坐标排序)
  • Base64 编码的图像及元数据(宽度、高度、格式)
  • 保留自然阅读顺序,便于 AI 理解

批量处理

{
  "sources": [
    { "path": "C:\\Reports\\Q1.pdf", "pages": "1-10" },
    { "path": "/home/user/Q2.pdf", "pages": "1-10" },
    { "url": "https://example.com/Q3.pdf" }
  ],
  "include_full_text": true
}

所有 PDF 将自动并行处理!


✨ 特性

核心功能

  • 文本提取 - 整个文档或指定页面,支持智能解析
  • 图像提取 - Base64 编码,附带完整元数据(宽度、高度、格式)
  • 内容排序 - 基于 Y 坐标的布局保持,确保自然的阅读顺序
  • 元数据提取 - 作者、标题、创建日期及自定义属性
  • 页数统计 - 快速统计,无需加载全部内容
  • 双源支持 - 本地文件(绝对路径或相对路径)和 HTTP/HTTPS URL
  • 批量处理 - 可同时处理多个 PDF 文件

高级特性

  • 5-10倍性能提升 - 使用 Promise.all 并行处理页面
  • 🎯 智能分页 - 支持提取范围,如“1-5,10-15,20”
  • 🖼️ 多格式图像 - 自动检测 RGB、RGBA 和灰度图像
  • 🛡️ 路径灵活性 - 支持 Windows、Unix 路径以及相对路径(v1.3.0)
  • 🔍 错误容错性 - 每页独立错误处理,并提供详细错误信息
  • 📏 大文件支持 - 高效流式处理与内存管理
  • 📝 类型安全 - 完全 TypeScript 实现,启用严格模式

🆕 v1.3.0 新增内容

🎉 现已支持绝对路径!

// ✅ Windows
{ "path": "C:\\Users\\John\\Documents\\report.pdf" }
{ "path": "C:/Users/John/Documents/report.pdf" }

// ✅ Unix/Mac
{ "path": "/home/john/documents/report.pdf" }
{ "path": "/Users/john/Documents/report.pdf" }

// ✅ 相对路径(仍可使用)
{ "path": "documents/report.pdf" }

其他改进:

  • 🐛 修复了 Zod 验证错误处理问题
  • 📦 更新所有依赖至最新版本
  • ✅ 103 项测试通过,覆盖率保持在 94% 以上
📋 查看完整变更日志

v1.2.0 - 内容排序

  • 基于 Y 坐标对文本和图像进行排序
  • 为 AI 模型提供自然的阅读顺序
  • 智能行分组

v1.1.0 - 图像提取与性能

  • Base64 编码图像提取
  • 并行处理使速度提升 10 倍
  • 全面的测试覆盖(94%+)

查看完整变更日志 →


📖 API 参考

read_pdf 工具

一个工具即可完成所有 PDF 操作。

参数

参数 类型 描述 默认值
sources 数组 待处理的 PDF 源列表 必填
include_full_text 布尔值 提取完整文本内容 false
include_metadata 布尔值 提取 PDF 元数据 true
include_page_count 布尔值 包含总页数 true
include_images 布尔值 提取嵌入式图像 false

源对象

{
  path?: string;        // 本地文件路径(绝对或相对)
  url?: string;         // PDF 的 HTTP/HTTPS URL
  pages?: string | number[];  // 要提取的页面:“1-5,10”或 [1,2,3]
}

示例

仅元数据(快速):

{
  "sources": [{ "path": "large.pdf" }],
  "include_metadata": true,
  "include_page_count": true,
  "include_full_text": false
}

从 URL:

{
  "sources": [{
    "url": "https://arxiv.org/pdf/2301.00001.pdf"
  }],
  "include_full_text": true
}

指定页面范围:

{
  "sources": [{
    "path": "manual.pdf",
    "pages": "1-5,10-15,20"  // 提取第 1、2、3、4、5、10、11、12、13、14、15、20 页
  }]
}

🔧 高级用法

📐 基于 Y 坐标的内容排序

内容按 Y 坐标以自然阅读顺序返回:

文档布局:
┌─────────────────────┐
│ [标题]       Y:100 │
│ [图片]       Y:150 │
│ [文本]       Y:400 │
│ [照片 A]     Y:500 │
│ [照片 B]     Y:550 │
└─────────────────────┘

响应顺序:
[
  { type: "text", text: "标题..." },
  { type: "image", data: "..." },
  { type: "text", text: "..." },
  { type: "image", data: "..." },
  { type: "image", data: "..." }
]

优势:

  • AI 能够理解空间关系
  • 更自然的文档理解
  • 非常适合视觉增强型模型
  • 自动多行文本分组
🖼️ 图像提取

启用图像提取:

{
  "sources": [{ "path": "manual.pdf" }],
  "include_images": true
}

响应格式:

{
  "images": [{
    "page": 1,
    "index": 0,
    "width": 1920,
    "height": 1080,
    "format": "rgb",
    "data": "base64-encoded-png..."
  }]
}

支持的格式: RGB、RGBA、灰度
自动检测: JPEG、PNG 等嵌入格式

📂 路径配置

绝对路径(v1.3.0+)- 直接访问文件:

{ "path": "C:\\Users\\John\\file.pdf" }
{ "path": "/home/user/file.pdf" }

相对路径 - 工作目录中的文件:

{ "path": "docs/report.pdf" }
{ "path": "./2024/Q1.pdf" }

配置工作目录:

{
  "mcpServers": {
    "pdf-reader-mcp": {
      "command": "npx",
      "args": ["@sylphx/pdf-reader-mcp"],
      "cwd": "/path/to/documents"
    }
  }
}
📊 大型 PDF 处理策略

策略 1:指定页面范围

{ "sources": [{ "path": "big.pdf", "pages": "1-20" }] }

策略 2:逐步加载

// 步骤 1:获取页数
{ "sources": [{ "path": "big.pdf" }], "include_full_text": false }

// 步骤 2:提取部分页面
{ "sources": [{ "path": "big.pdf", "pages": "50-75" }] }

策略 3:并行分批处理

{
  "sources": [
    { "path": "big.pdf", "pages": "1-50" },
    { "path": "big.pdf", "pages": "51-100" }
  ]
}

🔧 故障排除

“不允许使用绝对路径”

解决方案: 升级到 v1.3.0+

npm update @sylphx/pdf-reader-mcp

然后完全重启您的 MCP 客户端。


“文件未找到”

原因:

  • 文件路径不存在
  • 工作目录设置错误
  • 权限不足

解决方案:

使用绝对路径:

{ "path": "C:\\Full\\Path\\file.pdf" }

或者配置 cwd

{
  "pdf-reader-mcp": {
    "command": "npx",
    "args": ["@sylphx/pdf-reader-mcp"],
    "cwd": "/path/to/docs"
  }
}

“未显示任何工具”

解决方案:

npm cache clean --force
rm -rf node_modules package-lock.json
npm install @sylphx/pdf-reader-mcp@latest

然后完全重启 MCP 客户端。


🌐 HTTP 传输(远程访问)

默认情况下,PDF Reader MCP 使用 stdio 传输进行本地使用。您也可以将其作为 HTTP 服务器运行,以便从多台机器进行远程访问。

快速入门

# 以 HTTP 服务器模式运行,监听 8080 端口
MCP_TRANSPORT=http npx @sylphx/pdf-reader-mcp

环境变量

变量 默认值 描述
MCP_TRANSPORT stdio 传输方式:stdiohttp
MCP_HTTP_PORT 8080 HTTP 服务器监听端口
MCP_HTTP_HOST 0.0.0.0 HTTP 服务器绑定的主机名
MCP_API_KEY - 可选的 API 密钥,用于身份验证

Docker 部署

FROM oven/bun:1
WORKDIR /app
RUN bun add @sylphx/pdf-reader-mcp
ENV MCP_TRANSPORT=http
ENV MCP_HTTP_PORT=8080
EXPOSE 8080
CMD ["bun", "node_modules/@sylphx/pdf-reader-mcp/dist/index.js"]

MCP 客户端配置(HTTP)

{
  "servers": {
    "pdf-reader": {
      "type": "http",
      "url": "https://your-server.com/mcp",
      "headers": {
        "X-API-Key": "your-api-key"
      }
    }
  }
}

端点

端点 方法 描述
/mcp POST JSON-RPC 端点
/mcp/health GET 健康检查

🏗️ 架构

技术栈

组件 技术
运行时 Node.js 22+ ESM
PDF 引擎 PDF.js(Mozilla)
验证 Zod + JSON Schema
协议 MCP SDK
语言 TypeScript(严格模式)
测试 Vitest(103 个测试)
质量 Biome(快 50 倍)
CI/CD GitHub Actions

设计原则

  • 🔒 安全第一 - 灵活路径,安全默认
  • 🎯 简单接口 - 一个工具,所有操作
  • 性能 - 并行处理,高效内存
  • 🛡️ 可靠性 - 每页隔离,详细错误
  • 🧪 质量 - 94%+ 覆盖率,严格 TypeScript
  • 📝 类型安全 - 无 any 类型,严格模式
  • 🔄 向后兼容 - 始终平滑升级

🧪 开发

设置与脚本

先决条件:

  • Node.js >= 22.0.0
  • pnpm(推荐)或 npm

设置:

git clone https://github.com/SylphxAI/pdf-reader-mcp.git
cd pdf-reader-mcp
pnpm install && pnpm build

脚本:

pnpm run build       # 编译 TypeScript
pnpm run test        # 运行 103 个测试
pnpm run test:cov    # 覆盖率(94%+)
pnpm run check       # 代码检查 + 格式化
pnpm run check:fix   # 自动修复
pnpm run benchmark   # 性能测试

质量:

  • ✅ 103 个测试
  • ✅ 94%+ 覆盖率
  • ✅ 98%+ 函数覆盖率
  • ✅ 无 lint 错误
  • ✅ 严格 TypeScript
贡献

快速入门:

  1. 分支仓库
  2. 创建分支:git checkout -b feature/awesome
  3. 修改代码:pnpm test
  4. 格式化:pnpm run check:fix
  5. 提交:使用 Conventional Commits
  6. 打开 PR

提交格式:

feat(images): 添加 WebP 支持
fix(paths): 处理 UNC 路径
docs(readme): 更新示例

详情请参阅 CONTRIBUTING.md


📚 文档


🗺️ 路线图

✅ 已完成

  • 图像提取(v1.1.0)
  • 并行加速 5-10 倍(v1.1.0)
  • Y 坐标排序(v1.2.0)
  • 绝对路径支持(v1.3.0)
  • 测试覆盖率 94%+(v1.3.0)

🚀 下一步

  • 扫描 PDF 的 OCR
  • 注释提取
  • 表单字段提取
  • 表格检测
  • 100+ MB 流式处理
  • 高级缓存
  • PDF 生成

欢迎在 讨论区 投票!


🏆 认可

被以下平台收录:

全球信赖企业采用实战检验


🤝 支持

GitHub Issues Discord

请支持我们: ⭐ 星标 • 👀 关注 • 🐛 报告 bug • 💡 提供建议 • 🔀 贡献


📊 统计

星标 分叉 下载量 贡献者

103 个测试94%+ 覆盖率生产就绪


📄 许可证

MIT © Sylphx


🙏 致谢

基于以下技术构建:

  • PDF.js - Mozilla PDF 引擎
  • Bun - 高效 JavaScript 运行时

特别感谢开源社区 ❤️

由 Sylphx 提供支持

本项目使用了以下 @sylphx 包:


星标历史

星标历史图表


Sylphx 用心打造

版本历史

v2.3.02026/02/04
v2.2.02026/01/28
v2.1.02025/12/17
v2.0.82025/12/05
v2.0.72025/12/03
v2.0.32025/11/30
v2.0.22025/11/27
v2.0.12025/11/27
v2.0.02025/11/27
v1.4.02025/11/27
v1.3.22025/11/23
v1.2.02025/10/31
v1.1.02025/10/31
v1.0.02025/10/31
v0.3.232025/04/07
v0.3.222025/04/07
v0.3.202025/04/07
v0.3.192025/04/07
v0.3.182025/04/07
v0.3.172025/04/07

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|今天
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|4天前
语言模型图像Agent