notebooklm-skill

5.6k 596 简单 1 次阅读今天MIT语言模型Agent插件

AI 解读由 AI 自动生成，仅供参考

notebooklm-skill 是一款专为本地版 Claude Code 设计的扩展技能，它能让你直接在命令行中与 Google NotebookLM 进行对话。通过这项工具，Claude Code 可以调用 Gemini 模型，针对你上传到 NotebookLM 的专属文档库进行查询，并返回带有明确来源引用的精准答案。

在传统工作流中，让 AI 阅读大量本地文档往往导致令牌消耗巨大、检索不准确甚至产生“幻觉”（即编造信息），开发者还常需在浏览器和编辑器之间反复复制粘贴。notebooklm-skill 完美解决了这些痛点：它利用 NotebookLM 强大的预处理和综合理解能力，让 AI 仅基于你的私有知识库回答，大幅降低幻觉风险，同时节省成本并提升效率。

这款工具特别适合需要频繁查阅内部文档、技术手册或研究资料的软件开发者和研究人员。其核心亮点在于无需搭建复杂的本地向量数据库或配置嵌入模型，仅需几分钟即可完成设置；支持浏览器自动化与持久化认证，并能跨多个文档关联信息，提供专家级的综合解答。只需在本地环境中运行，即可让 coding 助手变得更“博学”且严谨。

使用场景

某后端工程师正在基于公司遗留的复杂内部框架开发新微服务，需要频繁查阅分散在数十个 PDF 技术文档和 Wiki 导出文件中的 API 定义与业务规则。

没有 notebooklm-skill 时

Token 消耗巨大：为了让 Claude Code 理解上下文，不得不反复读取大量本地文档文件，导致单次对话成本激增。
检索准确率低：基于关键词的本地搜索往往遗漏跨文档的逻辑关联，无法捕捉隐含的业务约束。
幻觉风险高：当文档中缺少具体细节时，模型倾向于“脑补”看似合理但实际不存在的 API 接口，引发运行时错误。
工作流割裂：开发者需在终端编辑器与浏览器端的 NotebookLM 之间手动复制粘贴问答内容，打断编码心流。

使用 notebooklm-skill 后

成本显著降低：notebooklm-skill 让 Claude Code 直接调用已预处理的 NotebookLM 知识库，仅需极少量 Token 即可获取精准摘要。
深度逻辑合成：借助 Gemini 的能力，工具能自动关联 50+ 份文档中的信息，提供经过综合推理而非简单匹配的专家级回答。
杜绝代码幻觉：所有生成的代码片段均严格基于上传的真实文档，并附带明确的来源引用，确保实现细节零偏差。
无缝命令行体验：开发者无需离开终端，Claude Code 即可自动发起追问并获取边缘案例处理方案，实现全闭环开发。

notebooklm-skill 通过将 Google NotebookLM 的源依据推理能力注入本地 Claude Code，彻底消除了大模型在私有知识领域的幻觉痛点，实现了低成本、高可信的智能编码辅助。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes仅支持本地安装的 Claude Code，不支持 Web UI（因沙盒无网络权限）。首次运行会自动创建隔离的 Python 虚拟环境 (.venv) 并安装依赖。必须安装真实的 Google Chrome 浏览器（而非 Chromium）以确保跨平台可靠性和反检测能力。数据存储在本地技能目录中，包含敏感认证信息，切勿提交到版本控制。NotebookLM 笔记本必须设置为“任何拥有链接的人”可访问。

python3.8+

patchright==1.55.2

python-dotenv==1.0.0

Google Chrome

快速开始

NotebookLM Claude 代码技能

讓 Claude Code 直接與 NotebookLM 聊天，根據您上傳的文檔提供有來源依據的答案

使用此技能可直接從 Claude Code 查詢您的 Google NotebookLM 筆記本，獲取來自 Gemini 的有來源、有引文支持的答案。瀏覽器自動化、庫管理、持久性認證。大幅減少幻覺——答案僅來自您上傳的文檔。

安裝 • 快速入門 • 為什麼選擇 NotebookLM • 工作原理 • MCP 替代方案

⚠️ 重要：僅限本地 Claude Code

此技能僅適用於本地安裝的 Claude Code，不適用於網頁界面。

網頁界面中的技能運行在沒有網絡訪問權限的沙盒環境中，而此技能需要網絡訪問權限來進行瀏覽器自動化。因此，您必須在本地機器上使用 Claude Code。

問題所在

當您指示 Claude Code「搜索我的本地文檔」時，會發生以下情況：

大量消耗 token：搜索文檔意味著要反覆讀取多個文件
檢索不準確：只搜尋關鍵字，無法捕捉文檔之間的上下文和聯繫
產生幻覺：當找不到內容時，它會編造看似合理的 API
手動複製貼上：不斷在 NotebookLM 瀏覽器和編輯器之間切換

解決方案

此 Claude Code 技能讓 Claude Code 直接與 NotebookLM 交談——這是 Google 基於 Gemini 2.5 打造的 有來源依據的知識庫，能夠根據您上傳的文檔提供智能且綜合性的答案。

您的任務 → Claude 向 NotebookLM 提問 → Gemini 綜合答案 → Claude 寫出正確代碼

不再需要反覆複製貼上：Claude 可以直接提問並在 CLI 中立即獲得答案。它會通過自動追蹤問題，深入理解具體實現細節、邊際情況及最佳實踐。

為什麼選擇 NotebookLM，而非本地 RAG？

方法	Token 成本	準備時間	幻覺	答案質量
將文檔輸入 Claude	🔴 非常高（多次讀取文件）	即時	是——會填補空白	檢索結果不穩定
網絡搜索	🟡 中等	即時	高——來源不可靠	時好時壞
本地 RAG	🟡 中高	數小時（嵌入、分塊處理）	中等——存在檢索漏洞	取決於設置
NotebookLM 技能	🟢 最低	5 分鐘	極低——僅基於來源	專家級綜合

什麼讓 NotebookLM 更優越？

由 Gemini 預先處理：上傳一次文檔，即可獲得即時的專家知識
自然語言問答：不僅是簡單的檢索，更是真正的理解和綜合
多來源關聯：能夠連接 50 多份文檔中的信息
有引文支持：每個答案都包含來源參考
無需基礎設施：不需要向量數據庫、嵌入或分塊策略

安裝

史上最簡單的安裝方式：

# 1. 創建技能目錄（如果尚不存在）
mkdir -p ~/.claude/skills

# 2. 克隆此倉庫
cd ~/.claude/skills
git clone https://github.com/PleasePrompto/notebooklm-skill notebooklm

# 3. 完成！打開 Claude Code 並說：
「我有哪些技能？」

首次使用該技能時，它會自動：

創建一個隔離的 Python 環境（.venv）
安裝所有依賴項，包括 Google Chrome
使用 Chrome（而非 Chromium）設置瀏覽器自動化，以確保最高可靠性
所有內容都保留在技能文件夾內

注意：安裝過程中使用的是真實的 Chrome 而不是 Chromium，這樣可以確保跨平台的可靠性、一致的瀏覽器指紋，並更好地避免被 Google 服務檢測到。

快速入門

1. 檢查您的技能

在 Claude Code 中說：

「我有哪些技能？」

Claude 會列出您可用的技能，其中包括 NotebookLM。

2. 與 Google 進行一次性認證

「設置 NotebookLM 認證」

Chrome 窗口會打開→使用您的 Google 帳戶登錄

3. 創建您的知識庫

前往 notebooklm.google.com → 創建筆記本 → 上傳您的文檔：

📄 PDF、Google 文檔、Markdown 文件
🔗 網站、GitHub 倉庫
🎥 YouTube 视频
📚 每個筆記本可以包含多個來源

分享：⚙️ 分享 → 任何擁有鏈接的人 → 複製

4. 添加到您的圖書館

選項 A：讓 Claude 自動判斷（智能添加）

「查詢這個筆記本的內容，並將其添加到我的圖書館：[您的鏈接]」

Claude 會自動查詢筆記本內容，然後添加帶有適當元數據的資料。

選項 B：手動添加

「將這個 NotebookLM 添加到我的圖書館：[您的鏈接]」

Claude 會詢問名稱和主題，然後保存以便未來使用。

5. 開始研究

「我的 React 文檔關於 hook 有什麼說法？」

Claude 會自動選擇正確的筆記本，並直接從 NotebookLM 獲取答案。

工作原理

這是一種 Claude Code 技能——一個包含指令和腳本的本地文件夾，Claude Code 在需要時可以使用。與 MCP 服務器版本不同，此技能直接在 Claude Code 中運行，無需單獨的服務器。

與 MCP 服務器的主要區別

功能	此技能	MCP 服務器
協議	Claude Skills	Model Context Protocol
安裝	克隆到 `~/.claude/skills`	`claude mcp add ...`
會話	每次提問都開啟新的瀏覽器	持久化聊天會話
兼容性	僅限 Claude Code（本地）	Claude Code、Codex、Cursor 等
語言	Python	TypeScript
分發	Git 克隆	npm 包

架构

~/.claude/skills/notebooklm/
├── SKILL.md              # Claude 的使用说明
├── scripts/              # Python 自动化脚本
│   ├── ask_question.py   # 向 NotebookLM 发送查询
│   ├── notebook_manager.py # 笔记本库管理
│   └── auth_manager.py   # Google 身份验证
├── .venv/                # 隔离的 Python 环境（自动创建）
└── data/                 # 本地笔记本库

当你提到 NotebookLM 或发送一个笔记本 URL 时，Claude 会：

加载技能说明
运行相应的 Python 脚本
打开浏览器，提出你的问题
直接将答案返回给你
利用这些知识来帮助你完成任务

核心功能

基于源文档的回答

NotebookLM 通过仅从你上传的文档中获取信息来显著减少幻觉。如果信息不可用，它会表明不确定性，而不是凭空捏造内容。

直接集成

无需在浏览器和编辑器之间复制粘贴。Claude 以编程方式提问并接收答案。

智能库管理

保存带有标签和描述的 NotebookLM 链接。Claude 会自动为你的任务选择合适的笔记本。

自动身份验证

只需一次 Google 登录，身份验证将在会话间保持有效。

自包含

所有操作都在技能文件夹内进行，使用隔离的 Python 环境。无需全局安装。

拟人化自动化

采用逼真的打字速度和交互模式，避免被检测到。

常用命令

你说什么	会发生什么
"设置 NotebookLM 身份验证"	打开 Chrome 进行 Google 登录
"将 [链接] 添加到我的 NotebookLM 库"	保存带有元数据的笔记本
"显示我的 NotebookLM 笔记本"	列出所有已保存的笔记本
"询问我的 API 文档关于 [主题]"	查询相关笔记本
"使用 React 笔记本"	设置当前活动笔记本
"清除 NotebookLM 数据"	重新开始（保留库）

实际案例

案例 1：维修手册查询

用户提问：“请查看我的 Suzuki GSR 600 维修手册，了解刹车油类型、发动机机油规格以及后轴扭矩。”

Claude 自动执行：

使用 NotebookLM 进行身份验证
就每个规格提出全面的问题
在提示“您是否还有其他需要了解的内容？”时继续追问
提供准确的规格：DOT 4 刹车油、SAE 10W-40 机油、100 N·m 后轴扭矩

NotebookLM 对话示例

案例 2：无幻觉构建

你：“我需要为 Gmail 垃圾邮件过滤构建一个 n8n 工作流，请使用我的 n8n 笔记本。”

Claude 的内部流程：

→ 加载 NotebookLM 技能
→ 激活 n8n 笔记本
→ 提出全面的问题并跟进
→ 通过多次查询综合出完整答案

结果：第一次尝试就成功构建了可用的工作流，没有调试因幻觉产生的 API。

技术细节

核心技术

Patchright：浏览器自动化库（基于 Playwright）
Python：此技能的实现语言
隐蔽技术：拟人化的打字和交互模式

注意：MCP 服务器使用相同的 Patchright 库，但通过 TypeScript/npm 生态系统实现。

依赖项

patchright==1.55.2：浏览器自动化
python-dotenv==1.0.0：环境配置
第一次使用时会自动安装在 .venv 中

数据存储

所有数据都存储在技能目录的本地：

~/.claude/skills/notebooklm/data/
├── library.json       - 你的笔记本库及元数据
├── auth_info.json     - 身份验证状态信息
└── browser_state/     - 浏览器 Cookie 和会话数据

重要安全提示：

data/ 目录包含敏感的身份验证数据和个人笔记本
它会通过 .gitignore 自动排除在 Git 外
切勿手动提交或分享 data/ 目录的内容

会话模型

与 MCP 服务器不同，此技能采用 无状态模型：

每个问题都会打开一个新的浏览器
提出问题，获取答案
添加后续提示，鼓励 Claude 提出更多问题
立即关闭浏览器

这意味着：

没有持久的聊天上下文
每个问题都是独立的
但你的笔记本库会一直存在
后续机制：每个回答都会包含“您是否还有其他需要了解的内容？”以促使 Claude 提出全面的后续问题

对于多步骤研究，Claude 会在需要时自动提出后续问题。

限制

技能特定

仅限本地 Claude Code - 不适用于 Web UI（沙盒限制）
无会话持久性 - 每个问题都是独立的
无上下文延续 - 无法引用“上一个答案”

NotebookLM

速率限制 - 免费层级有每日查询限制
手动上传 - 必须先将文档上传到 NotebookLM
共享要求 - 笔记本必须公开共享

常见问题解答

为什么这个技能不能在 Claude Web UI 中运行？ Web UI 以沙盒模式运行技能，没有网络访问权限。浏览器自动化需要网络访问才能连接到 NotebookLM。

这与 MCP 服务器有何不同？ 这是一个更简单的基于 Python 的实现，直接作为 Claude 技能运行。而 MCP 服务器功能更丰富，支持持久会话，并可与多种工具（如 Codex、Cursor 等）配合使用。

我可以同时使用这个技能和 MCP 服务器吗？ 可以！它们服务于不同的目的。使用该技能进行快速的 Claude Code 集成，使用 MCP 服务器进行持久会话和多工具支持。

如果 Chrome 崩溃了怎么办？ 输入：“清除 NotebookLM 浏览器数据”，然后重试。

我的 Google 账户安全吗？ Chrome 在你的本地机器上运行。你的凭据永远不会离开你的电脑。如果你担心，可以使用专门的 Google 账户。

故障排除

技能未找到

# 确保它位于正确位置
ls ~/.claude/skills/notebooklm/
# 应显示：SKILL.md、scripts/ 等

身份验证问题

输入：“重置 NotebookLM 身份验证”

浏览器崩溃

输入：“清除 NotebookLM 浏览器数据”

依赖项问题

# 如有必要，手动重新安装
cd ~/.claude/skills/notebooklm
rm -rf .venv
python -m venv .venv
source .venv/bin/activate  # 或 Windows 上的 .venv\Scripts\activate
pip install -r requirements.txt

免责声明

本工具可自动操作浏览器与 NotebookLM 的交互，以提升您的工作效率。不过，请注意以下几点：

关于浏览器自动化： 尽管我已加入拟人化功能（如逼真的打字速度、自然的延迟和鼠标移动），使自动化行为更接近真人操作，但我无法保证 Google 不会检测或标记此类自动化使用。建议您使用一个专门用于自动化的 Google 账号，而非您的主要账号——这就像网络爬虫一样：理论上没问题，但谨慎为好！

关于命令行工具和 AI 助手： 像 Claude Code、Codex 等类似的 AI 助手功能强大，但也可能出错。请务必谨慎使用：

在提交或部署前，始终仔细检查更改内容。
先在安全环境中进行测试。
保留重要工作的备份。
请记住：AI 助手只是辅助工具，而非万无一失的预言家。

我开发这款工具是为了满足自己的需求，因为我厌倦了在 NotebookLM 和编辑器之间反复复制粘贴的操作。现在将其分享出来，希望能帮助到更多人，但我无法对可能出现的问题、数据丢失或账号问题承担责任。请根据自身判断谨慎使用。

如果您遇到任何问题或有疑问，欢迎随时在 GitHub 上提交 Issue，我将很乐意协助您排查！

致谢

本技能灵感来源于我的 NotebookLM MCP 服务器，并作为 Claude Code 技能提供了一种替代实现方案：

两者都使用 Patchright 进行浏览器自动化（MCP 使用 TypeScript，技能则采用 Python）。
技能版本直接在 Claude Code 中运行，无需依赖 MCP 协议。
无状态设计专为技能架构优化。

如果您需要：

持久会话 → 请使用 MCP 服务器。
多工具支持（如 Codex、Cursor）→ 请使用 MCP 服务器。
快速集成 Claude Code → 请使用本技能。

总结

没有此技能时：在浏览器中使用 NotebookLM → 复制答案 → 粘贴到 Claude → 复制下一道题 → 再回到浏览器……

有了此技能时：Claude 直接进行研究 → 立即获取答案 → 编写正确代码。

停止这种繁琐的复制粘贴流程吧！开始在 Claude Code 中直接获得准确、基于源码的答案。

# 30 秒内即可上手
cd ~/.claude/skills
git clone https://github.com/PleasePrompto/notebooklm-skill notebooklm
# 打开 Claude Code：“我的技能有哪些？”

基于我的 NotebookLM MCP 服务器构建的 Claude Code 技能版本。

旨在让基于源码和文档的研究直接在 Claude Code 中完成。

NotebookLM Claude Code Skill 快速上手指南

本指南帮助中国开发者在本地 Claude Code 环境中集成 Google NotebookLM，实现基于上传文档的精准问答，大幅减少大模型幻觉。

环境准备

在使用本工具前，请确保满足以下系统要求：

操作系统：Linux, macOS 或 Windows
运行环境：必须安装 本地版 Claude Code (CLI 版本)。
- ⚠️ 注意：本工具不支持 Claude 网页版 UI，因为网页版沙箱限制网络访问，无法执行浏览器自动化操作。
浏览器依赖：首次运行时会自动下载并配置 Google Chrome（非 Chromium），以确保与 Google 服务的最佳兼容性和反检测能力。
Python 环境：工具会自动在技能目录内创建独立的虚拟环境 (.venv)，无需全局安装 Python 包。

安装步骤

安装过程非常简单，只需将仓库克隆到 Claude Skills 目录即可。

创建技能目录（如果不存在）：
```
mkdir -p ~/.claude/skills
```

克隆仓库：

cd ~/.claude/skills
git clone https://github.com/PleasePrompto/notebooklm-skill notebooklm

验证安装：打开终端启动 claude，输入以下命令确认技能已加载：
```
What are my skills?
```
列表中应包含 notebooklm。

提示：首次使用该技能时，它会自动初始化隔离的 Python 环境并安装 patchright 等依赖，请耐心等待完成。

基本使用

1. 身份认证（仅需一次）

在 Claude Code 对话框中输入：

Set up NotebookLM authentication

系统将自动弹出 Chrome 浏览器窗口，请使用您的 Google 账号登录并完成验证。认证信息会本地持久化保存。

2. 创建知识库

访问 notebooklm.google.com。
新建一个 Notebook，上传您的文档（支持 PDF、Markdown、GitHub 链接、YouTube 视频等）。
点击 ⚙️ Share (分享) → 选择 Anyone with link (任何拥有链接的人) → 复制链接。

3. 添加笔记本到库

回到 Claude Code，使用以下命令将刚才创建的笔记本添加到本地库中（支持智能识别内容）：

Query this notebook about its content and add it to my library: [在此处粘贴你的笔记本链接]

Claude 会自动分析笔记本内容并保存元数据，方便后续调用。

4. 开始基于文档的问答

现在可以直接针对文档内容进行提问，例如：

What does my React docs say about hooks?

或者指定特定主题：

Ask my API docs about [具体主题]

工作流程说明：当您提问时，Claude 会自动调用后台脚本 → 打开浏览器向 NotebookLM 提问 → 获取带引用的精准答案 → 直接在终端向您汇报。无需手动切换浏览器复制粘贴。

版本历史

v1.3.02025/11/21

v1.2.02025/10/20

v1.1.02025/10/20

v1.0.02025/10/19

常见问题

认证设置成功后，为什么运行查询时仍然超时或重定向到 Google 登录页面？

如何处理长查询导致的 30 秒超时错误？

按照 README 手动安装 Chrome 时报错说"chrome 已安装"且无法覆盖，该怎么办？

为什么我在本地测试正常，但其他用户遇到认证失败？

如何确认当前的认证状态是否有效？

查询时出现 "Timeout 10000ms exceeded waiting for navigation" 错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent