anything-to-notebooklm

1k 115 简单 1 次阅读今天MITAgent

AI 解读由 AI 自动生成，仅供参考

qiaomu-anything-to-notebooklm 是一款专为 Google NotebookLM 设计的智能内容处理助手。它能将微信公众号文章、YouTube 视频、各类文档（PDF/Word/PPT）甚至网络搜索关键词等 15 种以上不同来源的信息，一键转化为播客、PPT 演示文稿、思维导图或自测问卷等多种实用格式。

该工具主要解决了多源异构数据难以统一整合，以及优质新闻内容常被付费墙阻挡的痛点。用户只需通过自然语言指令，即可让 AI 自动完成从内容获取、清洗到最终生成的全流程，极大提升了知识消化与二次创作的效率。其最独特的技术亮点在于内置了强大的“付费墙绕过”机制，采用六级联策略（包括模拟搜索引擎爬虫、利用存档站点等），能够自动解锁并提取全球 300+ 家主流媒体（如 NYT、WSJ、FT 等）的付费文章内容。

这款产品非常适合需要高效处理海量信息的知识工作者、研究人员、学生及内容创作者使用。无论是希望将长篇报告转为通勤时可听的音频，还是需要将复杂论文梳理为清晰的思维导图，普通用户无需具备编程基础，仅需简单的对话交互即可轻松上手；同时，其开源架构也欢迎开发者进行个性化扩展与定制。

使用场景

某科技行业分析师需要在周一晨会前，快速整合一篇《华尔街日报》的付费深度报道、一期小宇宙播客访谈以及三份竞品 PDF 财报，制作成团队分享用的 PPT 和自测题库。

没有 qiaomu-anything-to-notebooklm 时

付费内容获取受阻：面对 WSJ 等 300+ 付费新闻网站的拦截，不得不手动寻找替代信源或花费高昂费用单篇购买，严重拖慢信息收集速度。
多格式处理繁琐：需要分别使用不同的工具提取播客字幕、OCR 扫描 PDF 图片，再手动复制粘贴到文档中整理，耗时且容易出错。
内容转化效率低下：将杂乱的原始素材转化为结构化的 PPT 大纲或 Quiz 题目，完全依赖人工阅读和编写，往往需要耗费整个上午的时间。
信息孤岛难以打通：微信文章、网页、音频和视频分散在不同平台，缺乏统一入口进行关联分析，导致洞察碎片化，难以形成系统性结论。

使用 qiaomu-anything-to-notebooklm 后

自动绕过付费壁垒：直接输入链接，工具通过 6 层级联策略自动解锁 WSJ 等付费全文，无需任何额外操作即可获取核心情报。
全源内容一键聚合：只需发出自然语言指令，即可同时处理微信公众号、小宇宙音频及本地 PDF，自动完成转录、OCR 和清洗，统一汇入 NotebookLM。
智能生成目标产物：一句“做成 PPT 并生成 Quiz"，工具即刻输出 25 页结构化幻灯片和配套测试题，将数小时的工作压缩至几分钟。
跨模态深度关联：自动建立文字、音频与数据间的逻辑连接，帮助分析师迅速从多源信息中提炼出关键趋势，大幅提升决策质量。

qiaomu-anything-to-notebooklm 将原本割裂且高门槛的多源信息处理流程，转变为“自然语言输入即得高质量产出”的自动化闭环，让知识工作者专注于洞察而非搬运。

运行环境要求

操作系统

Linux
macOS

GPU

未说明

内存

未说明

依赖

notes1. 需要安装 Git。2. 需配置 Google NotebookLM 认证（notebooklm login）。3. 播客转写功能（小宇宙/喜马拉雅/B 站）需额外配置 Get 笔记 API 密钥。4. 微信公众号抓取依赖 Playwright 浏览器模拟，需执行 'playwright install chromium'。5. 付费墙绕过功能依赖多级代理策略及 archive.today，部分场景需人工完成验证码验证。6. 主要作为 Claude Code Skill 运行。

python3.9+

notebooklm-py

markitdown

playwright

requests

beautifulsoup4

快速开始

🎯 任何内容 → NotebookLM

多源内容智能处理器：任何内容 → 播客 / PPT / 思维导图 / Quiz

快速开始 • 支持格式 • 使用示例 • 付费墙绕过 • 常见问题

✨ 这是什么？

一个 Claude Code Skill，用自然语言把任何内容变成任何格式。

你说：把这篇微信文章生成播客
AI ：✅ 8 分钟播客已生成 → podcast.mp3

你说：这个付费文章做成思维导图
AI ：✅ 自动绕过付费墙 → 思维导图已生成

你说：这期播客（小宇宙）做成 PPT
AI ：✅ 自动转录音频 → 25 页 PPT 已生成

核心能力：多源内容获取（含付费墙绕过）→ 上传 Google NotebookLM → AI 生成目标格式

🚀 支持的内容源（15+ 种）

📱 社交与媒体

微信公众号（MCP 浏览器模拟）
X/Twitter（推文 + 长线程）
YouTube 视频（自动提取字幕）
播客（小宇宙 / 喜马拉雅 / B站）

🌐 网页（含付费墙绕过）

300+ 付费网站（NYT/WSJ/FT/Economist...）
任意公开网页（新闻、博客、文档）
搜索关键词（自动汇总结果）

📚 电子书与文档

PDF（支持扫描件 OCR）
EPUB 电子书
Markdown (.md)
纯文本 (.txt)

📄 Office 文档

Word (.docx)
PowerPoint (.pptx)
Excel (.xlsx)

🖼️ 其他

图片（JPEG/PNG，自动 OCR）
音频（WAV/MP3，自动转录）
ZIP 压缩包（批量处理）

🛡️ 付费墙绕过

核心特性：自动检测并绕过 300+ 付费新闻网站的付费墙。

绕过策略（6 层级联）

Level 1: 代理服务（r.jina.ai / defuddle.md）
    ↓ 失败
Level 2: 站点专属 Bot UA（Googlebot ~50站 / Bingbot ~4站）
    ↓ 失败
Level 3: 通用绕过（UA伪装 + X-Forwarded-For + Referer伪装 + AMP + EU IP）
    ↓ 失败
Level 4: archive.today 存档（CAPTCHA 自动检测）
    ↓ 失败
Level 5: Google Cache
    ↓ 失败
Level 6: agent-fetch 本地工具

支持的付费网站（部分）

类别	站点
🇺🇸 美国媒体	NYT, WSJ, Bloomberg, Washington Post, The Information, Forbes, WIRED, The New Yorker, The Atlantic, USA Today, Boston Globe, LA Times, Chicago Tribune, Seattle Times, MIT Tech Review, Foreign Affairs
🇬🇧 英国媒体	FT, The Times, The Telegraph, The Economist
🇩🇪 德国媒体	Spiegel, Zeit, Sueddeutsche, FAZ, Handelsblatt
🇫🇷 法国媒体	Le Monde, Le Figaro, Le Parisien
🇦🇺 澳洲媒体	The Australian, SMH, The Age, Brisbane Times
🇨🇳 中文媒体	SCMP, Medium
🌐 其他	Haaretz, NZ Herald, Statista, Quora

绕过技术（学自 Bypass Paywalls Clean）

技术	原理	覆盖率
Googlebot UA + X-Forwarded-For	搜索引擎爬虫白名单，直接获取全文	~50 站
Bingbot UA	同上，部分站点对 Bing 更友好	~4 站
Cookie 清空 + Referer 伪装	清除计量 cookie，伪装来自 Google/Facebook/Twitter	计量付费墙
AMP 页面	AMP 版付费墙实现较弱	~10 站
JSON-LD 提取	从 HTML 内嵌的结构化数据提取 articleBody	通用
archive.today	从网页存档获取已保存的内容	兜底方案

🎨 可以生成什么？

输出格式	用途	触发词示例
🎙️ 播客	通勤路上听	"生成播客"、"做成音频"
📊 PPT	团队分享	"做成PPT"、"生成幻灯片"
🗺️ 思维导图	理清结构	"画个思维导图"、"生成脑图"
📝 Quiz	自测掌握	"生成Quiz"、"出题"
🎬 视频	可视化	"做个视频"
📄 报告	深度分析	"生成报告"、"写个总结"
📈 信息图	数据可视化	"做个信息图"
📋 闪卡	记忆巩固	"做成闪卡"

⚡ 快速开始

前置需求

✅ Python 3.9+
✅ Git（macOS/Linux 自带）

就这两样！ 其他依赖一键自动安装。

安装（3 步）

# 1. 克隆到 Claude skills 目录
cd ~/.claude/skills/
git clone https://github.com/joeseesun/qiaomu-anything-to-notebooklm
cd qiaomu-anything-to-notebooklm

# 2. 一键安装所有依赖
./install.sh

# 3. 按提示配置 MCP，然后重启 Claude Code

首次使用

# NotebookLM 认证（只需一次）
notebooklm login
notebooklm list  # 验证成功

# 环境检查（可选）
./check_env.py

播客转写配置（可选）

如需使用小宇宙/喜马拉雅/B站转写功能，配置 Get笔记 API：

export GETNOTE_API_KEY="your_api_key"
export GETNOTE_CLIENT_ID="your_client_id"

💡 使用示例

场景 1：付费文章 → 播客

你：把这篇 The Information 文章生成播客 https://www.theinformation.com/articles/...

AI 自动执行：
  ✓ 检测付费墙 → Googlebot UA 绕过
  ✓ 获取完整文章内容
  ✓ 上传到 NotebookLM
  ✓ 生成播客

✅ 结果：/tmp/article_podcast.mp3

场景 2：播客（小宇宙）→ PPT

你：这期小宇宙播客做成 PPT https://xiaoyuzhoufm.com/episode/...

AI 自动执行：
  ✓ Get笔记 API 转写音频（2-5 分钟）
  ✓ 上传转写文本到 NotebookLM
  ✓ 生成 PPT

✅ 结果：/tmp/podcast_slides.pdf（25 页）

场景 3：电子书 → 深度分析

你：深度分析这本书 /Users/joe/Books/sapiens.epub

AI 自动执行：
  ✓ 提取 EPUB 全文
  ✓ 上传到 NotebookLM
  ✓ 生成 10 个核心问题
  ✓ 逐一递归提问并收集答案
  ✓ 输出结构化 JSON

✅ 结果：/tmp/sapiens_analysis.json（10 个问答，含金句、核心观点、局限性分析）

场景 4：X/Twitter 线程 → 思维导图

你：这个推文线程做成思维导图 https://x.com/user/status/123...

AI 自动执行：
  ✓ 代理级联获取推文内容（含完整线程）
  ✓ 上传到 NotebookLM
  ✓ 生成思维导图

✅ 结果：/tmp/tweet_mindmap.json

场景 5：微信文章 → 飞书文档（深度分析）

你：深度分析这篇微信文章并写入飞书 https://mp.weixin.qq.com/s/abc123

AI 自动执行：
  ✓ MCP 浏览器模拟抓取微信文章
  ✓ 上传到 NotebookLM
  ✓ 生成 10 个问题并递归提问
  ✓ 格式化为飞书 Markdown
  ✓ 自动创建飞书文档

✅ 结果：飞书文档已创建（含完整问答）

🎯 核心特性

🧠 智能识别

自动判断输入类型，无需手动指定

https://mp.weixin.qq.com/s/xxx        → 微信公众号
https://xiaoyuzhoufm.com/episode/xxx  → 小宇宙播客
https://x.com/user/status/xxx         → X/Twitter
https://youtube.com/watch?v=xxx       → YouTube 视频
/path/to/file.epub                    → EPUB 电子书
"搜索 'AI 趋势'"                       → 搜索查询

🛡️ 付费墙自动绕过

无需手动处理，自动检测并绕过

检测付费墙 → 选择最佳策略 → 获取完整内容
     ︿________全自动________︿

🚀 全自动处理

从获取到生成，一气呵成

输入 → 获取 → 转换 → 上传 → 生成 → 下载
      ︿___________全自动___________︿

🌐 多源整合

支持混合多种内容源

付费文章 + YouTube 视频 + EPUB + 播客 → 综合报告

📦 技术架构

┌──────────────────────────────────────────┐
│            用户自然语言输入                │
│  "把这个付费文章生成播客 https://..."     │
└──────────────────┬───────────────────────┘
                   │
                   ▼
┌──────────────────────────────────────────┐
│         Claude Code Skill                 │
│  • 智能识别内容源类型                      │
│  • 自动调用对应工具                        │
└──────────┬───────────────────────────────┘
           │
   ┌───────┴───────┐
   │               │
   ▼               ▼
┌──────────┐  ┌──────────────┐  ┌──────────┐  ┌──────────┐
│ 微信 MCP  │  │ 付费墙绕过   │  │ 播客转写  │  │ markitdown│
│ 浏览器模拟 │  │ 6层级联策略  │  │ Get笔记API│  │ 文件转换  │
└─────┬────┘  └──────┬───────┘  └─────┬────┘  └─────┬────┘
      │              │                 │              │
      └──────────────┴─────────────────┴──────────────┘
                           │
                           ▼
              ┌────────────────────────┐
              │    NotebookLM API      │
              │  • 上传内容源           │
              │  • AI 生成目标格式      │
              └───────────┬────────────┘
                          │
                          ▼
              ┌────────────────────────┐
              │       生成的文件        │
              │ .mp3 / .pdf / .json    │
              └────────────────────────┘

📂 项目结构

qiaomu-anything-to-notebooklm/
├── SKILL.md                          # Skill 定义文件
├── README.md                         # 本文件
├── main.py                           # 主入口：CLI 智能处理器
├── install.sh                        # 一键安装脚本
├── check_env.py                      # 13 项环境检查
├── package.sh                        # 打包分享脚本
├── requirements.txt                  # Python 依赖
├── LICENSE                           # MIT
├── scripts/
│   ├── fetch_url.sh                  # URL 抓取 + 付费墙绕过（6 层级联）
│   └── get_podcast_transcript.py     # 播客/视频转写（Get笔记 API）
├── wexin-read-mcp/                   # 微信公众号 MCP 服务器
│   └── src/
│       ├── server.py                 # MCP 入口
│       ├── scraper.py                # Playwright 浏览器模拟
│       └── parser.py                 # HTML 解析
└── feishu-read-mcp/                  # 飞书文档 MCP 服务器
    └── src/
        ├── server.py                 # MCP 入口
        ├── scraper.py                # 飞书文档抓取
        ├── parser.py                 # HTML → Markdown
        └── image_handler.py          # 图片处理

🔧 高级用法

深度分析模式

python main.py https://example.com/article --deep-analysis
# 自动生成 10 个核心问题，逐一递归提问，输出结构化 JSON

飞书文档输出

python main.py ./book.epub --deep-analysis --to-feishu
# 深度分析后自动创建飞书文档

批量处理

把这些文章都生成播客：
1. https://mp.weixin.qq.com/s/abc123
2. https://www.wsj.com/articles/...
3. /Users/joe/notes.md

🐛 故障排查

MCP 工具未找到

python ~/.claude/skills/qiaomu-anything-to-notebooklm/wexin-read-mcp/src/server.py
cd ~/.claude/skills/qiaomu-anything-to-notebooklm/wexin-read-mcp
pip install -r requirements.txt
playwright install chromium

NotebookLM 认证失败

notebooklm login     # 重新登录
notebooklm list      # 验证

付费墙绕过失败

部分硬付费墙网站（如 The Information）服务器端不发送内容，需要 archive.today 存档。脚本会自动检测并提示：

⚠️  archive.ph needs human verification.
   已自动打开浏览器，请完成验证后重试

环境检查

./check_env.py       # 13 项全面检查
./install.sh         # 重新安装

❓ 常见问题

Q: 支持哪些语言？

A: NotebookLM 支持多语言，中文、英文效果最佳。

Q: 播客是谁的声音？

A: Google AI 语音合成。英文是两个 AI 主持人对话，中文是单人叙述。

Q: 付费墙绕过合法吗？

A: 本工具仅用于个人学习研究。技术原理基于搜索引擎白名单（Googlebot/Bingbot），不破解任何加密。建议支持优质新闻媒体，购买订阅。

Q: 内容长度限制？

最短：约 500 字
最长：约 50 万字
推荐：1000-10000 字效果最佳

Q: 为什么需要 MCP？

A: 微信公众号有反爬虫，MCP 用 Playwright 浏览器模拟绕过。其他内容源（网页、YouTube、PDF）不需要 MCP。

Q: 播客转写支持哪些平台？

A: 通过 Get笔记 API 支持小宇宙、喜马拉雅、B站视频。YouTube 由 NotebookLM 直接处理。

🙏 致谢

Google NotebookLM - AI 内容生成
Microsoft markitdown - 文件转换
Bypass Paywalls Clean - 付费墙绕过策略参考
wexin-read-mcp - 微信抓取
notebooklm-py - NotebookLM CLI

📄 许可证

MIT License - 仅限个人学习研究使用

如果觉得有用，请给个 ⭐ Star！

Made with ❤️ by Joe · Twitter @vista8 · 微信公众号「向阳乔木推荐看」

qiaomu-anything-to-notebooklm 快速上手指南

🛠️ 环境准备

在开始之前，请确保您的开发环境满足以下基本要求：

操作系统：macOS 或 Linux（Windows 用户建议使用 WSL2）
Python 版本：3.9 或更高版本
必要工具：
- git：用于克隆代码仓库
- Claude Code：本工具作为 Claude Code Skill 运行

提示：macOS 和大多数 Linux 发行版通常预装了 git 和 python3。可通过终端输入 python3 --version 和 git --version 进行验证。

📥 安装步骤

只需三个简单步骤即可完成安装与配置：

1. 克隆项目到 Skills 目录

将仓库克隆至 Claude Code 的 skills 目录下：

cd ~/.claude/skills/
git clone https://github.com/joeseesun/qiaomu-anything-to-notebooklm
cd qiaomu-anything-to-notebooklm

2. 一键安装依赖

运行安装脚本，自动安装所有必要的 Python 库及系统组件（如 Playwright 浏览器内核）：

./install.sh

3. 配置并重启

按照终端提示完成 MCP 配置，随后重启 Claude Code 以使新技能生效。

4. 首次认证（必做）

在使用前，需对 Google NotebookLM 进行一次身份认证：

notebooklm login
notebooklm list  # 若显示列表则代表认证成功

可选配置：如需处理小宇宙、喜马拉雅或 B 站的播客/视频转写，请配置 Get 笔记 API：
export GETNOTE_API_KEY="your_api_key"
export GETNOTE_CLIENT_ID="your_client_id"

🚀 基本使用

安装完成后，您无需记忆复杂命令，直接在 Claude Code 对话框中使用自然语言即可触发功能。工具会自动识别内容源类型（链接或本地文件），自动绕过付费墙，并生成目标格式。

场景一：付费文章转播客

直接发送包含付费新闻链接的指令：

把这篇 The Information 文章生成播客 https://www.theinformation.com/articles/...

执行逻辑：自动检测付费墙 → 绕过获取全文 → 上传 NotebookLM → 生成 MP3 音频文件。

场景二：播客链接转 PPT

将国内播客平台链接转换为演示文稿：

这期小宇宙播客做成 PPT https://xiaoyuzhoufm.com/episode/...

执行逻辑：调用 API 转录音频 → 提取文本 → 生成 25 页左右的 PDF 幻灯片。

场景三：本地电子书深度分析

对本地文件进行结构化分析：

深度分析这本书 /Users/your_name/Books/sapiens.epub

执行逻辑：解析 EPUB 内容 → 生成核心问题并递归提问 → 输出包含金句与观点的结构化 JSON 报告。

场景四：社交媒体线程转思维导图

整理长推文或微信文章结构：

这个推文线程做成思维导图 https://x.com/user/status/123...

执行逻辑：抓取完整线程内容 → 梳理逻辑结构 → 生成思维导图数据文件。

支持的内容源：微信公众号、X/Twitter、YouTube、小宇宙、喜马拉雅、300+ 付费新闻网站 (NYT/WSJ/FT 等)、PDF/EPUB/Word/PPT 等本地文档。

版本历史

v1.0.12026/01/25

v1.0.02026/01/25

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像