mcp-crawl4ai-rag
mcp-crawl4ai-rag 是一款专为 AI 智能体和编程助手打造的开源工具,旨在赋予它们强大的网页抓取与检索增强生成(RAG)能力。它基于模型上下文协议(MCP),无缝集成了 Crawl4AI 爬虫引擎与 Supabase 向量数据库,让 AI 能够自动“阅读”互联网内容并将其转化为可查询的知识库,从而有效解决大模型因训练数据截止或缺乏特定领域信息而产生的知识滞后与幻觉问题。
这款工具特别适合开发者、AI 研究人员以及希望构建定制化 AI 代理的技术团队使用。通过 mcp-crawl4ai-rag,用户可以轻松让 AI 递归抓取网站、智能分块处理内容,并利用这些实时数据进行精准回答。其技术亮点在于支持多种高级 RAG 策略,包括混合搜索(结合向量与关键词)、上下文嵌入增强、结果重排序以及基于知识图谱的幻觉检测机制。此外,项目规划了完善的本地化部署路径,未来将支持 Ollama 等本地模型,确保数据隐私与完全可控。作为一个正在快速迭代的知识引擎雏形,mcp-crawl4ai-rag 为构建具备实时学习能力的下一代 AI 应用提供了坚实底座。
使用场景
一位全栈开发者正在基于最新的 LangChain v0.2 文档构建一个复杂的智能客服 Agent,需要确保代码实现与官方最新特性完全同步。
没有 mcp-crawl4ai-rag 时
- 信息滞后严重:开发者只能依赖模型训练数据中的旧版文档,导致生成的代码频繁调用已废弃的 API,调试耗时极长。
- 手动整理低效:为了获取准确信息,必须人工浏览数十个网页,复制粘贴内容到本地文件,过程繁琐且容易遗漏关键细节。
- 检索精度不足:在海量文本中查找特定参数用法时,简单的关键词搜索无法理解语义上下文,常常返回无关结果。
- 知识孤岛现象:爬取的数据散落在各个浏览器标签页或笔记软件中,无法被 AI 编程助手直接调用进行实时辅助编码。
使用 mcp-crawl4ai-rag 后
- 实时知识同步:mcp-crawl4ai-rag 自动递归抓取 LangChain 最新官方文档并索引至向量数据库,让 AI 助手瞬间掌握 v0.2 的最新语法。
- 自动化数据处理:工具智能识别 URL 类型并并行处理多个页面,自动按标题分割内容块,无需人工干预即可完成知识库构建。
- 混合搜索增强:结合向量语义搜索与关键词匹配,并通过重排序模型优化结果,精准定位到具体的代码示例和参数说明。
- 无缝集成工作流:作为 MCP 服务器直接嵌入开发环境,AI 助手在编写代码时可实时检索外部文档,自动修正过时的实现方案。
mcp-crawl4ai-rag 将静态的网页信息转化为 AI 可即时调用的动态知识引擎,彻底消除了大模型因数据滞后产生的“幻觉”问题。
运行环境要求
- Linux
- macOS
- Windows
- 未说明 (默认使用 OpenAI API 进行嵌入生成
- 若启用本地 Ollama 或重排序模型,需根据具体模型需求配置,文中未指定具体显卡要求)
未说明

快速开始
Crawl4AI RAG MCP 服务器
为 AI 助手和 AI 编码助手提供网络爬取与 RAG 能力
这是一个强大的 模型上下文协议 (MCP) 实现,集成了 Crawl4AI 和 Supabase,旨在为 AI 助手和 AI 编码助手提供先进的网络爬取与 RAG 能力。
借助此 MCP 服务器,您可以抓取任何内容,然后将这些知识在任何地方用于 RAG。
我们的主要目标是将此 MCP 服务器整合到 Archon 中,随着 Archon 的演进,使其逐渐成为 AI 编码助手构建 AI 助手的知识引擎。目前的 Crawl4AI/RAG MCP 服务器初版将在不久后得到大幅改进,尤其是会增加更多的可配置性,以便您可以使用不同的嵌入模型,并通过 Ollama 在本地运行整个系统。
请将此 GitHub 仓库视为一个测试平台,这也是我尚未积极处理问题和拉取请求的原因。不过,随着我们将它引入 Archon V2,我一定会更加积极地参与其中!
概述
此 MCP 服务器提供了一系列工具,使 AI 助手能够爬取网站、将内容存储到向量数据库(Supabase)中,并对爬取的内容执行 RAG 操作。它遵循基于我之前在频道上提供的 Mem0 MCP 服务器模板 构建 MCP 服务器的最佳实践。
该服务器包含多种高级 RAG 策略,可以启用以提升检索质量:
- 上下文嵌入,用于增强语义理解
- 混合搜索,结合向量搜索和关键词搜索
- 代理式 RAG,用于提取专门的代码示例
- 重排序,利用交叉编码器模型提高结果的相关性
- 知识图谱,用于检测 AI 幻觉并分析代码库
有关如何启用和配置这些策略的详细信息,请参阅下方的配置部分。
愿景
Crawl4AI RAG MCP 服务器仅仅是一个开始。我们的目标如下:
- 与 Archon 集成:将此系统直接构建到 Archon 中,打造一个全面的知识引擎,帮助 AI 编码助手构建更优秀的 AI 助手。
- 支持多种嵌入模型:不仅限于 OpenAI,还将扩展到支持各种嵌入模型,包括通过 Ollama 在本地运行所有功能,以实现完全的控制和隐私保护。
- 高级 RAG 策略:实施上下文检索、延迟分块等复杂检索技术,超越简单的“朴素查找”,显著提升 RAG 系统的功能和精度,尤其是在与 Archon 集成时。
- 优化分块策略:采用受 Context 7 启发的分块方法,专注于示例并为每个分块创建具有明确语义意义的独立部分,从而提高检索精度。
- 性能优化:提升爬取和索引速度,使快速索引新文档并在 AI 编码助手的同一提示中加以利用变得更加现实。
功能
- 智能 URL 检测:自动检测并处理不同类型的 URL(普通网页、站点地图、文本文件)
- 递归爬取:跟随内部链接发现内容
- 并行处理:高效地同时爬取多个页面
- 内容分块:根据标题和大小智能分割内容,以便更好地处理
- 向量搜索:对爬取的内容执行 RAG 操作,可选择按数据源过滤以提高精确度
- 来源检索:检索可用于筛选的来源,以指导 RAG 流程
工具
该服务器提供了必要的网络爬取和搜索工具:
核心工具(始终可用)
crawl_single_page:快速爬取单个网页并将内容存储到向量数据库中smart_crawl_url:根据提供的 URL 类型(站点地图、llms-full.txt 或需要递归爬取的普通网页)智能地爬取整个网站get_available_sources:获取数据库中所有可用来源(域名)的列表perform_rag_query:使用语义搜索查找相关内容,可选择按来源过滤
条件工具
search_code_examples(需设置USE_AGENTIC_RAG=true):专门从爬取的文档中搜索代码示例及其摘要。此工具为 AI 编码助手提供有针对性的代码片段检索。
知识图谱工具(需设置 USE_KNOWLEDGE_GRAPH=true,见下文)
parse_github_repository:将 GitHub 代码库解析为 Neo4j 知识图谱,提取类、方法、函数及其关系,用于幻觉检测check_ai_script_hallucinations:通过验证导入、方法调用和类的使用是否符合知识图谱,分析 Python 脚本是否存在 AI 幻觉query_knowledge_graph:使用repos、classes、methods等命令以及自定义 Cypher 查询来探索和查询 Neo4j 知识图谱
先决条件
- 如果以容器方式运行 MCP 服务器(推荐),则需要 Docker/Docker Desktop
- 如果直接通过 uv 运行 MCP 服务器,则需要 Python 3.12+
- Supabase(用于 RAG 的数据库)
- OpenAI API 密钥(用于生成嵌入)
- Neo4j(可选,用于知识图谱功能)——请参阅知识图谱设置部分
安装
使用 Docker(推荐)
克隆此仓库:
git clone https://github.com/coleam00/mcp-crawl4ai-rag.git cd mcp-crawl4ai-rag构建 Docker 镜像:
docker build -t mcp/crawl4ai-rag --build-arg PORT=8051 .根据下方的配置部分创建
.env文件
直接使用 uv(无需 Docker)
克隆此仓库:
git clone https://github.com/coleam00/mcp-crawl4ai-rag.git cd mcp-crawl4ai-rag如果尚未安装 uv,请先安装:
pip install uv创建并激活虚拟环境:
uv venv .venv\Scripts\activate # 在 Mac/Linux 上:source .venv/bin/activate安装依赖项:
uv pip install -e . crawl4ai-setup根据下方的配置部分创建
.env文件
数据库设置
在运行服务器之前,您需要设置带有 pgvector 扩展的数据库:
前往 Supabase 控制台中的 SQL 编辑器(如有必要,先创建一个新项目)
创建一个新的查询,并粘贴
crawled_pages.sql中的内容运行该查询以创建必要的表和函数
知识图谱设置(可选)
要启用AI幻觉检测和代码库分析功能,您需要设置Neo4j。
此外,知识图谱的实现目前尚未完全兼容Docker,因此如果您希望在MCP服务器中使用幻觉检测功能,建议直接通过uv运行!
安装Neo4j
本地AI软件包(推荐)
在本地运行Neo4j最简单的方式是使用本地AI软件包——一个包含Neo4j在内的精选本地AI服务集合:
克隆本地AI软件包:
git clone https://github.com/coleam00/local-ai-packaged.git cd local-ai-packaged启动Neo4j: 按照本地AI软件包仓库中的说明,使用Docker Compose启动Neo4j。
默认连接信息:
- URI:
bolt://localhost:7687 - 用户名:
neo4j - 密码:请参考本地AI软件包文档获取默认密码。
- URI:
手动安装Neo4j
您也可以直接安装Neo4j:
安装Neo4j Desktop:从neo4j.com/download下载。
创建新数据库:
- 打开Neo4j Desktop。
- 创建新项目和数据库。
- 为
neo4j用户设置密码。 - 启动数据库。
记录您的连接信息:
- URI:
bolt://localhost:7687(默认) - 用户名:
neo4j(默认) - 密码:您在创建时设置的密码。
- URI:
配置
在项目根目录下创建一个.env文件,并添加以下变量:
# MCP服务器配置
HOST=0.0.0.0
PORT=8051
TRANSPORT=sse
# OpenAI API配置
OPENAI_API_KEY=your_openai_api_key
# 用于摘要和上下文嵌入的LLM
MODEL_CHOICE=gpt-4.1-nano
# RAG策略(设置为“true”或“false”,默认为“false”)
USE_CONTEXTUAL_EMBEDDINGS=false
USE_HYBRID_SEARCH=false
USE_AGENTIC_RAG=false
USE_RERANKING=false
USE_KNOWLEDGE_GRAPH=false
# Supabase配置
SUPABASE_URL=your_supabase_project_url
SUPABASE_SERVICE_KEY=your_supabase_service_key
# Neo4j配置(知识图谱功能所需)
NEO4J_URI=bolt://localhost:7687
NEO4J_USER=neo4j
NEO4J_PASSWORD=your_neo4j_password
RAG策略选项
Crawl4AI RAG MCP服务器支持四种强大的RAG策略,您可以根据需求独立启用:
1. USE_CONTEXTUAL_EMBEDDINGS
启用后,该策略会利用整个文档的额外上下文来增强每个文本块的嵌入。系统会将整篇文档和特定文本块同时传递给由MODEL_CHOICE配置的LLM,以生成丰富的上下文信息,并将其与文本块内容一同嵌入。
- 适用场景:当您需要高精度的检索结果且上下文至关重要时,例如技术文档中某些术语在不同章节可能具有不同含义。
- 权衡:由于需要对每个文本块调用LLM,索引过程会较慢,但检索准确性显著提高。
- 成本:索引过程中会产生额外的LLM API调用费用。
2. USE_HYBRID_SEARCH
结合传统的关键词搜索与语义向量搜索,提供更全面的检索结果。系统会并行执行两种搜索,并智能地合并结果,优先展示同时出现在两个结果集中的文档。
- 适用场景:当用户可能使用特定的技术术语、函数名进行搜索,或者在注重语义理解的同时也需要精确匹配关键词时。
- 权衡:搜索查询速度稍慢,但结果更加稳健,尤其适用于技术内容。
- 成本:无需额外的API费用,仅需承担一定的计算开销。
3. USE_AGENTIC_RAG
启用专门的代码示例提取与存储功能。在爬取文档时,系统会识别长度≥300字符的代码块,提取其周围上下文并生成摘要,然后将这些代码示例及其摘要存储到专为代码搜索设计的独立向量数据库表中。
- 适用场景:对于需要从文档中查找特定代码示例、实现模式或使用案例的AI编码助手来说,此功能至关重要。
- 权衡:由于涉及代码提取和摘要生成,爬取速度会显著减慢,且需要更多的存储空间。
- 成本:每提取一个代码示例都需要调用LLM API生成摘要。
- 收益:提供了一个专用的
search_code_examples工具,供AI代理用于查找具体的代码实现。
4. USE_RERANKING
在初始检索之后,对搜索结果应用交叉编码器重排序。系统会使用轻量级的交叉编码器模型(cross-encoder/ms-marco-MiniLM-L-6-v2)对每个结果与原始查询进行打分,然后按相关性重新排序结果。
- 适用场景:当搜索精度至关重要,您需要将最相关的结果排在首位时。尤其适用于语义相似度本身可能无法准确捕捉查询意图的复杂查询。
- 权衡:根据结果数量的不同,每次搜索查询会增加约100–200毫秒的延迟,但可以显著提升结果的相关性。
- 成本:无需额外的API费用——使用的是可在CPU上运行的本地模型。
- 收益:提高结果的相关性,尤其适用于复杂查询。既可用于常规RAG搜索,也可用于代码示例搜索。
5. USE_KNOWLEDGE_GRAPH
启用基于Neo4j知识图谱的AI幻觉检测和代码库分析功能。启用后,系统可以将GitHub代码库解析为图数据库,并将AI生成的代码与真实的代码库结构进行验证。(目前尚未完全兼容Docker,建议通过uv运行)
- 适用场景:对于需要将生成的代码与实际实现进行验证的AI编码助手,或者希望检测AI模型是否生成了不存在的方法、类或错误用法模式的情况。
- 权衡:需要设置Neo4j并引入额外依赖。对于大型代码库,解析过程可能会较慢;验证还需要预先索引代码库。
- 成本:验证本身不产生额外的API费用,但需要搭建Neo4j基础设施(可使用免费的本地安装版或云服务AuraDB)。
- 收益:提供三项强大功能:“parse_github_repository”用于索引代码库,“check_ai_script_hallucinations”用于验证AI生成的代码,以及“query_knowledge_graph”用于探索已索引的代码库。
现在您可以指示AI编码助手将某个Python GitHub代码库添加到知识图谱中,例如:
“将https://github.com/pydantic/pydantic-ai.git添加到知识图谱”
请确保仓库URL以.git结尾。
您还可以让AI编码助手检查其刚刚生成的脚本是否存在幻觉,或者手动运行以下命令:
python knowledge_graphs/ai_hallucination_detector.py [待分析脚本的完整路径]
推荐配置
适用于通用文档 RAG:
USE_CONTEXTUAL_EMBEDDINGS=false
USE_HYBRID_SEARCH=true
USE_AGENTIC_RAG=false
USE_RERANKING=true
适用于带有代码示例的 AI 编程助手:
USE_CONTEXTUAL_EMBEDDINGS=true
USE_HYBRID_SEARCH=true
USE_AGENTIC_RAG=true
USE_RERANKING=true
USE_KNOWLEDGE_GRAPH=false
适用于具有幻觉检测功能的 AI 编程助手:
USE_CONTEXTUAL_EMBEDDINGS=true
USE_HYBRID_SEARCH=true
USE_AGENTIC_RAG=true
USE_RERANKING=true
USE_KNOWLEDGE_GRAPH=true
适用于快速、基础的 RAG:
USE_CONTEXTUAL_EMBEDDINGS=false
USE_HYBRID_SEARCH=true
USE_AGENTIC_RAG=false
USE_RERANKING=false
USE_KNOWLEDGE_GRAPH=false
运行服务器
使用 Docker
docker run --env-file .env -p 8051:8051 mcp/crawl4ai-rag
使用 Python
uv run src/crawl4ai_mcp.py
服务器将启动,并在配置的主机和端口上监听。
与 MCP 客户端集成
SSE 配置
当您使用 SSE 传输方式运行服务器后,可以使用以下配置连接到它:
{
"mcpServers": {
"crawl4ai-rag": {
"transport": "sse",
"url": "http://localhost:8051/sse"
}
}
}
Windsurf 用户注意:请在配置中使用
serverUrl而不是url:{ "mcpServers": { "crawl4ai-rag": { "transport": "sse", "serverUrl": "http://localhost:8051/sse" } } }Docker 用户注意:如果您的客户端运行在不同的容器中,请使用
host.docker.internal而不是localhost。如果您在 n8n 中使用此 MCP 服务器,则适用此规则!Claude Code 用户注意:
claude mcp add-json crawl4ai-rag '{"type":"http","url":"http://localhost:8051/sse"}' --scope user
Stdio 配置
将此服务器添加到您的 MCP 配置中,以供 Claude Desktop、Windsurf 或其他 MCP 客户端使用:
{
"mcpServers": {
"crawl4ai-rag": {
"command": "python",
"args": ["path/to/crawl4ai-mcp/src/crawl4ai_mcp.py"],
"env": {
"TRANSPORT": "stdio",
"OPENAI_API_KEY": "your_openai_api_key",
"SUPABASE_URL": "your_supabase_url",
"SUPABASE_SERVICE_KEY": "your_supabase_service_key",
"USE_KNOWLEDGE_GRAPH": "false",
"NEO4J_URI": "bolt://localhost:7687",
"NEO4J_USER": "neo4j",
"NEO4J_PASSWORD": "your_neo4j_password"
}
}
}
}
Docker 与 Stdio 配置
{
"mcpServers": {
"crawl4ai-rag": {
"command": "docker",
"args": ["run", "--rm", "-i",
"-e", "TRANSPORT",
"-e", "OPENAI_API_KEY",
"-e", "SUPABASE_URL",
"-e", "SUPABASE_SERVICE_KEY",
"-e", "USE_KNOWLEDGE_GRAPH",
"-e", "NEO4J_URI",
"-e", "NEO4J_USER",
"-e", "NEO4J_PASSWORD",
"mcp/crawl4ai"],
"env": {
"TRANSPORT": "stdio",
"OPENAI_API_KEY": "your_openai_api_key",
"SUPABASE_URL": "your_supabase_url",
"SUPABASE_SERVICE_KEY": "your_supabase_service_key",
"USE_KNOWLEDGE_GRAPH": "false",
"NEO4J_URI": "bolt://localhost:7687",
"NEO4J_USER": "neo4j",
"NEO4J_PASSWORD": "your_neo4j_password"
}
}
}
}
知识图谱架构
知识图谱系统将仓库代码结构存储在 Neo4j 中,包含以下组件:
核心组件(knowledge_graphs/ 文件夹):
parse_repo_into_neo4j.py:克隆并分析 GitHub 仓库,将 Python 类、方法、函数和导入提取为 Neo4j 中的节点和关系。ai_script_analyzer.py:使用 AST 解析 Python 脚本,提取导入、类实例化、方法调用和函数使用情况。knowledge_graph_validator.py:根据知识图谱验证 AI 生成的代码,以检测幻觉(不存在的方法、错误参数等)。hallucination_reporter.py:生成关于检测到的幻觉的综合报告,包括置信度评分和建议。query_knowledge_graph.py:交互式 CLI 工具,用于探索知识图谱(该功能现已集成到 MCP 工具中)。
知识图谱模式:
Neo4j 数据库将代码结构存储为以下内容:
节点:
Repository:GitHub 仓库File:仓库中的 Python 文件Class:包含方法和属性的 Python 类Method:带有参数信息的类方法Function:独立函数Attribute:类属性
关系:
Repository-[:CONTAINS]->FileFile-[:DEFINES]->ClassFile-[:DEFINES]->FunctionClass-[:HAS_METHOD]->MethodClass-[:HAS_ATTRIBUTE]->Attribute
工作流程:
- 仓库解析:使用
parse_github_repository工具克隆并分析开源仓库。 - 代码验证:使用
check_ai_script_hallucinations工具验证 AI 生成的 Python 代码。 - 知识探索:使用
query_knowledge_graph工具探索可用的仓库、类和方法。
构建您自己的服务器
此实现为构建具有网络爬取功能的更复杂的 MCP 服务器提供了基础。要构建您自己的服务器:
- 使用
@mcp.tool()装饰器创建您自己的工具方法。 - 创建您自己的生命周期函数,以添加您自己的依赖项。
- 修改
utils.py文件,以添加您所需的任何辅助函数。 - 通过添加更多专用爬虫来扩展爬取功能。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器