HuixiangDou

2.5k 184 较难 1 次阅读 2天前BSD-3-Clause开发框架语言模型其他数据工具图像

AI 解读由 AI 自动生成，仅供参考

HuixiangDou 是一款基于大语言模型的专业知识助手，专为解决微信群等群组聊天场景中的技术咨询难题而设计。在热闹的群聊中，它不仅能精准识别并回答用户的专业问题，还能有效避免无关消息泛滥，确保交流高效有序。除了群聊模式，它还支持针对代码仓库的实时流式对话，帮助用户快速查阅文档或调试代码。

该工具最大的亮点在于其“零训练”部署方案，仅需普通 CPU 甚至低配置显卡即可运行，极大地降低了使用门槛。其核心采用独特的三阶段处理流水线（预处理、拒答判断、响应生成），结合混合检索技术，显著提升了回答的准确率与相关性。此外，HuixiangDou 提供了完整的 Web 端、Android API 及后端源码，具备工业级的稳定性，已实际应用于植物科学等前沿领域并助力顶级期刊论文发表。

无论是希望为社群引入智能助力的运营者、需要构建私有知识库的企业开发者，还是寻求低成本落地方案的科研人员，都能通过 HuixiangDou 轻松搭建属于自己的 AI 专家系统。它不仅支持集成到微信、飞书等主流平台，还允许用户自定义正负样本以优化效果，是让大模型真正融入日常协作流程的实用利器。

使用场景

某大型植物科研团队在微信群中协作攻关，每日需处理大量关于基因编辑、病虫害防治的专业咨询与文献检索需求。

没有 HuixiangDou 时

信息淹没严重：群内消息刷屏频繁，专家提出的关键问题常被闲聊或无关通知覆盖，导致重要技术讨论中断或遗漏。
重复劳动低效：面对成员反复询问的基础概念或已解决的实验步骤，资深研究员不得不多次手动复制粘贴相同答案，耗费大量精力。
知识检索困难：团队积累的海量 PDF 文献和实验报告散落在个人手中，群聊无法实时关联内部知识库，回答缺乏数据支撑。
响应延迟高：非工作时间或专家忙碌时，初级研究员的紧急提问往往数小时甚至数天得不到回应，拖慢项目进度。

使用 HuixiangDou 后

智能过滤降噪：HuixiangDou 的三阶段流水线自动识别并拦截无关闲聊，仅在检测到高质量技术问题时唤醒机器人回复，确保群聊秩序井然。
自动化精准应答：基于内置知识库，机器人即时回答重复性基础问题，让资深专家从琐碎答疑中解放，专注于核心攻关。
深度知识融合：通过 GraphRAG 技术，HuixiangDou 能实时检索团队私有文献库，生成的回答不仅准确且附带来源依据，显著提升决策质量。
7x24 小时在线：无论何时何地，成员提问均能获得秒级响应，即使是复杂的跨文档推理任务也能快速得到初步解决方案，加速研发迭代。

HuixiangDou 将杂乱的群聊转化为高效的知识协作中枢，让专业智慧在零训练成本下实现全天候流动。

运行环境要求

操作系统

Linux

GPU

可选
纯 CPU 模式仅需调用云端 API
本地运行标准版需 2GB 显存（验证于 GTX 1660 Ti）
多模态版需 10GB 显存（验证于 RTX 3090）
未明确指定 CUDA 版本

内存

未说明

依赖

notes项目支持三种配置模式：1. CPU 模式：仅使用云端 API（如 SiliconCloud），无需本地 GPU；2. 标准版：本地运行 LLM 及文本检索，需 2GB 显存；3. 多模态版：支持图文检索，需 10GB 显存。安装时需通过 apt 安装大量系统级依赖以支持 Word、PDF、音频等多格式解析。推荐使用 vLLM 部署本地大模型。

python3.8+

faiss-gpu (Python 3.8)

python-dev

libxml2-dev

libxslt1-dev

antiword

poppler-utils

tesseract-ocr

ffmpeg

sox

libjpeg-dev

快速开始

🎚️ 升级

HuixiangDou2(ACL25) 是一种 GraphRAG 解决方案，在植物科学领域已证明其有效性，并为《Molecular Plant》杂志的封面论文 做出了贡献。如果您从事计算机科学以外的工作，不妨试用一下这个新版本。

英语 | 简体中文

HuixiangDou1 是一款基于 LLM 的专业知识助手。

优势：

设计了预处理、拒绝和响应三阶段流水线
- chat_in_group 适用于群聊场景，在不造成消息刷屏的情况下回答用户问题，详见 2401.08772、2405.02817、混合检索和精确度报告
- chat_with_repo 用于实时流式聊天
无需训练，支持仅 CPU、2G、10G 等配置
提供完整的 Web、Android 和流水线源代码套件，具备工业级标准且可商业化

请查看 HuixiangDou 运行的场景以及当前的公共服务状态：

readthedocs ChatWithAI（仅 CPU）现已可用
OpenXLab 使用 GPU 并持续维护中
微信机器人需要支付微信接入的相关费用。所有代码均已验证一年内功能正常。请根据您的需求自行部署免费版或商业版。

如果对您有所帮助，请给它点个赞 ⭐

🔆 新特性

我们的 Web 版本已发布至 OpenXLab，您可以在其中创建知识库、更新正负样本、开启网页搜索、测试聊天功能，并将其集成到飞书/微信群中。详情请参见 BiliBili 和 YouTube！

Web 版本的 Android API 也支持其他设备。详情请参阅 Python 示例代码。

[2025/03] 简化部署并移除 --standalone
[2025/03] 转发多条微信群消息
[2024/09] 倒排索引让 LLM 更倾向于使用知识库🎯
[2024/09] 代码检索
[2024/08] chat_with_readthedocs，详情请参阅如何集成 👍
[2024/07] 图像与文本检索及移除 langchain 👍
[2024/07] 混合知识图谱与密集检索，将 F1 分数提升了 1.7% 🎯
[2024/06] 评估 chunksize、分词器和 text2vec 模型 🎯
[2024/05] wkteam 微信接入，支持解析图片与 URL，并实现共指消解
[2024/05] 针对 NLP 任务的 SFT LLM，F1 提升 29% 🎯

🤗 LoRA-Qwen1.5-14B LoRA-Qwen1.5-32B alpaca 数据 arXiv
[2024/04] RAG 注释 SFT Q&A 数据和示例
[2024/04] 发布 Web 前后端服务源代码 👍
[2024/03] 新增个人微信集成和 预编译 APK！
[2024/02] [实验性功能] 微信群集成多模态技术以实现 OCR

📖 支持状态

LLM	文件格式	检索方法	集成	预处理
DeepSeek InternLM GLM KIMI StepFun vLLM Silicon🏷️ PPIO🏷️ Xi-Api	excel html markdown pdf ppt txt word	针对文档的密集向量检索针对代码的稀疏向量检索知识图谱互联网搜索 SourceGraph 图像与文本	微信（安卓/wkteam) Lark OpenXLab Web Gradio Demo HTTP 服务器 Read the Docs	指代消解

📦 硬件要求

以下是不同功能所需的显存要求，区别仅在于是否启用了相关选项。

配置示例	显存需求	描述
config-cpu.ini	-	仅使用 siliconcloud API 处理文本
[标准版]config.ini	2GB	使用 OpenAI API（如 kimi、deepseek 和 stepfun）进行纯文本检索
config-multimodal.ini	10GB	使用 OpenAI API 进行 LLM、图像和文本检索

🔥 运行标准版

我们以标准版（本地运行 LLM，文本检索）为例进行介绍。其他版本只是配置选项有所不同。

I. 下载并安装依赖项

点击同意 BCE 模型协议，登录 Hugging Face：

huggingface-cli login

安装依赖项：

# 解析 `word` 格式所需软件
apt update
apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev
# Python 所需库
pip install -r requirements.txt
# 对于 Python 3.8，请安装 faiss-gpu 而不是 faiss

II. 创建知识库

我们使用一些小说来构建知识库，并筛选问题。如果你有自己的文档，只需将其放入 repodir 目录下即可。

复制并执行以下所有命令（包括 # 符号）：

# 下载知识库，这里仅以部分文档为例。你可以将任何自己的文档放入 `repodir` 目录中。
cd HuixiangDou
mkdir repodir
cp -rf resource/data* repodir/

# 构建知识库，这会将 `repodir` 中的内容特征保存到 `workdir`，并将正负样本阈值更新到 `config.ini` 文件中。
mkdir workdir
python3 -m huixiangdou.services.store

# 你也可以从 QA 对（CSV 或 JSON 格式）构建知识库。
# CSV：第一列是问题，第二列是答案。
# JSON：{"question1": "answer1", "question2": "answer2", ...}
# python3 -m huixiangdou.services.store --qa-pair resource/data/qa_pair.csv

III. 设置 LLM API 并测试

在 config.ini 文件中设置模型和 api-key。如果要在本地运行 LLM，建议使用 vllm。

vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

以下是已配置的 config.ini 示例：

[llm.server]
remote_type = "kimi"
remote_api_key = "sk-dp3GriuhhLXnYo0KUuWbFUWWKOXXXXXXXXXX"
remote_llm_model = "auto"

# remote_type = "step"
# remote_api_key = "5CpPyYNPhQMkIzs5SYfcdbTHXq3a72H5XXXXXXXXXXXXX"
# remote_llm_model = "auto"

# remote_type = "deepseek"
# remote_api_key = "sk-86db9a205aa9422XXXXXXXXXXXXXX"
# remote_llm_model = "deepseek-chat"

# remote_type = "vllm"
# remote_api_key = "EMPTY"
# remote_llm_model = "Qwen2.5-7B-Instruct"

# remote_type = "siliconcloud"
# remote_api_key = "sk-xxxxxxxxxxxxx"
# remote_llm_model = "alibaba/Qwen1.5-110B-Chat"

# remote_type = "ppio"
# remote_api_key = "sk-xxxxxxxxxxxxx"
# remote_llm_model = "thudm/glm-4-9b-chat"

然后运行测试：


# 回答与百草园相关的问题（基于知识库），但不回答天气问题。
python3 -m huixiangdou.main

+-----------------------+---------+--------------------------------+-----------------+
|         Query         |  State  |         Reply                  |   References    |
+=======================+=========+================================+=================+
| 百草园里有什么？ | success | 百草园拥有丰富多样的自然景观和生物…… | installation.md |
--------------------------------------------------------------------------------------
| 今天天气怎么样？         | Init state| ..                           |                 |
+-----------------------+---------+--------------------------------+-----------------+
🔆 在这里输入你的问题，输入 `bye` 退出：
..

💡 同时也可以使用 gradio 运行一个简单的 Web UI：

python3 -m huixiangdou.gradio_ui

或者启动一个监听 23333 端口的服务器，默认管道为 chat_with_repo：

python3 -m huixiangdou.api_server

# 测试异步 API 
curl -X POST http://127.0.0.1:23333/huixiangdou_stream  -H "Content-Type: application/json" -d '{"text": "如何安装 mmpose","image": ""}'
# cURL 同步 API
curl -X POST http://127.0.0.1:23333/huixiangdou_inference  -H "Content-Type: application/json" -d '{"text": "如何安装 mmpose","image": ""}'

请更新 repodir 文档、good_questions 和 bad_questions，并尝试应用到你自己的领域知识中（如医疗、金融、电力等）。

IV. 集成

至飞书、微信群

至 Web 前后端

我们提供了 typescript 前端和 python 后端源代码：

支持多租户管理
无需编程即可接入飞书和微信
对 k8s 友好

与 OpenXlab APP 类似，请阅读 Web 部署文档。

至 readthedocs.io

尝试页面右下角按钮和文档。

🍴 其他配置

仅 CPU 版本

如果没有 GPU，可以使用 siliconcloud 的 API 完成模型推理。

以 docker miniconda+Python3.11 为例，安装 CPU 依赖并运行：

# 启动容器
docker run -v /path/to/huixiangdou:/huixiangdou -p 7860:7860 -p 23333:23333 -it continuumio/miniconda3 /bin/bash
# 安装依赖
apt update
apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev
python3 -m pip install -r requirements-cpu.txt
# 构建知识库
python3 -m huixiangdou.services.store --config_path config-cpu.ini
# 问答测试
python3 -m huixiangdou.main --config_path config-cpu.ini
# gradio UI
python3 -m huixiangdou.gradio_ui --config_path config-cpu.ini

如果觉得安装太慢，可以在 Docker Hub 上找到预装镜像，启动时直接替换即可。

10G 多模态版本

如果你有 10G 显存的 GPU，可以进一步支持图像和文本检索。只需修改 config.ini 中使用的模型。

# config-multimodal.ini
# !!! 下载 `https://huggingface.co/BAAI/bge-visualized/blob/main/Visualized_m3.pth`    到 `bge-m3` 文件夹 !!!
embedding_model_path = "BAAI/bge-m3"
reranker_model_path = "BAAI/bge-reranker-v2-minicpm-layerwise"

注意：

需要手动下载 Visualized_m3.pth 到 bge-m3 目录
安装主分支上的 FlagEmbedding，我们已经修复了 bugfix。这里可以下载 bpe_simple_vocab_16e6.txt.gz
安装 requirements/multimodal.txt

运行 gradio 测试，查看图像和文本检索结果这里。

python3 tests/test_query_gradio.py

进一步说明

请阅读以下主题：

🛠️ 常见问题解答

如果机器人过于冷淡/过于健谈怎么办？
- 将实际场景中需要回答的问题填入 resource/good_questions.json，将应被拒绝的问题填入 resource/bad_questions.json。
- 调整 repodir 中的主题内容，确保主库中的 markdown 文档不包含无关内容。
重新运行 feature_store 更新阈值和特征库。

⚠️ 你也可以直接修改 config.ini 中的 reject_throttle。一般来说，0.5 是较高的值；0.2 则过低。
启动正常，但在运行时出现内存不足？

基于 transformer 结构的 LLM 长文本处理需要更多内存。此时需要对模型进行 kv 缓存量化，例如 lmdeploy 量化说明。然后使用 docker 独立部署 Hybrid LLM Service。

No module named 'faiss.swigfaiss_avx2'

找到已安装的 faiss 包

import faiss
print(faiss.__file__)
# /root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/site-packages/faiss/__init__.py

添加软链接

# cd your_python_path/site-packages/faiss
cd /root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/site-packages/faiss/
ln -s swigfaiss.py swigfaiss_avx2.py

🍀 致谢

KIMI：长文本大模型，支持直接上传文件
FlagEmbedding：BAAI RAG 团队
BCEmbedding：中英双语特征模型
Langchain-ChatChat：Langchain 与 ChatGLM 的应用
GrabRedEnvelope：微信红包领取工具

📝 引用

@misc{kong2024huixiangdou,
      title={HuiXiangDou：基于 LLM 的技术辅助克服群聊场景},
      author={孔焕钧、张松阳、李佳颖、肖敏、徐俊、陈凯},
      year={2024},
      eprint={2401.08772},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{kong2024labelingsupervisedfinetuningdata,
      title={利用规模定律标注监督微调数据}, 
      author={孔焕钧},
      year={2024},
      eprint={2405.02817},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2405.02817}, 
}

@misc{kong2025huixiangdou2robustlyoptimizedgraphrag,
      title={HuixiangDou2：一种鲁棒优化的 GraphRAG 方法}, 
      author={孔焕钧、王哲凡、王晨阳、马哲、董南青},
      year={2025},
      eprint={2503.06474},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2503.06474}, 
}

HuixiangDou 快速上手指南

HuixiangDou 是一款基于大语言模型（LLM）的专业知识助手，专为群聊场景和实时流式对话设计。它无需训练，支持纯 CPU 或低显存 GPU 运行，提供完整的 Web、Android 及后端源码。

1. 环境准备

系统要求

操作系统：推荐 Linux (x86_64)
硬件配置：
- 纯 CPU 版：无 GPU 要求，需调用云端 API（如 SiliconCloud）。
- 标准版（文本检索）：仅需 2GB 显存（如 GTX 1660 Ti），或使用云端 API。
- 多模态版（图文检索）：需 10GB+ 显存（如 RTX 3090）。
Python 版本：推荐 Python 3.8+

前置依赖安装

在安装 Python 依赖前，需先安装系统级工具以支持文档解析（Word, PDF, OCR 等）：

# 更新源并安装系统依赖
apt update
apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev

# 安装 Python 依赖
pip install -r requirements.txt

# 注意：若使用 Python 3.8，请安装 faiss-gpu 替代 faiss
# pip install faiss-gpu

2. 安装与知识库构建

步骤一：获取模型与代码

首先同意 BCE Embedding 模型协议并登录 HuggingFace（国内用户若访问受限，可配置镜像或使用代理）：

huggingface-cli login

克隆项目代码并进入目录：

git clone https://github.com/InternLM/HuixiangDou.git
cd HuixiangDou

步骤二：创建知识库

将您的文档（支持 pdf, word, markdown, txt 等格式）放入 repodir 目录。以下示例使用项目自带的测试数据：

# 创建文档目录并复制示例数据
mkdir repodir
cp -rf resource/data* repodir/

# 创建工作目录并构建知识库
# 此步骤会提取特征并自动更新 config.ini 中的阈值
mkdir workdir
python3 -m huixiangdou.services.store

提示：您也可以直接使用问答对（CSV 或 JSON 格式）构建知识库： python3 -m huixiangdou.services.store --qa-pair resource/data/qa_pair.csv

3. 基本使用

步骤一：配置模型

编辑 config.ini 文件，配置 LLM 服务。您可以选择本地部署（推荐 vLLM）或云端 API（如 Kimi, DeepSeek, SiliconCloud 等）。

示例：使用云端 Kimi API

[llm.server]
remote_type = "kimi"
remote_api_key = "sk-your-actual-api-key-here"
remote_llm_model = "auto"

示例：使用本地 vLLM 部署 先在终端启动本地服务：

vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct --enable-prefix-caching

然后在 config.ini 中配置：

[llm.server]
remote_type = "vllm"
remote_api_key = "EMPTY"
remote_llm_model = "Qwen-2.5-7B-Instruct"

步骤二：运行测试

启动主程序进行测试。系统将自动判断问题是否与知识库相关：若相关则回答，若不相关（如询问天气）则拒绝回答，避免群聊消息泛滥。

python3 -m huixiangdou.main

运行成功后，您将看到类似以下的交互输出，表明助手已准备好处理基于知识库的问答。

更多集成：

Web 界面：参考 web 目录源码或体验 OpenXLab 在线版。
微信/飞书集成：参考 docs/zh/ 目录下的详细接入文档。
API 服务：运行 python3 -m huixiangdou.api_server 开启 HTTP 服务供其他应用调用。

版本历史

202511172025/11/17

202407222024/07/22

202404152024/04/15

v0.1.0rc12024/01/14

常见问题

运行时报错 ValueError: Cannot decide self.index type 怎么办？

Gradio 界面回答生成非常慢且不是流式输出，如何解决？

如何在非 Hybrid-LLM 环境下使用 DeepSeek 等远程模型运行 Web Demo？

部署 Web 版知识库时报错 missing 'ner_file' 参数如何处理？

运行 server.py 时报错 NameError: name 'main_args' is not defined 怎么修？

构建多模态 RAG 有什么推荐的流程和模型？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架