ComfyUI-QwenVL

717 101 中等 1 次阅读昨天GPL-3.0图像语言模型

AI 解读由 AI 自动生成，仅供参考

ComfyUI-QwenVL 是一款专为 ComfyUI 设计的自定义节点，旨在将阿里云强大的 Qwen-VL 系列视觉语言模型（包括最新的 Qwen3-VL 和 Qwen2.5-VL）无缝集成到您的工作流中。它主要解决了在本地可视化界面中高效部署多模态 AI 的难题，让用户能够轻松实现图像理解、视频帧序列分析以及高质量文本生成，无需编写复杂代码。

这款工具非常适合希望拓展 ComfyUI 功能的设计师、AI 爱好者以及需要快速验证多模态应用的研究人员。无论是构建智能图文助手还是进行视频内容分析，它都能提供灵活的支持。其技术亮点在于广泛的兼容性与性能优化：不仅支持标准的 Hugging Face 模型，还引入了 GGUF 后端以大幅降低显存占用；具备智能量化功能（4-bit/8-bit/FP16），可根据硬件自动调整；最新版本更加入了 SageAttention 加速技术和针对特定 GPU 架构的内核优化，显著提升了推理速度与稳定性。此外，它还提供了从简易到高级的多种节点模式及预设提示词系统，兼顾了新手上手的便捷性与专家用户对细节的掌控需求。

使用场景

一位电商运营设计师需要快速处理数百张新品服装图，既要提取详细的材质与款式描述用于上架，又要基于这些特征生成多风格的营销海报。

没有 ComfyUI-QwenVL 时

流程割裂效率低：必须先用独立的 OCR 工具或人工手动记录图片中的文字标签和面料信息，再复制到文生图节点，无法在 ComfyUI 内部形成闭环。
视频分析能力缺失：面对动态走秀视频素材，只能逐帧截图后盲目猜测动作细节，缺乏对连续帧语义的精准理解，导致生成的提示词空洞。
显存管理困难：尝试加载大型多模态模型时，常因缺乏智能量化（如 FP8/4-bit）和显存清理机制，导致本地显卡直接爆显存崩溃。
工作流复用性差：每次更换模型或调整参数都需要重新编写复杂的脚本代码，难以通过可视化节点灵活切换 Qwen2.5-VL 或 Qwen3-VL 等不同版本。

使用 ComfyUI-QwenVL 后

端到端自动化：直接将服装图或视频帧序列输入节点，利用内置的 Qwen3-VL 模型自动输出包含“真丝质感”、“法式剪裁”等细节的结构化提示词，无缝对接下游生图节点。
深度视频理解：借助对视频帧序列的分析能力，精准捕捉模特转身、裙摆飘动等动态特征，自动生成极具画面感的动态营销文案。
硬件友好运行：开启 GGUF 后端与智能量化选项，自动匹配 SageAttention 加速内核，在消费级显卡上也能流畅运行大参数模型而不爆显存。
灵活可视调控：通过预设提示词模板和高级节点控件，无需写代码即可一键切换模型版本或微调生成策略，大幅降低多模态工作流的搭建门槛。

ComfyUI-QwenVL 将复杂的多模态理解能力转化为可视化的标准组件，让设计师能在单一工作流中实现从“看图理解”到“创意生成”的无缝飞跃。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU 以获得最佳性能（支持 SageAttention 优化，架构包括 SM80, SM89, SM90, SM120）
显存需求取决于模型大小及量化设置（支持 4-bit, 8-bit, FP16, FP8）
具备硬件感知保护机制以防止不兼容的 FP8 模型报错

内存

未说明

依赖

notes该工具集成阿里云 Qwen-VL 系列（含 Qwen3-VL, Qwen2.5-VL）及纯文本 Qwen3 模型。支持 Transformers (HF) 和 GGUF (llama.cpp) 两种后端。若使用 GGUF 节点，必须预先安装支持视觉的 llama-cpp-python 版本。支持自动下载模型，也可手动放置于指定目录。提供智能注意力模式选择（Sage -> Flash -> SDPA）和多种量化选项以平衡显存与性能。支持图像和视频帧序列输入。

python未说明

torch

transformers (4.x/5.x)

sageattention (可选)

llama-cpp-python (GGUF 节点必需，需包含视觉处理能力)

快速开始

QwenVL for ComfyUI

ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型（LVLM），包括最新的 Qwen3-VL 和 Qwen2.5-VL，同时还支持 GGUF 后端以及纯文本的 Qwen3 模型。这一先进的节点能够在您的 ComfyUI 工作流中实现无缝的多模态 AI 功能，从而高效地进行文本生成、图像理解与视频分析。

QwenVL_V1.1.0

📰 新闻与更新

2026年2月8日：v2.1.1 修复了与 Transformers 4.x 和 5.x 的兼容性问题 [更新]
2026年2月5日：v2.1.0 增加了 SageAttention 支持，并针对每种 GPU 架构进行了优化；改进了 FP8 模型的处理方式，实现了注意力机制模式的自动选择。[更新]
- SageAttention 支持：全新的注意力机制模式，配备针对不同 GPU 架构优化的内核（SM80、SM89、SM90、SM120）
- FP8 处理改进：更好地支持预量化 FP8 模型，并可自动回退到 SDPA
- 智能注意力选择：自动模式会依次尝试 Sage → Flash → SDPA，以获得最佳性能
- 进度条：为模型加载和生成阶段添加了 ComfyUI 进度条
- 更优的内存管理：在切换注意力模式或量化设置时，改进了缓存清理机制
2025年12月22日：v2.0.0 新增了 GGUF 支持节点和提示增强节点。[更新]

[!重要]
在运行 GGUF 节点之前，请先安装 llama-cpp-python 安装说明

600346260_122188475918461193_3763807942053883496_n

2025年11月10日：v1.1.0 对运行时进行了全面重构，加入了注意力模式选择器、flash-attn 自动检测功能、更智能的缓存管理以及在两个节点中均可使用的量化和 torch.compile 控制选项。[更新]
2025年10月31日：v1.0.4 支持自定义模型 [更新]
2025年10月22日：v1.0.3 更新了模型列表 [更新]
2025年10月17日：v1.0.0 初始发布
- 支持 Qwen3-VL 和 Qwen2.5-VL 系列模型。
- 可从 Hugging Face 自动下载模型。
- 支持即时量化（4-bit、8-bit、FP16）。
- 提供预设和自定义提示系统，使用灵活便捷。
- 包含标准节点和高级节点，适合各水平用户。
- 针对硬件特性提供保护措施，确保 FP8 模型的兼容性。
- 支持图像和视频（帧序列）输入。
- 提供“保持模型加载”选项，以提升连续运行时的性能。
- 提供 种子参数，便于生成结果的重复性。

✨ 功能特性

标准与高级节点：包含一个用于快速使用的简单 QwenVL 节点，以及一个具备精细生成控制能力的 QwenVL（高级）节点。
提示增强器：专为 HF 和 GGUF 后端设计的纯文本提示增强器。
预设与自定义提示：您可以从便捷的预设提示列表中选择，也可以自行编写提示，以实现完全控制。
多模型支持：轻松切换不同的官方 Qwen-VL 模型。
自动模型下载：首次使用时会自动下载所需模型。
智能量化：通过 4-bit、8-bit 和 FP16 选项，在显存占用与性能之间取得平衡。
硬件感知：自动检测 GPU 性能，并防止使用不兼容模型时出现错误（例如 FP8）。
可重复生成：使用种子参数可获得一致的输出。
内存管理：提供“保持模型加载”选项，将模型常驻显存以加快处理速度。
图像与视频支持：既可接受单张图像输入，也可接受视频帧序列作为输入。
健壮的错误处理：针对硬件或内存问题提供清晰的错误信息。
简洁的控制台输出：运行过程中仅显示最少且富有信息量的日志。
SageAttention 支持：基于 GPU 优化的注意力机制，配备针对不同架构的专用内核（Ampere、Ada、Hopper、Blackwell）。
进度条：在模型加载和生成阶段提供可视化反馈。
智能缓存管理：在切换注意力模式或量化设置时自动释放显存。

🚀 安装步骤

将本仓库克隆到您的 ComfyUI/custom_nodes 目录下：

cd ComfyUI/custom_nodes  
git clone https://github.com/1038lab/ComfyUI-QwenVL.git

安装所需的依赖项：

cd ComfyUI/custom_nodes/ComfyUI-QwenVL  
pip install -r requirements.txt

重启 ComfyUI。

可选：SageAttention 支持

为了在支持的 GPU 上获得最佳性能，您需要安装 SageAttention：

pip install sageattention

🧭 节点概览

Transformers（HF）节点

QwenVL：快速的视觉语言推理（图像/视频 + 预设/自定义提示）。
QwenVL（高级）：可全面控制采样、设备及性能设置。
QwenVL 提示增强器：纯文本提示增强（同时支持 Qwen3 文本模型和 QwenVL 模型的文本模式）。

GGUF（llama.cpp）节点

QwenVL（GGUF）：基于 GGUF 的视觉语言推理。
QwenVL（GGUF 高级）：扩展的 GGUF 控制选项（上下文长度、GPU 层数等）。
QwenVL 提示增强器（GGUF）：GGUF 版本的纯文本提示增强。

🧩 GGUF 节点（llama.cpp 后端）

本仓库包含由 llama-cpp-python 提供支持的 GGUF 节点（与基于 Transformers 的节点分开）。

节点：QwenVL（GGUF）、QwenVL（GGUF 高级）、QwenVL 提示增强器（GGUF）
模型文件夹（默认路径）：ComfyUI/models/llm/GGUF/（可通过 gguf_models.json 进行配置）
视觉要求：需安装具备视觉功能的 llama-cpp-python 轮子，该轮子应提供 Qwen3VLChatHandler 或 Qwen25VLChatHandler
请参阅 docs/LLAMA_CPP_PYTHON_VISION_INSTALL.md

🗂️ 配置文件

HF 模型：hf_models.json
- hf_vl_models：视觉语言模型（供 QwenVL 节点使用）。
- hf_text_models：纯文本模型（供提示增强器使用）。
GGUF 模型：gguf_models.json
系统提示：AILab_System_Prompts.json（包含 VL 提示及提示增强风格）。

📥 下载模型

首次使用时，模型将自动下载。如果您希望手动下载，请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录下。

HF 视觉模型（Qwen-VL）

模型	链接
Qwen3-VL-2B-Instruct	下载
Qwen3-VL-2B-Thinking	下载
Qwen3-VL-2B-Instruct-FP8	下载
Qwen3-VL-2B-Thinking-FP8	下载
Qwen3-VL-4B-Instruct	下载
Qwen3-VL-4B-Thinking	下载
Qwen3-VL-4B-Instruct-FP8	下载
Qwen3-VL-4B-Thinking-FP8	下载
Qwen3-VL-8B-Instruct	下载
Qwen3-VL-8B-Thinking	下载
Qwen3-VL-8B-Instruct-FP8	下载
Qwen3-VL-8B-Thinking-FP8	下载
Qwen3-VL-32B-Instruct	下载
Qwen3-VL-32B-Thinking	下载
Qwen3-VL-32B-Instruct-FP8	下载
Qwen3-VL-32B-Thinking-FP8	下载
Qwen2.5-VL-3B-Instruct	下载
Qwen2.5-VL-7B-Instruct	下载

HF 文本模型（Qwen3）

模型	链接
Qwen3-0.6B	下载
Qwen3-4B-Instruct-2507	下载
qwen3-4b-Z-Image-Engineer	下载

GGUF 模型（手动下载）

组别	模型	仓库	模型文件	MMProj
Qwen 文本（GGUF）	Qwen3-4B-GGUF	Qwen/Qwen3-4B-GGUF	Qwen3-4B-Q4_K_M.gguf, Qwen3-4B-Q5_0.gguf, Qwen3-4B-Q5_K_M.gguf, Qwen3-4B-Q6_K.gguf, Qwen3-4B-Q8_0.gguf
Qwen-VL（GGUF）	Qwen3-VL-4B-Instruct-GGUF	Qwen/Qwen3-VL-4B-Instruct-GGUF	Qwen3VL-4B-Instruct-F16.gguf, Qwen3VL-4B-Instruct-Q4_K_M.gguf, Qwen3VL-4B-Instruct-Q8_0.gguf	mmproj-Qwen3VL-4B-Instruct-F16.gguf
Qwen-VL（GGUF）	Qwen3-VL-8B-Instruct-GGUF	Qwen/Qwen3-VL-8B-Instruct-GGUF	Qwen3VL-8B-Instruct-F16.gguf, Qwen3VL-8B-Instruct-Q4_K_M.gguf, Qwen3VL-8B-Instruct-Q8_0.gguf	mmproj-Qwen3VL-8B-Instruct-F16.gguf
Qwen-VL（GGUF）	Qwen3-VL-4B-Thinking-GGUF	Qwen/Qwen3-VL-4B-Thinking-GGUF	Qwen3VL-4B-Thinking-F16.gguf, Qwen3VL-4B-Thinking-Q4_K_M.gguf, Qwen3VL-4B-Thinking-Q8_0.gguf	mmproj-Qwen3VL-4B-Thinking-F16.gguf
Qwen-VL（GGUF）	Qwen3-VL-8B-Thinking-GGUF	Qwen/Qwen3-VL-8B-Thinking-GGUF	Qwen3VL-8B-Thinking-F16.gguf, Qwen3VL-8B-Thinking-Q4_K_M.gguf, Qwen3VL-8B-Thinking-Q8_0.gguf	mmproj-Qwen3VL-8B-Thinking-F16.gguf

📖 使用方法

基本用法

从 🧪AILab/QwenVL 类别中添加 “QwenVL” 节点。
选择您想要使用的 model_name。
将图像或视频（图像序列）源连接到节点。
使用预设或自定义字段编写您的提示。
运行工作流。

高级用法

为了获得更多的控制，可以使用 “QwenVL (Advanced)” 节点。这使您可以访问详细的生成参数，如温度、top_p、束搜索和设备选择。

⚙️ 参数

参数	描述	默认值	范围	节点
model_name	要使用的 Qwen-VL 模型。	Qwen3-VL-4B-Instruct	-	标准版与高级版
quantization	即时量化。对于预先量化的模型（例如 FP8）则忽略此选项。	8 位（平衡）	4 位、8 位、无	标准版与高级版
attention_mode	注意力机制：自动（Sage→Flash→SDPA）、sage、flash_attention_2、sdpa	自动	自动、sage、flash_attention_2、sdpa	标准版与高级版
preset_prompt	常见任务的预定义提示选择。	“描述一下这个……”	任意文本	标准版与高级版
custom_prompt	如果提供，则会覆盖预设提示。		任意文本	标准版与高级版
max_tokens	最大生成新标记数。	1024	64-2048	标准版与高级版
keep_model_loaded	将模型保留在 VRAM 中，以便后续运行更快。	真	真/假	标准版与高级版
seed	用于可重复结果的种子。	1	1 - 2^64-1	标准版与高级版
temperature	控制随机性。数值越高，越具创造性。（当 num_beams 为 1 时使用）。	0.6	0.1-1.0	仅高级版
top_p	核采样阈值。（当 num_beams 为 1 时使用）。	0.9	0.0-1.0	仅高级版
num_beams	束搜索的束数。大于 1 会禁用温度/top_p 采样。	1	1-10	仅高级版
repetition_penalty	不鼓励重复标记。	1.2	0.0-2.0	仅高级版
frame_count	从视频输入中采样的帧数。	16	1-64	仅高级版
device	覆盖自动设备选择。	自动	自动、cuda、cpu	仅高级版
use_torch_compile	启用 torch.compile 优化以加快推理速度。	假	真/假	仅高级版

💡 量化选项

模式	精度	内存占用	速度	质量	推荐场景
无（FP16）	16 位浮点	高	最快	最佳	高 VRAM 显卡（16GB+）
8 位（平衡）	8 位整数	中	快	非常好	平衡性能（8GB+）
4 位（节省 VRAM）	4 位整数	低	较慢*	良好	低 VRAM 显卡（<8GB）

* 关于 4 位速度的说明：4 位量化显著减少了 VRAM 的使用，但由于实时反量化带来的计算开销，在某些系统上可能会导致性能下降。

🎯 注意力模式指南

模式	描述	适用场景
auto	自动选择最佳可用模式：Sage → Flash → SDPA	大多数用户（推荐）
sage	基于 GPU 优化内核的 SageAttention	在现代 GPU（RTX 40 系列、Hopper、Blackwell）上速度更快
flash_attention_2	Flash Attention 2	当 Sage 不可用时提供速度优势
sdpa	PyTorch SDPA（默认）	兼容性好，适用于 FP8 和 BitsAndBytes 模型

注意：无论选择哪种模式，FP8 模型和 BitsAndBytes 量化都会自动使用 SDPA。

🤔 设置建议

设置	建议
模型选择	对于大多数用户来说，Qwen3-VL-4B-Instruct 是一个很好的起点。如果你有 40 系列 GPU，可以尝试 -FP8 版本以获得更好的性能。
内存模式	如果计划多次运行该节点，建议保持 keep_model_loaded 开启（True），以获得最佳性能。仅在其他节点内存不足时才关闭它。
量化	首先使用默认的 8 位量化。如果显存充足（>16GB），可切换到无量化（FP16），以获得最快的速度和最佳质量。若显存紧张，则使用 4 位量化。
注意力模式	使用“auto”模式以获得最佳性能。在支持的 GPU 上，SageAttention 能提供最快的推理速度。
性能	第一次加载特定量化级别的模型时，可能会比较慢。但后续运行（保持 keep_model_loaded 开启）会快得多。

🧠 关于模型

该节点使用由阿里云通义实验室团队开发的 Qwen-VL 系列模型。这些是功能强大的开源大型视觉语言模型（LVLM），旨在理解和处理视觉与文本信息，非常适合用于详细描述图像和视频等任务。

🗺️ 路线图

✅ 已完成（v2.1.0）

✅ 支持基于每 GPU 架构优化的 SageAttention
✅ 改进了 FP8 模型的处理，自动回退到 SDPA
✅ 智能注意力选择（auto：Sage → Flash → SDPA）
✅ 模型加载和生成进度条
✅ 更好的内存管理和缓存清理

✅ 已完成（v2.0.0）

✅ 通过 llama.cpp 后端支持 GGUF 模型
✅ 文本优化增强节点

✅ 已完成（v1.0.0）

✅ 支持 Qwen3-VL 和 Qwen2.5-VL 模型。
✅ 自动下载和管理模型。
✅ 实时进行 4 位、8 位和 FP16 量化。
✅ 对 FP8 模型进行硬件兼容性检查。
✅ 支持图像和视频（帧序列）输入。

🙏 致谢

Qwen 团队：阿里云 —— 感谢他们开发并开源了强大的 Qwen-VL 模型。
ComfyUI：comfyanonymous —— 感谢其强大且可扩展的 ComfyUI 平台。
llama-cpp-python：JamePeng/llama-cpp-python —— 提供了 GGUF 节点使用的具有视觉支持的 GGUF 后端。
SageAttention：SageAttention —— 提供了高效的注意力实现及 GPU 优化的内核。
ComfyUI 集成：1038lab —— 该自定义节点的开发者。

📜 许可证

本仓库的代码采用 GPL-3.0 许可证发布。

ComfyUI-QwenVL 快速上手指南

ComfyUI-QwenVL 是专为 ComfyUI 设计的自定义节点，集成了阿里云强大的 Qwen-VL 系列视觉语言模型（包括最新的 Qwen3-VL、Qwen2.5-VL），支持图像理解、视频分析及文本生成。该工具提供标准与高级两种节点模式，并支持 GGUF 量化后端，能够灵活适配不同显存配置。

环境准备

在开始之前，请确保满足以下系统要求：

操作系统: Windows, Linux 或 macOS
Python: 建议 Python 3.10 或更高版本
ComfyUI: 已安装并可正常运行的最新稳定版 ComfyUI
GPU: 推荐 NVIDIA GPU (支持 CUDA)，显存建议 8GB 以上（根据模型大小而定，小模型如 2B/4B 可在较低显存运行）
依赖库:
- transformers (自动安装)
- torch (需匹配你的 CUDA 版本)
- 可选 (高性能): 若使用 SageAttention 加速，需额外安装 sageattention
- 可选 (GGUF 模式): 若使用 GGUF 节点，需预先安装支持 Vision 的 llama-cpp-python

安装步骤

1. 克隆仓库

进入 ComfyUI 的 custom_nodes 目录并克隆本插件：

cd ComfyUI/custom_nodes
git clone https://github.com/1038lab/ComfyUI-QwenVL.git

国内加速提示：如果 GitHub 连接缓慢，可使用镜像源： git clone https://ghp.ci/https://github.com/1038lab/ComfyUI-QwenVL.git

2. 安装依赖

进入插件目录并安装所需 Python 包：

cd ComfyUI/custom_nodes/ComfyUI-QwenVL
pip install -r requirements.txt

国内加速提示：建议使用国内镜像源加速 pip 安装： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. (可选) 安装高性能组件

SageAttention 加速 (推荐 NVIDIA Ampere/Ada/Hopper 架构用户):
```
pip install sageattention
```
GGUF 支持 (如需使用 GGUF 节点): 请参考项目文档 docs/LLAMA_CPP_PYTHON_VISION_INSTALL.md 安装带有 Qwen3VLChatHandler 支持的 llama-cpp-python 版本。

4. 重启 ComfyUI

安装完成后，完全重启 ComfyUI 以加载新节点。

基本使用

以下是使用 标准节点 进行图像描述的最简工作流：

添加节点: 在 ComfyUI 右键菜单中，找到 🧪AILab/QwenVL 分类，选择 QwenVL 节点添加到画布。
连接输入:
- 将 图像加载器 (Load Image) 的输出连接到 QwenVL 节点的 image 输入端。
- (可选) 支持视频帧序列输入。
配置参数:
- model_name: 选择要使用的模型（例如 Qwen3-VL-4B-Instruct）。首次运行时会自动从 Hugging Face 下载模型。
- preset_prompt: 选择预设提示词（如 "Describe this image in detail"），或在 custom_prompt 中输入自定义指令。
- quantization: 根据显存选择量化等级（默认 8-bit，显存紧张可选 4-bit）。
运行工作流: 点击 "Queue Prompt" 运行。节点将输出模型生成的文本描述。

进阶提示

模型存储: 自动下载的模型默认存储在 ComfyUI/models/LLM/Qwen-VL/。如需手动下载，可从 Hugging Face 获取后放入该目录。
保持模型加载: 启用 keep_model_loaded 选项可避免重复加载模型，显著提升连续生成的速度。
高级控制: 如需调整 Temperature、Top_P 或指定 Attention 模式，请使用 QwenVL (Advanced) 节点。

常见问题

GGUF 模型处理完后显存（VRAM）未释放怎么办？

如何在本地路径配置自定义模型（custom_models.json）？

Windows 用户为什么无法使用 Flash-Attention？

Qwen3-VL 是否支持 GGUF 量化模型？

遇到 'dict' object has no attribute 'model_type' 错误如何解决？

QwenVL 模型生成速度过慢是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|今天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent