Comfyui-QwenEditUtils

GitHub
784 27 简单 1 次阅读 今天Apache-2.0图像插件
AI 解读 由 AI 自动生成,仅供参考

Comfyui-QwenEditUtils 是一套专为 ComfyUI 设计的实用节点集合,旨在简化基于 Qwen 模型的图像编辑工作流。它主要解决了用户在利用多参考图进行复杂图像修改时,面临的提示词编码繁琐、图片尺寸适配困难以及配置流程不灵活等痛点。

该工具特别适合熟悉 ComfyUI 操作的设计师、AI 创作者及希望深入探索多模态编辑的技术爱好者使用。其核心亮点在于强大的多参考图支持能力:通过 TextEncodeQwenImageEditPlus 等节点,用户可同时引入最多 5 张参考图像,并结合文本提示词实现高度可控的图像生成与编辑。此外,它能自动将参考图调整为适合 VAE 和视觉语言模型(VL)编码的最佳尺寸,无需手动预处理。工具还提供了灵活的配置解析器、输出提取器以及自定义 Llama 模板支持,让用户能精细调整编辑指令。

值得注意的是,虽然本仓库功能完善,但官方已推出升级版 ComfyUI-EditUtils,支持包括 Flux2Klein 在内的更多模型。对于新项目,建议优先考虑新版工具,而 Comfyui-QwenEditUtils 仍可作为理解 Qwen 编辑逻辑或维护旧工作流的宝贵资源。

使用场景

一位电商设计师需要基于五张不同角度的产品参考图,快速生成一张符合特定营销文案的高质量合成海报。

没有 Comfyui-QwenEditUtils 时

  • 设计师必须手动将五张参考图分别缩放至 Qwen 模型要求的特定分辨率(如 VAE 编码需 1024x1024,VL 编码需 384x384),过程繁琐且易出错。
  • 缺乏统一节点处理多图输入,只能搭建复杂的分支工作流来逐一编码图片,导致节点连线杂乱,难以维护。
  • 无法在提示词编码阶段直接融合多张参考图的视觉特征,生成的图像往往丢失部分产品细节或风格不一致。
  • 若要调整遮罩区域进行局部重绘,需额外编写脚本解析配置,无法在图形界面中灵活切换自定义模板。

使用 Comfyui-QwenEditUtils 后

  • 利用 TextEncodeQwenImageEditPlus 节点,一键自动完成最多五张参考图的智能缩放与双重编码(VAE/VL),无需人工干预尺寸。
  • 单个节点即可整合文本提示词与多路图像输入,大幅简化工作流结构,使复杂的多图编辑逻辑清晰可见。
  • 通过内置的 CLIP 编码与参考图引导机制,精准保留所有产品的材质与光影细节,确保生成结果高度还原设计意图。
  • 结合 QwenEditConfigPreparer 和自定义 Llama 模板,设计师可轻松配置遮罩与编辑指令,实现精细化的局部修改控制。

Comfyui-QwenEditUtils 通过自动化多图预处理与深度集成编码能力,将原本耗时数小时的多参考图编辑流程缩短至分钟级,显著提升了创意落地的效率与精度。

运行环境要求

操作系统
  • 未说明
GPU

未说明(基于 Qwen 图像编辑模型,通常建议 NVIDIA GPU,具体显存需求取决于所选模型大小)

内存

未说明

依赖
notes这是一个 ComfyUI 的自定义节点插件,用于支持基于 Qwen 模型的图像编辑工作流。使用前需确保已安装 ComfyUI 主程序。该仓库已被新的 ComfyUI-EditUtils 取代,建议新项目使用新仓库。具体运行环境(如 Python 版本、CUDA 版本)主要取决于宿主 ComfyUI 环境及所加载的具体 Qwen 模型要求。
python未说明
ComfyUI
torch
transformers
Qwen 相关模型库
Comfyui-QwenEditUtils hero image

快速开始

Comfyui-QwenEditUtils

ComfyUI 中基于通义千问的图像编辑工具节点集合。

注意:此仓库已被 ComfyUI-EditUtils 取代,后者提供了更强大的功能,并支持包括通义千问和 Flux2Klein 在内的多种 AI 模型。我们建议在未来的项目中使用新的仓库。

示例

示例工作流 结果图像

您可以在以下文件中找到完整的 ComfyUI 工作流示例:

  • [qwen edit custom.json](qwen edit custom.json) - 展示了包含完整配置选项的高级用法
  • [qwen edit custom mask.json](qwen edit custom mask.json) - 展示了包含完整配置选项的掩码用法

更新日志

v2.0.5

  • 在配置节点和自定义节点中添加了掩码选项,以提升图像编辑效果。

v2.0.3

  • 添加了 QwenEditAdaptiveLongestEdge 节点,便于获取图像的最佳最长边。

v2.0.0

  • 添加了 TextEncodeQwenImageEditPlusCustom_lrzjason 节点,用于高度定制化的图像编辑。
  • 添加了 QwenEditConfigPreparer 和 QwenEditConfigJsonParser 节点,用于创建图像配置。
  • 添加了 QwenEditOutputExtractor 节点,用于从自定义节点中提取输出。
  • 添加了 QwenEditListExtractor 节点,用于从列表中提取项目。
  • 添加了 CropWithPadInfo 节点,用于带填充信息的裁剪操作。

节点

TextEncodeQwenImageEditPlus lrzjason

该节点为基于通义千问的图像编辑工作流提供文本编码功能,并支持参考图像。它允许您在编码提示时结合最多 5 张参考图像,从而实现更受控的图像生成。

输入

  • clip: 用于编码的 CLIP 模型
  • prompt: 要编码的文本提示
  • vae(可选): 用于图像编码的 VAE 模型
  • image1(可选): 第一张用于图像编辑的参考图像
  • image2(可选): 第二张用于图像编辑的参考图像
  • image3(可选): 第三张用于图像编辑的参考图像
  • image4(可选): 第四张用于图像编辑的参考图像
  • image5(可选): 第五张用于图像编辑的参考图像
  • enable_resize(可选): 启用参考图像的自动调整大小以进行 VAE 编码
  • enable_vl_resize(可选): 启用参考图像的自动调整大小以进行 VL 编码
  • llama_template(可选): 自定义 Llama 模板,用于图像描述和编辑指令

输出

  • CONDITIONING: 编码后的条件张量
  • image1: 处理后的第一张参考图像
  • image2: 处理后的第二张参考图像
  • image3: 处理后的第三张参考图像
  • image4: 处理后的第四张参考图像
  • image5: 处理后的第五张参考图像
  • LATENT: 第一张参考图像的编码后潜在表示

行为

  • 使用 CLIP 对文本提示进行编码,并可选择性地引入参考图像引导
  • 支持最多 5 张参考图像,适用于复杂的编辑任务
  • 自动将参考图像调整至适合 VAE 和 VL 编码的最佳尺寸
  • 与 VAE 模型集成,将参考图像编码到潜在空间
  • 支持自定义 Llama 模板,以提供更精确的图像编辑指令
  • 分别对图像进行 VAE 编码(1024x1024)和 VL 编码(384x384)
  • 返回单独处理过的图像,以便更灵活的工作流连接

TextEncodeQwenImageEditPlusAdvance lrzjason

此高级节点为基于通义千问的图像编辑工作流提供增强的文本编码功能,并支持参考图像。它对图像缩放具有更精确的控制,并支持灵活的图像输入配置,分别针对 VAE 和 VL 编码进行处理。

输入

  • clip: 用于编码的 CLIP 模型
  • prompt: 要编码的文本提示
  • vae(可选): 用于图像编码的 VAE 模型
  • vl_resize_image1(可选): 第一张经过缩放后用于 VL 编码的参考图像
  • vl_resize_image2(可选): 第二张经过缩放后用于 VL 编码的参考图像
  • vl_resize_image3(可选): 第三张经过缩放后用于 VL 编码的参考图像
  • not_resize_image1(可选): 第一张不进行 VL 缩放的参考图像
  • not_resize_image2(可选): 第二张不进行 VL 缩放的参考图像
  • not_resize_image3(可选): 第三张不进行 VL 缩放的参考图像
  • target_size(可选): VAE 编码的目标尺寸(选项:1024、1344、1536、2048、768、512)
  • target_vl_size(可选): VL 编码的目标尺寸(默认:384)
  • upscale_method(可选): 图像上采样的方法(选项:lanczos、bicubic、area)
  • crop(可选): 裁剪方式(选项:center、disabled)
  • instruction(可选): 自定义的图像编辑指令

输出

  • CONDITIONING: 编码后的条件张量
  • LATENT: 第一张参考图像的编码后潜在表示
  • target_image1: 处理后的第一张目标参考图像
  • target_image2: 处理后的第二张目标参考图像
  • target_image3: 处理后的第三张目标参考图像
  • vl_resized_image1: 第一张经过 VL 缩放的参考图像
  • vl_resized_image2: 第二张经过 VL 缩放的参考图像
  • vl_resized_image3: 第三张经过 VL 缩放的参考图像

行为

  • 提供高级文本编码功能,可分别控制 VAE 和 VL 的图像处理
  • 支持 3 张具有不同缩放行为的参考图像
  • 提供多种目标尺寸选项,以实现更灵活的图像处理
  • 分别保留 VAE 编码和 VL 缩放后的图像输出
  • 提供增强的上采样和裁剪控制,以实现最佳的图像处理效果
  • 结合自定义指令,实现量身定制的图像编辑

TextEncodeQwenImageEditPlusPro lrzjason

此专业节点为基于Qwen的图像编辑工作流提供最具灵活性的文本编码功能,并支持参考图像。它可精细控制哪些图像进行VL重缩放,同时指定主图像以实现聚焦式条件设置。

输入

  • clip: 用于编码的CLIP模型
  • prompt: 要编码的文本提示
  • vae(可选): 用于图像编码的VAE模型
  • image1(可选): 第一张用于图像编辑的参考图像
  • image2(可选): 第二张用于图像编辑的参考图像
  • image3(可选): 第三张用于图像编辑的参考图像
  • image4(可选): 第四张用于图像编辑的参考图像
  • image5(可选): 第五张用于图像编辑的参考图像
  • vl_resize_indexs(可选): 需要应用VL重缩放的图像索引,用逗号分隔(默认值:“0,1,2”)
  • main_image_index(可选): 用于聚焦式条件设置的主参考图像索引(默认值:0)
  • target_size(可选): VAE编码的目标尺寸(选项:1024、1344、1536、2048、768、512)
  • target_vl_size(可选): VL编码的目标尺寸(选项:384、392)
  • upscale_method(可选): 图像上采样方法(选项:“lanczos”、“bicubic”、“area”)
  • crop_method(可选): 裁剪方法(选项:“pad”、“center”、“disabled”)
  • instruction(可选): 自定义图像编辑指令

输出

  • CONDITIONING: 包含所有参考潜变量的编码条件张量
  • LATENT: 主参考图像的编码潜变量表示
  • image1: 处理后的第一张参考图像
  • image2: 处理后的第二张参考图像
  • image3: 处理后的第三张参考图像
  • image4: 处理后的第四张参考图像
  • image5: 处理后的第五张参考图像
  • CONDITIONING: 仅包含主参考潜变量的编码条件张量
  • ANY: 包含缩放和填充信息的垫片信息字典

行为

  • 提供专业级别的文本编码,具有最大的图像处理灵活性
  • 支持最多5张参考图像,每张图像均可配置VL重缩放
  • 允许指定主参考图像以实现聚焦式条件设置
  • 提供完整参考和主参考条件的独立输出
  • 提供多种目标尺寸选项,以实现更灵活的图像处理
  • 包括垫片信息,可用于潜在的图像裁剪和缩放操作
  • 提供增强的上采样和裁剪控制,包括用于保护图像的填充功能

TextEncodeQwenImageEditPlusCustom_lrzjason

此节点通过允许对每张参考图像进行自定义配置,为图像编辑工作流提供了最大的灵活性。每张图像都可以拥有自己特定的参考(VAE)和视觉语言(VL)处理设置,从而实现高度定制化的图像编辑场景。

输入

  • clip: 用于编码的CLIP模型
  • vae: 用于图像编码的VAE模型
  • prompt: 要编码的文本提示
  • configs: 每张图像的配置字典列表,包含:
    • image: 用于图像编辑的参考图像
    • to_ref: 是否将该图像纳入参考处理(VAE编码)
    • ref_main_image: 该图像是否为主参考图像,用于聚焦式条件设置
    • ref_longest_edge: 参考处理的目标最长边尺寸(默认值:1024)
    • ref_crop: 参考处理的裁剪方法(选项:“pad”、“center”、“disabled”)
    • ref_upscale: 参考处理的上采样方法(选项:“lanczos”、“bicubic”、“area”)
    • to_vl: 是否将该图像纳入视觉语言处理
    • vl_resize: 是否对该图像进行VL处理前的重缩放(默认值:是)
    • vl_target_size: VL处理的目标尺寸(默认值:384)
    • vl_crop: VL处理的裁剪方法(选项:“center”、“disabled”)
    • vl_upscale: VL处理的上采样方法(选项:“bicubic”、“area”、“lanczos”)
    • mask: 该图像的可选遮罩,用于定义编辑的兴趣区域
  • return_full_refs_cond(可选): 是否返回包含所有参考图像的条件,还是仅返回主参考的条件(默认值:是)
  • instruction(可选): 自定义图像编辑指令

输出

  • CONDITIONING: 编码后的条件张量(根据return_full_refs_cond参数,包含全部或仅主参考)
  • LATENT: 主参考图像的编码潜变量表示
  • custom_output: 包含以下内容的字典:
    • pad_info: 包含缩放和填充信息的垫片信息字典
    • full_refs_cond: 包含所有参考潜变量的条件
    • main_ref_cond: 仅包含主参考潜变量的条件
    • main_image: 处理后的主参考图像
    • vae_images: 所有已处理的VAE图像列表
    • ref_latents: 所有参考潜变量列表
    • vl_images: 所有已处理的VL图像列表
    • full_prompt: 包含图像描述的完整提示
    • llama_template: 应用的系统提示模板
    • mask: 用于兴趣区域的已处理遮罩

行为

  • 通过允许对每张图像分别进行参考和VL处理的配置,提供最大的灵活性
  • 同时支持多张具有不同处理要求的参考图像
  • 可对每张图像的缩放、裁剪和重缩放进行精细控制
  • 返回包含所有中间结果的综合输出字典
  • 可与自定义指令集成,实现量身定制的图像编辑
  • 提供完整参考和主参考条件的输出

QwenEditConfigPreparer

此辅助节点用于创建与 TextEncodeQwenImageEditPlusCustom_lrzjason 节点配合使用的配置对象。它允许您为单个图像定义自定义处理参数。

输入

  • image: 用于配置的参考图像
  • configs(可选):要追加到的现有配置对象列表
  • to_ref(可选):是否将图像纳入参考处理(默认:True)
  • ref_main_image(可选):该图像是否为主要参考图像(默认:True)
  • ref_longest_edge(可选):参考处理的目标最长边尺寸(默认:1024)
  • ref_crop(可选):参考处理的裁剪方法(选项:“pad”、“center”、“disabled”,默认:“center”)
  • ref_upscale(可选):参考处理的放大方法(选项:“lanczos”、“bicubic”、“area”,默认:“lanczos”)
  • to_vl(可选):是否将图像纳入视觉语言处理(默认:True)
  • vl_resize(可选):是否对图像进行 VL 处理前的缩放(默认:True)
  • vl_target_size(可选):VL 处理的目标尺寸(默认:384)
  • vl_crop(可选):VL 处理的裁剪方法(选项:“center”、“disabled”,默认:“center”)
  • vl_upscale(可选):VL 处理的放大方法(选项:“bicubic”、“area”、“lanczos”,默认:“bicubic”)
  • mask(可选):图像的可选掩码,用于定义编辑的兴趣区域

输出

  • configs: 更新后的配置对象列表
  • config: 当前图像的配置对象

行为

  • 创建定义每张图像处理方式的配置对象
  • 允许追加到现有配置列表
  • 为所有配置参数提供默认值
  • 输出的配置列表可直接连接到 TextEncodeQwenImageEditPlusCustom_lrzjason

QwenEditConfigJsonParser

此辅助节点从 JSON 字符串中创建配置对象,供 TextEncodeQwenImageEditPlusCustom_lrzjason 节点使用。它提供了一种替代方法来定义配置参数。

输入

  • image: 用于配置的参考图像
  • configs(可选):要追加到的现有配置对象列表
  • config_json(可选):包含配置参数的 JSON 字符串
  • mask(可选):图像的可选掩码,用于定义编辑的兴趣区域

输出

  • configs: 更新后的配置对象列表
  • config: 当前图像的配置对象

行为

  • 从 JSON 字符串中创建配置对象
  • 允许追加到现有配置列表
  • 提供默认的 JSON 配置模板
  • 输出的配置列表可直接连接到 TextEncodeQwenImageEditPlusCustom_lrzjason

QwenEditOutputExtractor

此辅助节点从 TextEncodeQwenImageEditPlusCustom_lrzjason 节点生成的 custom_output 字典中提取特定输出。

输入

  • custom_output: 自定义节点生成的 custom_output 字典

输出

  • pad_info: 填充信息字典
  • full_refs_cond: 使用所有参考潜变量的条件
  • main_ref_cond: 仅使用主要参考潜变量的条件
  • main_image: 主要参考图像
  • vae_images: 所有经过 VAE 处理的图像列表
  • ref_latents: 所有参考潜变量列表
  • vl_images: 所有经过 VL 处理的图像列表
  • full_prompt: 包含图像描述的完整提示
  • llama_template: 应用的系统提示模板
  • no_refs_cond: 不使用任何参考潜变量的条件
  • mask: 用于兴趣区域的已处理掩码

行为

  • 从复杂的输出字典中提取各个组件
  • 提供对自定义节点所有中间结果的访问
  • 支持对不同输出组件的模块化处理

QwenEditListExtractor

此辅助节点根据索引位置从列表中提取特定项目。

输入

  • items: 输入列表
  • index: 要提取项目的索引(默认:0)

输出

  • item: 从列表中提取的项目

行为

  • 根据索引从列表中提取单个项目
  • 适用于从 vae_images 列表或其他集合中提取特定图像
  • 支持任何类型的列表项

QwenEditAdaptiveLongestEdge

此实用节点计算图像的适当最长边尺寸,确保不超过指定的最大尺寸。这在需要根据图像尺寸自动确定最佳最长边以进行图像处理时特别有用,尤其是在处理需要缩小以供处理的大图像时。

输入

  • image: 要分析的输入图像
  • max_size: 最长边允许的最大尺寸(默认:2048,范围:512–4096)

输出

  • longest_edge: 计算出的满足 max_size 约束的图像最长边尺寸

行为

  • 计算输入图像的最长边
  • 如果最长边超过 max_size,则计算一个符合约束的减小尺寸
  • 返回可用于其他节点(如 TextEncodeQwenImageEditPlusCustom_lrzjason)进行动态图像处理的适当最长边尺寸
  • 对于希望防止过大的图像导致内存或处理问题的工作流非常有用

CropWithPadInfo

此实用节点使用由其他节点生成的填充信息裁剪图像,从而在填充操作后精确地裁剪回原始内容区域。

输入

  • image: 要裁剪的图像
  • pad_info: 包含 x、y、宽度、高度和缩放值的填充信息字典

输出

  • cropped_image: 恢复原始内容尺寸的裁剪图像
  • scale_by: 原始处理中使用的缩放因子

行为

  • 使用填充信息将图像裁剪回原始内容区域
  • 移除处理过程中添加的填充
  • 返回缩放因子,以便进行可能的进一步操作

关键特性

  • 多图像支持:可在文本到图像生成工作流中引入最多 3 张参考图像
  • 双重缩放选项:分别为 VAE 编码(1024px)和 VL 编码(384px)提供独立的缩放控制
  • 单独的图像输出:每张经过处理的参考图像都会作为单独的输出提供,便于灵活连接
  • 潜空间集成:将参考图像编码到潜空间,以实现高效处理
  • Qwen 模型兼容性:专为基于 Qwen 的图像编辑模型设计
  • 可定制模板:使用自定义 Llama 模板,提供量身定制的图像编辑指令

安装

  1. 将本仓库克隆或下载到您的 ComfyUI 的 custom_nodes 目录中。
  2. 重启 ComfyUI。
  3. 该节点将出现在“advanced/conditioning”分类中。

注意: 本仓库已被 ComfyUI-EditUtils 取代,后者提供了更强大的功能,并支持包括 Qwen 和 Flux2Klein 在内的多种 AI 模型。我们建议您在未来的项目中使用新的仓库。

联系方式

欢迎赞助我以支持更多开源项目:

请我喝杯咖啡:

请我喝杯咖啡二维码

微信支付:

微信二维码

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|今天
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架