ComfyUI-MultiGPU

GitHub
850 64 中等 1 次阅读 2天前GPL-3.0开发框架插件图像Agent视频
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-MultiGPU 是一款专为 ComfyUI 设计的扩展节点,旨在通过智能的多显卡与内存管理技术,突破单张显卡显存容量的限制。它核心解决了用户在生成高分辨率图像或长视频时,因显存不足导致无法加载大模型或被迫降低生成质量的问题。

该工具引入了独特的"DisTorch"分布式技术,允许用户将模型中静态部分(如 UNet、CLIP、VAE)灵活卸载到系统内存(DRAM)或其他闲置显卡的显存中。通过“一键虚拟显存”功能,用户可以轻松释放主计算卡的宝贵空间,将其全部用于核心的潜空间运算,从而在不升级硬件的前提下运行更大的模型。

其技术亮点包括对 .safetensors 和 GGUF 格式模型的通用支持,以及针对 WanVideoWrapper 的深度集成。除了适合普通用户的简易模式外,它还提供了专家级的手动分配功能,支持按具体字节数或比例精确控制模型在不同设备间的分布,实现了比传统方案更高效的推理速度。

ComfyUI-MultiGPU 非常适合受限于显存容量的 AI 绘画爱好者、需要处理复杂工作流的设计师以及希望最大化利用现有硬件资源的研究人员。无论是多显卡持有者还是仅拥有单卡但内存充足的用户,都能借此显著提升创作自由度与效率。

使用场景

一位独立动画创作者试图在单张 12GB 显存的 RTX 3060 上生成高分辨率长视频,却因模型权重过大而频频受阻。

没有 ComfyUI-MultiGPU 时

  • 显存爆满导致任务失败:加载大型 UNet 和 CLIP 模型后,剩余显存不足以容纳生成视频所需的潜空间数据,直接报错 "Out of Memory"。
  • 被迫降低画质与时长:为了勉强运行,只能大幅缩减视频分辨率或帧数,严重牺牲了成片的细节表现力。
  • 手动管理效率低下:尝试手动拆分模型层到系统内存不仅操作复杂,还缺乏稳定支持,容易导致推理速度骤降或流程崩溃。
  • 多显卡资源闲置:即使电脑中插有第二张显卡,也无法让其在当前工作流中协助分担模型权重,造成硬件浪费。

使用 ComfyUI-MultiGPU 后

  • 一键释放核心显存:通过 "Virtual VRAM" 功能,将模型静态部分自动卸载到系统内存或第二张显卡,为主卡腾出宝贵空间用于潜空间计算。
  • 实现高质量长视频生成:在不降低分辨率的前提下,成功生成了更长、更细腻的视频序列,最大化利用了现有硬件的极限。
  • 灵活精准的分配策略:利用 Expert Mode 的 bytes 模式,精确指定每张显卡和 CPU 承载的模型大小(如 cuda:0,4gb;cuda:1,4gb;cpu,*),实现负载均衡。
  • 无缝集成工作流:原生支持 WanVideoWrapper 和 GGUF 模型,无需修改原有节点逻辑即可享受多设备分布式推理带来的性能提升。

ComfyUI-MultiGPU 通过将模型权重智能分布到所有可用设备,让用户不再受限于单卡显存容量,真正实现了“小显存跑大模型”的自由。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要支持 CUDA 的 NVIDIA GPU(用于主计算设备),支持多 GPU 配置
  • 可将模型部分卸载至其他 CUDA 设备或 CPU RAM
  • 具体显存大小取决于模型规模,旨在释放主 GPU 显存以处理更大的潜空间
内存

未说明(建议拥有足够的系统 RAM 以作为模型卸载的目标设备)

依赖
notes该工具主要增强内存管理而非并行处理,工作流步骤仍顺序执行。核心功能是通过 DisTorch 将模型静态部分(如 UNet、VAE、CLIP)从主计算显卡卸载到其他 GPU 或系统内存,从而最大化主显卡用于实际计算的显存。支持 .safetensors 和 GGUF 格式模型。提供‘普通模式’(简单滑块)和‘专家模式’(按字节、比例或分数精确分配模型到不同设备)。需手动或通过 ComfyUI-Manager 安装到 custom_nodes 目录。
python未说明
ComfyUI
torch (CUDA 版本)
ComfyUI-GGUF (可选,用于 GGUF 模型)
ComfyUI-WanVideoWrapper (可选,用于视频生成)
ComfyUI-Manager (推荐用于安装)
ComfyUI-MultiGPU hero image

快速开始

ComfyUI-MultiGPU v2:基于DisTorch的通用.safetensors与GGUF多GPU分布式方案


将几乎所有的显存释放出来,用于真正重要的任务:最大化潜在空间处理能力

ComfyUI-MultiGPU v2的核心:

[^1]:这增强了内存管理,而非并行计算。工作流步骤仍然按顺序执行,但其组件会以全部或部分的形式加载到您指定的设备上。性能提升源于在显存受限时避免重复加载和卸载模型;能力提升则在于尽可能将模型的大部分(VAE/CLIP/UNet)从您的主要计算设备上卸载,从而让您能够最大化用于实际计算的潜在空间。

  1. 通用.safetensors支持:原生支持所有.safetensors模型的DisTorch2分布式加载。
  2. GGUF推理速度较DisTorch1提升高达10%:新的DisTorch2逻辑为GGUF模型带来了相较于DisTorch V1方法的潜在提速。
  3. 定制化的WanVideoWrapper集成:与WanVideoWrapper紧密集成,提供稳定的八节点MultiGPU支持。
  4. 全新的模型驱动分配选项:新增两种直观的模型驱动专家模式,可精确控制模型在所有可用设备上的分布——“字节”和“比例”。

DisTorch的工作原理


DisTorch 2.0实战演示

什么是DisTorch?DisTorch是“distributed torch”的缩写,该自定义节点提供了一种将图像生成主模型中被称为UNet的静态部分从您的主要计算显卡上移至速度较慢但不会占用可用于更长视频或更多并发图像的显存区域的方法。通过选择一个或多个捐赠设备——例如系统CPU的DRAM或其他CUDA/XPS设备的显存——您可以决定将多少模型加载到这些设备上,而不是留在您的主要compute显卡上。只需设置您希望释放多少显存,剩下的工作就由DisTorch自动完成。

  • 两种模式
    • 普通模式:标准的virtual_vram_gb滑块继续允许您选择一个捐赠设备(如系统RAM)进行卸载。您添加的虚拟显存越多,就有更多的模型被推送到捐赠设备上。简单而有效。
    • 专家模式:专为追求极致性能的用户设计,包含两种专家模式——byteratio,允许您精确指定模型本身如何在所有可用设备间拆分,同时保留传统的fraction方式,让您的设备获得精确的显存分配。这些模式均通过一个灵活的文本字符串实现:
      • 字节(推荐):最直接的模型拆分方式。受Hugging Face的device_map启发,您可以为每个设备指定确切的GB或MB数量。通配符*会将剩余的模型分配给某个设备,便于轻松卸载。(若未指定,则默认使用CPU作为通配符。)
        • 示例cuda:0,2.5gb;cpu,*会将模型的前2.50GB加载到cuda:0上,其余部分则加载到cpu上。
        • 示例cuda:0,500mb;cuda:1,3.0g;cpu,5gb*会将0.50GB放在cuda:0上,3.00GB放在cuda:1上,而5.00GB(或剩余部分)则放在cpu上。
      • 比例:喜欢llama.cpptensor_split简洁性吗?这个模式正适合您。只需指定比例即可将模型均匀分配到各设备上。
        • 示例cuda:0,25%;cpu,75%会按照1:3的比例拆分模型,25%加载到cuda:0上,75%加载到cpu上。
        • 示例cuda:0,8%;cuda:1,8%;cpu,4%采用8:8:4的比例,将40%的模型放在cuda:0上,40%放在cuda:1上,20%放在cpu上。
      • 分数:最初的DisTorch专家模式。该模式根据每个设备总显存的使用比例来拆分模型。
        • 示例cuda:0,0.1;cpu,0.5会使用cuda:0显存的10%和cpu显存的50%来承载模型。
        • 示例cuda:0,0.0207;cuda:1,0.1273;cpu,0.0808会使用cuda:0显存的2.1%,cuda:1显存的12.7%,以及cpu显存的8.1%来承载模型。

🎯 主要优势

  • 无需复杂设置,即可立即释放GPU显存。
  • 通过将模型层卸载到其他系统内存,运行更大规模的模型。
  • 将主GPU的所有显存用于真正的compute/潜在空间处理,或者仅填充到满足需求的程度,其余部分则留给快速访问的模型模块。
  • 在有多块GPU的情况下,无缝地将.safetensors和GGUF层分布到不同显卡上。
  • 您只需简单调整一个数值,就能轻松在___设备内速度___与___开放设备的潜在空间能力___之间切换。


DisTorch节点只需一个简单的数字,即可根据您的需求调整虚拟显存

🚀 兼容性

适用于所有.safetensors及GGUF量化的模型。

⚙️ 对于高级用户:如果您使用.gguf或exl2/3 LLM加载器,请使用expert_mode_alloaction模式,以便在您配置的所有设备上对模型碎片进行精确分配!


新的虚拟显存功能甚至允许您将整个模型卸载,同时仍能在CUDA设备上进行计算!

安装

建议通过ComfyUI-Manager进行安装。只需在节点列表中搜索ComfyUI-MultiGPU,并按照安装说明操作即可。

手动安装

此仓库克隆到ComfyUI/custom_nodes/目录下。

节点

该扩展会自动创建多 GPU 版本的加载节点。每个多 GPU 节点的功能与原始节点相同,但新增了一个 device 参数,允许您指定要使用的 GPU。

当前支持的节点(如有可用则会自动检测):

所有适用于您安装的多 GPU 节点均可在节点菜单的“multigpu”类别中找到。

节点文档

针对所有自动检测到的核心 MultiGPU 和 DisTorch2 节点,我们提供了详细的技术文档,涵盖 70 多个已记录的节点,包含全面的参数说明、输出规格以及适用时的 DisTorch2 分配指南。

  • 访问文档方法:在 ComfyUI 中点击任意核心 MultiGPU 或 DisTorch2 节点,然后从弹出的菜单中选择“帮助”(圆圈内的问号)。
  • 覆盖范围:所有标准 ComfyUI 加载器节点(UNet、VAE、检查点、CLIP、ControlNet、Diffusers),以及流行的 GGUF 加载器变体。
  • 内容:输入参数及其数据类型和描述、输出规格、使用示例,以及 DisTorch2 分布式加载的说明,包括分配模式和策略。
  • 注意:文档仅涵盖 ComfyUI-MultiGPU 的核心功能。第三方自定义节点集成(如 WanVideoWrapper、Florence2 等)拥有各自的独立文档。

示例工作流

所有工作流均已在以下环境中测试通过:两块 3090 显卡加一块 1060ti 显卡的 Linux 系统、配备 4070 显卡的 Windows 11 系统,以及由 3090 和 1070ti 显卡组成的 Linux 系统。

DisTorch2

LTX Video + CheckpointLoaderSimple (DisTorch2)
LTX Video + CheckpointLoaderSimple (DisTorch2)
Mochi + CheckpointLoaderAdvanced (DisTorch2)
Mochi + CheckpointLoaderAdvanced (DisTorch2)
Qwen Image UNet + CLIP (DisTorch2)
Qwen Image UNet + CLIP (DisTorch2)
Qwen Image Edit UNet + CLIP (DisTorch2)
Qwen Image Edit UNet + CLIP (DisTorch2)
WanVideo 2.2 双 UNet,无 CPU (DisTorch2)
WanVideo 2.2 双 UNet,无 CPU (DisTorch2)
WanVideo 2.2 T2I LightX2V LoRA (DisTorch2)
WanVideo 2.2 T2I LightX2V LoRA (DisTorch2)
WanVideo 2.2 T2V LightX2V LoRA (DisTorch2)
WanVideo 2.2 T2V LightX2V LoRA (DisTorch2)

WanVideoWrapper

WanVideoWrapper T2V
WanVideoWrapper T2V
WanVideoWrapper 1.3B 控制 LoRA
WanVideoWrapper 1.3B 控制 LoRA
WanVideoWrapper 2.2 I2V A14B GGUF
WanVideoWrapper 2.2 I2V A14B GGUF

MultiGPU

FLUX UNet + 双 CLIP + VAE 加载器 (MultiGPU)
FLUX UNet + 双 CLIP + VAE 加载器 (MultiGPU)
SD15 CheckpointLoaderSimple (MultiGPU)
SD15 CheckpointLoaderSimple (MultiGPU)
SDXL CheckpointLoaderAdvanced (MultiGPU)
SDXL CheckpointLoaderAdvanced (MultiGPU)

GGUF

FLUX UNet + 双 CLIP GGUF
FLUX UNet + 双 CLIP GGUF
Qwen Image UNet DisTorch2 GGUF
Qwen Image UNet DisTorch2 GGUF

HunyuanVideoWrapper / Florence2

HunyuanVideoWrapper DisTorch(旧版,已弃用)
HunyuanVideoWrapper DisTorch(旧版,已弃用)
Florence2 详细描述转 FLUX 流程
Florence2 详细描述转 FLUX 流程

支持

如果您遇到问题,请提交 issue。如果可能,请附上工作流文件。

致谢

目前由 pollockjj 维护。 最初由 Alexander Dzhoganov 创建。 衷心感谢 City96

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160.4k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|3天前
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像