SwarmUI
SwarmUI(前身为 StableSwarmUI)是一款模块化的人工智能图像与视频生成网页界面,旨在让强大的创作工具变得触手可及。它支持包括 Stable Diffusion、Flux 在内的多种主流图像模型,以及 Wan、Hunyuan Video 等视频模型,并计划未来扩展至音频领域。
针对当前 AI 绘图工具往往在“易用性”与“专业度”之间难以兼顾的痛点,SwarmUI 提供了双重体验:初学者可以通过直观的“生成”标签页轻松上手,快速产出高质量作品;而资深用户则能切换至"Comfy 工作流”模式,获得无限制的底层节点编辑能力,同时还能享受网格生成器、自动工作流构建等高效辅助功能。其核心优势在于高性能架构与极高的可扩展性,既保证了运行流畅,又允许用户根据需求灵活定制。
目前 SwarmUI 处于 Beta 阶段,非常适合设计师、AI 研究者、开发者以及希望深入探索生成式人工智能的普通用户。无论你是想简单尝试创意灵感,还是需要构建复杂的自动化生成流程,SwarmUI 都能提供理想的操作环境。作为一个永久免费且开源的项目,它正社区驱动下不断迭代,致力于成为连接创意与技术的最优桥梁。
使用场景
一位独立游戏开发者需要为即将上线的奇幻 RPG 项目快速生成数百张风格统一的角色概念图与宣传素材。
没有 SwarmUI 时
- 工作流割裂:尝试不同模型(如 Stable Diffusion 与 Flux)需频繁切换多个软件界面,导致操作中断且难以统一管理输出结果。
- 批量测试低效:想要对比不同提示词或参数对画质的影响时,只能手动重复执行生成任务,缺乏内置的网格生成器(Grid Generator)进行自动化批处理。
- 高阶功能门槛高:若需精细控制图像结构,必须深入 ComfyUI 编写复杂的节点连线图,初学者极易因逻辑繁琐而放弃调整。
- 资源调度困难:在多显卡环境下无法智能分配渲染任务,常出现显存溢出或硬件闲置并存的资源浪费现象。
使用 SwarmUI 后
- 一站式多模态支持:在同一界面下无缝切换并调用 Stable Diffusion、Flux 及 Wan 视频模型,所有生成历史与资产集中管理,工作流丝滑连贯。
- 智能批量对比:利用内置的 Grid Generator 一键自动遍历多种参数组合,瞬间产出对比图表,快速锁定最佳视觉效果。
- 灵活的双模式操作:新手可通过直观的"Generate"标签页快速出图,专家则能随时切换至"Comfy Workflow"编辑底层节点,兼顾易用性与极致控制权。
- 高性能扩展架构:模块化设计自动优化多卡负载,显著提升高分辨率图像与视频生成的渲染速度,最大化硬件利用率。
SwarmUI 通过模块化架构将专业级 AI 创作工具变得触手可及,让开发者从繁琐的技术调试中解放,专注于创意落地。
运行环境要求
- Windows
- Linux
- macOS
- 未明确说明具体型号,但支持多 GPU 集群(Swarm)
- Mac 端仅限 M 系列芯片 (M1, M2 等)
- 云端支持 Google Colab, Runpod, Vast.ai
未说明

快速开始
SwarmUI
SwarmUI v0.9.8 Beta。
- 前身为 StableSwarmUI。*
一个模块化的AI图像生成Web用户界面,专注于让强大工具易于访问、高性能且可扩展。支持AI图像模型(Stable Diffusion、Z-Image、Flux、Qwen Image等)和AI视频模型(Wan、Hunyuan Video等),未来还计划支持音频等领域。

- Discord社区:加入Discord,讨论项目、获取支持、查看公告等。
- 公告:关注功能公告帖,了解新功能更新。
- 通用文档:/docs文件夹
- 官网:SwarmUI.net
状态
该项目目前处于Beta阶段。这意味着对于大多数任务,Swarm已经提供了非常优秀的工具支持,但仍有许多功能正在规划中。Swarm被推荐作为大多数用户的理想UI,无论是初学者还是专业人士。不过,仍有一些细节需要进一步完善。
初学者会喜欢Swarm的“生成”主标签页界面,它通过多种强大的功能让用户轻松生成任何内容。而高级用户可能会更倾向于使用“Comfy工作流”标签页来获得完全自由的原始图谱,但他们仍然会因为便利的功能(如图像编辑器、自动工作流生成等)以及一些强大工具(例如网格生成器)而回到“生成”标签页。
如果您有兴趣帮助Swarm从Beta版本迈向全面完善的正式发布版,欢迎提交PR(请先阅读贡献指南),您也可以通过GitHub或Discord与我们联系。强烈建议在提交PR之前先咨询相关功能的开发计划,因为可能已经有具体的规划,甚至已经在开发中了。
尚未实现的关键功能目标:
- 更好的移动浏览器支持
- 在UI中以更详细的“当前模型”显示,与模型选择器分开(可能作为批处理侧边栏中的一个标签页)
- LLM辅助提示(目前已有相关扩展,但LLM控制应原生支持)
- 便捷地将Swarm直接打包为应用程序分发(例如使用Tauri、Blazor Desktop或Electron应用?)
捐赠
SwarmUI始终是100%免费且开源的。如果您希望帮助它在不设置付费墙或强制投放广告的情况下持续保持行业领先水平,请捐赠给SwarmUI!
在Google Colab上试用
Google Colab
警告:Google Colab并不一定允许运行远程WebUI,尤其是免费账户,使用需自担风险。
如果您想尝试Swarm,可以使用以下Colab链接:https://colab.research.google.com/github/mcmonkeyprojects/SwarmUI/blob/master/colab/colab-notebook.ipynb
在云端GPU服务商上运行
Runpod
Runpod模板(注:由第三方贡献者nerdylive123维护):https://get.runpod.io/swarmui
Vast.ai
Vast.ai模板(说明文档):https://cloud.vast.ai/?ref_id=62897&creator_id=62897&name=SwarmUI
请注意,首次启动可能需要几分钟时间。请查看容器日志以了解安装进度。有关使用方法的提示,请参阅模板的“?”信息。
Windows系统安装
注意:如果您使用的是Windows 10,可能需要手动安装git和DotNET 8 SDK。(Windows 11则会自动完成这些步骤)
- 下载Install-Windows.bat脚本,将其保存到您希望安装的位置(不要放在
Program Files目录下),然后运行它。- 脚本会打开命令提示符并自行安装。
- 如果脚本关闭而未继续执行,请尝试再次运行,有时需要运行两次。(待解决)
- 安装完成后,会在桌面上创建一个图标,您可以随时通过该图标重新启动服务器。
- 安装程序完成后,会自动启动SwarmUI服务器,并在浏览器中打开安装页面。
- 请按照页面上的安装说明进行操作。
- 提交后请耐心等待,部分安装过程(如下载模型等)可能需要几分钟时间。
(待办事项):开发一个更加简便的自包含预安装程序,例如.msi或.exe文件,提供统一的安装界面,允许用户选择安装目录等。
Windows系统的另一种手动安装方式
- 从https://git-scm.com/download/win下载并安装Git。
- 从https://dotnet.microsoft.com/en-us/download/dotnet/8.0下载并安装DotNET 8 SDK(确保下载适用于Windows的x64版本SDK)。
- 打开您希望安装Swarm的文件夹终端,运行
git clone https://github.com/mcmonkeyprojects/SwarmUI。 - 进入该文件夹并运行
launch-windows.bat。
Linux系统安装
先决条件
- 如果您的系统尚未安装
git和python3,请通过操作系统包管理器进行安装(确保在那些默认不包含pip和venv的发行版中也一并安装它们)。- 例如,在某些Ubuntu桌面版中,可以运行
sudo apt install git python3-pip python3-venv,或者您可能需要使用https://launchpad.net/~deadsnakes/+archive/ubuntu/ppa。 - 对于Debian或Ubuntu Server,可以运行
sudo apt install git python3-full。 - 建议使用Python 3.11或3.12版本。3.10版本也能正常工作,但请勿使用3.13版本。
- 请确保运行
python3.11 -m pip --version时返回有效的软件包信息。
- 例如,在某些Ubuntu桌面版中,可以运行
Linux简易安装
- 下载install-linux.sh脚本,将其保存到您希望安装的位置,然后运行它。
- 如果您熟悉终端操作,可以直接在文件夹中打开终端并运行以下命令:(此链接目前仍然有效)
wget https://github.com/mcmonkeyprojects/SwarmUI/releases/download/0.6.5-Beta/install-linux.sh -O install-linux.shchmod +x install-linux.sh
- 如果您熟悉终端操作,可以直接在文件夹中打开终端并运行以下命令:(此链接目前仍然有效)
- 运行
./install-linux.sh脚本,它将为您完成所有安装步骤,并最终在浏览器中打开网页。 - 请按照页面上的安装说明进行操作。
Linux 手动安装
- 使用 https://dotnet.microsoft.com/en-us/download/dotnet/8.0 上的说明安装 .NET 8(你需要
dotnet-sdk-8.0,因为它包含了所有相关子包)。 - 打开终端并切换到你希望安装的目录:
cd。 - 运行以下命令:
git clone https://github.com/mcmonkeyprojects/SwarmUIcd SwarmUI./launch-linux.sh- 或者,如果在无头服务器上运行,可以使用
./launch-linux.sh --launch_mode none --host 0.0.0.0,并将主机替换为 cloudflared。
- 打开
http://localhost:7801/Install(如果未自动打开)。 - 按照页面上的安装说明进行操作。
Linux 安装注意事项
- 你可以在任何时候运行
launch-linux.sh脚本来重新启动 Swarm。 - 如果页面没有自动打开,你可以手动访问
http://localhost:7801。
(TODO): 或许可以链接一个专门的文档,其中包含针对不同发行版的详细信息等。是否也可以为 Linux 制作一键安装程序?我们能否移除全局 Python 安装这一先决条件?
在 Mac 上安装
注意:SwarmUI 只能在搭载 M 系列 Apple 芯片的 Mac 计算机上运行(例如 M1、M2 等)。
- 打开终端。
- 确保你的 Homebrew 包是最新的:
brew update。 - 使用
brew doctor验证 Homebrew 的安装情况。命令输出中不应有任何错误。 - 安装适用于 macOS 的 .NET:
brew install dotnet。 - 如果尚未安装 Python,请执行以下命令:
brew install python@3.11和brew install virtualenv。- Python 3.11、3.12 或 3.10 均可。请勿使用 3.13。
- 将当前目录切换到你希望安装 SwarmUI 的文件夹:
cd。 - 克隆 SwarmUI 的 GitHub 仓库:
git clone https://github.com/mcmonkeyprojects/SwarmUI。 - 进入
SwarmUI目录并运行安装脚本:./launch-macos.sh。 - 等待网页浏览器自动打开,并按照页面上的说明完成安装。
使用 Docker 安装
有关如何在 Docker 中使用 SwarmUI 的详细说明,请参阅 Docs/Docker.md。
文档
请参阅 文档文件夹。
设计动机
“Swarm”这个名字源自该界面的核心功能:允许多个 GPU 同时为同一用户生成图像(尤其适用于大规模网格生成)。这正是命名的灵感来源,但并非 Swarm 的全部功能。
SwarmUI 的总体目标是成为一个功能齐全、一站式的 Stable Diffusion 综合平台。
有关技术选择背后的动机,请参阅 动机文档。
法律声明
本项目:
- 嵌入了 7-zip 的副本(LGPL)。
- 具备自动安装 ComfyUI 的能力(GPL)。
- 可以选择将 AUTOMATIC1111/stable-diffusion-webui 作为后端(AGPL)。
- 可以自动安装 christophschuhmann/improved-aesthetic-predictor(Apache2)和 yuvalkirstain/PickScore(MIT)。
- 可以自动安装 git-for-windows(GPLv2)。
- 可以自动安装 MIT/BSD/Apache2/Python Software Foundation 提供的 pip 包:spandrel、dill、imageio-ffmpeg、opencv-python-headless、matplotlib、rembg、kornia、Cython。
- 可以自动安装 ultralytics(AGPL),用于
YOLOv8人脸检测(即SwarmYoloDetection节点或<segment:yolo-...>语法的使用可能会受到 AGPL 条款的约束)。 - 可以自动安装 insightface(MIT),以支持
IP Adapter - Face功能。 - 使用了 JSON.NET(MIT)、FreneticUtilities(MIT)、LiteDB(MIT)、ImageSharp(Apache2,采用开源 Split License)。
- 嵌入了来自 BootStrap(MIT)、Select2(MIT)、JQuery(MIT)、exif-reader(MPL-2.0)的 Web 资源副本。
- 包含部分图标来自 Cristian Munoz(CC-BY-4.0)、字体 inter by rsms(OFL)、Unifont by GNU(OFL)、Material Symbols Outlined by Google(Apache2)。
- 支持安装一些自定义节点包,这些包在安装前会针对非纯开源许可证单独列出许可说明。
- 支持用户构建的扩展插件,这些插件可能具有各自的许可证或法律条款。
SwarmUI 本身采用 MIT 许可证,然而某些用法可能会受到上述关联项目 GPL 类许可证的影响,并且请注意,所使用的任何模型均具有各自的许可证。
之前的许可证
(适用于 2024 年 6 月之前的更新)
MIT 许可证(MIT) 版权所有 © 2024 Stability AI
许可证
MIT 许可证(MIT)
版权所有 © 2024–2026 Alex "mcmonkey" Goodwin
特此授予任何人免费获取本软件及其相关文档文件(以下简称“软件”)副本的权利,允许其在不受限制的情况下处理软件,包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或销售软件副本的权利;同时,允许向任何接收软件的人提供软件,但须遵守以下条件:
上述版权声明及本许可声明应包含在软件的所有副本或实质性部分中。
软件按“原样”提供,不提供任何形式的保证,无论是明示还是默示,包括但不限于适销性、特定用途适用性和非侵权性。在任何情况下,作者或版权所有者均不对因合同、侵权或其他原因引起的任何索赔、损害赔偿或其他责任负责,无论此类责任源于软件本身、软件的使用或其他与软件相关的事项。
版本历史
0.9.8-Beta2026/02/060.9.7-Beta2025/08/250.9.6-Beta2025/04/150.9.5-Beta2025/01/310.9.4.0-Beta2024/12/060.9.3-Beta2024/10/130.9.2-Beta2024/08/100.9.1-Beta2024/07/080.9.0-Beta2024/06/210.6.5-Beta2024/06/21常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备