Sana

5k 338 中等 8 次阅读昨天Apache-2.0图像视频语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Sana 是一套专注于高效高分辨率图像与视频生成的开源工具集，基于线性扩散 Transformer 架构设计。它通过优化模型结构和计算流程，显著降低了传统扩散模型在生成超清图像（如 4K/8K）和视频时的显存占用与推理时间，解决了生成质量与效率难以兼顾的痛点问题。例如，其轻量级版本 SANA-Sprint 可在单张消费级显卡上实现秒级图像生成，而视频生成模块支持结合 LTX-VAE 模型将 720p 视频提升至 2K 分辨率。

这套工具适合需要处理专业级视觉内容的开发者、研究人员和创意工作者。开发者可通过其完整的训练与推理流水线快速部署模型，研究人员能基于线性扩散架构探索新型生成算法，设计师则可借助高效能特性实时生成高质量素材。技术层面，Sana 的核心亮点包括：1）线性复杂度的 Transformer 结构，使高分辨率生成更高效；2）多模态扩展能力，支持图像、视频及控制生成（如 ControlNet 集成）；3）与强化学习框架 Cosmos-RL 的深度整合，提供 SFT/RL 训练方案；4）SGLang 支持下的高性能 API 服务。

目前 Sana 已提供详细文档、在线 Demo 及 HuggingFace 集成，社区活跃度高，适用于从学术研究到工业级内容生产的多种场景。

使用场景

某独立游戏团队正在开发一款 2D 横版动作游戏，美术组需要快速生成大量 4K 分辨率的场景概念图用于定调。

没有 Sana 时

生成高分辨率图像显存占用极高，团队仅有的几张 3090 显卡经常爆显存，被迫降级到 1024 分辨率。
传统扩散模型在高分辨率下容易出现重复纹理或结构崩坏，后期修图耗时耗力。
迭代速度慢，生成一张图需要数分钟，严重影响美术构思的验证效率。
想要精确控制构图时，额外加载 ControlNet 会导致推理速度进一步下降。

使用 Sana 后

Sana 的线性扩散 Transformer 架构显著降低显存需求，4bit 量化版本让 3090 也能流畅生成 4K 图像。
原生支持高分辨率合成，画面细节丰富且结构稳定，大幅减少了人工修图的工作量。
借助 Sana-Sprint 加速技术，单图生成时间缩短至秒级，美术师可实时调整提示词验证效果。
集成 ControlNet 后依然保持高效推理，能够精准锁定角色位置与场景透视，满足制作需求。

Sana 让有限硬件资源下的专业级高分辨率内容生产成为可能，极大提升了团队的创作迭代效率。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU，显存最低 8GB (4bit 量化), 推荐 22GB+ (4K 推理), 支持 3090/4090/H100

内存

未说明

依赖

notes支持高分辨率图像和视频生成。提供 4bit/8bit 量化版本以降低显存需求（最低 8GB）。支持 ComfyUI、SGLang 集成。包含多个模型版本（SANA, SANA-1.5, Sprint, Video）。训练支持 DDP/FSDP。

python未说明

diffusers

torch

transformers

accelerate

SVDQuant

Nunchaku

ComfyUI

SGLang

快速开始

logo

📚 文档 | SANA | SANA-1.5 | SANA-Sprint | SANA-Video | 演示 | 🤗 HuggingFace
ComfyUI | SGLang | Cosmos-RL

ICLR 2025 口头报告 (Oral) | ICML 2025 | ICCV 2025 亮点论文 (Highlight) | ICLR 2026 口头报告 (Oral)

SANA 是一个面向效率的代码库 (codebase)，用于高分辨率图像和视频生成，提供完整的训练和推理 (inference) 流水线 (pipelines)。本仓库包含 SANA、SANA-1.5、SANA-Sprint 和 SANA-Video 的代码。更多详情可查看我们的 📚 文档。

加入我们的 Discord 与社区参与讨论！如果您有任何问题、遇到问题或有兴趣贡献，请随时联系我们！

teaser_page1

新闻

🔥 [2026/03] 📺 带有 LTX-VAE (变分自编码器) 的 SANA-Video 720p 模型 已发布。配合 LTX2 Refiner 使用，可将视频 upscale 至 2K 分辨率！参见模型库 (Model Zoo)、SANA-Video 文档和关于 Refiner 的博客。
🔥 [2026/03] 💪 后训练基础设施 (Infra): SANA × Cosmos-RL — 我们与 Cosmos-RL 合作，为 SANA 提供完整的 RL (强化学习) 基础设施。您现在可以使用最先进的算法（例如 Diffusion-NFT、Flow-GRPO）、预设配置、奖励服务和灵活的数据集对 SANA-Image 和 SANA-Video 进行后训练（SFT (监督微调)/RL (强化学习)）。参见 Cosmos-RL 上的 SANA 和我们的 Cosmos-RL 集成文档。
🔥 [2026/02] 🚀 SANA 现已支持 SGLang！ 高性能服务，配备兼容 OpenAI 的 API (应用程序接口)。[指南]
🔥 [2026/01/26] SANA-Video 被 ICLR-2026 接收为口头报告 (Oral)。 🎉🎉🎉
🔥 [2025/12/09] 🎬 LongSANA：27FPS 实时分钟级视频生成模型，训练和推理代码均已发布。感谢 LongLive 团队。参考：[训练] | [测试] | [权重]
🔥 [2025/11/24] 🪶 博客：因果线性注意力机制 (Causal Linear Attention) 如何为 LLM (大型语言模型) 和长视频生成解锁无限上下文长度 (Context Length)。
🔥 [2025/11/9] 🎬 介绍视频展示了块因果线性注意力机制 (Block Causal Linear Attention) 和因果混合前馈神经网络 (Causal Mix-FFN) 的工作原理？
🔥 [2025/11/6] 📺SANA-Video 已合并入 diffusers。如何使用。
🔥 [2025/10/27] 📺SANA-Video 已发布。[README] | [权重] 支持文本到视频 (Text-to-Video)、文本图像到视频 (TextImage-to-Video)。
🔥 [2025/10/13] 📺SANA-Video 即将推出，1). 一个 5 秒线性 DiT (扩散变换器) 视频模型，和 2). 实时分钟级视频生成（与 LongLive 合作）。[论文] | [页面]

点击显示所有更新

✅ [2025/8/20] 我们发布了新的 DC-AE-Lite (轻量级深度压缩自编码器)，用于更快的推理 (inference) 和更小的显存 (memory) 占用。[如何配置] | [diffusers PR] | [权重]
✅ [2025/6/25] SANA-Sprint 被 ICCV'25 接收 🏖️
✅ [2025/6/4] SANA-Sprint ComfyUI 节点 (Node) 已发布 [示例]。
✅ [2025/5/8] SANA-Sprint（单步扩散 (One-step diffusion)）的 diffusers (Hugging Face 库) 训练代码已发布 [指南]。
✅ [2025/5/4] SANA-1.5（推理时缩放 (Inference-time scaling)）被 ICML-2025 接收。 🎉🎉🎉
✅ [2025/3/22] 🔥SANA-Sprint 演示 (demo) 已托管在 Huggingface 上，快来试试！ 🎉 [演示链接]
✅ [2025/3/22] 🔥ComfyUI 已支持 SANA-1.5！ 🎉: ComfyUI 指南 | ComfyUI 工作流 SANA-1.5 4.8B
✅ [2025/3/22] 🔥SANA-Sprint 代码和权重 (weights) 已发布！ 🎉 包括：训练与推理代码和权重 / HF 均已发布。[指南]
✅ [2025/3/21] 🚀Sana + 推理缩放 (Inference Scaling) 已发布。[指南]
✅ [2025/3/16] 🔥SANA-1.5 代码和权重 (weights) 已发布！ 🎉 包括：DDP/FSDP (分布式数据并行/完全分片数据并行) | TAR 文件 WebDataset (数据集格式) | 多尺度 (Multi-Scale) 训练代码和权重 | HF 均已发布。
✅ [2025/3/14] 🏃SANA-Sprint 即将发布！ 🎉 Sana 的新型单步/少步 (one/few-step) 生成器。H100 上每张 1024px 图像 0.1 秒，RTX 4090 上 0.3 秒。了解更多详情：[页面] | [Arxiv]。代码即将连同 diffusers 一起发布。
✅ [2025/2/10] 🚀Sana + ControlNet (控制网络) 已发布。[指南] | [模型] | [演示]
✅ [2025/1/30] 发布 CAME-8bit 优化器 (optimizer) 代码。在训练期间节省更多 GPU 显存 (memory)。[如何配置]
✅ [2025/1/29] 🎉 🎉 🎉SANA 1.5 发布了！了解如何进行高效训练和推理缩放 (inference scaling)！ 🚀[技术报告]
✅ [2025/1/24] 4bit-Sana 已发布，由 SVDQuant 和 Nunchaku 推理 (inference) 引擎驱动。现在可以在 8GB GPU 显存 (VRAM) 内运行 Sana [指南] [演示] [模型]
✅ [2025/1/24] DCAE-1.1 已发布，重建质量更好。[模型] [diffusers]
✅ [2025/1/23] Sana 被 ICLR-2025 接收为 Oral (口头报告)。 🎉🎉🎉
✅ [2025/1/12] DC-AE 分块 (tiling) 使 Sana-4K 能够在 22GB GPU 显存 (memory) 内推理 (inference) 4096x4096px 图像。配合模型卸载 (offload) 和 8bit/4bit 量化 (quantize)。4K Sana 可在 8GB GPU 显存 (VRAM) 内运行。[指南]
✅ [2025/1/11] Sana 代码库许可证更改为 Apache 2.0。
✅ [2025/1/10] 使用 8bit 量化 (quantization) 推理 Sana。[指南]
✅ [2025/1/8] 4K 分辨率 Sana 模型已在 Sana-ComfyUI 中支持，并准备了工作流。[4K 指南]
✅ [2025/1/8] 1.6B 4K 分辨率 Sana 模型已发布：[BF16 (Brain Floating Point 16) pth] 或 [BF16 diffusers]。🚀 在 20 秒内获得 4096x4096 分辨率图像！在 Sana 页面查看更多样本。感谢 SUPIR 的出色工作和支持。
✅ [2025/1/2] diffusers 管道 (pipeline) 中的 Bug 已解决。已解决的 PR
✅ [2025/1/2] 2K 分辨率 Sana 模型已在 Sana-ComfyUI 中支持，并准备了工作流。
✅ [2024/12] 1.6B 2K 分辨率 Sana 模型已发布：[BF16 pth] 或 [BF16 diffusers]。🚀 在 4 秒内获得 2K 分辨率图像！在 Sana 页面查看更多样本。感谢 SUPIR 的出色工作和支持。
✅ [2024/12] diffusers 支持 Sana-LoRA (低秩适应) 微调 (fine-tuning)！Sana-LoRA 的训练和收敛 (convergence) 速度超级快。[指南] 或 [diffusers 文档]。
✅ [2024/12] diffusers 支持 Sana 了！diffusers safetensors (安全张量格式) 格式的所有 Sana 模型已发布，并且 diffusers 管道 (Pipeline) SanaPipeline, SanaPAGPipeline, DPMSolverMultistepScheduler(with FlowMatching (流匹配)) 现在均受支持。我们准备了模型卡片供您选择。
✅ [2024/12] 1.6B BF16 Sana 模型已发布，用于稳定微调 (fine-tuning)。
✅ [2024/12] 我们发布了 Sana 的 ComfyUI 节点。[指南]
✅ [2024/11] 所有多语言 (multi-linguistic)（表情符号 & 中文 & 英文）SFT (监督微调) 模型已发布：1.6B-512px, 1.6B-1024px, 600M-512px, 600M-1024px。指标 (metric) 性能显示在这里
✅ [2024/11] Sana Replicate API (应用程序接口) 正在 Sana-API 上线。
✅ [2024/11] 1.6B Sana 模型已发布。
✅ [2024/11] 训练、推理 (Inference) 和指标 (Metrics) 代码已发布。
✅ [2024/11] 正在开发 diffusers 支持。
[2024/10] 演示已发布。
[2024/10] DC-AE 代码和权重已发布！
[2024/10] 论文已发布在 Arxiv 上！

💡 简介

我们推出 SANA，一系列用于高分辨率图像和视频生成的高效扩散模型 (Diffusion Models)：

SANA：文生图 (Text-to-Image) 生成高达 4K 分辨率，比 Flux-12B 小 20 倍且快 100 倍。
SANA-1.5：高效的训练期和推理期计算扩展以获得更高质量。
SANA-Sprint：通过 sCM 蒸馏实现单步/少步生成，在 H100 上 每张 1024px 图像仅需 0.1 秒。
SANA-Video/LongSANA：高效视频生成，采用块线性注意力 (Block Linear Attention) / 结合 LongLive。

关键技术：

线性注意力 (Linear Attention)：用线性注意力替换扩散 Transformer (DiT) 中的标准注意力，以提高高分辨率下的效率。
DC-AE：32 倍图像压缩（相比传统的 8 倍）以减少潜在令牌 (Latent Tokens)。
仅解码器文本编码器 (Decoder-only Text Encoder)：现代仅解码器大语言模型 (LLM) 具备上下文学习 (In-context learning) 能力，以实现更好的图文对齐。
块因果线性注意力 (Block Causal Linear Attention) & 因果混合前馈网络 (Causal Mix-FFN)：用于长视频生成的高效注意力和前馈网络。
Flow-DPM-Solver：通过高效训练和采样减少采样步骤。
sCM 蒸馏 (sCM Distillation)：通过连续时间一致性蒸馏实现单步/少步生成。

总之，SANA 是一个完全开源的框架，集成了高效训练、快速推理和灵活部署，适用于图像和视频生成。可通过 4 比特量化 (Quantization) 在显存 (VRAM) < 8GB 的笔记本电脑 GPU 上部署。

teaser_page2

快速开始

git clone https://github.com/NVlabs/Sana.git
cd Sana && ./environment_setup.sh sana

使用 🧨 diffusers 进行推理

import torch
from diffusers import SanaPipeline

pipe = SanaPipeline.from_pretrained(
    "Efficient-Large-Model/SANA1.5_1.6B_1024px_diffusers",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

pipe.vae.to(torch.bfloat16)
pipe.text_encoder.to(torch.bfloat16)

prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    guidance_scale=4.5,
    num_inference_steps=20,
    generator=torch.Generator(device="cuda").manual_seed(42),
)[0]

image[0].save("sana.png")

[!TIP] 升级您的 diffusers>=0.32.0 以使用 SanaPipeline。更多详情见 📚 文档。

入门指南

性能表现

图像生成 (1024px)

方法 (1024x1024)	吞吐量 (samples/s)	延迟 (s)	参数量 (B)	加速比	FID 👇	CLIP 👆	GenEval 👆	DPG 👆
FLUX-dev	0.04	23.0	12.0	1.0×	10.15	27.47	0.67	84.0
Sana-0.6B	1.7	0.9	0.6	39.5×	5.81	28.36	0.64	83.6
Sana-0.6B	1.7	0.9	0.6	39.5×	5.61	28.80	0.68	84.2
Sana-1.6B	1.0	1.2	1.6	23.3×	5.92	28.94	0.69	84.5
Sana-1.5 1.6B	1.0	1.2	1.6	23.3×	5.70	29.12	0.82	84.5
Sana-1.5 4.8B	0.26	4.2	4.8	6.5×	5.99	29.23	0.81	84.7

视频生成 (VBench 720p)

模型	延迟 (s)	参数量 (B)	VBench 总分 ↑	质量 ↑	语义 ↑
Wan-2.1-14B	1897	14	83.73	85.77	75.58
Wan-2.1-1.3B	400	1.3	83.38	85.67	74.22
SANA-Video-2B	36	2	84.05	84.63	81.73

💪 待办事项列表

我们将尽力实现

[✅] 训练代码
[✅] 推理代码
[✅] 模型库
[✅] ComfyUI 节点(SANA, SANA-1.5, SANA-Sprint)
[✅] DC-AE Diffusers
[✅] Sana 合并入 Diffusers(https://github.com/huggingface/diffusers/pull/9982)
[✅] @paul 实现的 LoRA 训练 (diffusers: https://github.com/ huggingface/diffusers/pull/10234)
[✅] 2K/4K 分辨率 (Resolution) 模型。(感谢 @SUPIR 提供 4K 超分辨率模型)
[✅] 8bit / 4bit 笔记本电脑开发
[✅] ControlNet (训练 & 推理 & 模型)
[✅] FSDP 训练
[✅] SANA-1.5 (更大模型尺寸 / 推理扩展)
[✅] SANA-Sprint：少步生成器
[✅] 更快的 DCAE-Lite 权重
[✅] 更好的重建 F32/F64 VAEs (变分自编码器)
[✅] SANA-Video：线性 DiT 视频模型，以及实时分钟级视频生成
[✅] 强化学习 (RL) 后训练：与 Cosmos-RL 合作
[🚀] 未来见

🤗 致谢

感谢以下开源项目：

感谢以下开源代码库的精彩工作和代码基础！

感谢 Paper2Video 生成了 Jeason 展示 SANA 的视频😊。详情请参阅 Paper2Video。

贡献

感谢这些精彩的贡献者：

🌟 Star 历史

📖BibTeX 参考文献

@misc{xie2024sana,
      title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
      author={Enze Xie and Junsong Chen and Junyu Chen and Han Cai and Haotian Tang and Yujun Lin and Zhekai Zhang and Muyang Li and Ligeng Zhu and Yao Lu and Song Han},
      year={2024},
      eprint={2410.10629},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2410.10629},
    }
@misc{xie2025sana,
      title={SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer},
      author={Xie, Enze and Chen, Junsong and Zhao, Yuyang and Yu, Jincheng and Zhu, Ligeng and Lin, Yujun and Zhang, Zhekai and Li, Muyang and Chen, Junyu and Cai, Han and others},
      year={2025},
      eprint={2501.18427},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.18427},
    }
@misc{chen2025sanasprint,
      title={SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation},
      author={Junsong Chen and Shuchen Xue and Yuyang Zhao and Jincheng Yu and Sayak Paul and Junyu Chen and Han Cai and Song Han and Enze Xie},
      year={2025},
      eprint={2503.09641},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.09641},
    }
@misc{chen2025sana,
      title={SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer},
      author={Chen, Junsong and Zhao, Yuyang and Yu, Jincheng and Chu, Ruihang and Chen, Junyu and Yang, Shuai and Wang, Xianbang and Pan, Yicheng and Zhou, Daquan and Ling, Huan and others},
      year={2025},
      eprint={2509.24695},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.24695},
    }

Sana 快速上手指南

Sana 是一个面向高效能的高分辨率图像和视频生成代码库，提供完整的训练和推理管道。支持 SANA、SANA-1.5、SANA-Sprint 及 SANA-Video 等多种模型。

环境准备

操作系统: Linux / Windows
GPU: NVIDIA GPU (支持 3090, 4090, H100 等)
- 显存要求:
  - 最低 8GB (使用 4bit 量化模型)
  - 推荐 22GB+ (运行 4K 分辨率模型)
Python: 建议 3.8 及以上版本
依赖框架: PyTorch, Diffusers, Transformers

安装步骤

方法一：源码安装（推荐用于训练及完整功能）

克隆仓库：

git clone https://github.com/NVlabs/Sana.git
cd Sana

安装依赖：
```
pip install -e .
```

方法二：Diffusers 集成（推荐用于快速推理）

SANA-Video 及部分图像模型已合并至 diffusers 库，可直接安装使用：

pip install diffusers transformers accelerate

基本使用

使用 Diffusers pipeline 进行推理

Sana 模型已支持 HuggingFace Diffusers 管道，以下是基础调用示例：

import torch
from diffusers import SanaPipeline

# 加载模型 (示例模型路径，具体请参考 HuggingFace Collection)
pipe = SanaPipeline.from_pretrained(
    "Efficient-Large-Model/Sana_1600M_1024px_BF16", 
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")

# 生成图像
image = pipe(
    prompt="A beautiful sunset over the mountains",
    height=1024,
    width=1024,
    guidance_scale=4.5,
    num_inference_steps=20
).images[0]

image.save("sana_output.png")

使用 ComfyUI

Sana 已支持 ComfyUI 节点，可下载相关插件工作流：

插件仓库: ComfyUI_ExtraModels
工作流示例: 参考官方文档中的 SANA-1.5 FlowEuler.json

模型下载

所有模型权重托管在 HuggingFace，请访问集合页下载：

HuggingFace Collection: https://huggingface.co/collections/Efficient-Large-Model/sana

注意: 更多详细配置、训练脚本及特定模型（如 SANA-Sprint, SANA-Video）的使用说明，请参阅 📚 官方文档。

版本历史

v1.5.02025/03/25

v1.0.02025/03/25

常见问题

Sana 支持 Windows 原生运行吗？

如何在 Windows 上通过 ComfyUI 使用 Sana？

生成图像最低需要多少显存？

多 GPU 训练时遇到 OOM 或模型损坏怎么办？

哪里可以下载 BF16 版本的模型？

BF16 模型与 FP16 模型在推理性能上有区别吗？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 Sana 时

使用 Sana 后

运行环境要求

快速开始

📚 文档 | SANA | SANA-1.5 | SANA-Sprint | SANA-Video | 演示 | 🤗 HuggingFace ComfyUI | SGLang | Cosmos-RL

ICLR 2025 口头报告 (Oral) | ICML 2025 | ICCV 2025 亮点论文 (Highlight) | ICLR 2026 口头报告 (Oral)

新闻

💡 简介

快速开始

使用 🧨 diffusers 进行推理

入门指南

性能表现

图像生成 (1024px)

视频生成 (VBench 720p)

💪 待办事项列表

🤗 致谢

贡献

🌟 Star 历史

📖BibTeX 参考文献

Sana 快速上手指南

环境准备

安装步骤

方法一：源码安装（推荐用于训练及完整功能）

方法二：Diffusers 集成（推荐用于快速推理）

基本使用

使用 Diffusers pipeline 进行推理

使用 ComfyUI

模型下载

版本历史

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

📚 文档 | SANA | SANA-1.5 | SANA-Sprint | SANA-Video | 演示 | 🤗 HuggingFace
ComfyUI | SGLang | Cosmos-RL