ComfyUI-DynamiCrafterWrapper

GitHub
681 35 中等 1 次阅读 1个月前NOASSERTION视频图像
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-DynamiCrafterWrapper 是一款专为 ComfyUI 设计的扩展节点,旨在让用户能够直接在可视化工作流中调用强大的 DynamiCrafter 和 ToonCrafter 模型。它的核心功能是将静态图片转化为动态视频,或生成流畅的视频插帧动画,特别擅长处理开放域图像的动画化任务。

这一工具主要解决了动态生成模型在本地部署难、显存占用高以及与其他 AI 工作流整合复杂的问题。通过深度重构,它显著优化了内存管理,使得在 10GB 左右显存的设备上也能运行 512x320 分辨率的生成任务,并支持 FP8 量化和 XFormers 加速以进一步降低资源门槛。此外,它还提供了专门的 ToonCrafter 节点,为卡通风格视频生成提供了高质量支持。

适合希望将图像动画化纳入现有自动化流程的 AI 创作者、设计师及技术爱好者使用。无论是制作循环动画短片,还是进行视频帧率提升,用户都能通过拖拽节点轻松构建复杂的工作流,无需编写代码即可享受前沿视频扩散技术带来的创作自由。

使用场景

一位独立游戏开发者需要将静态的角色概念图转化为循环播放的待机动画,以用于游戏原型展示,但其本地显卡仅有 12GB 显存。

没有 ComfyUI-DynamiCrafterWrapper 时

  • 环境部署割裂:必须离开熟悉的 ComfyUI 界面,单独配置 DynamiCrafter 的原始代码库,导致工作流中断且难以与其他 AI 节点联动。
  • 显存资源爆满:直接运行原始模型进行 512x320 分辨率采样时,显存占用极易突破 15GB,导致任务频繁因 OOM(内存溢出)而崩溃。
  • 画质与速度难兼得:若不使用 Xformers 加速,解码过程不仅极其缓慢,而且无法获得全质量的视频输出,画面容易出现伪影。
  • 模型管理繁琐:需要手动下载并重命名多个不同版本的 checkpoint 文件(如插值模型与生成模型),容易混淆且出错率高。

使用 ComfyUI-DynamiCrafterWrapper 后

  • 原生无缝集成:直接在 ComfyUI 中通过专用节点调用 DynamiCrafter 和 ToonCrafter 模型,可灵活串联 CLIP Vision 等组件,实现一站式工作流。
  • 显存优化显著:经过重构的节点将 512x320 分辨率下的显存占用控制在 10GB 以内,配合 FP8 选项甚至可进一步节省 1-2GB,让中端显卡也能流畅运行。
  • 解码效率提升:完美支持 Xformers 以实现高质量解码,同时也提供了标准 VAE 解码选项,允许用户在极低显存下牺牲少量画质换取成功生成。
  • 工作流标准化:内置更新的示例工作流自动适配新架构,无需手动折腾模型文件名,即可轻松实现图像转视频或帧插值循环动画。

ComfyUI-DynamiCrafterWrapper 通过深度的显存优化和原生集成,让中低端显卡用户也能在统一的工作流中高效制作高质量的动态图像。

运行环境要求

操作系统
  • Windows
  • Linux
  • macOS
GPU
  • 必需 NVIDIA GPU
  • 显存需求视分辨率和功能而定:基础动态生成 (512x320) 需 <10GB
  • ToonCrafter 采样需 <15GB,解码峰值约 17GB (可降分辨率或使用标准 VAE 解码器降低至 8GB 以下)
  • 高分辨率 (1024x576) FP16 模式需 <10GB
  • 强烈建议安装 xformers 以优化显存使用和解码质量
内存

未说明

依赖
notes1. 必须安装 xformers 以获得完整质量的解码结果并大幅降低显存占用,否则显存消耗巨大。2. 支持 ToonCrafter 功能,其解码操作最消耗显存,若显存不足可使用标准 Comfy VAE 解码器牺牲部分画质换取更低显存。3. 模型文件需放置在 ComfyUI/models/checkpoints 目录下,推荐使用转换后的 bf16/.safetensors 格式模型。4. 开启 FP8 选项可额外减少 1-2GB 显存占用。5. 旧版工作流需更新才能适配新版节点。
python未说明 (依赖 ComfyUI 环境,通常为 3.10+)
xformers
torch
clip_vision
clip
ComfyUI-DynamiCrafterWrapper hero image

快速开始

ComfyUI 的 DynamiCrafter 封装节点

更新2:重构

为了更好地与 ComfyUI 集成,我修改了许多内容。现在你可以(并且必须)使用 clip_vision 和 clip 模型,但内存占用大幅降低,在 512x320 分辨率下仅需不到 10GB 显存。新增了示例工作流,所有旧的工作流都需要更新。

更新:ToonCrafter

首次支持 ToonCrafter,并提供了专用节点。

对于 512x320 分辨率的采样,显存需求略低于 15GB,解码时峰值会达到约 17GB。适当降低分辨率可以显著减少内存占用。

在整个流程中,解码是最消耗显存的操作。目前,若要获得最佳质量,必须使用 XFORMERS;不过,也可以选择使用标准的 Comfy VAE 解码器,虽然画质会稍逊一些,但显存占用则大大降低。

ToonCrafter 模型同样可以与旧版 Dynamicrafter I2V 节点配合使用,不过画质会明显下降,而显存占用则减半,最好情况下可控制在 8GB 以内。

此外,启用 fp8 精度选项还能进一步减少 1-2GB 的显存占用。

https://github.com/kijai/ComfyUI-DynamiCrafterWrapper/assets/40791699/96bf0902-40e6-42ad-beb9-a092f26c0458

安装

可以通过管理器从 Git 安装,或者将此仓库克隆到 custom_nodes 目录下并运行:

pip install -r requirements.txt

如果你使用的是便携版,请在 ComfyUI_windows_portable 文件夹内执行:

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-DynamiCrafterWrapper\requirements.txt

目前即使不使用 xformers,内存占用仍然很高。建议尽可能使用 xformers:

pip install xformers --no-deps

便携版则执行:

python_embeded\python.exe -m pip install xformers --no-deps

更新: 已将模型转换为 bf16 和 .safetensors 格式,地址如下: https://huggingface.co/Kijai/DynamiCrafter_pruned/tree/main

请将模型放置于 ComfyUI/models/checkpoints 目录下(也可放在子文件夹中,由你决定)。

如果你想使用原始模型,它们也在此处提供,但需要重命名后才能与节点配合使用:

命名为:dynamicrafter_1024_v1.ckpt https://huggingface.co/Doubiiu/DynamiCrafter_1024

插值模型应命名为:dynamicrafter_512_interp_v1.ckpt https://huggingface.co/Doubiiu/DynamiCrafter_512_Interp/

采用 fp16 精度时,1024x576 分辨率的显存占用略低于 10GB,而 512p 分辨率下的插值操作则只需 8GB 显存即可完成。

循环示例:

https://github.com/kijai/ComfyUI-DynamiCrafterWrapper/assets/40791699/d1a83fac-d654-487f-a02e-be00509d38d5

插值示例:

https://github.com/kijai/ComfyUI-DynamiCrafterWrapper/assets/40791699/96251573-4b15-4d51-becd-daf8a1e5eab5

https://github.com/kijai/ComfyUI-DynamiCrafterWrapper/assets/40791699/156aeb21-4936-4e9a-a9b4-1767a8f6bbee

原始仓库:

https://github.com/Doubiiu/DynamiCrafter

DynamiCrafter:基于视频扩散先验的开放域图像动画生成

     
在 OpenXLab 中打开       

Jinbo Xing, Menghan Xia*, Yong Zhang, Haoxin Chen, Wangbo Yu,
Hanyuan Liu, Xintao Wang, Tien-Tsin Wong*, Ying Shan


(* 通讯作者)

来自香港中文大学和腾讯 AI 实验室。

🔆 引言

🔥🔥 已发布生成帧插值/循环视频模型权重(320x512)!

🔥 DynamiCrafter 新版本上线!动态效果更佳、分辨率更高、连贯性更强!
🤗 DynamiCrafter 可以基于预先训练好的视频扩散先验,通过文本提示将开放域静态图像转化为动画。更多信息请访问我们的项目页面和论文。
😀 我们将继续优化模型性能。

👀 想要与 Stable Video DiffusionPikaLabs 进行对比吗?请点击下方图片。

1.1. 展示案例(576x1024)

1.2. 展示案例(320x512)

1.3. 展示案例 (256x256)

“熊快乐地弹吉他,下着雪” “男孩在街上行走”

2. 应用

2.1 故事叙述视频生成(更多详情请参见项目页面)

2.2 生成式帧插值

起始帧输入 结束帧输入 生成的视频

2.3 循环视频生成

📝 更改记录

  • [2024.03.14]: 🔥🔥 发布生成式帧插值和循环视频模型(320x512)。
  • [2024.02.05]: 发布高分辨率模型(320x512 和 576x1024)。
  • [2023.12.02]: 启动本地 Gradio 演示。
  • [2023.11.29]: 发布主模型,分辨率为 256x256。
  • [2023.11.27]: 启动项目页面并更新 arXiv 预印本。

🧰 模型

模型 分辨率 GPU 内存与推理时间(A100,ddim 50步) 检查点
DynamiCrafter1024 576x1024 18.3GB 与 75秒(perframe_ae=True Hugging Face
DynamiCrafter512 320x512 12.8GB 与 20秒(perframe_ae=True Hugging Face
DynamiCrafter256 256x256 11.9GB 与 10秒(perframe_ae=False Hugging Face
DynamiCrafter512_interp 320x512 12.8GB 与 20秒(perframe_ae=True Hugging Face

目前,我们的 DynamiCrafter 可以支持生成最高 16 帧、分辨率为 576x1024 的视频。通过减少 DDIM 步数,可以缩短推理时间。

@noguchis 在 Twitter 上报告的 RTX 4090 上消耗的 GPU 内存:576x1024 为 18.3GB,320x512 为 12.8GB,256x256 为 11.9GB。

⚙️ 设置

通过 Anaconda 安装环境(推荐)

conda create -n dynamicrafter python=3.8.5
conda activate dynamicrafter
pip install -r requirements.txt

💫 推理

1. 命令行

图像转视频生成

  1. 通过 Hugging Face 下载预训练模型,并将所需分辨率的 model.ckpt 放入 checkpoints/dynamicrafter_[1024|512|256]_v1/model.ckpt
  2. 根据您的设备和需求,在终端中运行以下命令。
  # 在单个 GPU 上运行:
  # 根据所需分辨率选择模型:例如,1024|512|320:
  sh scripts/run.sh 1024
  # 在多个 GPU 上进行并行推理:
  sh scripts/run_mp.sh 1024

生成式帧插值 / 循环视频生成

下载预训练模型 DynamiCrafter512_interp,并将 model.ckpt 放入 checkpoints/dynamicrafter_512_interp_v1/model.ckpt

  sh scripts/run_application.sh interp # 生成帧插值
  sh scripts/run_application.sh loop   # 循环视频生成

2. 本地 Gradio 演示

图像转视频生成

  1. 按照之前的指南下载预训练模型,并将其放置到相应的目录中。
  2. 在终端中输入以下命令(根据所需分辨率选择模型:1024、512 或 256):
  python gradio_app.py --res 1024

生成式帧插值 / 循环视频生成

按照之前的指南下载预训练模型,并将其放置到相应的目录中。

  python gradio_app_interp_and_loop.py 

图像转视频的社区扩展:ComfyUI(感谢 chaojie)。

👨‍👩‍👧‍👦 Crafter 家族

VideoCrafter1:用于高质量视频生成的框架。

ScaleCrafter:无需调优的高分辨率图像/视频生成方法。

TaleCrafter:支持多角色的交互式故事可视化工具。

LongerCrafter:无需调优的更长高质量视频生成方法。

MakeYourVideo,或许也可以算作一个 Crafter:):基于文本和结构化指导的视频生成/编辑工具。

StyleCrafter:基于风格化图像引导的文生图及文生视频生成。

😉 引用

@article{xing2023dynamicrafter,
  title={DynamiCrafter: 使用视频扩散先验动画化开放域图像},
  author={Xing, Jinbo and Xia, Menghan and Zhang, Yong and Chen, Haoxin and Yu, Wangbo and Liu, Hanyuan and Wang, Xintao and Wong, Tien-Tsin and Shan, Ying},
  journal={arXiv 预印本 arXiv:2310.12190},
  year={2023}
}

🙏 致谢

我们感谢 AK(@_akhaliq) 在搭建 Hugging Face 在线演示方面的帮助,以及 camenduru 提供的 Replicate 和 Colab 在线演示。

📢 免责声明

我们开发此仓库仅用于科研目的,因此它只能用于个人、研究或非商业用途。


常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|3天前
开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|昨天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架