ComfyUI-AnimateDiff-Evolved
ComfyUI-AnimateDiff-Evolved 是专为 ComfyUI 打造的增强版动画生成插件,旨在让静态图像模型轻松创作出流畅、连贯的视频内容。它基于著名的 AnimateDiff 项目进行了深度优化,不仅解决了原生集成中功能受限的问题,还引入了名为"Evolved Sampling"的高级采样技术,让用户能更精细地控制视频生成的动态效果与质量。
该工具特别适合希望利用 ComfyUI 进行 AI 视频创作的设计师、数字艺术家及进阶爱好者。通过模块化设计,它能无缝对接 ControlNet、IPAdapter 等主流生态组件,支持稀疏控制(SparseCtrl)、提示词旅行(Prompt Travel)以及复杂的镜头运动控制,极大地拓展了创作边界。其独特的技术亮点在于提供了丰富的预训练运动模块(Motion Modules)和运动 LoRA 支持,用户可灵活选择不同风格的动作模式,甚至微调特定动作幅度,从而实现从细微表情变化到大幅肢体运动的多样化表现。无论是制作短视频素材还是探索动态艺术实验,ComfyUI-AnimateDiff-Evolved 都为用户提供了一套强大且灵活的解决方案。
使用场景
一位独立动画创作者试图将静态的角色立绘转化为流畅的短视频,用于社交媒体宣传,但苦于传统方法生成的视频动作僵硬且闪烁严重。
没有 ComfyUI-AnimateDiff-Evolved 时
- 动作机械生硬:直接使用基础图生视频模型,角色动作往往缺乏自然惯性,像木偶般卡顿,难以表现细腻的肢体语言。
- 画面闪烁严重:帧与帧之间的一致性差,背景纹理和角色衣物出现高频噪点闪烁,后期修复需要逐帧手动处理,耗时极长。
- 控制能力薄弱:无法精准指定哪些帧受姿态控制(ControlNet)影响,导致角色在复杂运镜中容易变形或脱离预设轨迹。
- 采样选项单一:缺乏高级采样策略,难以在保证清晰度的同时延长视频时长,生成的片段通常只有几秒且质量不稳定。
使用 ComfyUI-AnimateDiff-Evolved 后
- 运动自然流畅:通过加载微调后的运动模块(如 mm-Stabilized_high),角色动作具备真实的物理惯性和平滑过渡,告别“木偶感”。
- 时空高度一致:利用进化采样(Evolved Sampling)技术,有效抑制了帧间闪烁,确保背景和服饰纹理在长时间序列中保持稳定清晰。
- 精细化控制:结合 Advanced-ControlNet 节点,可灵活定义上下文选项,精确控制特定潜空间帧受姿态约束,实现复杂的运镜与表演。
- 创作自由度高:支持 Motion LoRA 调整运动风格,并能轻松拼接长序列,让创作者能像搭积木一样构建高质量的分钟级动画。
ComfyUI-AnimateDiff-Evolved 将原本不可控的随机生成转变为可精细调度的专业动画工作流,大幅降低了高质量 AI 动画的制作门槛。
运行环境要求
- Linux
- macOS
- Windows
- NVIDIA GPU 推荐(支持 CUDA),Mac M1/M2/M3 支持
- 显存需求取决于模型和分辨率,开启 fp8 可降低显存占用
未说明

快速开始
ComfyUI 的 AnimateDiff
针对 ComfyUI 改进了 AnimateDiff 集成,并新增了名为“Evolved Sampling”的高级采样选项,该选项也可在非 AnimateDiff 工作流中使用。有关其核心工作原理的详细信息,请参阅 AnimateDiff 仓库的 README 和 Wiki。
在 AnimateDiff 工作流中,以下这些实用节点包通常会被用到:
- ComfyUI-Advanced-ControlNet,用于让 ControlNet 支持上下文选项,并控制哪些潜在变量会受到 ControlNet 输入的影响。包含 SparseCtrl 支持。由我维护。
- ComfyUI-VideoHelperSuite,用于加载视频、将图像拼接成视频,以及执行各种图像/潜在变量操作,如追加、拆分、复制、选择或计数等。由 AustinMroz 和我共同维护。
- comfyui_controlnet_aux,提供原生 ComfyUI 中未包含的 ControlNet 预处理模块。由 Fannovel16 维护。
- ComfyUI_IPAdapter_plus,用于支持 IPAdapter。由 cubiq (matt3o) 维护。
- ComfyUI-KJNodes,提供多种辅助节点,包括为动画 GLIGEN 选择坐标等功能。由 kijai 维护。
- ComfyUI_FizzNodes,通过 BatchPromptSchedule 节点提供一种替代的提示词迁移功能。由 FizzleDorf 维护。
安装
如果使用 ComfyUI Manager:
- 搜索
AnimateDiff Evolved,并确保作者是Kosinkadink。安装它。
如果手动安装:
- 将本仓库克隆到
custom_nodes文件夹中。
模型设置:
- 下载运动模块。您至少需要一个。不同的模块会产生不同的效果。
- 原始模型
mm_sd_v14,mm_sd_v15,mm_sd_v15_v2,v3_sd15_mm:HuggingFace | Google Drive | CivitAI - mm_sd_v14 的稳定化微调版本,
mm-Stabilized_mid和mm-Stabilized_high,由 manshoety 制作:HuggingFace - mm_sd_v15_v2 的微调版本,
mm-p_0.5.pth和mm-p_0.75.pth,由 manshoety 制作:HuggingFace - 更高分辨率的微调版本,
temporaldiff-v1-animatediff,由 CiaraRowles 制作:HuggingFace - 原生运动模型的 FP16/safetensor 版本,由 continue-revolution 托管(占用存储空间更少,但 VRAM 消耗与 ComfyUI 默认以 FP16 加载模型时相同):HuffingFace
- 原始模型
- 将模型放置在以下任一位置(您可以根据需要重命名模型):
ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/modelsComfyUI/models/animatediff_models
- 您还可以选择使用运动 LoRA 来影响基于 v2 的运动模型,例如 mm_sd_v15_v2 的行为。
- Google Drive | HuggingFace | CivitAI
- 将运动 LoRA 放置在以下任一位置(您可以根据需要重命名运动 LoRA):
ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/motion_loraComfyUI/models/animatediff_motion_lora
- 大胆发挥创意吧!如果某种方法对普通图像生成有效,那么它很可能也适用于 AnimateDiff 生成。潜在变量放大?尽管尝试。叠加一个或多个 ControlNet?当然可以!甚至可以只对动画的一部分应用 ControlNet 的条件约束——完全可行。多试几种组合,您一定会对能实现的效果感到惊喜。下方附有使用这些工作流的示例。
注意:您也可以通过 ComfyUI 的 extra_model_paths.yaml 文件指定自定义的模型或运动 LoRA 存放路径。运动模型文件夹的标识符是 animatediff_models,而运动 LoRA 文件夹的标识符是 animatediff_motion_lora。
功能特性
- 兼容几乎任何原版或自定义的 KSampler 节点。
- 支持 ControlNet、SparseCtrl 和 IPAdapter。
- 通过在整个 UNet 上滑动上下文窗口(上下文选项)和/或在运动模块内滑动(视图选项),支持无限长度的动画生成。
- 可在采样过程的不同阶段调整调度上下文选项。
- 支持 FreeInit 和 FreeNoise(FreeInit 位于迭代选项中,FreeNoise 位于 SampleSettings 的 noise_type 下拉菜单中)。
- 实现了可混合使用的运动 LoRA,来自 原始 AnimateDiff 仓库。注意:这些原始 LoRA 主要适用于基于 v2 的运动模型,如
mm_sd_v15_v2、mm-p_0.5.pth和mm-p_0.75.pth。- 更新:现在可以通过 AnimateDiff-MotionDirector 仓库 训练新的运动 LoRA,不再受 v2 限制。特别感谢 ExponentialML 为 AnimateDiff 实现了 MotionDirector!
- 使用内置的 Prompt Scheduling 节点或来自 ComfyUI_FizzNodes 的 BatchPromptSchedule 节点进行提示词过渡。
- 提供 Scale 和 Effect 多值输入,用于控制运动强度及运动模型对生成结果的影响。
- 输入可以是浮点数、浮点数列表或掩码。
- 通过噪声类型、噪声层以及 Sample Settings 和相关节点中的 seed_override/seed_offset/batch_offset,实现自定义噪声调度。
- 支持 AnimateDiff 模型 v1/v2/v3。
- 通过 Gen2 节点同时使用多个运动模型(每个节点支持…
- 支持 HotshotXL(一种 SDXL 运动模块架构),使用
hsxl_temporal_layers.safetensors。- 注意:需要使用
autoselect或linear (HotshotXL/default)beta_schedule;上下文长度或总帧数的最佳设置为 8 帧(不使用上下文时);并且需要使用 SDXL 检查点。
- 注意:需要使用
- 支持 AnimateDiff-SDXL 及其对应模型。目前仍处于测试阶段,已持续数月。
- 注意:需要使用
autoselect或linear (AnimateDiff-SDXL)beta_schedule。除此之外,AnimateDiff-SDXL 的使用规则与 AnimateDiff 基本相同。
- 注意:需要使用
- 支持 AnimateLCM。
- 注意:需要使用
autoselect、lcm或lcm[100_ots]beta_schedule。要充分发挥 LCM 的效果,务必使用合适的 LCM LoRA,在 KSampler 节点中选择lcmsampler_name,并将 CFG 降低至约 1.0 到 2.0。别忘了减少步数(最少约 4 步),因为 LCM 收敛更快,所需步数更少。若希望增加细节,可适当增加步数。
- 注意:需要使用
- 支持 AnimateLCM-I2V,特别感谢 Fu-Yun Wang 在其论文研究期间提供的原始 Diffusers 代码。
- 注意:设置要求与上述 AnimateLCM 相同。需使用
Apply AnimateLCM-I2V ModelGen2 节点以提供ref_latent;并使用Scale Ref Image and VAE Encode节点预处理输入图像。尽管该模型原本设计为 img2video,但我发现它在 vid2vid 场景中表现最佳,只需将ref_drift=0.0,并在与其他 Apply AnimateDiff Model (Adv.) 节点串联后,至少运行一步即可切换到其他模型。可将apply_ref_when_disabled设置为 True,以便在达到end_percent后,img_encoder 仍能继续工作。AnimateLCM-I2V 在高分辨率下保持连贯性方面也非常有用(结合 ControlNet 和 SD LoRA,我可以在一次运行中轻松将 512x512 的源图像放大到 1024x1024)。待补充示例。
- 注意:设置要求与上述 AnimateLCM 相同。需使用
- 支持 CameraCtrl,必须使用精简后的模型:CameraCtrl_pruned.safetensors。
- 注意:需要 AnimateDiff SD1.5 模型,并且该模型专为 v3 模型训练。仅限 Gen2 使用,Gen2/CameraCtrl 子菜单中提供了辅助节点。
- 支持 PIA,使用模型 pia.ckpt。
- 注意:需要使用
autoselect或sqrt_linear (AnimateDiff)beta_schedule。若要实际提供输入图像,需使用Apply AnimateDiff-PIA ModelGen2 节点。pia_input可通过论文中的预设(PIA Input [Paper Presets])或手动输入(PIA Input [Multival])提供。
- 注意:需要使用
- AnimateDiff 关键帧可在采样过程的不同阶段调整 Scale 和 Effect。
- 支持 fp8;需要最新版本的 ComfyUI 和 torch >= 2.1(可降低显存占用,但会改变输出结果)。
- 支持 Mac M1/M2/M3。
- 通过 Gen2 Use Evolved Sampling 节点,可在 AnimateDiff 外部使用 Context Options 和 Sample Settings。
- 可掩码且可调度的 SD LoRA(以及作为 LoRA 的模型),可用于 AnimateDiff 和 StableDiffusion。
- 每帧 GLIGEN 坐标控制。
- 目前需要使用 KJNodes 中的 GLIGENTextBoxApplyBatch 节点来实现,但我很快会添加原生节点来完成此功能。
- 采样过程中图像注入。
- ContextRef 和 NaiveReuse(新颖的跨上下文一致性技术)
即将推出的功能
- AnimateDiff-Evolved 仓库中 每项功能 的示例流程,节点将配备使用说明(目前 Value/Prompt Scheduling 节点已有说明),并提供 YouTube 教程和文档。
- 支持 UniCtrl。
- 支持 Unet-Ref,以便移植大量相关论文。
- 实现 StoryDiffusion。
- 合并运动模型权重/组件,包括按区块自定义。
- 可掩码的运动 LoRA。
- 时间步可调度的 GLIGEN 坐标。
- 针对在不同 start/end_percents 加载/卸载的运动模型的动态内存管理。
- 其他与 AnimateDiff 相关的新功能。
基本使用与节点
样本
已知问题
部分运动模型会在生成的图像上留下明显水印(尤其是在使用 mm_sd_v15 时)
AnimateDiff 论文作者所使用的训练数据中包含 Shutterstock 水印。由于 mm_sd_v15 是在更精细、更轻微的运动基础上微调的,因此运动模块会尝试复制该水印的透明度,而不会像 mm_sd_v14 那样将其模糊掉。使用其他运动模块,或通过 Advanced KSamplers 将它们组合使用,可以缓解水印问题。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中