ComfyUI-MimicMotionWrapper

519 40 中等 1 次阅读 1周前Apache-2.0视频插件

AI 解读由 AI 自动生成，仅供参考

ComfyUI-MimicMotionWrapper 是一款专为 ComfyUI 设计的开源插件，旨在将腾讯研发的 MimicMotion 动作迁移技术无缝集成到节点工作流中。它的核心功能是让静态图片“动”起来：用户只需提供一张参考人物图片和一段驱动视频，该工具就能精准提取驱动视频中的人物动作、姿态及运镜轨迹，并将其自然迁移到参考图片的人物身上，从而生成高质量、高一致性的动态视频。

这一工具主要解决了传统视频生成过程中动作控制难、角色一致性差以及肢体变形等痛点。相比于通用的文生视频模型，它提供了更细粒度的动作控制能力，确保生成视频中的人物动作与驱动源高度同步，同时保持参考人物的外貌特征不变。

从技术层面看，ComfyUI-MimicMotionWrapper 基于 Stable Video Diffusion (SVD XT) 架构进行优化，结合了高效的动作编码机制。它支持自动下载和管理必要的模型文件（如 SVD XT 1.1 和 MimicMotion 模型），降低了环境配置的复杂度。

这款工具特别适合具有一定 ComfyUI 使用基础的内容创作者、数字艺术家、动画师以及 AI 视频研究者。对于希望制作虚拟人舞蹈、影视预演或创意短视频的用户而言，它提供了一个强大且灵活的控制手段。虽然安装过程涉及依赖库的配置，但其带来的精确动作控制能力，使其成为追求高质量可控视频生成的理想选择。需要注意的是，目前项目仍处于开发阶段（Work in Progress），建议用户在体验新功能的同时，关注官方更新以获取更稳定的使用体验。

使用场景

一位独立游戏开发者正在为角色设计宣传视频，希望让一张静态的角色立绘根据参考视频中的动作自然舞动，以展示角色的动态魅力。

没有 ComfyUI-MimicMotionWrapper 时

动作僵硬不自然：传统的图生视频模型（如基础 SVD）难以精准捕捉复杂的人体骨骼运动，生成的角色往往出现肢体扭曲或动作与预期不符的情况，缺乏真实感。
工作流割裂繁琐：若尝试使用原始 MimicMotion 代码，需单独配置 Python 环境、处理依赖冲突，并手动编写脚本连接图像编码与视频生成模块，调试成本极高。
显存管理困难：直接运行大型扩散模型容易因显存溢出导致崩溃，缺乏针对 ComfyUI 节点的优化机制，难以在消费级显卡上稳定运行长序列生成。
迭代效率低下：每次调整动作幅度或参考视频都需要重新配置整个 pipeline，无法通过可视化节点快速微调参数，严重拖慢创作节奏。

使用 ComfyUI-MimicMotionWrapper 后

动作精准复刻：借助封装好的 MimicMotion 模型，角色能高度还原参考视频中的舞蹈动作，肢体协调性显著提升，完美实现“静态图+动态驱动”的效果。
无缝集成工作流：作为 ComfyUI 的自定义节点，它自动处理 SVD XT 和 MimicMotion 模型的加载与依赖，用户只需拖拽节点即可构建完整管线，无需关心底层代码实现。
资源优化稳定：内置的显存优化策略支持 FP16 精度推理，有效降低显存占用，使得在普通游戏显卡上也能流畅生成高质量视频，减少崩溃风险。
可视化快速迭代：通过节点式界面，开发者可实时调整运动强度、帧数等参数，并即时预览结果，极大缩短了从创意到成片的反馈循环。

ComfyUI-MimicMotionWrapper 将复杂的动作迁移技术转化为可视化的低门槛工作流，让创作者能专注于艺术表达而非技术调试，显著提升了动态内容生产的效率与质量。

运行环境要求

操作系统

Windows
Linux
macOS

GPU

未说明（基于 SVD XT 和 MimicMotion 模型特性，通常建议 NVIDIA GPU 且显存 8GB+，但 README 未明确指定）

内存

未说明

依赖

notes1. 该工具为 ComfyUI 的自定义节点，需克隆至 custom_nodes 文件夹。2. 依赖项可通过 pip install -r requirements.txt 安装，Windows 便携版需使用内置 python 执行。3. 模型会自动下载，但需确保网络通畅。4. 必须下载两个主要模型：MimicMotion 模型（约 3.05 GB）存放于 ComfyUI/models/mimicmotion；SVD XT 1.1 的 FP16 diffusers 版本（约 4.19 GB）存放于 ComfyUI/models/diffusers/stable-video-diffusion-img2vid-xt-1-1。5. 项目状态标记为 'WORK IN PROGRESS'（开发中）。

python未说明（需与 ComfyUI 环境兼容，通常为 Python 3.10+）

diffusers

transformers

accelerate

opencv-python

torch

快速开始

开发中

ComfyUI 的 MimicMotion 封装

安装

将此仓库克隆到 custom_nodes 文件夹中。

安装依赖：pip install -r requirements.txt

或者，如果您使用便携式安装，请在 ComfyUI_windows_portable 文件夹中运行以下命令：

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-MimicMotionWrapper\requirements.txt

模型会自动下载到各自的文件夹中。

SVD XT：

\ComfyUI\models\diffusers\stable-video-diffusion-img2vid-xt-1-1

│   model_index.json
│
├───feature_extractor
│       preprocessor_config.json
│
├───image_encoder
│       config.json
│       model.fp16.safetensors
│
├───scheduler
│       scheduler_config.json
│
├───unet
│       config.json
│       diffusion_pytorch_model.fp16.safetensors
│
└───vae
        config.json
        diffusion_pytorch_model.fp16.safetensors

MimicMotion 模型（3.05 GB），放置于 ComfyUI\models\mimicmotion：

https://huggingface.co/Kijai/MimicMotion_pruned/tree/main

这需要 SVD XT 1.1 的 FP16 版本（4.19 GB）的 Diffusers 模型，放置于 ComfyUI\models\diffusers：

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1/tree/main

https://github.com/kijai/ComfyUI-MimicMotionWrapper/assets/40791699/c1517e20-8537-4ab0-b6fb-2d4aefa618d2

原始仓库： https://github.com/tencent/MimicMotion

ComfyUI-MimicMotionWrapper 快速上手指南

环境准备

系统要求：支持 Windows 或 Linux 的 ComfyUI 环境。
前置依赖：
- 已安装 Python 及 pip。
- 若使用 Windows 便携版（Portable），需确保 python_embeded 环境正常。
- 足够的磁盘空间用于存放模型文件（SVD XT 约 4.19 GB，MimicMotion 约 3.05 GB）。

安装步骤

1. 克隆仓库

将本仓库克隆至 ComfyUI 的 custom_nodes 文件夹中：

git clone https://github.com/kijai/ComfyUI-MimicMotionWrapper.git ComfyUI/custom_nodes/ComfyUI-MimicMotionWrapper

2. 安装依赖

标准安装：

pip install -r requirements.txt

Windows 便携版安装： 在 ComfyUI_windows_portable 目录下运行以下命令：

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-MimicMotionWrapper\requirements.txt

3. 下载模型

模型通常会自动下载，若需手动配置或预下载，请按以下结构放置：

A. SVD XT 1.1 (Diffusers 格式, FP16)

来源：HuggingFace - stabilityai/stable-video-diffusion-img2vid-xt-1-1
路径：ComfyUI/models/diffusers/stable-video-diffusion-img2vid-xt-1-1

目录结构示例：

\ComfyUI\models\diffusers\stable-video-diffusion-img2vid-xt-1-1
│   model_index.json
├───feature_extractor
│       preprocessor_config.json
├───image_encoder
│       config.json
│       model.fp16.safetensors
├───scheduler
│       scheduler_config.json
├───unet
│       config.json
│       diffusion_pytorch_model.fp16.safetensors
└───vae
        config.json
        diffusion_pytorch_model.fp16.safetensors

B. MimicMotion 模型

来源：HuggingFace - Kijai/MimicMotion_pruned
大小：约 3.05 GB
路径：ComfyUI/models/mimicmotion

提示：国内用户若下载 HuggingFace 模型较慢，建议使用镜像站（如 hf-mirror.com）或配置代理加速。

基本使用

启动 ComfyUI：重启 ComfyUI 以加载新节点。
加载工作流：
- 在界面中右键点击空白处，搜索 MimicMotion 相关节点。
- 通常包含加载图像、加载视频/姿态序列、MimicMotion 生成器等核心节点。
简单流程示例：
- 使用 Load Image 加载参考人物图像。
- 使用 Load Video 或姿态检测节点提供驱动视频/动作序列。
- 连接至 MimicMotion Sampler 节点。
- 连接 VAE Decode 和 Save Image/Video 输出结果。
生成：点击 "Queue Prompt" 开始生成模仿动作的视频。

注：具体节点参数请参考 ComfyUI 界面内的节点提示，首次运行可能会因初始化模型而稍慢。

常见问题

遇到 "draw_pose() got an unexpected keyword argument 'include_body'" 错误怎么办？

显存不足（OOM）导致生成失败如何解决？

出现 "Error: need at least one array to stack" 错误的原因是什么？

加载模型时报错 "'UNetSpatioTemporalConditionModel' object has no attribute 'pose_net'" 如何解决？

如何正确使用支持 V1.1 改进版模型？

安装后节点缺失（Missing nodes）或无法加载怎么办？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架

gpt4free

gpt4free 是一个由社区驱动的开源项目，旨在聚合多种可访问的大型语言模型（LLM）和媒体生成接口，让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点，通过统一的标准将不同提供商的资源整合在一起。无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员，还是想免费体验最新技术的普通用户，都能从中受益。gpt4free 提供了丰富的使用方式：既包含易于上手的 Python 和 JavaScript 客户端库，也支持部署本地图形界面（GUI），更提供了兼容 OpenAI 标准的 REST API，方便无缝替换现有应用后端。其技术亮点在于强大的多提供商支持架构，能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源，并支持 Docker 一键部署及本地推理。项目秉持社区优先原则，在降低使用门槛的同时，也为贡献者提供了扩展新接口的便利框架，是探索和利用多样化 AI 资源的实用工具。

★ 66k|★★☆☆☆|2天前

插件语言模型Agent

gstack

gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置，旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战，gstack 提供了一套标准化解决方案，帮助开发者实现堪比二十人团队的高效产出。这套配置特别适合希望提升交付效率的创始人、技术负责人，以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具，涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令（如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能），即可自动化处理从需求分析到部署上线的全链路任务。所有操作基于 Markdown 和斜杠命令，无需复杂配置，完全免费且遵循 MIT 协议。gstack 不仅是一套工具集，更是一种现代化的软件工厂实践，让单人开发者也能拥有严谨的工程流程。

★ 64.3k|★★☆☆☆|今天

Agent插件

meilisearch

Meilisearch 是一个开源的极速搜索服务，专为现代应用和网站打造，开箱即用。它能帮助开发者快速集成高质量的搜索功能，无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果，而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性，并支持 AI 驱动的混合搜索（结合关键词与语义理解），显著提升用户查找信息的体验。 Meilisearch 特别适合 Web 开发者、产品团队或初创公司使用，尤其适用于需要快速上线搜索功能的场景，如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK，部署简单，资源占用低，本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下，为用户提供流畅、智能搜索体验的团队来说，Meilisearch 是一个高效且友好的选择。

★ 57k|★★☆☆☆|今天

图像Agent数据工具

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。

★ 55k|★★★☆☆|今天

开发框架语言模型Agent