MOFA-Video

767 50 较难 1 次阅读 3周前NOASSERTION图像视频

AI 解读由 AI 自动生成，仅供参考

MOFA-Video 是一款基于扩散模型的开源图像动画工具，能让静态图片“动”起来。它主要解决了传统图像生成视频过程中难以精确控制运动轨迹和面部表情的痛点，让用户只需提供一张参考图，配合简单的轨迹线或人脸关键点指引，即可生成自然流畅且符合预期的动态视频。

该工具特别适合计算机视觉研究人员、AI 开发者以及需要制作动态素材的设计师使用。对于普通用户，其提供的 Gradio 演示界面也降低了体验门槛，无需深厚代码功底即可尝试。

MOFA-Video 的核心技术亮点在于“冻结”了预训练的图像到视频扩散模型参数，仅通过适配生成的运动场来实现可控动画。这种设计不仅大幅降低了训练成本，还有效保留了原模型的高画质生成能力。它支持多种控制模式，包括基于轨迹的整体运动控制、基于关键点的精细面部表情驱动，以及两者结合的混合控制模式。作为 ECCV 2024 的入选论文成果，MOFA-Video 已开放完整的推理代码、训练脚本及预训练模型，为社区提供了高质量的可复现研究基线。

使用场景

某独立游戏开发者需要为一款复古风格的角色扮演游戏快速制作大量 NPC 的动态立绘，要求角色能根据剧本做出特定的头部转动和表情变化。

没有 MOFA-Video 时

制作成本高昂：传统流程需聘请原画师绘制逐帧动画或使用复杂的 3D 建模绑定，单个角色动效耗时数天且预算昂贵。
动作控制僵硬：现有的自动化工具难以精准控制面部关键点（如眼神方向、嘴角弧度），生成的视频往往表情失真或动作机械。
轨迹定制困难：无法让角色按照导演指定的复杂运动轨迹（如先低头再侧视）进行移动，只能依赖预设的简单模板。
身份一致性差：在生成动态视频时，角色的面部特征容易发生漂移或变形，导致“不像同一个人”，破坏游戏沉浸感。

使用 MOFA-Video 后

效率显著提升：开发者仅需上传一张静态角色立绘，结合简单的轨迹或关键点提示，MOFA-Video 即可在分钟内生成高质量动画，无需额外建模。
精细动作掌控：利用其关键点控制功能，可精确驱动角色的眉眼口鼻，实现细腻的微表情演绎，完美契合剧情需求。
自由轨迹定义：通过混合控制模式，开发者能自定义角色头部的运动路径，轻松实现“先左顾后右盼”等复杂运镜效果。
角色高度保真：基于冻结图像到视频扩散模型的特性，MOFA-Video 在生成过程中严格锁定人物身份特征，确保动态视频中角色长相始终如一。

MOFA-Video 将静态图像转化为可控动态视频的能力，让中小团队也能以极低成本实现电影级的角色动画表现。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，CUDA 版本需为 11.7（文档明确测试环境），显存大小未说明（建议 8GB+ 以运行扩散模型）

内存

未说明

依赖

notes1. 必须严格使用 Gradio 4.5.0 版本，其他版本可能导致错误。2. 需要安装 pytorch3d（通过 git 源安装）。3. 下载模型权重时建议使用 git lfs 工具，若遇到 'git: lfs is not a git command' 错误需手动安装 git-lfs。4. 项目包含多种控制模式（轨迹、关键点、混合控制），需分别下载对应的检查点文件并放置于指定目录。

python3.10

torch

pytorch3d

opencv-python-headless

gradio==4.5.0

git-lfs

快速开始

🦄️ MOFA-Video：基于冻结图像到视频扩散模型中生成式运动场适配的可控图像动画（ECCV 2024）

牛牧瑶 ^1,2 寸晓东^2,* 王新涛² 张勇² 殷珊² 郑银强^1,*

¹ 东京大学 ² 腾讯AI实验室 ^* 通讯作者

在欧洲计算机视觉大会（ECCV）2024上

🔥🔥🔥 新功能/更新

(2024.08.07) 我们发布了基于关键点的人脸图像动画推理脚本！更多说明请参阅这里。
(2024.07.15) 我们发布了基于轨迹的图像动画训练代码！更多说明请参阅这里。
MOFA-Video 将亮相 ECCV 2024! 🇮🇹🇮🇹🇮🇹
我们发布了 Gradio 推理代码以及混合控制的检查点！更多说明请参阅这里。
免费的 HuggingFace Spaces 在线演示即将推出！
如果您对这项工作感兴趣，请不要犹豫，给个 ⭐ 吧！

📰 代码发布

(2024.05.31) 基于轨迹的图像动画的 Gradio 演示及检查点
(2024.06.22) 混合控制下的图像动画的 Gradio 演示及检查点
(2024.07.15) 基于轨迹的图像动画的训练脚本
(2024.08.07) 基于关键点的人脸图像动画的推理脚本及检查点
基于关键点的人脸图像动画的训练脚本

TL;DR

图像 🏞️ + 混合控制 🕹️ = 视频 🎬🍿


轨迹 + 关键点控制


轨迹控制


关键点控制

更多可视化效果请查看我们的项目页面！

引言

我们提出了 MOFA-Video，这是一种旨在将来自不同领域的运动适配到冻结的视频扩散模型中的方法。通过采用稀疏到稠密（S2D）运动生成和基于光流的运动适配, MOFA-Video 可以有效地利用各种类型的控制信号来为单张图像添加动画效果，这些控制信号包括轨迹、关键点序列，以及它们的组合。

在训练阶段，我们通过稀疏运动采样生成稀疏控制信号，然后训练不同的 MOFA 适配器，使其能够通过预训练的 SVD 生成视频。在推理阶段，可以将不同的 MOFA 适配器组合起来，共同控制冻结的 SVD。

🕹️ 基于混合控制的图像动画

1. 克隆仓库

git clone https://github.com/MyNiuuu/MOFA-Video.git
cd ./MOFA-Video

2. 环境配置

该演示已在 CUDA 11.7 版本上测试通过。

cd ./MOFA-Video-Hybrid
conda create -n mofa python==3.10
conda activate mofa
pip install -r requirements.txt
pip install opencv-python-headless
pip install "git+https://github.com/facebookresearch/pytorch3d.git"

重要提示： ⚠️⚠️⚠️ requirements.txt 文件中必须严格使用 Gradio 的 4.5.0 版本，否则可能会导致错误。

3. 下载检查点

从这里下载 CMP 模型的检查点，并将其放置到 ./MOFA-Video-Hybrid/models/cmp/experiments/semiauto_annot/resnet50_vip+mpii_liteflow/checkpoints 目录下。
从 HuggingFace 仓库下载包含必要预训练检查点的 ckpts 文件夹链接，并将其放置在 ./MOFA-Video-Hybrid 目录下。您可以使用 git lfs 下载整个 ckpts 文件夹：
1. 从 https://git-lfs.github.com 下载 git lfs。它通常用于克隆包含大型模型检查点的 HuggingFace 仓库。
2. 执行 git clone https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid 来下载完整的 HuggingFace 仓库，目前该仓库仅包含 ckpts 文件夹。
3. 将 ckpts 文件夹复制或移动到 GitHub 仓库中。
注意： 如果在 Linux 系统上遇到 git: 'lfs' is not a git command 错误，可以尝试此解决方案，该方法对我有效。

最终，检查点应按照 ./MOFA-Video-Hybrid/ckpt_tree.md 的目录结构进行组织。

4. 运行 Gradio 演示

使用音频驱动面部动画

cd ./MOFA-Video-Hybrid
python run_gradio_audio_driven.py

🪄🪄🪄 Gradio 界面如下所示。请在推理过程中参考 Gradio 界面中的说明！

使用参考视频驱动面部动画

cd ./MOFA-Video-Hybrid
python run_gradio_video_driven.py

🪄🪄🪄 Gradio 界面如下所示。请在推理过程中参考 Gradio 界面中的说明！

💫 基于轨迹的图像动画

请参阅此处获取说明。

训练您自己的 MOFA 适配器

请参阅此处获取更多说明。

引用

@article{niu2024mofa,
  title={MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model},
  author={Niu, Muyao and Cun, Xiaodong and Wang, Xintao and Zhang, Yong and Shan, Ying and Zheng, Yinqiang},
  journal={arXiv preprint arXiv:2405.20222},
  year={2024}
}

致谢

我们衷心感谢以下项目的代码开源：DragNUWA、SadTalker、AniPortrait、Diffusers、SVD_Xtend、Conditional-Motion-Propagation 以及 Unimatch。

MOFA-Video 快速上手指南

MOFA-Video 是一个基于冻结图像到视频扩散模型（SVD）的可控图像动画工具。它支持通过轨迹、人脸关键点或混合控制（如音频/参考视频驱动）将单张静态图片转化为动态视频。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐) 或 Windows (部分命令可能需要调整)
GPU: NVIDIA 显卡，显存建议 16GB 以上（运行混合控制模式时）
CUDA 版本: 推荐 11.7 (官方测试环境)
Python 版本: 3.10
依赖工具: git, conda, git-lfs (用于下载大模型文件)

注意：国内用户建议在配置 conda 和 pip 时使用清华源或阿里源以加速下载。

2. 安装步骤

本指南以功能最全的 混合控制模式 (Hybrid Controls) 为例，支持音频或参考视频驱动人脸动画。

2.1 克隆项目代码

git clone https://github.com/MyNiuuu/MOFA-Video.git
cd ./MOFA-Video

2.2 创建并激活虚拟环境

cd ./MOFA-Video-Hybrid
conda create -n mofa python=3.10
conda activate mofa

2.3 安装依赖库

重要提示：必须严格安装 gradio==4.5.0，其他版本可能导致报错。

# 推荐使用国内镜像源加速安装
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install opencv-python-headless -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install "git+https://github.com/facebookresearch/pytorch3d.git" -i https://pypi.tuna.tsinghua.edu.cn/simple

如果 pytorch3d 安装失败，可尝试前往 PyTorch3D 官网查找对应 CUDA 版本的预编译包进行安装。

2.4 下载模型权重

你需要下载两部分模型文件：CMP 检测模型和 MOFA 主模型。

A. 下载 CMP 模型

下载链接：cmp_checkpoint

将其保存到以下路径（若文件夹不存在请手动创建）： ./MOFA-Video-Hybrid/models/cmp/experiments/semiauto_annot/resnet50_vip+mpii_liteflow/checkpoints/ckpt_iter_42000.pth.tar

B. 下载 MOFA 主模型 (ckpts 文件夹)

由于模型文件较大，建议使用 git lfs 拉取整个 HuggingFace 仓库。

安装 git-lfs (如未安装):

# Ubuntu/Debian
sudo apt-get install git-lfs
# 或者通过 conda
conda install -c conda-forge git-lfs

初始化并拉取：

git lfs install
git clone https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid

移动文件：将刚刚克隆下来的 MOFA-Video-Hybrid/ckpts 文件夹复制到你最初克隆的 GitHub 项目目录中：
```
# 假设你在根目录下操作
mv MOFA-Video-Hybrid/ckpts ./MOFA-Video-Hybrid/
```

最终目录结构应参考项目内的 ./MOFA-Video-Hybrid/ckpt_tree.md。

3. 基本使用

安装完成后，可以通过 Gradio 界面轻松生成视频。

场景一：使用音频驱动人脸 (Audio-Driven)

适合制作说话头像视频。

cd ./MOFA-Video-Hybrid
python run_gradio_audio_driven.py

运行后，终端会输出一个本地访问地址（通常是 http://127.0.0.1:7860）。在浏览器打开该地址：

上传一张人脸图片。
上传一段音频文件。
点击生成，等待视频输出。

场景二：使用参考视频驱动人脸 (Video-Driven)

适合让静态图片模仿参考视频中的表情和动作。

cd ./MOFA-Video-Hybrid
python run_gradio_video_driven.py

在浏览器打开生成的地址：

上传一张源人脸图片。
上传一段驱动视频（包含面部动作）。
点击生成，源图片将模仿驱动视频的动作。

注：如果你仅需使用轨迹控制（Trajectory-based）或关键点控制（Keypoint-based），请参考项目目录下 ./MOFA-Video-Traj/README.md 或 ./MOFA-Video-Keypoint/README.md 获取特定脚本。

常见问题

如何安装该项目？遇到 CUDA 内核错误或编译问题怎么办？

点击"Add Trajectory"按钮时报错 AttributeError: 'State' object has no attribute 'constructor_args'，如何解决？

训练时 watershed sampler 中的 `nms_ks` 参数应该设置为多少？设置太小会有什么影响？

Watershed 算法无法在第一帧中静止的物体上采样，这会影响训练吗？

如何从密集光流生成稀疏运动向量？对于 25 帧的视频应该生成多少个掩码（mask）？

是否有从驱动视频（driven-video）中提取关键点作为轨迹的推理脚本？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|2天前

图像数据工具视频