echomimic_v2

4.5k 533 中等 6 次阅读 2天前Apache-2.0图像视频音频

AI 解读由 AI 自动生成，仅供参考

EchoMimicV2 是一款由蚂蚁集团开源的半身人物动画生成工具，旨在通过简单的输入驱动高质量的人物视频创作。它主要解决了传统数字人动画制作流程复杂、对全身动作控制难度大以及生成效率低的问题，让用户仅需一张参考图片和一段驱动视频（或音频），即可生成表情自然、动作流畅的半身人物影像。

这款工具特别适合研究人员探索多模态动画技术，也面向开发者进行二次开发，同时其提供的 GradioUI 和 ComfyUI 接口让设计师和普通创作者也能轻松上手，快速制作虚拟主播、教育视频或娱乐内容。

EchoMimicV2 的技术亮点在于其“简化”与“高效”的设计理念。作为 CVPR 2025 的收录成果，它在保持画面惊艳度的同时，大幅优化了推理速度。特别是加速版本，将视频生成时间从约 7 分钟缩短至 50 秒左右，效率提升近 9 倍，真正实现了“一分钟生成视频”。此外，它还支持参考图与姿态的自动对齐，降低了用户预处理数据的门槛，让人物动画创作变得更加简单快捷。

使用场景

某短视频 MCN 机构急需为旗下知识类博主批量制作“半身高清口播”视频，以快速响应热点话题。

没有 echomimic_v2 时

动作僵硬局限：传统数字人方案仅能驱动面部表情，博主说话时身体静止不动，画面缺乏真实感和感染力。
制作流程繁琐：需分别进行人脸重绘、肢体动画合成及后期剪辑对齐，单人视频制作耗时数小时，难以应对突发热点。
硬件门槛高昂：生成高质量视频依赖多卡并行推理，单次渲染耗时长达 7 分钟以上，严重拖慢内容产出节奏。
姿态控制困难：难以精确复刻参考视频中博主特有的手势和肢体语言，导致生成的视频缺乏个人风格辨识度。

使用 echomimic_v2 后

半身自然灵动：echomimic_v2 支持半身高保真驱动，不仅能精准还原口型，还能同步生成自然的头部晃动与手部 gestures，人物栩栩如生。
端到端高效生成：只需一张参考图和一段驱动视频，即可一键生成完整动画，将原本分散的制作步骤整合，大幅缩短工作流。
推理速度飞跃：借助加速版推理脚本，在单张 A100 显卡上生成 120 帧视频仅需约 50 秒，效率提升近 9 倍，实现分钟级视频交付。
姿态完美对齐：内置的 RefImg-Pose 对齐机制能自动校准参考图与驱动视频的姿态差异，确保博主标志性的肢体动作被完美复现。

echomimic_v2 通过简化流程与极致提速，让高表现力的半身数字人视频创作变得像编辑文档一样简单高效。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，测试型号包括 A100 (80G), RTX4090D (24G), V100 (16G)，需 CUDA >= 11.7

内存

未说明

依赖

notes官方安装脚本仅支持 Linux (CentOS 7.2/Ubuntu 22.04)。需手动下载并配置 ffmpeg-static 环境变量。模型权重需从 HuggingFace 或 ModelScope 下载，包含去噪 UNet、参考 UNet、运动模块等核心组件。提供加速推理版本，在 A100 上可将生成速度提升约 9 倍。

python3.8 / 3.10 / 3.11 (推荐 3.10)

torch==2.5.1

torchvision==0.20.1

torchaudio==2.5.1

xformers==0.0.28.post3

torchao

facenet_pytorch==2.6.0

ffmpeg-static

快速开始

EchoMimicV2：迈向引人注目、简化且半身的人体动画

Rang Meng¹ Xingyu Zhang Yuming Li² Chenguang Ma²

终端技术部，支付宝，蚂蚁集团。

¹核心贡献者 ²通讯作者

🚀 EchoMimic系列

EchoMimicV1：通过可编辑的地标条件生成逼真的音频驱动肖像动画。GitHub
EchoMimicV2：迈向引人注目、简化且半身的人体动画。GitHub
EchoMimicV3：13亿参数足以实现统一的多模态和多任务人体动画。GitHub

📣 更新

[2025.08.09] 🔥🔥 我们更新了EchoMimicV3并发布了代码。
[2025.02.27] 🔥 EchoMimicV2已被CVPR 2025接收。
[2025.01.16] 🔥 请查看讨论，了解如何开始使用EchoMimicV2。
[2025.01.16] 🚀🔥 用于加速EchoMimicV2的GradioUI现已可用。
[2025.01.03] 🚀🔥 只需一分钟即可生成视频。加速的EchoMimicV2已发布。在A100 GPU上，推理速度可提升9倍（从约7分钟/120帧缩短至约50秒/120帧）。
[2024.12.16] 🔥 RefImg-Pose对齐演示现已可用，其中包括对参考图像进行对齐、从驱动视频中提取姿态以及生成视频。
[2024.11.27] 🔥 安装教程现已可用。感谢AiMotionStudio的贡献。
[2024.11.22] 🔥 GradioUI现已可用。感谢@gluttony-10的贡献。
[2024.11.22] 🔥 ComfyUI现已可用。感谢@smthemex的贡献。
[2024.11.21] 🔥 我们发布了EMTD数据集列表及处理脚本。
[2024.11.21] 🔥 我们发布了我们的EchoMimicV2代码和模型。
[2024.11.15] 🔥 我们的论文已在arXiv上公开。

🌅 画廊

简介

英语驱动音频

中文驱动音频

⚒️ 自动安装

下载代码

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

自动设置

CUDA >= 11.7，Python == 3.10

   sh linux_setup.sh

⚒️ 手动安装

下载代码

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

Python 环境设置

测试系统环境：Centos 7.2/Ubuntu 22.04，Cuda >= 11.7
测试 GPU：A100(80G) / RTX4090D (24G) / V100(16G)
测试 Python 版本：3.8 / 3.10 / 3.11

创建 conda 环境（推荐）：

  conda create -n echomimic python=3.10
  conda activate echomimic

使用 pip 安装包：

  pip install pip -U
  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
  pip install -r requirements.txt
  pip install --no-deps facenet_pytorch==2.6.0

下载 ffmpeg-static

下载并解压 ffmpeg-static，然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

下载预训练权重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

pretrained_weights 的目录结构如下：

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── pose_encoder.pth
├── sd-vae-ft-mse
│   └── ...
└── audio_processor
    └── tiny.pt

其中，denoising_unet.pth / reference_unet.pth / motion_module.pth / pose_encoder.pth 是 EchoMimic 的主要检查点。该仓库中的其他模型也可以从其原始仓库下载，感谢他们的杰出工作：

演示推理

运行 Gradio：

python app.py

运行 Python 推理脚本：

python infer.py --config='./configs/prompts/infer.yaml'

运行加速版本的 Python 推理脚本。请务必查看加速推理的配置：

python infer_acc.py --config='./configs/prompts/infer_acc.yaml'

EMTD 数据集

下载数据集：

python ./EMTD_dataset/download.py

切分数据集：

bash ./EMTD_dataset/slice.sh

处理数据集：

python ./EMTD_dataset/preprocess.py

请务必查看讨论区，了解如何开始推理。

📝 发布计划

状态	阶段	预计完成时间
✅	EchoMimicV2 的推理源代码在 GitHub 上公开发布	2024年11月21日
✅	在 HuggingFace 上发布英语和中文普通话的预训练模型	2024年11月21日
✅	在 ModelScope 上发布英语和中文普通话的预训练模型	2024年11月21日
✅	EMTD 数据集列表及处理脚本	2024年11月21日
✅	带有姿态和参考图像对齐的 Jupyter 演示	2024年12月16日
✅	加速模型	2025年1月3日
🚀	在 ModelScope 上发布在线演示	待定
🚀	在 HuggingFace 上发布在线演示	待定

⚖️ 免责声明

本项目仅用于学术研究，我们明确声明不对用户生成的内容承担任何责任。用户在使用生成模型时应对其行为自行负责。项目贡献者与用户的任何行为均无法律关联或责任。务必以负责任的态度使用生成模型，遵守道德和法律规范。

🙏🏻 致谢

我们衷心感谢 MimicMotion 和 Moore-AnimateAnyone 项目的贡献者们，感谢他们开放的研究与探索精神。

同时，我们也感谢 CyberHost 和 Vlogger 在音频驱动人体动画领域的杰出工作。

如果我们遗漏了任何开源项目或相关文章，我们将立即补充致谢。

📒 引用

如果您觉得我们的工作对您的研究有帮助，请考虑引用以下论文：

@article{meng2024echomimicv2,
  title={EchoMimicV2：迈向震撼、简化且半身的人体动画},
  author={孟rang、张兴宇、李宇明、马晨光},
  journal={arXiv预印本 arXiv:2411.10061},
  year={2024}
}
@article{meng2025echomimicv3,
  title={Echomimicv3：13亿参数足以实现统一的多模态多任务人体动画},
  author={孟rang、王燕、吴伟鹏、郑若冰、李宇明、马晨光},
  journal={arXiv预印本 arXiv:2507.03905},
  year={2025}
}
@article{meng2026echotorrent,
  title={EchoTorrent：迈向快速、持续且流式的多模态视频生成},
  author={孟rang、吴伟鹏、尹英杰、李宇明、马晨光},
  journal={arXiv预印本 arXiv:2602.13669},
  year={2026}
}

🌟 点赞历史

EchoMimicV2 快速上手指南

EchoMimicV2 是一款由蚂蚁集团开源的半身人物动画生成工具，支持通过参考图片和驱动音频（或视频姿态）生成逼真的人物说话视频。本指南将帮助你快速在本地部署并运行该模型。

1. 环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 22.04 或 CentOS 7.2)
GPU: NVIDIA 显卡，显存建议 16GB 以上 (测试通过型号：A100 80G, RTX4090D 24G, V100 16G)
CUDA 版本: >= 11.7 (推荐 12.4 以匹配预编译包)
Python 版本: 3.8 / 3.10 / 3.11 (推荐 3.10)
其他依赖: git, git-lfs, ffmpeg

2. 安装步骤

2.1 克隆代码库

git clone https://github.com/antgroup/echomimic_v2
cd echomimic_v2

2.2 创建虚拟环境

推荐使用 Conda 管理环境：

conda create -n echomimic python=3.10
conda activate echomimic

2.3 安装依赖包

请严格按照以下顺序安装 PyTorch 及相关组件（基于 CUDA 12.4）：

pip install pip -U
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
pip install -r requirements.txt
pip install --no-deps facenet_pytorch==2.6.0

注意：如果下载速度慢，可将 --index-url 替换为国内镜像源（如清华源），但需确保 PyTorch 版本与 CUDA 版本严格匹配。若遇到兼容性问题，建议优先使用官方源。

2.4 配置 FFmpeg

下载静态编译版的 FFmpeg 并配置环境变量：

下载并解压 ffmpeg-4.4-amd64-static.tar.xz。
设置环境变量（请将路径替换为你的实际解压路径）：

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

2.5 下载预训练模型

使用 git-lfs 从 HuggingFace 下载模型权重：

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

下载完成后，pretrained_weights 目录应包含以下核心文件：

denoising_unet.pth
reference_unet.pth
motion_module.pth
pose_encoder.pth
sd-vae-ft-mse (文件夹)
audio_processor/tiny.pt

国内加速提示：如果 HuggingFace 连接困难，可使用 ModelScope 镜像下载：
git clone https://modelscope.cn/models/BadToBest/EchoMimicV2 pretrained_weights

3. 基本使用

安装完成后，你可以通过两种方式运行模型：Web 界面或命令行脚本。

方式一：启动 Web 界面 (推荐)

启动 Gradio 界面，便于上传图片和音频进行可视化操作：

python app.py

启动后，在浏览器访问显示的本地地址（通常为 http://127.0.0.1:7860），按照界面提示上传参考图和驱动音频即可生成视频。

方式二：命令行推理

标准推理

使用默认配置文件进行推理：

python infer.py --config='./configs/prompts/infer.yaml'

加速推理 (推荐)

新版提供了加速脚本，推理速度提升约 9 倍（在 A100 上从 7 分钟缩短至 50 秒/120 帧）：

python infer_acc.py --config='./configs/prompts/infer_acc.yaml'

提示：在使用命令行前，请编辑对应的 .yaml 配置文件，修改 ref_image_path (参考图路径) 和 driving_audio_path (驱动音频路径) 为你本地的实际文件路径。

常见问题

Windows 系统是否支持部署？对显卡有什么要求？

生成的视频出现闪烁或噪点严重怎么办？

运行时报错找不到 'diffusion_pytorch_model.safetensors' 文件怎么办？

Windows 下无法安装 triton 模块导致报错怎么办？

如何降低显存占用或在低显存显卡上运行？

为什么使用了加速模型但推理速度没有提升？

如何使用自己的图片生成视频且避免头部变形或不稳定？

pose 文件中的各个姿态代表什么？有没有说明文档？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像