VACE
VACE 是一款由通义实验室推出的“多合一”视频创作与编辑模型,旨在通过单一架构解决多样化的视频生成需求。它打破了传统工具功能单一的局限,能够灵活支持参考图生成视频(R2V)、视频重绘(V2V)以及局部掩码编辑(MV2V)等多种任务。用户不仅可以自由组合这些功能,还能轻松实现“移动任意物体”、“替换任意元素”、“参考任意风格”、“扩展画面”及“让静态动起来”等复杂操作,极大地简化了视频处理工作流。
该工具特别适合研究人员、开发者以及需要高效制作视频内容的设计师使用。对于研究者而言,VACE 提供了基于 Wan2.1 和 LTX-Video 的开源模型(包含 1.3B 和 14B 版本),并配套了完整的推理代码与评测基准,便于深入探索;对于创作者,其强大的泛化能力意味着无需切换多个软件即可完成从创意构思到精细编辑的全过程。作为 ICCV 2025 的接收论文成果,VACE 的核心亮点在于其统一的建模方式,将原本分散的视频创建与编辑任务整合为一个连贯的系统,在保持高质量输出的同时,显著提升了操作的灵活性与效率。
使用场景
某电商营销团队需要在短时间内为新款运动鞋制作一支包含产品替换、背景扩展及动态特效的促销短视频。
没有 VACE 时
- 工具割裂严重:制作人员需分别在文生视频、视频编辑和局部重绘三个不同软件间切换,数据导入导出耗时且容易出错。
- 角色一致性难保:在尝试将模特脚下的普通鞋替换为新款时,往往导致光影不匹配或鞋子在运动中发生形变闪烁。
- 创意扩展受限:若想将竖屏素材扩展为横屏广告,传统扩图工具难以保持视频前后帧的运动逻辑连贯,画面边缘常出现撕裂。
- 迭代成本高昂:任何微小的修改(如调整鞋子颜色或移动轨迹)都意味着需要重新渲染整个片段,等待时间以小时计。
使用 VACE 后
- 全流程一站式完成:利用 VACE 的"All-in-One"特性,团队在一个模型中即可串联完成参考生成、视频编辑和掩码修复,工作流无缝衔接。
- 精准可控的物体替换:通过"Swap-Anything"功能,仅需上传新款鞋图片作为参考,VACE 便能完美将其融入原视频,确保运动过程中的光影与透视自然统一。
- 智能画面扩展:调用"Expand-Anything"能力,轻松将竖屏视频无损扩展为横屏,自动补全的背景不仅清晰且符合原视频的运动趋势。
- 高效实时迭代:修改指令后,VACE 能快速生成新结果,让创作者能在几分钟内尝试多种配色方案和动态效果,大幅缩短决策周期。
VACE 通过统一视频创作与编辑的核心能力,将原本繁琐的多工具协作转化为流畅的单模型交互,极大提升了视频内容的生产效率和创意自由度。
运行环境要求
- 未说明
- 必需 NVIDIA GPU
- 单卡推理支持 1.3B 模型
- 多卡加速(8 卡)支持 1.3B (480P) 和 14B (720P) 模型
- 需安装 CUDA 12.4 环境
未说明

快速开始
VACE:一站式视频创作与编辑
(ICCV 2025)
姜泽音子*
·
韩震*
·
毛超杰*†
·
张景峰
·
潘宇林
·
刘宇
通义实验室 -
简介
VACE 是一款专为视频创作与编辑设计的一站式模型。它涵盖了多种任务,包括参考文本到视频生成(R2V)、视频到视频编辑(V2V)以及带掩码的视频到视频编辑(MV2V),用户可以自由组合这些任务。这一功能使用户能够探索多样化的可能性,并有效简化工作流程,提供诸如“移动任意内容”、“替换任意内容”、“参考任意内容”、“扩展任意内容”、“动画化任意内容”等多种能力。
🎉 最新消息
- 2025年10月17日:VACE-Benchmark 已更新,纳入了评估数据。VACE-Page 也展示了社区创意案例,为研究人员和社区成员提供了更好的项目洞察和跟踪。
- 2025年6月26日:VACE 被 ICCV 2025 接受。
- 2025年5月14日:🔥Wan2.1-VACE-1.3B 和 Wan2.1-VACE-14B 模型现已在 HuggingFace 和 ModelScope 上线!
- 2025年3月31日:🔥VACE-Wan2.1-1.3B-Preview 和 VACE-LTX-Video-0.9 模型现已在 HuggingFace 和 ModelScope 上线!
- 2025年3月31日:🔥发布了模型推理、预处理及 Gradio 演示的代码。
- 2025年3月11日:我们提出了 VACE,一个用于视频创作和编辑的一站式模型。
🪄 模型
| 模型 | 下载链接 | 视频尺寸 | 许可证 |
|---|---|---|---|
| VACE-Wan2.1-1.3B-Preview | Huggingface 🤗 ModelScope 🤖 | ~ 81 x 480 x 832 | Apache-2.0 |
| VACE-LTX-Video-0.9 | Huggingface 🤗 ModelScope 🤖 | ~ 97 x 512 x 768 | RAIL-M |
| Wan2.1-VACE-1.3B | Huggingface 🤗 ModelScope 🤖 | ~ 81 x 480 x 832 | Apache-2.0 |
| Wan2.1-VACE-14B | Huggingface 🤗 ModelScope 🤖 | ~ 81 x 720 x 1280 | Apache-2.0 |
- 输入支持任意分辨率,但为了获得最佳效果,视频尺寸应控制在特定范围内。
- 所有模型均继承原始模型的许可证。
⚙️ 安装
该代码库已在 Python 3.10.13、CUDA 12.4 和 PyTorch >= 2.5.1 的环境下测试通过。
模型推理环境搭建
您可以通过以下步骤搭建 VACE 模型推理环境:
git clone https://github.com/ali-vilab/VACE.git && cd VACE
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124 # 如果尚未安装 PyTorch。
pip install -r requirements.txt
pip install wan@git+https://github.com/Wan-Video/Wan2.1 # 如果您希望使用基于 Wan2.1 的 VACE。
pip install ltx-video@git+https://github.com/Lightricks/LTX-Video@ltx-video-0.9.1 sentencepiece --no-deps # 如果您希望使用基于 LTX-Video-0.9 的 VACE。这可能会与 Wan 冲突。
请将您选择的基础模型下载至 <repo-root>/models/ 目录下。
预处理工具环境搭建
如果您需要预处理工具,请执行:
pip install -r requirements/annotator.txt
请将 VACE-Annotators 下载至 <repo-root>/models/ 目录下。
本地目录结构建议
建议将 VACE-Benchmark 下载至 <repo-root>/benchmarks/ 目录下,作为 run_vace_xxx.sh 中的示例数据。
我们推荐的本地目录结构如下:
VACE
├── ...
├── benchmarks
│ └── VACE-Benchmark
│ └── assets
│ └── examples
│ ├── animate_anything
│ │ └── ...
│ └── ...
├── models
│ ├── VACE-Annotators
│ │ └── ...
│ ├── VACE-LTX-Video-0.9
│ │ └── ...
│ └── VACE-Wan2.1-1.3B-Preview
│ └── ...
└── ...
🚀 使用方法
在 VACE 中,用户可以输入 文本提示,并可选地提供 视频、掩码 和 图像,以进行视频生成或编辑。 有关 VACE 的详细使用说明,请参阅 用户指南。
推理 CIL
1) 端到端运行
若想简单运行 VACE 而无需深入任何实现细节,我们建议使用端到端流程。例如:
# 运行 V2V 深度估计
python vace/vace_pipeline.py --base wan --task depth --video assets/videos/test.mp4 --prompt 'xxx'
# 通过提供边界框运行 MV2V 图像修复
python vace/vace_pipeline.py --base wan --task inpainting --mode bbox --bbox 50,50,550,700 --video assets/videos/test.mp4 --prompt 'xxx'
该脚本将依次运行视频预处理和模型推理,
您需要指定所有必要的预处理参数(--task、--mode、--bbox、--video 等)以及推理参数(--prompt 等)。输出视频连同中间视频、掩码和图像默认会保存到 ./results/ 目录下。
💡注意: 请参考 run_vace_pipeline.sh 以获取不同任务流程的使用示例。
2) 预处理
为了更灵活地控制输入,在进行 VACE 模型推理之前,用户输入需要先被预处理为 src_video、src_mask 和 src_ref_images。
我们为每个 预处理器 分配了一个任务名称,因此只需调用 vace_preprocess.py,并指定任务名称和任务参数即可。例如:
# 处理视频深度估计
python vace/vace_preproccess.py --task depth --video assets/videos/test.mp4
# 通过提供边界框处理视频图像修复
python vace/vace_preproccess.py --task inpainting --mode bbox --bbox 50,50,550,700 --video assets/videos/test.mp4
输出文件默认会保存到 ./processed/ 目录下。
💡注意: 请参考 run_vace_pipeline.sh 中针对不同任务的预处理方法。此外,可参阅 vace/configs/ 获取所有预定义的任务及其所需参数。您也可以通过在
annotators中实现自定义预处理器,并将其注册到configs中。
3) 模型推理
利用从 预处理 步骤中获得的输入数据,模型推理过程可以按如下方式进行:
# 对于 Wan2.1 单 GPU 推理 (1.3B-480P)
python vace/vace_wan_inference.py --ckpt_dir <模型路径> --src_video <源视频路径> --src_mask <源掩码路径> --src_ref_images <源参考图像路径> --prompt "xxx"
# 对于 Wan2.1 多 GPU 加速推理 (1.3B-480P)
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 vace/vace_wan_inference.py --dit_fsdp --t5_fsdp --ulysses_size 1 --ring_size 8 --ckpt_dir <模型路径> --src_video <源视频路径> --src_mask <源掩码路径> --src_ref_images <源参考图像路径> --prompt "xxx"
# 对于 Wan2.1 多 GPU 加速推理 (14B-720P)
torchrun --nproc_per_node=8 vace/vace_wan_inference.py --dit_fsdp --t5_fsdp --ulysses_size 8 --ring_size 1 --size 720p --model_name 'vace-14B' --ckpt_dir <模型路径> --src_video <源视频路径> --src_mask <源掩码路径> --src_ref_images <源参考图像路径> --prompt "xxx"
# 对于 LTX 推理,运行
python vace/vace_ltx_inference.py --ckpt_path <模型路径> --text_encoder_path <模型路径> --src_video <源视频路径> --src_mask <源掩码路径> --src_ref_images <源参考图像路径> --prompt "xxx"
输出视频连同中间视频、掩码和图像默认会保存到 ./results/ 目录下。
💡注意: (1) 请参考 vace/vace_wan_inference.py 和 vace/vace_ltx_inference.py 以了解推理参数。 (2) 对于 LTX-Video 和英语语言的 Wan2.1 用户,需要使用提示扩展才能充分发挥模型性能。请遵循 Wan2.1 的说明,并在运行推理时设置
--use_prompt_extend。 (3) 在编辑任务中进行提示扩展时,务必注意纯文本扩展后的内容。由于输入的视觉信息未知,扩展后的输出可能与待编辑视频不匹配,从而影响最终效果。
Gradio 推理
对于预处理器,运行以下命令:
python vace/gradios/vace_preprocess_demo.py
对于模型推理,运行:
# 对于 Wan2.1 的 Gradio 推理
python vace/gradios/vace_wan_demo.py
# 对于 LTX 的 Gradio 推理
python vace/gradios/vace_ltx_demo.py
致谢
我们衷心感谢以下优秀项目,包括 Scepter、Wan 和 LTX-Video。此外,我们还要向所有社区创作者致以最深切的谢意。正是他们积极的探索、实验和无限的创造力,为本项目带来了巨大的灵感,促使基于此涌现出更加完善的流程和令人惊叹的视频生成内容。这其中包括但不限于:Kijai 的工作流、对 ComfyUI 和 Diffusers 的原生代码支持、关键的模型量化支持、多样化的 LoRA 适配器生态,以及社区成员不断演进的创新工作流。
BibTeX
@inproceedings{vace,
title = {VACE: 全功能视频创作与编辑},
author = {Jiang, Zeyinzi 和 Han, Zhen 和 Mao, Chaojie 和 Zhang, Jingfeng 和 Pan, Yulin 和 Liu, Yu},
booktitle = {IEEE/CVF 国际计算机视觉会议论文集},
pages = {17191-17202},
year = {2025}
}
常见问题
相似工具推荐
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
MoneyPrinterTurbo
MoneyPrinterTurbo 是一款利用 AI 大模型技术,帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词,它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程,最终输出完整的竖屏或横屏短视频。 这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者,还是希望尝试视频生成的普通用户,无需具备专业的剪辑技能或昂贵的硬件配置(普通电脑即可运行),都能轻松上手。同时,其清晰的 MVC 架构和对多种主流大模型(如 DeepSeek、Moonshot、通义千问等)的广泛支持,也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成,允许用户精细调整字幕样式和画面比例,还特别优化了国内网络环境下的模型接入方案,让用户无需依赖 VPN 即可使用高性能国产大模型。此外,工具提供批量生成模式,可一次性产出多个版本供用户择优,极大地提升了内容创作的效率与质量。
oh-my-openagent
oh-my-openagent(简称 omo)是一款强大的开源智能体编排框架,前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒,解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案,omo 倡导开放市场理念,支持灵活调度多种主流大模型:利用 Claude、Kimi 或 GLM 进行任务编排,调用 GPT 处理复杂推理,借助 Minimax 提升响应速度,或发挥 Gemini 的创意优势。 这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口,用户可以轻松组合不同模型的长处,构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构,让用户不再受制于某一家公司的策略变动或定价调整,真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手,还是开发多步骤任务处理流程,oh-my-openagent 都能提供灵活且稳健的基础设施支持,助力用户在快速演进的 AI 生态中保持技术主动权。
tabby
Tabby 是一款可私有化部署的开源 AI 编程助手,旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题,让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。 这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构,以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构,无需配置复杂的数据库或依赖云服务即可快速启动。同时,它对硬件十分友好,支持在普通的消费级 GPU 上流畅运行,大幅降低了部署门槛。此外,Tabby 提供了标准的 OpenAPI 接口,能轻松集成到现有的云 IDE 或内部开发流程中,并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答,Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。
generative-models
Generative Models 是 Stability AI 推出的开源项目,核心亮点在于最新发布的 Stable Video 4D 2.0(SV4D 2.0)。这是一个先进的视频转 4D 扩散模型,旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况,且生成的动态细节容易模糊,而 SV4D 2.0 通过改进的架构,显著提升了运动中的画面锐度与时空一致性,无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。 该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者,它提供了探索 4D 生成前沿的完整代码与训练权重;对于开发者,其支持自动回归生成长视频及低显存优化选项,便于集成与调试;对于设计师,它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面,SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角(或 5 帧对应 8 视角),分辨率达 576x576,并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频,