[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ali-vilab--VACE":3,"tool-ali-vilab--VACE":65},[4,18,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":17},3833,"MoneyPrinterTurbo","harry0703\u002FMoneyPrinterTurbo","MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。\n\n这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。\n\nMoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。",54991,"2026-04-05T12:23:02",[13,30,15,16,14],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":24,"last_commit_at":46,"category_tags":47,"status":17},2179,"oh-my-openagent","code-yeongyu\u002Foh-my-openagent","oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。\n\n这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。",50701,"2026-04-12T11:29:54",[16,30,13,14,15],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":17},5295,"tabby","TabbyML\u002Ftabby","Tabby 是一款可私有化部署的开源 AI 编程助手，旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题，让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。\n\n这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构，以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构，无需配置复杂的数据库或依赖云服务即可快速启动。同时，它对硬件十分友好，支持在普通的消费级 GPU 上流畅运行，大幅降低了部署门槛。此外，Tabby 提供了标准的 OpenAPI 接口，能轻松集成到现有的云 IDE 或内部开发流程中，并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答，Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。",33308,"2026-04-07T20:23:18",[13,30,15,14,16],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":17},6525,"generative-models","Stability-AI\u002Fgenerative-models","Generative Models 是 Stability AI 推出的开源项目，核心亮点在于最新发布的 Stable Video 4D 2.0（SV4D 2.0）。这是一个先进的视频转 4D 扩散模型，旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况，且生成的动态细节容易模糊，而 SV4D 2.0 通过改进的架构，显著提升了运动中的画面锐度与时空一致性，无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。\n\n该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者，它提供了探索 4D 生成前沿的完整代码与训练权重；对于开发者，其支持自动回归生成长视频及低显存优化选项，便于集成与调试；对于设计师，它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面，SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角（或 5 帧对应 8 视角），分辨率达 576x576，并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频，",27078,4,"2026-04-10T22:08:34",[16,29],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":77,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":62,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":106,"github_topics":107,"view_count":24,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":110,"updated_at":111,"faqs":112,"releases":148},6914,"ali-vilab\u002FVACE","VACE","[ICCV 2025] Official implementations for paper: VACE: All-in-One Video Creation and Editing","VACE 是一款由通义实验室推出的“多合一”视频创作与编辑模型，旨在通过单一架构解决多样化的视频生成需求。它打破了传统工具功能单一的局限，能够灵活支持参考图生成视频（R2V）、视频重绘（V2V）以及局部掩码编辑（MV2V）等多种任务。用户不仅可以自由组合这些功能，还能轻松实现“移动任意物体”、“替换任意元素”、“参考任意风格”、“扩展画面”及“让静态动起来”等复杂操作，极大地简化了视频处理工作流。\n\n该工具特别适合研究人员、开发者以及需要高效制作视频内容的设计师使用。对于研究者而言，VACE 提供了基于 Wan2.1 和 LTX-Video 的开源模型（包含 1.3B 和 14B 版本），并配套了完整的推理代码与评测基准，便于深入探索；对于创作者，其强大的泛化能力意味着无需切换多个软件即可完成从创意构思到精细编辑的全过程。作为 ICCV 2025 的接收论文成果，VACE 的核心亮点在于其统一的建模方式，将原本分散的视频创建与编辑任务整合为一个连贯的系统，在保持高质量输出的同时，显著提升了操作的灵活性与效率。","\u003Cp align=\"center\">\n\n\u003Ch1 align=\"center\">VACE: All-in-One Video Creation and Editing\u003C\u002Fh1>\n\u003Ch3 align=\"center\">(ICCV 2025)\u003C\u002Fh3>\n\u003Cp align=\"center\">\n    \u003Cstrong>Zeyinzi Jiang\u003Csup>*\u003C\u002Fsup>\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>Zhen Han\u003Csup>*\u003C\u002Fsup>\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>Chaojie Mao\u003Csup>*&dagger;\u003C\u002Fsup>\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>Jingfeng Zhang\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>Yulin Pan\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>Yu Liu\u003C\u002Fstrong>\n    \u003Cbr>\n    \u003Cb>Tongyi Lab - \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1\">\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fali-vilab_VACE_readme_a2acb171c2f5.png' alt='wan_logo' style='margin-bottom: -4px; height: 20px;'>\u003C\u002Fa> \u003C\u002Fb>\n    \u003Cbr>\n    \u003Cbr>\n        \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07598\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-arXiv-red' alt='Paper PDF'>\u003C\u002Fa>\n        \u003Ca href=\"https:\u002F\u002Fali-vilab.github.io\u002FVACE-Page\u002F\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-Project_Page-green' alt='Project Page'>\u003C\u002Fa>\n        \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fali-vilab\u002Fvace-67eca186ff3e3564726aff38\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-HuggingFace_Model-yellow'>\u003C\u002Fa>\n        \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FVACE-8fa5fcfd386e43\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-ModelScope_Model-purple'>\u003C\u002Fa>\n    \u003Cbr>\n\u003C\u002Fp>\n\n\n## Introduction\n\u003Cstrong>VACE\u003C\u002Fstrong> is an all-in-one model designed for video creation and editing. It encompasses various tasks, including reference-to-video generation (\u003Cstrong>R2V\u003C\u002Fstrong>), video-to-video editing (\u003Cstrong>V2V\u003C\u002Fstrong>), and masked video-to-video editing (\u003Cstrong>MV2V\u003C\u002Fstrong>), allowing users to compose these tasks freely. This functionality enables users to explore diverse possibilities and streamlines their workflows effectively, offering a range of capabilities, such as Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything, and more.\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fali-vilab_VACE_readme_9709a5a65587.jpg'>\n\n\n## 🎉 News\n- [x] Oct 17, 2025: [VACE-Benchmark](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fali-vilab\u002FVACE-Benchmark) has been updated to incorporate the evaluation data. [VACE-Page](https:\u002F\u002Fali-vilab.github.io\u002FVACE-Page\u002F) also features creative community cases, offering researchers and community members better project insight and tracking.\n- [x] Jun 26, 2025: [VACE](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2025\u002Fhtml\u002FJiang_VACE_All-in-One_Video_Creation_and_Editing_ICCV_2025_paper.html) is accepted by ICCV 2025.\n- [x] May 14, 2025: 🔥Wan2.1-VACE-1.3B and Wan2.1-VACE-14B models are now available at [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FWan-AI\u002Fwan21-68ac4ba85372ae5a8e282a1b) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002Ftongyiwanxiang-Wan21-shipinshengcheng-67ec9b23fd8d4f)!\n- [x] Mar 31, 2025: 🔥VACE-Wan2.1-1.3B-Preview and VACE-LTX-Video-0.9 models are now available at [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fali-vilab\u002Fvace-67eca186ff3e3564726aff38) and [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FVACE-8fa5fcfd386e43)!\n- [x] Mar 31, 2025: 🔥Release code of model inference, preprocessing, and gradio demos. \n- [x] Mar 11, 2025: We propose [VACE](https:\u002F\u002Fali-vilab.github.io\u002FVACE-Page\u002F), an all-in-one model for video creation and editing.\n\n\n## 🪄 Models\n| Models                   | Download Link                                                                                                                                           | Video Size        | License                                                                                       |\n|--------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------|-----------------------------------------------------------------------------------------------|\n| VACE-Wan2.1-1.3B-Preview | [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fali-vilab\u002FVACE-Wan2.1-1.3B-Preview) 🤗  [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002FVACE-Wan2.1-1.3B-Preview) 🤖 | ~ 81 x 480 x 832  | [Apache-2.0](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-T2V-1.3B\u002Fblob\u002Fmain\u002FLICENSE.txt)             |\n| VACE-LTX-Video-0.9       | [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fali-vilab\u002FVACE-LTX-Video-0.9) 🤗     [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002FVACE-LTX-Video-0.9) 🤖          | ~ 97 x 512 x 768  | [RAIL-M](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-Video\u002Fblob\u002Fmain\u002Fltx-video-2b-v0.9.license.txt) |\n| Wan2.1-VACE-1.3B         | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-VACE-1.3B) 🤗     [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FWan-AI\u002FWan2.1-VACE-1.3B) 🤖          | ~ 81 x 480 x 832  | [Apache-2.0](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-T2V-1.3B\u002Fblob\u002Fmain\u002FLICENSE.txt)             |\n| Wan2.1-VACE-14B          | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-VACE-14B) 🤗     [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FWan-AI\u002FWan2.1-VACE-14B) 🤖            | ~ 81 x 720 x 1280 | [Apache-2.0](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-T2V-14B\u002Fblob\u002Fmain\u002FLICENSE.txt)             |\n\n- The input supports any resolution, but to achieve optimal results, the video size should fall within a specific range.\n- All models inherit the license of the original model.\n\n\n## ⚙️ Installation\nThe codebase was tested with Python 3.10.13, CUDA version 12.4, and PyTorch >= 2.5.1.\n\n### Setup for Model Inference\nYou can setup for VACE model inference by running:\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE.git && cd VACE\npip install torch==2.5.1 torchvision==0.20.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124  # If PyTorch is not installed.\npip install -r requirements.txt\npip install wan@git+https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1  # If you want to use Wan2.1-based VACE.\npip install ltx-video@git+https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video@ltx-video-0.9.1 sentencepiece --no-deps # If you want to use LTX-Video-0.9-based VACE. It may conflict with Wan.\n```\nPlease download your preferred base model to `\u003Crepo-root>\u002Fmodels\u002F`. \n\n### Setup for Preprocess Tools\nIf you need preprocessing tools, please install:\n```bash\npip install -r requirements\u002Fannotator.txt\n```\nPlease download [VACE-Annotators](https:\u002F\u002Fhuggingface.co\u002Fali-vilab\u002FVACE-Annotators) to `\u003Crepo-root>\u002Fmodels\u002F`.\n\n### Local Directories Setup\nIt is recommended to download [VACE-Benchmark](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fali-vilab\u002FVACE-Benchmark) to `\u003Crepo-root>\u002Fbenchmarks\u002F` as examples in `run_vace_xxx.sh`.\n\nWe recommend to organize local directories as:\n```angular2html\nVACE\n├── ...\n├── benchmarks\n│   └── VACE-Benchmark\n│       └── assets\n│           └── examples\n│               ├── animate_anything\n│               │   └── ...\n│               └── ...\n├── models\n│   ├── VACE-Annotators\n│   │   └── ...\n│   ├── VACE-LTX-Video-0.9\n│   │   └── ...\n│   └── VACE-Wan2.1-1.3B-Preview\n│       └── ...\n└── ...\n```\n\n## 🚀 Usage\nIn VACE, users can input **text prompt** and optional **video**, **mask**, and **image** for video generation or editing.\nDetailed instructions for using VACE can be found in the [User Guide](.\u002FUserGuide.md).\n\n### Inference CIL\n#### 1) End-to-End Running\nTo simply run VACE without diving into any implementation details, we suggest an end-to-end pipeline. For example:\n```bash\n# run V2V depth\npython vace\u002Fvace_pipeline.py --base wan --task depth --video assets\u002Fvideos\u002Ftest.mp4 --prompt 'xxx'\n\n# run MV2V inpainting by providing bbox\npython vace\u002Fvace_pipeline.py --base wan --task inpainting --mode bbox --bbox 50,50,550,700 --video assets\u002Fvideos\u002Ftest.mp4 --prompt 'xxx'\n```\nThis script will run video preprocessing and model inference sequentially, \nand you need to specify all the required args of preprocessing (`--task`, `--mode`, `--bbox`, `--video`, etc.) and inference (`--prompt`, etc.). \nThe output video together with intermediate video, mask and images will be saved into `.\u002Fresults\u002F` by default.\n\n> 💡**Note**:\n> Please refer to [run_vace_pipeline.sh](.\u002Frun_vace_pipeline.sh) for usage examples of different task pipelines.\n\n\n#### 2) Preprocessing\nTo have more flexible control over the input, before VACE model inference, user inputs need to be preprocessed into `src_video`, `src_mask`, and `src_ref_images` first.\nWe assign each [preprocessor](.\u002Fvace\u002Fconfigs\u002F__init__.py) a task name, so simply call [`vace_preprocess.py`](.\u002Fvace\u002Fvace_preproccess.py) and specify the task name and task params. For example:\n```angular2html\n# process video depth\npython vace\u002Fvace_preproccess.py --task depth --video assets\u002Fvideos\u002Ftest.mp4\n\n# process video inpainting by providing bbox\npython vace\u002Fvace_preproccess.py --task inpainting --mode bbox --bbox 50,50,550,700 --video assets\u002Fvideos\u002Ftest.mp4\n```\nThe outputs will be saved to `.\u002Fprocessed\u002F` by default.\n\n> 💡**Note**:\n> Please refer to [run_vace_pipeline.sh](.\u002Frun_vace_pipeline.sh) preprocessing methods for different tasks.\nMoreover, refer to [vace\u002Fconfigs\u002F](.\u002Fvace\u002Fconfigs\u002F) for all the pre-defined tasks and required params.\nYou can also customize preprocessors by implementing at [`annotators`](.\u002Fvace\u002Fannotators\u002F__init__.py) and register them at [`configs`](.\u002Fvace\u002Fconfigs).\n\n\n#### 3) Model inference\nUsing the input data obtained from **Preprocessing**, the model inference process can be performed as follows:\n```bash\n# For Wan2.1 single GPU inference (1.3B-480P)\npython vace\u002Fvace_wan_inference.py --ckpt_dir \u003Cpath-to-model> --src_video \u003Cpath-to-src-video> --src_mask \u003Cpath-to-src-mask> --src_ref_images \u003Cpaths-to-src-ref-images> --prompt \"xxx\"\n\n# For Wan2.1 Multi GPU Acceleration inference (1.3B-480P)\npip install \"xfuser>=0.4.1\"\ntorchrun --nproc_per_node=8 vace\u002Fvace_wan_inference.py --dit_fsdp --t5_fsdp --ulysses_size 1 --ring_size 8 --ckpt_dir \u003Cpath-to-model> --src_video \u003Cpath-to-src-video> --src_mask \u003Cpath-to-src-mask> --src_ref_images \u003Cpaths-to-src-ref-images> --prompt \"xxx\"\n\n# For Wan2.1 Multi GPU Acceleration inference (14B-720P)\ntorchrun --nproc_per_node=8 vace\u002Fvace_wan_inference.py --dit_fsdp --t5_fsdp --ulysses_size 8 --ring_size 1 --size 720p --model_name 'vace-14B' --ckpt_dir \u003Cpath-to-model> --src_video \u003Cpath-to-src-video> --src_mask \u003Cpath-to-src-mask> --src_ref_images \u003Cpaths-to-src-ref-images> --prompt \"xxx\"\n\n# For LTX inference, run\npython vace\u002Fvace_ltx_inference.py --ckpt_path \u003Cpath-to-model> --text_encoder_path \u003Cpath-to-model> --src_video \u003Cpath-to-src-video> --src_mask \u003Cpath-to-src-mask> --src_ref_images \u003Cpaths-to-src-ref-images> --prompt \"xxx\"\n```\nThe output video together with intermediate video, mask and images will be saved into `.\u002Fresults\u002F` by default.\n\n> 💡**Note**: \n> (1) Please refer to [vace\u002Fvace_wan_inference.py](.\u002Fvace\u002Fvace_wan_inference.py) and [vace\u002Fvace_ltx_inference.py](.\u002Fvace\u002Fvace_ltx_inference.py) for the inference args.\n> (2) For LTX-Video and English language Wan2.1 users, you need prompt extension to unlock the full model performance. \nPlease follow the [instruction of Wan2.1](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1?tab=readme-ov-file#2-using-prompt-extension) and set `--use_prompt_extend` while running inference.\n> (3) When performing prompt extension in editing tasks, it's important to pay attention to the results of expanding plain text. Since the visual information being input is unknown, this may lead to the extended output not matching the video being edited, which can affect the final outcome.\n\n### Inference Gradio\nFor preprocessors, run \n```bash\npython vace\u002Fgradios\u002Fvace_preprocess_demo.py\n```\nFor model inference, run\n```bash\n# For Wan2.1 gradio inference\npython vace\u002Fgradios\u002Fvace_wan_demo.py\n\n# For LTX gradio inference\npython vace\u002Fgradios\u002Fvace_ltx_demo.py\n```\n\n## Acknowledgement\n\nWe are grateful for the following awesome projects, including [Scepter](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fscepter), [Wan](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1), and [LTX-Video](https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video). Additionally, we extend our deepest gratitude to all community creators. It is their proactive exploration, experimentation, and boundless creativity that have brought immense inspiration to the project, fostering the emergence of even more refined workflows and stunning video generation content based on it. This includes, but is not limited to: [Kijai's Workflow](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper), native code support for [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI) and [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers), crucial model quantization support, a diverse ecosystem of LoRA adapters, and the ever-evolving innovative workflows from our community members.\n\n\n## BibTeX\n\n```bibtex\n@inproceedings{vace,\n    title = {VACE: All-in-One Video Creation and Editing},\n    author = {Jiang, Zeyinzi and Han, Zhen and Mao, Chaojie and Zhang, Jingfeng and Pan, Yulin and Liu, Yu},\n    booktitle = {Proceedings of the IEEE\u002FCVF International Conference on Computer Vision},\n    pages = {17191-17202},\n    year = {2025}\n}\n","\u003Cp align=\"center\">\n\n\u003Ch1 align=\"center\">VACE：一站式视频创作与编辑\u003C\u002Fh1>\n\u003Ch3 align=\"center\">(ICCV 2025)\u003C\u002Fh3>\n\u003Cp align=\"center\">\n    \u003Cstrong>姜泽音子\u003Csup>*\u003C\u002Fsup>\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>韩震\u003Csup>*\u003C\u002Fsup>\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>毛超杰\u003Csup>*&dagger;\u003C\u002Fsup>\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>张景峰\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>潘宇林\u003C\u002Fstrong>\n    ·\n    \u003Cstrong>刘宇\u003C\u002Fstrong>\n    \u003Cbr>\n    \u003Cb>通义实验室 - \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1\">\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fali-vilab_VACE_readme_a2acb171c2f5.png' alt='wan_logo' style='margin-bottom: -4px; height: 20px;'>\u003C\u002Fa> \u003C\u002Fb>\n    \u003Cbr>\n    \u003Cbr>\n        \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07598\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-arXiv-red' alt='Paper PDF'>\u003C\u002Fa>\n        \u003Ca href=\"https:\u002F\u002Fali-vilab.github.io\u002FVACE-Page\u002F\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-Project_Page-green' alt='Project Page'>\u003C\u002Fa>\n        \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fali-vilab\u002Fvace-67eca186ff3e3564726aff38\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-HuggingFace_Model-yellow'>\u003C\u002Fa>\n        \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FVACE-8fa5fcfd386e43\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FVACE-ModelScope_Model-purple'>\u003C\u002Fa>\n    \u003Cbr>\n\u003C\u002Fp>\n\n\n## 简介\n\u003Cstrong>VACE\u003C\u002Fstrong> 是一款专为视频创作与编辑设计的一站式模型。它涵盖了多种任务，包括参考文本到视频生成（\u003Cstrong>R2V\u003C\u002Fstrong>）、视频到视频编辑（\u003Cstrong>V2V\u003C\u002Fstrong>）以及带掩码的视频到视频编辑（\u003Cstrong>MV2V\u003C\u002Fstrong>），用户可以自由组合这些任务。这一功能使用户能够探索多样化的可能性，并有效简化工作流程，提供诸如“移动任意内容”、“替换任意内容”、“参考任意内容”、“扩展任意内容”、“动画化任意内容”等多种能力。\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fali-vilab_VACE_readme_9709a5a65587.jpg'>\n\n\n## 🎉 最新消息\n- [x] 2025年10月17日：[VACE-Benchmark](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fali-vilab\u002FVACE-Benchmark) 已更新，纳入了评估数据。[VACE-Page](https:\u002F\u002Fali-vilab.github.io\u002FVACE-Page\u002F) 也展示了社区创意案例，为研究人员和社区成员提供了更好的项目洞察和跟踪。\n- [x] 2025年6月26日：[VACE](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2025\u002Fhtml\u002FJiang_VACE_All-in-One_Video_Creation_and_Editing_ICCV_2025_paper.html) 被 ICCV 2025 接受。\n- [x] 2025年5月14日：🔥Wan2.1-VACE-1.3B 和 Wan2.1-VACE-14B 模型现已在 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FWan-AI\u002Fwan21-68ac4ba85372ae5a8e282a1b) 和 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002Ftongyiwanxiang-Wan21-shipinshengcheng-67ec9b23fd8d4f) 上线！\n- [x] 2025年3月31日：🔥VACE-Wan2.1-1.3B-Preview 和 VACE-LTX-Video-0.9 模型现已在 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fali-vilab\u002Fvace-67eca186ff3e3564726aff38) 和 [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FVACE-8fa5fcfd386e43) 上线！\n- [x] 2025年3月31日：🔥发布了模型推理、预处理及 Gradio 演示的代码。\n- [x] 2025年3月11日：我们提出了 [VACE](https:\u002F\u002Fali-vilab.github.io\u002FVACE-Page\u002F)，一个用于视频创作和编辑的一站式模型。\n\n\n## 🪄 模型\n| 模型                   | 下载链接                                                                                                                                           | 视频尺寸        | 许可证                                                                                       |\n|--------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------|-----------------------------------------------------------------------------------------------|\n| VACE-Wan2.1-1.3B-Preview | [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fali-vilab\u002FVACE-Wan2.1-1.3B-Preview) 🤗  [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002FVACE-Wan2.1-1.3B-Preview) 🤖 | ~ 81 x 480 x 832  | [Apache-2.0](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-T2V-1.3B\u002Fblob\u002Fmain\u002FLICENSE.txt)             |\n| VACE-LTX-Video-0.9       | [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fali-vilab\u002FVACE-LTX-Video-0.9) 🤗     [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002FVACE-LTX-Video-0.9) 🤖          | ~ 97 x 512 x 768  | [RAIL-M](https:\u002F\u002Fhuggingface.co\u002FLightricks\u002FLTX-Video\u002Fblob\u002Fmain\u002Fltx-video-2b-v0.9.license.txt) |\n| Wan2.1-VACE-1.3B         | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-VACE-1.3B) 🤗     [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FWan-AI\u002FWan2.1-VACE-1.3B) 🤖          | ~ 81 x 480 x 832  | [Apache-2.0](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-T2V-1.3B\u002Fblob\u002Fmain\u002FLICENSE.txt)             |\n| Wan2.1-VACE-14B          | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-VACE-14B) 🤗     [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FWan-AI\u002FWan2.1-VACE-14B) 🤖            | ~ 81 x 720 x 1280 | [Apache-2.0](https:\u002F\u002Fhuggingface.co\u002FWan-AI\u002FWan2.1-T2V-14B\u002Fblob\u002Fmain\u002FLICENSE.txt)             |\n\n- 输入支持任意分辨率，但为了获得最佳效果，视频尺寸应控制在特定范围内。\n- 所有模型均继承原始模型的许可证。\n\n\n## ⚙️ 安装\n该代码库已在 Python 3.10.13、CUDA 12.4 和 PyTorch >= 2.5.1 的环境下测试通过。\n\n### 模型推理环境搭建\n您可以通过以下步骤搭建 VACE 模型推理环境：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE.git && cd VACE\npip install torch==2.5.1 torchvision==0.20.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124  # 如果尚未安装 PyTorch。\npip install -r requirements.txt\npip install wan@git+https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1  # 如果您希望使用基于 Wan2.1 的 VACE。\npip install ltx-video@git+https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video@ltx-video-0.9.1 sentencepiece --no-deps # 如果您希望使用基于 LTX-Video-0.9 的 VACE。这可能会与 Wan 冲突。\n```\n请将您选择的基础模型下载至 `\u003Crepo-root>\u002Fmodels\u002F` 目录下。\n\n### 预处理工具环境搭建\n如果您需要预处理工具，请执行：\n```bash\npip install -r requirements\u002Fannotator.txt\n```\n请将 [VACE-Annotators](https:\u002F\u002Fhuggingface.co\u002Fali-vilab\u002FVACE-Annotators) 下载至 `\u003Crepo-root>\u002Fmodels\u002F` 目录下。\n\n### 本地目录结构建议\n建议将 [VACE-Benchmark](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fali-vilab\u002FVACE-Benchmark) 下载至 `\u003Crepo-root>\u002Fbenchmarks\u002F` 目录下，作为 `run_vace_xxx.sh` 中的示例数据。\n\n我们推荐的本地目录结构如下：\n```angular2html\nVACE\n├── ...\n├── benchmarks\n│   └── VACE-Benchmark\n│       └── assets\n│           └── examples\n│               ├── animate_anything\n│               │   └── ...\n│               └── ...\n├── models\n│   ├── VACE-Annotators\n│   │   └── ...\n│   ├── VACE-LTX-Video-0.9\n│   │   └── ...\n│   └── VACE-Wan2.1-1.3B-Preview\n│       └── ...\n└── ...\n```\n\n## 🚀 使用方法\n在 VACE 中，用户可以输入 **文本提示**，并可选地提供 **视频**、**掩码** 和 **图像**，以进行视频生成或编辑。\n有关 VACE 的详细使用说明，请参阅 [用户指南](.\u002FUserGuide.md)。\n\n### 推理 CIL\n#### 1) 端到端运行\n若想简单运行 VACE 而无需深入任何实现细节，我们建议使用端到端流程。例如：\n```bash\n# 运行 V2V 深度估计\npython vace\u002Fvace_pipeline.py --base wan --task depth --video assets\u002Fvideos\u002Ftest.mp4 --prompt 'xxx'\n\n# 通过提供边界框运行 MV2V 图像修复\npython vace\u002Fvace_pipeline.py --base wan --task inpainting --mode bbox --bbox 50,50,550,700 --video assets\u002Fvideos\u002Ftest.mp4 --prompt 'xxx'\n```\n该脚本将依次运行视频预处理和模型推理，\n您需要指定所有必要的预处理参数（`--task`、`--mode`、`--bbox`、`--video` 等）以及推理参数（`--prompt` 等）。输出视频连同中间视频、掩码和图像默认会保存到 `.\u002Fresults\u002F` 目录下。\n\n> 💡**注意**：\n> 请参考 [run_vace_pipeline.sh](.\u002Frun_vace_pipeline.sh) 以获取不同任务流程的使用示例。\n\n\n#### 2) 预处理\n为了更灵活地控制输入，在进行 VACE 模型推理之前，用户输入需要先被预处理为 `src_video`、`src_mask` 和 `src_ref_images`。 \n我们为每个 [预处理器](.\u002Fvace\u002Fconfigs\u002F__init__.py) 分配了一个任务名称，因此只需调用 [`vace_preprocess.py`](.\u002Fvace\u002Fvace_preproccess.py)，并指定任务名称和任务参数即可。例如：\n```angular2html\n# 处理视频深度估计\npython vace\u002Fvace_preproccess.py --task depth --video assets\u002Fvideos\u002Ftest.mp4\n\n# 通过提供边界框处理视频图像修复\npython vace\u002Fvace_preproccess.py --task inpainting --mode bbox --bbox 50,50,550,700 --video assets\u002Fvideos\u002Ftest.mp4\n```\n输出文件默认会保存到 `.\u002Fprocessed\u002F` 目录下。\n\n> 💡**注意**：\n> 请参考 [run_vace_pipeline.sh](.\u002Frun_vace_pipeline.sh) 中针对不同任务的预处理方法。此外，可参阅 [vace\u002Fconfigs\u002F](.\u002Fvace\u002Fconfigs\u002F) 获取所有预定义的任务及其所需参数。您也可以通过在 [`annotators`](.\u002Fvace\u002Fannotators\u002F__init__.py) 中实现自定义预处理器，并将其注册到 [`configs`](.\u002Fvace\u002Fconfigs) 中。\n\n\n#### 3) 模型推理\n利用从 **预处理** 步骤中获得的输入数据，模型推理过程可以按如下方式进行：\n```bash\n# 对于 Wan2.1 单 GPU 推理 (1.3B-480P)\npython vace\u002Fvace_wan_inference.py --ckpt_dir \u003C模型路径> --src_video \u003C源视频路径> --src_mask \u003C源掩码路径> --src_ref_images \u003C源参考图像路径> --prompt \"xxx\"\n\n# 对于 Wan2.1 多 GPU 加速推理 (1.3B-480P)\npip install \"xfuser>=0.4.1\"\ntorchrun --nproc_per_node=8 vace\u002Fvace_wan_inference.py --dit_fsdp --t5_fsdp --ulysses_size 1 --ring_size 8 --ckpt_dir \u003C模型路径> --src_video \u003C源视频路径> --src_mask \u003C源掩码路径> --src_ref_images \u003C源参考图像路径> --prompt \"xxx\"\n\n# 对于 Wan2.1 多 GPU 加速推理 (14B-720P)\ntorchrun --nproc_per_node=8 vace\u002Fvace_wan_inference.py --dit_fsdp --t5_fsdp --ulysses_size 8 --ring_size 1 --size 720p --model_name 'vace-14B' --ckpt_dir \u003C模型路径> --src_video \u003C源视频路径> --src_mask \u003C源掩码路径> --src_ref_images \u003C源参考图像路径> --prompt \"xxx\"\n\n# 对于 LTX 推理，运行\npython vace\u002Fvace_ltx_inference.py --ckpt_path \u003C模型路径> --text_encoder_path \u003C模型路径> --src_video \u003C源视频路径> --src_mask \u003C源掩码路径> --src_ref_images \u003C源参考图像路径> --prompt \"xxx\"\n```\n输出视频连同中间视频、掩码和图像默认会保存到 `.\u002Fresults\u002F` 目录下。\n\n> 💡**注意**： \n> (1) 请参考 [vace\u002Fvace_wan_inference.py](.\u002Fvace\u002Fvace_wan_inference.py) 和 [vace\u002Fvace_ltx_inference.py](.\u002Fvace\u002Fvace_ltx_inference.py) 以了解推理参数。\n> (2) 对于 LTX-Video 和英语语言的 Wan2.1 用户，需要使用提示扩展才能充分发挥模型性能。请遵循 [Wan2.1 的说明](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1?tab=readme-ov-file#2-using-prompt-extension)，并在运行推理时设置 `--use_prompt_extend`。\n> (3) 在编辑任务中进行提示扩展时，务必注意纯文本扩展后的内容。由于输入的视觉信息未知，扩展后的输出可能与待编辑视频不匹配，从而影响最终效果。\n\n### Gradio 推理\n对于预处理器，运行以下命令：\n```bash\npython vace\u002Fgradios\u002Fvace_preprocess_demo.py\n```\n对于模型推理，运行：\n```bash\n# 对于 Wan2.1 的 Gradio 推理\npython vace\u002Fgradios\u002Fvace_wan_demo.py\n\n# 对于 LTX 的 Gradio 推理\npython vace\u002Fgradios\u002Fvace_ltx_demo.py\n```\n\n## 致谢\n\n我们衷心感谢以下优秀项目，包括 [Scepter](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fscepter)、[Wan](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) 和 [LTX-Video](https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video)。此外，我们还要向所有社区创作者致以最深切的谢意。正是他们积极的探索、实验和无限的创造力，为本项目带来了巨大的灵感，促使基于此涌现出更加完善的流程和令人惊叹的视频生成内容。这其中包括但不限于：[Kijai 的工作流](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper)、对 [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI) 和 [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) 的原生代码支持、关键的模型量化支持、多样化的 LoRA 适配器生态，以及社区成员不断演进的创新工作流。\n\n\n## BibTeX\n\n```bibtex\n@inproceedings{vace,\n    title = {VACE: 全功能视频创作与编辑},\n    author = {Jiang, Zeyinzi 和 Han, Zhen 和 Mao, Chaojie 和 Zhang, Jingfeng 和 Pan, Yulin 和 Liu, Yu},\n    booktitle = {IEEE\u002FCVF 国际计算机视觉会议论文集},\n    pages = {17191-17202},\n    year = {2025}\n}","# VACE 快速上手指南\n\nVACE 是一款全能型视频创作与编辑模型（ICCV 2025），支持参考图生成视频 (R2V)、视频转视频编辑 (V2V) 及掩码视频编辑 (MV2V)。本指南将帮助您快速在本地部署并运行该工具。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐)\n*   **Python**: 3.10.13\n*   **CUDA**: 12.4\n*   **PyTorch**: >= 2.5.1\n*   **显存要求**:\n    *   运行 1.3B 模型：建议单卡显存 >= 16GB (多卡可加速)\n    *   运行 14B 模型：建议多卡并行 (如 8x A100\u002FA800)\n\n## 安装步骤\n\n### 1. 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE.git && cd VACE\n```\n\n### 2. 安装基础依赖\n首先安装指定版本的 PyTorch（针对 CUDA 12.4），然后安装项目依赖：\n```bash\npip install torch==2.5.1 torchvision==0.20.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124\npip install -r requirements.txt\n```\n\n### 3. 安装特定模型后端\n根据您想要使用的基座模型，选择以下**其中一种**进行安装：\n\n*   **方案 A：使用 Wan2.1 系列模型 (推荐)**\n    ```bash\n    pip install wan@git+https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1\n    ```\n\n*   **方案 B：使用 LTX-Video 系列模型**\n    > 注意：LTX-Video 依赖可能与 Wan2.1 冲突，请勿同时安装。\n    ```bash\n    pip install ltx-video@git+https:\u002F\u002Fgithub.com\u002FLightricks\u002FLTX-Video@ltx-video-0.9.1 sentencepiece --no-deps\n    ```\n\n### 4. 下载模型权重\n请将下载的模型文件放置于 `\u003Crepo-root>\u002Fmodels\u002F` 目录下。您可以从 **ModelScope (魔搭社区)** 或 HuggingFace 下载。\n\n**推荐国内用户使用 ModelScope 下载：**\n\n*   **VACE-Wan2.1-1.3B-Preview**: [ModelScope 下载地址](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002FVACE-Wan2.1-1.3B-Preview)\n*   **Wan2.1-VACE-14B**: [ModelScope 下载地址](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FWan-AI\u002FWan2.1-VACE-14B)\n*   **预处理工具 (VACE-Annotators)**: [ModelScope 下载地址](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fiic\u002FVACE-Annotators) (如需使用预处理功能)\n\n目录结构建议如下：\n```text\nVACE\n├── models\n│   ├── VACE-Annotators\n│   ├── VACE-Wan2.1-1.3B-Preview\n│   └── ...\n└── ...\n```\n\n## 基本使用\n\nVACE 支持端到端一键运行，自动完成视频预处理和模型推理。以下以 **Wan2.1** 基座为例。\n\n### 场景一：视频深度编辑 (Video-to-Video Depth)\n将输入视频转换为深度图风格，并根据提示词生成新视频。\n\n```bash\npython vace\u002Fvace_pipeline.py --base wan --task depth --video assets\u002Fvideos\u002Ftest.mp4 --prompt 'a cyberpunk city with neon lights'\n```\n\n### 场景二：视频局部重绘 (Inpainting via Bounding Box)\n通过指定边界框 (bbox) 对视频特定区域进行重绘。\n*格式：`--bbox x_min,y_min,x_max,y_max`*\n\n```bash\npython vace\u002Fvace_pipeline.py --base wan --task inpainting --mode bbox --bbox 50,50,550,700 --video assets\u002Fvideos\u002Ftest.mp4 --prompt 'replace the object with a golden statue'\n```\n\n### 输出说明\n运行完成后，生成的视频、中间掩码及参考图像默认保存在 `.\u002Fresults\u002F` 目录中。\n\n### 进阶：启动 Web UI (Gradio)\n如果您更喜欢图形化界面操作，可以运行以下命令启动 Demo：\n\n```bash\n# 启动 Wan2.1 版本的 Web 界面\npython vace\u002Fgradios\u002Fvace_wan_demo.py\n```\n启动后在浏览器访问显示的本地地址即可上传视频、绘制掩码并生成结果。\n\n> **提示**: 对于英文提示词，为了获得最佳效果，建议在推理命令中添加 `--use_prompt_extend` 参数以启用提示词扩展功能（需遵循 Wan2.1 相关配置）。","某电商营销团队需要在短时间内为新款运动鞋制作一支包含产品替换、背景扩展及动态特效的促销短视频。\n\n### 没有 VACE 时\n- **工具割裂严重**：制作人员需分别在文生视频、视频编辑和局部重绘三个不同软件间切换，数据导入导出耗时且容易出错。\n- **角色一致性难保**：在尝试将模特脚下的普通鞋替换为新款时，往往导致光影不匹配或鞋子在运动中发生形变闪烁。\n- **创意扩展受限**：若想将竖屏素材扩展为横屏广告，传统扩图工具难以保持视频前后帧的运动逻辑连贯，画面边缘常出现撕裂。\n- **迭代成本高昂**：任何微小的修改（如调整鞋子颜色或移动轨迹）都意味着需要重新渲染整个片段，等待时间以小时计。\n\n### 使用 VACE 后\n- **全流程一站式完成**：利用 VACE 的\"All-in-One\"特性，团队在一个模型中即可串联完成参考生成、视频编辑和掩码修复，工作流无缝衔接。\n- **精准可控的物体替换**：通过\"Swap-Anything\"功能，仅需上传新款鞋图片作为参考，VACE 便能完美将其融入原视频，确保运动过程中的光影与透视自然统一。\n- **智能画面扩展**：调用\"Expand-Anything\"能力，轻松将竖屏视频无损扩展为横屏，自动补全的背景不仅清晰且符合原视频的运动趋势。\n- **高效实时迭代**：修改指令后，VACE 能快速生成新结果，让创作者能在几分钟内尝试多种配色方案和动态效果，大幅缩短决策周期。\n\nVACE 通过统一视频创作与编辑的核心能力，将原本繁琐的多工具协作转化为流畅的单模型交互，极大提升了视频内容的生产效率和创意自由度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fali-vilab_VACE_9709a5a6.jpg","ali-vilab","Alibaba TongYi Vision Intelligence Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fali-vilab_c2d93ee0.png",null,"https:\u002F\u002Fgithub.com\u002Fali-vilab",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",94.8,{"name":87,"color":88,"percentage":89},"Shell","#89e051",5.2,3724,253,"2026-04-12T07:25:31","Apache-2.0","未说明","必需 NVIDIA GPU。单卡推理支持 1.3B 模型；多卡加速（8 卡）支持 1.3B (480P) 和 14B (720P) 模型。需安装 CUDA 12.4 环境。",{"notes":97,"python":98,"dependencies":99},"1. 代码库在 Python 3.10.13、CUDA 12.4 和 PyTorch >= 2.5.1 环境下测试通过。\n2. 提供两种基础模型选择：基于 Wan2.1 的模型（1.3B\u002F14B）和基于 LTX-Video-0.9 的模型，两者依赖可能存在冲突，需按需安装。\n3. 支持多 GPU 并行加速推理，需安装 'xfuser' 库并使用 torchrun 启动，针对 14B 大模型推荐使用 8 卡环境。\n4. 使用前需手动下载主模型文件及预处理器模型（VACE-Annotators）至指定目录。\n5. 对于英文提示词或 LTX-Video 模型，建议启用提示词扩展功能（--use_prompt_extend）以获得最佳效果。","3.10.13",[100,101,102,103,104,105],"torch>=2.5.1","torchvision>=0.20.1","wan (Wan2.1)","ltx-video (LTX-Video-0.9)","sentencepiece","xfuser>=0.4.1",[16],[108,109],"video-editing","video-generation","2026-03-27T02:49:30.150509","2026-04-13T00:22:10.189385",[113,118,123,128,133,138,143],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},31152,"R2V（参考图到视频）和 I2V（图像到视频）在处理输入图像时有什么本质区别？","两者在潜在编码（Latent Encode）和解码（Decode）上有明显区别：\n1. I2V 中的图像被视为视频的一部分，由 VAE 作为整个视频序列统一进行编码和解码。\n2. R2V 中的图像不被视为视频的一部分，而是由 VAE 独立进行编码和解码。\n这种处理方式的差异解释了它们在生成逻辑上的不同。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F10",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},31153,"如何在 Gradio Demo 中正确使用草图（Scribble）驱动参考图像生成视频？","要在 Gradio 中实现草图驱动参考图，不能简单地将草图放入 src_video 而将参考图放入 src_ref_image_1。正确的做法是借鉴 'firstframe' 示例：\n1. 将你的参考图像嵌入到源视频（src_video）的第一帧中。\n2. 源视频的后续帧使用空白灰色固体填充，供模型填补。\n3. 同时需要配合使用视频掩码（video mask）。\n通过这种方式，模型才能正确识别并利用第一帧作为参考，后续帧根据草图动作生成。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F21",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},31154,"VACE 训练时是否冻结了基座模型（如 Wan-1.3B）的参数？能否在 VACE 上加载或微调 LoRA？","是的，VACE 在训练时冻结了基座模型（如 Wan-1.3B）的参数，仅更新额外的 VACE 模块参数。\n关于 LoRA：\n1. 目前直接在 VACE 代码中加载或训练 LoRA 存在困难，官方尚未提供适配方案。\n2. 如果将原本在 T2V 模型上训练的 LoRA 加载到 VACE 的基座模型上，效果可能不如在原 T2V 模型上好，这是因为作为 Adapter 的 VACE 模块可能与 LoRA 模块产生冲突。\n3. 由于 VACE 是在原始 T2V 基础上训练的，但增加了编辑功能，直接复用 T2V 的 LoRA 可能需要进一步调试或等待官方支持。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F84",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},31155,"Wan-T2V-14B 的预训练权重、推理代码和训练代码会开源吗？","官方已宣布发布 VACE-Preview 版本。用户可以前往 HuggingFace (https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fali-vilab\u002Fvace-67eca186ff3e3564726aff38) 或 ModelScope (https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FVACE-8fa5fcfd386e43) 下载并体验预览版。关于完整的 14B 版本及训练代码的具体开源时间表，建议关注官方仓库的最新动态和反馈征集。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F12",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},31156,"在使用 LTX-Video 基座模型复现 VACE 训练时，出现人脸颜色异常或姿态不准确的问题该如何解决？","这可能是由于实验性设置或数据集规模不足导致的。建议如下：\n1. 确认训练集规模是否足够大，如果数据量较小，尝试继续训练观察效果。\n2. 注意 LTX-Video 版本的 VACE 目前属于实验性质，其速度很快但在质量上可能不如 Wan 1.3B 模型稳定。\n3. 检查 VAE 压缩率是否过高导致细节丢失，可尝试调整相关参数。\n4. 确保上下文适配器（Context-Adapter）正确使用了首帧参考和后续帧的关键点。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F83",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},31157,"ComfyUI 是否已经原生支持 VACE？如何使用？","是的，ComfyUI 官方已经提供了对 VACE 的原生支持（参见 PR #7711）。用户可以直接在 ComfyUI 中使用 VACE 节点。具体的可用工作流（Workflow）可以参考社区分享的基于 WanVaceToVideo 的配置，或者等待官方提供更详细的示例文件。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F46",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},31158,"用户对 VACE-Wan2.1-1.3B-Preview 版本有哪些主要的功能改进期待？","根据社区反馈，用户最期待的功能改进包括：\n1. 支持竖屏模式（Portrait mode）或其他自定义宽高比。\n2. 支持更长时长或任意时长的视频到视频（Video-to-Video）生成。\n3. 支持 30fps 的输出帧率。\n这些需求已被收录，可能会在最终的 14B 版本中得到改善。","https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\u002Fissues\u002F27",[]]