Phantom
Phantom 是由字节跳动智能创作团队推出的开源视频生成框架,专注于解决 AI 视频中“主角不一致”的难题。在传统文生视频或图生视频模型中,角色往往在镜头切换或动作变化时发生变形或身份丢失,而 Phantom 通过创新的跨模态对齐技术,确保生成的视频能够严格保持参考图像中主体(无论是单人还是多人)的身份特征和外观一致性。
该工具的核心亮点在于重新设计了文本与图像的联合注入机制,利用文本 - 图像 - 视频三元组数据进行训练,实现了高精度的身份保留(ID-Preserving)。它不仅支持基于单张或多张参考图生成连贯视频,还特别优化了人物生成的自然度。目前,Phantom 已适配 Wan2.1 架构并发布了 1.3B 及 14B 版本模型,提供了完整的推理代码和权重,甚至支持在 ComfyUI 中便捷使用。
Phantom 非常适合 AI 研究人员探索视频生成中的身份一致性算法,也适合开发者将其集成到工作流中构建应用。对于数字内容创作者和设计师而言,它是一个强大的辅助工具,能帮助制作角色稳定、剧情连贯的短视频素材,无需具备深厚的深度学习背景即可通过现有接口体验其强大能力。
使用场景
某独立游戏开发团队正在制作一款复古风格的叙事冒险游戏,需要为游戏中的关键 NPC 生成大量保持角色特征一致的动作短片,以丰富剧情演出。
没有 Phantom 时
- 角色面目全非:生成的视频帧之间角色长相频繁变化,上一秒是主角,下一秒就变成了陌生人,完全无法用于正式剧情。
- 多角色同框失效:当提示词中包含两个角色互动时,模型往往只能保住一个角色的特征,另一个角色会严重变形或融合。
- 人工修图成本极高:美术人员不得不逐帧手动修复崩坏的面部特征,或使用复杂的后期软件进行跟踪替换,耗时数天才能完成几秒素材。
- 动作与形象割裂:为了强行保持角色一致,只能牺牲动作的流畅度,导致生成的视频动作僵硬,缺乏叙事所需的自然感。
使用 Phantom 后
- 跨模态特征锁定:利用 Phantom 的跨模态对齐技术,仅凭一张角色设定图,即可生成全程面部特征高度一致的动态视频,彻底解决“变脸”问题。
- 多主体精准控制:在生成双人对话或打斗场景时,Phantom 能同时锁定多个参考主体的 ID 特征,确保互动双方始终清晰可辨。
- 工作流大幅提速:开发者只需输入文本指令和参考图,几分钟内即可产出可用素材,将原本数天的后期修图工作缩短至即时生成。
- 动态表现力增强:在保证角色一致性的前提下,Phantom 依然能生成符合物理规律的自然动作,让 NPC 的微表情和肢体语言更加生动传神。
Phantom 通过突破性的跨模态对齐能力,将高保真角色一致性视频生成的门槛从“专业后期团队”降低到了“单人开发者”级别。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 单卡推理支持 Phantom-Wan-1.3B
- 多卡推理(Phantom-Wan-14B)示例使用 8 张 GPU (FSDP + xDiT)
- 具体显存需求未说明,但运行 14B 模型及高分辨率生成通常建议 24GB+ 显存
未说明

快速开始
Phantom:通过跨模态对齐实现主体一致性视频生成
Phantom:通过跨模态对齐实现主体一致性视频生成
刘立杰 * , 马天翔 * , 李炳川 * †, 陈卓伟 * , 刘嘉伟, 李根, 周思宇, 何茜, 吴兴龙
* 同等贡献, † 项目负责人
字节跳动智能创作团队
🔥 最新消息!
- 2025年9月10日:🔥 HuMo 来了!我们发布了一款以人为本的视频生成模型,支持文本、参考图像和音频等多种输入方式。HuMo 具有强大的文本指令遵循能力、稳定的主体保持以及同步的音频驱动动作。该模型已开源,欢迎大家使用!
- 2025年6月26日:🎉 恭喜!Phantom 已被 ICCV 2025 接收!
- 2025年6月24日:📊 我们发布了 Phantom-Data,这是首个通用的大规模跨配对数据集,提出了一种用于主体一致性视频生成任务的核心跨配对数据构建方法。
- 2025年5月27日:🎉 我们发布了 Phantom-Wan-14B 模型,这是一款更强大的主体到视频生成模型。
- 2025年4月23日:😊 感谢 ComfyUI-WanVideoWrapper 将 ComfyUI 适配至 Phantom-Wan-1.3B(5月27日,14B 模型也已完成适配)。欢迎大家使用!
- 2025年4月21日:👋 Phantom-Wan 即将到来!我们将 Phantom 框架适配到了 Wan2.1 视频生成模型中。推理代码和检查点现已发布。
- 2025年4月10日:我们更新了 Phantom 论文的完整版本,其中包含了对模型架构和数据流水线更为详细的描述。
- 2025年2月16日:我们提出了一种新颖的主体一致性视频生成模型——Phantom,并公开发布了报告。更多视频演示请访问项目页面。
📑 待办事项
- Phantom-Wan-1.3B 的推理代码和检查点
- Phantom-Wan-14B 的检查点
- Phantom-Wan-14B Pro 的检查点
- 开源 Phantom-Data 数据集
- Phantom-Wan 的训练代码
📖 概述
Phantom 是一个基于现有文本到视频和图像到视频架构构建的统一视频生成框架,适用于单主体和多主体参考场景。它通过重新设计联合文本-图像注入模型,利用文本-图像-视频三元组数据实现跨模态对齐。此外,它在人像生成中强调主体一致性,同时提升了身份保留型视频生成的效果。
⚡️ 快速入门
安装
克隆仓库:
git clone https://github.com/Phantom-video/Phantom.git
cd Phantom
安装依赖:
# 确保 torch >= 2.4.0
pip install -r requirements.txt
模型下载
| 模型 | 下载链接 | 备注 |
|---|---|---|
| Phantom-Wan-1.3B | 🤗 Huggingface | 支持 480P 和 720P |
| Phantom-Wan-14B | 🤗 Huggingface | 支持 480P 和 720P |
首先需要下载 Wan2.1 的 1.3B 原始模型,因为我们的 Phantom-Wan 模型依赖于 Wan2.1 的 VAE 和文本编码器模型。使用 huggingface-cli 下载 Wan2.1-1.3B:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
然后下载 Phantom-Wan-1.3B 和 Phantom-Wan-14B 模型:
huggingface-cli download bytedance-research/Phantom --local-dir ./Phantom-Wan-Models
或者,您也可以手动下载所需模型,并将其放置在 Phantom-Wan-Models 文件夹中。
运行主体到视频生成
Phantom-Wan-1.3B
- 单GPU推理
python generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_ckpt ./Phantom-Wan-Models/Phantom-Wan-1.3B.pth --ref_image "https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_86c99e8bc9e4.png,https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_9796a5ded4e6.png" --prompt "暖阳漫过草地,扎着双马尾、头戴绿色蝴蝶结、身穿浅绿色连衣裙的小女孩蹲在盛开的雏菊旁。她身旁一只棕白相间的狗狗吐着舌头,毛茸茸尾巴欢快摇晃。小女孩笑着举起黄红配色、带有蓝色按钮的玩具相机,将和狗狗的欢乐瞬间定格。" --base_seed 42
- 使用FSDP + xDiT USP的多GPU推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_ckpt ./Phantom-Wan-Models/Phantom-Wan-1.3B.pth --ref_image "https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_316664b1f2fd.png,https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_8bde9f1bd08c.png" --dit_fsdp --t5_fsdp --ulysses_size 4 --ring_size 2 --prompt "夕阳下,一位有着小麦色肌肤、留着乌黑长发的女人穿上有着大朵立体花朵装饰、肩袖处带有飘逸纱带的红色纱裙,漫步在金色的海滩上,海风轻拂她的长发,画面唯美动人。" --base_seed 42
💡注意:
- 更改
--ref_image可以实现单参考主体到视频生成或多参考主体到视频生成。参考图片的数量应不超过4张。- 为了获得最佳生成效果,建议在编写
--prompt时尽可能准确地描述参考图片的视觉内容。例如,“https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_86c99e8bc9e4.png”可以描述为“一个黄红相间、带有蓝色按钮的玩具相机”。- 当生成的视频不理想时,最直接的解决方法是尝试更改
--base_seed并修改--prompt中的描述。
更多推理示例,请参阅“infer.sh”。您将得到以下生成结果:
| 参考图片 | 生成视频(480P) |
|---|---|
|
|
|
|
|
|
|
|
Phantom-Wan-14B
- 单GPU推理
python generate.py --task s2v-14B --size 832*480 --frame_num 121 --sample_fps 24 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_ckpt ./Phantom-Wan-Models --ref_image "https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_a0a85c5e1127.png,https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_de825ecbb687.png" --prompt "扎着双丸子头,身着红黑配色并带有火焰纹饰服饰,颈戴金项圈、臂缠金护腕的哪吒,和有着一头淡蓝色头发,额间有蓝色印记,身着一袭白色长袍的敖丙,并肩坐在教室的座位上,他们专注地讨论着书本内容。背景为柔和的灯光和窗外微风拂过的树叶,营造出安静又充满活力的学习氛围。"
- 使用FSDP + xDiT USP的多GPU推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 832*480 --frame_num 121 --sample_fps 24 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_ckpt ./Phantom-Wan-Models --ref_image "https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_7f859ebddbd3.png,https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_158618635290.png,https://oss.gittoolsai.com/images/Phantom-video_Phantom_readme_feb8de187b11.png" --dit_fsdp --t5_fsdp --ulysses_size 8 --ring_size 1 --prompt "一位戴着黄色帽子、身穿黄色上衣配棕色背带的卡通老爷爷,在装饰有粉色和蓝色桌椅、悬挂着彩色吊灯且摆满彩色圆球装饰的清新卡通风格咖啡馆里,端起一只蓝色且冒着热气的咖啡杯,画面风格卡通、清新。"
💡注意:
- 目前发布的Phantom-Wan-14B模型是在480P数据上训练的,但也可以用于生成720P及更高分辨率的视频,尽管效果可能不太稳定。我们计划在未来发布一个在720P数据上进一步训练的版本。
- Phantom-Wan-14B模型是在24fps数据上训练的,但它也可以生成16fps的视频,类似于原版的Wan2.1。不过,画质可能会略有下降。
- 建议生成横屏视频,因为相比竖屏视频,横屏视频通常能产生更稳定的效果。
更多推理示例,请参阅“infer.sh”。您将得到以下生成结果:
| 参考图片 | 生成视频(720P) |
|---|---|
|
|
|
|
|
|
GIF视频已压缩。
致谢
我们谨向 SEED 团队表示诚挚的感谢,感谢他们的支持。特别感谢 Lu Jiang、Haoyuan Guo、Zhibei Ma 和 Sen Wang 在模型和数据方面提供的帮助。此外,我们也非常感激 Siying Chen、Qingyang Li 和 Wei Han 在评估工作中的协助。
⭐ 引用
如果 Phantom 对您有所帮助,请为本仓库点赞(⭐)。
如果您认为本项目对您的研究有帮助,请考虑引用我们的论文:paper。
BibTeX
@article{liu2025phantom,
title={Phantom: 基于跨模态对齐的主体一致性视频生成},
author={Liu, Lijie and Ma, Tianxiang and Li, Bingchuan and Chen, Zhuowei and Liu, Jiawei and Li, Gen and Zhou, Siyu and He, Qian and Wu, Xinglong},
journal={arXiv 预印本 arXiv:2502.11079},
year={2025}
}
📧 联系方式
如果您对本开源项目有任何意见或疑问,请新建一个 issue,或联系 Tianxiang Ma。
相似工具推荐
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
MoneyPrinterTurbo
MoneyPrinterTurbo 是一款利用 AI 大模型技术,帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词,它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程,最终输出完整的竖屏或横屏短视频。 这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者,还是希望尝试视频生成的普通用户,无需具备专业的剪辑技能或昂贵的硬件配置(普通电脑即可运行),都能轻松上手。同时,其清晰的 MVC 架构和对多种主流大模型(如 DeepSeek、Moonshot、通义千问等)的广泛支持,也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成,允许用户精细调整字幕样式和画面比例,还特别优化了国内网络环境下的模型接入方案,让用户无需依赖 VPN 即可使用高性能国产大模型。此外,工具提供批量生成模式,可一次性产出多个版本供用户择优,极大地提升了内容创作的效率与质量。
oh-my-openagent
oh-my-openagent(简称 omo)是一款强大的开源智能体编排框架,前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒,解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案,omo 倡导开放市场理念,支持灵活调度多种主流大模型:利用 Claude、Kimi 或 GLM 进行任务编排,调用 GPT 处理复杂推理,借助 Minimax 提升响应速度,或发挥 Gemini 的创意优势。 这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口,用户可以轻松组合不同模型的长处,构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构,让用户不再受制于某一家公司的策略变动或定价调整,真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手,还是开发多步骤任务处理流程,oh-my-openagent 都能提供灵活且稳健的基础设施支持,助力用户在快速演进的 AI 生态中保持技术主动权。
tabby
Tabby 是一款可私有化部署的开源 AI 编程助手,旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题,让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。 这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构,以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构,无需配置复杂的数据库或依赖云服务即可快速启动。同时,它对硬件十分友好,支持在普通的消费级 GPU 上流畅运行,大幅降低了部署门槛。此外,Tabby 提供了标准的 OpenAPI 接口,能轻松集成到现有的云 IDE 或内部开发流程中,并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答,Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。
generative-models
Generative Models 是 Stability AI 推出的开源项目,核心亮点在于最新发布的 Stable Video 4D 2.0(SV4D 2.0)。这是一个先进的视频转 4D 扩散模型,旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况,且生成的动态细节容易模糊,而 SV4D 2.0 通过改进的架构,显著提升了运动中的画面锐度与时空一致性,无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。 该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者,它提供了探索 4D 生成前沿的完整代码与训练权重;对于开发者,其支持自动回归生成长视频及低显存优化选项,便于集成与调试;对于设计师,它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面,SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角(或 5 帧对应 8 视角),分辨率达 576x576,并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频,