awesome-video-generation

757 39 非常简单 1 次阅读 5天前MIT图像视频

AI 解读由 AI 自动生成，仅供参考

awesome-video-generation 是一个专注于视频生成领域的开源资源汇总库，旨在为研究者和开发者提供一站式的前沿学术导航。面对视频生成技术日新月异、论文层出不穷的现状，它有效解决了信息分散、难以追踪最新进展的痛点。

该资源库系统性地整理了从文本生成视频、图像转视频、个性化视频生成，到视频编辑、音频驱动视频及人物图像动画等多个细分方向的研究成果。其独特亮点在于极强的时效性与结构化分类：不仅按年份（涵盖 2021 至 2026 年预测）和顶级会议（如 CVPR、NeurIPS、ICLR 等）对论文进行精细归档，还及时更新官方代码、模型权重及相关数据集链接。此外，仓库维护者也会同步分享团队在视频一致性编辑等方面的最新突破性工作。

awesome-video-generation 特别适合人工智能研究人员、算法工程师以及高校学生使用。对于希望快速把握领域动态、复现经典算法或寻找创新灵感的从业者而言，这是一个不可或缺的专业知识库，帮助用户高效连接理论与工程实践，加速视频生成技术的探索与应用。

使用场景

某广告公司的 AI 研发小组正紧急为一家运动品牌开发“静态海报转动态短视频”的功能，需要在两周内复现业界最新的视频生成效果以验证商业可行性。

没有 awesome-video-generation 时

文献检索如大海捞针：团队成员需在 arXiv、Google Scholar 等多个平台分散搜索，难以区分哪些是仅停留在理论阶段的论文，哪些已有开源代码可供快速验证。
技术选型盲目低效：面对“图像转视频”、“个性化生成”等细分方向，缺乏系统的分类指引，导致团队在过时的模型上浪费了大量算力资源进行无效尝试。
复现门槛极高：找不到配套的预训练权重或标准测试数据集（如 DAVIS-Edit），研究人员需自行清洗数据并从头训练，项目进度严重滞后。
前沿动态掌握滞后：无法及时获取如 CVPR 2025 或 NeurIPS 2024 等顶会的最新录用论文，导致技术方案可能在上马时已落后于行业半年。

使用 awesome-video-generation 后

一站式资源聚合：直接通过目录定位到"Image-to-Video"或"Human Image Animation"板块，快速获取按年份排序的精选论文及对应的 GitHub 代码链接。
精准锁定可用方案：利用仓库中标注的“已开源代码”和“模型权重”信息，团队迅速锁定了 StableV2V 等成熟模型，将环境搭建时间从数天缩短至数小时。
基准测试开箱即用：直接下载仓库推荐的标准化数据集和评测基准，无需自行构建测试集，确保了实验结果的可比性和权威性。
同步全球最新进展：通过定期更新的顶会论文列表（如 AAAI 2024、ICLR 2025），团队立即引入了最新的形状一致性编辑技术，显著提升了输出视频的稳定性。

awesome-video-generation 将原本需要数周的文献调研与资源整理工作压缩至一天，让研发团队能专注于核心算法的优化与业务落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（awesome-video-generation）是一个视频生成领域的论文和资源汇总列表，本身不是一个可运行的软件工具，因此 README 中未包含具体的操作系统、硬件配置或依赖库要求。列表中提到的具体项目（如 StableV2V, CogVideoX 等）需前往其各自的代码仓库查看运行环境需求。

python未说明

快速开始

视频生成研究合集

本 GitHub 仓库汇总了与视频生成任务相关的论文和资源。

如果您对本仓库有任何建议，欢迎随时新建议题或提交拉取请求。

本 GitHub 仓库的最新动态如下。

🔥 [2025年12月11日] 我们题为《StableV2V：稳定视频到视频编辑中的形状一致性》的论文已被 TCSVT 2025 接收！

🔥 [11月19日] 我们发布了最新论文《StableV2V：稳定视频到视频编辑中的形状一致性》（arXiv 链接），并同步开源了对应的代码、模型权重以及用于测试的基准数据集DAVIS-Edit。欢迎通过链接查看！

点击查看更多信息。

[2025年5月13日] 更新了一个名为人物图像动画的新子任务。所有CVPR 2025论文及参考文献均已更新。
[6月17日] 所有NeurIPS 2023论文及参考文献均已更新。
[4月26日] 新增一个方向：个性化视频生成。
[3月28日] 官方AAAI 2024论文列表已发布！相应地更新了官方 PDF 版本及 BibTeX 参考文献。

待办事项
产品
论文
- 综述论文
- 文本到视频生成
  - 2026年
  - 2025年
  - 2024年
  - 2023年
  - 2022年
  - 2021年
- 图像到视频生成
  - 2024年
  - 2023年
  - 2022年
- 个性化视频生成
  - 2024年
  - 2023年
- 视频编辑
  - 2025年
  - 2024年
  - 2023年
- 音频到视频生成
  - 2024年
  - 2023年
- 人物图像动画
  - 2026年
  - 2025年
  - 2024年
数据集
问答
参考文献
星标历史
微信群

待办事项

最新论文
- 更新 NeurIPS 2025 论文
- 更新 ICCV 2025 论文
- 更新 CVPR 2025 论文
- 更新 ICLR 2025 论文
- 更新 NeurIPS 2024 论文
- 更新 ECCV 2024 论文
- 更新 CVPR 2024 论文
  - 更新 ⚠️ 论文的 PDF 和参考文献
  - 更新参考文献的正式版本
- 更新 AAAI 2024 论文
  - 更新 ⚠️ 论文的 PDF 和参考文献
  - 更新参考文献的正式版本
- 更新 ICLR 2024 论文
- 更新 NeurIPS 2023 论文
已发表论文
- 更新之前的 CVPR 论文
- 更新之前的 ICCV 论文
- 更新之前的 ECCV 论文
- 更新之前的 NeurIPS 论文
- 更新之前的 ICLR 论文
- 更新之前的大会 AAAI 论文
- 更新之前的大会 ACM MM 论文
定期维护预印本 arXiv 论文及遗漏论文

<🎯返回顶部>

产品

名称	机构	年份	研究论文	官网	特色
Sora	OpenAI	2024	链接	链接	-
Lumiere	Google	2024	链接	链接	-
VideoPoet	Google	2023	-	链接	-
W.A.I.T	Google	2023	链接	链接	-
Gen-2	Runaway	2023	-	链接	-
Gen-1	Runaway	2023	-	链接	-
Animate Anyone	Alibaba	2023	链接	链接	-
Outfit Anyone	Alibaba	2023	-	链接	-
Stable Video	StabilityAI	2023	链接	链接	-
Pixeling	HiDream.ai	2023	-	链接	-
DomoAI	DomoAI	2023	-	链接	-
Emu	Meta	2023	链接	链接	-
Genmo	Genmo	2023	-	链接	-
NeverEnds	NeverEnds	2023	-	链接	-
Moonvalley	Moonvalley	2023	-	链接	-
Morph Studio	Morph	2023	-	链接	-
Pika	Pika	2023	-	链接	-
PixelDance	ByteDance	2023	链接	链接	-

<🎯返回顶部>

论文

综述论文

2024年
- arXiv
  - 视频扩散模型：综述 [论文]
2023年
- arXiv
  - 视频扩散模型综述 [论文]

文本到视频生成

2026年
- AAAI
  - 具有双重并行性的分钟级视频 [论文] [项目] [代码]
2025年
- CVPR
  - AIGV-Assessor: 使用多模态大模型对文本到视频生成的感知质量进行基准测试与评估 [论文] [代码]
  - RAPO: 魔鬼藏在提示词里：用于文本到视频生成的检索增强提示优化 [论文] [项目] [代码]
  - ByTheWay: 在无需训练的情况下提升文本到视频生成模型的质量 [论文] [代码]
  - 魔鬼藏在提示词里: 用于文本到视频生成的检索增强提示优化 [论文] [项目] [代码]
  - ConsistID: 基于频率分解的身份保持型文本到视频生成 [论文] [代码] [项目]
  - EIDT-V: 利用扩散轨迹中的交集实现模型无关、零样本、无需训练的文本到视频生成 [论文] [代码] [项目]
  - TransPixeler: 以透明度推动文本到视频生成技术的发展 [论文] [项目] [代码]
  - PhyT2V: 基于物理约束的文本到视频生成中由大语言模型引导的迭代自我精炼 [论文] [代码]
  - InstanceCap: 通过实例感知的结构化描述改进文本到视频生成 [论文] [代码]
  - BlobGEN-Vid: 基于块状视频表示的组合式文本到视频生成 [论文] [项目]
  - LinGen: 向具有线性计算复杂度的高分辨率分钟级文本到视频生成迈进 [论文] [项目]
  - ⚠️ 高质量视频合成的图文模型封装组合
- ICCV
  - 统一视频生成: 通过连续域中的下一组预测实现统一视频生成 [论文]
- NeurIPS
  - 稳定电影计量学: 面向专业视频生成的结构化分类与评估 [论文] [项目]
- ICLR
  - OpenVid-1M: 大规模高质量文本到视频生成数据集 [论文] [项目] [代码] [数据集]
  - CogVideoX: 具有专家级Transformer的文本到视频扩散模型 [论文]
  - 用于高效视频生成建模的金字塔流匹配 [论文] [项目] [代码]
- arXiv
  - 稳定视频无限：通过错误回收实现无限长度视频生成 [论文] [项目] [代码] [视频（YouTube）] [视频（Bilibili）]
  - FEAT: 全维度高效注意力Transformer用于医疗视频生成 [论文] [代码]
2024年
- CVPR
  - Vlogger: 把你的梦想变成vlog [论文] [代码]
  - 让像素起舞: 高动态范围视频生成 [论文] [项目] [演示]
  - VGen: 用于文本到视频生成的分层时空解耦 [论文] [代码] [项目]
  - GenTron: 深入探索用于图像和视频生成的扩散Transformer [论文] [项目]
  - SimDA: 用于高效视频生成的简单扩散适配器 [论文] [代码] [项目]
  - MicroCinema: 一种用于文本到视频生成的分治方法 [论文] [项目] [视频]
  - 生成式渲染: 基于2D扩散模型的可控4D引导视频生成 [论文] [项目]
  - PEEKABOO: 基于掩码扩散的交互式视频生成 [论文] [代码] [项目] [演示]
  - EvalCrafter: 大型视频生成模型的基准测试与评估 [论文] [代码] [项目]
  - 无文本视频扩展文本到视频生成的配方 [论文] [代码] [项目]
  - BIVDiff: 一种无需训练的框架，通过连接图像和视频扩散模型实现通用视频合成 [论文] [项目]
  - 关注时间: 用于文本到视频合成的规模化时空Transformer [论文] [项目]
  - 为任何人动画化: 一致且可控的图像到视频合成，用于角色动画 [论文] [代码] [项目]
  - 运动导演: 文本到视频扩散模型的运动自定义 [论文] [代码]
  - 用于高分辨率视频生成的分层补丁扩散模型 [论文] [项目]
  - DiffPerformer: 扩散式人体视频生成中的一致潜在指导的迭代学习 [论文] [代码]
  - 用于文本到视频生成的网格扩散模型 [论文] [代码] [视频]
- ECCV
  - Emu Video: 通过显式图像条件化分解文本到视频生成 [论文] [项目]
  - W.A.L.T.: 基于扩散模型的真实感视频生成 [论文] [项目]
  - MoVideo: 基于扩散模型的运动感知视频生成 [论文]
  - DrivingDiffusion: 基于潜在扩散模型的布局引导多视角驾驶场景视频生成 [论文] [代码] [项目]
  - MagDiff: 多重对齐扩散用于高保真视频生成和编辑 [论文]
  - HARIVO: 利用文本到图像模型进行视频生成 [论文] [项目]
  - MEVG: 使用文本到视频模型生成多事件视频 [论文] [项目]
- NeurIPS
  - 通过分解编码和条件化提升文本到视频生成中的运动表现 [论文] [代码]
- ICML
  - Video-LaVIT: 统一的视频-语言预训练，采用解耦的视觉-运动标记法 [论文] [项目] [代码]
- ICLR
  - VDT: 基于掩码建模的通用视频扩散Transformer [论文] [代码] [项目]
  - VersVideo: 利用增强的时序扩散模型实现多功能视频生成 [论文]
- AAAI
  - 跟随你的姿势: 使用无姿态视频进行姿势引导的文本到视频生成 [论文] [代码] [项目]
  - E2HQV: 基于事件相机的高质量视频生成，采用理论启发的模型辅助深度学习 [论文]
  - ConditionVideo: 无需训练的条件引导文本到视频生成 [论文] [代码] [项目]
  - F3-修剪: 一种无需训练且通用的修剪策略，旨在实现更快更精细的文本到视频合成 [论文]
- arXiv
  - Lumiere: 一种时空扩散模型用于视频生成 [论文] [项目]
  - Boximator: 为视频合成生成丰富且可控的运动 [论文] [项目] [视频]
  - 带有环形注意力的大规模视频和语言世界模型 [论文] [代码] [项目]
  - Direct-a-Video: 根据用户指令的摄像机移动和物体运动定制视频生成 [论文] [项目]
  - WorldDreamer: 通过预测掩码标记迈向通用视频生成世界模型 [论文] [代码] [项目]
  - MagicVideo-V2: 多阶段高审美价值的视频生成 [论文] [项目]
  - Latte: 用于视频生成的潜在扩散Transformer [论文] [代码] [项目]
  - Mora: 通过多智能体框架实现通用视频生成 [论文] [代码]
  - StreamingT2V: 从文本持续生成连贯、动态且可扩展的长视频 [论文] [代码] [项目] [视频]
  - VIDiff: 基于多模态指令通过扩散模型翻译视频 [论文]
  - StoryDiffusion: 用于长距离图像和视频生成的一致性自注意力 [论文] [代码] [项目] [演示]
  - Ctrl-Adapter: 一个高效且多功能的框架，用于将各种控制适配到任何扩散模型 [论文] [代码] [项目]
  - ControlNeXt: 强大而高效的图像和视频生成控制 [论文] [代码] [项目]
  - FancyVideo: 朝着动态且一致的视频生成迈进，通过跨帧文本指导 [论文] [项目]
  - Factorized-Dreamer: 用有限且低质量的数据训练高质量视频生成器 [论文] [代码]
  - 精细的零样本视频采样 [论文] [项目]
  - 无需训练的链式扩散模型专家网络长视频生成 [论文]
  - ReconX: 用视频扩散模型从稀疏视图重建任何场景 [论文] [代码] [项目] [视频]
  - ConFiner: 无需训练的链式扩散模型专家网络长视频生成 [论文] [代码]
  - 3DTrajMaster: 掌握视频生成中多实体运动的3D轨迹 [论文] [代码] [项目]
  - DiTCtrl: 探索多模态扩散Transformer中的注意力控制，以实现无需调优的多提示长视频生成 [论文] [代码] [项目]
- 其他
  - Sora: 视频生成模型作为世界模拟器 [论文]
2023年
- CVPR
  - 对齐你的潜在空间: 使用潜在扩散模型进行高分辨率视频合成 [论文] [项目] [复现代码]
  - Text2Video-Zero: 文本到图像扩散模型是零样本视频生成器 [论文] [代码] [演示] [项目]
  - 投影潜在空间中的视频概率扩散模型 [论文] [代码]
- ICCV
  - 保留你自己的相关性：视频扩散模型的噪声先验 [论文] [项目]
  - Gen-1: 基于结构和内容引导的视频合成，使用扩散模型 [论文] [项目]
- NeurIPS
  - 视频扩散模型 [论文] [项目]
  - 通过文本引导的视频生成学习通用策略 [论文] [项目] [代码]
  - VideoComposer: 具有运动可控性的组合式视频合成 [论文] [代码] [项目]
- ICLR
  - CogVideo: 基于Transformer的大规模文本到视频生成预训练 [论文] [代码] [演示]
  - Make-A-Video: 无需文本视频数据的文本到视频生成 [论文] [项目] [复现代码]
  - Phenaki: 来自开放领域文本描述的可变长度视频生成 [论文] [复现代码]
- arXiv
  - Control-A-Video: 可控的文本到视频生成，使用扩散模型 [论文] [代码] [演示] [项目]
  - ControlVideo: 无需训练的可控文本到视频生成 [论文] [代码]
  - Imagen Video: 高清视频生成，使用扩散模型 [论文]
  - Latent-Shift: 带有时序偏移的潜在扩散，用于高效文本到视频生成 [论文] [项目]
  - LAVIE: 高品质视频生成，采用级联潜在扩散模型 [论文] [代码] [项目]
  - Show-1: 将像素和潜在扩散模型结合用于文本到视频生成 [论文] [代码] [项目]
  - 稳定视频扩散: 将潜在视频扩散模型扩展到大型数据集 [论文] [代码] [项目]
  - VideoFactory: 在时空扩散中交换注意力以实现文本到视频生成 [论文] [数据集]
  - VideoGen: 一种基于参考的潜在扩散方法，用于高清文本到视频生成 [论文] [代码]
  - InstructVideo: 用人反馈指导视频扩散模型 [论文] [代码] [项目]
  - SEINE: 用于生成转换和预测的短至长视频扩散模型 [论文] [代码] [项目]
  - VideoLCM: 视频潜在一致性模型 [论文]
  - ModelScope文本到视频技术报告 [论文] [代码]
  - LAMP: 学习少量样本视频生成的运动模式 [论文] [代码] [项目]
  - STG: 时空跳过引导，用于增强视频扩散采样 [论文] [代码] [项目]
  - Motion-Zero: 用于扩散式视频生成的零样本移动对象控制框架 [论文] [项目]
  - NOVA: 自回归视频生成，无需向量量化主题 [论文] [代码] [项目]
2022年
- CVPR
  - 给我看什么，告诉我怎么做: 基于多模态条件化的视频合成 [论文] [代码] [数据集]
2021年
- arXiv
  - VideoGPT: 使用VQ-VAE和Transformer进行视频生成 [论文] [代码] [项目]
  - MagicVideo: 使用潜在扩散模型进行高效视频生成 [论文]
  - EasyAnimate: 一种基于Transformer架构的高性能长视频生成方法 [论文] [代码]

图像转视频生成

2025年
- CVPR
  - MotionStone: 基于扩散Transformer的解耦运动强度调制用于图像转视频生成 [论文]
  - MotionPro: 一种用于图像转视频生成的精确运动控制器 [论文] [代码]
  - Through-The-Mask: 基于掩码的运动轨迹用于图像转视频生成 [论文]
  - 图像转视频生成模型的外推与解耦：运动建模比你想象的更容易 [论文]
- ICCV
  - AnyI2V: 带有运动控制的任意条件图像动画化 [论文] [项目] [代码]
  - Versatile Transition Generation: 基于图像转视频扩散的多功能过渡生成 [论文]
  - TIP-I2V: 用于图像转视频生成的百万规模真实文本和图像提示数据集 [论文] [项目] [代码]
- ICLR
  - SG-I2V: 图像转视频生成中的自引导轨迹控制 [论文] [项目] [代码]
  - 生成式中间帧：将图像转视频模型适配用于关键帧插值 [论文]
  - 金字塔流匹配用于高效的视频生成建模 [论文] [项目] [代码]
2024年
- CVPR
  - VideoBooth: 基于扩散的图像提示视频生成 [论文] [代码] [项目] [视频]
- ECCV
  - 重新思考图像转视频适应：以对象为中心的视角 [论文]
  - PhysGen: 基于刚体物理的图像转视频生成 [论文] [代码] [项目]
  - MOFA-Video: 通过冻结图像转视频扩散模型中的生成式运动场适配实现可控图像动画 [论文] [代码] [项目]
- AAAI
  - 为条件图像转视频生成解耦内容与运动 [论文]
- NeurIPS
  - 识别并解决图像转视频扩散模型中的条件图像泄露 [论文] [代码]
- ICML
  - Video-LaVIT: 基于解耦视觉-运动标记的统一视频-语言预训练 [论文] [项目] [代码]
- arXiv
  - ConsistI2V: 提升图像转视频生成的视觉一致性 [论文] [代码] [项目]
  - I2V-Adapter: 一种适用于扩散模型的通用图像转视频适配器 [论文] [代码]
  - Follow-Your-Click: 基于简短提示的开放域区域图像动画 [论文] [代码] [项目]
  - AtomoVideo: 高保真图像转视频生成 [论文] [项目] [视频]
  - Pix2Gif: 基于运动引导的扩散用于GIF生成 [论文] [代码] [项目]
  - ID-Animator: 零样本身份保持的人类视频生成 [论文] [代码] [项目]
  - 无调优的噪声校正用于高保真图像转视频生成 [论文] [项目]
  - MegActor-Σ: 利用扩散Transformer解锁肖像动画中的灵活混合模态控制 [论文] [代码]
  - LeviTor: 基于3D轨迹导向的图像转视频合成 [论文] [代码] [项目] [演示]
2023年
- CVPR
  - 基于潜流扩散模型的条件图像到视频生成 [论文] [代码]
- arXiv
  - I2VGen-XL: 通过级联扩散模型实现高质量图像到视频合成 [论文] [代码] [项目]
  - DreamVideo: 具有图像保留和文本指导的高保真图像到视频生成 [论文] [代码] [项目]
  - DynamiCrafter: 利用视频扩散先验为开放域图像添加动画 [论文] [项目] [代码] [视频] [演示]
  - AnimateDiff: 无需特定微调即可为您的个性化文生图扩散模型添加动画 [论文] [项目]
2022年
- CVPR
  - Make It Move: 基于文本描述的可控图像到视频生成 [论文] [代码]
2021年
- ICCV
  - Click to Move: 使用稀疏运动控制视频生成 [论文] [代码]

<🎯返回顶部>

音频到视频生成

2024年
- AAAI
  - 通过文生视频模型适配实现多样化且对齐的音频到视频生成 [论文] [代码]
2023年
- CVPR
  - MM-Diffusion: 学习用于联合音频和视频生成的多模态扩散模型 [论文] [代码]

<🎯返回顶部>

个性化视频生成

2024年
- CVPR
  - 高保真的人像主体到图像合成 [论文] [代码]
- ICCV
  - - Magic Mirror: 魔法镜：在视频扩散变换器中实现身份保留的视频生成 [论文] [项目] [代码]
  - PersonalVideo: PersonalVideo：在不降低动态性和语义性的情况下进行高身份保真度的视频定制 [论文] [项目] [代码]
  - MagicID: MagicID：用于保持身份一致性和动态性的混合偏好优化视频定制 [论文] [项目] [代码]
  - DreamRelation: 梦境关系：以关系为中心的视频定制 [论文] [项目]
  - ⚠️ PERSONA: PERSONA：基于单张图像，通过姿态驱动变形生成的个性化全身3D虚拟形象
- ECCV
  - PoseCrafter: 一次性实现灵活姿态控制的个性化视频合成 [论文] [项目]
- arXiv
  - Magic-Me: 基于身份特异性的视频定制扩散 [论文] [代码] [项目] [演示]
  - ReVideo: 带有运动和内容控制的视频重制 [论文] [代码] [项目]
  - ConceptMaster: 在扩散变换器模型上进行多概念视频定制，无需测试时微调 [论文] [项目]
2023年
- arXiv
  - FastComposer: 无需微调的局部注意力多主体图像生成 [论文] [代码] [演示]
  - Make-Your-Video: 利用文本和结构引导进行定制化视频生成 [论文] [项目]
  - DreamVideo-2: 零样本主体驱动视频定制，具备精确的运动控制 [论文] [项目]

<🎯返回顶部>

视频编辑

2025年
- CVPR
  - VideoDirector: 基于文本到视频模型的精准视频编辑 [论文] [代码]
  - VideoMage: 文本到视频扩散模型的多主体与运动定制 [论文] [项目]
  - 无需反演的一次性可控视频编辑中的视觉提示 [论文] [项目]
  - SketchVideo: 基于草图的视频生成与编辑 [论文] [代码] [项目]
  - h-Edit: 通过杜布h变换实现高效灵活的扩散基编辑 [论文] [代码] [项目]
  - ObjectMover: 基于视频先验的生成式物体运动 [论文] [项目]
  - MatAnyone: 具有一致内存传播的稳定视频抠像 [论文] [代码] [项目]
  - StyleMaster: 使用艺术化生成与转换为视频风格化 [论文] [代码] [项目]
  - AudCast: 基于级联扩散Transformer的音频驱动人体视频生成 [论文] [项目]
  - ⚠️ FADE: 面向视频编辑的频率感知扩散模型因子分解 [论文] [代码]
  - ⚠️ Align-A-Video: 用于一致视频编辑的图像扩散模型确定性奖励调优
  - ⚠️ 多样中的统一：通过梯度-潜在净化进行视频编辑
- ICCV
  - VACE: 多合一视频创作与编辑 [论文] [项目] [代码]
  - Reangle-A-Video: 作为视频到视频翻译的4D视频生成 [论文] [项目]
  - DIVE: 利用DINO驾驭主体驱动的视频编辑 [论文] [项目]
  - DynamicFace: 使用可组合3D面部先验实现高质量且一致的图像与视频人脸交换 [论文] [项目]
  - QK-Edit: 重新审视基于注意力的注入在MM-DiT中用于图像和视频编辑 [论文]
  - Teleportraits: 无需训练即可将人物插入任何场景 [论文]
- ICLR
  - VideoGrain: 调制时空注意力以实现多粒度视频编辑 [论文] [项目] [代码]
2024年
- CVPR
  - VMC: 基于文本到视频扩散模型的时间注意力适配进行视频运动定制 [论文] [代码] [项目]
  - Fairy: 快速并行化的指令引导视频到视频合成 [论文] [项目]
  - CCEdit: 基于扩散模型的创意且可控视频编辑 [论文] [代码] [项目] [视频]
  - DynVideo-E: 利用动态NeRF进行大规模运动与视角变化的人文中心视频编辑 [论文] [项目] [视频]
  - Video-P2P: 带有交叉注意力控制的视频编辑 [论文] [代码] [项目]
  - 一段视频胜过256个基座：用于零样本视频编辑的空间-时间期望最大化反演 [论文] [代码] [项目]
  - MaskINT: 基于插值非自回归掩码变压器的视频编辑 [论文] [代码] [项目]
  - VidToMe: 用于零样本视频编辑的视频标记合并 [论文] [代码] [项目] [视频]
  - 通过多模态大型语言模型实现语言驱动的视频修复 [论文] [代码] [项目] [数据集]
  - AVID: 基于扩散模型的任意长度视频修复 [论文] [代码] [项目]
  - CAMEL: 专为提升文本驱动视频编辑而设计的因果运动增强 [论文] [代码]
  - 用于零样本文本驱动运动迁移的时空扩散特征 [论文] [代码] [项目]
  - FRESCO: 用于零样本视频翻译的空间-时间对应 [论文] [代码] [项目]
  - MotionEditor: 基于内容感知扩散的视频运动编辑 [论文] [代码] [项目]
- ECCV
  - DragVideo: 交互式的拖拽式视频编辑 [论文]
  - 基于因子化扩散蒸馏的视频编辑 [论文]
  - OCD: 以对象为中心的扩散用于高效视频编辑 [论文] [项目]
  - DreamMotion: 用于零样本视频编辑的时空自相似性评分蒸馏 [论文] [项目]
  - WAVE: 用于零样本文本到视频编辑的扭曲DDIM反演特征 [论文] [项目]
  - DeCo: 带有运动一致性的解耦人文中心扩散视频编辑 [论文]
  - SAVE: 主角多样化与结构无关的视频编辑 [论文] [代码]
  - Videoshop: 基于噪声外推扩散反演的局部语义视频编辑 [论文] [代码] [项目]
- ICLR
  - Ground-A-Video: 使用文本到图像扩散模型进行零样本接地视频编辑 [论文] [代码] [项目]
  - TokenFlow: 用于一致视频编辑的一致扩散特征 [论文] [代码] [项目]
  - 使用合成数据集进行一致的视频到视频转移 [论文] [代码]
  - FLATTEN: 基于光流引导的注意力，用于一致的文本到视频编辑 [论文] [代码] [项目]
- SIGGRAPH
  - MotionCtrl: 用于视频生成的统一且灵活的运动控制器 [论文] [代码] [项目] [演示]
- arXiv
  - 基于扩散模型的视频运动迁移中的光谱运动对齐 [论文] [代码] [项目]
  - UniEdit: 一个统一且无需调优的视频运动和外观编辑框架 [论文] [代码] [项目]
  - DragAnything: 使用实体表示进行任何事物的运动控制 [论文] [代码] [项目]
  - AnyV2V: 一个即插即用的框架，适用于任何视频到视频编辑任务 [论文] [代码] [项目]
  - CoCoCo: 改善文本引导的视频修复，以提高一致性、可控性和兼容性 [论文] [代码] [项目]
  - VASE: 真实视频中以对象为中心的外观和形状操控 [论文]
  - StableV2V: 在视频到视频编辑中稳定形状一致性 [论文] [代码] [项目] [数据集]
  - 用于视频定制的运动反演 [论文] [代码] [演示]
  - VideoAnydoor: 高保真视频对象插入，具有精确的运动控制 [论文] [项目]
2023年
- CVPR
  - 形状感知的文本驱动分层视频编辑 [论文] [代码] [项目]
- ICCV
  - StableVideo 基于分层表示和图像扩散的视频编辑 [论文] [代码]
  - Pix2Video: 基于图像扩散的视频编辑 [论文] [代码]
  - Tune-A-Video: 一次性的图像扩散模型调优，用于文本到视频生成 [论文] [代码] [项目]
- NeurIPS
  - 朝着使用文本到图像扩散模型的一致视频编辑方向前进 [论文]
- SIGGRAPH
  - Rerender A Video: 零样本文本引导的视频到视频翻译 [论文] [代码] [项目]
- arXiv
  - Style-A-Video: 敏捷扩散用于任意基于文本的视频风格转换 [论文]
  - SAVE: 光谱偏移感知的图像扩散模型适应，用于文本引导的视频编辑 [论文] [代码] [项目]
  - MagicProp: 基于扩散的视频编辑，通过运动感知的外观传播 [论文]
2022年
- ECCV
  - Text2LIVE: 文本驱动的分层图像和视频编辑 [论文] [代码] [项目]

<🎯返回顶部>

人物图像动画

2026年
- arXiv
  - Hand2World: 基于自由空间手势的自回归视角交互生成 [论文] [项目]
2025年
- CVPR
  - X-Dyna: 富有表现力的动态人物图像动画 [论文] [代码]
  - StableAnimator: 高质量、保持身份一致的人物图像动画 [论文] [项目] [代码]
- ICCV
  - DreamActor-M1: 具有混合引导的整体性、表现力强且鲁棒的人物图像动画 [论文] [项目]
  - Animate Anyone 2: 具备环境 affordance 的高保真角色图像动画 [论文] [项目] [代码]
  - 多身份人物图像动画: 基于结构化视频扩散的多身份人物图像动画 [论文]
  - OmniHuman-1: 重新思考单阶段条件驱动的人像动画模型的扩展 [论文] [项目]
  - AdaHuman: 可动画化的精细3D人体生成，采用组合式多视角扩散模型 [论文] [项目]
  - Ponimator: 展开交互姿态以实现多样化的人-人交互动画 [论文]
- ICLR
  - Animate-X: 具有增强运动表示的通用角色图像动画 [论文] [项目] [代码]
- arXiv
  - EgoControl：通过3D全身姿态可控的视角视频生成 [论文] [项目] [代码]
  - UniAnimate-DiT: 大规模视频扩散Transformer驱动的人像动画 [论文] [项目] [代码]
  - DreamActor-M1: 具有混合引导的整体性、表现力强且鲁棒的人像动画 [论文] [项目]
  - Animate Anyone 2: 具备环境 affordance 的高保真角色图像动画 [论文] [项目]
2024年
- CVPR
  - MotionFollower: 通过轻量级分数引导扩散编辑视频运动 [论文] [项目] [代码]
  - MotionEditor: 基于内容感知扩散编辑视频运动 [论文] [项目] [代码]
- ICLR
  - DisPose: 解耦姿势引导以实现可控的人像动画 [论文] [项目] [代码]
- arXiv
  - MikuDance: 使用混合运动动力学为角色艺术动画 [论文] [项目] [代码]
  - MimicMotion: 利用区域监督和运动模糊条件实现高质量的人像动画 [论文] [代码] [项目]
  - VividPose: 推进稳定视频扩散技术，用于逼真的人像动画 [论文] [项目] [代码]
  - MIMO: 基于空间分解建模的可控角色视频合成 [论文] [项目] [代码]
  - DynamicCtrl: 重新思考高质量人像动画的基本结构及文本的作用 [论文] [项目] [代码]
  - HumanDiT: 基于姿势引导的扩散Transformer，用于长时序人体运动视频生成 [论文] [项目]
  - 解耦前景与背景运动以提升人像视频生成的真实感: [论文] [项目]
  - DreamDance: 通过丰富从2D姿态中提取的3D几何线索来动画化人像 [论文] [项目] [代码]

<🎯返回顶部>

数据集

[arXiv 2012] UCF101: 一个包含101个动作类别的野外视频数据集 [论文] [数据集]
[arXiv 2017] DAVIS: 2017年视频目标分割挑战赛 [论文] [数据集]
[ICCV 2019] FaceForensics++: 学习检测被篡改的人脸图像 [论文] [代码]
[NeurIPS 2019] TaiChi-HD: 基于第一阶运动模型的图像动画 [论文] [数据集]
[ECCV 2020] SkyTimeLapse: DTVNet：通过单张静态图像生成动态延时视频 [论文] [代码]
[ICCV 2021] WebVid-10M: 冻结时间：用于端到端检索的联合视频和图像编码器 [论文] [数据集] [代码] [项目]
[ICCV 2021] WebVid-10M: 冻结时间：用于端到端检索的联合视频和图像编码器 [论文] [数据集] [项目]
[ECCV 2022] ROS: 通过观看YouTube视频学习驾驶：基于动作条件的对比策略预训练 [论文] [代码] [数据集]
[arXiv 2023] HD-VG-130M: VideoFactory：用于文本到视频生成的时空扩散中的交换注意力 [论文] [数据集]
[NeurIPS 2023] FETV: 一个用于细粒度评估开放域文本到视频生成的基准 [论文] [代码]
[ICLR 2024] InternVid: 一个用于多模态理解和生成的大规模视频-文本数据集 [论文] [数据集]
[CVPR 2024] Panda-70M: 使用多模态教师为7000万段视频添加字幕 [论文] [数据集] [项目]
[arXiv 2024] VidProM: 一个百万级的真实提示图库数据集，用于文本到视频扩散模型 [论文] [数据集]
[CVPR 2025] HOIGen-1M: 一个用于人-物体交互视频生成的大规模数据集 [论文] [数据集]
[CVPR 2025] VEU-Bench: 朝着全面理解视频编辑的方向前进 [论文]

<🎯返回顶部>

评价指标

[CVPR 2025] T2V-CompBench: 一个用于组合式文本到视频生成的综合基准 [论文] [项目] [代码]
[arXiv 2024] Davis-Edit: 在视频到视频编辑中稳定形状一致性 [论文] [项目] [代码]
[CVPR 2024] VBench: 视频生成模型的综合基准测试套件 [论文] [代码]
[ICCV 2023] DOVER: 从美学和技术角度探索用户生成内容的视频质量评估 [论文] [代码]
[ICLR 2019] FVD: 一种新的视频生成指标 [论文] [代码]

问答

问：这篇论文列表的会议顺序是什么？
- 这篇论文列表按照以下顺序排列：
  - CVPR
  - ICCV
  - ECCV
  - NeurIPS
  - ICLR
  - AAAI
  - ACM MM
  - SIGGRAPH
  - arXiv
  - 其他
问：这里的“其他”指的是什么？
- 一些研究（例如“Sora”）并未在arXiv上发表技术报告，而是倾向于在其官方网站上撰写博客文章。“其他”类别指的就是这类研究。

<🎯返回顶部>

参考文献

reference.bib 文件汇总了最新图像修复相关论文、常用数据集和工具库的 BibTeX 格式参考文献。基于原始参考文献，我进行了以下修改，以使它们在 LaTeX 文档中显示得更加美观：

参考文献通常采用 作者-etal-年份-昵称 的形式构建。特别地，数据集和工具库的参考文献直接使用 昵称 构建，例如 imagenet。
在每条参考文献中，所有会议或期刊名称均被转换为缩写，例如 Computer Vision and Pattern Recognition -> CVPR。
移除了所有参考文献中的 url、doi、publisher、organization、editor 和 series 字段。
如果缺少页码 (pages)，则为其添加页码。
所有论文标题均采用首字母大写格式，并额外添加了一对 {}，以确保在某些特定模板中也能正确显示首字母大写。

如果您对参考文献格式有其他需求，可以通过在 DBLP 或 Google Scholar 中搜索论文名称来参考其原始参考文献。

<🎯返回顶部>

点赞历史

<🎯返回顶部>

微信群

<🎯返回顶部>

awesome-video-generation 快速上手指南

awesome-video-generation 是一个汇总视频生成领域论文、开源代码、数据集及相关产品的精选资源库。它本身不是一个单一的可执行软件，而是一个指向各类前沿模型（如 Sora, Stable Video Diffusion, Animate Anyone 等）的导航索引。

本指南将指导你如何利用该资源库找到目标项目，并以其中提到的热门开源项目（如 StableV2V 或通用扩散模型）为例，演示标准的安装与运行流程。

环境准备

在开始之前，请确保你的开发环境满足以下要求，以支持大多数视频生成模型的运行：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS。Windows 用户建议使用 WSL2。
GPU: 推荐使用 NVIDIA GPU，显存至少 16GB（运行高分辨率或长视频生成建议 24GB+）。
CUDA: 版本 11.8 或 12.1+（根据具体模型要求）。
Python: 3.9 - 3.11。
包管理器: pip 或 conda。
Git: 用于克隆仓库。

前置依赖检查：

python --version
nvidia-smi  # 检查 GPU 驱动及 CUDA 版本
git --version

安装步骤

由于该仓库是资源列表，你需要先克隆仓库获取最新论文和代码链接，然后选择具体的子项目进行安装。以下以仓库中重点推荐的 StableV2V (Video-to-Video Editing) 为例进行演示。

1. 克隆资源仓库

首先获取最新的资源列表和更新动态：

git clone https://github.com/AlonzoLeeeooo/awesome-video-generation.git
cd awesome-video-generation

2. 安装具体项目 (以 StableV2V 为例)

根据 README 中的 "Recent news" 或 "Papers" 部分找到目标项目的代码链接。

步骤 A: 克隆项目代码

git clone https://github.com/AlonzoLeeeooo/StableV2V.git
cd StableV2V

步骤 B: 创建虚拟环境并安装依赖 推荐使用 Conda 管理环境，国内用户可使用清华源加速。

# 创建环境
conda create -n stablev2v python=3.10 -y
conda activate stablev2v

# 安装 PyTorch (根据官方文档选择对应 CUDA 版本，此处以 CUDA 11.8 为例，使用清华源)
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装项目依赖
pip install -r requirements.txt

步骤 C: 下载模型权重 该项目权重托管在 Hugging Face。国内访问较慢时，建议使用镜像站或代理。

# 安装 huggingface-cli (如果未安装)
pip install huggingface_hub

# 下载模型权重 (示例命令，具体参照项目 README)
huggingface-cli download AlonzoLeeeooo/StableV2V --local-dir ./weights

基本使用

安装完成后，你可以参考具体项目的脚本进行推理。以下是基于典型视频生成项目的通用使用范式。

1. 准备输入数据

确保你拥有输入视频或图像，并将其放置在项目指定的目录中（例如 inputs/）。

2. 运行推理脚本

大多数项目提供 inference.py 或类似的入口脚本。以下是一个典型的命令行示例：

python inference.py \
    --config configs/stablev2v.yaml \
    --input_path inputs/my_video.mp4 \
    --output_dir outputs \
    --prompt "A cinematic shot of a cat walking in the rain" \
    --seed 42

参数说明：

--config: 模型配置文件路径。
--input_path: 输入视频或图像路径。
--prompt: 文本提示词（针对文生视频或编辑任务）。
--output_dir: 生成结果的保存目录。

3. 查看结果

生成完成后，视频文件通常保存在 outputs 文件夹中。你可以使用任何视频播放器查看结果，或使用 FFmpeg 进行后续处理：

ffplay outputs/result_001.mp4

提示：对于 awesome-video-generation 列表中其他项目（如 Text-to-Video 的 CogVideoX 或 OpenVid），请进入对应项目的 GitHub 页面，遵循其特定的 README.md 中的指令进行操作，流程通常与上述步骤类似。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像