SEINE
SEINE 是一款专为视频生成设计的开源扩散模型,核心能力在于将静态图片或简短片段转化为流畅的长视频。它主要解决了当前 AI 视频生成中常见的画面不连贯、动作生硬以及难以从单张图片预测后续动态等难题。通过独特的“短至长”(Short-to-Long)建模策略,SEINE 不仅能实现高质量的图生视频(I2V),让静止画面根据文字描述自然动起来,还能在两张给定的关键帧之间生成平滑自然的过渡动画,填补中间缺失的动作细节。
该工具基于稳定的 Stable Diffusion v1.4 架构进行优化,是 Vchitect 视频生成系统的重要组成部分,并已在 ICLR 2024 会议上发表。其技术亮点在于能够理解时间维度上的复杂变化,从而生成更具逻辑性和连贯性的动态内容。
SEINE 非常适合人工智能研究人员探索视频扩散模型的前沿技术,也适合开发者将其集成到多媒体应用或创意工作流中。对于影视后期设计师和数字艺术家而言,它是一个强大的辅助工具,能帮助快速制作动态分镜或补全视频片段。虽然目前主要通过代码命令行运行,需要一定的技术基础,但其开放的源码和详细的文档为社区二次开发提供了便利。
使用场景
某短视频创作团队正在制作一系列“产品变身”广告,需要将静态的产品特写照片转化为动态展示视频,并实现不同场景间的丝滑转场。
没有 SEINE 时
- 动态生成困难:设计师只能手动使用关键帧动画软件逐帧调整,将一张静态产品图变成几秒的流动视频耗时极长,且动作僵硬不自然。
- 转场生硬割裂:在连接两个不同场景(如从室内展台切换到户外使用)时,只能使用简单的淡入淡出或硬切,缺乏中间过渡画面,视觉体验断裂。
- 预测能力缺失:无法根据起始帧和结束帧自动推导中间过程,若想展示产品形态变化,必须拍摄大量实拍素材或制作复杂的 3D 建模动画。
- 试错成本高昂:每次调整运动轨迹或转场节奏都需要重新渲染整个序列,修改一次往往需要数小时,严重拖慢项目迭代速度。
使用 SEINE 后
- 一键图生视频:直接输入产品静态图和文本提示(如“液体缓慢倾倒,慢动作”),SEINE 即可基于扩散模型自动生成高质量、符合物理规律的动态视频。
- 智能生成过渡:只需提供起始和结束两张图片,SEINE 能自动计算并生成中间的自然过渡帧,实现场景间的无缝流转,无需人工绘制中间画。
- 长短视频预测:利用其短至长的视频扩散能力,不仅能生成片段,还能预测后续动作趋势,轻松扩展视频时长,满足长镜头叙事需求。
- 高效迭代优化:通过修改配置文件中的文本提示或掩码,几分钟内即可重新生成多种风格的视频方案,大幅缩短从创意到成片的周期。
SEINE 通过将静态图像智能转化为连贯的动态影像并自动填补场景间隙,彻底重构了视频内容的生成工作流,让创意落地不再受限于繁琐的制作工艺。
运行环境要求
- 未说明
必需(基于 Stable Diffusion 视频扩散模型),具体型号和显存未说明,通常建议 8GB+ 显存
未说明

快速开始
SEINE
本仓库是 SEINE 的官方实现:
SEINE:用于生成式过渡与预测的短时长至长时长视频扩散模型(ICLR 2024)
SEINE 是一种视频扩散模型,也是视频生成系统 Vchitect 的一部分。 您也可以查看我们的文本到视频(T2V)框架 LaVie。
环境搭建
准备环境
conda create -n seine python==3.9.16
conda activate seine
pip install -r requirement.txt
下载我们的模型及 T2I 基础模型
我们的模型基于 Stable Diffusion v1.4,您可以从 Hugging Face 下载 [Stable Diffusion v1-4] 并将其放置在 pretrained 目录下。
接着下载我们的模型检查点(可从 Google Drive 或 Hugging Face 获取),并保存至 pretrained 目录。
此时,在 ./pretrained 目录下应能看到如下文件结构:
├── pretrained
│ ├── seine.pt
│ ├── stable-diffusion-v1-4
│ │ ├── ...
└── └── ├── ...
├── ...
使用方法
I2V 推理
运行以下命令以获得 I2V 结果:
python sample_scripts/with_mask_sample.py --config configs/sample_i2v.yaml
生成的视频将保存在 ./results/i2v 目录中。
更多细节
您可以修改 ./configs/sample_i2v.yaml 来调整生成条件。
例如:
ckpt 用于指定模型检查点。
text_prompt 用于描述视频内容。
input_path 用于指定输入图像的路径。
过渡效果推理
python sample_scripts/with_mask_sample.py --config configs/sample_transition.yaml
生成的视频将保存在 ./results/transition 目录中。
结果展示
I2V 结果
| 输入图像 | 输出视频 |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
过渡效果结果
| 输入图像 | 输出视频 | |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
BibTeX 引用
@inproceedings{chen2023seine,
title={Seine: Short-to-long video diffusion model for generative transition and prediction},
author={Chen, Xinyuan and Wang, Yaohui and Zhang, Lingjun and Zhuang, Shaobin and Ma, Xin and Yu, Jiashuo and Wang, Yali and Lin, Dahua and Qiao, Yu and Liu, Ziwei},
booktitle={ICLR},
year={2023}
}
@article{wang2023lavie,
title={LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models},
author={Wang, Yaohui and Chen, Xinyuan and Ma, Xin and Zhou, Shangchen and Huang, Ziqi and Wang, Yi and Yang, Ceyuan and He, Yinan and Yu, Jiashuo and Yang, Peiqing and others},
journal={IJCV},
year={2024}
}
免责声明
我们对用户生成的内容不承担任何责任。该模型并未经过训练以真实地再现人物或事件,因此使用它来生成此类内容超出了模型的能力范围。严禁利用该模型生成色情、暴力或血腥内容,以及贬低他人或对人类及其环境、文化、宗教等造成伤害的内容。用户需对其行为自行负责。项目贡献者与用户的任何行为均无法律关联,也不承担相应责任。请遵守伦理和法律规范,负责任地使用该生成模型。
联系我们
陈鑫源: chenxinyuan@pjlab.org.cn 王耀辉: wangyaohui@pjlab.org.cn
致谢
本代码基于 LaVie、diffusers 和 Stable Diffusion 构建,感谢所有开源贡献者的付出。
许可证
代码采用 Apache-2.0 许可证,模型权重完全开放用于学术研究,并允许免费商业使用。如需申请商业许可,请联系 vchitect@pjlab.org.cn。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。












