Open-Sora-Plan

12.2k 1.1k 困难 1 次阅读今天MIT视频其他

AI 解读由 AI 自动生成，仅供参考

Open-Sora-Plan 是一个旨在复现 OpenAI Sora 能力的开源视频生成项目，由北大 - 兔展 AIGC 联合实验室发起，并汇聚了华为、鹏城实验室及全球开源社区的力量。它的核心目标是打破顶尖视频生成技术的封闭状态，通过构建简洁可扩展的代码库，让社区能够共同探索文本生成视频（T2V）的前沿技术。

该项目主要解决了高质量视频生成模型训练门槛高、技术不透明的问题。其显著的技术亮点在于对国产硬件的深度适配：当前 V1.5 版本已实现完全基于华为昇腾算力平台的“纯血版”训练，证明了在非英伟达生态下也能进行大模型研发。此外，团队持续快速迭代，不仅推出了基础复现版本，还发布了如 Helios 等突破性成果，实现了在单张 H100 显卡上以每分钟级速度合成高帧率视频，有效缓解了长视频生成中的漂移难题。

Open-Sora-Plan 非常适合 AI 研究人员、算法工程师以及希望深入理解视频生成底层逻辑的开发者使用。对于想要尝试国产化算力训练大模型的团队，它提供了宝贵的实践参考。虽然普通用户暂时难以直接本地部署，但可以通过其提供的在线体验空间感受开源社区在视频生成领域的最新进展。

使用场景

某国产短视频制作团队急需为电商客户生成大量高质量产品宣传视频，但面临高昂的算力成本与技术封锁困境。

没有 Open-Sora-Plan 时

硬件依赖受限：团队仅拥有华为昇腾（Ascend）算力集群，无法运行主流基于 NVIDIA CUDA 生态的视频生成模型，导致大量硬件资源闲置。
闭源模型门槛高：OpenAI Sora 等顶尖模型不对外开放，商业 API 调用费用昂贵且数据隐私难以保障，无法满足定制化需求。
长视频生成困难：现有开源方案在生成长片段视频时容易出现画面漂移、逻辑断裂，难以维持分钟级视频的连贯性。
迭代周期漫长：缺乏可复现的基线代码，算法工程师需从零构建架构，研发周期长达数月，错失市场热点。

使用 Open-Sora-Plan 后

纯血昇腾适配：直接利用 V1.5 版本“昇腾纯血版”特性，团队无需迁移代码即可在现有华为设备上高效训练与推理，算力利用率提升 100%。
开源自由可控：基于 Apache 协议完全开源的架构，让团队能低成本私有化部署，灵活调整提示词工程以契合特定电商场景。
长视频质量突破：借助其最新的 Helios 技术突破，单卡即可实现分钟级、高帧率（19.5 FPS）视频合成，有效解决了长镜头下的画面漂移问题。
快速落地验证：复用成熟的代码库与预训练权重，将新视频模型的验证周期从数月缩短至数周，迅速响应客户需求。

Open-Sora-Plan 通过打破硬件壁垒与闭源限制，让国内开发者能在自主算力上低成本复现世界级的视频生成能力。

运行环境要求

操作系统

Linux

GPU

当前 V1.5 版本仅支持华为昇腾 NPU (Ascend 910 系列)，需配合 MindSpeed 框架
GPU (NVIDIA) 版本尚未发布 (coming soon)

内存

未说明

依赖

notes1. 当前最新 V1.5.0 版本完全基于华为昇腾训练和推理，不兼容普通 NVIDIA GPU，需使用 Ascend 910 系列加速卡及 MindSpeed-MM 框架。 2. 如需使用 NVIDIA GPU，请等待后续发布的 GPU 版本或查阅旧版本文档。 3. 代码位于 'mindspeed_mmdit' 分支，配置需参考该分支下的 README。 4. 模型权重针对 NPU + MindSpeed-MM 框架优化。

python未说明

MindSpeed

PyTorch (适配昇腾版)

快速开始

Open-Sora计划

本项目旨在创建一个简单且可扩展的代码库，以复现Sora（由OpenAI开发，但我们更倾向于称其为“ClosedAI”）。

本项目希望通过开源社区的力量复现Sora，由北大-兔展AIGC联合实验室共同发起，来自兔展、华为、鹏城实验室和开源社区伙伴均有深度贡献力量。

当前V1.5版本完全基于华为昇腾训练（昇腾纯血版），欢迎Pull Request和使用！

我们正在快速迭代新版本，欢迎更多合作者或算法工程师加入，算法工程师招聘-兔展智能.pdf

如果你喜欢我们的项目，请在GitHub上为我们点亮一颗星⭐，以便及时获取最新更新。

📣 新闻

[2026.03.08] 👋👋👋 我们推出了 Helios，这是一款突破性的视频生成模型，在单张 H100 GPU 上以 19.5 FPS 的速度实现分钟级高质量视频合成——且无需依赖传统的长视频防漂移策略或标准的视频加速技术。欢迎查看技术报告！
[2025.06.05] 🔥🔥🔥 我们发布了 1.5.0 版本，这是我们目前功能最强大的模型！通过引入 更高压缩比的 WFVAE 和改进的稀疏 DiT 架构 SUV，我们仅使用 8B 参数规模的模型和 4,000 万段视频样本，便实现了与 HunyuanVideo（开源）相当的性能。1.5.0 版本是在 Ascend 910 系列加速器上完全训练并推理完成的；请访问 mindspeed_mmdit 分支获取我们的新代码，并查阅 Report-v1.5.0.md 获取详细报告。GPU 版本也将很快推出。
[2024.12.03] ⚡️ 我们发布了 v1.3 版本的 arXiv 论文以及 WF-VAE 的论文。更强大的下一版本即将发布。
[2024.10.16] 🎉 我们发布了 1.3.0 版本，其亮点包括：WFVAE、提示优化器、数据过滤策略、稀疏注意力机制和 桶式训练策略。此外，我们还能在 24G 显存 内支持 93×480p 分辨率。更多细节请参阅我们的最新报告。
[2024.08.13] 🎉 我们推出了 Open-Sora Plan v1.2.0 的 I2V 模型，该模型基于 Open-Sora Plan v1.2.0。当前版本支持图像到视频的生成以及过渡帧的生成（即视频生成的起始和结束帧条件）。请查看此报告中的“图像到视频”部分。
[2024.07.24] 🔥🔥🔥 v1.2.0 来了！我们摒弃了 2+1D 架构，转而采用 3D 全注意力机制，成功训练出一款真正的 3D 视频扩散模型，可生成 4 秒 720p 分辨率的视频。请查看我们的最新报告。
[2024.05.27] 🎉 我们发布了 Open-Sora Plan v1.1.0，该版本显著提升了视频质量和长度，并且完全开源！请查阅我们的最新报告。感谢 ShareGPT4Video 提供的长视频标注能力。
[2024.04.09] 🤝 我们很高兴分享关于变形延时视频生成的最新探索成果：MagicTime，它能够从延时视频中学习真实世界的物理知识。
[2024.04.07] 🎉🎉🎉 今天，我们非常激动地发布了 Open-Sora-Plan v1.0.0，该版本大幅提升了视频生成质量和文本控制能力。详情请参阅我们的报告。感谢华为 NPU 对我们的支持。
[2024.03.27] 🚀🚀🚀 我们发布了 VideoCausalVAE 的报告，该模型同时支持图像和视频输入。以下是我们演示中的重建视频效果。文本到视频模型正在开发中。
[2024.03.01] 🤗 我们启动了一项复现 Sora 的计划，名为 Open-Sora Plan！欢迎关注 👀 此仓库，以获取最新动态。

😍 作品集

Open-Sora Plan v1.5.0 的文本到视频生成示例。

YouTube:

Bilibili:

😮 亮点

Open-Sora Plan 在视频生成方面表现出色。

🔥 性能更强、压缩比更高的 WFVAE

采用 8×8×8 的下采样率，但 PSNR 指标却优于 Wan2.1 中使用的 VAE。同时降低了基于其构建的 DiT 模型的训练成本。

🚀 更强大的稀疏 DiT

更加高效的稀疏注意力架构 SUV，在提供超过 35% 加速的同时，性能接近密集型 DiT。

🐳 资源

版本	架构	扩散模型	因果视频VAE	数据	提示优化器
v1.5.0	SUV (Skiparse 3D)	121x576x1024[5]	Anysize_8x8x8_32dim	-	-
v1.3.0 [4]	Skiparse 3D	Anysize in 93x640x640[3], Anysize in 93x640x640_i2v[3]	Anysize	prompt_refiner	checkpoint
v1.2.0	Dense 3D	93x720p, 29x720p[1], 93x480p[1,2], 29x480p, 1x480p, 93x480p_i2v	Anysize	Annotations	-
v1.1.0	2+1D	221x512x512, 65x512x512	Anysize	Data and Annotations	-
v1.0.0	2+1D	65x512x512, 65x256x256, 17x256x256	Anysize	Data and Annotations	-

[1] 请注意，v1.2.0版本的29×720p和93×480p权重是在Panda70M数据集上训练的，尚未进行最终的高质量数据微调，因此可能会出现水印。

[2] 我们从93×720p微调了3500步，得到了93×480p，供社区研究使用。

[3] 该模型以步长=32随机训练。因此，请确保推理时的分辨率是32的倍数。帧数需要是4n+1，例如93、77、61、45、29、1（图像）。

[4] 模型权重也可在OpenMind和WiseModel上获取。

[5] 目前的模型权重仅与NPU + MindSpeed-MM框架兼容。模型权重也可在modelers上获取。

[!Warning]

🚨 对于1.2.0版本，我们不再支持2+1D模型。

⚙️ 如何开始

GPU

即将推出...

NPU

请查看**mindspeed_mmdit**分支，并按照README.md进行配置。

📖 技术报告

请查阅Report-v1.5.0.md。

💡 如何贡献

我们非常感谢您对Open-Sora计划开源社区的贡献，并帮助我们使其比现在更好！

更多详情，请参阅贡献指南

👍 致谢及相关工作

Allegro: Allegro是一个强大的文本到视频模型，基于我们的Open-Sora计划，可以从简单的文本输入生成高达6秒、15 FPS和720p分辨率的高质量视频。开源的意义正变得越来越具体。
Latte: 这是一个出色的2+1D视频生成模型。
PixArt-alpha: 用于逼真文图合成的扩散Transformer快速训练。
ShareGPT4Video: 通过更好的字幕提升视频理解和生成。
VideoGPT: 使用VQ-VAE和Transformer进行视频生成。
DiT: 基于Transformer的可扩展扩散模型。
FiT: 用于扩散模型的灵活视觉Transformer。
位置插值: 通过位置插值扩展大型语言模型的上下文窗口。

🔒 许可证

详情请参见LICENSE。

✨ 星标历史

✏️ 引用

@article{lin2024open,
  title={Open-Sora计划：开源大型视频生成模型},
  author={林斌、葛云阳、程新华、李宗健、朱斌、王绍东、何贤义、叶洋、袁圣海、陈刘汉等},
  journal={arXiv预印本arXiv:2412.00131},
  year={2024}
}

@article{helios,
  title={Helios：真正的实时长视频生成模型},
  author={袁圣海、尹元阳、李宗健、黄新伟、杨晓、袁莉},
  journal={arXiv预印本arXiv:2603.04379},
  year={2026}
}

@article{li2024wf,
  title={WF-VAE：通过小波驱动的能量流增强潜伏视频扩散模型的视频VAE},
  author={李宗健、林斌、叶洋、陈刘汉、程新华、袁圣海、袁莉},
  journal={arXiv预印本arXiv:2411.17459},
  year={2024}
}

🤝 社区贡献者

Open-Sora Plan 快速上手指南

Open-Sora Plan 是一个旨在复现 Sora 视频生成能力的开源项目。当前最新的 v1.5.0 版本完全基于华为昇腾（Ascend）NPU 训练和推理，采用了高性能的 WF-VAE 和稀疏 DiT 架构（SUV）。

1. 环境准备

系统要求

硬件: 华为昇腾 910 系列加速卡 (Ascend 910-series)。
- 注：GPU 版本正在开发中，暂未发布。
操作系统: 支持 Ascend CANN 环境的 Linux 发行版（如 EulerOS, Ubuntu 等）。
软件栈:
- 华为 CANN (Compute Architecture for Neural Networks)
- MindSpore 框架
- MindSpeed-MM 库

前置依赖

请确保已安装与您的昇腾驱动匹配的 CANN 包和 MindSpore 环境。建议参考华为官方文档完成基础环境搭建。

2. 安装步骤

由于 v1.5.0 使用了特定的架构优化，必须切换到专用分支进行安装。

第一步：克隆代码并切换分支

git clone https://github.com/PKU-YuanGroup/Open-Sora-Plan.git
cd Open-Sora-Plan
git checkout mindspeed_mmdit

第二步：安装依赖

进入项目目录后，根据 mindspeed_mmdit 分支下的 requirements.txt 安装 Python 依赖。 (注：具体依赖列表请以该分支下的文件为准)

pip install -r requirements.txt

提示：如果您在中国大陆，建议使用国内镜像源加速安装：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

第三步：下载模型权重

v1.5.0 的模型权重仅兼容 NPU + MindSpeed-MM 框架。您可以从以下地址下载：

HuggingFace: Open-Sora-Plan-v1.5.0
魔乐社区 (Modelers): Open-Sora-Plan-v1.5.0

需要下载的主要文件包括：

扩散模型：MindSpeed/model_ema.pt
VAE 模型：MindSpeed/wfvae_888_dim32.ckpt

将下载的权重放置在项目指定的目录下（具体路径请参考分支内的 README 或配置文件）。

3. 基本使用

目前 v1.5.0 主要支持在昇腾环境下进行推理。最简单的使用方式是通过提供的推理脚本生成视频。

文生视频示例

假设您已配置好环境变量并下载了权重，运行推理命令通常如下（具体参数请参照 mindspeed_mmdit 分支中的示例脚本）：

python scripts/inference.py \
    --config configs/v1.5_config.yaml \
    --ckpt_path ./weights/MindSpeed/model_ema.pt \
    --vae_path ./weights/MindSpeed/wfvae_888_dim32.ckpt \
    --prompt "A cat walking on the street, realistic, 4k" \
    --output_dir ./outputs

关键参数说明

--config: 指向 v1.5.0 对应的配置文件。
--ckpt_path: 扩散模型检查点路径。
--vae_path: WF-VAE 模型路径。
--prompt: 输入的文字描述。
--output_dir: 生成视频的保存路径。

注意：

请确保输入分辨率和帧数符合模型要求（v1.5.0 基于高压缩率 VAE，具体尺寸限制请参考技术报告）。

更多高级功能（如图像转视频 I2V、特定分辨率控制）请参阅项目根目录下的 Report-v1.5.0.md 技术报告及分支内详细文档。

版本历史

v1.3.02024/10/15

v1.2.02024/07/25

v1.1.02024/05/27

v1.0.02024/04/09

v1.5.02025/06/05

v1.3.12024/10/22

常见问题

项目的开源许可证是什么？是否允许商业用途？

Image-to-Video (I2V) 生成的视频与参考图像完全不相关，如何解决？

进行 I2V 微调时，推荐使用什么分辨率的视频数据？帧数如何设置？

I2V 微调生成的视频效果不佳或有跳帧现象，有哪些优化建议？

使用 29x480p 检查点生成的视频色调异常或质量差，如何调整参数？

在 8xA100 (80G) 节点上训练时遇到显存溢出 (OOM)，特别是使用 DeepSpeed 时，如何解决？

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2周前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|2天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.9k|★★★☆☆|今天

语言模型图像开发框架