[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-PKU-YuanGroup--Open-Sora-Plan":3,"tool-PKU-YuanGroup--Open-Sora-Plan":65},[4,18,32,41,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,2,"2026-04-18T11:00:28",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":38,"last_commit_at":39,"category_tags":40,"status":17},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[30,27,29],{"id":42,"name":43,"github_repo":44,"description_zh":45,"stars":46,"difficulty_score":38,"last_commit_at":47,"category_tags":48,"status":17},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[29,14,27,13],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":10,"last_commit_at":55,"category_tags":56,"status":17},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,30,29],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":17},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75992,"2026-04-20T11:17:26",[30,14,13,29],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":105,"forks":106,"last_commit_at":107,"license":108,"difficulty_score":109,"env_os":110,"env_gpu":111,"env_ram":112,"env_deps":113,"category_tags":118,"github_topics":80,"view_count":24,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":151},10135,"PKU-YuanGroup\u002FOpen-Sora-Plan","Open-Sora-Plan","This project aim to reproduce Sora (Open AI T2V model), we wish the open source community contribute to this project.","Open-Sora-Plan 是一个旨在复现 OpenAI Sora 能力的开源视频生成项目，由北大 - 兔展 AIGC 联合实验室发起，并汇聚了华为、鹏城实验室及全球开源社区的力量。它的核心目标是打破顶尖视频生成技术的封闭状态，通过构建简洁可扩展的代码库，让社区能够共同探索文本生成视频（T2V）的前沿技术。\n\n该项目主要解决了高质量视频生成模型训练门槛高、技术不透明的问题。其显著的技术亮点在于对国产硬件的深度适配：当前 V1.5 版本已实现完全基于华为昇腾算力平台的“纯血版”训练，证明了在非英伟达生态下也能进行大模型研发。此外，团队持续快速迭代，不仅推出了基础复现版本，还发布了如 Helios 等突破性成果，实现了在单张 H100 显卡上以每分钟级速度合成高帧率视频，有效缓解了长视频生成中的漂移难题。\n\nOpen-Sora-Plan 非常适合 AI 研究人员、算法工程师以及希望深入理解视频生成底层逻辑的开发者使用。对于想要尝试国产化算力训练大模型的团队，它提供了宝贵的实践参考。虽然普通用户暂时难以直接本地部署，但可以通过其提供的在线体验空间感受开源社区在视频生成领域的最新进展。","\n\n\u003Ch1 align=\"left\"> \u003Ca href=\"\">Open-Sora Plan\u003C\u002Fa>\u003C\u002Fh1>\n\nThis project aims to create a simple and scalable repo, to reproduce [Sora](https:\u002F\u002Fopenai.com\u002Fsora) (OpenAI, but we prefer to call it \"ClosedAI\" ). \n\n本项目希望通过开源社区的力量复现Sora，由北大-兔展AIGC联合实验室共同发起，来自兔展、华为、鹏城实验室和开源社区伙伴均有深度贡献力量。\n\n当前V1.5版本**完全基于华为昇腾训练（昇腾纯血版）**，欢迎Pull Request和使用！\n\n我们正在快速迭代新版本，欢迎更多合作者或算法工程师加入，[算法工程师招聘-兔展智能.pdf](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Ffiles\u002F19107972\u002F-.pdf)\n\n\u003Ch5 align=\"left\">\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-Open--Sora%20Plan-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.00131)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-Helios-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04379)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-WF--VAE-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17459)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache-yellow)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002FLICENSE)  \u003Cbr>\n[![slack badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-join-blueviolet?logo=discord&amp)](https:\u002F\u002Fdiscord.gg\u002FDFZg5678)\n[![WeChat badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F微信-加入-green?logo=wechat&amp)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F53#issuecomment-1987226516)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Twitter@LinBin46984-black?logo=twitter&logoColor=1D9BF0)](https:\u002F\u002Fx.com\u002FLinBin46984\u002Fstatus\u002F1795018003345510687) \n[![Modelers](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%E9%AD%94%E4%B9%90-%E6%A8%A1%E5%9E%8B%E4%BD%93%E9%AA%8C-blue)](https:\u002F\u002Fmodelers.cn\u002Fspaces\u002FMindSpore-Lab\u002FOpen_Sora_Plan) \u003Cbr>\n[![GitHub repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Stars)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fstargazers)&#160;\n[![GitHub repo forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Forks)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fnetwork)&#160;\n[![GitHub repo watchers](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fwatchers\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Watchers)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fwatchers)&#160;\n[![GitHub repo size](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frepo-size\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Repo%20Size)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Farchive\u002Frefs\u002Fheads\u002Fmain.zip) \u003Cbr>\n[![GitHub repo contributors](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors-anon\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&label=Contributors)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fgraphs\u002Fcontributors) \n[![GitHub Commit](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcommit-activity\u002Fm\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?label=Commit)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fcommits\u002Fmain\u002F)\n[![Pr](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr-closed-raw\u002FPKU-YuanGroup\u002FOpen-Sora-Plan.svg?label=Merged+PRs&color=green)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fpulls)\n[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?color=critical&label=Issues)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA\u002Fissues?q=is%3Aopen+is%3Aissue)\n[![GitHub closed issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?color=success&label=Issues)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA\u002Fissues?q=is%3Aissue+is%3Aclosed)\n\u003C\u002Fh5>\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F8280\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_4a68feb902da.png\" alt=\"PKU-YuanGroup%2FOpen-Sora-Plan | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003Ch5 align=\"left\"> If you like our project, please give us a star ⭐ on GitHub for latest update.  \u003C\u002Fh2>\n\n\n# 📣 News\n\n* **[2026.03.08]** 👋👋👋 We introduce [Helios](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FHelios), a breakthrough video generation model that achieves minute-scale, high-quality video synthesis at **19.5 FPS on a single H100** GPU — without relying on conventional long video anti-drifting strategies or standard video acceleration techniques. Welcome to check [Technical Report](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2603.04379)!\n* **[2025.06.05]** 🔥🔥🔥 We release version 1.5.0, our most powerful model! By introducing a **higher-compression WFVAE** and an improved sparse DiT architecture, **SUV**, we achieve performance **comparable to HunyuanVideo (Open-Source)** using an 8B-scale model and 40 million video samples. Version 1.5.0 is **fully trained and inferred on Ascend 910-series accelerators**; Please check the [mindspeed_mmdit](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Ftree\u002Fmindspeed_mmdit) branch for our new code and [Report-v1.5.0.md](docs\u002FReport-v1.5.0.md) for our report. The GPU version is coming soon. \n* **[2024.12.03]** ⚡️ We released our [arxiv paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.00131) and WF-VAE [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17459) for v1.3. The next more powerful version is coming soon.\n* **[2024.10.16]** 🎉 We released version 1.3.0, featuring: **WFVAE**, **prompt refiner**, **data filtering strategy**, **sparse attention**, and **bucket training strategy**. We also support 93x480p within **24G VRAM**. More details can be found at our latest [report](docs\u002FReport-v1.3.0.md).\n* **[2024.08.13]** 🎉 We are launching Open-Sora Plan v1.2.0 **I2V** model, which is based on Open-Sora Plan v1.2.0. The current version supports image-to-video generation and transition generation (the starting and ending frames conditions for video generation). Check out the Image-to-Video section in this [report](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002Fdocs\u002FReport-v1.2.0.md#training-image-to-video-diffusion-model).\n* **[2024.07.24]** 🔥🔥🔥 v1.2.0 is here! Utilizing a 3D full attention architecture instead of 2+1D. We released a true 3D video diffusion model trained on 4s 720p. Check out our latest [report](docs\u002FReport-v1.2.0.md).\n* **[2024.05.27]** 🎉 We are launching Open-Sora Plan v1.1.0, which significantly improves video quality and length, and is fully open source! Please check out our latest [report](docs\u002FReport-v1.1.0.md). Thanks to [ShareGPT4Video's](https:\u002F\u002Fsharegpt4video.github.io\u002F) capability to annotate long videos.\n* **[2024.04.09]** 🤝 Excited to share our latest exploration on metamorphic time-lapse video generation: [MagicTime](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FMagicTime), which learns real-world physics knowledge from time-lapse videos.\n* **[2024.04.07]** 🎉🎉🎉 Today, we are thrilled to present Open-Sora-Plan v1.0.0, which significantly enhances video generation quality and text control capabilities. See our [report](docs\u002FReport-v1.0.0.md). Thanks to HUAWEI NPU for supporting us.\n* **[2024.03.27]** 🚀🚀🚀 We release the report of [VideoCausalVAE](docs\u002FCausalVideoVAE.md), which supports both images and videos. We present our reconstructed video in this demonstration as follows. The text-to-video model is on the way.\n* **[2024.03.01]** 🤗 We launched a plan to reproduce Sora, called Open-Sora Plan! Welcome to **watch** 👀 this repository for the latest updates.\n\n# 😍 Gallery\n\nText-to-Video Generation of Open-Sora Plan v1.5.0.\n### Youtube:\n[![Demo Video of Open-Sora Plan V1.5.0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_fd7765575c8e.png)](https:\u002F\u002Fyoutu.be\u002FIiWTdx2EHCY)\n### Bilibili:\n[![Demo Video of Open-Sora Plan V1.5.0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_fd7765575c8e.png)](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1X77tzxE3b\u002F)\n\n# 😮 Highlights\n\nOpen-Sora Plan shows excellent performance in video generation.\n\n### 🔥 WFVAE with higher performance and compression\n- With an 8×8×8 downsampling rate, but achieves higher PSNR than the VAE used in Wan2.1. Lowers the training cost for the DiT built upon it.\n\n### 🚀 More powerful sparse dit\n- The more powerful sparse attention architecture, SUV, achieves performance close to dense DiT while providing over a 35% speedup.\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_23db40cd5cba.png\" width=\"650\" style=\"margin-bottom: 0.2;\"\u002F>\n\u003Cp>\n\n# 🐳 Resource\n\n| Version | Architecture |  Diffusion Model | CausalVideoVAE | Data | Prompt Refiner |\n|:---|:---|:---|:---|:---|:---|\n| v1.5.0 | SUV (Skiparse 3D) | [121x576x1024](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.5.0\u002Fblob\u002Fmain\u002FMindSpeed\u002Fmodel_ema.pt)[5] | [Anysize_8x8x8_32dim](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.5.0\u002Fblob\u002Fmain\u002FMindSpeed\u002Fwfvae_888_dim32.ckpt) | - | - |\n| v1.3.0 [4] | Skiparse 3D | [Anysize in 93x640x640](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fany93x640x640)[3], [Anysize in 93x640x640_i2v](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fany93x640x640_i2v)[3] | [Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fvae)| [prompt_refiner](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fprompt_refiner) | [checkpoint](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fprompt_refiner)| |\n| v1.2.0 | Dense 3D | [93x720p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F93x720p), [29x720p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F29x720p)[1], [93x480p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F93x480p)[1,2], [29x480p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F29x480p), [1x480p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F1x480p), [93x480p_i2v](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F93x480p_i2v) | [Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002Fvae)| [Annotations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0) | - |\n| v1.1.0 | 2+1D | [221x512x512](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0\u002Ftree\u002Fmain\u002F221x512x512), [65x512x512](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0\u002Ftree\u002Fmain\u002F65x512x512) |[Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0\u002Ftree\u002Fmain\u002Fvae) |[Data and Annotations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0)| - |\n| v1.0.0 | 2+1D | [65x512x512](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002F65x512x512), [65x256x256](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002F65x256x256), [17x256x256](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002F17x256x256) | [Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002Fvae) | [Data and Annotations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0)| - |\n\n> [1] Please note that the weights for v1.2.0 29×720p and 93×480p were trained on Panda70M and have not undergone final high-quality data fine-tuning, so they may produce watermarks.\n\n> [2] We fine-tuned 3.5k steps from 93×720p to get 93×480p for community research use.\n\n> [3] The model is trained arbitrarily on stride=32. So keep the resolution of the inference a multiple of 32. Frames need to be 4n+1, e.g. 93, 77, 61, 45, 29, 1 (image).\n\n> [4] Model weights are also available at [OpenMind](https:\u002F\u002Fmodelers.cn\u002Fmodels\u002Flinbin\u002FOpen-Sora-Plan-v1.3.0) and [WiseModel](https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FPKU-YUAN\u002FOpen-Sora-Plan-v1.3.0).\n\n> [5] The current model weights are only compatible with the NPU + MindSpeed-MM framework. Model weights are also available at and [modelers](https:\u002F\u002Fmodelers.cn\u002Fmodels\u002FPKU-YUAN-Group\u002FOpen-Sora-Plan-v1.5.0\u002Ftree\u002Fmain\u002FMindSpeed).\n\n> [!Warning]\n>\n> \u003Cdiv align=\"left\">\n> \u003Cb>\n> 🚨 For version 1.2.0, we no longer support 2+1D models.\n> \u003C\u002Fb>\n> \u003C\u002Fdiv>\n\n# ⚙️ How to start\n\n### GPU\ncoming soon...\n### NPU\nPlease check out the **[mindspeed_mmdit](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Ftree\u002Fmindspeed_mmdit)** branch and follow the README.md for configuration.\n\n# 📖 Technical report\nPlease check [Report-v1.5.0.md](docs\u002FReport-v1.5.0.md).\n\n# 💡 How to Contribute\nWe greatly appreciate your contributions to the Open-Sora Plan open-source community and helping us make it even better than it is now!\n\nFor more details, please refer to the [Contribution Guidelines](docs\u002FContribution_Guidelines.md)\n\n# 👍 Acknowledgement and Related Work\n* [Allegro](https:\u002F\u002Fgithub.com\u002Frhymes-ai\u002FAllegro): Allegro is a powerful text-to-video model that generates high-quality videos up to 6 seconds at 15 FPS and 720p resolution from simple text input based on our Open-Sora Plan. The significance of open-source is becoming increasingly tangible.\n* [Latte](https:\u002F\u002Fgithub.com\u002FVchitect\u002FLatte): It is a wonderful 2+1D video generation model.\n* [PixArt-alpha](https:\u002F\u002Fgithub.com\u002FPixArt-alpha\u002FPixArt-alpha): Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis.\n* [ShareGPT4Video](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer\u002Ftree\u002Fmain\u002Fprojects\u002FShareGPT4Video): Improving Video Understanding and Generation with Better Captions.\n* [VideoGPT](https:\u002F\u002Fgithub.com\u002Fwilson1yan\u002FVideoGPT): Video Generation using VQ-VAE and Transformers.\n* [DiT](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FDiT): Scalable Diffusion Models with Transformers.\n* [FiT](https:\u002F\u002Fgithub.com\u002Fwhlzy\u002FFiT): Flexible Vision Transformer for Diffusion Model.\n* [Positional Interpolation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.15595): Extending Context Window of Large Language Models via Positional Interpolation.\n\n\n# 🔒 License\n* See [LICENSE](LICENSE) for details.\n\n## ✨ Star History\n\n[![Star History](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_bd76ddbc4b0f.png)](https:\u002F\u002Fstar-history.com\u002F#PKU-YuanGroup\u002FOpen-Sora-Plan&Date)\n\n\n# ✏️ Citing\n\n\n```bibtex\n@article{lin2024open,\n  title={Open-Sora Plan: Open-Source Large Video Generation Model},\n  author={Lin, Bin and Ge, Yunyang and Cheng, Xinhua and Li, Zongjian and Zhu, Bin and Wang, Shaodong and He, Xianyi and Ye, Yang and Yuan, Shenghai and Chen, Liuhan and others},\n  journal={arXiv preprint arXiv:2412.00131},\n  year={2024}\n}\n```\n```bibtex\n@article{helios,\n  title={Helios: Real Real-Time Long Video Generation Model},\n  author={Yuan, Shenghai and Yin, Yuanyang and Li, Zongjian and Huang, Xinwei and Yang, Xiao and Yuan, Li},\n  journal={arXiv preprint arXiv:2603.04379},\n  year={2026}\n}\n```\n```bibtex\n@article{li2024wf,\n  title={WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model},\n  author={Li, Zongjian and Lin, Bin and Ye, Yang and Chen, Liuhan and Cheng, Xinhua and Yuan, Shenghai and Yuan, Li},\n  journal={arXiv preprint arXiv:2411.17459},\n  year={2024}\n}\n```\n\n# 🤝 Community contributors\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_f77023282c2c.png\" \u002F>\n\u003C\u002Fa>\n\n","\u003Ch1 align=\"left\"> \u003Ca href=\"\">Open-Sora计划\u003C\u002Fa>\u003C\u002Fh1>\n\n本项目旨在创建一个简单且可扩展的代码库，以复现[Sora](https:\u002F\u002Fopenai.com\u002Fsora)（由OpenAI开发，但我们更倾向于称其为“ClosedAI”）。\n\n本项目希望通过开源社区的力量复现Sora，由北大-兔展AIGC联合实验室共同发起，来自兔展、华为、鹏城实验室和开源社区伙伴均有深度贡献力量。\n\n当前V1.5版本**完全基于华为昇腾训练（昇腾纯血版）**，欢迎Pull Request和使用！\n\n我们正在快速迭代新版本，欢迎更多合作者或算法工程师加入，[算法工程师招聘-兔展智能.pdf](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Ffiles\u002F19107972\u002F-.pdf)\n\n\u003Ch5 align=\"left\">\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-Open--Sora%20Plan-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.00131)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-Helios-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04379)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArxiv-WF--VAE-b31b1b.svg?logo=arXiv)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17459)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache-yellow)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002FLICENSE)  \u003Cbr>\n[![slack badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-join-blueviolet?logo=discord&amp)](https:\u002F\u002Fdiscord.gg\u002FDFZg5678)\n[![WeChat badge](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F微信-加入-green?logo=wechat&amp)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F53#issuecomment-1987226516)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Twitter@LinBin46984-black?logo=twitter&logoColor=1D9BF0)](https:\u002F\u002Fx.com\u002FLinBin46984\u002Fstatus\u002F1795018003345510687) \n[![Modelers](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%E9%AD%94%E4%B9%90-%E6%A8%A1%E5%9E%8B%E4%BD%93%E9%AA%8C-blue)](https:\u002F\u002Fmodelers.cn\u002Fspaces\u002FMindSpore-Lab\u002FOpen_Sora_Plan) \u003Cbr>\n[![GitHub repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Stars)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fstargazers)&#160;\n[![GitHub repo forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Forks)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fnetwork)&#160;\n[![GitHub repo watchers](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fwatchers\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Watchers)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fwatchers)&#160;\n[![GitHub repo size](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frepo-size\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&logo=github&logoColor=whitesmoke&label=Repo%20Size)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Farchive\u002Frefs\u002Fheads\u002Fmain.zip) \u003Cbr>\n[![GitHub repo contributors](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors-anon\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?style=flat&label=Contributors)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fgraphs\u002Fcontributors) \n[![GitHub Commit](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcommit-activity\u002Fm\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?label=Commit)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fcommits\u002Fmain\u002F)\n[![Pr](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr-closed-raw\u002FPKU-YuanGroup\u002FOpen-Sora-Plan.svg?label=Merged+PRs&color=green)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fpulls)\n[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?color=critical&label=Issues)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA\u002Fissues?q=is%3Aopen+is%3Aissue)\n[![GitHub closed issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-closed\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?color=success&label=Issues)](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FVideo-LLaVA\u002Fissues?q=is%3Aissue+is%3Aclosed)\n\u003C\u002Fh5>\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F8280\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_4a68feb902da.png\" alt=\"PKU-YuanGroup%2FOpen-Sora-Plan | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003Ch5 align=\"left\"> 如果你喜欢我们的项目，请在GitHub上为我们点亮一颗星⭐，以便及时获取最新更新。  \u003C\u002Fh2>\n\n# 📣 新闻\n\n* **[2026.03.08]** 👋👋👋 我们推出了 [Helios](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FHelios)，这是一款突破性的视频生成模型，在单张 H100 GPU 上以 **19.5 FPS** 的速度实现分钟级高质量视频合成——且无需依赖传统的长视频防漂移策略或标准的视频加速技术。欢迎查看 [技术报告](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2603.04379)！\n* **[2025.06.05]** 🔥🔥🔥 我们发布了 1.5.0 版本，这是我们目前功能最强大的模型！通过引入 **更高压缩比的 WFVAE** 和改进的稀疏 DiT 架构 **SUV**，我们仅使用 8B 参数规模的模型和 4,000 万段视频样本，便实现了与 HunyuanVideo（开源）**相当的性能**。1.5.0 版本是在 **Ascend 910 系列加速器上完全训练并推理**完成的；请访问 [mindspeed_mmdit](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Ftree\u002Fmindspeed_mmdit) 分支获取我们的新代码，并查阅 [Report-v1.5.0.md](docs\u002FReport-v1.5.0.md) 获取详细报告。GPU 版本也将很快推出。\n* **[2024.12.03]** ⚡️ 我们发布了 v1.3 版本的 [arXiv 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.00131)以及 WF-VAE 的 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.17459)。更强大的下一版本即将发布。\n* **[2024.10.16]** 🎉 我们发布了 1.3.0 版本，其亮点包括：**WFVAE**、**提示优化器**、**数据过滤策略**、**稀疏注意力机制**和 **桶式训练策略**。此外，我们还能在 **24G 显存** 内支持 93×480p 分辨率。更多细节请参阅我们的最新 [报告](docs\u002FReport-v1.3.0.md)。\n* **[2024.08.13]** 🎉 我们推出了 Open-Sora Plan v1.2.0 的 **I2V** 模型，该模型基于 Open-Sora Plan v1.2.0。当前版本支持图像到视频的生成以及过渡帧的生成（即视频生成的起始和结束帧条件）。请查看此 [报告](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002Fdocs\u002FReport-v1.2.0.md#training-image-to-video-diffusion-model) 中的“图像到视频”部分。\n* **[2024.07.24]** 🔥🔥🔥 v1.2.0 来了！我们摒弃了 2+1D 架构，转而采用 3D 全注意力机制，成功训练出一款真正的 3D 视频扩散模型，可生成 4 秒 720p 分辨率的视频。请查看我们的最新 [报告](docs\u002FReport-v1.2.0.md)。\n* **[2024.05.27]** 🎉 我们发布了 Open-Sora Plan v1.1.0，该版本显著提升了视频质量和长度，并且完全开源！请查阅我们的最新 [报告](docs\u002FReport-v1.1.0.md)。感谢 [ShareGPT4Video](https:\u002F\u002Fsharegpt4video.github.io\u002F) 提供的长视频标注能力。\n* **[2024.04.09]** 🤝 我们很高兴分享关于变形延时视频生成的最新探索成果：[MagicTime](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FMagicTime)，它能够从延时视频中学习真实世界的物理知识。\n* **[2024.04.07]** 🎉🎉🎉 今天，我们非常激动地发布了 Open-Sora-Plan v1.0.0，该版本大幅提升了视频生成质量和文本控制能力。详情请参阅我们的 [报告](docs\u002FReport-v1.0.0.md)。感谢华为 NPU 对我们的支持。\n* **[2024.03.27]** 🚀🚀🚀 我们发布了 [VideoCausalVAE](docs\u002FCausalVideoVAE.md) 的报告，该模型同时支持图像和视频输入。以下是我们演示中的重建视频效果。文本到视频模型正在开发中。\n* **[2024.03.01]** 🤗 我们启动了一项复现 Sora 的计划，名为 Open-Sora Plan！欢迎 **关注** 👀 此仓库，以获取最新动态。\n\n# 😍 作品集\n\nOpen-Sora Plan v1.5.0 的文本到视频生成示例。\n### YouTube:\n[![Open-Sora Plan V1.5.0 示例视频](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_fd7765575c8e.png)](https:\u002F\u002Fyoutu.be\u002FIiWTdx2EHCY)\n### Bilibili:\n[![Open-Sora Plan V1.5.0 示例视频](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_fd7765575c8e.png)](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1X77tzxE3b\u002F)\n\n# 😮 亮点\n\nOpen-Sora Plan 在视频生成方面表现出色。\n\n### 🔥 性能更强、压缩比更高的 WFVAE\n- 采用 8×8×8 的下采样率，但 PSNR 指标却优于 Wan2.1 中使用的 VAE。同时降低了基于其构建的 DiT 模型的训练成本。\n\n### 🚀 更强大的稀疏 DiT\n- 更加高效的稀疏注意力架构 SUV，在提供超过 35% 加速的同时，性能接近密集型 DiT。\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_23db40cd5cba.png\" width=\"650\" style=\"margin-bottom: 0.2;\"\u002F>\n\u003Cp>\n\n# 🐳 资源\n\n| 版本 | 架构 | 扩散模型 | 因果视频VAE | 数据 | 提示优化器 |\n|:---|:---|:---|:---|:---|:---|\n| v1.5.0 | SUV (Skiparse 3D) | [121x576x1024](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.5.0\u002Fblob\u002Fmain\u002FMindSpeed\u002Fmodel_ema.pt)[5] | [Anysize_8x8x8_32dim](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.5.0\u002Fblob\u002Fmain\u002FMindSpeed\u002Fwfvae_888_dim32.ckpt) | - | - |\n| v1.3.0 [4] | Skiparse 3D | [Anysize in 93x640x640](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fany93x640x640)[3], [Anysize in 93x640x640_i2v](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fany93x640x640_i2v)[3] | [Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fvae)| [prompt_refiner](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fprompt_refiner) | [checkpoint](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fprompt_refiner)| |\n| v1.2.0 | Dense 3D | [93x720p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F93x720p), [29x720p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F29x720p)[1], [93x480p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F93x480p)[1,2], [29x480p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F29x480p), [1x480p](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F1x480p), [93x480p_i2v](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002F93x480p_i2v) | [Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0\u002Ftree\u002Fmain\u002Fvae)| [Annotations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.2.0) | - |\n| v1.1.0 | 2+1D | [221x512x512](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0\u002Ftree\u002Fmain\u002F221x512x512), [65x512x512](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0\u002Ftree\u002Fmain\u002F65x512x512) |[Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0\u002Ftree\u002Fmain\u002Fvae) |[Data and Annotations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.1.0)| - |\n| v1.0.0 | 2+1D | [65x512x512](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002F65x512x512), [65x256x256](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002F65x256x256), [17x256x256](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002F17x256x256) | [Anysize](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0\u002Ftree\u002Fmain\u002Fvae) | [Data and Annotations](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.0.0)| - |\n\n> [1] 请注意，v1.2.0版本的29×720p和93×480p权重是在Panda70M数据集上训练的，尚未进行最终的高质量数据微调，因此可能会出现水印。\n\n> [2] 我们从93×720p微调了3500步，得到了93×480p，供社区研究使用。\n\n> [3] 该模型以步长=32随机训练。因此，请确保推理时的分辨率是32的倍数。帧数需要是4n+1，例如93、77、61、45、29、1（图像）。\n\n> [4] 模型权重也可在[OpenMind](https:\u002F\u002Fmodelers.cn\u002Fmodels\u002Flinbin\u002FOpen-Sora-Plan-v1.3.0)和[WiseModel](https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FPKU-YUAN\u002FOpen-Sora-Plan-v1.3.0)上获取。\n\n> [5] 目前的模型权重仅与NPU + MindSpeed-MM框架兼容。模型权重也可在[modelers](https:\u002F\u002Fmodelers.cn\u002Fmodels\u002FPKU-YuanGroup\u002FOpen-Sora-Plan-v1.5.0\u002Ftree\u002Fmain\u002FMindSpeed)上获取。\n\n> [!Warning]\n>\n> \u003Cdiv align=\"left\">\n> \u003Cb>\n> 🚨 对于1.2.0版本，我们不再支持2+1D模型。\n> \u003C\u002Fb>\n> \u003C\u002Fdiv>\n\n# ⚙️ 如何开始\n\n### GPU\n即将推出...\n### NPU\n请查看**[mindspeed_mmdit](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Ftree\u002Fmindspeed_mmdit)**分支，并按照README.md进行配置。\n\n# 📖 技术报告\n请查阅[Report-v1.5.0.md](docs\u002FReport-v1.5.0.md)。\n\n# 💡 如何贡献\n我们非常感谢您对Open-Sora计划开源社区的贡献，并帮助我们使其比现在更好！\n\n更多详情，请参阅[贡献指南](docs\u002FContribution_Guidelines.md)\n\n# 👍 致谢及相关工作\n* [Allegro](https:\u002F\u002Fgithub.com\u002Frhymes-ai\u002FAllegro): Allegro是一个强大的文本到视频模型，基于我们的Open-Sora计划，可以从简单的文本输入生成高达6秒、15 FPS和720p分辨率的高质量视频。开源的意义正变得越来越具体。\n* [Latte](https:\u002F\u002Fgithub.com\u002FVchitect\u002FLatte): 这是一个出色的2+1D视频生成模型。\n* [PixArt-alpha](https:\u002F\u002Fgithub.com\u002FPixArt-alpha\u002FPixArt-alpha): 用于逼真文图合成的扩散Transformer快速训练。\n* [ShareGPT4Video](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer\u002Ftree\u002Fmain\u002Fprojects\u002FShareGPT4Video): 通过更好的字幕提升视频理解和生成。\n* [VideoGPT](https:\u002F\u002Fgithub.com\u002Fwilson1yan\u002FVideoGPT): 使用VQ-VAE和Transformer进行视频生成。\n* [DiT](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FDiT): 基于Transformer的可扩展扩散模型。\n* [FiT](https:\u002F\u002Fgithub.com\u002Fwhlzy\u002FFiT): 用于扩散模型的灵活视觉Transformer。\n* [位置插值](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.15595): 通过位置插值扩展大型语言模型的上下文窗口。\n\n\n# 🔒 许可证\n* 详情请参见[LICENSE](LICENSE)。\n\n## ✨ 星标历史\n\n[![星标历史](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_bd76ddbc4b0f.png)](https:\u002F\u002Fstar-history.com\u002F#PKU-YuanGroup\u002FOpen-Sora-Plan&Date)\n\n\n# ✏️ 引用\n\n\n```bibtex\n@article{lin2024open,\n  title={Open-Sora计划：开源大型视频生成模型},\n  author={林斌、葛云阳、程新华、李宗健、朱斌、王绍东、何贤义、叶洋、袁圣海、陈刘汉等},\n  journal={arXiv预印本arXiv:2412.00131},\n  year={2024}\n}\n```\n```bibtex\n@article{helios,\n  title={Helios：真正的实时长视频生成模型},\n  author={袁圣海、尹元阳、李宗健、黄新伟、杨晓、袁莉},\n  journal={arXiv预印本arXiv:2603.04379},\n  year={2026}\n}\n```\n```bibtex\n@article{li2024wf,\n  title={WF-VAE：通过小波驱动的能量流增强潜伏视频扩散模型的视频VAE},\n  author={李宗健、林斌、叶洋、陈刘汉、程新华、袁圣海、袁莉},\n  journal={arXiv预印本arXiv:2411.17459},\n  year={2024}\n}\n```\n\n# 🤝 社区贡献者\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_readme_f77023282c2c.png\" \u002F>\n\u003C\u002Fa>","# Open-Sora Plan 快速上手指南\n\nOpen-Sora Plan 是一个旨在复现 Sora 视频生成能力的开源项目。当前最新的 **v1.5.0 版本完全基于华为昇腾（Ascend）NPU 训练和推理**，采用了高性能的 WF-VAE 和稀疏 DiT 架构（SUV）。\n\n## 1. 环境准备\n\n### 系统要求\n*   **硬件**: 华为昇腾 910 系列加速卡 (Ascend 910-series)。\n    *   *注：GPU 版本正在开发中，暂未发布。*\n*   **操作系统**: 支持 Ascend CANN 环境的 Linux 发行版（如 EulerOS, Ubuntu 等）。\n*   **软件栈**: \n    *   华为 CANN (Compute Architecture for Neural Networks)\n    *   MindSpore 框架\n    *   MindSpeed-MM 库\n\n### 前置依赖\n请确保已安装与您的昇腾驱动匹配的 CANN 包和 MindSpore 环境。建议参考华为官方文档完成基础环境搭建。\n\n## 2. 安装步骤\n\n由于 v1.5.0 使用了特定的架构优化，**必须切换到专用分支**进行安装。\n\n### 第一步：克隆代码并切换分支\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan.git\ncd Open-Sora-Plan\ngit checkout mindspeed_mmdit\n```\n\n### 第二步：安装依赖\n进入项目目录后，根据 `mindspeed_mmdit` 分支下的 `requirements.txt` 安装 Python 依赖。\n*(注：具体依赖列表请以该分支下的文件为准)*\n\n```bash\npip install -r requirements.txt\n```\n\n> **提示**：如果您在中国大陆，建议使用国内镜像源加速安装：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 第三步：下载模型权重\nv1.5.0 的模型权重仅兼容 **NPU + MindSpeed-MM** 框架。您可以从以下地址下载：\n*   **HuggingFace**: [Open-Sora-Plan-v1.5.0](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.5.0)\n*   **魔乐社区 (Modelers)**: [Open-Sora-Plan-v1.5.0](https:\u002F\u002Fmodelers.cn\u002Fmodels\u002FPKU-YUAN-Group\u002FOpen-Sora-Plan-v1.5.0\u002Ftree\u002Fmain\u002FMindSpeed)\n\n需要下载的主要文件包括：\n*   扩散模型：`MindSpeed\u002Fmodel_ema.pt`\n*   VAE 模型：`MindSpeed\u002Fwfvae_888_dim32.ckpt`\n\n将下载的权重放置在项目指定的目录下（具体路径请参考分支内的 README 或配置文件）。\n\n## 3. 基本使用\n\n目前 v1.5.0 主要支持在昇腾环境下进行推理。最简单的使用方式是通过提供的推理脚本生成视频。\n\n### 文生视频示例\n假设您已配置好环境变量并下载了权重，运行推理命令通常如下（具体参数请参照 `mindspeed_mmdit` 分支中的示例脚本）：\n\n```bash\npython scripts\u002Finference.py \\\n    --config configs\u002Fv1.5_config.yaml \\\n    --ckpt_path .\u002Fweights\u002FMindSpeed\u002Fmodel_ema.pt \\\n    --vae_path .\u002Fweights\u002FMindSpeed\u002Fwfvae_888_dim32.ckpt \\\n    --prompt \"A cat walking on the street, realistic, 4k\" \\\n    --output_dir .\u002Foutputs\n```\n\n### 关键参数说明\n*   `--config`: 指向 v1.5.0 对应的配置文件。\n*   `--ckpt_path`: 扩散模型检查点路径。\n*   `--vae_path`: WF-VAE 模型路径。\n*   `--prompt`: 输入的文字描述。\n*   `--output_dir`: 生成视频的保存路径。\n\n> **注意**：\n> 1. 请确保输入分辨率和帧数符合模型要求（v1.5.0 基于高压缩率 VAE，具体尺寸限制请参考技术报告）。\n> 2. 更多高级功能（如图像转视频 I2V、特定分辨率控制）请参阅项目根目录下的 [Report-v1.5.0.md](docs\u002FReport-v1.5.0.md) 技术报告及分支内详细文档。","某国产短视频制作团队急需为电商客户生成大量高质量产品宣传视频，但面临高昂的算力成本与技术封锁困境。\n\n### 没有 Open-Sora-Plan 时\n- **硬件依赖受限**：团队仅拥有华为昇腾（Ascend）算力集群，无法运行主流基于 NVIDIA CUDA 生态的视频生成模型，导致大量硬件资源闲置。\n- **闭源模型门槛高**：OpenAI Sora 等顶尖模型不对外开放，商业 API 调用费用昂贵且数据隐私难以保障，无法满足定制化需求。\n- **长视频生成困难**：现有开源方案在生成长片段视频时容易出现画面漂移、逻辑断裂，难以维持分钟级视频的连贯性。\n- **迭代周期漫长**：缺乏可复现的基线代码，算法工程师需从零构建架构，研发周期长达数月，错失市场热点。\n\n### 使用 Open-Sora-Plan 后\n- **纯血昇腾适配**：直接利用 V1.5 版本“昇腾纯血版”特性，团队无需迁移代码即可在现有华为设备上高效训练与推理，算力利用率提升 100%。\n- **开源自由可控**：基于 Apache 协议完全开源的架构，让团队能低成本私有化部署，灵活调整提示词工程以契合特定电商场景。\n- **长视频质量突破**：借助其最新的 Helios 技术突破，单卡即可实现分钟级、高帧率（19.5 FPS）视频合成，有效解决了长镜头下的画面漂移问题。\n- **快速落地验证**：复用成熟的代码库与预训练权重，将新视频模型的验证周期从数月缩短至数周，迅速响应客户需求。\n\nOpen-Sora-Plan 通过打破硬件壁垒与闭源限制，让国内开发者能在自主算力上低成本复现世界级的视频生成能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPKU-YuanGroup_Open-Sora-Plan_d43eb9a1.png","PKU-YuanGroup","PKU-YUAN-Lab (袁粒课题组-北大深研院)","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FPKU-YuanGroup_d1788368.jpg","Open codes from YUAN Lab at PKU",null,"postmaster@pku-yuan.com","pku-yuan.com","https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup",[85,89,93,97,101],{"name":86,"color":87,"percentage":88},"Python","#3572A5",98,{"name":90,"color":91,"percentage":92},"Shell","#89e051",1.5,{"name":94,"color":95,"percentage":96},"Cuda","#3A4E3A",0.3,{"name":98,"color":99,"percentage":100},"C++","#f34b7d",0.2,{"name":102,"color":103,"percentage":104},"CSS","#663399",0,12156,1070,"2026-04-20T01:55:32","MIT",5,"Linux","当前 V1.5 版本仅支持华为昇腾 NPU (Ascend 910 系列)，需配合 MindSpeed 框架；GPU (NVIDIA) 版本尚未发布 (coming soon)。","未说明",{"notes":114,"python":112,"dependencies":115},"1. 当前最新 V1.5.0 版本完全基于华为昇腾训练和推理，不兼容普通 NVIDIA GPU，需使用 Ascend 910 系列加速卡及 MindSpeed-MM 框架。\n2. 如需使用 NVIDIA GPU，请等待后续发布的 GPU 版本或查阅旧版本文档。\n3. 代码位于 'mindspeed_mmdit' 分支，配置需参考该分支下的 README。\n4. 模型权重针对 NPU + MindSpeed-MM 框架优化。",[116,117],"MindSpeed","PyTorch (适配昇腾版)",[16,29],"2026-03-27T02:49:30.150509","2026-04-20T19:41:04.325863",[122,127,132,137,141,146],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},45505,"项目的开源许可证是什么？是否允许商业用途？","项目目前仍处于研究阶段。虽然早期 README 中可能提及非商业（NC）限制，但实际许可证已更改为许可型许可证（permissive license）。不过维护者强调项目主要定位为研究用途。","https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F7",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},45506,"Image-to-Video (I2V) 生成的视频与参考图像完全不相关，如何解决？","这通常是由于特定权重文件（如 29x480p 版本）存在问题或文本编码器模型下载不完整导致的。建议尝试以下方案：\n1. 手动下载 `google\u002Fmt5-xxl` 模型，不要直接使用 `from_pretrained` 函数自动下载。\n2. 更换使用其他版本的权重文件，例如 `93x720p` 或 `29x720p` 的权重，这些版本已被验证能正常生成结果。","https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F391",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},45507,"进行 I2V 微调时，推荐使用什么分辨率的视频数据？帧数如何设置？","1. **分辨率**：v1.3 版本支持任意分辨率和时长（只要在 93x236544 像素总数限制内），因此可以使用 640x352 等分辨率进行微调。\n2. **帧数设置**：如果设置 `--num_frames=n`，实际训练帧数会在 29 到 n 之间，且必须符合 `4k+1` 的格式。如果原始视频帧数大于设定值，会被截断。例如设置 `--num_frames=93`，原始视频至少需要 93 帧。\n3. **配置建议**：若仅需训练 I2V 任务，可在 mask 配置中将 `i2v` 值设为 1，其他值设为 0，以确保所有数据按 I2V 格式处理。","https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F532",{"id":138,"question_zh":139,"answer_zh":140,"source_url":136},45508,"I2V 微调生成的视频效果不佳或有跳帧现象，有哪些优化建议？","请检查以下几点以提升微调效果：\n1. **数据集质量**：确保训练视频中没有任何跳帧（jump cuts），如有发现需预先处理数据集。\n2. **Batch Size**：建议使用至少 16 的 batch size，可通过梯度累积（gradient accumulation）实现。\n3. **帧数一致性**：保持训练和推理时的帧数一致。如果模型主要在 33 帧数据上过拟合，用于 93 帧推理时效果会变差。\n4. **数据量**：全量微调建议准备超过 10,000 个视频片段的数据集。",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},45509,"使用 29x480p 检查点生成的视频色调异常或质量差，如何调整参数？","对于 29x480p 的检查点（checkpoint），建议使用较低的 classifier-free guidance scale (cfg) 值，例如 `cfg=2.5`，而不是默认的 7.5。\n- **高 cfg (如 7.5)**：可能生成更完整的人物结构，但色调可能不自然。\n- **低 cfg (如 2.5)**：能显著改善色调使其更接近真实色彩，但人物或身体的生成质量（如动漫风格完整性）可能会略有下降。用户需根据需求权衡调整。","https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F393",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},45510,"在 8xA100 (80G) 节点上训练时遇到显存溢出 (OOM)，特别是使用 DeepSpeed 时，如何解决？","1. **显存估算**：在 A100-80G 上，每个 GPU 的 batch size 为 4 时大约消耗 40G 显存。训练 65x512x512 数据集若开启 zero2_offload 仍可能 OOM。\n2. **DeepSpeed 问题**：观察到使用 `accelerate` 配合 `deepspeed` 可能在初始化阶段就占用超过 70G 显存导致 OOM，而 naive `.cuda()` 初始化仅占 20G（尽管反向传播时会增加）。这可能是 DeepSpeed 配置或版本导致的正常现象，建议尝试调整 DeepSpeed 配置或暂时使用原生 PyTorch 分布式训练进行调试。\n3. **序列并行 (sp_size)**：如果设置 `sp_size > 1` 导致采样卡死或资源争抢，请检查序列并行的配置是否正确，或在资源受限环境下谨慎使用该参数。","https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fissues\u002F302",[152,157,162,167,172,177],{"id":153,"version":154,"summary_zh":155,"released_at":156},360427,"v1.3.0","在1.3.0版本中，Open-Sora-Plan引入了以下五大关键特性：\n\n1. **更强大且更具成本效益的WFVAE。** 我们利用小波变换将视频分解为多个子频带，自然地捕捉不同频率域的信息，从而实现更高效、更鲁棒的VAE学习。\n2. **提示优化器。** 一款专为优化短文本输入而设计的大语言模型。\n3. **高质量的数据清洗策略。** 经过清洗后的panda70m数据集仅保留了原始数据的27%。\n4. **采用新型稀疏注意力机制的DiT。** 这是一种更为经济高效的学习方法。\n5. **动态分辨率与动态时长。** 这使得能够更高效地利用长度各异的视频（将单帧视为一张图像）。\n\n更多详细信息，请参阅我们的[报告](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002Fdocs\u002FReport-v1.3.0.md)。\n\n* `即将推出` ⚡️⚡️⚡️ 针对大模型并行训练，张量并行（TP）、流水并行（SP）等多种策略即将上线……\n  \n  > 近期将新增华为昇腾多模态MindSpeed-MM分支，借助华为MindSpeed-MM套件的能力支撑Open-Sora Plan参数的扩增，为更大参数规模的模型训练提供TP、SP等分布式训练能力。","2024-10-15T18:03:38",{"id":158,"version":159,"summary_zh":160,"released_at":161},360428,"v1.2.0","v1.2.0 版本现已发布！我们采用**3D 全注意力架构**，而非 2+1D 架构。此次我们推出了一款真正的 3D 视频扩散模型，该模型基于 4 秒、720p 分辨率的视频进行训练。\n\n- 架构从 2+1D 模型升级为 3D 全注意力架构，不再支持 2+1D。\n- 我们不再采用图像与视频联合训练的方式，而是先单独训练图像权重，将其作为视频模型的初始化参数。\n- 我们公开了所有数据标注，并根据美学质量和运动特征对数据进行了筛选。\n- 我们提升了 CasualVideoVAE 的性能，并在 WebVid 和 Panda70M 数据集的验证集上报告了相关指标。\n\n尽管 3D 注意力架构在时空一致性方面表现出色，但其训练成本极高，难以大规模扩展。我们期待与开源社区合作，共同**优化 3D DiT 架构**。更多详细信息，请参阅我们的[报告](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002Fdocs\u002FReport-v1.2.0.md)。","2024-07-25T06:28:12",{"id":163,"version":164,"summary_zh":165,"released_at":166},360429,"v1.1.0","- 支持更长的视频、动态分辨率下的训练与推理。  \n- 支持昇腾平台的训练与推理。  \n- 公开所有训练数据及标注信息。  \n- 提升 CasualVideoVAE 的性能。  \n\n在本版本中，我们使用 ShareGPT4Video 进行视频标注，随后基于 3000 小时的视频数据对模型进行训练。最终得到的模型在视频质量和时长方面均取得了显著提升。更多详细信息，请参阅我们的 [报告](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002Fdocs\u002FReport-v1.1.0.md)。","2024-05-27T10:02:22",{"id":168,"version":169,"summary_zh":170,"released_at":171},360430,"v1.0.0","- 增加了基于文本的条件控制功能，用于生成视频。\n- 在hw分支中支持华为NPU。\n- 公开了所有训练数据及标注信息。\n- 添加了训练和采样脚本。\n- 补充了CausalVideoVAE的训练细节。\n\n我们使用从网络上爬取的4万段视频对所有模型进行了训练，其中大部分为风景类内容。完整的训练过程大约需要2048个GPU小时。更详细的变更记录请参阅我们的[报告](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fblob\u002Fmain\u002Fdocs\u002FReport-v1.0.0.md)。\n\n**_我们希望此次发布能够进一步造福社区，使文生视频模型更加易用。_**","2024-04-09T06:43:45",{"id":173,"version":174,"summary_zh":175,"released_at":176},360425,"v1.5.0","Open-Sora 计划已更新至 1.5.0 版本。本次发布仅支持搭载 mindspeed-mm 框架的 NPU。主要更新包括：\n\n1、更高压缩比的 WFVAE；  \n2、性能增强的稀疏 DiT 和 SUV 模型；  \n3、基于 NPU 和 mindspeed-mm 的全流程训练与推理。","2025-06-05T08:34:30",{"id":178,"version":179,"summary_zh":180,"released_at":181},360426,"v1.3.1","1. 修复了缺失的 VAE 代码中的 bug，详情见：https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fpull\u002F475  \n2. 修复了由 [CogVideoX](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06072) 提出的 `explicit_uniform_sampling` 函数，详情见：https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Fcommit\u002F390de3f77751f73f139a53c90875a5b0a740535f  \n3. 发布了提示词精炼器的[代码](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan\u002Ftree\u002Fmain\u002Fopensora\u002Fmodels\u002Fprompt_refiner)和[数据](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0)，更多详情请参阅：[这里](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FOpen-Sora-Plan?tab=readme-ov-file#-prompt-refiner)。  \n4. 更新了[提示词精炼器模型](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fprompt_refiner)以及文生视频模型的权重[链接](https:\u002F\u002Fhuggingface.co\u002FLanguageBind\u002FOpen-Sora-Plan-v1.3.0\u002Ftree\u002Fmain\u002Fany93x640x640)。","2024-10-22T11:20:59"]