[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zai-org--CogVideo":3,"tool-zai-org--CogVideo":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":10,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":105,"github_topics":107,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":114,"updated_at":115,"faqs":116,"releases":146},5099,"zai-org\u002FCogVideo","CogVideo","text and image to video generation: CogVideoX (2024) and CogVideo (ICLR 2023)","CogVideo 是由智谱 AI 与清华大学联合开源的视频生成模型系列，涵盖早期的 CogVideo 及最新的 CogVideoX 和 CogVideoX1.5。它核心解决了从文本描述或静态图片高质量生成动态视频的技术难题，支持文生视频、图生视频及视频续写等多种任务，让创意内容制作变得更加直观高效。\n\n无论是希望快速验证想法的普通用户、需要定制视觉素材的设计师，还是致力于多模态研究的开发者与科研人员，都能从中获益。普通用户可通过 Hugging Face 等平台在线体验；开发者和研究人员则能利用其开放的代码库，在单张消费级显卡上进行微调，甚至探索更复杂的商业应用。\n\n技术层面，CogVideoX1.5 显著提升了生成能力，支持长达 10 秒的高分辨率视频输出，并实现了任意分辨率的图生视频功能。项目不仅提供了基于 SAT 和 Diffusers 的多种推理框架，还持续更新如 LoRA 低显存微调、DDIM 逆向等先进特性。此外，配套开源的 CogVLM2-Caption 模型进一步优化了训练数据的质量。凭借灵活的架构设计与活跃的社区支持，CogVideo 正成为连接创意与动态视觉表现的重","CogVideo 是由智谱 AI 与清华大学联合开源的视频生成模型系列，涵盖早期的 CogVideo 及最新的 CogVideoX 和 CogVideoX1.5。它核心解决了从文本描述或静态图片高质量生成动态视频的技术难题，支持文生视频、图生视频及视频续写等多种任务，让创意内容制作变得更加直观高效。\n\n无论是希望快速验证想法的普通用户、需要定制视觉素材的设计师，还是致力于多模态研究的开发者与科研人员，都能从中获益。普通用户可通过 Hugging Face 等平台在线体验；开发者和研究人员则能利用其开放的代码库，在单张消费级显卡上进行微调，甚至探索更复杂的商业应用。\n\n技术层面，CogVideoX1.5 显著提升了生成能力，支持长达 10 秒的高分辨率视频输出，并实现了任意分辨率的图生视频功能。项目不仅提供了基于 SAT 和 Diffusers 的多种推理框架，还持续更新如 LoRA 低显存微调、DDIM 逆向等先进特性。此外，配套开源的 CogVLM2-Caption 模型进一步优化了训练数据的质量。凭借灵活的架构设计与活跃的社区支持，CogVideo 正成为连接创意与动态视觉表现的重要桥梁。","# CogVideo & CogVideoX\n\n[中文阅读](.\u002FREADME_zh.md)\n\n[日本語で読む](.\u002FREADME_ja.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=resources\u002Flogo.svg width=\"50%\"\u002F>\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\nExperience the CogVideoX-5B model online at \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM\u002FCogVideoX-5B\" target=\"_blank\"> 🤗 Huggingface Space\u003C\u002Fa> or \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FZhipuAI\u002FCogVideoX-5b-demo\" target=\"_blank\"> 🤖 ModelScope Space\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n📚 View the \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06072\" target=\"_blank\">paper\u003C\u002Fa> and \u003Ca href=\"https:\u002F\u002Fzhipu-ai.feishu.cn\u002Fwiki\u002FDHCjw1TrJiTyeukfc9RceoSRnCh\" target=\"_blank\">user guide\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    👋 Join our \u003Ca href=\"resources\u002FWECHAT.md\" target=\"_blank\">WeChat\u003C\u002Fa> and \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FdCGfUsagrD\" target=\"_blank\">Discord\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n📍 Visit \u003Ca href=\"https:\u002F\u002Fchatglm.cn\u002Fvideo?lang=en?fr=osm_cogvideo\">QingYing\u003C\u002Fa> and \u003Ca href=\"https:\u002F\u002Fopen.bigmodel.cn\u002F?utm_campaign=open&_channel_track_key=OWTVNma9\">API Platform\u003C\u002Fa> to experience larger-scale commercial video generation models.\n\u003C\u002Fp>\n\n## Project Updates\n\n- 🔥🔥 **News**: ```2025\u002F03\u002F24```: We have launched [CogKit](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogKit), a fine-tuning and inference framework for the **CogView4** and **CogVideoX** series. This toolkit allows you to fully explore and utilize our multimodal generation models.\n- 🔥 **News**: ```2025\u002F02\u002F28```: DDIM Inverse is now supported in `CogVideoX-5B` and `CogVideoX1.5-5B`. Check [here](inference\u002Fddim_inversion.py).\n- 🔥 **News**: ```2025\u002F01\u002F08```: We have updated the code for `Lora` fine-tuning based on the `diffusers` version model, which uses less GPU memory. For more details, please see [here](finetune\u002FREADME.md).\n- 🔥 **News**: ```2024\u002F11\u002F15```: We released the `CogVideoX1.5` model in the diffusers version. Only minor parameter adjustments are needed to continue using previous code.\n- 🔥 **News**: ```2024\u002F11\u002F08```: We have released the CogVideoX1.5 model. CogVideoX1.5 is an upgraded version of the open-source model CogVideoX.\nThe CogVideoX1.5-5B series supports 10-second videos with higher resolution, and CogVideoX1.5-5B-I2V supports video generation at any resolution.\nThe SAT code has already been updated, while the diffusers version is still under adaptation. Download the SAT version code [here](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5B-SAT).\n- 🔥 **News**: ```2024\u002F10\u002F13```: A more cost-effective fine-tuning framework for `CogVideoX-5B` that works with a single\n  4090 GPU, [cogvideox-factory](https:\u002F\u002Fgithub.com\u002Fa-r-r-o-w\u002Fcogvideox-factory), has been released. It supports\n  fine-tuning with multiple resolutions. Feel free to use it!\n- 🔥 **News**: ```2024\u002F10\u002F10```: We have updated our technical report. Please\n  click [here](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.06072) to view it. More training details and a demo have been added. To see\n  the demo, click [here](https:\u002F\u002Fyzy-thu.github.io\u002FCogVideoX-demo\u002F).- 🔥 **News**: ```2024\u002F10\u002F09```: We have publicly\n  released the [technical documentation](https:\u002F\u002Fzhipu-ai.feishu.cn\u002Fwiki\u002FDHCjw1TrJiTyeukfc9RceoSRnCh) for CogVideoX\n  fine-tuning on Feishu, further increasing distribution flexibility. All examples in the public documentation can be\n  fully reproduced.\n- 🔥 **News**: ```2024\u002F9\u002F19```: We have open-sourced the CogVideoX series image-to-video model **CogVideoX-5B-I2V**.\n  This model can take an image as a background input and generate a video combined with prompt words, offering greater\n  controllability. With this, the CogVideoX series models now support three tasks: text-to-video generation, video\n  continuation, and image-to-video generation. Welcome to try it online\n  at [Experience](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM\u002FCogVideoX-5B-Space).\n- 🔥 ```2024\u002F9\u002F19```: The Caption\n  model [CogVLM2-Caption](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fcogvlm2-llama3-caption), used in the training process of\n  CogVideoX to convert video data into text descriptions, has been open-sourced. Welcome to download and use it.\n- 🔥 ```2024\u002F8\u002F27```: We have open-sourced a larger model in the CogVideoX series, **CogVideoX-5B**. We have\n  significantly optimized the model's inference performance, greatly lowering the inference threshold.\n  You can run **CogVideoX-2B** on older GPUs like `GTX 1080TI`, and **CogVideoX-5B** on desktop GPUs like `RTX 3060`. Please strictly\n  follow the [requirements](requirements.txt) to update and install dependencies, and refer\n  to [cli_demo](inference\u002Fcli_demo.py) for inference code. Additionally, the open-source license for\n  the **CogVideoX-2B** model has been changed to the **Apache 2.0 License**.\n- 🔥 ```2024\u002F8\u002F6```: We have open-sourced **3D Causal VAE**, used for **CogVideoX-2B**, which can reconstruct videos with\n  almost no loss.\n- 🔥 ```2024\u002F8\u002F6```: We have open-sourced the first model of the CogVideoX series video generation models, **CogVideoX-2B\n  **.\n- 🌱 **Source**: ```2022\u002F5\u002F19```: We have open-sourced the CogVideo video generation model (now you can see it in\n  the `CogVideo` branch). This is the first open-source large Transformer-based text-to-video generation model. You can\n  access the [ICLR'23 paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.15868) for technical details.\n\n## Table of Contents\n\nJump to a specific section:\n\n- [Quick Start](#quick-start)\n  - [Prompt Optimization](#prompt-optimization)\n  - [SAT](#sat)\n  - [Diffusers](#diffusers)\n- [Gallery](#gallery)\n  - [CogVideoX-5B](#cogvideox-5b)\n  - [CogVideoX-2B](#cogvideox-2b)\n- [Model Introduction](#model-introduction)\n- [Friendly Links](#friendly-links)\n- [Project Structure](#project-structure)\n  - [Quick Start with Colab](#quick-start-with-colab)\n  - [Inference](#inference)\n  - [finetune](#finetune)\n  - [sat](#sat-1)\n  - [Tools](#tools)\n- [CogVideo(ICLR'23)](#cogvideoiclr23)\n- [Citation](#citation)\n- [Model-License](#model-license)\n\n## Quick Start\n\n### Prompt Optimization\n\nBefore running the model, please refer to [this guide](inference\u002Fconvert_demo.py) to see how we use large models like\nGLM-4 (or other comparable products, such as GPT-4) to optimize the model. This is crucial because the model is trained\nwith long prompts, and a good prompt directly impacts the quality of the video generation.\n\n### SAT\n\n**Please make sure your Python version is between 3.10 and 3.12, inclusive of both 3.10 and 3.12.**\n\nFollow instructions in [sat_demo](sat\u002FREADME.md): Contains the inference code and fine-tuning code of SAT weights. It is\nrecommended to improve based on the CogVideoX model structure. Innovative researchers use this code to better perform\nrapid stacking and development.\n\n### Diffusers\n\n**Please make sure your Python version is between 3.10 and 3.12, inclusive of both 3.10 and 3.12.**\n\n```\npip install -r requirements.txt\n```\n\nThen follow [diffusers_demo](inference\u002Fcli_demo.py): A more detailed explanation of the inference code, mentioning the\nsignificance of common parameters.\n\nFor more details on quantized inference, please refer\nto [diffusers-torchao](https:\u002F\u002Fgithub.com\u002Fsayakpaul\u002Fdiffusers-torchao\u002F). With Diffusers and TorchAO, quantized inference\nis also possible leading to memory-efficient inference as well as speedup in some cases when compiled. A full list of\nmemory and time benchmarks with various settings on A100 and H100 has been published\nat [diffusers-torchao](https:\u002F\u002Fgithub.com\u002Fsayakpaul\u002Fdiffusers-torchao).\n\n## Gallery\n\n### CogVideoX-5B\n\n\u003Ctable border=\"0\" style=\"width: 100%; text-align: left; margin-top: 20px;\">\n  \u003Ctr>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fcf5953ea-96d3-48fd-9907-c4708752c714\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffe0a78e6-b669-4800-8cf0-b5f9b5145b52\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n       \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc182f606-8f8c-421d-b414-8487070fcfcb\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7db2bbce-194d-434d-a605-350254b6c298\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F62b01046-8cab-44cc-bd45-4d965bb615ec\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd78e552a-4b3f-4b81-ac3f-3898079554f6\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n       \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F30894f12-c741-44a2-9e6e-ddcacc231e5b\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F926575ca-7150-435b-a0ff-4900a963297b\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### CogVideoX-2B\n\n\u003Ctable border=\"0\" style=\"width: 100%; text-align: left; margin-top: 20px;\">\n  \u003Ctr>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fea3af39a-3160-4999-90ec-2f7863c5b0e9\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9de41efd-d4d1-4095-aeda-246dd834e91d\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n       \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F941d6661-6a8d-4a1b-b912-59606f0b2841\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F938529c4-91ae-4f60-b96b-3c3947fa63cb\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\nTo view the corresponding prompt words for the gallery, please click [here](resources\u002Fgalary_prompt.md)\n\n## Model Introduction\n\nCogVideoX is an open-source version of the video generation model originating\nfrom [QingYing](https:\u002F\u002Fchatglm.cn\u002Fvideo?lang=en?fr=osm_cogvideo). The table below displays the list of video generation\nmodels we currently offer, along with their foundational information.\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n  \u003Ctr>\n    \u003Cth style=\"text-align: center;\">Model Name\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX1.5-5B (Latest)\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX1.5-5B-I2V (Latest)\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX-2B\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX-5B\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX-5B-I2V\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Release Date\u003C\u002Ftd>\n    \u003Cth style=\"text-align: center;\">November 8, 2024\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">November 8, 2024\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">August 6, 2024\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">August 27, 2024\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">September 19, 2024\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Video Resolution\u003C\u002Ftd>\n    \u003Ctd colspan=\"1\" style=\"text-align: center;\">1360 * 768\u003C\u002Ftd>\n    \u003Ctd colspan=\"1\" style=\"text-align: center;\"> Min(W, H) = 768 \u003Cbr> 768 ≤ Max(W, H) ≤ 1360 \u003Cbr> Max(W, H) % 16 = 0 \u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">720 * 480\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Number of Frames\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">Should be \u003Cb>16N + 1\u003C\u002Fb> where N \u003C= 10 (default 81)\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">Should be \u003Cb>8N + 1\u003C\u002Fb> where N \u003C= 6 (default 49)\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Inference Precision\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16 (Recommended)\u003C\u002Fb>, FP16, FP32, FP8*, INT8, Not supported: INT4\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Cb>FP16*(Recommended)\u003C\u002Fb>, BF16, FP32, FP8*, INT8, Not supported: INT4\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16 (Recommended)\u003C\u002Fb>, FP16, FP32, FP8*, INT8, Not supported: INT4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Single GPU Memory Usage\u003Cbr>\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer\">SAT\u003C\u002Fa> BF16: 76GB \u003Cbr>\u003Cb>diffusers BF16: from 10GB*\u003C\u002Fb>\u003Cbr>\u003Cb>diffusers INT8(torchao): from 7GB*\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer\">SAT\u003C\u002Fa> FP16: 18GB \u003Cbr>\u003Cb>diffusers FP16: 4GB minimum* \u003C\u002Fb>\u003Cbr>\u003Cb>diffusers INT8 (torchao): 3.6GB minimum*\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer\">SAT\u003C\u002Fa> BF16: 26GB \u003Cbr>\u003Cb>diffusers BF16 : 5GB minimum* \u003C\u002Fb>\u003Cbr>\u003Cb>diffusers INT8 (torchao): 4.4GB minimum* \u003C\u002Fb>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Multi-GPU Memory Usage\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16: 24GB* using diffusers\u003C\u002Fb>\u003Cbr>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Cb>FP16: 10GB* using diffusers\u003C\u002Fb>\u003Cbr>\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16: 15GB* using diffusers\u003C\u002Fb>\u003Cbr>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Inference Speed\u003Cbr>(Step = 50, FP\u002FBF16)\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">Single A100: ~1000 seconds (5-second video)\u003Cbr>Single H100: ~550 seconds (5-second video)\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">Single A100: ~90 seconds\u003Cbr>Single H100: ~45 seconds\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">Single A100: ~180 seconds\u003Cbr>Single H100: ~90 seconds\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Prompt Language\u003C\u002Ftd>\n    \u003Ctd colspan=\"5\" style=\"text-align: center;\">English*\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Prompt Token Limit\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">224 Tokens\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">226 Tokens\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Video Length\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">5 seconds or 10 seconds\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">6 seconds\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Frame Rate\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">16 frames \u002F second \u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">8 frames \u002F second \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Position Encoding\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">3d_rope_pos_embed\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">3d_sincos_pos_embed\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">3d_rope_pos_embed\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">3d_rope_pos_embed + learnable_pos_embed\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Download Link (Diffusers)\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5B\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5B-I2V\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B-I2V\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B-I2V\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-2b\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-2b\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-2b\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b-I2V\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b-I2V\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b-I2V\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Download Link (SAT)\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5b-SAT\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5b-SAT\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5b-SAT\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">\u003Ca href=\".\u002Fsat\u002FREADME_zh.md\">SAT\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n**Data Explanation**\n\n+ While testing using the diffusers library, all optimizations included in the diffusers library were enabled. This\n  scheme has not been tested for actual memory usage on devices outside of **NVIDIA A100 \u002F H100** architectures.\n  Generally, this scheme can be adapted to all **NVIDIA Ampere architecture** and above devices. If optimizations are\n  disabled, memory consumption will multiply, with peak memory usage being about 3 times the value in the table.\n  However, speed will increase by about 3-4 times. You can selectively disable some optimizations, including:\n\n```\npipe.enable_sequential_cpu_offload()\npipe.vae.enable_slicing()\npipe.vae.enable_tiling()\n```\n\n+ For multi-GPU inference, the `enable_sequential_cpu_offload()` optimization needs to be disabled.\n+ Using INT8 models will slow down inference, which is done to accommodate lower-memory GPUs while maintaining minimal\n  video quality loss, though inference speed will significantly decrease.\n+ The CogVideoX-2B model was trained in `FP16` precision, and all CogVideoX-5B models were trained in `BF16` precision.\n  We recommend using the precision in which the model was trained for inference.\n+ [PytorchAO](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fao) and [Optimum-quanto](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Foptimum-quanto\u002F) can be\n  used to quantize the text encoder, transformer, and VAE modules to reduce the memory requirements of CogVideoX. This\n  allows the model to run on free T4 Colabs or GPUs with smaller memory! Also, note that TorchAO quantization is fully\n  compatible with `torch.compile`, which can significantly improve inference speed. FP8 precision must be used on\n  devices with NVIDIA H100 and above, requiring source installation of `torch`, `torchao` Python packages. CUDA 12.4 is recommended.\n+ The inference speed tests also used the above memory optimization scheme. Without memory optimization, inference speed\n  increases by about 10%. Only the `diffusers` version of the model supports quantization.\n+ The model only supports English input; other languages can be translated into English for use via large model\n  refinement.\n\n\n## Friendly Links\n\nWe highly welcome contributions from the community and actively contribute to the open-source community. The following\nworks have already been adapted for CogVideoX, and we invite everyone to use them:\n\n+ [LeMiCa](https:\u002F\u002Funicomai.github.io\u002FLeMiCa\u002F): a diffusion model inference acceleration solution developed by China Unicom Data Science and Artificial Intelligence Research Institute. By leveraging cache-based techniques and global denoising path optimization, LeMiCa provides efficient inference support for CogVideoX, achieving nearly 2.5x lossless acceleration while maintaining visual consistency and quality.\n+ [RIFLEx-CogVideoX](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FRIFLEx):\n  RIFLEx extends the video with just one line of code: `freq[k-1]=(2np.pi)\u002F(Ls)`. The framework not only supports training-free inference, but also offers models fine-tuned based on CogVideoX. By fine-tuning the model for just 1,000 steps on original-length videos, RIFLEx significantly enhances its length extrapolation capability.\n+ [CogVideoX-Fun](https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FCogVideoX-Fun): CogVideoX-Fun is a modified pipeline based on the\n  CogVideoX architecture, supporting flexible resolutions and multiple launch methods.\n+ [CogStudio](https:\u002F\u002Fgithub.com\u002Fpinokiofactory\u002Fcogstudio): A separate repository for CogVideo's Gradio Web UI, which\n  supports more functional Web UIs.\n+ [Xorbits Inference](https:\u002F\u002Fgithub.com\u002Fxorbitsai\u002Finference): A powerful and comprehensive distributed inference\n  framework, allowing you to easily deploy your own models or the latest cutting-edge open-source models with just one\n  click.\n+ [ComfyUI-CogVideoXWrapper](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper) Use the ComfyUI framework to integrate\n  CogVideoX into your workflow.\n+ [VideoSys](https:\u002F\u002Fgithub.com\u002FNUS-HPC-AI-Lab\u002FVideoSys): VideoSys provides a user-friendly, high-performance\n  infrastructure for video generation, with full pipeline support and continuous integration of the latest models and\n  techniques.\n+ [AutoDL Space](https:\u002F\u002Fwww.codewithgpu.com\u002Fi\u002FTHUDM\u002FCogVideo\u002FCogVideoX-5b-demo): A one-click deployment Huggingface\n  Space image provided by community members.\n+ [Interior Design Fine-Tuning Model](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fbertjiazheng\u002Fkoolcogvideox-66e4762f53287b7f39f8f3ba):\n  is a fine-tuned model based on CogVideoX, specifically designed for interior design.\n+ [xDiT](https:\u002F\u002Fgithub.com\u002Fxdit-project\u002FxDiT): xDiT is a scalable inference engine for Diffusion Transformers (DiTs)\n  on multiple GPU Clusters. xDiT supports real-time image and video generations services.\n  [cogvideox-factory](https:\u002F\u002Fgithub.com\u002Fa-r-r-o-w\u002Fcogvideox-factory): A cost-effective\n  fine-tuning framework for CogVideoX, compatible with the `diffusers` version model. Supports more resolutions, and\n  fine-tuning CogVideoX-5B can be done with a single 4090 GPU.\n+ [CogVideoX-Interpolation](https:\u002F\u002Fgithub.com\u002Ffeizc\u002FCogvideX-Interpolation): A pipeline based on the modified CogVideoX\n  structure, aimed at providing greater flexibility for keyframe interpolation generation.\n+ [DiffSynth-Studio](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FDiffSynth-Studio): DiffSynth Studio is a diffusion engine. It has\n  restructured the architecture, including text encoders, UNet, VAE, etc., enhancing computational performance while\n  maintaining compatibility with open-source community models. The framework has been adapted for CogVideoX.\n+ [CogVideoX-Controlnet](https:\u002F\u002Fgithub.com\u002FTheDenk\u002Fcogvideox-controlnet): A simple ControlNet module code that includes the CogVideoX model.\n+ [VideoTuna](https:\u002F\u002Fgithub.com\u002FVideoVerses\u002FVideoTuna): VideoTuna is the first repo that integrates multiple AI video generation models for text-to-video, image-to-video, text-to-image generation.\n+ [ConsisID](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FConsisID): An identity-preserving text-to-video generation model, bases on CogVideoX-5B, which keep the face consistent in the generated video by frequency decomposition.\n+ [A Step by Step Tutorial](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=5UCkMzP2VLE&ab_channel=SECourses): A step-by-step guide on installing and optimizing the CogVideoX1.5-5B-I2V model in Windows and cloud environments. Special thanks to the [FurkanGozukara](https:\u002F\u002Fgithub.com\u002FFurkanGozukara) for his effort and support!\n\n## Project Structure\n\nThis open-source repository will guide developers to quickly get started with the basic usage and fine-tuning examples\nof the **CogVideoX** open-source model.\n\n### Quick Start with Colab\n\nHere provide three projects that can be run directly on free Colab T4 instances:\n\n+ [CogVideoX-5B-T2V-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1pCe5s0bC_xuXbBlpvIH1z0kfdTLQPzCS?usp=sharing):\n  CogVideoX-5B Text-to-Video Colab code.\n+ [CogVideoX-5B-T2V-Int8-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1DUffhcjrU-uz7_cpuJO3E_D4BaJT7OPa?usp=sharing):\n  CogVideoX-5B Quantized Text-to-Video Inference Colab code, which takes about 30 minutes per run.\n+ [CogVideoX-5B-I2V-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F17CqYCqSwz39nZAX2YyonDxosVKUZGzcX?usp=sharing):\n  CogVideoX-5B Image-to-Video Colab code.\n+ [CogVideoX-5B-V2V-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1comfGAUJnChl5NwPuO8Ox5_6WCy4kbNN?usp=sharing):\n  CogVideoX-5B Video-to-Video Colab code.\n\n### Inference\n\n+ [dcli_demo](inference\u002Fcli_demo.py): A more detailed inference code explanation, including the significance of\n  common parameters. All of this is covered here.\n+ [cli_demo_quantization](inference\u002Fcli_demo_quantization.py):\n  Quantized model inference code that can run on devices with lower memory. You can also modify this code to support\n  running CogVideoX models in FP8 precision.\n+ [diffusers_vae_demo](inference\u002Fcli_vae_demo.py): Code for running VAE inference separately.\n+ [space demo](inference\u002Fgradio_composite_demo): The same GUI code as used in the Huggingface Space, with frame\n  interpolation and super-resolution tools integrated.\n\n\u003Cdiv style=\"text-align: center;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_readme_3996f9cca401.png\" style=\"width: 100%; height: auto;\" \u002F>\n\u003C\u002Fdiv>\n\n+ [convert_demo](inference\u002Fconvert_demo.py): How to convert user input into long-form input suitable for CogVideoX.\n  Since CogVideoX is trained on long texts, we need to transform the input text distribution to match the training data\n  using an LLM. The script defaults to using GLM-4, but it can be replaced with GPT, Gemini, or any other large language\n  model.\n+ [gradio_web_demo](inference\u002Fgradio_composite_demo): A simple Gradio web application demonstrating how to use the\n  CogVideoX-2B \u002F 5B model to generate videos. Similar to our Huggingface Space, you can use this script to run a simple\n  web application for video generation.\n\n### finetune\n\n+ [finetune_demo](finetune\u002FREADME.md): Fine-tuning scheme and details of the diffusers version of the CogVideoX model.\n\n### sat\n\n+ [sat_demo](sat\u002FREADME.md): Contains the inference code and fine-tuning code of SAT weights. It is recommended to\n  improve based on the CogVideoX model structure. Innovative researchers use this code to better perform rapid stacking\n  and development.\n\n### Tools\n\nThis folder contains some tools for model conversion \u002F caption generation, etc.\n\n+ [convert_weight_sat2hf](tools\u002Fconvert_weight_sat2hf.py): Converts SAT model weights to Huggingface model weights.\n+ [caption_demo](tools\u002Fcaption\u002FREADME.md): Caption tool, a model that understands videos and outputs descriptions in\n  text.\n+ [export_sat_lora_weight](tools\u002Fexport_sat_lora_weight.py): SAT fine-tuning model export tool, exports the SAT Lora\n  Adapter in diffusers format.\n+ [load_cogvideox_lora](tools\u002Fload_cogvideox_lora.py): Tool code for loading the diffusers version of fine-tuned Lora\n  Adapter.\n+ [llm_flux_cogvideox](tools\u002Fllm_flux_cogvideox\u002Fllm_flux_cogvideox.py): Automatically generate videos using an\n  open-source local large language model + Flux + CogVideoX.\n+ [parallel_inference_xdit](tools\u002Fparallel_inference\u002Fparallel_inference_xdit.py):\n  Supported by [xDiT](https:\u002F\u002Fgithub.com\u002Fxdit-project\u002FxDiT), parallelize the\n  video generation process on multiple GPUs.\n\n## CogVideo(ICLR'23)\n\nThe official repo for the\npaper: [CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.15868)\nis on the [CogVideo branch](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo\u002Ftree\u002FCogVideo)\n\n**CogVideo is able to generate relatively high-frame-rate videos.**\nA 4-second clip of 32 frames is shown below.\n\n![High-frame-rate sample](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_readme_aa840a5dcba1.png)\n\n![Intro images](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_readme_67cc1011196c.png)\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F2fa19651-e925-4a2a-b8d6-b3f216d490ba\" width=\"80%\" controls autoplay>\u003C\u002Fvideo>\n\u003C\u002Fdiv>\n\n\nThe demo for CogVideo is at [https:\u002F\u002Fmodels.aminer.cn\u002Fcogvideo](https:\u002F\u002Fmodels.aminer.cn\u002Fcogvideo\u002F), where you can get\nhands-on practice on text-to-video generation. *The original input is in Chinese.*\n\n## Citation\n\n🌟 If you find our work helpful, please leave us a star and cite our paper.\n\n```\n@article{yang2024cogvideox,\n  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},\n  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},\n  journal={arXiv preprint arXiv:2408.06072},\n  year={2024}\n}\n@article{hong2022cogvideo,\n  title={CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers},\n  author={Hong, Wenyi and Ding, Ming and Zheng, Wendi and Liu, Xinghan and Tang, Jie},\n  journal={arXiv preprint arXiv:2205.15868},\n  year={2022}\n}\n```\n\n## Model-License\n\nThe code in this repository is released under the [Apache 2.0 License](LICENSE).\n\nThe CogVideoX-2B model (including its corresponding Transformers module and VAE module) is released under\nthe [Apache 2.0 License](LICENSE).\n\nThe CogVideoX-5B model (Transformers module, include I2V and T2V) is released under\nthe [CogVideoX LICENSE](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b\u002Fblob\u002Fmain\u002FLICENSE).\n","# CogVideo & CogVideoX\n\n[中文阅读](.\u002FREADME_zh.md)\n\n[日本語で読む](.\u002FREADME_ja.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=resources\u002Flogo.svg width=\"50%\"\u002F>\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n在线体验 CogVideoX-5B 模型，请访问 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM\u002FCogVideoX-5B\" target=\"_blank\"> 🤗 Huggingface Space\u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FZhipuAI\u002FCogVideoX-5b-demo\" target=\"_blank\"> 🤖 ModelScope Space\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n📚 查看 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06072\" target=\"_blank\">论文\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fzhipu-ai.feishu.cn\u002Fwiki\u002FDHCjw1TrJiTyeukfc9RceoSRnCh\" target=\"_blank\">用户指南\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    👋 加入我们的 \u003Ca href=\"resources\u002FWECHAT.md\" target=\"_blank\">微信\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FdCGfUsagrD\" target=\"_blank\">Discord\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n📍 访问 \u003Ca href=\"https:\u002F\u002Fchatglm.cn\u002Fvideo?lang=en?fr=osm_cogvideo\">QingYing\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fopen.bigmodel.cn\u002F?utm_campaign=open&_channel_track_key=OWTVNma9\">API 平台\u003C\u002Fa>, 体验更大规模的商用视频生成模型。\n\u003C\u002Fp>\n\n## 项目更新\n\n- 🔥🔥 **新闻**: ```2025\u002F03\u002F24```: 我们推出了 [CogKit](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogKit), 这是一个针对 **CogView4** 和 **CogVideoX** 系列的微调与推理框架。该工具包使您能够充分探索和利用我们的多模态生成模型。\n- 🔥 **新闻**: ```2025\u002F02\u002F28```: `CogVideoX-5B` 和 `CogVideoX1.5-5B` 现已支持 DDIM 反演。请查看 [此处](inference\u002Fddim_inversion.py)。\n- 🔥 **新闻**: ```2025\u002F01\u002F08```: 我们基于 `diffusers` 版本的模型更新了 `Lora` 微调代码，该版本占用更少的显存。更多详情请参见 [这里](finetune\u002FREADME.md)。\n- 🔥 **新闻**: ```2024\u002F11\u002F15```: 我们发布了 `diffusers` 版本的 `CogVideoX1.5` 模型。只需对参数进行少量调整，即可继续使用之前的代码。\n- 🔥 **新闻**: ```2024\u002F11\u002F08```: 我们发布了 CogVideoX1.5 模型。CogVideoX1.5 是开源模型 CogVideoX 的升级版。\nCogVideoX1.5-5B 系列支持更高分辨率的 10 秒视频，而 CogVideoX1.5-5B-I2V 则支持任意分辨率的视频生成。\nSAT 版本的代码已经更新，而 diffusers 版本仍在适配中。您可以从 [这里](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5B-SAT) 下载 SAT 版本的代码。\n- 🔥 **新闻**: ```2024\u002F10\u002F13```: 针对 `CogVideoX-5B` 推出了一种更经济高效的微调框架 `cogvideox-factory`（https:\u002F\u002Fgithub.com\u002Fa-r-r-o-w\u002Fcogvideox-factory），仅需一张 4090 显卡即可运行。该框架支持多种分辨率的微调。欢迎试用！\n- 🔥 **新闻**: ```2024\u002F10\u002F10```: 我们更新了技术报告。请点击 [这里](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.06072) 查看。报告中新增了更多训练细节和演示内容。如需观看演示，请访问 [这里](https:\u002F\u002Fyzy-thu.github.io\u002FCogVideoX-demo\u002F)。\n- 🔥 **新闻**: ```2024\u002F10\u002F09```: 我们在飞书上公开了 CogVideoX 微调的 [技术文档](https:\u002F\u002Fzhipu-ai.feishu.cn\u002Fwiki\u002FDHCjw1TrJiTyeukfc9RceoSRnCh)，进一步提升了分发的灵活性。文档中的所有示例均可完全复现。\n- 🔥 **新闻**: ```2024\u002F9\u002F19```: 我们开源了 CogVideoX 系列的图像转视频模型 **CogVideoX-5B-I2V**。该模型可以以图片作为背景输入，并结合提示词生成视频，具有更高的可控性。至此，CogVideoX 系列模型已支持三项任务：文本转视频、视频续写以及图像转视频。欢迎您前往 [Experience](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM\u002FCogVideoX-5B-Space) 在线体验。\n- 🔥 ```2024\u002F9\u002F19```: 用于 CogVideoX 训练过程中将视频数据转换为文本描述的字幕模型 [CogVLM2-Caption](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fcogvlm2-llama3-caption) 已开源。欢迎下载并使用。\n- 🔥 ```2024\u002F8\u002F27```: 我们开源了 CogVideoX 系列中更大的模型 **CogVideoX-5B**。我们显著优化了模型的推理性能，大大降低了推理门槛。\n您可以在较旧的 GPU 上运行 **CogVideoX-2B**（如 GTX 1080TI），而在桌面级 GPU 上运行 **CogVideoX-5B**（如 RTX 3060）。请严格按照 [requirements.txt](requirements.txt) 中的要求更新和安装依赖项，并参考 [cli_demo](inference\u002Fcli_demo.py) 获取推理代码。此外，**CogVideoX-2B** 模型的开源许可证已变更为 **Apache 2.0 许可证**。\n- 🔥 ```2024\u002F8\u002F6```: 我们开源了用于 **CogVideoX-2B** 的 **3D 因果 VAE**，该模型几乎无损地重建视频。\n- 🔥 ```2024\u002F8\u002F6```: 我们开源了 CogVideoX 系列视频生成模型中的首款模型 **CogVideoX-2B**。\n- 🌱 **来源**: ```2022\u002F5\u002F19```: 我们开源了 CogVideo 视频生成模型（现在您可以在 `CogVideo` 分支中找到它）。这是首个开源的大规模基于 Transformer 的文本到视频生成模型。您可以通过 [ICLR'23 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.15868) 查阅相关技术细节。\n\n## 目录\n\n跳转至特定章节：\n\n- [快速入门](#quick-start)\n  - [提示优化](#prompt-optimization)\n  - [SAT](#sat)\n  - [Diffusers](#diffusers)\n- [图库](#gallery)\n  - [CogVideoX-5B](#cogvideox-5b)\n  - [CogVideoX-2B](#cogvideox-2b)\n- [模型介绍](#model-introduction)\n- [友好链接](#friendly-links)\n- [项目结构](#project-structure)\n  - [Colab 快速入门](#quick-start-with-colab)\n  - [推理](#inference)\n  - [微调](#finetune)\n  - [SAT](#sat-1)\n  - [工具](#tools)\n- [CogVideo(ICLR'23)](#cogvideoiclr23)\n- [引用](#citation)\n- [模型许可证](#model-license)\n\n## 快速入门\n\n### 提示优化\n\n在运行模型之前，请参考 [此指南](inference\u002Fconvert_demo.py) 了解我们如何使用大型模型（如 GLM-4，或其他类似产品，例如 GPT-4）来优化提示。这一点至关重要，因为该模型是使用长提示进行训练的，优质的提示会直接影响视频生成的质量。\n\n### SAT\n\n**请确保您的 Python 版本介于 3.10 和 3.12 之间，包括 3.10 和 3.12。**\n\n请按照 [sat_demo](sat\u002FREADME.md) 中的说明操作：其中包含 SAT 权重的推理代码和微调代码。建议基于 CogVideoX 的模型结构进行改进。创新研究人员可使用此代码更高效地进行快速堆叠和开发。\n\n### 扩散模型\n\n**请确保您的 Python 版本介于 3.10 和 3.12 之间，包括 3.10 和 3.12。**\n\n```\npip install -r requirements.txt\n```\n\n然后按照 [diffusers_demo](inference\u002Fcli_demo.py) 的说明操作：其中对推理代码进行了更详细的解释，并提及了常见参数的重要意义。\n\n如需了解更多关于量化推理的细节，请参阅 [diffusers-torchao](https:\u002F\u002Fgithub.com\u002Fsayakpaul\u002Fdiffusers-torchao\u002F)。借助 Diffusers 和 TorchAO，不仅可以实现量化推理以节省显存，而且在某些情况下经过编译后还能提升速度。关于 A100 和 H100 上不同设置下的完整内存和时间基准测试结果已发布在 [diffusers-torchao](https:\u002F\u002Fgithub.com\u002Fsayakpaul\u002Fdiffusers-torchao) 中。\n\n## 作品集\n\n### CogVideoX-5B\n\n\u003Ctable border=\"0\" style=\"width: 100%; text-align: left; margin-top: 20px;\">\n  \u003Ctr>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fcf5953ea-96d3-48fd-9907-c4708752c714\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffe0a78e6-b669-4800-8cf0-b5f9b5145b52\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n       \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc182f606-8f8c-421d-b414-8487070fcfcb\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7db2bbce-194d-434d-a605-350254b6c298\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F62b01046-8cab-44cc-bd45-4d965bb615ec\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd78e552a-4b3f-4b81-ac3f-3898079554f6\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n       \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F30894f12-c741-44a2-9e6e-ddcacc231e5b\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F926575ca-7150-435b-a0ff-4900a963297b\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### CogVideoX-2B\n\n\u003Ctable border=\"0\" style=\"width: 100%; text-align: left; margin-top: 20px;\">\n  \u003Ctr>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fea3af39a-3160-4999-90ec-2f7863c5b0e9\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9de41efd-d4d1-4095-aeda-246dd834e91d\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n      \u003C\u002Ftd>\n       \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F941d6661-6a8d-4a1b-b912-59606f0b2841\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n      \u003Ctd>\n          \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F938529c4-91ae-4f60-b96b-3c3947fa63cb\" width=\"100%\" controls autoplay loop>\u003C\u002Fvideo>\n     \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n如需查看作品集中每段视频对应的提示词，请点击 [这里](resources\u002Fgalary_prompt.md)。\n\n## 模型介绍\n\nCogVideoX 是源自 [QingYing](https:\u002F\u002Fchatglm.cn\u002Fvideo?lang=en?fr=osm_cogvideo) 的视频生成模型的开源版本。下表展示了我们目前提供的视频生成模型列表及其基础信息。\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n  \u003Ctr>\n    \u003Cth style=\"text-align: center;\">模型名称\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX1.5-5B（最新）\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX1.5-5B-I2V（最新）\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX-2B\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX-5B\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogVideoX-5B-I2V\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">发布日期\u003C\u002Ftd>\n    \u003Cth style=\"text-align: center;\">2024年11月8日\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">2024年11月8日\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">2024年8月6日\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">2024年8月27日\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">2024年9月19日\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">视频分辨率\u003C\u002Ftd>\n    \u003Ctd colspan=\"1\" style=\"text-align: center;\">1360 * 768\u003C\u002Ftd>\n    \u003Ctd colspan=\"1\" style=\"text-align: center;\"> Min(W, H) = 768 \u003Cbr> 768 ≤ Max(W, H) ≤ 1360 \u003Cbr> Max(W, H) % 16 = 0 \u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">720 * 480\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">帧数\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">应为\u003Cb>16N + 1\u003C\u002Fb>,其中N ≤ 10（默认81）\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">应为\u003Cb>8N + 1\u003C\u002Fb>,其中N ≤ 6（默认49）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">推理精度\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16（推荐）\u003C\u002Fb>, FP16、FP32、FP8*、INT8，不支持：INT4\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Cb>FP16*（推荐）\u003C\u002Fb>, BF16、FP32、FP8*、INT8，不支持：INT4\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16（推荐）\u003C\u002Fb>, FP16、FP32、FP8*、INT8，不支持：INT4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">单GPU显存占用\u003Cbr>\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer\">SAT\u003C\u002Fa> BF16：76GB \u003Cbr>\u003Cb>diffusers BF16：从10GB*开始\u003C\u002Fb>\u003Cbr>\u003Cb>diffusers INT8（torchao）：从7GB*开始\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer\">SAT\u003C\u002Fa> FP16：18GB \u003Cbr>\u003Cb>diffusers FP16：最低4GB*\u003C\u002Fb>\u003Cbr>\u003Cb>diffusers INT8（torchao）：最低3.6GB*\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002FSwissArmyTransformer\">SAT\u003C\u002Fa> BF16：26GB \u003Cbr>\u003Cb>diffusers BF16：最低5GB*\u003C\u002Fb>\u003Cbr>\u003Cb>diffusers INT8（torchao）：最低4.4GB*\u003C\u002Fb>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">多GPU显存占用\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16：使用diffusers时为24GB*\u003C\u002Fb>\u003Cbr>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Cb>FP16：使用diffusers时为10GB*\u003C\u002Fb>\u003Cbr>\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Cb>BF16：使用diffusers时为15GB*\u003C\u002Fb>\u003Cbr>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">推理速度\u003Cbr>（步数=50，FP\u002FBF16）\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">单张A100：约1000秒（5秒视频）\u003Cbr>单张H100：约550秒（5秒视频）\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">单张A100：约90秒\u003Cbr>单张H100：约45秒\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">单张A100：约180秒\u003Cbr>单张H100：约90秒\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">提示语语言\u003C\u002Ftd>\n    \u003Ctd colspan=\"5\" style=\"text-align: center;\">英语*\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">提示语Token限制\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">224个Token\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">226个Token\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">视频长度\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">5秒或10秒\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">6秒\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">帧率\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">16帧\u002F秒\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">8帧\u002F秒\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">位置编码\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">3d_rope_pos_embed\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">3d_sincos_pos_embed\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">3d_rope_pos_embed\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">3d_rope_pos_embed + learnable_pos_embed\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">下载链接（Diffusers）\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5B\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5B-I2V\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B-I2V\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5B-I2V\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-2b\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-2b\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-2b\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b-I2V\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b-I2V\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX-5b-I2V\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">下载链接（SAT）\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX1.5-5b-SAT\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5b-SAT\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogVideoX1.5-5b-SAT\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd colspan=\"3\" style=\"text-align: center;\">\u003Ca href=\".\u002Fsat\u002FREADME_zh.md\">SAT\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n**数据说明**\n\n+ 在使用diffusers库进行测试时，已启用diffusers库中包含的所有优化。此方案尚未在**NVIDIA A100 \u002F H100**架构以外的设备上测试实际显存占用情况。\n  通常，该方案可适配所有**NVIDIA Ampere架构**及以上设备。若禁用优化，显存消耗将显著增加，峰值显存占用约为表格中数值的3倍。\n  然而，推理速度将提升约3至4倍。您可以选择性地禁用部分优化，包括：\n\n```\npipe.enable_sequential_cpu_offload()\npipe.vae.enable_slicing()\npipe.vae.enable_tiling()\n```\n\n+ 对于多GPU推理，需要禁用`enable_sequential_cpu_offload()`优化。\n+ 使用INT8模型会降低推理速度，这是为了在保持视频质量损失最小的情况下，适应显存较小的GPU而采取的措施，尽管如此，推理速度会显著下降。\n+ CogVideoX-2B模型以`FP16`精度训练，所有CogVideoX-5B模型则以`BF16`精度训练。我们建议在推理时使用与模型训练时相同的精度。\n+ 可以使用[PytorchAO](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fao)和[Optimum-quanto](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Foptimum-quanto\u002F)将文本编码器、Transformer和VAE模块量化，从而降低CogVideoX的显存需求。这样可以让模型在免费的T4 Colab或显存较小的GPU上运行！此外，请注意，TorchAO量化与`torch.compile`完全兼容，可以显著提升推理速度。在配备NVIDIA H100及以上显卡的设备上必须使用FP8精度，这需要从源码安装`torch`和`torchao`Python包。推荐使用CUDA 12.4。\n+ 推理速度测试也采用了上述显存优化方案。如果不进行显存优化，推理速度大约会提高10%。只有`diffusers`版本的模型支持量化。\n+ 该模型仅支持英文输入；其他语言可以通过大模型微调翻译成英文后使用。\n\n\n\n\n## 友情链接\n\n我们非常欢迎社区贡献，并积极回馈开源社区。以下项目已经适配了CogVideoX，欢迎大家使用：\n\n+ [LeMiCa](https:\u002F\u002Funicomai.github.io\u002FLeMiCa\u002F)：由中国联通数据科学与人工智能研究院开发的扩散模型推理加速方案。通过基于缓存的技术和全局去噪路径优化，LeMiCa为CogVideoX提供了高效的推理支持，在保持视觉一致性和质量的同时，实现了近2.5倍的无损加速。\n+ [RIFLEx-CogVideoX](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FRIFLEx)：RIFLEx只需一行代码即可扩展视频长度：`freq[k-1]=(2np.pi)\u002F(Ls)`。该框架不仅支持免训练推理，还提供了基于CogVideoX微调的模型。通过对原始长度视频仅进行1,000步微调，RIFLEx显著提升了长视频外推能力。\n+ [CogVideoX-Fun](https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FCogVideoX-Fun)：CogVideoX-Fun是在CogVideoX架构基础上修改的流水线，支持灵活的分辨率和多种启动方式。\n+ [CogStudio](https:\u002F\u002Fgithub.com\u002Fpinokiofactory\u002Fcogstudio)：CogVideo的Gradio Web UI独立仓库，支持更多功能丰富的Web界面。\n+ [Xorbits Inference](https:\u002F\u002Fgithub.com\u002Fxorbitsai\u002Finference)：一个强大且全面的分布式推理框架，只需点击一下即可轻松部署您自己的模型或最新的前沿开源模型。\n+ [ComfyUI-CogVideoXWrapper](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper)：使用ComfyUI框架将CogVideoX集成到您的工作流中。\n+ [VideoSys](https:\u002F\u002Fgithub.com\u002FNUS-HPC-AI-Lab\u002FVideoSys)：VideoSys为视频生成提供了一个用户友好、高性能的基础设施，支持完整的流水线，并持续集成最新的模型和技术。\n+ [AutoDL Space](https:\u002F\u002Fwww.codewithgpu.com\u002Fi\u002FTHUDM\u002FCogVideo\u002FCogVideoX-5b-demo)：由社区成员提供的Huggingface Space一键部署镜像。\n+ [室内设计微调模型](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fbertjiazheng\u002Fkoolcogvideox-66e4762f53287b7f39f8f3ba)：基于CogVideoX的微调模型，专为室内设计场景打造。\n+ [xDiT](https:\u002F\u002Fgithub.com\u002Fxdit-project\u002FxDiT)：xDiT是一个可扩展的扩散Transformer（DiT）推理引擎，可在多个GPU集群上运行。xDiT支持实时图像和视频生成服务。\n+ [cogvideox-factory](https:\u002F\u002Fgithub.com\u002Fa-r-r-o-w\u002Fcogvideox-factory)：一个经济高效的CogVideoX微调框架，兼容`diffusers`版本模型。支持更多分辨率，使用单张4090 GPU即可完成CogVideoX-5B的微调。\n+ [CogVideoX-Interpolation](https:\u002F\u002Fgithub.com\u002Ffeizc\u002FCogvideX-Interpolation)：基于修改后的CogVideoX结构的流水线，旨在为关键帧插值生成提供更多灵活性。\n+ [DiffSynth-Studio](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FDiffSynth-Studio)：DiffSynth Studio是一个扩散引擎，重新构建了包括文本编码器、UNet、VAE等在内的架构，在保持与开源社区模型兼容性的同时提升了计算性能。该框架已适配CogVideoX。\n+ [CogVideoX-Controlnet](https:\u002F\u002Fgithub.com\u002FTheDenk\u002Fcogvideox-controlnet)：一个简单的包含CogVideoX模型的ControlNet模块代码。\n+ [VideoTuna](https:\u002F\u002Fgithub.com\u002FVideoVerses\u002FVideoTuna)：VideoTuna是首个整合多种AI视频生成模型的仓库，支持文生视频、图生视频及文生图等功能。\n+ [ConsisID](https:\u002F\u002Fgithub.com\u002FPKU-YuanGroup\u002FConsisID)：一种保留身份特征的文生视频生成模型，基于CogVideoX-5B，通过频率分解技术在生成的视频中保持面部一致性。\n+ [逐步教程](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=5UCkMzP2VLE&ab_channel=SECourses)：关于在Windows和云环境中安装并优化CogVideoX1.5-5B-I2V模型的分步指南。特别感谢[FurkanGozukara](https:\u002F\u002Fgithub.com\u002FFurkanGozukara)的付出与支持！\n\n## 项目结构\n\n本开源仓库将引导开发者快速上手**CogVideoX**开源模型的基本用法及微调示例。\n\n### Colab快速入门\n\n这里提供三个可以直接在免费Colab T4实例上运行的项目：\n\n+ [CogVideoX-5B-T2V-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1pCe5s0bC_xuXbBlpvIH1z0kfdTLQPzCS?usp=sharing)：CogVideoX-5B文生视频Colab代码。\n+ [CogVideoX-5B-T2V-Int8-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1DUffhcjrU-uz7_cpuJO3E_D4BaJT7OPa?usp=sharing)：CogVideoX-5B量化文生视频推理Colab代码，每次运行大约需要30分钟。\n+ [CogVideoX-5B-I2V-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F17CqYCqSwz39nZAX2YyonDxosVKUZGzcX?usp=sharing)：CogVideoX-5B图生视频Colab代码。\n+ [CogVideoX-5B-V2V-Colab.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1comfGAUJnChl5NwPuO8Ox5_6WCy4kbNN?usp=sharing)：CogVideoX-5B视频转视频Colab代码。\n\n### 推理\n\n+ [dcli_demo](inference\u002Fcli_demo.py)：更详细的推理代码说明，包括常见参数的意义。所有内容均在此处介绍。\n+ [cli_demo_quantization](inference\u002Fcli_demo_quantization.py)：\n  量化模型推理代码，可在内存较低的设备上运行。您也可以修改此代码以支持以 FP8 精度运行 CogVideoX 模型。\n+ [diffusers_vae_demo](inference\u002Fcli_vae_demo.py)：用于单独运行 VAE 推理的代码。\n+ [space demo](inference\u002Fgradio_composite_demo)：与 Huggingface Space 中使用的相同 GUI 代码，集成了帧插值和超分辨率工具。\n\n\u003Cdiv style=\"text-align: center;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_readme_3996f9cca401.png\" style=\"width: 100%; height: auto;\" \u002F>\n\u003C\u002Fdiv>\n\n+ [convert_demo](inference\u002Fconvert_demo.py)：如何将用户输入转换为适合 CogVideoX 的长文本输入。由于 CogVideoX 是基于长文本训练的，我们需要使用大语言模型将输入文本分布调整为与训练数据一致。该脚本默认使用 GLM-4，但也可以替换为 GPT、Gemini 或其他大型语言模型。\n+ [gradio_web_demo](inference\u002Fgradio_composite_demo)：一个简单的 Gradio Web 应用程序，演示如何使用 CogVideoX-2B \u002F 5B 模型生成视频。与我们的 Huggingface Space 类似，您可以使用此脚本运行一个简单的视频生成 Web 应用程序。\n\n### 微调\n\n+ [finetune_demo](finetune\u002FREADME.md)：CogVideoX 模型 diffusers 版本的微调方案及详细信息。\n\n### SAT\n\n+ [sat_demo](sat\u002FREADME.md)：包含 SAT 权重的推理代码和微调代码。建议在 CogVideoX 模型结构的基础上进行改进。创新研究人员可利用此代码更好地进行快速堆叠和开发。\n\n### 工具\n\n该文件夹包含一些用于模型转换、字幕生成等的工具。\n\n+ [convert_weight_sat2hf](tools\u002Fconvert_weight_sat2hf.py)：将 SAT 模型权重转换为 Huggingface 模型权重。\n+ [caption_demo](tools\u002Fcaption\u002FREADME.md)：字幕工具，一种能够理解视频并输出文字描述的模型。\n+ [export_sat_lora_weight](tools\u002Fexport_sat_lora_weight.py)：SAT 微调模型导出工具，以 diffusers 格式导出 SAT Lora Adapter。\n+ [load_cogvideox_lora](tools\u002Fload_cogvideox_lora.py)：用于加载微调后的 diffusers 版本 Lora Adapter 的工具代码。\n+ [llm_flux_cogvideox](tools\u002Fllm_flux_cogvideox\u002Fllm_flux_cogvideox.py)：使用开源本地大语言模型 + Flux + CogVideoX 自动生成视频。\n+ [parallel_inference_xdit](tools\u002Fparallel_inference\u002Fparallel_inference_xdit.py)：\n  基于 [xDiT](https:\u002F\u002Fgithub.com\u002Fxdit-project\u002FxDiT)，可在多块 GPU 上并行化视频生成过程。\n\n## CogVideo（ICLR'23）\n\n论文的官方仓库：[CogVideo：通过 Transformer 进行文本到视频生成的大规模预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.15868)\n位于 [CogVideo 分支](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo\u002Ftree\u002FCogVideo)\n\n**CogVideo 能够生成相对高帧率的视频。** 下面展示了一段 4 秒、32 帧的视频片段。\n\n![高帧率示例](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_readme_aa840a5dcba1.png)\n\n![介绍图片](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_readme_67cc1011196c.png)\n\u003Cdiv align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F2fa19651-e925-4a2a-b8d6-b3f216d490ba\" width=\"80%\" controls autoplay>\u003C\u002Fvideo>\n\u003C\u002Fdiv>\n\n\nCogVideo 的演示地址为 [https:\u002F\u002Fmodels.aminer.cn\u002Fcogvideo](https:\u002F\u002Fmodels.aminer.cn\u002Fcogvideo\u002F)，您可以在那里亲身体验文本到视频的生成。*原始输入为中文。*\n\n## 引用\n\n🌟 如果您觉得我们的工作有帮助，请为我们点亮星标并引用我们的论文。\n\n```\n@article{yang2024cogvideox,\n  title={CogVideoX：具有专家级 Transformer 的文本到视频扩散模型},\n  author={Yang, Zhuoyi 和 Teng, Jiayan 和 Zheng, Wendi 和 Ding, Ming 和 Huang, Shiyu 和 Xu, Jiazheng 和 Yang, Yuanming 和 Hong, Wenyi 和 Zhang, Xiaohan 和 Feng, Guanyu 等},\n  journal={arXiv 预印本 arXiv:2408.06072},\n  year={2024}\n}\n@article{hong2022cogvideo,\n  title={CogVideo：通过 Transformer 进行文本到视频生成的大规模预训练},\n  author={Hong, Wenyi 和 Ding, Ming 和 Zheng, Wendi 和 Liu, Xinghan 和 Tang, Jie},\n  journal={arXiv 预印本 arXiv:2205.15868},\n  year={2022}\n}\n```\n\n## 模型许可\n\n本仓库中的代码采用 [Apache 2.0 许可证](LICENSE) 发布。\n\nCogVideoX-2B 模型（包括其对应的 Transformer 模块和 VAE 模块）采用 [Apache 2.0 许可证](LICENSE) 发布。\n\nCogVideoX-5B 模型（Transformer 模块，包括 I2V 和 T2V）采用 [CogVideoX 许可证](https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b\u002Fblob\u002Fmain\u002FLICENSE) 发布。","# CogVideo 快速上手指南\n\nCogVideoX 是由智谱 AI 开源的视频生成模型系列，支持文生视频（T2V）和图生视频（I2V）。本指南将帮助您快速在本地部署并运行 CogVideoX 模型。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐) 或 Windows\n- **Python 版本**: 3.10 - 3.12 (必须在此范围内)\n- **GPU 要求**:\n  - **CogVideoX-2B**: 最低支持 GTX 1080TI (需量化或优化)\n  - **CogVideoX-5B \u002F 1.5**: 推荐 RTX 3060 (12GB 显存) 或更高\n  - **显存建议**: 运行 BF16 精度推理建议 16GB+ 显存，若显存不足可参考量化方案。\n\n### 前置依赖\n确保已安装 CUDA 驱动及对应的 PyTorch 版本。建议使用国内镜像源加速依赖下载。\n\n```bash\n# 配置 pip 国内镜像源 (可选，推荐阿里云或清华源)\npip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 安装步骤\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo.git\n   cd CogVideo\n   ```\n\n2. **安装依赖包**\n   项目主要基于 `diffusers` 架构，直接安装根目录下的依赖文件即可。\n   ```bash\n   pip install -r requirements.txt\n   ```\n\n   > **注意**: 如果您计划使用 SAT 版本进行微调或特定开发，请参考 `sat\u002FREADME.md` 中的额外依赖说明。对于大多数推理用户，上述命令已足够。\n\n3. **下载模型权重**\n   您可以从 HuggingFace 或 ModelScope (魔搭社区，国内推荐) 下载模型。\n\n   **方式 A: 使用 ModelScope (国内加速)**\n   ```bash\n   # 需先安装 modelscope: pip install modelscope\n   python -c \"from modelscope import snapshot_download; snapshot_download('ZhipuAI\u002FCogVideoX-5B', cache_dir='.\u002Fmodels')\"\n   ```\n\n   **方式 B: 使用 HuggingFace CLI**\n   ```bash\n   huggingface-cli download THUDM\u002FCogVideoX-5B --local-dir .\u002Fmodels\u002FCogVideoX-5B\n   ```\n   *(注：请将 `CogVideoX-5B` 替换为您需要的具体模型版本，如 `CogVideoX1.5-5B`)*\n\n## 基本使用\n\n以下示例展示如何使用 Python 脚本进行最简单的文生视频推理。假设您已下载 `CogVideoX-5B` 模型到 `.\u002Fmodels\u002FCogVideoX-5B`。\n\n### 1. 编写推理脚本\n\n创建文件 `run_inference.py`，填入以下内容：\n\n```python\nimport torch\nfrom diffusers import CogVideoXPipeline\nfrom diffusers.utils import export_to_video\n\n# 加载模型\n# 将路径替换为您实际下载的模型路径\nmodel_path = \".\u002Fmodels\u002FCogVideoX-5B\" \n\npipe = CogVideoXPipeline.from_pretrained(\n    model_path,\n    torch_dtype=torch.bfloat16, # 推荐使用 bfloat16，显存不足可尝试 float16\n).to(\"cuda\")\n\n# 启用切片注意力以节省显存 (可选，针对低显存用户)\n# pipe.enable_sequential_cpu_offload() \n# pipe.enable_vae_slicing()\n\n# 定义提示词 (建议使用英文提示词以获得最佳效果)\nprompt = \"A cat walking on the street, realistic, 4k, high quality.\"\n\n# 生成视频\ngenerator = torch.Generator(device=\"cuda\").manual_seed(42)\nvideo_frames = pipe(\n    prompt=prompt,\n    num_videos_per_prompt=1,\n    num_inference_steps=50,\n    guidance_scale=7.5,\n    generator=generator,\n).frames[0]\n\n# 保存视频\nexport_to_video(video_frames, \"output.mp4\", fps=8)\nprint(\"视频生成完毕，已保存为 output.mp4\")\n```\n\n### 2. 运行推理\n\n```bash\npython run_inference.py\n```\n\n### 💡 提示词优化建议\nCogVideoX 模型是在长提示词下训练的，简单的短语可能无法发挥模型最佳性能。建议在调用模型前，先使用大语言模型（如 GLM-4、GPT-4）将您的简短想法扩展为详细的英文描述。\n\n您可以参考官方提供的提示词优化脚本逻辑：\n```bash\n# 查看官方提供的转换示例\ncat inference\u002Fconvert_demo.py\n```\n\n### 进阶功能\n- **图生视频 (I2V)**: 加载 `CogVideoX-5B-I2V` 模型，并在 `pipe()` 调用中传入 `image` 参数。\n- **量化推理**: 若显存紧张，可结合 `diffusers-torchao` 进行 FP8 或 INT8 量化推理。\n- **LoRA 微调**: 详见 `finetune\u002FREADME.md`，支持单卡 4090 进行低成本微调。","一家小型独立游戏工作室正在为新品宣传制作动态概念预告片，需要快速将静态原画转化为流畅的视频素材以验证视觉风格。\n\n### 没有 CogVideo 时\n- 美术团队必须手动逐帧绘制或使用昂贵的商业渲染农场，制作一段 5 秒的视频往往耗时数天甚至数周。\n- 若需修改镜头运动或角色动作，必须重新调整复杂的 3D 绑定或重绘大量关键帧，迭代成本极高。\n- 难以在保证分辨率的前提下实现“图生视频”的精准控制，静态原画动起来后常出现人物崩坏或背景扭曲。\n- 缺乏低成本微调能力，无法让生成的视频风格与游戏独特的美术设定（如像素风或水墨风）保持高度一致。\n\n### 使用 CogVideo 后\n- 利用 CogVideoX1.5-5B-I2V 模型，直接上传静态原画并输入提示词，几分钟内即可生成高分辨率、长达 10 秒的流畅视频。\n- 通过调整提示词或启用 DDIM Inverse 功能，可快速修正动作细节或延续视频片段，无需从头开始制作，大幅加速创意验证。\n- 依托其强大的图像到视频生成能力，完美保留原画的角色特征与背景细节，显著减少了画面闪烁和结构变形问题。\n- 借助基于 Diffusers 的 LoRA 微调框架，仅需单张 4090 显卡即可低成本训练专属风格模型，让输出内容完美契合游戏美术规范。\n\nCogVideo 将视频创作门槛从专业动画制作降低至提示词工程，让小型团队也能以极低算力成本实现高质量的动态视觉表达。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogVideo_3996f9cc.png","zai-org","Z.ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzai-org_f0d5ae80.png","ChatGLM, GLM-4.5, CogVLM, CodeGeeX, CogView, CogVideoX | CogDL, AMiner | Zhipu.ai (Z.ai)",null,"Zai_org","https:\u002F\u002Fwww.zhipuai.cn\u002Fen","https:\u002F\u002Fgithub.com\u002Fzai-org",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",98.9,{"name":87,"color":88,"percentage":89},"Shell","#89e051",1.1,12613,1274,"2026-04-07T07:23:48","Apache-2.0","未说明","需要 NVIDIA GPU。CogVideoX-2B 可在 GTX 1080TI 运行；CogVideoX-5B 可在 RTX 3060 运行；单卡微调框架支持 RTX 4090。显存需求取决于模型和精度，量化推理可降低显存占用。",{"notes":97,"python":98,"dependencies":99},"1. Python 版本必须严格限制在 3.10 到 3.12 之间。2. 推荐使用 BF16 精度进行 CogVideoX-5B\u002F1.5 系列推理，CogVideoX-2B 推荐 FP16。3. 不支持 INT4 量化。4. 可通过 Diffusers + TorchAO 实现量化推理以节省显存。5. 建议参考 requirements.txt 安装依赖。6. 提供针对单张 RTX 4090 的微调框架 (cogvideox-factory)。","3.10 - 3.12",[100,101,102,103,104],"torch","diffusers","transformers","accelerate","sat",[14,15,106,35],"视频",[108,109,110,111,112,113],"llm","sora","video-generation","cogvideox","image-to-video","text-to-video","2026-03-27T02:49:30.150509","2026-04-08T00:50:49.212331",[117,122,127,132,137,142],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},23175,"在 NVIDIA 3090 (24GB) 等显卡上运行 cli_demo.py 时遇到 CUDA OOM（显存不足）错误怎么办？","可以通过设置环境变量 `PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True` 来解决。在运行命令前添加该变量即可，例如：\n`PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True python cli_demo.py --prompt \"...\" --model_path THUDM\u002FCogVideoX-2b`\n此外，确保从源码重新安装最新版本的 diffusers 和 accelerate 库也可能解决问题。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogVideo\u002Fissues\u002F92",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},23176,"如何在 AMD GPU (如 Instinct MI25) 或 Windows 系统上运行 CogVideoX？","由于 PyTorch 对 ROCm 的支持限制或 Flash Attention 占用过多显存，建议通过 ZLUDA 运行 ComfyUI 来解决。具体步骤：\n1. 安装支持 ZLUDA 的 ComfyUI 版本（如 https:\u002F\u002Fgithub.com\u002Fpatientx\u002FComfyUI-Zluda）。\n2. 在 ComfyUI 中安装 CogVideoX 自定义节点 wrapper。\n3. 创建工作流并将 `attention_mode` 设置为 \"comfy\"。\n这种方法可以将注意力计算分块处理，避免一次性占用大量显存，从而在 AMD 显卡或非 Linux 环境下成功运行。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogVideo\u002Fissues\u002F223",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},23177,"在 macOS (M 系列芯片) 上运行 gradio_web_demo.py 报错或崩溃如何解决？","在 Mac 上使用 MPS 加速可能会遇到 `RuntimeError: Invalid buffer size` 错误。目前的临时解决方案是强制使用 CPU 运行，虽然速度会显著变慢，但可以避免崩溃。可以尝试注释掉代码中的 `pipe.enable_sequential_cpu_offload()` 相关行，或者确保环境变量 `PYTORCH_ENABLE_MPS_FALLBACK=1` 已设置，若仍失败则只能回退到纯 CPU 模式运行。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogVideo\u002Fissues\u002F222",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},23178,"在显存较小的显卡（如 T4, V100, P6000 24GB）上运行 5B 模型导致 OOM 怎么办？","对于显存有限的显卡，必须启用 CPU 卸载和 VAE 优化选项。请确保在代码中启用以下设置：\n1. `pipe.enable_model_cpu_offload()`：启用模型 CPU 卸载。\n2. `pipe.vae.enable_tiling()`：启用 VAE 分块处理以减少显存峰值。\n如果仍然报错，请检查 diffusers 库版本是否为最新，并确认代码正确加载了这些优化选项。注意在双卡环境下，默认可能只使用单卡，需手动配置多卡策略。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogVideo\u002Fissues\u002F204",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},23179,"为什么模型加载很慢且生成视频延迟很高（如 8 秒视频耗时 8 分钟）？","生成速度慢通常与未启用优化选项或硬件配置有关。请检查是否启用了 `enable_model_cpu_offload()` 和 `pipe.vae.enable_tiling()`。如果在高显存显卡（如 48GB+）上依然很慢，可能是由于未正确使用半精度推理或未安装优化的注意力机制库。建议参考官方 cli_demo.py 的最新配置，确保所有加速选项均已开启。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogVideo\u002Fissues\u002F316",{"id":143,"question_zh":144,"answer_zh":145,"source_url":126},23180,"多张 AMD GPU 同时运行时为何只有第一张卡有活动，其他卡空闲？","这通常是因为默认的 CPU offload 策略或注意力机制实现限制了多卡并行。在 AMD 环境下，建议不要直接使用原生的 `enable_sequential_cpu_offload()`，而是通过 ComfyUI + ZLUDA 方案，并将注意力模式设为 \"comfy\"。原生的 PyTorch 注意力计算试图一次性构建完整矩阵，导致显存爆炸且无法有效利用多卡；而 ComfyUI 的实现会将计算分块，从而允许更灵活的显存管理和潜在的多卡协作。",[147],{"id":148,"version":149,"summary_zh":150,"released_at":151},136876,"v1.0","如果你使用的模型是：\r\n\r\n- CogVideoX-2B\r\n- CogVideoX-5B\r\n- CogVideoX-5B-I2V\r\n\r\n请使用这个发布版的SAT代码进行运行。\r\n\r\n如果你使用的模型是:\r\n- CogVideoX1.5-5B\r\n- CogVideoX1.5-5B-I2V\r\n\r\n请使用 `main` 分支或更新发行版代码运行。        \r\n  ","2024-11-08T05:32:23"]