CogVideo

12.6k 1.3k 中等 1 次阅读今天Apache-2.0开发框架图像视频语言模型

AI 解读由 AI 自动生成，仅供参考

CogVideo 是由智谱 AI 与清华大学联合开源的视频生成模型系列，涵盖早期的 CogVideo 及最新的 CogVideoX 和 CogVideoX1.5。它核心解决了从文本描述或静态图片高质量生成动态视频的技术难题，支持文生视频、图生视频及视频续写等多种任务，让创意内容制作变得更加直观高效。

无论是希望快速验证想法的普通用户、需要定制视觉素材的设计师，还是致力于多模态研究的开发者与科研人员，都能从中获益。普通用户可通过 Hugging Face 等平台在线体验；开发者和研究人员则能利用其开放的代码库，在单张消费级显卡上进行微调，甚至探索更复杂的商业应用。

技术层面，CogVideoX1.5 显著提升了生成能力，支持长达 10 秒的高分辨率视频输出，并实现了任意分辨率的图生视频功能。项目不仅提供了基于 SAT 和 Diffusers 的多种推理框架，还持续更新如 LoRA 低显存微调、DDIM 逆向等先进特性。此外，配套开源的 CogVLM2-Caption 模型进一步优化了训练数据的质量。凭借灵活的架构设计与活跃的社区支持，CogVideo 正成为连接创意与动态视觉表现的重要桥梁。

使用场景

一家小型独立游戏工作室正在为新品宣传制作动态概念预告片，需要快速将静态原画转化为流畅的视频素材以验证视觉风格。

没有 CogVideo 时

美术团队必须手动逐帧绘制或使用昂贵的商业渲染农场，制作一段 5 秒的视频往往耗时数天甚至数周。
若需修改镜头运动或角色动作，必须重新调整复杂的 3D 绑定或重绘大量关键帧，迭代成本极高。
难以在保证分辨率的前提下实现“图生视频”的精准控制，静态原画动起来后常出现人物崩坏或背景扭曲。
缺乏低成本微调能力，无法让生成的视频风格与游戏独特的美术设定（如像素风或水墨风）保持高度一致。

使用 CogVideo 后

利用 CogVideoX1.5-5B-I2V 模型，直接上传静态原画并输入提示词，几分钟内即可生成高分辨率、长达 10 秒的流畅视频。
通过调整提示词或启用 DDIM Inverse 功能，可快速修正动作细节或延续视频片段，无需从头开始制作，大幅加速创意验证。
依托其强大的图像到视频生成能力，完美保留原画的角色特征与背景细节，显著减少了画面闪烁和结构变形问题。
借助基于 Diffusers 的 LoRA 微调框架，仅需单张 4090 显卡即可低成本训练专属风格模型，让输出内容完美契合游戏美术规范。

CogVideo 将视频创作门槛从专业动画制作降低至提示词工程，让小型团队也能以极低算力成本实现高质量的动态视觉表达。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
CogVideoX-2B 可在 GTX 1080TI 运行
CogVideoX-5B 可在 RTX 3060 运行
单卡微调框架支持 RTX 4090
显存需求取决于模型和精度，量化推理可降低显存占用

内存

未说明

依赖

notes1. Python 版本必须严格限制在 3.10 到 3.12 之间。2. 推荐使用 BF16 精度进行 CogVideoX-5B/1.5 系列推理，CogVideoX-2B 推荐 FP16。3. 不支持 INT4 量化。4. 可通过 Diffusers + TorchAO 实现量化推理以节省显存。5. 建议参考 requirements.txt 安装依赖。6. 提供针对单张 RTX 4090 的微调框架 (cogvideox-factory)。

python3.10 - 3.12

torch

diffusers

transformers

accelerate

sat

快速开始

CogVideo & CogVideoX

中文阅读

日本語で読む

在线体验 CogVideoX-5B 模型，请访问 🤗 Huggingface Space 或 🤖 ModelScope Space

📚 查看论文和用户指南

👋 加入我们的微信和 Discord

📍 访问 QingYing 和 API 平台, 体验更大规模的商用视频生成模型。

项目更新

🔥🔥 新闻: 2025/03/24: 我们推出了 CogKit, 这是一个针对 CogView4 和 CogVideoX 系列的微调与推理框架。该工具包使您能够充分探索和利用我们的多模态生成模型。
🔥 新闻: 2025/02/28: CogVideoX-5B 和 CogVideoX1.5-5B 现已支持 DDIM 反演。请查看此处。
🔥 新闻: 2025/01/08: 我们基于 diffusers 版本的模型更新了 Lora 微调代码，该版本占用更少的显存。更多详情请参见这里。
🔥 新闻: 2024/11/15: 我们发布了 diffusers 版本的 CogVideoX1.5 模型。只需对参数进行少量调整，即可继续使用之前的代码。
🔥 新闻: 2024/11/08: 我们发布了 CogVideoX1.5 模型。CogVideoX1.5 是开源模型 CogVideoX 的升级版。 CogVideoX1.5-5B 系列支持更高分辨率的 10 秒视频，而 CogVideoX1.5-5B-I2V 则支持任意分辨率的视频生成。 SAT 版本的代码已经更新，而 diffusers 版本仍在适配中。您可以从这里下载 SAT 版本的代码。
🔥 新闻: 2024/10/13: 针对 CogVideoX-5B 推出了一种更经济高效的微调框架 cogvideox-factory（https://github.com/a-r-r-o-w/cogvideox-factory），仅需一张 4090 显卡即可运行。该框架支持多种分辨率的微调。欢迎试用！
🔥 新闻: 2024/10/10: 我们更新了技术报告。请点击这里查看。报告中新增了更多训练细节和演示内容。如需观看演示，请访问这里。
🔥 新闻: 2024/10/09: 我们在飞书上公开了 CogVideoX 微调的技术文档，进一步提升了分发的灵活性。文档中的所有示例均可完全复现。
🔥 新闻: 2024/9/19: 我们开源了 CogVideoX 系列的图像转视频模型 CogVideoX-5B-I2V。该模型可以以图片作为背景输入，并结合提示词生成视频，具有更高的可控性。至此，CogVideoX 系列模型已支持三项任务：文本转视频、视频续写以及图像转视频。欢迎您前往 Experience 在线体验。
🔥 2024/9/19: 用于 CogVideoX 训练过程中将视频数据转换为文本描述的字幕模型 CogVLM2-Caption 已开源。欢迎下载并使用。
🔥 2024/8/27: 我们开源了 CogVideoX 系列中更大的模型 CogVideoX-5B。我们显著优化了模型的推理性能，大大降低了推理门槛。您可以在较旧的 GPU 上运行 CogVideoX-2B（如 GTX 1080TI），而在桌面级 GPU 上运行 CogVideoX-5B（如 RTX 3060）。请严格按照 requirements.txt 中的要求更新和安装依赖项，并参考 cli_demo 获取推理代码。此外，CogVideoX-2B 模型的开源许可证已变更为 Apache 2.0 许可证。
🔥 2024/8/6: 我们开源了用于 CogVideoX-2B 的 3D 因果 VAE，该模型几乎无损地重建视频。
🔥 2024/8/6: 我们开源了 CogVideoX 系列视频生成模型中的首款模型 CogVideoX-2B。
🌱 来源: 2022/5/19: 我们开源了 CogVideo 视频生成模型（现在您可以在 CogVideo 分支中找到它）。这是首个开源的大规模基于 Transformer 的文本到视频生成模型。您可以通过 ICLR'23 论文查阅相关技术细节。

快速入门

提示优化

在运行模型之前，请参考此指南了解我们如何使用大型模型（如 GLM-4，或其他类似产品，例如 GPT-4）来优化提示。这一点至关重要，因为该模型是使用长提示进行训练的，优质的提示会直接影响视频生成的质量。

SAT

请确保您的 Python 版本介于 3.10 和 3.12 之间，包括 3.10 和 3.12。

请按照 sat_demo 中的说明操作：其中包含 SAT 权重的推理代码和微调代码。建议基于 CogVideoX 的模型结构进行改进。创新研究人员可使用此代码更高效地进行快速堆叠和开发。

扩散模型

请确保您的 Python 版本介于 3.10 和 3.12 之间，包括 3.10 和 3.12。

pip install -r requirements.txt

然后按照 diffusers_demo 的说明操作：其中对推理代码进行了更详细的解释，并提及了常见参数的重要意义。

如需了解更多关于量化推理的细节，请参阅 diffusers-torchao。借助 Diffusers 和 TorchAO，不仅可以实现量化推理以节省显存，而且在某些情况下经过编译后还能提升速度。关于 A100 和 H100 上不同设置下的完整内存和时间基准测试结果已发布在 diffusers-torchao 中。

作品集

CogVideoX-5B

CogVideoX-2B

如需查看作品集中每段视频对应的提示词，请点击这里。

模型介绍

CogVideoX 是源自 QingYing 的视频生成模型的开源版本。下表展示了我们目前提供的视频生成模型列表及其基础信息。

模型名称	CogVideoX1.5-5B（最新）	CogVideoX1.5-5B-I2V（最新）	CogVideoX-2B	CogVideoX-5B	CogVideoX-5B-I2V
发布日期	2024年11月8日	2024年11月8日	2024年8月6日	2024年8月27日	2024年9月19日
视频分辨率	1360 * 768	Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0	720 * 480
帧数	应为16N + 1,其中N ≤ 10（默认81）		应为8N + 1,其中N ≤ 6（默认49）
推理精度	BF16（推荐）, FP16、FP32、FP8*、INT8，不支持：INT4		*FP16（推荐）*, BF16、FP32、FP8、INT8，不支持：INT4	BF16（推荐）, FP16、FP32、FP8*、INT8，不支持：INT4
单GPU显存占用	SAT BF16：76GB *diffusers BF16：从10GB开始 diffusers INT8（torchao）：从7GB开始*		SAT FP16：18GB diffusers FP16：最低4GB* diffusers INT8（torchao）：最低3.6GB*	SAT BF16：26GB diffusers BF16：最低5GB* diffusers INT8（torchao）：最低4.4GB*
多GPU显存占用	BF16：使用diffusers时为24GB*		FP16：使用diffusers时为10GB*	BF16：使用diffusers时为15GB*
推理速度（步数=50，FP/BF16）	单张A100：约1000秒（5秒视频）单张H100：约550秒（5秒视频）		单张A100：约90秒单张H100：约45秒	单张A100：约180秒单张H100：约90秒
提示语语言	英语*
提示语Token限制	224个Token		226个Token
视频长度	5秒或10秒		6秒
帧率	16帧/秒		8帧/秒
位置编码	3d_rope_pos_embed		3d_sincos_pos_embed	3d_rope_pos_embed	3d_rope_pos_embed + learnable_pos_embed
下载链接（Diffusers）	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel
下载链接（SAT）	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel		SAT

数据说明

在使用diffusers库进行测试时，已启用diffusers库中包含的所有优化。此方案尚未在NVIDIA A100 / H100架构以外的设备上测试实际显存占用情况。通常，该方案可适配所有NVIDIA Ampere架构及以上设备。若禁用优化，显存消耗将显著增加，峰值显存占用约为表格中数值的3倍。然而，推理速度将提升约3至4倍。您可以选择性地禁用部分优化，包括：

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

对于多GPU推理，需要禁用enable_sequential_cpu_offload()优化。
使用INT8模型会降低推理速度，这是为了在保持视频质量损失最小的情况下，适应显存较小的GPU而采取的措施，尽管如此，推理速度会显著下降。
CogVideoX-2B模型以FP16精度训练，所有CogVideoX-5B模型则以BF16精度训练。我们建议在推理时使用与模型训练时相同的精度。
可以使用PytorchAO和Optimum-quanto将文本编码器、Transformer和VAE模块量化，从而降低CogVideoX的显存需求。这样可以让模型在免费的T4 Colab或显存较小的GPU上运行！此外，请注意，TorchAO量化与torch.compile完全兼容，可以显著提升推理速度。在配备NVIDIA H100及以上显卡的设备上必须使用FP8精度，这需要从源码安装torch和torchaoPython包。推荐使用CUDA 12.4。
推理速度测试也采用了上述显存优化方案。如果不进行显存优化，推理速度大约会提高10%。只有diffusers版本的模型支持量化。
该模型仅支持英文输入；其他语言可以通过大模型微调翻译成英文后使用。

友情链接

我们非常欢迎社区贡献，并积极回馈开源社区。以下项目已经适配了CogVideoX，欢迎大家使用：

LeMiCa：由中国联通数据科学与人工智能研究院开发的扩散模型推理加速方案。通过基于缓存的技术和全局去噪路径优化，LeMiCa为CogVideoX提供了高效的推理支持，在保持视觉一致性和质量的同时，实现了近2.5倍的无损加速。
RIFLEx-CogVideoX：RIFLEx只需一行代码即可扩展视频长度：freq[k-1]=(2np.pi)/(Ls)。该框架不仅支持免训练推理，还提供了基于CogVideoX微调的模型。通过对原始长度视频仅进行1,000步微调，RIFLEx显著提升了长视频外推能力。
CogVideoX-Fun：CogVideoX-Fun是在CogVideoX架构基础上修改的流水线，支持灵活的分辨率和多种启动方式。
CogStudio：CogVideo的Gradio Web UI独立仓库，支持更多功能丰富的Web界面。
Xorbits Inference：一个强大且全面的分布式推理框架，只需点击一下即可轻松部署您自己的模型或最新的前沿开源模型。
ComfyUI-CogVideoXWrapper：使用ComfyUI框架将CogVideoX集成到您的工作流中。
VideoSys：VideoSys为视频生成提供了一个用户友好、高性能的基础设施，支持完整的流水线，并持续集成最新的模型和技术。
AutoDL Space：由社区成员提供的Huggingface Space一键部署镜像。
室内设计微调模型：基于CogVideoX的微调模型，专为室内设计场景打造。
xDiT：xDiT是一个可扩展的扩散Transformer（DiT）推理引擎，可在多个GPU集群上运行。xDiT支持实时图像和视频生成服务。
cogvideox-factory：一个经济高效的CogVideoX微调框架，兼容diffusers版本模型。支持更多分辨率，使用单张4090 GPU即可完成CogVideoX-5B的微调。
CogVideoX-Interpolation：基于修改后的CogVideoX结构的流水线，旨在为关键帧插值生成提供更多灵活性。
DiffSynth-Studio：DiffSynth Studio是一个扩散引擎，重新构建了包括文本编码器、UNet、VAE等在内的架构，在保持与开源社区模型兼容性的同时提升了计算性能。该框架已适配CogVideoX。
CogVideoX-Controlnet：一个简单的包含CogVideoX模型的ControlNet模块代码。
VideoTuna：VideoTuna是首个整合多种AI视频生成模型的仓库，支持文生视频、图生视频及文生图等功能。
ConsisID：一种保留身份特征的文生视频生成模型，基于CogVideoX-5B，通过频率分解技术在生成的视频中保持面部一致性。
逐步教程：关于在Windows和云环境中安装并优化CogVideoX1.5-5B-I2V模型的分步指南。特别感谢FurkanGozukara的付出与支持！

项目结构

本开源仓库将引导开发者快速上手CogVideoX开源模型的基本用法及微调示例。

Colab快速入门

这里提供三个可以直接在免费Colab T4实例上运行的项目：

CogVideoX-5B-T2V-Colab.ipynb：CogVideoX-5B文生视频Colab代码。
CogVideoX-5B-T2V-Int8-Colab.ipynb：CogVideoX-5B量化文生视频推理Colab代码，每次运行大约需要30分钟。
CogVideoX-5B-I2V-Colab.ipynb：CogVideoX-5B图生视频Colab代码。
CogVideoX-5B-V2V-Colab.ipynb：CogVideoX-5B视频转视频Colab代码。

推理

dcli_demo：更详细的推理代码说明，包括常见参数的意义。所有内容均在此处介绍。
cli_demo_quantization：量化模型推理代码，可在内存较低的设备上运行。您也可以修改此代码以支持以 FP8 精度运行 CogVideoX 模型。
diffusers_vae_demo：用于单独运行 VAE 推理的代码。
space demo：与 Huggingface Space 中使用的相同 GUI 代码，集成了帧插值和超分辨率工具。

convert_demo：如何将用户输入转换为适合 CogVideoX 的长文本输入。由于 CogVideoX 是基于长文本训练的，我们需要使用大语言模型将输入文本分布调整为与训练数据一致。该脚本默认使用 GLM-4，但也可以替换为 GPT、Gemini 或其他大型语言模型。
gradio_web_demo：一个简单的 Gradio Web 应用程序，演示如何使用 CogVideoX-2B / 5B 模型生成视频。与我们的 Huggingface Space 类似，您可以使用此脚本运行一个简单的视频生成 Web 应用程序。

微调

finetune_demo：CogVideoX 模型 diffusers 版本的微调方案及详细信息。

SAT

sat_demo：包含 SAT 权重的推理代码和微调代码。建议在 CogVideoX 模型结构的基础上进行改进。创新研究人员可利用此代码更好地进行快速堆叠和开发。

工具

该文件夹包含一些用于模型转换、字幕生成等的工具。

convert_weight_sat2hf：将 SAT 模型权重转换为 Huggingface 模型权重。
caption_demo：字幕工具，一种能够理解视频并输出文字描述的模型。
export_sat_lora_weight：SAT 微调模型导出工具，以 diffusers 格式导出 SAT Lora Adapter。
load_cogvideox_lora：用于加载微调后的 diffusers 版本 Lora Adapter 的工具代码。
llm_flux_cogvideox：使用开源本地大语言模型 + Flux + CogVideoX 自动生成视频。
parallel_inference_xdit：基于 xDiT，可在多块 GPU 上并行化视频生成过程。

CogVideo（ICLR'23）

论文的官方仓库：CogVideo：通过 Transformer 进行文本到视频生成的大规模预训练位于 CogVideo 分支

CogVideo 能够生成相对高帧率的视频。 下面展示了一段 4 秒、32 帧的视频片段。

高帧率示例

介绍图片

CogVideo 的演示地址为 https://models.aminer.cn/cogvideo，您可以在那里亲身体验文本到视频的生成。原始输入为中文。

引用

🌟 如果您觉得我们的工作有帮助，请为我们点亮星标并引用我们的论文。

@article{yang2024cogvideox,
  title={CogVideoX：具有专家级 Transformer 的文本到视频扩散模型},
  author={Yang, Zhuoyi 和 Teng, Jiayan 和 Zheng, Wendi 和 Ding, Ming 和 Huang, Shiyu 和 Xu, Jiazheng 和 Yang, Yuanming 和 Hong, Wenyi 和 Zhang, Xiaohan 和 Feng, Guanyu 等},
  journal={arXiv 预印本 arXiv:2408.06072},
  year={2024}
}
@article{hong2022cogvideo,
  title={CogVideo：通过 Transformer 进行文本到视频生成的大规模预训练},
  author={Hong, Wenyi 和 Ding, Ming 和 Zheng, Wendi 和 Liu, Xinghan 和 Tang, Jie},
  journal={arXiv 预印本 arXiv:2205.15868},
  year={2022}
}

模型许可

本仓库中的代码采用 Apache 2.0 许可证发布。

CogVideoX-2B 模型（包括其对应的 Transformer 模块和 VAE 模块）采用 Apache 2.0 许可证发布。

CogVideoX-5B 模型（Transformer 模块，包括 I2V 和 T2V）采用 CogVideoX 许可证发布。

CogVideo 快速上手指南

CogVideoX 是由智谱 AI 开源的视频生成模型系列，支持文生视频（T2V）和图生视频（I2V）。本指南将帮助您快速在本地部署并运行 CogVideoX 模型。

环境准备

系统要求

操作系统: Linux (推荐) 或 Windows
Python 版本: 3.10 - 3.12 (必须在此范围内)
GPU 要求:
- CogVideoX-2B: 最低支持 GTX 1080TI (需量化或优化)
- CogVideoX-5B / 1.5: 推荐 RTX 3060 (12GB 显存) 或更高
- 显存建议: 运行 BF16 精度推理建议 16GB+ 显存，若显存不足可参考量化方案。

前置依赖

确保已安装 CUDA 驱动及对应的 PyTorch 版本。建议使用国内镜像源加速依赖下载。

# 配置 pip 国内镜像源 (可选，推荐阿里云或清华源)
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆项目代码

git clone https://github.com/THUDM/CogVideo.git
cd CogVideo

安装依赖包 项目主要基于 diffusers 架构，直接安装根目录下的依赖文件即可。
```
pip install -r requirements.txt
```
注意: 如果您计划使用 SAT 版本进行微调或特定开发，请参考 sat/README.md 中的额外依赖说明。对于大多数推理用户，上述命令已足够。
下载模型权重 您可以从 HuggingFace 或 ModelScope (魔搭社区，国内推荐) 下载模型。

方式 A: 使用 ModelScope (国内加速)
```
# 需先安装 modelscope: pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('ZhipuAI/CogVideoX-5B', cache_dir='./models')"
```
方式 B: 使用 HuggingFace CLI
```
huggingface-cli download THUDM/CogVideoX-5B --local-dir ./models/CogVideoX-5B
```
(注：请将 CogVideoX-5B 替换为您需要的具体模型版本，如 CogVideoX1.5-5B)

基本使用

以下示例展示如何使用 Python 脚本进行最简单的文生视频推理。假设您已下载 CogVideoX-5B 模型到 ./models/CogVideoX-5B。

1. 编写推理脚本

创建文件 run_inference.py，填入以下内容：

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

# 加载模型
# 将路径替换为您实际下载的模型路径
model_path = "./models/CogVideoX-5B" 

pipe = CogVideoXPipeline.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16, # 推荐使用 bfloat16，显存不足可尝试 float16
).to("cuda")

# 启用切片注意力以节省显存 (可选，针对低显存用户)
# pipe.enable_sequential_cpu_offload() 
# pipe.enable_vae_slicing()

# 定义提示词 (建议使用英文提示词以获得最佳效果)
prompt = "A cat walking on the street, realistic, 4k, high quality."

# 生成视频
generator = torch.Generator(device="cuda").manual_seed(42)
video_frames = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    guidance_scale=7.5,
    generator=generator,
).frames[0]

# 保存视频
export_to_video(video_frames, "output.mp4", fps=8)
print("视频生成完毕，已保存为 output.mp4")

2. 运行推理

python run_inference.py

💡 提示词优化建议

CogVideoX 模型是在长提示词下训练的，简单的短语可能无法发挥模型最佳性能。建议在调用模型前，先使用大语言模型（如 GLM-4、GPT-4）将您的简短想法扩展为详细的英文描述。

您可以参考官方提供的提示词优化脚本逻辑：

# 查看官方提供的转换示例
cat inference/convert_demo.py

进阶功能

图生视频 (I2V): 加载 CogVideoX-5B-I2V 模型，并在 pipe() 调用中传入 image 参数。
量化推理: 若显存紧张，可结合 diffusers-torchao 进行 FP8 或 INT8 量化推理。
LoRA 微调: 详见 finetune/README.md，支持单卡 4090 进行低成本微调。

版本历史

v1.02024/11/08

常见问题

在 NVIDIA 3090 (24GB) 等显卡上运行 cli_demo.py 时遇到 CUDA OOM（显存不足）错误怎么办？

如何在 AMD GPU (如 Instinct MI25) 或 Windows 系统上运行 CogVideoX？

在 macOS (M 系列芯片) 上运行 gradio_web_demo.py 报错或崩溃如何解决？

在显存较小的显卡（如 T4, V100, P6000 24GB）上运行 5B 模型导致 OOM 怎么办？

为什么模型加载很慢且生成视频延迟很高（如 8 秒视频耗时 8 分钟）？

多张 AMD GPU 同时运行时为何只有第一张卡有活动，其他卡空闲？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

使用场景

没有 CogVideo 时

使用 CogVideo 后

运行环境要求

快速开始

CogVideo & CogVideoX

项目更新

目录

快速入门

提示优化

SAT

扩散模型

作品集

CogVideoX-5B

CogVideoX-2B

模型介绍

友情链接

项目结构

Colab快速入门

推理

微调

SAT

工具

CogVideo（ICLR'23）

引用

模型许可

CogVideo 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

基本使用

1. 编写推理脚本

2. 运行推理

💡 提示词优化建议

进阶功能

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch