[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-zai-org--CogView4":3,"tool-zai-org--CogView4":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":103,"github_topics":104,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":152},3520,"zai-org\u002FCogView4","CogView4","CogView4, CogView3-Plus and CogView3(ECCV 2024)","CogView4 是由智谱 AI 开源的新一代文生图模型，能够根据用户输入的文字描述生成高质量图像。它主要解决了传统模型在中文语境下理解能力不足、长文本提示词支持有限以及生成分辨率受限等痛点，实现了原生支持中英文双语输入，并能处理长达 1024 个 Token 的复杂指令。\n\n该工具特别适合开发者、AI 研究人员以及需要高精度视觉内容创作的设计师使用。开发者可利用其适配的 Diffusers 版本和即将推出的 CogKit 工具包进行微调与集成；研究人员可深入探究其基于级联扩散与 Relay Diffusion 框架的技术细节；设计师则能借助其对 512 至 2048 分辨率的灵活支持，快速产出符合需求的创意素材。\n\nCogView4 的核心亮点在于其强大的语言编码器 GLM-4-9B，这不仅大幅提升了对中文语义的理解深度，还显著增强了画面细节的还原度。相比前代仅支持英文的模型，CogView4 让中文用户也能轻松通过自然语言驾驭 AI 绘画，同时支持 BF16 精度推理，兼顾了生成质量与运行效率。无论是构建本地应用还是探索多模态生成前沿，CogView4 都提供了一个开放且高效的技术","CogView4 是由智谱 AI 开源的新一代文生图模型，能够根据用户输入的文字描述生成高质量图像。它主要解决了传统模型在中文语境下理解能力不足、长文本提示词支持有限以及生成分辨率受限等痛点，实现了原生支持中英文双语输入，并能处理长达 1024 个 Token 的复杂指令。\n\n该工具特别适合开发者、AI 研究人员以及需要高精度视觉内容创作的设计师使用。开发者可利用其适配的 Diffusers 版本和即将推出的 CogKit 工具包进行微调与集成；研究人员可深入探究其基于级联扩散与 Relay Diffusion 框架的技术细节；设计师则能借助其对 512 至 2048 分辨率的灵活支持，快速产出符合需求的创意素材。\n\nCogView4 的核心亮点在于其强大的语言编码器 GLM-4-9B，这不仅大幅提升了对中文语义的理解深度，还显著增强了画面细节的还原度。相比前代仅支持英文的模型，CogView4 让中文用户也能轻松通过自然语言驾驭 AI 绘画，同时支持 BF16 精度推理，兼顾了生成质量与运行效率。无论是构建本地应用还是探索多模态生成前沿，CogView4 都提供了一个开放且高效的技术基座。","# CogView4 & CogView3 & CogView-3Plus\n\n[阅读中文版](.\u002FREADME_zh.md)\n[日本語で読む](.\u002FREADME_ja.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=resources\u002Flogo.svg width=\"50%\"\u002F>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM-HF-SPACE\u002FCogView4\"  target=\"_blank\"> 🤗 HuggingFace Space\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FZhipuAI\u002FCogView4\" target=\"_blank\">  🤖ModelScope Space\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fzhipuaishengchan.datasink.sensorsdata.cn\u002Ft\u002F4z\" target=\"_blank\"> 🛠️ZhipuAI MaaS(Faster)\u003C\u002Fa>\n\u003Cbr>\n\u003Ca href=\"resources\u002FWECHAT.md\" target=\"_blank\"> 👋 WeChat Community\u003C\u002Fa>  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05121\" target=\"_blank\">📚 CogView3 Paper\u003C\u002Fa>\n\u003C\u002Fp>\n\n![showcase.png](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogView4_readme_393e1f4aab4f.png)\n\n## Project Updates\n\n- 🔥🔥 ```2025\u002F03\u002F24```: We are launching [CogKit](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogKit), a powerful toolkit for fine-tuning and inference of the **CogView4** and **CogVideoX** series, allowing you to fully explore our multimodal generation models.\n- ```2025\u002F03\u002F04```: We've adapted and open-sourced the [diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) version\n  of **CogView-4** model, which has 6B parameters, supports native Chinese input, and Chinese text-to-image generation.\n  You can try it [online](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM-HF-SPACE\u002FCogView4).\n- ```2024\u002F10\u002F13```: We've adapted and open-sourced the [diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) version of\n  **CogView-3Plus-3B** model. You can try\n  it [online](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM-HF-SPACE\u002FCogView3-Plus-3B-Space).\n- ```2024\u002F9\u002F29```: We've open-sourced **CogView3** and **CogView-3Plus-3B**. **CogView3** is a text-to-image system\n  based on cascading diffusion, using a relay diffusion framework. **CogView-3Plus** is a series of newly developed\n  text-to-image models based on Diffusion Transformer.\n\n## Project Plan\n\n- [X] Diffusers workflow adaptation\n- [X] Cog series fine-tuning kits (coming soon)\n- [ ] ControlNet models and training code\n\n## Community Contributions\n\nWe have collected some community projects related to this repository here. These projects are maintained by community members, and we appreciate their contributions.\n\n+ [ComfyUI_CogView4_Wrapper](https:\u002F\u002Fgithub.com\u002Fchflame163\u002FComfyUI_CogView4_Wrapper) - An implementation of the CogView4 project in ComfyUI.\n\n## Model Introduction\n\n### Model Comparison\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n  \u003Ctr>\n    \u003Cth style=\"text-align: center;\">Model Name\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogView4\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogView3-Plus-3B\u003C\u002Fth>\n  \u003C\u002Ftr>\n    \u003Ctd style=\"text-align: center;\">Resolution\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\n            512 \u003C= H, W \u003C= 2048 \u003Cbr>\n            H * W \u003C= 2^{21} \u003Cbr>\n            H, W \\mod 32 = 0\n    \u003C\u002Ftd>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Inference Precision\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">Only supports BF16, FP32\u003C\u002Ftd>\n  \u003Ctr>\n  \u003Ctd style=\"text-align: center;\">Encoder\u003C\u002Ftd>\n  \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fglm-4-9b-hf\" target=\"_blank\">GLM-4-9B\u003C\u002Fa>\u003C\u002Ftd>\n  \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Ft5-v1_1-xxl\" target=\"_blank\">T5-XXL\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Prompt Language\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">Chinese, English\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">English\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Prompt Length Limit\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">1024 Tokens\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">224 Tokens\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Download Links\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogView4-6B\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogView4-6B\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogView4-6B\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogView3-Plus-3B\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogView3-Plus-3B\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogView3-Plus-3B\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### Memory Usage\n\nDIT models are tested with `BF16` precision and `batchsize=4`, with results shown in the table below:\n\n| Resolution  | enable_model_cpu_offload OFF | enable_model_cpu_offload ON | enable_model_cpu_offload ON \u003C\u002Fbr> Text Encoder 4bit |\n|-------------|------------------------------|-----------------------------|-----------------------------------------------------|\n| 512 * 512   | 33GB                         | 20GB                        | 13G                                                 |\n| 1280 * 720  | 35GB                         | 20GB                        | 13G                                                 |\n| 1024 * 1024 | 35GB                         | 20GB                        | 13G                                                 |\n| 1920 * 1280 | 39GB                         | 20GB                        | 14G                                                 |\n\nAdditionally, we recommend that your device has at least `32GB` of RAM to prevent the process from being killed.\n\n### Model Metrics\n\nWe've tested on multiple benchmarks and achieved the following scores:\n\n#### DPG-Bench\n\n| Model        | Overall   | Global    | Entity    | Attribute | Relation  | Other     |\n|--------------|-----------|-----------|-----------|-----------|-----------|-----------|\n| SDXL         | 74.65     | 83.27     | 82.43     | 80.91     | 86.76     | 80.41     |\n| PixArt-alpha | 71.11     | 74.97     | 79.32     | 78.60     | 82.57     | 76.96     |\n| SD3-Medium   | 84.08     | 87.90     | **91.01** | 88.83     | 80.70     | 88.68     |\n| DALL-E 3      | 83.50     | **90.97** | 89.61     | 88.39     | 90.58     | 89.83     |\n| Flux.1-dev   | 83.79     | 85.80     | 86.79     | 89.98     | 90.04     | **89.90** |\n| Janus-Pro-7B | 84.19     | 86.90     | 88.90     | 89.40     | 89.32     | 89.48     |\n| **CogView4-6B** | **85.13** | 83.85     | 90.35     | **91.17** | **91.14** | 87.29     |\n\n#### GenEval\n\n| Model           | Overall  | Single Obj. | Two Obj. | Counting | Colors   | Position | Color attribution |\n|-----------------|----------|-------------|----------|----------|----------|----------|-------------------|\n| SDXL            | 0.55     | 0.98        | 0.74     | 0.39     | 0.85     | 0.15     | 0.23              |\n| PixArt-alpha    | 0.48     | 0.98        | 0.50     | 0.44     | 0.80     | 0.08     | 0.07              |\n| SD3-Medium      | 0.74     | **0.99**    | **0.94** | 0.72     | 0.89     | 0.33     | 0.60              |\n| DALL-E 3        | 0.67     | 0.96        | 0.87     | 0.47     | 0.83     | 0.43     | 0.45              |\n| Flux.1-dev      | 0.66     | 0.98        | 0.79     | **0.73** | 0.77     | 0.22     | 0.45              |\n| Janus-Pro-7B    | **0.80** | **0.99**    | 0.89     | 0.59     | **0.90** | **0.79** | **0.66**          |\n| **CogView4-6B** | 0.73     | **0.99**    | 0.86     | 0.66     | 0.79     | 0.48     | 0.58              |\n\n#### T2I-CompBench\n\n| Model           | Color      | Shape      | Texture    | 2D-Spatial | 3D-Spatial | Numeracy   | Non-spatial Clip | Complex 3-in-1 |\n|-----------------|------------|------------|------------|------------|------------|------------|------------------|----------------|\n| SDXL            | 0.5879     | 0.4687     | 0.5299     | 0.2133     | 0.3566     | 0.4988     | 0.3119           | 0.3237         |\n| PixArt-alpha    | 0.6690     | 0.4927     | 0.6477     | 0.2064     | 0.3901     | 0.5058     | **0.3197**       | 0.3433         |\n| SD3-Medium      | **0.8132** | 0.5885     | **0.7334** | **0.3200** | **0.4084** | 0.6174     | 0.3140           | 0.3771         |\n| DALL-E 3        | 0.7785     | **0.6205** | 0.7036     | 0.2865     | 0.3744     | 0.5880     | 0.3003           | 0.3773         |\n| Flux.1-dev      | 0.7572     | 0.5066     | 0.6300     | 0.2700     | 0.3992     | 0.6165     | 0.3065           | 0.3628         |\n| Janus-Pro-7B    | 0.5145     | 0.3323     | 0.4069     | 0.1566     | 0.2753     | 0.4406     | 0.3137           | 0.3806         |\n| **CogView4-6B** | 0.7786     | 0.5880     | 0.6983     | 0.3075     | 0.3708     | **0.6626** | 0.3056           | **0.3869**     |\n\n## Chinese Text Accuracy Evaluation\n\n| Model           | Precision  | Recall     | F1 Score   | Pick@4     |\n|-----------------|------------|------------|------------|------------|\n| Kolors          | 0.6094     | 0.1886     | 0.2880     | 0.1633     |\n| **CogView4-6B** | **0.6969** | **0.5532** | **0.6168** | **0.3265** |\n\n## Inference Model\n\n### Prompt Optimization\n\nAlthough CogView4 series models are trained with lengthy synthetic image descriptions, we strongly recommend using a\nlarge language model to rewrite prompts before text-to-image generation, which will greatly improve generation quality.\n\nWe provide an [example script](inference\u002Fprompt_optimize.py). We recommend running this script to refine your prompts.\nNote that `CogView4` and `CogView3` models use different few-shot examples for prompt optimization. They need to be\ndistinguished.\n\n```shell\ncd inference\npython prompt_optimize.py --api_key \"Zhipu AI API Key\" --prompt {your prompt} --base_url \"https:\u002F\u002Fopen.bigmodel.cn\u002Fapi\u002Fpaas\u002Fv4\" --model \"glm-4-plus\" --cogview_version \"cogview4\"\n```\n\n### Inference Model\n\nRun the model `CogView4-6B` with `BF16` precision:\n\n```python\nfrom diffusers import CogView4Pipeline\nimport torch\n\npipe = CogView4Pipeline.from_pretrained(\"THUDM\u002FCogView4-6B\", torch_dtype=torch.bfloat16).to(\"cuda\")\n\n# Open it for reduce GPU memory usage\npipe.enable_model_cpu_offload()\npipe.vae.enable_slicing()\npipe.vae.enable_tiling()\n\nprompt = \"A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background.\"\nimage = pipe(\n    prompt=prompt,\n    guidance_scale=3.5,\n    num_images_per_prompt=1,\n    num_inference_steps=50,\n    width=1024,\n    height=1024,\n).images[0]\n\nimage.save(\"cogview4.png\")\n```\n\nFor more inference code, please check:\n\n1. For using `BNB int4` to load `text encoder` and complete inference code annotations,\n   check [here](inference\u002Fcli_demo_cogview4.py).\n2. For using `TorchAO int8 or int4` to load `text encoder & transformer` and complete inference code annotations,\n   check [here](inference\u002Fcli_demo_cogview4_int8.py).\n3. For setting up a `gradio` GUI DEMO, check [here](inference\u002Fgradio_web_demo.py).\n\n\n## Fine-tuning\n\nThis repository does not contain fine-tuning code, but you can fine-tune using the following two approaches, including both LoRA and SFT:\n\n1. [CogKit](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogKit), our officially maintained system-level fine-tuning framework that supports CogView4 and CogVideoX.\n2. [finetrainers](https:\u002F\u002Fgithub.com\u002Fa-r-r-o-w\u002Ffinetrainers), a low-memory solution that enables fine-tuning on a single RTX 4090.\n3. If you want to train ControlNet models directly, you can refer to the [training code](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\u002Ftree\u002Fmain\u002Fexamples\u002Fcogview4-control) and train your own models.\n\n## License\n\nThe code in this repository and the CogView3 models are licensed under [Apache 2.0](.\u002FLICENSE).\n\nWe welcome and appreciate your code contributions. You can view the contribution\nguidelines [here](resources\u002Fcontribute.md).\n","# CogView4 & CogView3 & CogView-3Plus\n\n[阅读中文版](.\u002FREADME_zh.md)\n[日本語で読む](.\u002FREADME_ja.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=resources\u002Flogo.svg width=\"50%\"\u002F>\n\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM-HF-SPACE\u002FCogView4\"  target=\"_blank\"> 🤗 HuggingFace Space\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FZhipuAI\u002FCogView4\" target=\"_blank\">  🤖ModelScope Space\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fzhipuaishengchan.datasink.sensorsdata.cn\u002Ft\u002F4z\" target=\"_blank\"> 🛠️ZhipuAI MaaS(Faster)\u003C\u002Fa>\n\u003Cbr>\n\u003Ca href=\"resources\u002FWECHAT.md\" target=\"_blank\"> 👋 WeChat Community\u003C\u002Fa>  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.05121\" target=\"_blank\">📚 CogView3 Paper\u003C\u002Fa>\n\u003C\u002Fp>\n\n![showcase.png](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogView4_readme_393e1f4aab4f.png)\n\n## Project Updates\n\n- 🔥🔥 ```2025\u002F03\u002F24```: 我们正在推出 [CogKit](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogKit)，这是一款功能强大的工具包，用于微调和推理 **CogView4** 和 **CogVideoX** 系列模型，使您能够充分探索我们的多模态生成模型。\n- ```2025\u002F03\u002F04```: 我们已适配并开源了 **CogView-4** 模型的 [diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) 版本，该模型拥有6B参数，支持原生中文输入及中文文生图任务。您可前往 [线上体验](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM-HF-SPACE\u002FCogView4)。\n- ```2024\u002F10\u002F13```: 我们已适配并开源了 **CogView-3Plus-3B** 模型的 [diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) 版本。您可前往 [线上试用](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FTHUDM-HF-SPACE\u002FCogView3-Plus-3B-Space)。\n- ```2024\u002F9\u002F29```: 我们已开源了 **CogView3** 和 **CogView-3Plus-3B**。**CogView3** 是一个基于级联扩散、采用接力扩散框架的文生图系统。而 **CogView-3Plus** 则是一系列新近开发的基于扩散Transformer的文生图模型。\n\n## Project Plan\n\n- [X] Diffusers 工作流适配\n- [X] Cog系列微调工具包（即将发布）\n- [ ] ControlNet模型及训练代码\n\n## Community Contributions\n\n我们在此收集了一些与本仓库相关的社区项目。这些项目由社区成员维护，我们非常感谢他们的贡献。\n\n+ [ComfyUI_CogView4_Wrapper](https:\u002F\u002Fgithub.com\u002Fchflame163\u002FComfyUI_CogView4_Wrapper) - ComfyUI中对CogView4项目的实现。\n\n## Model Introduction\n\n### Model Comparison\n\n\u003Ctable style=\"border-collapse: collapse; width: 100%;\">\n  \u003Ctr>\n    \u003Cth style=\"text-align: center;\">Model Name\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogView4\u003C\u002Fth>\n    \u003Cth style=\"text-align: center;\">CogView3-Plus-3B\u003C\u002Fth>\n  \u003C\u002Ftr>\n    \u003Ctd style=\"text-align: center;\">Resolution\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">\n            512 \u003C= H, W \u003C= 2048 \u003Cbr>\n            H * W \u003C= 2^{21} \u003Cbr>\n            H, W \\mod 32 = 0\n    \u003C\u002Ftd>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Inference Precision\u003C\u002Ftd>\n    \u003Ctd colspan=\"2\" style=\"text-align: center;\">Only supports BF16, FP32\u003C\u002Ftd>\n  \u003Ctr>\n  \u003Ctd style=\"text-align: center;\">Encoder\u003C\u002Ftd>\n  \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002Fglm-4-9b-hf\" target=\"_blank\">GLM-4-9B\u003C\u002Fa>\u003C\u002Ftd>\n  \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Ft5-v1_1-xxl\" target=\"_blank\">T5-XXL\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Prompt Language\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">Chinese, English\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">English\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Prompt Length Limit\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">1024 Tokens\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">224 Tokens\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd style=\"text-align: center;\">Download Links\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogView4-6B\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogView4-6B\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogView4-6B\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd style=\"text-align: center;\">\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogView3-Plus-3B\">🤗 HuggingFace\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogView3-Plus-3B\">🤖 ModelScope\u003C\u002Fa>\u003Cbr>\u003Ca href=\"https:\u002F\u002Fwisemodel.cn\u002Fmodels\u002FZhipuAI\u002FCogView3-Plus-3B\">🟣 WiseModel\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### Memory Usage\n\nDIT模型在`BF16`精度和`batchsize=4`条件下进行测试，结果如下表所示：\n\n| Resolution  | enable_model_cpu_offload OFF | enable_model_cpu_offload ON | enable_model_cpu_offload ON \u003C\u002Fbr> Text Encoder 4bit |\n|-------------|------------------------------|-----------------------------|-----------------------------------------------------|\n| 512 * 512   | 33GB                         | 20GB                        | 13G                                                 |\n| 1280 * 720  | 35GB                         | 20GB                        | 13G                                                 |\n| 1024 * 1024 | 35GB                         | 20GB                        | 13G                                                 |\n| 1920 * 1280 | 39GB                         | 20GB                        | 14G                                                 |\n\n此外，我们建议您的设备至少配备`32GB`内存，以防止进程被杀掉。\n\n### 模型指标\n\n我们在多个基准测试上进行了测试，取得了以下成绩：\n\n#### DPG-Bench\n\n| 模型        | 总体   | 全局    | 实体    | 属性    | 关系  | 其他     |\n|--------------|-----------|-----------|-----------|-----------|-----------|-----------|\n| SDXL         | 74.65     | 83.27     | 82.43     | 80.91     | 86.76     | 80.41     |\n| PixArt-alpha | 71.11     | 74.97     | 79.32     | 78.60     | 82.57     | 76.96     |\n| SD3-Medium   | 84.08     | 87.90     | **91.01** | 88.83     | 80.70     | 88.68     |\n| DALL-E 3      | 83.50     | **90.97** | 89.61     | 88.39     | 90.58     | 89.83     |\n| Flux.1-dev   | 83.79     | 85.80     | 86.79     | 89.98     | 90.04     | **89.90** |\n| Janus-Pro-7B | 84.19     | 86.90     | 88.90     | 89.40     | 89.32     | 89.48     |\n| **CogView4-6B** | **85.13** | 83.85     | 90.35     | **91.17** | **91.14** | 87.29     |\n\n#### GenEval\n\n| 模型           | 总体  | 单对象 | 两对象 | 计数 | 颜色   | 位置 | 颜色归属 |\n|-----------------|----------|-------------|----------|----------|----------|----------|-------------------|\n| SDXL            | 0.55     | 0.98        | 0.74     | 0.39     | 0.85     | 0.15     | 0.23              |\n| PixArt-alpha    | 0.48     | 0.98        | 0.50     | 0.44     | 0.80     | 0.08     | 0.07              |\n| SD3-Medium      | 0.74     | **0.99**    | **0.94** | 0.72     | 0.89     | 0.33     | 0.60              |\n| DALL-E 3        | 0.67     | 0.96        | 0.87     | 0.47     | 0.83     | 0.43     | 0.45              |\n| Flux.1-dev      | 0.66     | 0.98        | 0.79     | **0.73** | 0.77     | 0.22     | 0.45              |\n| Janus-Pro-7B    | **0.80** | **0.99**    | 0.89     | 0.59     | **0.90** | **0.79** | **0.66**          |\n| **CogView4-6B** | 0.73     | **0.99**    | 0.86     | 0.66     | 0.79     | 0.48     | 0.58              |\n\n#### T2I-CompBench\n\n| 模型           | 颜色      | 形状      | 纹理    | 2D空间   | 3D空间   | 数量感   | 非空间剪辑 | 复杂3合1 |\n|-----------------|------------|------------|------------|------------|------------|------------|------------------|----------------|\n| SDXL            | 0.5879     | 0.4687     | 0.5299     | 0.2133     | 0.3566     | 0.4988     | 0.3119           | 0.3237         |\n| PixArt-alpha    | 0.6690     | 0.4927     | 0.6477     | 0.2064     | 0.3901     | 0.5058     | **0.3197**       | 0.3433         |\n| SD3-Medium      | **0.8132** | 0.5885     | **0.7334** | **0.3200** | **0.4084** | 0.6174     | 0.3140           | 0.3771         |\n| DALL-E 3        | 0.7785     | **0.6205** | 0.7036     | 0.2865     | 0.3744     | 0.5880     | 0.3003           | 0.3773         |\n| Flux.1-dev      | 0.7572     | 0.5066     | 0.6300     | 0.2700     | 0.3992     | 0.6165     | 0.3065           | 0.3628         |\n| Janus-Pro-7B    | 0.5145     | 0.3323     | 0.4069     | 0.1566     | 0.2753     | 0.4406     | 0.3137           | 0.3806         |\n| **CogView4-6B** | 0.7786     | 0.5880     | 0.6983     | 0.3075     | 0.3708     | **0.6626** | 0.3056           | **0.3869**     |\n\n## 中文文本准确性评估\n\n| 模型           | 精确率  | 召回率     | F1分数   | Pick@4     |\n|-----------------|------------|------------|------------|------------|\n| Kolors          | 0.6094     | 0.1886     | 0.2880     | 0.1633     |\n| **CogView4-6B** | **0.6969** | **0.5532** | **0.6168** | **0.3265** |\n\n## 推理模型\n\n### 提示优化\n\n尽管 CogView4 系列模型是使用冗长的合成图像描述进行训练的，但我们强烈建议在进行文生图之前，使用大型语言模型来重写提示词，这将大大提升生成质量。\n\n我们提供了一个[示例脚本](inference\u002Fprompt_optimize.py)。建议运行此脚本以优化您的提示词。请注意，`CogView4` 和 `CogView3` 模型用于提示优化的少样本示例不同，需要加以区分。\n\n```shell\ncd inference\npython prompt_optimize.py --api_key \"Zhipu AI API Key\" --prompt {your prompt} --base_url \"https:\u002F\u002Fopen.bigmodel.cn\u002Fapi\u002Fpaas\u002Fv4\" --model \"glm-4-plus\" --cogview_version \"cogview4\"\n```\n\n### 推理模型\n\n使用 `BF16` 精度运行 `CogView4-6B` 模型：\n\n```python\nfrom diffusers import CogView4Pipeline\nimport torch\n\npipe = CogView4Pipeline.from_pretrained(\"THUDM\u002FCogView4-6B\", torch_dtype=torch.bfloat16).to(\"cuda\")\n\n# 打开以减少 GPU 内存占用\npipe.enable_model_cpu_offload()\npipe.vae.enable_slicing()\npipe.vae.enable_tiling()\n\nprompt = \"一辆鲜艳的樱桃红色跑车在耀眼的阳光下傲然矗立，其抛光的车身光滑无瑕，映出如镜般的倒影。这款车拥有低矮、流线型的车身，棱角分明的前大灯如同掠食者般锐利地注视前方，黑色高光泽的赛车轮毂与红色形成鲜明对比。格栅和排气管上点缀着微妙的镀铬装饰，而深色的车窗则暗示着奢华而私密的内部空间。整个场景充满了速度与优雅的气息，仿佛这辆车即将沿着海岸公路疾驰而去，背景中是蔚蓝的大海波涛汹涌。\"\nimage = pipe(\n    prompt=prompt,\n    guidance_scale=3.5,\n    num_images_per_prompt=1,\n    num_inference_steps=50,\n    width=1024,\n    height=1024,\n).images[0]\n\nimage.save(\"cogview4.png\")\n```\n\n更多推理代码，请查看：\n\n1. 使用 `BNB int4` 加载 `text encoder` 并完成推理代码注释，请参阅 [这里](inference\u002Fcli_demo_cogview4.py)。\n2. 使用 `TorchAO int8 或 int4` 加载 `text encoder & transformer` 并完成推理代码注释，请参阅 [这里](inference\u002Fcli_demo_cogview4_int8.py)。\n3. 设置 `gradio` GUI DEMO，请参阅 [这里](inference\u002Fgradio_web_demo.py)。\n\n## 微调\n\n本仓库不包含微调代码，但您可以采用以下两种方法进行微调，包括 LoRA 和 SFT：\n\n1. [CogKit](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogKit)，我们官方维护的系统级微调框架，支持 CogView4 和 CogVideoX。\n2. [finetrainers](https:\u002F\u002Fgithub.com\u002Fa-r-r-o-w\u002Ffinetrainers)，一种低内存解决方案，可在单台 RTX 4090 上进行微调。\n3. 如果您想直接训练 ControlNet 模型，可以参考 [训练代码](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\u002Ftree\u002Fmain\u002Fexamples\u002Fcogview4-control)，并训练您自己的模型。\n\n## 许可证\n\n本仓库中的代码以及 CogView3 模型均采用 [Apache 2.0](.\u002FLICENSE) 许可证。\n\n我们欢迎并感谢您的代码贡献。您可以查看贡献指南 [这里](resources\u002Fcontribute.md)。","# CogView4 快速上手指南\n\nCogView4 是由智谱 AI 开源的最新文生图模型，拥有 60 亿参数，原生支持中文输入，基于 Diffusion Transformer 架构。本指南将帮助您快速在本地部署并运行该模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 Windows\n*   **GPU**: NVIDIA 显卡，显存建议 **24GB** 以上（若开启 `enable_model_cpu_offload` 可降低至 13-20GB，具体取决于分辨率）。\n*   **内存**: 系统 RAM 至少 **32GB**，防止进程被杀死。\n*   **Python**: 3.8 或更高版本\n*   **核心依赖**:\n    *   `torch` (支持 CUDA)\n    *   `diffusers` (需最新版以支持 CogView4)\n    *   `transformers`\n    *   `accelerate`\n\n> **提示**：国内用户推荐使用 ModelScope 或 WiseModel 镜像源下载模型，速度更快。\n\n## 2. 安装步骤\n\n### 2.1 安装基础依赖\n\n建议使用虚拟环境（如 conda 或 venv），然后安装必要的 Python 包：\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install diffusers transformers accelerate sentencepiece protobuf\n```\n\n*注：如果您使用 Hugging Face 下载模型受阻，可设置环境变量使用镜像：*\n```bash\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n```\n\n### 2.2 验证安装\n\n确保 `diffusers` 版本已更新以支持 CogView4 管道。\n\n## 3. 基本使用\n\n以下是最简单的文生图推理代码示例。该示例加载 `THUDM\u002FCogView4-6B` 模型，并使用 BF16 精度进行推理。\n\n### 3.1 最小化推理脚本\n\n创建文件 `infer.py` 并填入以下内容：\n\n```python\nfrom diffusers import CogView4Pipeline\nimport torch\n\n# 加载模型 (国内用户可将 pretrained_model_name_or_path 替换为 ModelScope 路径)\n# ModelScope 路径示例: \"ZhipuAI\u002FCogView4-6B\" (需安装 modelscope 并配置)\npipe = CogView4Pipeline.from_pretrained(\n    \"THUDM\u002FCogView4-6B\", \n    torch_dtype=torch.bfloat16\n).to(\"cuda\")\n\n# 优化显存占用：开启 CPU Offload 和 VAE 切片\u002F平铺\npipe.enable_model_cpu_offload()\npipe.vae.enable_slicing()\npipe.vae.enable_tiling()\n\n# 定义提示词 (支持中文)\nprompt = \"一只可爱的熊猫在竹林中吃竹子，阳光透过竹叶洒下，高清摄影风格\"\n\n# 生成图像\nimage = pipe(\n    prompt=prompt,\n    guidance_scale=3.5,\n    num_images_per_prompt=1,\n    num_inference_steps=50,\n    width=1024,\n    height=1024,\n).images[0]\n\n# 保存结果\nimage.save(\"cogview4_output.png\")\nprint(\"图像已保存为 cogview4_output.png\")\n```\n\n### 3.2 运行脚本\n\n```bash\npython infer.py\n```\n\n### 3.3 进阶优化建议\n\n1.  **提示词优化**：虽然 CogView4 支持中文，但使用大语言模型（如 GLM-4）对提示词进行润色和扩写可以显著提升生成质量。官方提供了 `inference\u002Fprompt_optimize.py` 脚本供参考。\n2.  **低显存方案**：如果您的显存非常紧张，可以参考官方仓库中的 `cli_demo_cogview4_int8.py`，使用 TorchAO 或 BNB 量化文本编码器（Text Encoder）来进一步降低显存需求。\n3.  **模型来源切换**：若从 HuggingFace 下载缓慢，可前往 [ModelScope (魔搭)](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FCogView4-6B) 下载模型权重，并将代码中的 `from_pretrained` 路径改为本地下载后的文件夹路径。","某本土电商公司的设计团队正急需为“国潮中秋”营销活动准备一系列具有复杂中文意境的商品海报背景图。\n\n### 没有 CogView4 时\n- **语言理解障碍**：主流模型对“月满西楼，桂香浮动”等富含文化隐喻的中文提示词理解偏差大，常生成西式建筑或无关元素，需反复翻译成英文尝试。\n- **描述长度受限**：受限于 200 余词的提示词长度上限，设计师无法详细描述画面中的光影层次、材质纹理及构图细节，导致图片精致度不足。\n- **人工修图耗时**：因生成的文字乱码且主体结构错误，后期美工需花费数小时进行 PS 重绘和字体替换，严重拖慢上线节奏。\n- **分辨率适配困难**：难以直接生成符合电商大屏展示的自定义高分辨率图像，放大后细节模糊，无法满足印刷级需求。\n\n### 使用 CogView4 后\n- **原生中文精准掌控**：CogView4 内置 GLM-4-9B 编码器，能直接深度理解长句中文提示词，准确还原“琉璃瓦反光”与“桂花飘落”的动态意境。\n- **超长细节描述支持**：依托 1024 Tokens 的上下文窗口，设计师可输入包含灯光色温、布料质感在内的数百字详细指令，一次性生成高完成度草图。\n- **文生图直出可用**：生成的图像中汉字渲染准确，构图逻辑严密，大幅减少后期修图工作量，设计效率提升 3 倍以上。\n- **灵活高清输出**：支持 512 至 2048 范围内的任意分辨率定制，直接输出适合网页 Banner 和线下海报的高清素材，无需二次超分处理。\n\nCogView4 通过原生中文长文本理解与高分辨率生成能力，将创意从“翻译磨合”解放为“所想即所得”，彻底重塑了本土化视觉内容的生产流。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_CogView4_393e1f4a.png","zai-org","Z.ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzai-org_f0d5ae80.png","ChatGLM, GLM-4.5, CogVLM, CodeGeeX, CogView, CogVideoX | CogDL, AMiner | Zhipu.ai (Z.ai)",null,"Zai_org","https:\u002F\u002Fwww.zhipuai.cn\u002Fen","https:\u002F\u002Fgithub.com\u002Fzai-org",[85],{"name":86,"color":87,"percentage":88},"Python","#3572A5",100,1104,82,"2026-03-31T01:25:09","Apache-2.0","未说明","必需 NVIDIA GPU。运行精度仅支持 BF16\u002FFP32。显存需求：关闭 CPU 卸载需 33GB-39GB (取决于分辨率)；开启 CPU 卸载需 20GB；若文本编码器使用 4bit 量化，显存需求可降至 13GB-14GB。","最低 32GB (官方建议至少 32GB 以防进程被杀)",{"notes":97,"python":93,"dependencies":98},"1. 模型推理精度仅支持 BF16 和 FP32。2. 强烈建议使用大语言模型（如 GLM-4）在生成前优化提示词以提升质量。3. 可通过开启 enable_model_cpu_offload 或将文本编码器量化为 4bit (BNB 或 TorchAO) 来显著降低显存占用。4. 官方提供了 CogKit 用于微调，本仓库主要包含推理代码。5. 输入图像分辨率需满足：512 \u003C= H, W \u003C= 2048，H*W \u003C= 2^21，且长宽均为 32 的倍数。",[99,100,101,102],"diffusers","torch","transformers (GLM-4-9B, T5-XXL)","accelerate (隐含，用于 enable_model_cpu_offload)",[14],[105,106,107,108],"eccv2024","high-resolution","image-generation","text-to-image","2026-03-27T02:49:30.150509","2026-04-06T06:51:53.338775",[112,117,122,127,132,137,142,147],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},16138,"量化模型（如 int4）生成的图片有噪点或效果差，如何解决？","默认的 bitsandbytes (bnb) 4bit 加载精度较差，会导致明显的画质损失。建议改用 int8 量化，虽然出图速度稍慢，但效果可以接受。如果必须使用 4bit，建议使用 GPTQ 或 AWQ 等离线量化方法重新量化模型，以获得更好的生成质量。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F24",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},16139,"为什么生成 2048x2048 分辨率的图片会崩溃（崩图）？最大支持分辨率是多少？","模型不支持 2048x2048 的分辨率，强行运行会导致崩溃。最大支持的像素总量为 2 的 21 次方（约 2,097,152 像素）。例如，可以生成 2048x1024 或 1024x2048 的图片，但不能是正方形 2048x2048。文档中提到的显存消耗仅是理论估算，实际运行受此分辨率限制。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F43",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},16140,"如何在低显存（如 8GB 或更少）设备上运行模型？支持序列 CPU 卸载（sequence cpu offload）吗？","支持。该问题已在 Diffusers 库中修复（参考 PR #11195）。现在可以使用 `sequential_cpu_offload` 功能将模型层依次卸载到 CPU，从而在 8GB 或更小显存的设备上运行模型，尽管推理速度会有所下降。请确保您的 diffusers 版本已包含此修复。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F54",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},16141,"是否支持 Apple Silicon (M2\u002FM3 Ultra) 运行？","理论上支持，因为底层的 Diffusers 框架兼容 Apple Silicon。但是，官方尚未在 Mac 上进行具体测试，且在 Mac 上的推理速度预计会非常慢，不建议用于生产环境或大尺寸图片生成。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F46",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},16142,"目前是否支持 LoRA 微调？","项目计划支持 LoRA 微调。根据维护者回复，相关脚本和功能正在开发中（曾预计下周支持）。对于具体的微调（SFT）、LoRA 和 ControlNet 实现，可以参考社区维护的 CogKit 仓库或关注官方后续的代码更新。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F39",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},16143,"在哪里可以找到 ControlNet 或其他任务的训练脚本？","官方的完整训练脚本尚未完全合并到主分支，部分代码仍在 Pull Request 阶段。用户可以尝试参考 Diffusers 仓库中的相关 PR（如 #10809）获取实验性代码。此外，社区成员也在适配 SD3 的训练脚本来用于 CogView，但需注意 VAE 的 scale 和 shift 参数处理差异。建议关注官方发布的 CogKit 仓库获取最新训练支持。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F33",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},16144,"是否有针对 CogView4 的加速框架或推理加速方案？","目前官方暂时没有提供专门的加速方案。团队正在探索并适配相关的开源加速方案，但尚未正式发布。当前用户主要依赖 Diffusers 原生的推理流程，速度优化需等待后续更新。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F53",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},16145,"CogView4 的预训练源代码会开源吗？","官方没有计划开源预训练代码（pre-trained code）。但是，针对 SFT（监督微调）、LoRA 和 ControlNet 的微调与推理代码可以通过 CogKit 项目获取。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FCogView4\u002Fissues\u002F52",[]]