[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-openai--consistency_models":3,"tool-openai--consistency_models":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":100,"forks":101,"last_commit_at":102,"license":103,"difficulty_score":10,"env_os":104,"env_gpu":105,"env_ram":104,"env_deps":106,"category_tags":111,"github_topics":80,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":145},3168,"openai\u002Fconsistency_models","consistency_models","Official repo for consistency models.","consistency_models 是 OpenAI 官方开源的一致性模型代码库，基于 PyTorch 构建，旨在推动高效图像生成技术的发展。传统扩散模型虽然生成质量高，但通常需要数十甚至上百步迭代才能输出一张清晰图片，导致推理速度较慢。consistency_models 通过独特的“一致性训练”和“一致性蒸馏”技术，成功将生成过程压缩至单步或极少步数，在保持高质量的同时大幅提升了生成效率，解决了速度与质量难以兼得的痛点。\n\n该项目复现了论文中的核心算法，支持在 ImageNet、LSUN 卧室及猫咪等数据集上进行大规模实验，并提供了完整的预训练模型权重、训练脚本及评估工具（如 FID、Inception Score 计算）。此外，它还兼容 Hugging Face 的 diffusers 库，方便开发者快速集成调用。\n\nconsistency_models 主要面向 AI 研究人员和深度学习开发者，适合希望探索前沿生成模型架构、进行复现实验或开发实时图像应用的专业人士。对于需要快速原型验证的研究团队，其提供的丰富基线和详细文档极具价值。虽然普通用户难以直接运行底层代码，但可通过集","consistency_models 是 OpenAI 官方开源的一致性模型代码库，基于 PyTorch 构建，旨在推动高效图像生成技术的发展。传统扩散模型虽然生成质量高，但通常需要数十甚至上百步迭代才能输出一张清晰图片，导致推理速度较慢。consistency_models 通过独特的“一致性训练”和“一致性蒸馏”技术，成功将生成过程压缩至单步或极少步数，在保持高质量的同时大幅提升了生成效率，解决了速度与质量难以兼得的痛点。\n\n该项目复现了论文中的核心算法，支持在 ImageNet、LSUN 卧室及猫咪等数据集上进行大规模实验，并提供了完整的预训练模型权重、训练脚本及评估工具（如 FID、Inception Score 计算）。此外，它还兼容 Hugging Face 的 diffusers 库，方便开发者快速集成调用。\n\nconsistency_models 主要面向 AI 研究人员和深度学习开发者，适合希望探索前沿生成模型架构、进行复现实验或开发实时图像应用的专业人士。对于需要快速原型验证的研究团队，其提供的丰富基线和详细文档极具价值。虽然普通用户难以直接运行底层代码，但可通过集成该技术的上层应用间接体验其带来的极速生成能力。作为扩散模型领域的重要演进，它为实时创意工具和低延迟应用场景开辟了新的可能性。","# Consistency Models\n\nThis repository contains the codebase for [Consistency Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.01469), implemented using PyTorch for conducting large-scale experiments on ImageNet-64, LSUN Bedroom-256, and LSUN Cat-256. We have based our repository on [openai\u002Fguided-diffusion](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fguided-diffusion), which was initially released under the MIT license. Our modifications have enabled support for consistency distillation, consistency training, as well as several sampling and editing algorithms discussed in the paper.\n\nThe repository for CIFAR-10 experiments is in JAX and can be found at [openai\u002Fconsistency_models_cifar10](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models_cifar10).\n\n# Pre-trained models\n\nWe have released checkpoints for the main models in the paper. Before using these models, please review the corresponding [model card](model-card.md) to understand the intended use and limitations of these models.\n\nHere are the download links for each model checkpoint:\n\n * EDM on ImageNet-64: [edm_imagenet64_ema.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fedm_imagenet64_ema.pt)\n * CD on ImageNet-64 with l2 metric: [cd_imagenet64_l2.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_imagenet64_l2.pt)\n * CD on ImageNet-64 with LPIPS metric: [cd_imagenet64_lpips.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_imagenet64_lpips.pt)\n * CT on ImageNet-64: [ct_imagenet64.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fct_imagenet64.pt)\n * EDM on LSUN Bedroom-256: [edm_bedroom256_ema.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fedm_bedroom256_ema.pt)\n * CD on LSUN Bedroom-256 with l2 metric: [cd_bedroom256_l2.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_bedroom256_l2.pt)\n * CD on LSUN Bedroom-256 with LPIPS metric: [cd_bedroom256_lpips.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_bedroom256_lpips.pt)\n * CT on LSUN Bedroom-256: [ct_bedroom256.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fct_bedroom256.pt)\n * EDM on LSUN Cat-256: [edm_cat256_ema.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fedm_cat256_ema.pt)\n * CD on LSUN Cat-256 with l2 metric: [cd_cat256_l2.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_cat256_l2.pt)\n * CD on LSUN Cat-256 with LPIPS metric: [cd_cat256_lpips.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_cat256_lpips.pt)\n * CT on LSUN Cat-256: [ct_cat256.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fct_cat256.pt)\n\n# Dependencies\n\nTo install all packages in this codebase along with their dependencies, run\n```sh\npip install -e .\n```\n\nTo install with Docker, run the following commands:\n```sh\ncd docker && make build && make run\n```\n\n# Model training and sampling\n\nWe provide examples of EDM training, consistency distillation, consistency training, single-step generation, and multistep generation in [scripts\u002Flaunch.sh](scripts\u002Flaunch.sh).\n\n# Evaluations\n\nTo compare different generative models, we use FID, Precision, Recall, and Inception Score. These metrics can all be calculated using batches of samples stored in `.npz` (numpy) files. One can evaluate samples with [cm\u002Fevaluations\u002Fevaluator.py](evaluations\u002Fevaluator.py) in the same way as described in [openai\u002Fguided-diffusion](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fguided-diffusion), with reference dataset batches provided therein.\n\n## Use in 🧨 diffusers\n\nConsistency models are supported in [🧨 diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) via the [`ConsistencyModelPipeline` class](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fmain\u002Fen\u002Fapi\u002Fpipelines\u002Fconsistency_models). Below we provide an example:\n\n```python\nimport torch\n\nfrom diffusers import ConsistencyModelPipeline\n\ndevice = \"cuda\"\n# Load the cd_imagenet64_l2 checkpoint.\nmodel_id_or_path = \"openai\u002Fdiffusers-cd_imagenet64_l2\"\npipe = ConsistencyModelPipeline.from_pretrained(model_id_or_path, torch_dtype=torch.float16)\npipe.to(device)\n\n# Onestep Sampling\nimage = pipe(num_inference_steps=1).images[0]\nimage.save(\"consistency_model_onestep_sample.png\")\n\n# Onestep sampling, class-conditional image generation\n# ImageNet-64 class label 145 corresponds to king penguins\n\nclass_id = 145\nclass_id = torch.tensor(class_id, dtype=torch.long)\n\nimage = pipe(num_inference_steps=1, class_labels=class_id).images[0]\nimage.save(\"consistency_model_onestep_sample_penguin.png\")\n\n# Multistep sampling, class-conditional image generation\n# Timesteps can be explicitly specified; the particular timesteps below are from the original Github repo.\n# https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fblob\u002Fmain\u002Fscripts\u002Flaunch.sh#L77\nimage = pipe(timesteps=[22, 0], class_labels=class_id).images[0]\nimage.save(\"consistency_model_multistep_sample_penguin.png\")\n```\nYou can further speed up the inference process by using `torch.compile()` on `pipe.unet` (only supported from PyTorch 2.0). For more details, please check out the [official documentation](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fmain\u002Fen\u002Fapi\u002Fpipelines\u002Fconsistency_models). This support was contributed to 🧨 diffusers by [dg845](https:\u002F\u002Fgithub.com\u002Fdg845) and [ayushtues](https:\u002F\u002Fgithub.com\u002Fayushtues).\n\n# Citation\n\nIf you find this method and\u002For code useful, please consider citing\n\n```bibtex\n@article{song2023consistency,\n  title={Consistency Models},\n  author={Song, Yang and Dhariwal, Prafulla and Chen, Mark and Sutskever, Ilya},\n  journal={arXiv preprint arXiv:2303.01469},\n  year={2023},\n}\n```\n","# 一致性模型\n\n本仓库包含 [一致性模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.01469) 的代码库，使用 PyTorch 实现，用于在 ImageNet-64、LSUN Bedroom-256 和 LSUN Cat-256 数据集上进行大规模实验。我们的仓库基于 [openai\u002Fguided-diffusion](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fguided-diffusion)，该仓库最初以 MIT 许可证发布。我们对代码进行了修改，支持一致性蒸馏、一致性训练，以及论文中讨论的多种采样和编辑算法。\n\nCIFAR-10 数据集上的实验代码库采用 JAX 编写，位于 [openai\u002Fconsistency_models_cifar10](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models_cifar10)。\n\n# 预训练模型\n\n我们发布了论文中主要模型的检查点。在使用这些模型之前，请查阅相应的 [模型卡片](model-card.md)，以了解这些模型的预期用途及局限性。\n\n以下是各模型检查点的下载链接：\n\n * ImageNet-64 上的 EDM：[edm_imagenet64_ema.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fedm_imagenet64_ema.pt)\n * ImageNet-64 上使用 l2 度量的一致性蒸馏：[cd_imagenet64_l2.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_imagenet64_l2.pt)\n * ImageNet-64 上使用 LPIPS 度量的一致性蒸馏：[cd_imagenet64_lpips.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_imagenet64_lpips.pt)\n * ImageNet-64 上的一致性训练：[ct_imagenet64.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fct_imagenet64.pt)\n * LSUN Bedroom-256 上的 EDM：[edm_bedroom256_ema.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fedm_bedroom256_ema.pt)\n * LSUN Bedroom-256 上使用 l2 度量的一致性蒸馏：[cd_bedroom256_l2.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_bedroom256_l2.pt)\n * LSUN Bedroom-256 上使用 LPIPS 度量的一致性蒸馏：[cd_bedroom256_lpips.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_bedroom256_lpips.pt)\n * LSUN Bedroom-256 上的一致性训练：[ct_bedroom256.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fct_bedroom256.pt)\n * LSUN Cat-256 上的 EDM：[edm_cat256_ema.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fedm_cat256_ema.pt)\n * LSUN Cat-256 上使用 l2 度量的一致性蒸馏：[cd_cat256_l2.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_cat256_l2.pt)\n * LSUN Cat-256 上使用 LPIPS 度量的一致性蒸馏：[cd_cat256_lpips.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fcd_cat256_lpips.pt)\n * LSUN Cat-256 上的一致性训练：[ct_cat256.pt](https:\u002F\u002Fopenaipublic.blob.core.windows.net\u002Fconsistency\u002Fct_cat256.pt)\n\n# 依赖项\n\n要安装本代码库及其所有依赖项，请运行：\n```sh\npip install -e .\n```\n\n若使用 Docker 安装，请执行以下命令：\n```sh\ncd docker && make build && make run\n```\n\n# 模型训练与采样\n\n我们在 [scripts\u002Flaunch.sh](scripts\u002Flaunch.sh) 中提供了 EDM 训练、一致性蒸馏、一致性训练、单步生成和多步生成的示例。\n\n# 评估\n\n为了比较不同的生成模型，我们使用 FID、Precision、Recall 和 Inception Score 等指标。这些指标均可通过存储在 `.npz`（numpy）文件中的样本批次来计算。可以使用 [cm\u002Fevaluations\u002Fevaluator.py](evaluations\u002Fevaluator.py) 对样本进行评估，方法与 [openai\u002Fguided-diffusion](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fguided-diffusion) 中描述的一致，并参考其中提供的参考数据集批次。\n\n## 在 🧨 diffusers 中的使用\n\n一致性模型已在 [🧨 diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) 中通过 [`ConsistencyModelPipeline` 类](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fmain\u002Fen\u002Fapi\u002Fpipelines\u002Fconsistency_models) 得到支持。以下是一个示例：\n\n```python\nimport torch\n\nfrom diffusers import ConsistencyModelPipeline\n\ndevice = \"cuda\"\n# 加载 cd_imagenet64_l2 检查点。\nmodel_id_or_path = \"openai\u002Fdiffusers-cd_imagenet64_l2\"\npipe = ConsistencyModelPipeline.from_pretrained(model_id_or_path, torch_dtype=torch.float16)\npipe.to(device)\n\n# 单步采样\nimage = pipe(num_inference_steps=1).images[0]\nimage.save(\"consistency_model_onestep_sample.png\")\n\n# 单步采样，条件式图像生成\n# ImageNet-64 类标签 145 对应帝企鹅\n\nclass_id = 145\nclass_id = torch.tensor(class_id, dtype=torch.long)\n\nimage = pipe(num_inference_steps=1, class_labels=class_id).images[0]\nimage.save(\"consistency_model_onestep_sample_penguin.png\")\n\n# 多步采样，条件式图像生成\n# 步骤数可以显式指定；以下步骤来自原始 GitHub 仓库。\n# https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fblob\u002Fmain\u002Fscripts\u002Flaunch.sh#L77\nimage = pipe(timesteps=[22, 0], class_labels=class_id).images[0]\nimage.save(\"consistency_model_multistep_sample_penguin.png\")\n```\n您还可以通过在 `pipe.unet` 上使用 `torch.compile()` 来进一步加速推理过程（仅支持 PyTorch 2.0 及以上版本）。更多详情请参阅 [官方文档](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fdiffusers\u002Fmain\u002Fen\u002Fapi\u002Fpipelines\u002Fconsistency_models)。此支持由 [dg845](https:\u002F\u002Fgithub.com\u002Fdg845) 和 [ayushtues](https:\u002F\u002Fgithub.com\u002Fayushtues) 贡献给 🧨 diffusers。\n\n# 引用\n\n如果您认为本方法和\u002F或代码有用，请考虑引用以下文献：\n\n```bibtex\n@article{song2023consistency,\n  title={Consistency Models},\n  author={Song, Yang and Dhariwal, Prafulla and Chen, Mark and Sutskever, Ilya},\n  journal={arXiv preprint arXiv:2303.01469},\n  year={2023},\n}\n```","# Consistency Models 快速上手指南\n\nConsistency Models 是由 OpenAI 提出的一种新型生成模型，支持单步或多步快速采样。本指南基于官方 PyTorch 实现，帮助开发者快速部署和使用预训练模型。\n\n## 环境准备\n\n*   **系统要求**：Linux 或 macOS（推荐 Linux），具备 NVIDIA GPU 以加速推理和训练。\n*   **前置依赖**：\n    *   Python 3.8+\n    *   PyTorch 1.10+ (推荐使用最新稳定版)\n    *   CUDA Toolkit (如需 GPU 加速)\n*   **国内加速建议**：\n    *   安装 Python 包时，建议使用清华或阿里镜像源加速下载：\n        ```bash\n        pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>\n        ```\n    *   下载预训练模型权重时，若官方链接访问缓慢，可尝试使用国内云存储中转或代理工具。\n\n## 安装步骤\n\n### 方法一：源码安装（推荐）\n\n克隆仓库并安装依赖：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models.git\ncd consistency_models\npip install -e .\n```\n\n*注：如遇网络问题，请配合上述国内镜像源使用。*\n\n### 方法二：Docker 安装\n\n如果希望隔离环境，可使用 Docker：\n\n```bash\ncd docker\nmake build\nmake run\n```\n\n## 基本使用\n\n最便捷的使用方式是通过 Hugging Face 🧨 **diffusers** 库加载预训练模型，无需手动下载权重文件。\n\n### 1. 安装 diffusers\n\n```bash\npip install diffusers transformers accelerate\n```\n\n### 2. 单步图像生成示例\n\n以下代码演示了如何加载 ImageNet-64 的预训练模型并进行单步采样（One-step Sampling）：\n\n```python\nimport torch\nfrom diffusers import ConsistencyModelPipeline\n\n# 设置设备\ndevice = \"cuda\"\n\n# 加载预训练模型 (自动从 Hugging Face 下载)\n# 此处使用 L2 度量的 Consistency Distillation 模型\nmodel_id_or_path = \"openai\u002Fdiffusers-cd_imagenet64_l2\"\n\npipe = ConsistencyModelPipeline.from_pretrained(\n    model_id_or_path, \n    torch_dtype=torch.float16\n)\npipe.to(device)\n\n# 执行单步采样\nimage = pipe(num_inference_steps=1).images[0]\n\n# 保存结果\nimage.save(\"consistency_model_onestep_sample.png\")\n```\n\n### 3. 类别条件生成（可选）\n\n若需生成特定类别的图像（例如 ImageNet 中的“王企鹅”，类别 ID 145）：\n\n```python\n# 定义类别标签\nclass_id = 145\nclass_id = torch.tensor(class_id, dtype=torch.long).to(device)\n\n# 单步类别条件生成\nimage = pipe(num_inference_steps=1, class_labels=class_id).images[0]\nimage.save(\"consistency_model_onestep_sample_penguin.png\")\n\n# 多步类别条件生成 (指定时间步)\nimage = pipe(timesteps=[22, 0], class_labels=class_id).images[0]\nimage.save(\"consistency_model_multistep_sample_penguin.png\")\n```\n\n### 4. 推理加速（可选）\n\n如果您使用的是 PyTorch 2.0 及以上版本，可以使用 `torch.compile()` 进一步加速推理：\n\n```python\npipe.unet = torch.compile(pipe.unet, mode=\"reduce-overhead\", fullgraph=True)\n```\n\n> **提示**：更多预训练模型（如 LSUN Bedroom\u002FCat 数据集）可在 Hugging Face Model Hub 搜索 `openai` 组织下的相关模型，或直接参考官方 README 中的权重下载链接手动加载。","某电商平台的视觉设计团队需要快速生成大量高分辨率、风格统一的商品背景图，以支持每日更新的促销活动页面。\n\n### 没有 consistency_models 时\n- **生成速度缓慢**：依赖传统扩散模型（如 EDM）生成一张高质量图片通常需要数十甚至上百步去噪，导致批量生产时等待时间过长，无法响应紧急运营需求。\n- **推理成本高昂**：多步采样过程消耗大量 GPU 算力，使得在大规模并发场景下的服务器负载和云资源账单居高不下。\n- **实时交互困难**：由于单次生成耗时久，设计师无法在后台工具中进行“即时预览”或微调，严重拖慢了创意迭代和选图效率。\n- **部署门槛较高**：为了平衡速度与质量，往往需要复杂的蒸馏流程或牺牲图像细节，难以在保证高保真度的同时实现单步生成。\n\n### 使用 consistency_models 后\n- **单步极速生成**：利用一致性蒸馏（Consistency Distillation）技术，consistency_models 能将生成步骤压缩至 1-2 步，将单张图片的生成时间从秒级降低至毫秒级。\n- **大幅降低成本**：推理步数的断崖式减少直接降低了 GPU 占用率，使同等硬件资源下的吞吐量提升数十倍，显著优化了运营成本。\n- **支持实时编辑**：极快的推理速度让设计师能够实时调整提示词并立即看到结果，实现了流畅的交互式图像创作体验。\n- **质量速度兼得**：在实现单步生成的同时，该工具在 ImageNet 和 LSUN 等数据集上仍保持了与传统多步模型相当的 FID 分数和视觉清晰度。\n\nconsistency_models 的核心价值在于打破了生成速度与图像质量之间的传统权衡，让高保真图像生成真正具备了实时性和大规模落地的能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopenai_consistency_models_187dbb12.png","openai","OpenAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fopenai_1960bbf4.png","",null,"https:\u002F\u002Fopenai.com\u002F","https:\u002F\u002Fgithub.com\u002Fopenai",[84,88,92,96],{"name":85,"color":86,"percentage":87},"Python","#3572A5",93.3,{"name":89,"color":90,"percentage":91},"Shell","#89e051",6.2,{"name":93,"color":94,"percentage":95},"Dockerfile","#384d54",0.4,{"name":97,"color":98,"percentage":99},"Makefile","#427819",0.1,6475,432,"2026-04-04T02:16:03","MIT","未说明","需要 NVIDIA GPU (基于 PyTorch 和 CUDA 支持)，具体型号和显存大小未说明，但提及在 ImageNet-64 和 LSUN-256 上进行大规模实验通常需要高性能 GPU",{"notes":107,"python":104,"dependencies":108},"该仓库基于 openai\u002Fguided-diffusion 修改，支持一致性蒸馏、一致性训练及多种采样算法。CIFAR-10 实验代码位于独立的 JAX 版本仓库中。可通过 pip install -e . 或 Docker 安装依赖。若使用 Hugging Face diffusers 库进行推理，支持 torch.compile() 加速（需 PyTorch 2.0+）。使用前请查阅 model-card.md 了解模型限制。",[109,110],"torch","diffusers (可选，用于推理)",[14],"2026-03-27T02:49:30.150509","2026-04-06T05:17:19.641218",[115,120,125,130,135,140],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},14591,"在 Google Colab 或特定环境中运行时报错 'QKVFlashAttention unexpected parameters error' 如何解决？","这是一个与 flash-attn 版本兼容性相关的问题。解决方法是修改代码文件 `\u002Fcm\u002Funet.py` 中的 `QKVFlashAttention` 类。在 `__init__` 方法中，找到定义 `factory_kwargs` 的行，将其从 `factory_kwargs = {\"device\": device, \"dtype\": dtype}` 修改为空字典 `factory_kwargs = {}`。具体代码如下：\n```python\nclass QKVFlashAttention(nn.Module):\n    def __init__(...):\n        # ... 其他导入 ...\n        assert batch_first\n        # factory_kwargs = {\"device\": device, \"dtype\": dtype}  # 注释掉原行\n        factory_kwargs = {}  # 改为空字典\n        super().__init__()\n        # ... 后续代码 ...\n```","https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fissues\u002F3",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},14592,"遇到 'RuntimeError: FlashAttention is only supported on CUDA 11 and above' 错误怎么办？","该错误通常是因为系统中 `nvcc` 的版本（通过 `nvcc -V` 查看）与 PyTorch 使用的 CUDA 版本不匹配（例如 nvcc 版本低于 11.0，而 torch 需要 11.7）。\n解决方法是调整环境变量 PATH，指向正确的 CUDA 版本。例如，如果已安装 CUDA 11.7，可执行以下命令：\n```bash\nexport PATH=\u002Fusr\u002Flocal\u002Fcuda-11.7\u002Fbin:$PATH\n```\n执行后重新运行程序即可。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fissues\u002F23",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},14593,"一致性训练（Consistency Training）模式是否必须提供教师模型（teacher model）路径？","不需要。虽然启动脚本（launch.sh）中的示例命令包含了 `--teacher_model_path` 参数，但在纯粹的一致性训练模式（consistency training mode）下，实际上并不需要教师模型。该参数在某些蒸馏场景下可能有用，但对于标准的一致性训练是非必需的。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fissues\u002F53",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},14594,"运行 README 中的 diffusers 示例代码时出现 'Expected tensor ... to have scalar type Long; but got torch.IntTensor' 错误？","这是因为传入的类别标签（class_labels）数据类型不正确。PyTorch 的 embedding 层要求索引类型为 `Long`，而默认可能是 `Int`。\n解决方法是在调用 pipeline 时，显式地将 `class_labels` 转换为 `torch.long` 类型，或者确保传入的是整数且被正确处理。例如：\n```python\n# 确保 class_labels 是 long 类型\nimage = pipe(num_inference_steps=1, class_labels=torch.tensor([145], dtype=torch.long)).images[0]\n```\n此外，部分用户反馈 diffusers 库中的模型初始化可能缺少 group norm 层，导致警告或结果不佳，需检查 diffusers 版本或源码补丁。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fissues\u002F44",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},14595,"运行训练脚本时进程组初始化超时（time out initializing process group）且无输出是什么原因？","这通常是由于多进程分布式训练环境配置问题导致的。当使用 `mpiexec` 或类似工具启动多个进程时，如果网络配置、防火墙设置或主机间通信存在问题，进程组无法正确初始化，会导致程序挂起且无任何报错输出，直到超时。\n建议检查以下几点：\n1. 确保 MPI 环境已正确安装并配置。\n2. 检查防火墙是否阻止了进程间通信端口。\n3. 尝试在单卡或非分布式模式下先运行代码以排除代码逻辑错误。\n4. 查看系统日志或使用 `strace` 等工具调试进程阻塞位置。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fissues\u002F14",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},14596,"执行 'pip install -e .' 安装本地包时遇到 flash-attn 下载或编译错误怎么办？","`flash-attn` 依赖特定的 CUDA 环境和编译器。安装失败通常是因为缺少对应的 CUDA Toolkit、C++ 编译器（如 gcc\u002Fg++）版本不兼容，或者网络问题导致下载中断。\n解决步骤：\n1. 确保已安装与 PyTorch 版本匹配的 CUDA Toolkit（建议 CUDA 11.x 或更高）。\n2. 安装必要的构建工具，例如在 Ubuntu 上：`sudo apt-get install build-essential`。\n3. 如果预编译包不可用，尝试手动安装 flash-attn 指定版本：`pip install flash-attn==1.0.2 --no-build-isolation`（可能需要根据实际报错调整版本）。\n4. 若仍失败，可参考 Issue #3 中的方法，修改源码移除对特定 factory_kwargs 的依赖，从而规避部分版本兼容性问题。","https:\u002F\u002Fgithub.com\u002Fopenai\u002Fconsistency_models\u002Fissues\u002F31",[]]