[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kijai--ComfyUI-CogVideoXWrapper":3,"tool-kijai--ComfyUI-CogVideoXWrapper":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":68,"owner_company":68,"owner_location":78,"owner_email":68,"owner_twitter":79,"owner_website":68,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":90,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":104,"github_topics":68,"view_count":23,"oss_zip_url":68,"oss_zip_packed_at":68,"status":16,"created_at":105,"updated_at":106,"faqs":107,"releases":140},2741,"kijai\u002FComfyUI-CogVideoXWrapper","ComfyUI-CogVideoXWrapper",null,"ComfyUI-CogVideoXWrapper 是一个专为 ComfyUI 设计的节点插件，旨在让用户更灵活地运行和定制 CogVideoX、Fun 及 Tora 等先进的视频生成模型。它解决了原生模型在分辨率限制、显存占用高以及工作流固定僵化等方面的痛点，通过模块化设计让创作者能自由构建从文生视频、图生视频到姿态控制视频等多种复杂流程。\n\n这款工具特别适合熟悉 ComfyUI 的进阶用户、AI 视频研究者以及希望深度控制生成效果的数字艺术家使用。其核心亮点在于强大的兼容性与性能优化：不仅支持加载 GGUF 量化模型以大幅降低显存门槛，还集成了 FasterCache 加速技术和 torch.compile 优化，在保证质量的同时显著提升生成速度。此外，它创新性地融合了 Go-with-the-Flow 技术，支持通过“切割与拖拽”掩码视频来实现精细的运动控制，并允许独立配置 VAE 和使用 fp32 精度，为长视频生成和高画质需求提供了坚实的技术支撑。尽管部分更新会调整旧有工作流结构，但其带来的功能扩展与代码整洁度提升，使其成为当前开源社区中极具价值的视频生成解决方案。","# WORK IN PROGRESS\n\nSpreadsheet (WIP) of supported models and their supported features: https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F16eA6mSL8XkTcu9fSWkPSHfRIqyAKJbR1O99xnuGdCKY\u002Fedit?usp=sharing\n\n## Update 9\nAdded preliminary support for [Go-with-the-Flow](https:\u002F\u002Fgithub.com\u002FVGenAI-Netflix-Eyeline-Research\u002FGo-with-the-Flow)\n\nThis uses LoRA weights available here: https:\u002F\u002Fhuggingface.co\u002FEyeline-Research\u002FGo-with-the-Flow\u002Ftree\u002Fmain\n\nTo create the input videos for the NoiseWarp process, I've added a node to KJNodes that works alongside my SplineEditor, and either [comfyui-inpaint-nodes](https:\u002F\u002Fgithub.com\u002FAcly\u002Fcomfyui-inpaint-nodes) or just cv2 inpainting to create the cut and drag input videos.\n\nThe workflows are in the example_workflows -folder.\n\nQuick video to showcase: First mask the subject, then use the cut and drag -workflow to create a video as seen here, then that video is used as input to the NoiseWarp node in the main workflow.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F112706b0-a38b-4c3c-b779-deba0827af4f\n\n## BREAKING Update8\n\nThis is big one, and unfortunately to do the necessary cleanup and refactoring this will break every old workflow as they are.\nI apologize for the inconvenience, if I don't do this now I'll keep making it worse until maintaining becomes too much of a chore, so from my pov there was no choice.\n\n*Please either use the new workflows or fix the nodes in your old ones before posting issue reports!*\n\nOld version will be kept in a legacy branch, but not maintained\n\n- Support CogVideoX 1.5 models\n- Major code cleanup (it was bad, still isn't great, wip)\n- Merge Fun -model functionality into main pipeline:\n    - All Fun specific nodes, besides image encode node for Fun -InP models are gone\n    - Main CogVideo Sampler works with Fun models\n    - DimensionX LoRAs now work with Fun models as well\n\n- Remove width\u002Fheight from the sampler widgets and detect from input instead, this meanst text2vid now requires using empty latents\n- Separate VAE from the model, allow using fp32 VAE\n- Add ability to load some of the non-GGUF models as single files (only few available for now: https:\u002F\u002Fhuggingface.co\u002FKijai\u002FCogVideoX-comfy)\n- Add some torchao quantizations as options\n- Add interpolation as option for the main encode node, old interpolation specific node is gone\n- torch.compile optimizations\n- Remove PAB in favor of FasterCache and cleaner code\n- other smaller things I forgot about at this point\n\nFor Fun -model based workflows it's more drastic change, for others migrating generally means re-setting many of the nodes.\n\n## Update7\n\n- Refactored the Fun version's sampler to accept any resolution, this should make it lot simpler to use with Tora. **BREAKS OLD WORKFLOWS**, old FunSampler nodes need to be remade.\n- The old bucket resizing is now on it's own node (CogVideoXFunResizeToClosestBucket) to keep the functionality, I honestly don't know if it matters at all, but just in case.\n- Fun version's vid2vid is now also in the same node, the old vid2vid node is deprecated.\n- Added support for FasterCache, this trades more VRAM use for speed with slight quality hit, similar to PAB: https:\u002F\u002Fgithub.com\u002FVchitect\u002FFasterCache\n- Improved torch.compile support, it actually works now\n\n## Update6\n\nInitial support for Tora (https:\u002F\u002Fgithub.com\u002Falibaba\u002FTora)\n\nConverted model (included in the autodownload node):\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FCogVideoX-5b-Tora\u002Ftree\u002Fmain\n\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd5334237-03dc-48f5-8bec-3ae5998660c6\n\n\n## Update5\nThis week there's been some bigger updates that will most likely affect some old workflows, sampler node especially probably need to be refreshed (re-created) if it errors out!\n\nNew features:\n- Initial context windowing with FreeNoise noise shuffling mainly for vid2vid and pose2vid pipelines for longer generations, haven't figured it out for img2vid yet\n- GGUF models and tiled encoding for I2V and pose pipelines (thanks to MinusZoneAI)\n- [sageattention](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FSageAttention) support (Linux only) for a speed boost, I experienced ~20-30% increase with it, stacks with fp8 fast mode, doesn't need compiling\n- Support CogVideoX-Fun 1.1 and it's pose models with additional control strength and application step settings, this model's input does NOT have to be just dwpose skeletons, just about anything can work\n- Support LoRAs\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fddeb8f38-a647-42b3-a4b1-c6936f961deb\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc78b2832-9571-4941-8c97-fbcc1a4cc23d\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd9ed98b1-f917-432b-a16e-e01e87efb1f9\n\n\n\n## Update4\nInitial support for the official I2V version of CogVideoX: https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b-I2V\n\n**Also needs diffusers 0.30.3**\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc672d0af-a676-495d-a42c-7e3dd802b4b0\n\n\n\n## Update3\n\nAdded initial support for CogVideoX-Fun: https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FCogVideoX-Fun\n\nNote that while this one can do image2vid, this is NOT the official I2V model yet, though it should also be released very soon.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F68f9ed16-ee53-4955-b931-1799461ac561\n\n\n## Updade2\n\nAdded **experimental** support for onediff, this reduced sampling time by ~40% for me, reaching 4.23 s\u002Fit on 4090 with 49 frames. \nThis requires using Linux, torch 2.4.0, onediff and nexfort installation:\n\n`pip install --pre onediff onediffx`\n\n`pip install nexfort`\n\nFirst run will take around 5 mins for the compilation.\n\n## Update\n5b model is now also supported for basic text2vid: https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b\n\nIt is also autodownloaded to `ComfyUI\u002Fmodels\u002FCogVideo\u002FCogVideoX-5b`, text encoder is not needed as we use the ComfyUI T5.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F991205cc-826e-4f93-831a-c10441f0f2ce\n\nRequires diffusers 0.30.1 (this is specified in requirements.txt)\n\nUses same T5 model than SD3 and Flux, fp8 works fine too. Memory requirements depend mostly on the video length. \nVAE decoding seems to be the only big that takes a lot of VRAM when everything is offloaded, peaks at around 13-14GB momentarily at that stage.\nSampling itself takes only maybe 5-6GB.\n\n\nHacked in img2img to attempt vid2vid workflow, works interestingly with some inputs, highly experimental.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe6951ef4-ea7a-4752-94f6-cf24f2503d83\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9e41f37b-2bb3-411c-81fa-e91b80da2559\n\nAlso added temporal tiling as means of generating endless videos:\n\nhttps:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fecdac8b8-d434-48b6-abd6-90755b6b552d\n\n\n\nOriginal repo:\nhttps:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo\n\nCogVideoX-Fun:\nhttps:\u002F\u002Fgithub.com\u002Faigc-apps\u002FCogVideoX-Fun\n\nControlnet:\nhttps:\u002F\u002Fgithub.com\u002FTheDenk\u002Fcogvideox-controlnet\n","# 工作中\n\n支持的模型及其功能的电子表格（WIP）：https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F16eA6mSL8XkTcu9fSWkPSHfRIqyAKJbR1O99xnuGdCKY\u002Fedit?usp=sharing\n\n## 更新 9\n新增了对 [Go-with-the-Flow](https:\u002F\u002Fgithub.com\u002FVGenAI-Netflix-Eyeline-Research\u002FGo-with-the-Flow) 的初步支持。\n\n该模型使用以下 LoRA 权重：https:\u002F\u002Fhuggingface.co\u002FEyeline-Research\u002FGo-with-the-Flow\u002Ftree\u002Fmain\n\n为了生成 NoiseWarp 流程所需的输入视频，我在 KJNodes 中添加了一个节点，它与我的 SplineEditor 配合使用，并结合 [comfyui-inpaint-nodes](https:\u002F\u002Fgithub.com\u002FAcly\u002Fcomfyui-inpaint-nodes) 或直接使用 cv2 图像修复技术，来创建剪切拖拽类型的输入视频。\n\n相关工作流位于 example_workflows 文件夹中。\n\n快速演示视频：首先对主体进行遮罩处理，然后使用剪切拖拽工作流生成如图所示的视频，再将该视频作为主工作流中 NoiseWarp 节点的输入。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F112706b0-a38b-4c3c-b779-deba0827af4f\n\n## 紧急更新8\n\n这是一次重大更新，不幸的是，为了完成必要的清理和重构，所有旧的工作流都将失效。对此带来的不便我深表歉意。如果现在不进行这些调整，问题只会越来越严重，维护成本也会变得难以承受，因此在我看来别无选择。\n\n*请在提交问题报告之前，要么使用新的工作流，要么修复您旧工作流中的节点！*\n\n旧版本将保留在一个遗留分支中，但不再维护。\n\n- 支持 CogVideoX 1.5 模型\n- 大规模代码清理（情况很糟糕，目前仍不理想，仍在进行中）\n- 将 Fun 模型的功能合并到主流程中：\n    - 所有 Fun 特有的节点，除了用于 Fun-InP 模型的图像编码节点外，均已移除。\n    - 主 CogVideo 采样器现可与 Fun 模型配合使用。\n    - DimensionX 的 LoRA 现在也可用于 Fun 模型。\n\n- 从采样器控件中移除宽度\u002F高度设置，改为自动从输入中检测。这意味着 text2vid 现在必须使用空潜伏变量。\n- 将 VAE 从模型中分离出来，允许使用 fp32 VAE。\n- 增加加载部分非 GGUF 模型为单个文件的功能（目前仅少数可用：https:\u002F\u002Fhuggingface.co\u002FKijai\u002FCogVideoX-comfy）。\n- 添加一些 torchao 量化选项。\n- 在主编码节点中加入插值选项，旧的插值专用节点已被移除。\n- 使用 torch.compile 进行优化。\n- 移除 PAB，改用 FasterCache 并简化代码。\n- 其他一些较小的改动，我现在已经记不清了。\n\n对于基于 Fun 模型的工作流来说，这次改动更为彻底；而对于其他工作流，迁移通常意味着需要重新设置许多节点。\n\n## 更新7\n\n- 重构了 Fun 版本的采样器，使其能够接受任意分辨率，这应该会使其与 Tora 配合使用时更加简单。**这将破坏旧的工作流**，旧的 FunSampler 节点需要重新制作。\n- 旧的桶式尺寸调整功能现在被单独放在一个节点上（CogVideoXFunResizeToClosestBucket），以保留该功能。说实话，我不确定这是否真的有必要，但以防万一还是保留了。\n- Fun 版本的 vid2vid 功能现在也整合到了同一个节点中，旧的 vid2vid 节点已被弃用。\n- 增加了对 FasterCache 的支持，这种方案以牺牲更多显存为代价来提升速度，同时略微影响质量，类似于 PAB：https:\u002F\u002Fgithub.com\u002FVchitect\u002FFasterCache\n- 改进了 torch.compile 的支持，现在确实可以正常工作了。\n\n## 更新6\n\n首次支持 Tora (https:\u002F\u002Fgithub.com\u002Falibaba\u002FTora)\n\n转换后的模型（包含在自动下载节点中）：\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FCogVideoX-5b-Tora\u002Ftree\u002Fmain\n\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd5334237-03dc-48f5-8bec-3ae5998660c6\n\n\n## 更新5\n本周进行了一些较大的更新，很可能会影响部分旧的工作流，尤其是采样器节点可能需要重新配置（重新创建）才能避免报错！\n\n新功能：\n- 初步实现了上下文窗口化功能，主要通过 FreeNoise 噪声洗牌技术应用于 vid2vid 和 pose2vid 流程，以实现更长的生成内容。目前尚未为 img2vid 实现此功能。\n- 支持 GGUF 模型和分块编码，适用于 I2V 和 pose 流程（感谢 MinusZoneAI）。\n- 支持 [sageattention](https:\u002F\u002Fgithub.com\u002Fthu-ml\u002FSageAttention)（仅限 Linux 系统），以提升速度。我体验到大约 20-30% 的性能提升，该功能可与 fp8 快速模式叠加使用，无需编译。\n- 支持 CogVideoX-Fun 1.1 及其姿态模型，并增加了额外的控制强度和应用步骤设置。该模型的输入并不局限于 dwpose 骨架，几乎任何类型的数据都可以使用。\n- 支持 LoRA。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fddeb8f38-a647-42b3-a4b1-c6936f961deb\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc78b2832-9571-4941-8c97-fbcc1a4cc23d\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd9ed98b1-f917-432b-a16e-e01e87efb1f9\n\n\n\n## 更新4\n首次支持 CogVideoX 的官方 I2V 版本：https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b-I2V\n\n**同时需要 diffusers 0.30.3**\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc672d0af-a676-495d-a42c-7e3dd802b4b0\n\n\n\n## 更新3\n\n新增了对 CogVideoX-Fun 的初步支持：https:\u002F\u002Fgithub.com\u002Faigc-apps\u002FCogVideoX-Fun\n\n需要注意的是，虽然该模型可以用于 image2vid，但它还不是官方的 I2V 模型，不过预计很快也会发布。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F68f9ed16-ee53-4955-b931-1799461ac561\n\n\n## 更新2\n\n新增了 **实验性** 的 onediff 支持，这使我采样时间缩短了约 40%，在 4090 显卡上运行 49 帧时，每帧耗时降至 4.23 秒。\n这需要使用 Linux 系统、torch 2.4.0、onediff 和 nexfort 库：\n\n`pip install --pre onediff onediffx`\n\n`pip install nexfort`\n\n首次运行时，编译过程大约需要 5 分钟。\n\n## 更新\n5b 模型现在也支持基础的 text2vid 功能：https:\u002F\u002Fhuggingface.co\u002FTHUDM\u002FCogVideoX-5b\n\n该模型也会自动下载到 `ComfyUI\u002Fmodels\u002FCogVideo\u002FCogVideoX-5b` 目录下，由于我们使用 ComfyUI 的 T5 编码器，因此不需要单独的文本编码器。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F991205cc-826e-4f93-831a-c10441f0f2ce\n\n需要 diffusers 0.30.1（已在 requirements.txt 中注明）。\n\n该模型使用与 SD3 和 Flux 相同的 T5 模型，fp8 模式同样适用。内存需求主要取决于视频长度。VAE 解码似乎是唯一占用大量显存的部分，当所有计算都被卸载时，这一阶段的显存峰值会短暂达到 13-14GB 左右。而采样本身通常只需要 5-6GB 左右的显存。\n\n\n通过 hack img2img 的方式尝试实现 vid2vid 流程，对某些输入效果不错，但目前仍处于高度实验性的阶段。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe6951ef4-ea7a-4752-94f6-cf24f2503d83\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9e41f37b-2bb3-411c-81fa-e91b80da2559\n\n此外，还添加了时间分块技术，用于生成无限循环视频：\n\nhttps:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fecdac8b8-d434-48b6-abd6-90755b6b552d\n\n\n\n原始仓库：\nhttps:\u002F\u002Fgithub.com\u002FTHUDM\u002FCogVideo\n\nCogVideoX-Fun：\nhttps:\u002F\u002Fgithub.com\u002Faigc-apps\u002FCogVideoX-Fun\n\nControlnet：\nhttps:\u002F\u002Fgithub.com\u002FTheDenk\u002Fcogvideox-controlnet","# ComfyUI-CogVideoXWrapper 快速上手指南\n\nComfyUI-CogVideoXWrapper 是一个用于在 ComfyUI 中运行 CogVideoX 系列模型（包括 Text-to-Video, Image-to-Video, Fun 版本及 Tora 等）的封装节点包。支持 GGUF 量化、LoRA、FasterCache 加速及多种工作流模式。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: 推荐 Linux (部分加速特性如 `sageattention` 和 `onediff` 仅支持 Linux)；Windows 可用但功能受限。\n- **显卡**: NVIDIA GPU，建议显存 12GB 以上（生成较长视频或高分辨率时建议 16GB+）。\n- **Python**: 3.10 或更高版本。\n- **ComfyUI**: 需为最新版本。\n\n### 前置依赖\n确保已安装以下基础库（通常 ComfyUI 环境已包含，若报错请手动安装）：\n- `diffusers >= 0.30.3` (关键依赖，旧版本会导致错误)\n- `torch >= 2.4.0` (若使用 onediff 加速必须为此版本)\n\n**可选加速依赖 (Linux 用户推荐):**\n若需极致速度，可安装 `sageattention` 或 `onediff`：\n```bash\npip install sageattention\n# 或者使用 onediff (需编译，首次运行较慢)\npip install --pre onediff onediffx\npip install nexfort\n```\n\n## 安装步骤\n\n### 方法一：通过 ComfyUI Manager 安装（推荐）\n1. 打开 ComfyUI，点击右侧菜单的 **Manager** 按钮。\n2. 选择 **Install Custom Nodes**。\n3. 搜索 `ComfyUI-CogVideoXWrapper`。\n4. 点击 **Install** 并重启 ComfyUI。\n\n### 方法二：手动安装\n进入 ComfyUI 的 `custom_nodes` 目录，执行以下命令：\n\n```bash\ncd ComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper.git\ncd ComfyUI-CogVideoXWrapper\npip install -r requirements.txt\n```\n\n*注：国内用户若克隆速度慢，可尝试使用镜像源或代理。安装完成后务必重启 ComfyUI。*\n\n## 基本使用\n\n本插件节点较多，核心流程分为 **模型加载**、**条件输入** 和 **采样生成**。以下是基于官方 5B 模型的 Text-to-Video 最简流程：\n\n### 1. 构建工作流\n在 ComfyUI 画布中添加以下节点并按顺序连接：\n\n1.  **Load Checkpoint (CogVideoX)**:\n    *   节点名称：`CogVideoX Model Loader` (或类似名称，视版本更新而定)。\n    *   设置：选择 `THUDM\u002FCogVideoX-5b`。插件支持自动下载，首次运行时会自动从 HuggingFace 拉取模型至 `ComfyUI\u002Fmodels\u002FCogVideo\u002F` 目录。\n    *   *提示：若网络不佳，可手动下载模型后放入对应目录。*\n\n2.  **Text Encode (T5)**:\n    *   使用 ComfyUI 原生的 `CLIP Text Encode` 节点，加载 `t5-v1_1-xxl` 模型（与 SD3\u002FFlux 通用）。\n    *   输入你的正向提示词（Prompt）。\n\n3.  **Empty Latent Image**:\n    *   **注意**：由于新版更新移除了采样器中的宽高设置，Text-to-Video **必须** 使用 `Empty Latent Image` 节点来定义视频分辨率和帧数。\n    *   设置 `width`, `height` (例如 720x480) 和 `batch_size` (即帧数，如 49 帧)。\n\n4.  **CogVideoX Sampler**:\n    *   连接模型、VAE（通常内置或单独加载）、正负提示词和 Empty Latent。\n    *   设置 `steps` (步数), `cfg` (引导系数) 等参数。\n    *   *可选*: 开启 `FasterCache` 选项以牺牲少量画质换取速度；若使用 fp8 模型可选择相应量化选项。\n\n5.  **VAE Decode**:\n    *   将采样输出的 Latent 连接至此节点进行解码。\n\n6.  **Save Video**:\n    *   使用 `Video Save` 或 `Save Image` (序列帧) 节点保存结果。\n\n### 2. 运行示例\n- 连接好上述节点后，点击 **Queue Prompt**。\n- 首次运行会下载模型和权重（约几 GB），请耐心等待。\n- 生成完成后，视频将显示在输出节点中。\n\n### 特殊模式简述\n- **Image-to-Video (I2V)**: 将 `Empty Latent` 替换为 `Load Image` -> `VAE Encode` 节点，并使用专门的 I2V 模型Checkpoint。\n- **Fun 版本\u002F姿态控制**: 加载 `CogVideoX-Fun` 模型，输入端可连接 DWPose 骨架图或任意参考图，支持调节 Control Strength。\n- **长视频生成**: 启用 `Context Windowing` 和 `FreeNoise` 选项以生成长于默认帧数的视频。\n\n> **重要提示**: 该插件处于快速迭代中（WIP），近期更新（Update 8\u002F9）破坏了旧版工作流兼容性。若加载旧工作流报错，请删除旧的 Sampler 节点并使用新版节点重新连接，或直接下载仓库 `example_workflows` 文件夹中的最新示例工作流。","一位独立动画师正在制作一段包含复杂角色位移和长镜头连贯动作的短视频，希望利用 CogVideoX 模型实现高质量的图生视频（Image-to-Video）生成。\n\n### 没有 ComfyUI-CogVideoXWrapper 时\n- **工作流频繁断裂**：每次插件更新（如支持 Tora 或 CogVideoX 1.5 版本）都会导致旧节点失效，必须手动重建整个采样流程，严重打断创作节奏。\n- **长视频生成困难**：缺乏原生的上下文窗口（Context Windowing）和 FreeNoise 噪声洗牌功能，生成的长镜头视频容易出现画面闪烁或动作不连贯。\n- **显存与速度难以平衡**：无法灵活启用 FasterCache 加速或 GGUF 量化模型，导致在消费级显卡上运行高分辨率视频生成时极易显存溢出或速度极慢。\n- **特殊效果实现繁琐**：想要实现类似\"Go-with-the-Flow\"的物体切割拖拽效果，需要自行编写脚本连接 KJNodes 和重绘节点，门槛极高且不稳定。\n\n### 使用 ComfyUI-CogVideoXWrapper 后\n- **平滑升级与兼容**：自动适配最新的 CogVideoX 1.5 及 Tora 模型，统一了采样器接口，更新版本只需替换模型文件，无需重构现有工作流。\n- **长镜头稳定生成**：内置针对 vid2vid 流程的上下文窗口和 FreeNoise 技术，轻松生成长达数秒且时间一致性极佳的连贯动画。\n- **高效资源管理**：一键开启 FasterCache 加速推理速度，或直接加载 GGUF 量化模型，在有限显存下也能流畅运行高分辨率视频任务。\n- **高级动效开箱即用**：直接调用集成的 NoiseWarp 节点，配合简单的遮罩输入即可实现复杂的物体位移和形变效果，大幅降低特效制作难度。\n\nComfyUI-CogVideoXWrapper 通过整合前沿算法与优化底层架构，将原本碎片化、高门槛的视频生成流程转化为稳定、高效且易于扩展的生产力工具。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-CogVideoXWrapper_2b2f8ce6.png","kijai","Jukka Seppänen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkijai_5a67a464.jpg","Finland","kijaidesign","https:\u002F\u002Fgithub.com\u002Fkijai",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,1546,101,"2026-04-01T01:02:37","Apache-2.0",4,"Linux, Windows","需要 NVIDIA GPU。显存需求取决于视频长度：采样过程约需 5-6GB，VAE 解码峰值约需 13-14GB。推荐使用 RTX 4090 以获得最佳性能（配合 OneDiff 可达 4.23 秒\u002F迭代）。支持 FP8 量化和 torch.compile 优化。","未说明",{"notes":95,"python":96,"dependencies":97},"1. 必须安装 diffusers 0.30.3 或更高版本以支持官方 I2V 模型。\n2. OneDiff 加速功能仅限 Linux，需单独安装 onediff, onediffx, nexfort，首次运行需约 5 分钟编译。\n3. SageAttention 加速仅限 Linux，可提升 20-30% 速度。\n4. 支持加载 GGUF 格式模型及单文件非 GGUF 模型。\n5. 旧版工作流因代码重构（Update 8）已失效，需使用新工作流或重新配置节点。\n6. 文本编码器使用 ComfyUI 内置的 T5 模型（与 SD3\u002FFlux 通用），无需额外下载。","未说明 (提及需 torch 2.4.0 以支持 OneDiff)",[98,99,100,101,102,103],"diffusers>=0.30.3","torch>=2.4.0 (OneDiff 必需)","onediff","onediffx","nexfort","sageattention (仅 Linux)",[52,13],"2026-03-27T02:49:30.150509","2026-04-06T06:53:18.698818",[108,113,118,123,127,132,136],{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},12699,"在 Windows 上使用 SageAttention 生成视频时出现黑屏，但速度变快，如何解决？","这是因为 SageAttention 针对不同计算能力（Compute Capability）的 GPU 使用了不同的内核。例如 RTX 3090 (sm86) 默认运行 Triton 内核可能导致问题，而 40 系列 (sm89) 使用 CUDA 内核则正常。\n\n解决方案是修改 `sageattention\u002Fcore.py` 文件，交换或强制指定内核调用逻辑。对于 3090 用户，可以尝试让 sm86 架构调用 CUDA 内核，或者让 sm80\u002Fsm86 调用兼容的内核。具体代码修改参考：\n```python\narch = get_cuda_arch_versions()[q.device.index]\nif arch == \"sm86\":\n    return sageattn_qk_int8_pv_fp16_cuda(q, k, v, tensor_layout=tensor_layout, is_causal=is_causal, sm_scale=sm_scale, return_lse=return_lse, pv_accum_dtype=\"fp32\")\nelif arch == \"sm80\":\n    return sageattn_qk_int8_pv_fp16_triton(q, k, v, tensor_layout=tensor_layout, is_causal=is_causal, sm_scale=sm_scale, return_lse=return_lse)\n```\n修改后重新安装或应用补丁即可解决黑屏问题，虽然速度提升可能不如预期（约 15%-55%），但能正常生成视频。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper\u002Fissues\u002F257",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},12700,"CogVideoX-5b-1.5 模型下载后不在可用模型列表中，如何手动添加或使用？","如果手动下载的模型未自动出现在列表中，通常是因为项目进行了重构或需要特定的目录结构。请仔细阅读项目的 README 文档，确认最新的模型存放路径和命名规范。维护者提到已合并了大版本重构，手动添加代码可能不再必要或方法已变更，建议按照最新文档配置模型路径即可正常使用。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper\u002Fissues\u002F214",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},12701,"CogVideoX I2V（图生视频）的生成速度是否正常？为什么比 T2V（文生视频）慢很多？","I2V 模式通常比 T2V 模式更消耗资源且速度较慢，这是正常现象。生成速度受显存大小、分辨率和步数影响显著。例如在 16GB 显存下，30 步生成可能需要 18-19 分钟。如果速度过慢，请检查是否使用了正确的 T5 编码器（推荐使用 fp8 版本以减少内存占用），并确认输入图像尺寸是否符合模型要求（模型可能会自动调整到最近的兼容尺寸，导致非预期行为）。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper\u002Fissues\u002F66",{"id":124,"question_zh":125,"answer_zh":126,"source_url":122},12702,"应该使用哪个版本的 T5 文本编码器？安装时找不到 T5 怎么办？","推荐使用 `google_t5-v1_1-xxl_encoderonly` 模型。如果显存有限，可以使用该模型的 fp8 量化版本（如 `t5xxl_fp8_e4m3fn.safetensors`）以减少内存占用。虽然采样过程中 T5 会被卸载（offload），主要影响 RAM  usage，但选择合适的版本有助于提高稳定性。下载地址参考：https:\u002F\u002Fhuggingface.co\u002Fmcmonkey\u002Fgoogle_t5-v1_1-xxl_encoderonly",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},12703,"使用 ComfyUI Manager 安装 CogVideoXWrapper 失败，提示 git clone 错误或节点类型缺失（Missing Node Types），如何修复？","安装失败通常由网络问题、Git 配置错误或依赖缺失引起。\n1. 若报 `git clone` 错误（exit code 128），请检查网络连接或尝试手动克隆仓库到 `custom_nodes` 目录。\n2. 若加载工作流时报 `Missing Node Types`（如 CogVideoTextEncode 等），说明节点未成功加载。请查看终端启动日志，寻找包含 `ComfyUI-CogVideoXWrapper` 的具体报错信息。\n3. 注意：其他节点（如 LLM Assistant）的报错与此插件无关，不要混淆。确保 Python 环境中安装了必要的依赖（如 diffusers, torch 等），并在虚拟环境中正确执行安装命令。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-CogVideoXWrapper\u002Fissues\u002F76",{"id":133,"question_zh":134,"answer_zh":135,"source_url":117},12704,"CogVideoX 1.5 I2V 生成的视频质量相比 1.0 版本有提升吗？","是的，CogVideoX 1.5 版本的质量显著提升，特别是在配合 DimensionX LoRA 使用时效果更佳。用户反馈表明，新版本在细节保留和运动流畅度上优于 1.0 版本。此外，1.5 版本基于 Diffusers 的实现已经非常稳定，可以直接在节点中使用官方转换的模型权重。",{"id":137,"question_zh":138,"answer_zh":139,"source_url":117},12705,"如何在显存有限的情况下生成更多帧数或更高分辨率的视频？","可以通过以下优化手段在有限显存下生成更多内容：\n1. 使用 fp8 量化的 T5 编码器减少内存占用。\n2. 利用模型支持的最大帧数限制（推荐值通常为 81 帧，但在 4090 等高端卡上可尝试提升至 125 帧）。\n3. 调整分辨率，避免非标准尺寸，因为模型会自动对齐到最近的兼容尺寸，可能导致意外裁剪或缩放。\n4. 确保工作流配置正确，例如使用专门的 I2V 配置文件而非通用配置。",[]]