[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kijai--ComfyUI-WanVideoWrapper":3,"tool-kijai--ComfyUI-WanVideoWrapper":64},[4,18,26,36,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,2,"2026-04-10T01:20:03",[13,14,15,16],"插件","Agent","图像","开发框架","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[13,16],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[16,15,14,35],"视频",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":10,"last_commit_at":42,"category_tags":43,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,"2026-04-08T11:03:08",[15,44,35,13,14,45,46,16,47],"数据工具","其他","语言模型","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":32,"last_commit_at":54,"category_tags":55,"status":17},2181,"OpenHands","OpenHands\u002FOpenHands","OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。\n\n无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。\n\n其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。",70918,"2026-04-09T23:08:27",[46,14,16,13],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":17},51,"gstack","garrytan\u002Fgstack","gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置，旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战，gstack 提供了一套标准化解决方案，帮助开发者实现堪比二十人团队的高效产出。\n\n这套配置特别适合希望提升交付效率的创始人、技术负责人，以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具，涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令（如 `\u002Freview` 进行代码审查、`\u002Fqa` 执行测试、`\u002Fplan-ceo-review` 规划功能），即可自动化处理从需求分析到部署上线的全链路任务。\n\n所有操作基于 Markdown 和斜杠命令，无需复杂配置，完全免费且遵循 MIT 协议。gstack 不仅是一套工具集，更是一种现代化的软件工厂实践，让单人开发者也能拥有严谨的工程流程。",68319,"2026-04-09T23:08:01",[14,13],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":68,"owner_company":68,"owner_location":79,"owner_email":68,"owner_twitter":80,"owner_website":68,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":32,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":101,"github_topics":68,"view_count":10,"oss_zip_url":68,"oss_zip_packed_at":68,"status":17,"created_at":102,"updated_at":103,"faqs":104,"releases":133},6060,"kijai\u002FComfyUI-WanVideoWrapper","ComfyUI-WanVideoWrapper",null,"ComfyUI-WanVideoWrapper 是专为 ComfyUI 设计的扩展节点包，旨在支持 WanVideo（如 Wan2.1）及相关模型的运行与实验。它主要解决了原生 ComfyUI 对新模型或特定功能（如 ATI 节点）支持滞后或实现复杂的问题，让开发者能快速在独立环境中测试和集成最新技术，而无需等待核心代码更新。\n\n该工具特别适合具备一定技术背景的开发者、研究人员及高级 AI 爱好者使用。作为作者的“个人沙盒”，它允许用户灵活探索新发布的视频生成模型，同时也提供了补丁节点，方便将这些实验性功能融入原生工作流。\n\n在技术亮点方面，ComfyUI-WanVideoWrapper 近期重点优化了显存（VRAM）管理。通过减少了对 torch.compile 的依赖，提升了运行稳定性；同时改进了未合并 LoRA 权重的处理机制，将其作为模块缓冲区的一部分，从而支持更高效的块交换（block swap）和异步卸载功能。虽然这可能在特定配置下增加显存占用，但通过调整交换块数量即可有效平衡。此外，作者还提供了清理 Triton 缓存的指南，以解决 Windows 环境下因编译缓存导致的","ComfyUI-WanVideoWrapper 是专为 ComfyUI 设计的扩展节点包，旨在支持 WanVideo（如 Wan2.1）及相关模型的运行与实验。它主要解决了原生 ComfyUI 对新模型或特定功能（如 ATI 节点）支持滞后或实现复杂的问题，让开发者能快速在独立环境中测试和集成最新技术，而无需等待核心代码更新。\n\n该工具特别适合具备一定技术背景的开发者、研究人员及高级 AI 爱好者使用。作为作者的“个人沙盒”，它允许用户灵活探索新发布的视频生成模型，同时也提供了补丁节点，方便将这些实验性功能融入原生工作流。\n\n在技术亮点方面，ComfyUI-WanVideoWrapper 近期重点优化了显存（VRAM）管理。通过减少了对 torch.compile 的依赖，提升了运行稳定性；同时改进了未合并 LoRA 权重的处理机制，将其作为模块缓冲区的一部分，从而支持更高效的块交换（block swap）和异步卸载功能。虽然这可能在特定配置下增加显存占用，但通过调整交换块数量即可有效平衡。此外，作者还提供了清理 Triton 缓存的指南，以解决 Windows 环境下因编译缓存导致的显存异常问题。这是一个持续迭代中的开源项目，适合希望紧跟前沿模型动态的用户尝试。","# ComfyUI wrapper nodes for [WanVideo](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) and related models.\n\n\n## Memory use update (again)\n\nI've made everythign less reliant on torch.compile for VRAM efficiency, so things should work better even without it. Also figured workaround for some issues when using compile that made first run use drastically more VRAM, issue I battled with myself a lot.\n\n\n## Update notification that can affect memory use in old workflows\n\nIn a recent update I changed how unmerged LoRA weights are handled:\n\nPreviously mostly due to my laziness they were always loaded from RAM when used, this was of course inefficient and also made using torch.compile for LoRA applying difficult, thus forcing a graph break when using unmerged LoRAs.\n\nNow the LoRA weights are assigned as buffers to the corresponding modules, so they are part of the blocks and obey the block swapping unifying the offloading and allowing LoRA weights to benefit from the prefetch feature for async offoading. Downside is that this means if you did not use block swap, you will see increased memory use as the LoRAs are part of the model and all on VRAM.\n\nIf you use block swap, the LoRAs are swapped along the rest of the block, but the block size is now larger, this means you may have to compensate with couple of more blocks swapped.\n\nExample situation: you use 1GB LoRA unmerged and swap 20 blocks on 14B model, we can divide the LoRA size by block count, single block grows by 25MB, 20 blocks grow by 500MB, so your VRAM usage would be 500MB more than before, to compensate you swap 2 more blocks.\n\n### Unrelated other VRAM issue with torch.compile\n\nAfter any update that modifies the model code and when using torch.compile it's common to run into issues with VRAM, this can be caused by using older pytorch\u002Ftriton version without latest compile fixes, and\u002For from old triton caches, mostly in Windows. This manifests in the issue that first run of new input size may have drastically increased memory use, which can clear from simply running it again, and once cached, not manifest again. Again I've only seen this happen in Windows.\n\nTo clear your Triton cache you can delete the contents of following (default) folders:\n\n`C:\\Users\\\u003Cusername>\\.triton`\n`C:\\Users\\\u003Cusername>\\AppData\\Local\\Temp\\torchinductor_\u003Cusername>`\n\n\n## Note: Due to the stupid amount of bots or people thinking this is some of video generation service, I've blocked new accounts from posting issues for now.\n\n# WORK IN PROGRESS (perpetually)\n\n# Why should I use custom nodes when WanVideo works natively?\n\nShort answer: Unless it's a model\u002Ffeature not available yet on native, you shouldn't.\n\nLong answer: Due to the complexity of ComfyUI core code, and my lack of coding experience, in many cases it's far easier and faster to implement new models and features to a standalone wrapper, so this is a way to test things relatively quickly. I consider this my personal sandbox (which is obviously open for everyone) to play with without having to worry about compability issues etc, but as such this code is always work in progress and prone to have issues. Also not all new models end up being worth the trouble to implement in core Comfy, though I've also made some patcher nodes to allow using them in native workflows, such as the [ATI](https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FATI) node available in this wrapper. This is also the end goal, idea isn't to compete or even offer alternatives to everything available in native workflows. All that said (this is clearly not a sales pitch) I do appreciate everyone using these nodes to explore new releases and possibilities with WanVideo.\n\n# Installation\n1. Clone this repo into `custom_nodes` folder.\n2. Install dependencies: `pip install -r requirements.txt`\n   or if you use the portable install, run this in ComfyUI_windows_portable -folder:\n\n  `python_embeded\\python.exe -m pip install -r ComfyUI\\custom_nodes\\ComfyUI-WanVideoWrapper\\requirements.txt`\n\n## Models\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy\u002Ftree\u002Fmain\n\nfp8 scaled models (personal recommendation):\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy_fp8_scaled\n\nText encoders to `ComfyUI\u002Fmodels\u002Ftext_encoders`\n\nClip vision to `ComfyUI\u002Fmodels\u002Fclip_vision`\n\nTransformer (main video model) to `ComfyUI\u002Fmodels\u002Fdiffusion_models`\n\nVae to `ComfyUI\u002Fmodels\u002Fvae`\n\nYou can also use the native ComfyUI text encoding and clip vision loader with the wrapper instead of the original models:\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-WanVideoWrapper_readme_7d4109f74a6a.png)\n\nGGUF models can now be loaded in the main model loader as well.\n\n---\nSupported extra models:\n\nSkyReels: https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSkywork\u002Fskyreels-v2-6801b1b93df627d441d0d0d9\n\nWanVideoFun: https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Falibaba-pai\u002Fwan21-fun-v11-680f514c89fe7b4df9d44f17\n\nReCamMaster: https:\u002F\u002Fgithub.com\u002FKwaiVGI\u002FReCamMaster\n\nVACE: https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\n\nPhantom: https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FPhantom\n\nATI: https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FATI\n\nUni3C: https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FUni3C\n\nMiniMaxRemover: https:\u002F\u002Fhuggingface.co\u002Fzibojia\u002Fminimax-remover\n\nMAGREF: https:\u002F\u002Fhuggingface.co\u002FMAGREF-Video\u002FMAGREF\n\nFantasyTalking: https:\u002F\u002Fgithub.com\u002FFantasy-AMAP\u002Ffantasy-talking\n\nFantasyPortrait: https:\u002F\u002Fgithub.com\u002FFantasy-AMAP\u002Ffantasy-portrait\n\nMultiTalk: https:\u002F\u002Fgithub.com\u002FMeiGen-AI\u002FMultiTalk\n\nEchoShot: https:\u002F\u002Fgithub.com\u002FD2I-ai\u002FEchoShot\n\nStand-In: https:\u002F\u002Fgithub.com\u002FWeChatCV\u002FStand-In\n\nHuMo: https:\u002F\u002Fgithub.com\u002FPhantom-video\u002FHuMo\n\nWanAnimate: https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.2\u002Ftree\u002Fmain\u002Fwan\u002Fmodules\u002Fanimate\n\nLynx: https:\u002F\u002Fgithub.com\u002Fbytedance\u002Flynx\n\nMoCha: https:\u002F\u002Fgithub.com\u002FOrange-3DV-Team\u002FMoCha\n\nUniLumos: https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FLumos-Custom\n\nBindweave: https:\u002F\u002Fgithub.com\u002Fbytedance\u002FBindWeave\n\nTraining free techniques:\n\nTimeToMove: https:\u002F\u002Fgithub.com\u002Ftime-to-move\u002FTTM\n\nSteadyDancer: https:\u002F\u002Fgithub.com\u002FMCG-NJU\u002FSteadyDancer\n\nOne-to-all-Animation: https:\u002F\u002Fgithub.com\u002Fssj9596\u002FOne-to-All-Animation\n\nSCAIL: https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\n\n\nNot exactly Wan model, but close enough to work with the code base:\n\nLongCat-Video: https:\u002F\u002Fmeituan-longcat.github.io\u002FLongCat-Video\u002F\n\n\nExamples:\n---\n\nWanAnimate:\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ff370b001-0f98-4c4c-bcb5-cfad0b330697\n\n[ReCamMaster](https:\u002F\u002Fgithub.com\u002FKwaiVGI\u002FReCamMaster):\n\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc58a12c2-13ba-4af8-8041-e283dbef197e\n\n\nTeaCache (with the old temporary WIP naive version, I2V):\n\n**Note that with the new version the threshold values should be 10x higher**\n\nRange of 0.25-0.30 seems good when using the coefficients, start step can be 0, with more aggressive threshold values it may make sense to start later to avoid any potential step skips early on, that generally ruin the motion.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F504a9a50-3337-43d2-97b8-8e1661f29f46\n\n\nContext window test:\n\n1025 frames using window size of 81 frames, with 16 overlap. With the 1.3B T2V model this used under 5GB VRAM and took 10 minutes to gen on a 5090:\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F89b393af-cf1b-49ae-aa29-23e57f65911e\n\n---\n\n\nThis very first test was 512x512x81\n\n~16GB used with 20\u002F40 blocks offloaded\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffa6d0a4f-4a4d-4de5-84a4-877cc37b715f\n\nVid2vid example:\n\n\nwith 14B T2V model:\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fef228b8a-a13a-4327-8a1b-1eb343cf00d8\n\nwith 1.3B T2V model\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4f35ba84-da7a-4d5b-97ee-9641296f391e\n\n\n\n","# 适用于 [WanVideo](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) 及相关模型的 ComfyUI 封装节点。\n\n\n## 内存使用更新（再次）\n\n为了提升显存效率，我已尽量减少对 `torch.compile` 的依赖，因此即使不使用它，系统也能更好地运行。此外，我还找到了一些绕过方法来解决在启用编译时首次运行会大幅增加显存占用的问题——这个问题曾经让我困扰不已。\n\n\n## 可能影响旧工作流内存使用的更新通知\n\n在最近的一次更新中，我对未合并 LoRA 权重的处理方式进行了调整：\n\n此前由于我的疏忽，这些权重在每次使用时都会从 RAM 加载到显存中，这不仅效率低下，还使得在应用 LoRA 时难以使用 `torch.compile`，从而导致在使用未合并 LoRA 时必须中断计算图。\n\n现在，LoRA 权重会被作为缓冲区分配给对应的模块，这样它们就成为模型块的一部分，并遵循块交换机制，统一了卸载逻辑，使 LoRA 权重也能受益于异步卸载的预取功能。不过，这也意味着如果你没有启用块交换功能，显存占用将会增加，因为 LoRA 权重会与模型其他部分一同驻留在显存中。\n\n如果你启用了块交换功能，LoRA 权重会随其他模型块一起被交换出显存，但此时每个块的大小会变大，因此你可能需要多交换几个块来弥补这一变化。\n\n举例说明：假设你使用了一个 1GB 的未合并 LoRA，在一个 14B 参数量的模型上交换 20 个块。我们可以将 LoRA 的大小除以块的数量，单个块的大小会增加 25MB，20 个块则总共增加 500MB，因此你的显存占用会比之前多出 500MB。为了补偿这一点，你可以再额外交换 2 个块。\n\n### 与 `torch.compile` 相关的另一项显存问题\n\n每当对模型代码进行修改并启用 `torch.compile` 后，常常会出现显存方面的问题。这可能是由于你使用的 PyTorch 或 Triton 版本较旧，缺少最新的编译修复补丁，也可能是旧的 Triton 缓存所致，这种情况在 Windows 系统中尤为常见。其表现形式是：当输入尺寸发生变化时，首次运行可能会导致显存占用大幅增加，而再次运行后问题通常就会消失，且一旦缓存建立，后续便不会再出现类似情况。值得注意的是，我只在 Windows 系统中遇到过此类问题。\n\n要清除 Triton 缓存，你可以删除以下默认路径下的文件夹内容：\n\n`C:\\Users\\\u003C用户名>\\.triton`\n`C:\\Users\\\u003C用户名>\\AppData\\Local\\Temp\\torchinductor_\u003C用户名>`\n\n\n## 注意：由于大量机器人或误以为这是视频生成服务的人频繁发帖，目前我已禁止新账号提交问题。\n\n# 正在持续开发中（长期进行）\n\n# 既然 WanVideo 已经原生支持，为什么还要使用自定义节点呢？\n\n简短回答：除非某些模型或功能尚未在原生版本中提供，否则没有必要使用自定义节点。\n\n详细回答：由于 ComfyUI 核心代码较为复杂，加之我个人编程经验有限，在许多情况下，将新模型和功能直接实现为独立的封装节点反而更加简单快捷。因此，这种方式可以让我快速测试各种功能。我将此项目视为自己的实验环境（当然也对所有人开放），无需担心兼容性等问题。不过，这也意味着这段代码始终处于开发状态，难免会出现各种问题。另外，并非所有新模型都值得将其整合到 ComfyUI 核心中，尽管我也开发了一些适配节点，以便在原生工作流中使用它们，例如本封装中提供的 [ATI](https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FATI) 节点。我们的目标并不是与原生功能竞争，甚至也不是为了提供所有功能的替代方案。综上所述（显然这不是推销话术），我非常感谢大家使用这些节点来探索 WanVideo 的最新发布内容及更多可能性。\n\n# 安装步骤\n1. 将本仓库克隆到 `custom_nodes` 文件夹中。\n2. 安装依赖：`pip install -r requirements.txt`\n   或者，如果你使用的是便携式安装包，请在 `ComfyUI_windows_portable` 文件夹下执行以下命令：\n\n  `python_embeded\\python.exe -m pip install -r ComfyUI\\custom_nodes\\ComfyUI-WanVideoWrapper\\requirements.txt`\n\n## 模型\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy\u002Ftree\u002Fmain\n\nfp8 缩放模型（个人推荐）：\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy_fp8_scaled\n\n文本编码器放置于 `ComfyUI\u002Fmodels\u002Ftext_encoders`\n\nCLIP 视觉模型放置于 `ComfyUI\u002Fmodels\u002Fclip_vision`\n\nTransformer（主视频模型）放置于 `ComfyUI\u002Fmodels\u002Fdiffusion_models`\n\nVAE 放置于 `ComfyUI\u002Fmodels\u002Fvae`\n\n你也可以使用原生的 ComfyUI 文本编码和 CLIP 视觉加载器，并配合封装器来替代原始模型：\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-WanVideoWrapper_readme_7d4109f74a6a.png)\n\nGGUF 模型现在也可以在主模型加载器中加载。\n---\n支持的额外模型：\n\nSkyReels：https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSkywork\u002Fskyreels-v2-6801b1b93df627d441d0d0d9\n\nWanVideoFun：https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Falibaba-pai\u002Fwan21-fun-v11-680f514c89fe7b4df9d44f17\n\nReCamMaster：https:\u002F\u002Fgithub.com\u002FKwaiVGI\u002FReCamMaster\n\nVACE：https:\u002F\u002Fgithub.com\u002Fali-vilab\u002FVACE\n\nPhantom：https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FPhantom\n\nATI：https:\u002F\u002Fhuggingface.co\u002Fbytedance-research\u002FATI\n\nUni3C：https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FUni3C\n\nMiniMaxRemover：https:\u002F\u002Fhuggingface.co\u002Fzibojia\u002Fminimax-remover\n\nMAGREF：https:\u002F\u002Fhuggingface.co\u002FMAGREF-Video\u002FMAGREF\n\nFantasyTalking：https:\u002F\u002Fgithub.com\u002FFantasy-AMAP\u002Ffantasy-talking\n\nFantasyPortrait：https:\u002F\u002Fgithub.com\u002FFantasy-AMAP\u002Ffantasy-portrait\n\nMultiTalk：https:\u002F\u002Fgithub.com\u002FMeiGen-AI\u002FMultiTalk\n\nEchoShot：https:\u002F\u002Fgithub.com\u002FD2I-ai\u002FEchoShot\n\nStand-In：https:\u002F\u002Fgithub.com\u002FWeChatCV\u002FStand-In\n\nHuMo：https:\u002F\u002Fgithub.com\u002FPhantom-video\u002FHuMo\n\nWanAnimate：https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.2\u002Ftree\u002Fmain\u002Fwan\u002Fmodules\u002Fanimate\n\nLynx：https:\u002F\u002Fgithub.com\u002Fbytedance\u002Flynx\n\nMoCha：https:\u002F\u002Fgithub.com\u002FOrange-3DV-Team\u002FMoCha\n\nUniLumos：https:\u002F\u002Fgithub.com\u002Falibaba-damo-academy\u002FLumos-Custom\n\nBindweave：https:\u002F\u002Fgithub.com\u002Fbytedance\u002FBindWeave\n\n无需训练的技术：\n\nTimeToMove：https:\u002F\u002Fgithub.com\u002Ftime-to-move\u002FTTM\n\nSteadyDancer：https:\u002F\u002Fgithub.com\u002FMCG-NJU\u002FSteadyDancer\n\nOne-to-all-Animation：https:\u002F\u002Fgithub.com\u002Fssj9596\u002FOne-to-All-Animation\n\nSCAIL：https:\u002F\u002Fgithub.com\u002Fzai-org\u002FSCAIL\n\n\n虽然不完全是 Wan 模型，但足够接近，可以与现有代码库配合使用：\n\nLongCat-Video：https:\u002F\u002Fmeituan-longcat.github.io\u002FLongCat-Video\u002F\n\n\n示例：\n---\n\nWanAnimate：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ff370b001-0f98-4c4c-bcb5-cfad0b330697\n\n[ReCamMaster](https:\u002F\u002Fgithub.com\u002FKwaiVGI\u002FReCamMaster)：\n\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc58a12c2-13ba-4af8-8041-e283dbef197e\n\n\nTeaCache（使用旧版临时 WIP 简易版本 I2V）：\n\n**请注意，新版本的阈值应提高 10 倍。**\n\n使用系数时，0.25–0.30 的范围效果较好，起始步数可设为 0；若采用更激进的阈值，则建议稍晚开始，以避免早期可能出现的跳步现象，因为这通常会破坏动作流畅性。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F504a9a50-3337-43d2-97b8-8e1661f29f46\n\n\n上下文窗口测试：\n\n使用 81 帧的窗口大小，重叠 16 帧，处理 1025 帧。借助 13 亿参数的 T2V 模型，该任务在 5090 显卡上仅占用不到 5GB 显存，生成耗时约 10 分钟：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F89b393af-cf1b-49ae-aa29-23e57f65911e\n\n---\n\n\n首次测试分辨率为 512×512×81。\n\n使用 20\u002F40 块卸载时，约占用 16GB 显存。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffa6d0a4f-4a4d-4de5-84a4-877cc37b715f\n\nVid2vid 示例：\n\n\n使用 140 亿参数的 T2V 模型：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fef228b8a-a13a-4327-8a1b-1eb343cf00d8\n\n使用 13 亿参数的 T2V 模型：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F4f35ba84-da7a-4d5b-97ee-9641296f391e","# ComfyUI-WanVideoWrapper 快速上手指南\n\nComfyUI-WanVideoWrapper 是为 [WanVideo](https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.1) 及相关视频生成模型（如 SkyReels, ReCamMaster, VACE 等）提供的 ComfyUI 自定义节点封装。它允许用户在 ComfyUI 中快速测试和使用最新的视频生成模型及功能，作为原生支持的补充沙盒。\n\n## 环境准备\n\n*   **系统要求**：Windows \u002F Linux (推荐 NVIDIA GPU)\n*   **前置依赖**：\n    *   已安装 [ComfyUI](https:\u002F\u002Fgithub.com\u002Fcomfyanonymous\u002FComfyUI)\n    *   Python 环境（若使用官方便携版则自带）\n    *   充足的显存（VRAM）：根据模型大小不同，建议至少 16GB+，使用分块交换（Block Swap）可降低需求。\n*   **注意**：本工具处于持续开发中（Work In Progress），代码可能随时更新。除非你需要使用尚未在 ComfyUI 原生支持的新模型或特定功能，否则建议优先使用原生节点。\n\n## 安装步骤\n\n### 1. 克隆仓库\n将本仓库克隆到 ComfyUI 的 `custom_nodes` 目录下：\n\n```bash\ncd ComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002FKijai\u002FComfyUI-WanVideoWrapper.git\n```\n\n### 2. 安装依赖\n根据你的 ComfyUI 安装方式选择以下一种命令执行：\n\n**方案 A：标准 Python 环境**\n```bash\npip install -r ComfyUI-WanVideoWrapper\u002Frequirements.txt\n```\n\n**方案 B：ComfyUI Windows 便携版 (Portable)**\n在 `ComfyUI_windows_portable` 文件夹下运行：\n```bash\npython_embeded\\python.exe -m pip install -r ComfyUI\\custom_nodes\\ComfyUI-WanVideoWrapper\\requirements.txt\n```\n\n> **国内加速建议**：如果下载依赖缓慢，可添加清华源或阿里源：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 3. 模型下载与放置\n从 HuggingFace 下载所需模型并放置到对应目录。推荐使用作者整理的整合包或 FP8 量化版本以节省显存。\n\n*   **模型资源站**：\n    *   标准模型：https:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy\u002Ftree\u002Fmain\n    *   **FP8 量化模型（推荐）**：https:\u002F\u002Fhuggingface.co\u002FKijai\u002FWanVideo_comfy_fp8_scaled\n\n*   **文件存放路径**：\n    *   文本编码器 (Text Encoders) -> `ComfyUI\u002Fmodels\u002Ftext_encoders`\n    *   Clip Vision -> `ComfyUI\u002Fmodels\u002Fclip_vision`\n    *   主视频模型 (Transformer) -> `ComfyUI\u002Fmodels\u002Fdiffusion_models`\n    *   VAE -> `ComfyUI\u002Fmodels\u002Fvae`\n\n> **提示**：该节点也支持加载 GGUF 格式模型，并兼容 ComfyUI 原生的文本编码和 Clip Vision 加载器。\n\n## 基本使用\n\n安装完成后重启 ComfyUI，即可在节点列表中找到 `WanVideo` 相关的自定义节点。\n\n### 最简单的工作流示例\n\n1.  **加载模型**：使用 `WanVideo Model Loader` (或支持 GGUF 的主模型加载器) 加载下载好的 Transformer 模型。\n2.  **加载编码器**：连接对应的 Text Encoder 和 Clip Vision 模型（也可直接使用 ComfyUI 原生加载器输出连接至此）。\n3.  **设置参数**：配置分辨率、帧数、步数等生成参数。\n    *   *显存优化提示*：如果显存不足，请启用 **Block Swap** 功能。注意：若使用未合并的 LoRA，开启 Block Swap 后可能需要增加交换的块数量（例如：每增加 1GB 未合并 LoRA，约需多交换 2 个块）。\n4.  **生成视频**：连接 `KSampler` 或专用的视频采样节点，点击 \"Queue Prompt\" 开始生成。\n\n### 支持的特色功能\n*   **多模型支持**：内置支持 SkyReels, WanVideoFun, ReCamMaster, VACE, Phantom, ATI 等多种衍生模型。\n*   **长视频生成**：支持上下文窗口（Context Window）技术，可在有限显存下生成长帧视频（例如：在 5090 上使用 1.3B 模型，81 帧窗口生成 1025 帧视频仅需约 5GB 显存）。\n*   **LoRA 优化**：新版将 LoRA 权重作为缓冲区处理，支持异步卸载，但需注意显存占用的变化（详见上文安装步骤中的显存提示）。\n\n开始探索 WanVideo 系列的最新能力吧！","一位独立动画开发者试图在单张 12GB 显存的显卡上，利用最新的 Wan2.1 模型生成带有特定角色风格（LoRA）的高清短视频。\n\n### 没有 ComfyUI-WanVideoWrapper 时\n- **显存瞬间爆满**：加载未合并的 LoRA 权重时，模型强制占用大量 VRAM，导致生成任务直接因内存不足（OOM）而崩溃。\n- **编译加速失效**：由于 LoRA 加载机制导致计算图断裂，无法启用 `torch.compile` 加速，视频生成速度极慢。\n- **显存管理僵化**：缺乏灵活的块交换（Block Swap）机制，无法通过调整交换块数量来平衡显存占用与生成速度。\n- **环境调试困难**：在 Windows 环境下，旧的 Triton 缓存常导致首次运行显存异常激增，排查和清理过程繁琐且容易出错。\n\n### 使用 ComfyUI-WanVideoWrapper 后\n- **显存高效利用**：LoRA 权重被智能分配为模块缓冲区并融入块交换逻辑，显著降低基础显存占用，使 12GB 显卡也能流畅运行大模型。\n- **无缝加速支持**：修复了计算图断裂问题，完美兼容 `torch.compile`，大幅缩短视频渲染等待时间。\n- **灵活的资源调配**：用户可根据 LoRA 大小动态增加交换块数量（如多换 2 个块），精准补偿显存增量，实现性能与容量的最佳平衡。\n- **稳定的运行体验**：内置针对 Windows 平台的显存优化策略，有效规避了因缓存导致的初次运行显存激增问题，工作流更加稳定可靠。\n\nComfyUI-WanVideoWrapper 通过重构显存管理机制，让消费级显卡也能低成本、高效率地驾驭先进的 WanVideo 视频生成模型。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-WanVideoWrapper_7d4109f7.png","kijai","Jukka Seppänen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkijai_5a67a464.jpg","Finland","kijaidesign","https:\u002F\u002Fgithub.com\u002Fkijai",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,6278,620,"2026-04-09T10:37:36","Apache-2.0","Windows, Linux, macOS","必需 NVIDIA GPU。显存需求取决于模型大小和是否启用块交换（Block Swap）：1.3B 模型在特定配置下可低于 5GB；14B 模型配合 LoRA 使用时，若未启用块交换需显著增加显存（示例中提及增加 500MB+），建议大显存显卡（如 RTX 3090\u002F4090 或更高）。支持 torch.compile 优化但非强制。","未说明（建议充足以加载未合并的 LoRA 权重，具体取决于模型规模）",{"notes":95,"python":96,"dependencies":97},"1. 该工具是 ComfyUI 的自定义节点包装器，需先安装 ComfyUI。2. 显存优化：新版将 LoRA 权重作为缓冲区处理，若不使用‘块交换（Block Swap）’功能，显存占用会增加；使用块交换时因块体积变大，可能需要增加交换的块数量以补偿显存。3. Windows 用户若遇到首次运行显存激增问题，可能是 Triton 缓存导致，建议清理 `~\u002F.triton` 和 `%TEMP%\\torchinductor_\u003Cusername>` 目录。4. 支持加载 GGUF 格式模型及多种衍生模型（如 SkyReels, WanVideoFun 等）。5. 模型文件需手动下载至 ComfyUI 对应的 models 子目录。","未说明（需兼容 ComfyUI 环境，便携式安装使用内置 Python）",[98,99,100],"torch","triton","ComfyUI",[35,13],"2026-03-27T02:49:30.150509","2026-04-10T10:32:08.895360",[105,110,115,120,125,129],{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},27440,"更新后出现显存不足（OOM）错误，或者 BlockSwap 功能失效导致无法生成视频怎么办？","这通常是由特定版本的更新引起的。请尝试以下解决方案：\n1. 确认已更新到最新的插件版本，维护者已在后续构建中修复了 BlockSwap 失效和 LoRA 卸载导致的 OOM 问题。\n2. 如果使用 LoRA 时出现 OOM，尝试在不使用 LoRA 的情况下测试，或确保插件为最新版以支持正确的 LoRA 卸载。\n3. 对于使用 WSL 的用户，如果首次加载模型失败，尝试再次点击队列（Queue），虽然启动会变慢但可能成功；或者回退到 3.10 版本之前的插件版本。\n4. 检查控制台是否有 \"blocks to swap\" 的输出，如果没有，说明 BlockSwap 未生效，需更新插件。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper\u002Fissues\u002F1644",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},27441,"生成的视频画面严重偏红或颜色异常如何解决？","这是一个已知问题，通常与文本编码器（Text Encoder）的选择有关。解决方案是将文本编码器切换为替代方案（native\u002Falternative text encoder）。在节点设置中查找相关选项并更改编码器类型即可解决画面偏红的问题。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper\u002Fissues\u002F208",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},27442,"InfiniteTalk 节点生成的视频只有第一帧图像，随后是黑屏但有音频，如何处理？","这是由于之前的某个更改破坏了预取（prefetch）功能导致的。解决方案如下：\n1. 将 ComfyUI-WanVideoWrapper 插件更新到最新提交版本，维护者已回滚了破坏该功能的更改。\n2. 更新后，可以尝试将 prefetch 值设置为 0 或 1（根据工作流需求），目前在 Linux 系统上启用该功能可正常工作并能提升块交换（block swapping）的速度。\n3. 如果问题依旧，可以在块交换节点中开启调试选项（debug option）来查看块传输速度日志，以进一步诊断系统差异。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper\u002Fissues\u002F1143",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},27443,"更新插件后工作流完全崩溃，出现大量未知错误（如 NAG 相关错误）且无法恢复，该怎么办？","当更新导致工作流崩溃时，请遵循以下步骤：\n1. **立即回滚版本**：这是最有效的排查方法。将插件回退到更新前的版本，确认问题是否消失。如果回滚后正常，说明是新版本的兼容性问题。\n2. **不要盲目删除环境**：如案例所示，盲目重装或删除持久化卷通常无法解决问题，反而造成数据丢失。\n3. **提供详细日志**：如果回滚后问题依旧或需要报告新 Bug，请在新 Issue 中提供完整的错误日志（logs）和复现步骤，而不是仅描述现象。\n4. 注意：某些错误（如 NAG scaler 错误）可能仅在特定工作流（如首尾帧拼接、多 clip_vision 图像）下触发，检查你的工作流是否涉及这些特定设置。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-WanVideoWrapper\u002Fissues\u002F673",{"id":126,"question_zh":127,"answer_zh":128,"source_url":109},27444,"如何提升 WanVideo 的视频渲染速度？","除了常规的硬件升级外，可以通过软件优化提升渲染速度：\n1. **升级 SageAttention**：将 SageAttention 升级到最新版本（例如 v2.2.0-windows.post4 或更高），实测可带来约 10% 的渲染速度提升。\n2. **启用预取功能**：确保插件为最新版，并在块交换节点中正确配置 prefetch 参数，这在某些系统上能显著加快块传输速度。\n3. **优化显存管理**：修复 LoRA 卸载问题后，降低 block swap 数值（如降至 14）可避免 VAE 解码时的 OOM，从而间接提高整体运行效率。",{"id":130,"question_zh":131,"answer_zh":132,"source_url":114},27445,"在 WSL (Debian) 环境下使用 4070 显卡加载 WanVideo 模型时遇到首次加载 OOM 的问题，原因是什么？","该问题可能与特定的插件版本及 LoRA 的使用方式有关。\n1. **版本兼容性**：有用户反馈在使用 3.10 版本之后的插件进行 I2V（图生视频）并连接 LoRA 时会出现 OOM，而不使用 LoRA 则正常。建议尝试回退到 3.10 版本之前的插件版本。\n2. **加载机制**：首次加载大模型（如 wan2.1_i2v_720p_14B_fp8）可能会因显存分配策略导致 OOM，但第二次尝试（再次点击 Queue）有时能成功加载，尽管启动时间会变长。\n3. **对比测试**：如果原生的 ComfyUI Diffusion Model Loader 能正常加载，而 WanVideo Model Loader 失败，优先检查插件版本和 LoRA 节点的连接顺序。",[]]