[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kijai--ComfyUI-HunyuanVideoWrapper":3,"tool-kijai--ComfyUI-HunyuanVideoWrapper":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":68,"owner_company":68,"owner_location":78,"owner_email":68,"owner_twitter":79,"owner_website":68,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":68,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":92,"env_deps":93,"category_tags":103,"github_topics":68,"view_count":23,"oss_zip_url":68,"oss_zip_packed_at":68,"status":16,"created_at":104,"updated_at":105,"faqs":106,"releases":144},1997,"kijai\u002FComfyUI-HunyuanVideoWrapper","ComfyUI-HunyuanVideoWrapper",null,"ComfyUI-HunyuanVideoWrapper 是一个为 ComfyUI 图形化工作流平台设计的插件，用于便捷接入腾讯 HunyuanVideo 视频生成模型。它让使用者无需编写代码，就能通过拖拽节点实现文本生成视频（T2V）、图像引导视频（I2V）等复杂任务，并支持加载官方和社区提供的 LoRA 模型，如情感风格增强和关键帧控制模型。此前用户常因 HunyuanVideo 原生接口复杂、文本编码不稳定而难以使用，此插件通过复用 ComfyUI 自带的文本编码器，大幅降低使用门槛，同时兼容 FP8 量化权重与 Enhance-A-Video 质量提升技术，在不增加显存负担的前提下显著提升画质。它特别适合熟悉 ComfyUI 的AI设计师、视频创作者和研究人员，帮助他们快速实验新功能，如基于视觉语言模型（VLM）的图像概念引导生成（IP2V），实现风格迁移与内容控制。虽然部分高级功能如上下文窗口管理仍待原生支持，但当前版本已为非程序员提供了接近专业级的视频生成能力。","# ComfyUI wrapper nodes for [HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo)\n\n# Update 5\n\nSo I know I said I'd stop working on this, but with all the new stuff out I wanted to work on those and have included the official I2V, it's \"fixed\" version 2 and the [LoRAs](https:\u002F\u002Fhuggingface.co\u002FKijai\u002FHunyuanVideo_comfy\u002Fblob\u002Fmain\u002Fhyvid_I2V_lora_embrace.safetensors) they included in the release\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F8ce4b1ee-fb63-49a2-83b4-ba8ef1a8b842\n\n\n\n\nand the [dashtoon keyframe LoRA](https:\u002F\u002Fgithub.com\u002Fdashtoon\u002Fhunyuan-video-keyframe-control-lora).\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F2b6e32e4-470f-4feb-b299-5a453e2b4fa1\n\nAlso because there's been so much trouble in using the transformer model for text encoding, I figured a way to use the text embeds from native ComfyUI text encoding, like this:\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-HunyuanVideoWrapper_readme_aae68e53b0e7.png)\n\nNot that it does give somewhat different results and using these nodes like that can't be considered as original implementation wrapper anymore.\n\n# Update 4, the non-update:\n\n\nAs the native implementation exists, and has support for most features by now, I will mostly stop working on these nodes for anything but it's main purpose: early access and testing of potential new features that are difficult (at least for me) to implement natively.\n\n## Some resources for native workflows:\n\nFlowedit and enhance-a-video can be found from these nodes: https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-HunyuanLoom\n\nTeaCache equilevant FirstBlockCache, as well as torch.compile with LoRA support: https:\u002F\u002Fgithub.com\u002Fchengzeyi\u002FComfy-WaveSpeed\n\nSageattention can be enabled by `--use-sage-attention` startup argument for ComfyUI, or with a patcher node found in [KJNodes](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-KJNodes) as well as some other node packs.\n\nLeapfusion I2V can be used with my patcher node found in the KJNodes as well, example workflow: https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-KJNodes\u002Fblob\u002Fmain\u002Fexample_workflows\u002Fleapfusion_hunyuuanvideo_i2v_native_testing.json\n\nWhat remains missing from native implementation currently:\n- context windowing\n- direct image embed support through IP2V\n- manual memory management\n\n# Update 3:\n\nIt's been hectic couple of weeks with this model, I've lost track of what has happened since the start, but I'll try to present some of the more important updates:\n\n## Official scaled fp8 weights were released:\n\nhttps:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\u002Fblob\u002Fmain\u002Fhunyuan-video-t2v-720p\u002Ftransformers\u002Fmp_rank_00_model_states_fp8.pt\n\nEven if this file is .pt it's completely safe and it is loaded with weights_only, the scale map is included with the nodes. To use this model you have to use the `fp8_scaled` -quantization option in the model loader.\nThe quality of these weights is much closer to the original bf16, downside is that they do not currently support fp8 fast mode, or LoRAs.\n\n## Almost free quality increase with [Enhance-A-Video](https:\u002F\u002Fgithub.com\u002FNUS-HPC-AI-Lab\u002FEnhance-A-Video):\n\nThis has a very slight hit on inference speed and zero hit on memory use, initial tests indicate it's absolutely worth using.\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-HunyuanVideoWrapper_readme_aa06999c271e.png)\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe19b30e1-5f67-4e75-9c73-716d4569c319\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F083353a2-e9aa-43e9-a916-ff3af1d581c1\n\n\n\n# Update 2: Experimental IP2V - Image Prompting to Video via VLM by @Dango233\n## WORK IN PROGRESS - But it should work now!\n\nNow you can feed image to the VLM as condition of generations! This is different from image2video where the image become the first frame of the video. IP2V uses image as a part of the prompt, to extract the concept and style of the image.\nSo - very much like IPAdapter - but VLM will do the heavy lifting for you!\n\nNow this is a tuning free approach but with further task specific tuning we can expand the use scenarios.\n\n## Guide to Using `xtuner\u002Fllava-llama-3-8b-v1_1-transformers` for Image-Text Tasks\n\n## Step 1: Model Selection\nUse the original `xtuner\u002Fllava-llama-3-8b-v1_1-transformers` model which includes the vision tower. You have two options:\n- Download the model and place it in the `models\u002FLLM` folder.\n- Rely on the auto-download mechanism.\n\n**Note:** It's recommended to offload the text encoder since the vision tower requires additional VRAM.\n\n## Step 2: Load and Connect Image\n- Use the comfy native node to load the image.\n- Connect the loaded image to the `Hunyuan TextImageEncode` node.\n  - You can connect up to 2 images to this node.\n\n## Step 3: Prompting with Images\n- Reference the image in your prompt by including `\u003Cimage>`.\n- The number of `\u003Cimage>` tags should match the number of images provided to the sampler.\n  - Example prompt: `Describe this \u003Cimage> in great detail.`\n\nYou can also choose to give CLIP a prompt that does not reference the image separately.\n\n## Step 4: Advanced Configuration - `image_token_selection_expression`\nThis expression is for advanced users and serves as a boolean mask to select which part of the image hidden state will be used for conditioning. Here are some details and recommendations:\n\n- The hidden state sequence length (or number of tokens) per image in llava-llama-3 is 576.\n- The default setting is `::4`, meaning every four tokens, one token goes into conditioning, interleaved, resulting in 144 tokens per image.\n- Generally, more tokens lean more towards the conditional image.\n- However, too many tokens (especially if the overall token count exceeds 256) will degrade generation quality. It's recommended not to use more than half the tokens (`::2`).\n- Interleaved tokens generally perform better, but you might also want to try the following expressions:\n  - `:128` - First 128 tokens.\n  - `-128:` - Last 128 tokens.\n  - `:128, -128:` - First 128 tokens and last 128 tokens.\n- With a proper prompting strategy, even not passing in any image tokens (leaving the expression blank) can yield decent effects.\n\n# Update\n\nScaled dot product attention (sdpa) should now be working (only tested on Windows, torch 2.5.1+cu124 on 4090), sageattention is still recommended for speed, but should not be necessary anymore making installation much easier.\n\nVid2vid test:\n[source video](https:\u002F\u002Fwww.pexels.com\u002Fvideo\u002Fa-4x4-vehicle-speeding-on-a-dirt-road-during-a-competition-15604814\u002F)\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F12940721-4168-4e2b-8a71-31b4b0432314\n\n\ntext2vid (old test):\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F3750da65-9753-4bd2-aae2-a688d2b86115\n\n\nTransformer and VAE (single files, no autodownload):\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FHunyuanVideo_comfy\u002Ftree\u002Fmain\n\nGo to the usual ComfyUI folders (diffusion_models and vae)\n\nLLM text encoder (has autodownload):\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002Fllava-llama-3-8b-text-encoder-tokenizer\n\nFiles go to `ComfyUI\u002Fmodels\u002FLLM\u002Fllava-llama-3-8b-text-encoder-tokenizer`\n\nClip text encoder (has autodownload)\n\nEither use any Clip_L model supported by ComfyUI by disabling the clip_model in the text encoder loader and plugging in ClipLoader to the text encoder node, or \nallow the autodownloader to fetch the original clip model from:\n\nhttps:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fclip-vit-large-patch14, (only need the .safetensor from the weights, and all the config files) to:\n\n`ComfyUI\u002Fmodels\u002Fclip\u002Fclip-vit-large-patch14`\n\nMemory use is entirely dependant on resolution and frame count, don't expect to be able to go very high even on 24GB. \n\nGood news is that the model can do functional videos even at really low resolutions.\n","# 适用于[HunyuanVideo](https:\u002F\u002Fgithub.com\u002FTencent\u002FHunyuanVideo)的ComfyUI封装节点\n\n# 更新5\n\n我知道之前说过要停止开发这个，但最近出了不少新功能，我想先把这些做出来。这次我加入了官方的I2V，也就是“修复版”2.0，还有他们发布的[LoRAs](https:\u002F\u002Fhuggingface.co\u002FKijai\u002FHunyuanVideo_comfy\u002Fblob\u002Fmain\u002Fhyvid_I2V_lora_embrace.safetensors)。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F8ce4b1ee-fb63-49a2-83b4-ba8ef1a8b842\n\n\n\n\n以及[dashtoon关键帧LoRA](https:\u002F\u002Fgithub.com\u002Fdashtoon\u002Fhunyuan-video-keyframe-control-lora)。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F2b6e32e4-470f-4feb-b299-5a453e2b4fa1\n\n另外，由于在使用Transformer模型进行文本编码时遇到了很多麻烦，我找到了一种方法，可以直接使用ComfyUI原生文本编码中的文本嵌入，就像这样：\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-HunyuanVideoWrapper_readme_aae68e53b0e7.png)\n\n不过，这样做确实会带来一些不同的结果，因此用这种方式使用这些节点已经不能算是原始实现的封装了。\n\n# 更新4，非更新内容：\n\n既然原生实现已经存在，并且现在支持大部分功能，我将主要停止对这些节点的开发，除非它们有新的用途——比如早期访问和测试那些难以（至少对我来说）直接实现的新功能。\n\n## 原生工作流的一些资源：\n\nFlowedit和enhance-a-video可以从这些节点中找到：https:\u002F\u002Fgithub.com\u002Flogtd\u002FComfyUI-HunyuanLoom\n\nTeaCache等效于FirstBlockCache，以及支持LoRA的torch.compile：https:\u002F\u002Fgithub.com\u002Fchengzeyi\u002FComfy-WaveSpeed\n\nSageattention可以通过ComfyUI的`--use-sage-attention`启动参数启用，或者通过[KJNodes](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-KJNodes)中的补丁节点，以及其他一些节点包来启用。\n\nLeapfusion I2V也可以配合我在KJNodes中提供的补丁节点使用，示例工作流：https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-KJNodes\u002Fblob\u002Fmain\u002Fexample_workflows\u002Fleapfusion_hunyuuanvideo_i2v_native_testing.json\n\n目前原生实现还缺少以下功能：\n- 上下文窗口化\n- 通过IP2V直接支持图像嵌入\n- 手动内存管理\n\n# 更新3：\n\n过去几周围绕这个模型忙得不可开交，我都快记不清从一开始发生了什么，不过我会尽量整理一些比较重要的更新：\n\n## 官方发布了缩放后的fp8权重：\n\nhttps:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\u002Fblob\u002Fmain\u002Fhunyuan-video-t2v-720p\u002Ftransformers\u002Fmp_rank_00_model_states_fp8.pt\n\n即使这个文件是.pt格式，它完全安全，加载时使用了weights_only选项，比例映射也随节点一起提供。要使用这个模型，必须在模型加载器中选择`fp8_scaled`量化选项。\n这些权重的质量非常接近原始的bf16，缺点是目前还不支持fp8快速模式，也不支持LoRAs。\n\n## 通过[Enhance-A-Video](https:\u002F\u002Fgithub.com\u002FNUS-HPC-AI-Lab\u002FEnhance-A-Video)几乎免费地提升画质：\n\n这会对推理速度有一点点影响，但内存占用完全不受影响，初步测试表明绝对值得使用。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-HunyuanVideoWrapper_readme_aa06999c271e.png)\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe19b30e1-5f67-4e75-9c73-716d4569c319\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F083353a2-e9aa-43e9-a916-ff3af1d581c1\n\n\n\n# 更新2：实验性IP2V——通过VLM实现图像提示转视频，由@Dango233开发\n## 正在开发中——但现在应该能用了！\n\n现在你可以把图像作为条件输入到VLM中，用于生成！这与image2video不同，后者会把图像作为视频的第一帧。IP2V则把图像作为提示的一部分，提取图像的概念和风格。\n所以——很像IPAdapter，只不过VLM会帮你完成繁重的工作！\n\n目前这是一种无需调优的方法，但通过进一步针对特定任务的调优，我们可以拓展更多应用场景。\n\n## 使用`xtuner\u002Fllava-llama-3-8b-v1_1-transformers`进行图文任务的指南\n\n## 第一步：模型选择\n使用原版的`xtuner\u002Fllava-llama-3-8b-v1_1-transformers`模型，它包含了视觉塔。你有两种选择：\n- 下载模型并放到`models\u002FLLM`文件夹中。\n- 或者依赖自动下载机制。\n\n**注意：** 建议卸载文本编码器，因为视觉塔需要额外的显存。\n\n## 第二步：加载并连接图像\n- 使用Comfy原生节点加载图像。\n- 将加载的图像连接到`Hunyuan TextImageEncode`节点。\n  - 你可以最多连接2张图像到这个节点。\n\n## 第三步：用图像进行提示\n- 在你的提示中引用图像，加入`\u003Cimage>`标签。\n- `\u003Cimage>`标签的数量应与提供给采样器的图像数量一致。\n  - 示例提示：`详细描述这张\u003Cimage>。`\n\n你也可以选择给CLIP一个不单独引用图像的提示。\n\n## 第四步：高级配置——`image_token_selection_expression`\n这个表达式面向高级用户，是一个布尔掩码，用来选择图像隐藏状态的哪一部分用于条件控制。以下是一些细节和建议：\n\n- llava-llama-3每张图像的隐藏状态序列长度（或标记数量）为576。\n- 默认设置是`::4`，即每四个标记选一个标记用于条件控制，交错后每张图像有144个标记。\n- 一般来说，标记越多越倾向于条件图像。\n- 不过，标记太多（尤其是整体标记数超过256）会降低生成质量，建议不要使用超过一半的标记（`::2`）。\n- 交错标记的效果通常更好，但你也可以试试以下表达式：\n  - `:128`——前128个标记。\n  - `-128:`——后128个标记。\n  - `:128, -128:`——前128个和后128个标记。\n- 如果策略得当，甚至不传入任何图像标记（留空表达式），也能取得不错的效果。\n\n# 更新\n\n缩放点积注意力（sdpa）现在应该可以正常工作了（仅在Windows上进行了测试，使用的是torch 2.5.1+cu124，在4090显卡上运行）。尽管仍推荐使用sageattention以获得更快的运行速度，但现在已经不再必要，这使得安装过程变得简单许多。\n\nVid2vid测试：\n[源视频](https:\u002F\u002Fwww.pexels.com\u002Fvideo\u002Fa-4x4-vehicle-speeding-on-a-dirt-road-during-a-competition-15604814\u002F)\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F12940721-4168-4e2b-8a71-31b4b0432314\n\n\ntext2vid（旧测试）：\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F3750da65-9753-4bd2-aae2-a688d2b86115\n\n\nTransformer和VAE（单个文件，无需自动下载）：\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002FHunyuanVideo_comfy\u002Ftree\u002Fmain\n\n前往常规的ComfyUI文件夹（diffusion_models和vae）\n\nLLM文本编码器（支持自动下载）：\n\nhttps:\u002F\u002Fhuggingface.co\u002FKijai\u002Fllava-llama-3-8b-text-encoder-tokenizer\n\n文件放置于`ComfyUI\u002Fmodels\u002FLLM\u002Fllava-llama-3-8b-text-encoder-tokenizer`\n\nClip文本编码器（支持自动下载）\n\n您可以选择以下两种方式之一：  \n1. 使用ComfyUI支持的任意Clip_L模型。具体做法是，在文本编码器加载器中禁用clip_model，并将ClipLoader节点连接到文本编码器节点；  \n2. 或者让自动下载功能从以下地址获取原始Clip模型：  \nhttps:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fclip-vit-large-patch14（只需下载权重文件中的.safetensor格式文件以及所有配置文件），并将其放置于：  \n`ComfyUI\u002Fmodels\u002Fclip\u002Fclip-vit-large-patch14`\n\n显存占用完全取决于分辨率和帧数，即使在24GB显存的设备上，也不太可能支持很高的分辨率和帧率。\n\n好消息是，即使在极低分辨率下，该模型也能生成功能正常的视频。","# ComfyUI-HunyuanVideoWrapper 快速上手指南\n\n## 环境准备\n\n- **系统要求**：Windows \u002F Linux，推荐 NVIDIA 显卡（显存 ≥12GB，24GB 更佳）\n- **前置依赖**：\n  - ComfyUI（已安装并正常运行）\n  - PyTorch 2.5.1+（推荐 `cu124` 版本，支持 `--use-sage-attention`）\n  - Python 3.10+\n\n> 推荐使用国内镜像加速：  \n> `pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124`\n\n## 安装步骤\n\n1. 进入 ComfyUI 的 `custom_nodes` 目录：\n\n```bash\ncd ComfyUI\u002Fcustom_nodes\n```\n\n2. 克隆本项目：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper.git\n```\n\n3. 下载模型文件（手动放置，不自动下载）：\n\n- **T2V 模型**（FP8 缩放版）：\n  ```\n  https:\u002F\u002Fhuggingface.co\u002Ftencent\u002FHunyuanVideo\u002Fblob\u002Fmain\u002Fhunyuan-video-t2v-720p\u002Ftransformers\u002Fmp_rank_00_model_states_fp8.pt\n  ```\n  放入：`ComfyUI\u002Fmodels\u002Fdiffusion_models\u002F`\n\n- **VAE 模型**：\n  ```\n  https:\u002F\u002Fhuggingface.co\u002FKijai\u002FHunyuanVideo_comfy\u002Ftree\u002Fmain\n  ```\n  下载 `.safetensors` 文件，放入：`ComfyUI\u002Fmodels\u002Fvae\u002F`\n\n- **LLM 文本编码器**（IP2V 图像提示用）：\n  ```\n  https:\u002F\u002Fhuggingface.co\u002FKijai\u002Fllava-llama-3-8b-text-encoder-tokenizer\n  ```\n  放入：`ComfyUI\u002Fmodels\u002FLLM\u002Fllava-llama-3-8b-text-encoder-tokenizer`\n\n- **CLIP 编码器**（可选，用于文本编码）：\n  ```\n  https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fclip-vit-large-patch14\n  ```\n  下载 `model.safetensors` 及配置文件，放入：`ComfyUI\u002Fmodels\u002Fclip\u002Fclip-vit-large-patch14`\n\n4. 启动 ComfyUI：\n\n```bash\npython main.py --use-sage-attention\n```\n\n> 推荐启用 `--use-sage-attention` 提升推理速度（需安装 [KJNodes](https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-KJNodes)）\n\n## 基本使用\n\n### 最简文本生成视频（T2V）\n\n1. 添加节点：\n   - `HunyuanVideoModelLoader` → 选择 `fp8_scaled` 模式，加载 `mp_rank_00_model_states_fp8.pt`\n   - `HunyuanTextEncode` → 输入提示词，如 `\"A cat dancing in the rain\"`\n   - `HunyuanVideoSampler` → 连接模型与文本编码器，设置帧数（建议 16~32）\n   - `PreviewImage` → 查看输出\n\n2. 运行工作流，生成 720p 视频（约 5~10 秒）\n\n### 图像提示生成视频（IP2V，实验功能）\n\n1. 加载图像：使用 `Load Image` 节点\n2. 连接图像到 `Hunyuan TextImageEncode`（最多支持 2 张图）\n3. 在提示词中加入 `\u003Cimage>` 标记，例如：\n   ```\n   A futuristic cityscape, style of \u003Cimage>, cyberpunk lighting\n   ```\n4. 保持 `image_token_selection_expression` 为空或设为 `::4`（默认推荐）\n5. 连接至 `HunyuanVideoSampler`，运行生成\n\n> 使用 IP2V 时，建议关闭 CLIP 编码器，仅依赖 LLM 的视觉-语言理解能力。","一位独立动画师正在为独立短片制作一段30秒的动态概念预告片，需要将一张手绘概念图（如“未来都市中的机械猫在雨中漫步”）转化为高质量、风格一致的视频，同时保持原画的细腻光影与艺术风格。\n\n### 没有 ComfyUI-HunyuanVideoWrapper 时\n- 手动将图像输入官方 HunyuanVideo 接口时，无法直接使用图像作为语义提示（IP2V），只能当第一帧，导致画面失去创意控制。\n- 文本编码依赖模型内置模块，生成结果与预期文案偏差大，比如“机械猫”常被误生成为普通猫或机器人。\n- 无法加载官方发布的 fp8 量化权重，显存占用高，16GB 显卡无法运行 720p 视频生成。\n- 缺乏对 Dashtoon 关键帧 LoRA 的支持，难以控制动画节奏，如猫步态不自然、雨滴运动无规律。\n- 想用 Enhance-A-Video 提升画质时，需手动拼接多个工作流，流程断裂，耗时超过 3 小时。\n\n### 使用 ComfyUI-HunyuanVideoWrapper 后\n- 可直接通过 IP2V 节点输入概念图，模型自动提取风格与概念，生成的视频中机械猫的形态、材质与原图完全一致。\n- 利用 ComfyUI 原生文本编码器替代模型内置编码，精准控制提示词，确保“雨中漫步”“霓虹灯光反射”等细节准确呈现。\n- 支持加载官方 fp8 量化权重，显存占用降低 40%，在 16GB 显卡上流畅生成 720p 视频，无需降分辨率。\n- 集成 Dashtoon 关键帧 LoRA，可手动设置关键帧控制猫的抬爪、转身节奏，动画流畅度大幅提升。\n- 一键接入 Enhance-A-Video 节点，生成后自动增强细节，画质提升明显，总耗时从 3 小时压缩至 45 分钟。\n\nComfyUI-HunyuanVideoWrapper 让独立创作者无需专业算力或工程背景，就能用一张草图快速产出电影级概念视频，真正实现“灵感即成片”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkijai_ComfyUI-HunyuanVideoWrapper_aae68e53.png","kijai","Jukka Seppänen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkijai_5a67a464.jpg","Finland","kijaidesign","https:\u002F\u002Fgithub.com\u002Fkijai",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,2588,205,"2026-04-05T00:55:42",4,"Windows, Linux","需要 NVIDIA GPU，显存 24GB+ 推荐，最低 8GB，CUDA 11.7+，推荐使用 torch 2.5.1+cu124","16GB+",{"notes":94,"python":95,"dependencies":96},"建议使用 conda 管理环境，首次运行需下载约 5GB 模型文件（包括 HunyuanVideo 主模型、LLaVA 文本编码器、CLIP 模型等）；支持 FP8 量化权重以降低显存占用，但不支持 LoRA；推荐启用 SageAttention 或 SDPA 提升推理速度；IP2V 功能需额外加载 LLaVA-LLaMA-3-8B 视觉-语言模型，建议关闭文本编码器卸载以节省显存；高分辨率或长视频生成对显存要求极高，24GB 显存为实际可用下限。","3.8+",[97,98,99,100,101,102],"torch>=2.0","transformers>=4.30","accelerate","safetensors","pillow","numpy",[52,14,13,15],"2026-03-27T02:49:30.150509","2026-04-06T06:46:17.247345",[107,112,117,122,127,132,136,140],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},9014,"导入 diffusers 时出现 Triton 相关错误，如何解决？","将 peft 从 0.18.0 升级到 0.18.1 可解决该问题。推荐使用以下环境配置：Python 3.10、torch 2.6.0+cu124、accelerate==1.6.0、diffusers==0.33.1、transformers==4.46.2。同时可尝试卸载或更新 bitsandbytes，因其常与 Triton 版本冲突。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper\u002Fissues\u002F92",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},9015,"生成视频时出现全黑画面，如何修复？","使用 PyTorch 2.5.1+cu124 并设置视频分辨率为 Width:720、Height:1024 可解决黑屏问题。高分辨率（如 1280x）可能导致显存溢出（OOM），建议降低分辨率或使用 SDPA 注意力机制以减少显存占用。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper\u002Fissues\u002F66",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},9016,"使用 HyVideoTextImageEncode 节点时报错 'unsupported operand type(s) for \u002F\u002F: 'int' and 'NoneType''，如何解决？","将 Python 版本从 3.9 升级到 3.10 可解决此问题。若仍报错，可手动安装 transformers==4.47.0：先激活 venv（.\\venv\\Scripts\\Activate.ps1），再执行 pip install --upgrade transformers==4.47.0。若出现 '_socket' 错误，需删除并重建 venv 环境。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper\u002Fissues\u002F269",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},9017,"ComfyUI 是否能在 8GB VRAM 显卡上运行 HunyuanVideo？","可以运行，但需优化设置。推荐使用 LTX Video 替代方案，其在 6GB VRAM 的笔记本（如 RTX 3060）上可正常运行示例工作流。建议降低输入分辨率、关闭模型编译（torch compile）并使用 fp16 精度以节省显存。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper\u002Fissues\u002F17",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},9018,"出现 'NoneType' object has no attribute 'shape' 错误，如何处理？","该错误通常由模型加载不完整或配置缺失导致。请确保 LLaVa 模型（如 llava-llama-3-8b-v1_1-transformers）的配置文件中包含 'patch_size' 和 'vision_feature_select_strategy' 参数。若使用 GGUF 模型，需确认 tokenizer 加载方式兼容，并尝试设置 legacy=False。","https:\u002F\u002Fgithub.com\u002Fkijai\u002FComfyUI-HunyuanVideoWrapper\u002Fissues\u002F450",{"id":133,"question_zh":134,"answer_zh":135,"source_url":121},9019,"运行时提示 'Can't import SageAttention: No module named 'sageattention''，如何解决？","安装 sageattention 包即可解决：在激活的 venv 环境中执行 pip install sageattention。若安装失败，可尝试从源码安装：git clone https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fsageattention && cd sageattention && pip install -e .。",{"id":137,"question_zh":138,"answer_zh":139,"source_url":116},9020,"如何解决 OOM（显存溢出）错误导致模型被卸载？","降低输入分辨率（如 720x1024）、启用 SDPA 注意力机制、关闭 torch.compile、使用 fp16 精度、卸载未使用的模型（如 CLIP、VAE）可缓解 OOM。若仍溢出，建议使用显存大于 24GB 的显卡，或尝试分步生成视频帧。",{"id":141,"question_zh":142,"answer_zh":143,"source_url":111},9021,"升级 PyTorch 到 2.6 后 diffusers 无法加载，如何回退？","回退到 PyTorch 2.5.1 + Triton 3.1 + CUDA 12.4 组合可恢复 diffusers 加载功能。同时建议禁用模型编译（torch compile），并确保 bitsandbytes 与 Triton 版本兼容。可通过 pip install torch==2.5.1+cu124 -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124 安装指定版本。",[]]