ComfyUI-MochiWrapper

GitHub
799 70 中等 2 次阅读 6天前Apache-2.0视频插件
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-MochiWrapper 是专为 ComfyUI 设计的节点封装工具,旨在让用户能够直接在 ComfyUI 工作流中运行 Genmo 开发的 Mochi 视频生成模型。它主要解决了 Mochi 原生代码与 ComfyUI 生态不兼容的问题,让熟悉节点式操作的用户无需编写复杂代码即可体验先进的视频生成技术。

这款工具特别适合已经在使用 ComfyUI 的创作者、设计师以及希望快速验证视频生成效果的 AI 研究人员。对于普通用户而言,只要具备基础的 ComfyUI 操作知识,也能通过自动下载节点轻松上手。

在技术亮点方面,ComfyUI-MochiWrapper 提供了灵活的注意力机制选项,支持 flash_attn、PyTorch SDPA 以及速度最快的 SageAttention,用户可根据硬件条件自由选择以优化性能。针对视频生成中显存占用高的痛点,它集成了实验性的分块解码器(tiled decoder),该技术借鉴自 CogVideoX,能有效降低显存需求。这使得在 20GB 显存的设备上也能生成较高帧数的视频,目前测试已支持高达 97 帧的输出,大大提升了长视频生成的可行性与效率。

使用场景

一位独立动画创作者试图在本地生成一段包含复杂光影变化且时长超过 3 秒的高质量视频,用于其短片的开场镜头。

没有 ComfyUI-MochiWrapper 时

  • 显存极易溢出:尝试生成高帧数视频时,由于缺乏分块解码(Tiled Decoder)支持,20GB 显存的显卡也频繁报错崩溃,无法完成渲染。
  • 推理速度缓慢:只能依赖基础的 PyTorch 注意力机制,生成单段视频耗时极长,严重拖慢创意迭代节奏。
  • 部署流程繁琐:需要手动下载模型文件并配置复杂的路径结构,容易因版本不匹配导致环境报错。
  • 工作流割裂:Mochi 模型无法直接嵌入现有的 ComfyUI 节点图,必须切换软件或编写独立脚本运行,打断创作心流。

使用 ComfyUI-MochiWrapper 后

  • 突破显存限制:利用内置的实验性分块解码技术,成功在 20GB 显存下流畅生成高达 97 帧的视频,轻松满足长镜头需求。
  • 加速生成过程:灵活切换至 Sage Attention 加速后端,显著缩短推理时间,让创作者能快速预览不同提示词的效果。
  • 一键自动加载:通过自带的自动下载节点,模型与 VAE 文件自动归位至正确目录,省去了手动配置环境的麻烦。
  • 无缝集成工作流:将 Mochi 作为原生节点融入 ComfyUI,可与其他图像处理节点自由连接,实现从生成到后期的一站式流水线。

ComfyUI-MochiWrapper 通过优化显存管理和加速推理引擎,让高性能视频生成模型在消费级硬件上变得真正可用且高效。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要支持 Flash Attention、PyTorch SDPA 或 Sage Attention 的 GPU(通常为 NVIDIA),显存建议 20GB 以下可运行,具体取决于帧数
  • 使用实验性分块解码器可处理更高帧数
内存

未说明

依赖
notes该项目处于开发中(WORK IN PROGRESS)。支持多种注意力机制,其中 Sage Attention 速度最快。显存需求随视频帧数变化,默认设置下可在 20GB 显存内运行;VAE 解码消耗较大,但集成了来自 CogVideoX 的实验性分块解码器(tiled decoder),允许生成更多帧数(测试最高达 97 帧,使用 2x2 网格分块)。模型需下载至 ComfyUI 指定目录,提供自动下载节点。
python未说明
flash_attn (可选)
sageattention (可选)
torch (支持 sdpa)
ComfyUI-MochiWrapper hero image

快速开始

用于 Mochi 视频生成器的 ComfyUI 封装节点

开发中

https://github.com/user-attachments/assets/a714b70f-dcdb-4f91-8a3d-8da679a28d6e

可以使用 flash_attn、PyTorch 自带的注意力机制(sdpa),或 sage attention,其中 sage 的速度最快。

根据帧数的不同,显存占用可以控制在 20GB 以内。VAE 解码较为耗资源,目前有一个实验性的分块解码器(源自 CogVideoX -diffusers 代码),它允许更高的帧数。到目前为止,我用默认的 2×2 分块大小成功生成了最高 97 帧的视频。

模型:

https://huggingface.co/Kijai/Mochi_preview_comfy/tree/main

模型存放路径:ComfyUI/models/diffusion_models/mochi

VAE 存放路径:ComfyUI/models/vae/mochi

还有一个自动下载节点(后续也会提供常规加载节点)。

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。

70.6k|★★★☆☆|今天
语言模型Agent开发框架

gpt4free

gpt4free 是一个由社区驱动的开源项目,旨在聚合多种可访问的大型语言模型(LLM)和媒体生成接口,让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点,通过统一的标准将不同提供商的资源整合在一起。 无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员,还是想免费体验最新技术的普通用户,都能从中受益。gpt4free 提供了丰富的使用方式:既包含易于上手的 Python 和 JavaScript 客户端库,也支持部署本地图形界面(GUI),更提供了兼容 OpenAI 标准的 REST API,方便无缝替换现有应用后端。 其技术亮点在于强大的多提供商支持架构,能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源,并支持 Docker 一键部署及本地推理。项目秉持社区优先原则,在降低使用门槛的同时,也为贡献者提供了扩展新接口的便利框架,是探索和利用多样化 AI 资源的实用工具。

66k|★★☆☆☆|2天前
插件语言模型Agent

gstack

gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。

64.6k|★★☆☆☆|今天
Agent插件

meilisearch

Meilisearch 是一个开源的极速搜索服务,专为现代应用和网站打造,开箱即用。它能帮助开发者快速集成高质量的搜索功能,无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果,而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性,并支持 AI 驱动的混合搜索(结合关键词与语义理解),显著提升用户查找信息的体验。 Meilisearch 特别适合 Web 开发者、产品团队或初创公司使用,尤其适用于需要快速上线搜索功能的场景,如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK,部署简单,资源占用低,本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下,为用户提供流畅、智能搜索体验的团队来说,Meilisearch 是一个高效且友好的选择。

57k|★★☆☆☆|今天
图像Agent数据工具

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术,帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词,它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程,最终输出完整的竖屏或横屏短视频。 这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者,还是希望尝试视频生成的普通用户,无需具备专业的剪辑技能或昂贵的硬件配置(普通电脑即可运行),都能轻松上手。同时,其清晰的 MVC 架构和对多种主流大模型(如 DeepSeek、Moonshot、通义千问等)的广泛支持,也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成,允许用户精细调整字幕样式和画面比例,还特别优化了国内网络环境下的模型接入方案,让用户无需依赖 VPN 即可使用高性能国产大模型。此外,工具提供批量生成模式,可一次性产出多个版本供用户择优,极大地提升了内容创作的效率与质量。

55k|★★★☆☆|今天
开发框架语言模型Agent