[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ZHO-ZHO-ZHO--ComfyUI-Gemini":3,"tool-ZHO-ZHO-ZHO--ComfyUI-Gemini":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,2,"2026-04-18T11:18:24",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":74,"owner_location":77,"owner_email":74,"owner_twitter":78,"owner_website":74,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":32,"env_os":93,"env_gpu":94,"env_ram":93,"env_deps":95,"category_tags":99,"github_topics":100,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":105,"updated_at":106,"faqs":107,"releases":108},9636,"ZHO-ZHO-ZHO\u002FComfyUI-Gemini","ComfyUI-Gemini","Using Gemini in ComfyUI","ComfyUI-Gemini 是一款将谷歌强大的 Gemini 大模型无缝集成到 ComfyUI 可视化工作流中的开源插件。它主要解决了用户在 AI 绘画与工作流自动化中缺乏高质量文本理解、图像分析及多模态交互能力的问题，让用户无需编写代码即可在节点中调用顶尖大模型。\n\n该工具非常适合设计师、AI 艺术家及工作流开发者使用。借助它，用户可以轻松实现智能提示词生成、图像内容深度描述、批量自动打标，甚至构建具备多轮对话能力的聊天机器人。其独特的技术亮点在于全面支持最新的 Gemini 1.5 Pro 模型，不仅拥有高达百万级的上下文窗口，还能直接读取和分析视频、音频及文档等多种格式文件。此外，插件提供了“隐式”与“显式”两种 API 密钥管理方式，既方便个人调试，又确保了分享工作流时的安全性。无论是需要处理复杂多模态任务的专业研究人员，还是希望提升创作效率的普通用户，ComfyUI-Gemini 都能通过直观的节点操作，极大地拓展 ComfyUI 的应用边界。","\u003Cp align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_94ac90d22478.png\" alt=\"Gemini项目图\" \u002F>\u003C\u002Fp>\n\n\u003C!---\n![Gemini项目图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_94ac90d22478.png)\n--->\n\n\u003Ch1 align=\"center\">Gemini in ComfyUI\u003C\u002Fh1>\n\u003C!---\n# Gemini in ComfyUI\n--->\n\n🆕 最新 Gemini 1.5 Pro 模型已加入！\n\n![G1 5发](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_5497f0f75cbf.png)\n\n- 支持系统指令设置（System Instruction）\n- 支持多模态 + 多轮对话\n- 可以读取视频、音频等文件（上限 20G）\n- 支持输入的 token 上限达到了 104万8576\n- 目前速率限制比较严，每分钟只有 2 次，每天只有 1000 次\n\n\u003C!---\n![Dingtalk_20240411192338](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_d35fe2ff6af8.png)\n--->\n\n![Dingtalk_20240411194828](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_0561fdd6af5b.png)\n\n\n已支持文件上传功能，不过还仅限于单个文件（图片、txt文件、pdf文件、音频mp3文件等），未来会支持多文件上传（用于读取视频）\n\n\u003C!---\n![Dingtalk_20231220204257](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_11beb7a583a6.png)\n--->\n\nAll-in-One LoRa Training 预处理、自动打标、训练、测试 LoRA 一条龙工作流\n\nhttps:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fassets\u002F140084057\u002Fd461f656-6888-48a8-b4f8-b70b7e46504d\n\n\nV2.0 聊天机器人节点\n\nhttps:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fassets\u002F140084057\u002Fcb64ee29-a983-47fd-b26b-55386314afdd\n\n\n将 Gemini pro vision 用于批量打标\n\n\nhttps:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fassets\u002F140084057\u002F00addc94-1587-40d6-83f4-6b47dc1db665\n\n\n\n## 项目介绍 | Info\n\n- 将 Google Gemini 引入到 ComfyUI 中，现在你可以用它为你生成提示词、描述图像，也可与它畅聊人生\n\n- 目前 Gemini API 免费开放（20240502 开始计费），你可以在这里申请一个自己的 API Key：[Gemini API 申请](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey)\n\n- 最新 Gemini 1.5 Pro 模型：\n  \n    - 支持系统指令设置（System Instruction）\n    - 支持多模态 + 多轮对话，\n    - 可以读取视频、音频等文件（上限 20G）\n    - 支持输入的 token 上限达到了 104万8576\n    - 目前速率限制比较严，每分钟只有 2 次，每天只有 1000 次\n\n- 版本：V3.0 新增 Gemini 1.5 Pro 模型、系统指令、文件上传\n\n\n\n## 详细说明 | Features\n\n- Gemini 目前提供 3 种模型：\n\n   - Gemini-pro: 文本模型\n\n   - Genimi-pro-vision: 文本 + 图像模型\n   \n   - Gemini 1.5 Pro：文本 + 图像 + 文件（音频、视频等各类） 模型\n\n\n- Gemini 1.5 Pro 新节点：\n   \n   - 🆕Gemini_15P_Advance_Zho：支持系统指令设置（System Instruction）\n \n   - 🆕Gemini_15P_Chat_Advance_Zho：支持系统指令设置（System Instruction）+ 多轮对话\n   \n   - 📄Gemini_FileUpload_Zho：支持单文件上传（图片、音频、文本txt、pdf等），暂未支持视频（多文件）上传\n   \n   - 📄Gemini_File_Zho：文件读取对话，最大 token 数为 1048576\n\n\n- 2 类节点:\n\n   - 隐式 API KEY：将 Gemini_API_Key 设置为了环境变量，更安全，方便分享工作流（不会外泄 API KEY）\n     \n       ㊙️Gemini_Zho：同时支持 3 种模型，其中 Genimi-pro-vision 和 Gemini 1.5 Pro 可接受图像作为输入\n     \n       ㊙️Gemini_Vsion_ImgURL_Zho：Genimi-pro-vision 和 Gemini 1.5 Pro 模型，接受图像链接作为输入\n     \n       ㊙️Gemini_Chat_Zho：Genimi-pro 和 Gemini 1.5 Pro 模型，支持上下文对话，聊天机器人，Gemini 1.5 Pro 支持图像输入的上下文对话\n\n   - 显式API KEY：直接在节点中输入 Gemini_API_Key，仅供个人私密使用，请勿将包含 API KEY 的工作流分享出去\n     \n       ✨Gemini_API_Zho：同时支持 3 种模型，其中 Genimi-pro-vision 和 Gemini 1.5 Pro 可接受图像作为输入\n  \n       ✨Gemini_API_Vsion_ImgURL_Zho：Genimi-pro-vision 和 Gemini 1.5 Pro 模型，接受图像链接作为输入\n     \n       ✨Gemini_API_Chat_Zho：：Genimi-pro 和 Gemini 1.5 Pro 模型，支持上下文对话，聊天机器人，Gemini 1.5 Pro 支持图像输入的上下文对话\n\n- 辅助节点:\n\n   - ✨DisplayText_Zho：显示文本\n     \n   - ✨ConcatText_Zho：使用 “，” 连接文本\n\n- 节点示例：\n\n\u003C!---\n![Dingtalk_20240411193428](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_43c98901a698.png)\n--->\n\n![Dingtalk_20231220180446](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_683d7e04e69b.png)\n\n聊天机器人\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_72f45a699b43.png)\n\n\n## 参数说明 | Parameters\n\n- image（非必要）：选择 Gemini-pro 时无需接入图像，选择 Genimi-pro-vision 时需要接入图像，选择 Gemini 1.5 Pro 既可接入也可不接\n- prompt：提示词\n- model_name：模型选择，Gemini-pro 或 Genimi-pro-vision 或 Gemini 1.5 Pro\n- stream：流式传输响应\n- api_key：输入 Gemini_API_Key （仅在显式节点上有）\n\n## 使用方法 | How to use\n\n- 首先需要申请一个自己的 Gemini_API_Key：[Gemini API 申请](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey) \n\n- 选择隐式节点㊙️（推荐）：将你的 Gemini_API_Key 添加到 `config.json` 文件中，运行时会自动加载\n\n- 选择显示节点✨：直接将 Gemini_API_Key 输入到节点的 api_key 中（注意：请勿将包含此节点的工作流分享出去，以免泄露你的 API Key）\n\n- 使用注意：本地使用请确保你可以有效连接到 Google Gemini 的服务，推荐使用 Colab 或 Kaggle（无连接问题）\n\n- 使用新版 Gemini 1.5 Pro 需要更新依赖 google-generativeai > 0.4.1\n\n## 安装 | Install\n\n- 推荐使用管理器 ComfyUI Manager 安装\n\n- 手动安装：\n    1. `cd custom_nodes`\n    2. `git clone https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini.git`\n    3. `cd custom_nodes\u002FComfyUI-Gemini`\n    4. `pip install -r requirements.txt`\n    5. 重启 ComfyUI\n\n## 工作流 | Workflow\n\n### V3.0 平替 DALL·3\n\n[Gemini 1.5 Pro + Stable Diffusion + ComfyUI = DALL·3 ](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini%201.5%20Pro%20%2B%20Stable%20Diffusion%20%2B%20ComfyUI%20%3D%20DALL%C2%B73%20%E3%80%90Zho%E3%80%91.json)\n\n\n![Dingtalk_20240411195451](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_031e2eb6bdde.png)\n\n\n### V2.0 工作流（隐式）（V1.1工作流依旧可用）\n\n[Gemini-pro Chatbot【Zho】](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini-pro%20Chatbot%E3%80%90Zho%E3%80%91.json)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_72f45a699b43.png)\n\n### V1.1 工作流（隐式）\n\n[Gemini-pro【Zho】](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini-pro%E3%80%90Zho%E3%80%91.json) \n\n![Dingtalk_20231220183708](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_fb861a231ee8.png)\n\n[Genimi-pro-vision【Zho】](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini-pro-vision%E3%80%90Zho%E3%80%91.json)\n\n![Dingtalk_20231220192932](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_55ce3f1c4ae7.png)\n\n![Dingtalk_20231220190218](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_92651f706997.png)\n\n\n## 更新日志 | Changelog\n\n20240411\n\n- V3.0版：新增 Gemini 1.5 Pro 模型、系统指令、文件上传\n\n- 新增 平替 DALL·3 工作流（Gemini 1.5 Pro + Stable Diffusion + ComfyUI = DALL·3）\n\n20231229\n\n- V2.1版：修复 Deadline of 60.0s bug，方法来自官方：https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fgenerative-ai-python\u002Fissues\u002F117\n\n20231222\n\n- V2.0版：新增上下文聊天节点，相当于聊天机器人\n    - 💬Gemini_Chat_Zho（隐式）\n    - 💬Gemini_API_Chat_Zho（显示）\n\n20231221\n\n- V1.1版：修改 API KEY 的加载方式为自动添加 config.json ，将 API KEY 写入即可\n  \n- 已登陆 manager 不用手动安装了\n\n20231220\n\n- 实现 Genimi-pro-vision 模型调用，支持图像或图像链接输入\n- 增加隐式节点，更加安全\n- 增加辅助节点\n\n20231219\n\n- 创建 ComfyUI Gemini 项目，实现 Gemini-pro 模型调用\n\n\n## Stars \n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_22560e08756a.png)](https:\u002F\u002Fstar-history.com\u002F#ZHO-ZHO-ZHO\u002FComfyUI-Gemini&Timeline)\n\n\n## 关于我 | About me\n\n📬 **联系我**：\n- 邮箱：zhozho3965@gmail.com\n- QQ 群：839821928\n\n🔗 **社交媒体**：\n- 个人页：[-Zho-](https:\u002F\u002Fjike.city\u002Fzho)\n- Bilibili：[我的B站主页](https:\u002F\u002Fspace.bilibili.com\u002F484366804)\n- X（Twitter）：[我的Twitter](https:\u002F\u002Ftwitter.com\u002FZHOZHO672070)\n- 小红书：[我的小红书主页](https:\u002F\u002Fwww.xiaohongshu.com\u002Fuser\u002Fprofile\u002F63f11530000000001001e0c8?xhsshare=CopyLink&appuid=63f11530000000001001e0c8&apptime=1690528872)\n\n💡 **支持我**：\n- B站：[B站充电](https:\u002F\u002Fspace.bilibili.com\u002F484366804)\n- 爱发电：[为我充电](https:\u002F\u002Fafdian.net\u002Fa\u002FZHOZHO)\n\n\n## Credits\n\n- DisplayText节点参考了：[ComfyUI_Custom_Nodes_AlekPet](https:\u002F\u002Fgithub.com\u002FAlekPet\u002FComfyUI_Custom_Nodes_AlekPet)，感谢 AlekPet ！\n","\u003Cp align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_94ac90d22478.png\" alt=\"Gemini项目图\" \u002F>\u003C\u002Fp>\n\n\u003C!---\n![Gemini项目图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_94ac90d22478.png)\n--->\n\n\u003Ch1 align=\"center\">Gemini在ComfyUI中\u003C\u002Fh1>\n\u003C!---\n# Gemini in ComfyUI\n--->\n\n🆕 最新 Gemini 1.5 Pro 模型已加入！\n\n![G1 5发](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_5497f0f75cbf.png)\n\n- 支持系统指令设置（System Instruction）\n- 支持多模态 + 多轮对话\n- 可以读取视频、音频等文件（上限 20G）\n- 支持输入的 token 上限达到了 104万8576\n- 目前速率限制比较严，每分钟只有 2 次，每天只有 1000 次\n\n\u003C!---\n![Dingtalk_20240411192338](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_d35fe2ff6af8.png)\n--->\n\n![Dingtalk_20240411194828](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_0561fdd6af5b.png)\n\n\n已支持文件上传功能，不过还仅限于单个文件（图片、txt文件、pdf文件、音频mp3文件等），未来会支持多文件上传（用于读取视频）\n\n\u003C!---\n![Dingtalk_20231220204257](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_11beb7a583a6.png)\n--->\n\nAll-in-One LoRa Training 预处理、自动打标、训练、测试 LoRA 一条龙工作流\n\nhttps:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fassets\u002F140084057\u002Fd461f656-6888-48a8-b4f8-b70b7e46504d\n\n\nV2.0 聊天机器人节点\n\nhttps:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fassets\u002F140084057\u002Fcb64ee29-a983-47fd-b26b-55386314afdd\n\n\n将 Gemini pro vision 用于批量打标\n\n\nhttps:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fassets\u002F140084057\u002F00addc94-1587-40d6-83f4-6b47dc1db665\n\n\n\n## 项目介绍 | Info\n\n- 将 Google Gemini 引入到 ComfyUI 中，现在你可以用它为你生成提示词、描述图像，也可与它畅聊人生\n\n- 目前 Gemini API 免费开放（20240502 开始计费），你可以在这里申请一个自己的 API Key：[Gemini API 申请](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey)\n\n- 最新 Gemini 1.5 Pro 模型：\n  \n    - 支持系统指令设置（System Instruction）\n    - 支持多模态 + 多轮对话，\n    - 可以读取视频、音频等文件（上限 20G）\n    - 支持输入的 token 上限达到了 104万8576\n    - 目前速率限制比较严，每分钟只有 2 次，每天只有 1000 次\n\n- 版本：V3.0 新增 Gemini 1.5 Pro 模型、系统指令、文件上传\n\n\n\n## 详细说明 | Features\n\n- Gemini 目前提供 3 种模型：\n\n   - Gemini-pro: 文本模型\n\n   - Genimi-pro-vision: 文本 + 图像模型\n   \n   - Gemini 1.5 Pro：文本 + 图像 + 文件（音频、视频等各类） 模型\n\n\n- Gemini 1.5 Pro 新节点：\n   \n   - 🆕Gemini_15P_Advance_Zho：支持系统指令设置（System Instruction）\n \n   - 🆕Gemini_15P_Chat_Advance_Zho：支持系统指令设置（System Instruction）+ 多轮对话\n   \n   - 📄Gemini_FileUpload_Zho：支持单文件上传（图片、音频、文本txt、pdf等），暂未支持视频（多文件）上传\n   \n   - 📄Gemini_File_Zho：文件读取对话，最大 token 数为 1048576\n\n\n- 2 类节点:\n\n   - 隐式 API KEY：将 Gemini_API_Key 设置为了环境变量，更安全，方便分享工作流（不会外泄 API KEY）\n     \n       ㊙️Gemini_Zho：同时支持 3 种模型，其中 Genimi-pro-vision 和 Gemini 1.5 Pro 可接受图像作为输入\n     \n       ㊙️Gemini_Vsion_ImgURL_Zho：Genimi-pro-vision 和 Gemini 1.5 Pro 模型，接受图像链接作为输入\n     \n       ㊙️Gemini_Chat_Zho：Genimi-pro 和 Gemini 1.5 Pro 模型，支持上下文对话，聊天机器人，Gemini 1.5 Pro 支持图像输入的上下文对话\n\n   - 显式API KEY：直接在节点中输入 Gemini_API_Key，仅供个人私密使用，请勿将包含 API KEY 的工作流分享出去\n     \n       ✨Gemini_API_Zho：同时支持 3 种模型，其中 Genimi-pro-vision 和 Gemini 1.5 Pro 可接受图像作为输入\n  \n       ✨Gemini_API_Vsion_ImgURL_Zho：Genimi-pro-vision 和 Gemini 1.5 Pro 模型，接受图像链接作为输入\n     \n       ✨Gemini_API_Chat_Zho：：Genimi-pro 和 Gemini 1.5 Pro 模型，支持上下文对话，聊天机器人，Gemini 1.5 Pro 支持图像输入的上下文对话\n\n- 辅助节点:\n\n   - ✨DisplayText_Zho：显示文本\n     \n   - ✨ConcatText_Zho：使用 “，” 连接文本\n\n- 节点示例：\n\n\u003C!---\n![Dingtalk_20240411193428](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_43c98901a698.png)\n--->\n\n![Dingtalk_20231220180446](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_683d7e04e69b.png)\n\n聊天机器人\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_72f45a699b43.png)\n\n\n## 参数说明 | Parameters\n\n- image（非必要）：选择 Gemini-pro 时无需接入图像，选择 Genimi-pro-vision 时需要接入图像，选择 Gemini 1.5 Pro 既可接入也可不接\n- prompt：提示词\n- model_name：模型选择，Gemini-pro 或 Genimi-pro-vision 或 Gemini 1.5 Pro\n- stream：流式传输响应\n- api_key：输入 Gemini_API_Key （仅在显式节点上有）\n\n## 使用方法 | How to use\n\n- 首先需要申请一个自己的 Gemini_API_Key：[Gemini API 申请](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey) \n\n- 选择隐式节点㊙️（推荐）：将你的 Gemini_API_Key 添加到 `config.json` 文件中，运行时会自动加载\n\n- 选择显示节点✨：直接将 Gemini_API_Key 输入到节点的 api_key 中（注意：请勿将包含此节点的工作流分享出去，以免泄露你的 API Key）\n\n- 使用注意：本地使用请确保你可以有效连接到 Google Gemini 的服务，推荐使用 Colab 或 Kaggle（无连接问题）\n\n- 使用新版 Gemini 1.5 Pro 需要更新依赖 google-generativeai > 0.4.1\n\n## 安装 | Install\n\n- 推荐使用管理器 ComfyUI Manager 安装\n\n- 手动安装：\n    1. `cd custom_nodes`\n    2. `git clone https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini.git`\n    3. `cd custom_nodes\u002FComfyUI-Gemini`\n    4. `pip install -r requirements.txt`\n    5. 重启 ComfyUI\n\n## 工作流 | Workflow\n\n### V3.0 平替 DALL·3\n\n[Gemini 1.5 Pro + Stable Diffusion + ComfyUI = DALL·3 ](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini%201.5%20Pro%20%2B%20Stable%20Diffusion%20%2B%20ComfyUI%20%3D%20DALL%C2%B73%20%E3%80%90Zho%E3%80%91.json)\n\n\n![Dingtalk_20240411195451](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_031e2eb6bdde.png)\n\n\n### V2.0 工作流（隐式）（V1.1工作流依旧可用）\n\n[Gemini-pro Chatbot【Zho】](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini-pro%20Chatbot%E3%80%90Zho%E3%80%91.json)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_72f45a699b43.png)\n\n### V1.1 工作流（隐式）\n\n[Gemini-pro【Zho】](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini-pro%E3%80%90Zho%E3%80%91.json) \n\n![Dingtalk_20231220183708](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_fb861a231ee8.png)\n\n[Genimi-pro-vision【Zho】](https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini\u002Fblob\u002Fmain\u002FGemini_workflows\u002FGemini-pro-vision%E3%80%90Zho%E3%80%91.json)\n\n![Dingtalk_20231220192932](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_55ce3f1c4ae7.png)\n\n![Dingtalk_20231220190218](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_92651f706997.png)\n\n\n## 更新日志 | Changelog\n\n20240411\n\n- V3.0版：新增 Gemini 1.5 Pro 模型、系统指令、文件上传\n\n- 新增 平替 DALL·3 工作流（Gemini 1.5 Pro + Stable Diffusion + ComfyUI = DALL·3）\n\n20231229\n\n- V2.1版：修复 Deadline of 60.0s bug，方法来自官方：https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fgenerative-ai-python\u002Fissues\u002F117\n\n20231222\n\n- V2.0版：新增上下文聊天节点，相当于聊天机器人\n    - 💬Gemini_Chat_Zho（隐式）\n    - 💬Gemini_API_Chat_Zho（显示）\n\n20231221\n\n- V1.1版：修改 API KEY 的加载方式为自动添加 config.json ，将 API KEY 写入即可\n  \n- 已登陆 manager 不用手动安装了\n\n20231220\n\n- 实现 Genimi-pro-vision 模型调用，支持图像或图像链接输入\n- 增加隐式节点，更加安全\n- 增加辅助节点\n\n20231219\n\n- 创建 ComfyUI Gemini 项目，实现 Gemini-pro 模型调用\n\n\n## Stars \n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_readme_22560e08756a.png)](https:\u002F\u002Fstar-history.com\u002F#ZHO-ZHO-ZHO\u002FComfyUI-Gemini&Timeline)\n\n## 关于我 | About me\n\n📬 **联系我**：\n- 邮箱：zhozho3965@gmail.com\n- QQ 群：839821928\n\n🔗 **社交媒体**：\n- 个人页：[-Zho-](https:\u002F\u002Fjike.city\u002Fzho)\n- Bilibili：[我的B站主页](https:\u002F\u002Fspace.bilibili.com\u002F484366804)\n- X（Twitter）：[我的Twitter](https:\u002F\u002Ftwitter.com\u002FZHOZHO672070)\n- 小红书：[我的小红书主页](https:\u002F\u002Fwww.xiaohongshu.com\u002Fuser\u002Fprofile\u002F63f11530000000001001e0c8?xhsshare=CopyLink&appuid=63f11530000000001001e0c8&apptime=1690528872)\n\n💡 **支持我**：\n- B站：[B站充电](https:\u002F\u002Fspace.bilibili.com\u002F484366804)\n- 爱发电：[为我充电](https:\u002F\u002Fafdian.net\u002Fa\u002FZHOZHO)\n\n\n## 致谢\n\n- DisplayText节点参考了：[ComfyUI_Custom_Nodes_AlekPet](https:\u002F\u002Fgithub.com\u002FAlekPet\u002FComfyUI_Custom_Nodes_AlekPet)，感谢 AlekPet ！","# ComfyUI-Gemini 快速上手指南\n\n本指南帮助开发者在 ComfyUI 中快速集成 Google Gemini 模型，实现文本生成、图像描述、多轮对话及大文件（视频\u002F音频）分析功能。\n\n## 1. 环境准备\n\n在开始之前，请确保满足以下要求：\n\n*   **ComfyUI**: 已安装最新版本的 ComfyUI。\n*   **Python 环境**: 建议使用 Python 3.10 或更高版本。\n*   **网络环境**: 由于需要连接 Google 服务，请确保运行环境可访问外网。**推荐**在 Google Colab、Kaggle 或使用科学上网环境的本地机器上运行。\n*   **API Key**: 需提前申请 Google Gemini API Key。\n    *   申请地址：[Google AI Studio](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey)\n*   **依赖库版本**: 若使用最新的 **Gemini 1.5 Pro** 模型，需确保 `google-generativeai` 版本大于 `0.4.1`。\n\n## 2. 安装步骤\n\n推荐使用 **ComfyUI Manager** 进行安装，也可选择手动安装。\n\n### 方式一：通过 ComfyUI Manager 安装（推荐）\n\n1.  启动 ComfyUI，点击右侧菜单的 **Manager** 按钮。\n2.  选择 **Install Custom Nodes**。\n3.  搜索 `ComfyUI-Gemini`。\n4.  点击 **Install** 并重启 ComfyUI。\n\n### 方式二：手动安装\n\n在终端中执行以下命令：\n\n```bash\ncd ComfyUI\u002Fcustom_nodes\ngit clone https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO\u002FComfyUI-Gemini.git\ncd ComfyUI-Gemini\npip install -r requirements.txt\n```\n\n*注：国内用户若下载缓慢，可尝试使用镜像源安装依赖：*\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n安装完成后，**重启 ComfyUI**。\n\n## 3. 基本使用\n\n### 第一步：配置 API Key\n\n为了安全起见，推荐使用**隐式节点**（将 Key 存入配置文件，避免工作流分享时泄露）。\n\n1.  进入 `ComfyUI\u002Fcustom_nodes\u002FComfyUI-Gemini` 目录。\n2.  创建或编辑 `config.json` 文件。\n3.  填入你的 API Key，格式如下：\n    ```json\n    {\n      \"gemini_api_key\": \"你的_API_KEY_在此处\"\n    }\n    ```\n\n### 第二步：添加节点\n\n在 ComfyUI 画布右键搜索，根据需求选择节点：\n\n*   **基础文本\u002F图像生成**: 搜索 `㊙️Gemini_Zho` (支持文本、图像输入，自动读取 config 中的 Key)。\n*   **多轮对话机器人**: 搜索 `㊙️Gemini_Chat_Zho` (支持上下文记忆)。\n*   **新版高级功能 (1.5 Pro)**:\n    *   `🆕Gemini_15P_Advance_Zho`: 支持系统指令 (System Instruction)。\n    *   `📄Gemini_FileUpload_Zho`: 上传单文件（图片、PDF、MP3 等）。\n    *   `📄Gemini_File_Zho`: 读取大文件内容（最高支持 100 万+ token）。\n\n> **注意**: 请勿使用带 `✨` 前缀的显式节点（如 `✨Gemini_API_Zho`）并在节点内直接填写 Key，除非你确定不会分享该工作流，否则会导致 Key 泄露。\n\n### 第三步：构建最简单的工作流示例\n\n以下是一个最简单的**图像描述**工作流搭建步骤：\n\n1.  **加载图像**: 添加 `Load Image` 节点，上传一张图片。\n2.  **调用 Gemini**: 添加 `㊙️Gemini_Zho` 节点。\n    *   连接 `Load Image` 的输出到 `Gemini_Zho` 的 `image` 输入端。\n    *   在 `prompt` 输入框填写：`\"请详细描述这张图片的内容\"`。\n    *   `model_name` 选择：`Gemini-pro-vision` 或 `Gemini 1.5 Pro`。\n3.  **显示结果**: 添加 `DisplayText_Zho` 节点（或原生 `Show Text`），连接到 `Gemini_Zho` 的输出端。\n4.  **运行**: 点击 \"Queue Prompt\"，即可在输出节点看到 AI 生成的图像描述。\n\n### 进阶提示：平替 DALL·3 工作流\n\n利用 **Gemini 1.5 Pro** 强大的理解能力，可以构建“文生图”自动化流程：\n1.  使用 `🆕Gemini_15P_Advance_Zho` 将用户的简单想法扩写为详细的 Stable Diffusion 提示词。\n2.  将输出的提示词连接到 `CLIP Text Encode` 节点。\n3.  接入 KSampler 生成图像。\n*(具体工作流文件可在项目仓库的 `Gemini_workflows` 文件夹中下载)*","一位数字资产管理员需要为包含数千张概念设计图、产品渲染图及对应说明文档的大型项目库建立可检索的元数据标签。\n\n### 没有 ComfyUI-Gemini 时\n- **人工标注效率极低**：面对海量图片和分散的 PDF 文档，只能依靠人工逐一查看并手动编写描述，耗时数周且容易疲劳出错。\n- **多模态信息割裂**：无法同时结合图像画面与配套的文本说明书进行综合分析，导致生成的标签缺乏上下文关联，准确度差。\n- **工作流断点严重**：需要在浏览器、本地文件夹和打标软件之间反复切换，无法在 ComfyUI 中直接完成从“读取素材”到“生成提示词”的闭环。\n- **长内容处理能力弱**：遇到高清大图或长篇技术文档时，传统模型常因 Token 限制而丢失关键细节，导致标签过于泛泛。\n\n### 使用 ComfyUI-Gemini 后\n- **自动化批量打标**：利用 Gemini 1.5 Pro 节点构建工作流，一次性上传图片和文档，自动输出精准的结构化标签，处理速度提升数十倍。\n- **真正的多模态理解**：ComfyUI-Gemini 支持同时输入图像、音频及长达 20G 的文件，能结合画面细节与文档内容生成极具深度的描述。\n- **无缝集成工作流**：直接在 ComfyUI 画布中通过 `Gemini_FileUpload_Zho` 等节点调用能力，实现从素材读取到 LoRA 训练预处理的全流程自动化。\n- **超长上下文支持**：凭借百万级 Token 窗口，即使面对复杂的设计图纸或整本手册，也能完整捕捉所有细微特征，确保标签无遗漏。\n\nComfyUI-Gemini 将谷歌强大的多模态大模型深度融入本地创作流，让海量非结构化素材的瞬间智能化成为可能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FZHO-ZHO-ZHO_ComfyUI-Gemini_94ac90d2.png","ZHO-ZHO-ZHO",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FZHO-ZHO-ZHO_87bcdd78.png","Architect | Artist | Ai explorer","China","ZHO_ZHO_ZHO","https:\u002F\u002Fgithub.com\u002FZHO-ZHO-ZHO",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",92.6,{"name":86,"color":87,"percentage":88},"JavaScript","#f1e05a",7.4,786,64,"2026-04-13T16:06:34","GPL-3.0","未说明","非必需（基于云端 API 调用，本地无 GPU 计算需求）",{"notes":96,"python":93,"dependencies":97},"1. 本工具为 ComfyUI 插件，需先安装 ComfyUI 运行环境。\n2. 核心功能依赖 Google Gemini API，需自行申请 API Key 并配置网络连接以访问 Google 服务（国内用户推荐使用 Colab、Kaggle 或代理）。\n3. 本地运行无需高性能显卡，计算负载在云端。\n4. 使用新版 Gemini 1.5 Pro 模型必须更新依赖库 google-generativeai 至 0.4.1 以上版本。\n5. 支持上传文件（图片、音频、文本、PDF 等），单文件上限 20GB。",[98],"google-generativeai>0.4.1",[15],[101,102,103,104],"comfyui","stable-diffusion","gemini-pro","google-gemini","2026-03-27T02:49:30.150509","2026-04-20T04:08:06.524774",[],[]]