ComfyUI-QwenVL

GitHub
717 101 中等 1 次阅读 昨天GPL-3.0图像语言模型
AI 解读 由 AI 自动生成,仅供参考

ComfyUI-QwenVL 是一款专为 ComfyUI 设计的自定义节点,旨在将阿里云强大的 Qwen-VL 系列视觉语言模型(包括最新的 Qwen3-VL 和 Qwen2.5-VL)无缝集成到您的工作流中。它主要解决了在本地可视化界面中高效部署多模态 AI 的难题,让用户能够轻松实现图像理解、视频帧序列分析以及高质量文本生成,无需编写复杂代码。

这款工具非常适合希望拓展 ComfyUI 功能的设计师、AI 爱好者以及需要快速验证多模态应用的研究人员。无论是构建智能图文助手还是进行视频内容分析,它都能提供灵活的支持。其技术亮点在于广泛的兼容性与性能优化:不仅支持标准的 Hugging Face 模型,还引入了 GGUF 后端以大幅降低显存占用;具备智能量化功能(4-bit/8-bit/FP16),可根据硬件自动调整;最新版本更加入了 SageAttention 加速技术和针对特定 GPU 架构的内核优化,显著提升了推理速度与稳定性。此外,它还提供了从简易到高级的多种节点模式及预设提示词系统,兼顾了新手上手的便捷性与专家用户对细节的掌控需求。

使用场景

一位电商运营设计师需要快速处理数百张新品服装图,既要提取详细的材质与款式描述用于上架,又要基于这些特征生成多风格的营销海报。

没有 ComfyUI-QwenVL 时

  • 流程割裂效率低:必须先用独立的 OCR 工具或人工手动记录图片中的文字标签和面料信息,再复制到文生图节点,无法在 ComfyUI 内部形成闭环。
  • 视频分析能力缺失:面对动态走秀视频素材,只能逐帧截图后盲目猜测动作细节,缺乏对连续帧语义的精准理解,导致生成的提示词空洞。
  • 显存管理困难:尝试加载大型多模态模型时,常因缺乏智能量化(如 FP8/4-bit)和显存清理机制,导致本地显卡直接爆显存崩溃。
  • 工作流复用性差:每次更换模型或调整参数都需要重新编写复杂的脚本代码,难以通过可视化节点灵活切换 Qwen2.5-VL 或 Qwen3-VL 等不同版本。

使用 ComfyUI-QwenVL 后

  • 端到端自动化:直接将服装图或视频帧序列输入节点,利用内置的 Qwen3-VL 模型自动输出包含“真丝质感”、“法式剪裁”等细节的结构化提示词,无缝对接下游生图节点。
  • 深度视频理解:借助对视频帧序列的分析能力,精准捕捉模特转身、裙摆飘动等动态特征,自动生成极具画面感的动态营销文案。
  • 硬件友好运行:开启 GGUF 后端与智能量化选项,自动匹配 SageAttention 加速内核,在消费级显卡上也能流畅运行大参数模型而不爆显存。
  • 灵活可视调控:通过预设提示词模板和高级节点控件,无需写代码即可一键切换模型版本或微调生成策略,大幅降低多模态工作流的搭建门槛。

ComfyUI-QwenVL 将复杂的多模态理解能力转化为可视化的标准组件,让设计师能在单一工作流中实现从“看图理解”到“创意生成”的无缝飞跃。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要 NVIDIA GPU 以获得最佳性能(支持 SageAttention 优化,架构包括 SM80, SM89, SM90, SM120)
  • 显存需求取决于模型大小及量化设置(支持 4-bit, 8-bit, FP16, FP8)
  • 具备硬件感知保护机制以防止不兼容的 FP8 模型报错
内存

未说明

依赖
notes该工具集成阿里云 Qwen-VL 系列(含 Qwen3-VL, Qwen2.5-VL)及纯文本 Qwen3 模型。支持 Transformers (HF) 和 GGUF (llama.cpp) 两种后端。若使用 GGUF 节点,必须预先安装支持视觉的 llama-cpp-python 版本。支持自动下载模型,也可手动放置于指定目录。提供智能注意力模式选择(Sage -> Flash -> SDPA)和多种量化选项以平衡显存与性能。支持图像和视频帧序列输入。
python未说明
torch
transformers (4.x/5.x)
sageattention (可选)
llama-cpp-python (GGUF 节点必需,需包含视觉处理能力)
ComfyUI-QwenVL hero image

快速开始

QwenVL for ComfyUI

ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型(LVLM),包括最新的 Qwen3-VL 和 Qwen2.5-VL,同时还支持 GGUF 后端以及纯文本的 Qwen3 模型。这一先进的节点能够在您的 ComfyUI 工作流中实现无缝的多模态 AI 功能,从而高效地进行文本生成、图像理解与视频分析。

QwenVL_V1.1.0

📰 新闻与更新

  • 2026年2月8日v2.1.1 修复了与 Transformers 4.x 和 5.x 的兼容性问题 [更新]

  • 2026年2月5日v2.1.0 增加了 SageAttention 支持,并针对每种 GPU 架构进行了优化;改进了 FP8 模型的处理方式,实现了注意力机制模式的自动选择。[更新]

    • SageAttention 支持:全新的注意力机制模式,配备针对不同 GPU 架构优化的内核(SM80、SM89、SM90、SM120)
    • FP8 处理改进:更好地支持预量化 FP8 模型,并可自动回退到 SDPA
    • 智能注意力选择:自动模式会依次尝试 Sage → Flash → SDPA,以获得最佳性能
    • 进度条:为模型加载和生成阶段添加了 ComfyUI 进度条
    • 更优的内存管理:在切换注意力模式或量化设置时,改进了缓存清理机制
  • 2025年12月22日v2.0.0 新增了 GGUF 支持节点和提示增强节点。[更新]

[!重要]
在运行 GGUF 节点之前,请先安装 llama-cpp-python 安装说明

600346260_122188475918461193_3763807942053883496_n

  • 2025年11月10日v1.1.0 对运行时进行了全面重构,加入了注意力模式选择器、flash-attn 自动检测功能、更智能的缓存管理以及在两个节点中均可使用的量化和 torch.compile 控制选项。[更新]
  • 2025年10月31日v1.0.4 支持自定义模型 [更新]
  • 2025年10月22日v1.0.3 更新了模型列表 [更新]
  • 2025年10月17日v1.0.0 初始发布
    • 支持 Qwen3-VL 和 Qwen2.5-VL 系列模型。
    • 可从 Hugging Face 自动下载模型。
    • 支持即时量化(4-bit、8-bit、FP16)。
    • 提供预设和自定义提示系统,使用灵活便捷。
    • 包含标准节点和高级节点,适合各水平用户。
    • 针对硬件特性提供保护措施,确保 FP8 模型的兼容性。
    • 支持图像和视频(帧序列)输入。
    • 提供“保持模型加载”选项,以提升连续运行时的性能。
    • 提供 种子参数,便于生成结果的重复性。

QwenVL_V1.0.0r

✨ 功能特性

  • 标准与高级节点:包含一个用于快速使用的简单 QwenVL 节点,以及一个具备精细生成控制能力的 QwenVL(高级)节点。
  • 提示增强器:专为 HF 和 GGUF 后端设计的纯文本提示增强器。
  • 预设与自定义提示:您可以从便捷的预设提示列表中选择,也可以自行编写提示,以实现完全控制。
  • 多模型支持:轻松切换不同的官方 Qwen-VL 模型。
  • 自动模型下载:首次使用时会自动下载所需模型。
  • 智能量化:通过 4-bit、8-bit 和 FP16 选项,在显存占用与性能之间取得平衡。
  • 硬件感知:自动检测 GPU 性能,并防止使用不兼容模型时出现错误(例如 FP8)。
  • 可重复生成:使用种子参数可获得一致的输出。
  • 内存管理:提供“保持模型加载”选项,将模型常驻显存以加快处理速度。
  • 图像与视频支持:既可接受单张图像输入,也可接受视频帧序列作为输入。
  • 健壮的错误处理:针对硬件或内存问题提供清晰的错误信息。
  • 简洁的控制台输出:运行过程中仅显示最少且富有信息量的日志。
  • SageAttention 支持:基于 GPU 优化的注意力机制,配备针对不同架构的专用内核(Ampere、Ada、Hopper、Blackwell)。
  • 进度条:在模型加载和生成阶段提供可视化反馈。
  • 智能缓存管理:在切换注意力模式或量化设置时自动释放显存。

🚀 安装步骤

  1. 将本仓库克隆到您的 ComfyUI/custom_nodes 目录下:

    cd ComfyUI/custom_nodes  
    git clone https://github.com/1038lab/ComfyUI-QwenVL.git
    
  2. 安装所需的依赖项:

    cd ComfyUI/custom_nodes/ComfyUI-QwenVL  
    pip install -r requirements.txt
    
  3. 重启 ComfyUI。

可选:SageAttention 支持

为了在支持的 GPU 上获得最佳性能,您需要安装 SageAttention:

pip install sageattention

🧭 节点概览

Transformers(HF)节点

  • QwenVL:快速的视觉语言推理(图像/视频 + 预设/自定义提示)。
  • QwenVL(高级):可全面控制采样、设备及性能设置。
  • QwenVL 提示增强器:纯文本提示增强(同时支持 Qwen3 文本模型和 QwenVL 模型的文本模式)。

GGUF(llama.cpp)节点

  • QwenVL(GGUF):基于 GGUF 的视觉语言推理。
  • QwenVL(GGUF 高级):扩展的 GGUF 控制选项(上下文长度、GPU 层数等)。
  • QwenVL 提示增强器(GGUF):GGUF 版本的纯文本提示增强。

🧩 GGUF 节点(llama.cpp 后端)

本仓库包含由 llama-cpp-python 提供支持的 GGUF 节点(与基于 Transformers 的节点分开)。

  • 节点QwenVL(GGUF)QwenVL(GGUF 高级)QwenVL 提示增强器(GGUF)
  • 模型文件夹(默认路径):ComfyUI/models/llm/GGUF/(可通过 gguf_models.json 进行配置)
  • 视觉要求:需安装具备视觉功能的 llama-cpp-python 轮子,该轮子应提供 Qwen3VLChatHandlerQwen25VLChatHandler
    请参阅 docs/LLAMA_CPP_PYTHON_VISION_INSTALL.md

🗂️ 配置文件

  • HF 模型hf_models.json
    • hf_vl_models:视觉语言模型(供 QwenVL 节点使用)。
    • hf_text_models:纯文本模型(供提示增强器使用)。
  • GGUF 模型gguf_models.json
  • 系统提示AILab_System_Prompts.json(包含 VL 提示及提示增强风格)。

📥 下载模型

首次使用时,模型将自动下载。如果您希望手动下载,请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录下。

HF 视觉模型(Qwen-VL)

模型 链接
Qwen3-VL-2B-Instruct 下载
Qwen3-VL-2B-Thinking 下载
Qwen3-VL-2B-Instruct-FP8 下载
Qwen3-VL-2B-Thinking-FP8 下载
Qwen3-VL-4B-Instruct 下载
Qwen3-VL-4B-Thinking 下载
Qwen3-VL-4B-Instruct-FP8 下载
Qwen3-VL-4B-Thinking-FP8 下载
Qwen3-VL-8B-Instruct 下载
Qwen3-VL-8B-Thinking 下载
Qwen3-VL-8B-Instruct-FP8 下载
Qwen3-VL-8B-Thinking-FP8 下载
Qwen3-VL-32B-Instruct 下载
Qwen3-VL-32B-Thinking 下载
Qwen3-VL-32B-Instruct-FP8 下载
Qwen3-VL-32B-Thinking-FP8 下载
Qwen2.5-VL-3B-Instruct 下载
Qwen2.5-VL-7B-Instruct 下载

HF 文本模型(Qwen3)

模型 链接
Qwen3-0.6B 下载
Qwen3-4B-Instruct-2507 下载
qwen3-4b-Z-Image-Engineer 下载

GGUF 模型(手动下载)

组别 模型 仓库 替代仓库 模型文件 MMProj
Qwen 文本(GGUF) Qwen3-4B-GGUF Qwen/Qwen3-4B-GGUF Qwen3-4B-Q4_K_M.gguf, Qwen3-4B-Q5_0.gguf, Qwen3-4B-Q5_K_M.gguf, Qwen3-4B-Q6_K.gguf, Qwen3-4B-Q8_0.gguf
Qwen-VL(GGUF) Qwen3-VL-4B-Instruct-GGUF Qwen/Qwen3-VL-4B-Instruct-GGUF Qwen3VL-4B-Instruct-F16.gguf, Qwen3VL-4B-Instruct-Q4_K_M.gguf, Qwen3VL-4B-Instruct-Q8_0.gguf mmproj-Qwen3VL-4B-Instruct-F16.gguf
Qwen-VL(GGUF) Qwen3-VL-8B-Instruct-GGUF Qwen/Qwen3-VL-8B-Instruct-GGUF Qwen3VL-8B-Instruct-F16.gguf, Qwen3VL-8B-Instruct-Q4_K_M.gguf, Qwen3VL-8B-Instruct-Q8_0.gguf mmproj-Qwen3VL-8B-Instruct-F16.gguf
Qwen-VL(GGUF) Qwen3-VL-4B-Thinking-GGUF Qwen/Qwen3-VL-4B-Thinking-GGUF Qwen3VL-4B-Thinking-F16.gguf, Qwen3VL-4B-Thinking-Q4_K_M.gguf, Qwen3VL-4B-Thinking-Q8_0.gguf mmproj-Qwen3VL-4B-Thinking-F16.gguf
Qwen-VL(GGUF) Qwen3-VL-8B-Thinking-GGUF Qwen/Qwen3-VL-8B-Thinking-GGUF Qwen3VL-8B-Thinking-F16.gguf, Qwen3VL-8B-Thinking-Q4_K_M.gguf, Qwen3VL-8B-Thinking-Q8_0.gguf mmproj-Qwen3VL-8B-Thinking-F16.gguf

📖 使用方法

基本用法

  1. 从 🧪AILab/QwenVL 类别中添加 “QwenVL” 节点。
  2. 选择您想要使用的 model_name
  3. 将图像或视频(图像序列)源连接到节点。
  4. 使用预设或自定义字段编写您的提示。
  5. 运行工作流。

高级用法

为了获得更多的控制,可以使用 “QwenVL (Advanced)” 节点。这使您可以访问详细的生成参数,如温度、top_p、束搜索和设备选择。

⚙️ 参数

参数 描述 默认值 范围 节点
model_name 要使用的 Qwen-VL 模型。 Qwen3-VL-4B-Instruct - 标准版与高级版
quantization 即时量化。对于预先量化的模型(例如 FP8)则忽略此选项。 8 位(平衡) 4 位、8 位、无 标准版与高级版
attention_mode 注意力机制:自动(Sage→Flash→SDPA)、sage、flash_attention_2、sdpa 自动 自动、sage、flash_attention_2、sdpa 标准版与高级版
preset_prompt 常见任务的预定义提示选择。 “描述一下这个……” 任意文本 标准版与高级版
custom_prompt 如果提供,则会覆盖预设提示。 任意文本 标准版与高级版
max_tokens 最大生成新标记数。 1024 64-2048 标准版与高级版
keep_model_loaded 将模型保留在 VRAM 中,以便后续运行更快。 真/假 标准版与高级版
seed 用于可重复结果的种子。 1 1 - 2^64-1 标准版与高级版
temperature 控制随机性。数值越高,越具创造性。(当 num_beams 为 1 时使用)。 0.6 0.1-1.0 仅高级版
top_p 核采样阈值。(当 num_beams 为 1 时使用)。 0.9 0.0-1.0 仅高级版
num_beams 束搜索的束数。大于 1 会禁用温度/top_p 采样。 1 1-10 仅高级版
repetition_penalty 不鼓励重复标记。 1.2 0.0-2.0 仅高级版
frame_count 从视频输入中采样的帧数。 16 1-64 仅高级版
device 覆盖自动设备选择。 自动 自动、cuda、cpu 仅高级版
use_torch_compile 启用 torch.compile 优化以加快推理速度。 真/假 仅高级版

💡 量化选项

模式 精度 内存占用 速度 质量 推荐场景
无(FP16) 16 位浮点 最快 最佳 高 VRAM 显卡(16GB+)
8 位(平衡) 8 位整数 非常好 平衡性能(8GB+)
4 位(节省 VRAM) 4 位整数 较慢* 良好 低 VRAM 显卡(<8GB)

* 关于 4 位速度的说明:4 位量化显著减少了 VRAM 的使用,但由于实时反量化带来的计算开销,在某些系统上可能会导致性能下降。

🎯 注意力模式指南

模式 描述 适用场景
auto 自动选择最佳可用模式:Sage → Flash → SDPA 大多数用户(推荐)
sage 基于 GPU 优化内核的 SageAttention 在现代 GPU(RTX 40 系列、Hopper、Blackwell)上速度更快
flash_attention_2 Flash Attention 2 当 Sage 不可用时提供速度优势
sdpa PyTorch SDPA(默认) 兼容性好,适用于 FP8 和 BitsAndBytes 模型

注意:无论选择哪种模式,FP8 模型和 BitsAndBytes 量化都会自动使用 SDPA。

🤔 设置建议

设置 建议
模型选择 对于大多数用户来说,Qwen3-VL-4B-Instruct 是一个很好的起点。如果你有 40 系列 GPU,可以尝试 -FP8 版本以获得更好的性能。
内存模式 如果计划多次运行该节点,建议保持 keep_model_loaded 开启(True),以获得最佳性能。仅在其他节点内存不足时才关闭它。
量化 首先使用默认的 8 位量化。如果显存充足(>16GB),可切换到无量化(FP16),以获得最快的速度和最佳质量。若显存紧张,则使用 4 位量化。
注意力模式 使用“auto”模式以获得最佳性能。在支持的 GPU 上,SageAttention 能提供最快的推理速度。
性能 第一次加载特定量化级别的模型时,可能会比较慢。但后续运行(保持 keep_model_loaded 开启)会快得多。

🧠 关于模型

该节点使用由阿里云通义实验室团队开发的 Qwen-VL 系列模型。这些是功能强大的开源大型视觉语言模型(LVLM),旨在理解和处理视觉与文本信息,非常适合用于详细描述图像和视频等任务。

🗺️ 路线图

✅ 已完成(v2.1.0)

  • ✅ 支持基于每 GPU 架构优化的 SageAttention
  • ✅ 改进了 FP8 模型的处理,自动回退到 SDPA
  • ✅ 智能注意力选择(auto:Sage → Flash → SDPA)
  • ✅ 模型加载和生成进度条
  • ✅ 更好的内存管理和缓存清理

✅ 已完成(v2.0.0)

  • ✅ 通过 llama.cpp 后端支持 GGUF 模型
  • ✅ 文本优化增强节点

✅ 已完成(v1.0.0)

  • ✅ 支持 Qwen3-VL 和 Qwen2.5-VL 模型。
  • ✅ 自动下载和管理模型。
  • ✅ 实时进行 4 位、8 位和 FP16 量化。
  • ✅ 对 FP8 模型进行硬件兼容性检查。
  • ✅ 支持图像和视频(帧序列)输入。

🙏 致谢

  • Qwen 团队阿里云 —— 感谢他们开发并开源了强大的 Qwen-VL 模型。
  • ComfyUIcomfyanonymous —— 感谢其强大且可扩展的 ComfyUI 平台。
  • llama-cpp-pythonJamePeng/llama-cpp-python —— 提供了 GGUF 节点使用的具有视觉支持的 GGUF 后端。
  • SageAttentionSageAttention —— 提供了高效的注意力实现及 GPU 优化的内核。
  • ComfyUI 集成1038lab —— 该自定义节点的开发者。

📜 许可证

本仓库的代码采用 GPL-3.0 许可证 发布。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|今天
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|4天前
语言模型图像Agent