ComfyUI-QwenVL
ComfyUI-QwenVL 是一款专为 ComfyUI 设计的自定义节点,旨在将阿里云强大的 Qwen-VL 系列视觉语言模型(包括最新的 Qwen3-VL 和 Qwen2.5-VL)无缝集成到您的工作流中。它主要解决了在本地可视化界面中高效部署多模态 AI 的难题,让用户能够轻松实现图像理解、视频帧序列分析以及高质量文本生成,无需编写复杂代码。
这款工具非常适合希望拓展 ComfyUI 功能的设计师、AI 爱好者以及需要快速验证多模态应用的研究人员。无论是构建智能图文助手还是进行视频内容分析,它都能提供灵活的支持。其技术亮点在于广泛的兼容性与性能优化:不仅支持标准的 Hugging Face 模型,还引入了 GGUF 后端以大幅降低显存占用;具备智能量化功能(4-bit/8-bit/FP16),可根据硬件自动调整;最新版本更加入了 SageAttention 加速技术和针对特定 GPU 架构的内核优化,显著提升了推理速度与稳定性。此外,它还提供了从简易到高级的多种节点模式及预设提示词系统,兼顾了新手上手的便捷性与专家用户对细节的掌控需求。
使用场景
一位电商运营设计师需要快速处理数百张新品服装图,既要提取详细的材质与款式描述用于上架,又要基于这些特征生成多风格的营销海报。
没有 ComfyUI-QwenVL 时
- 流程割裂效率低:必须先用独立的 OCR 工具或人工手动记录图片中的文字标签和面料信息,再复制到文生图节点,无法在 ComfyUI 内部形成闭环。
- 视频分析能力缺失:面对动态走秀视频素材,只能逐帧截图后盲目猜测动作细节,缺乏对连续帧语义的精准理解,导致生成的提示词空洞。
- 显存管理困难:尝试加载大型多模态模型时,常因缺乏智能量化(如 FP8/4-bit)和显存清理机制,导致本地显卡直接爆显存崩溃。
- 工作流复用性差:每次更换模型或调整参数都需要重新编写复杂的脚本代码,难以通过可视化节点灵活切换 Qwen2.5-VL 或 Qwen3-VL 等不同版本。
使用 ComfyUI-QwenVL 后
- 端到端自动化:直接将服装图或视频帧序列输入节点,利用内置的 Qwen3-VL 模型自动输出包含“真丝质感”、“法式剪裁”等细节的结构化提示词,无缝对接下游生图节点。
- 深度视频理解:借助对视频帧序列的分析能力,精准捕捉模特转身、裙摆飘动等动态特征,自动生成极具画面感的动态营销文案。
- 硬件友好运行:开启 GGUF 后端与智能量化选项,自动匹配 SageAttention 加速内核,在消费级显卡上也能流畅运行大参数模型而不爆显存。
- 灵活可视调控:通过预设提示词模板和高级节点控件,无需写代码即可一键切换模型版本或微调生成策略,大幅降低多模态工作流的搭建门槛。
ComfyUI-QwenVL 将复杂的多模态理解能力转化为可视化的标准组件,让设计师能在单一工作流中实现从“看图理解”到“创意生成”的无缝飞跃。
运行环境要求
- 未说明
- 需要 NVIDIA GPU 以获得最佳性能(支持 SageAttention 优化,架构包括 SM80, SM89, SM90, SM120)
- 显存需求取决于模型大小及量化设置(支持 4-bit, 8-bit, FP16, FP8)
- 具备硬件感知保护机制以防止不兼容的 FP8 模型报错
未说明

快速开始
QwenVL for ComfyUI
ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型(LVLM),包括最新的 Qwen3-VL 和 Qwen2.5-VL,同时还支持 GGUF 后端以及纯文本的 Qwen3 模型。这一先进的节点能够在您的 ComfyUI 工作流中实现无缝的多模态 AI 功能,从而高效地进行文本生成、图像理解与视频分析。

📰 新闻与更新
2026年2月8日:v2.1.1 修复了与 Transformers 4.x 和 5.x 的兼容性问题 [更新]
2026年2月5日:v2.1.0 增加了 SageAttention 支持,并针对每种 GPU 架构进行了优化;改进了 FP8 模型的处理方式,实现了注意力机制模式的自动选择。[更新]
- SageAttention 支持:全新的注意力机制模式,配备针对不同 GPU 架构优化的内核(SM80、SM89、SM90、SM120)
- FP8 处理改进:更好地支持预量化 FP8 模型,并可自动回退到 SDPA
- 智能注意力选择:自动模式会依次尝试 Sage → Flash → SDPA,以获得最佳性能
- 进度条:为模型加载和生成阶段添加了 ComfyUI 进度条
- 更优的内存管理:在切换注意力模式或量化设置时,改进了缓存清理机制
2025年12月22日:v2.0.0 新增了 GGUF 支持节点和提示增强节点。[更新]
[!重要]
在运行 GGUF 节点之前,请先安装 llama-cpp-python 安装说明

- 2025年11月10日:v1.1.0 对运行时进行了全面重构,加入了注意力模式选择器、flash-attn 自动检测功能、更智能的缓存管理以及在两个节点中均可使用的量化和 torch.compile 控制选项。[更新]
- 2025年10月31日:v1.0.4 支持自定义模型 [更新]
- 2025年10月22日:v1.0.3 更新了模型列表 [更新]
- 2025年10月17日:v1.0.0 初始发布
- 支持 Qwen3-VL 和 Qwen2.5-VL 系列模型。
- 可从 Hugging Face 自动下载模型。
- 支持即时量化(4-bit、8-bit、FP16)。
- 提供预设和自定义提示系统,使用灵活便捷。
- 包含标准节点和高级节点,适合各水平用户。
- 针对硬件特性提供保护措施,确保 FP8 模型的兼容性。
- 支持图像和视频(帧序列)输入。
- 提供“保持模型加载”选项,以提升连续运行时的性能。
- 提供 种子参数,便于生成结果的重复性。
✨ 功能特性
- 标准与高级节点:包含一个用于快速使用的简单 QwenVL 节点,以及一个具备精细生成控制能力的 QwenVL(高级)节点。
- 提示增强器:专为 HF 和 GGUF 后端设计的纯文本提示增强器。
- 预设与自定义提示:您可以从便捷的预设提示列表中选择,也可以自行编写提示,以实现完全控制。
- 多模型支持:轻松切换不同的官方 Qwen-VL 模型。
- 自动模型下载:首次使用时会自动下载所需模型。
- 智能量化:通过 4-bit、8-bit 和 FP16 选项,在显存占用与性能之间取得平衡。
- 硬件感知:自动检测 GPU 性能,并防止使用不兼容模型时出现错误(例如 FP8)。
- 可重复生成:使用种子参数可获得一致的输出。
- 内存管理:提供“保持模型加载”选项,将模型常驻显存以加快处理速度。
- 图像与视频支持:既可接受单张图像输入,也可接受视频帧序列作为输入。
- 健壮的错误处理:针对硬件或内存问题提供清晰的错误信息。
- 简洁的控制台输出:运行过程中仅显示最少且富有信息量的日志。
- SageAttention 支持:基于 GPU 优化的注意力机制,配备针对不同架构的专用内核(Ampere、Ada、Hopper、Blackwell)。
- 进度条:在模型加载和生成阶段提供可视化反馈。
- 智能缓存管理:在切换注意力模式或量化设置时自动释放显存。
🚀 安装步骤
将本仓库克隆到您的 ComfyUI/custom_nodes 目录下:
cd ComfyUI/custom_nodes git clone https://github.com/1038lab/ComfyUI-QwenVL.git安装所需的依赖项:
cd ComfyUI/custom_nodes/ComfyUI-QwenVL pip install -r requirements.txt重启 ComfyUI。
可选:SageAttention 支持
为了在支持的 GPU 上获得最佳性能,您需要安装 SageAttention:
pip install sageattention
🧭 节点概览
Transformers(HF)节点
- QwenVL:快速的视觉语言推理(图像/视频 + 预设/自定义提示)。
- QwenVL(高级):可全面控制采样、设备及性能设置。
- QwenVL 提示增强器:纯文本提示增强(同时支持 Qwen3 文本模型和 QwenVL 模型的文本模式)。
GGUF(llama.cpp)节点
- QwenVL(GGUF):基于 GGUF 的视觉语言推理。
- QwenVL(GGUF 高级):扩展的 GGUF 控制选项(上下文长度、GPU 层数等)。
- QwenVL 提示增强器(GGUF):GGUF 版本的纯文本提示增强。
🧩 GGUF 节点(llama.cpp 后端)
本仓库包含由 llama-cpp-python 提供支持的 GGUF 节点(与基于 Transformers 的节点分开)。
- 节点:
QwenVL(GGUF)、QwenVL(GGUF 高级)、QwenVL 提示增强器(GGUF) - 模型文件夹(默认路径):
ComfyUI/models/llm/GGUF/(可通过gguf_models.json进行配置) - 视觉要求:需安装具备视觉功能的
llama-cpp-python轮子,该轮子应提供Qwen3VLChatHandler或Qwen25VLChatHandler
请参阅 docs/LLAMA_CPP_PYTHON_VISION_INSTALL.md
🗂️ 配置文件
- HF 模型:
hf_models.jsonhf_vl_models:视觉语言模型(供 QwenVL 节点使用)。hf_text_models:纯文本模型(供提示增强器使用)。
- GGUF 模型:
gguf_models.json - 系统提示:
AILab_System_Prompts.json(包含 VL 提示及提示增强风格)。
📥 下载模型
首次使用时,模型将自动下载。如果您希望手动下载,请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录下。
HF 视觉模型(Qwen-VL)
| 模型 | 链接 |
|---|---|
| Qwen3-VL-2B-Instruct | 下载 |
| Qwen3-VL-2B-Thinking | 下载 |
| Qwen3-VL-2B-Instruct-FP8 | 下载 |
| Qwen3-VL-2B-Thinking-FP8 | 下载 |
| Qwen3-VL-4B-Instruct | 下载 |
| Qwen3-VL-4B-Thinking | 下载 |
| Qwen3-VL-4B-Instruct-FP8 | 下载 |
| Qwen3-VL-4B-Thinking-FP8 | 下载 |
| Qwen3-VL-8B-Instruct | 下载 |
| Qwen3-VL-8B-Thinking | 下载 |
| Qwen3-VL-8B-Instruct-FP8 | 下载 |
| Qwen3-VL-8B-Thinking-FP8 | 下载 |
| Qwen3-VL-32B-Instruct | 下载 |
| Qwen3-VL-32B-Thinking | 下载 |
| Qwen3-VL-32B-Instruct-FP8 | 下载 |
| Qwen3-VL-32B-Thinking-FP8 | 下载 |
| Qwen2.5-VL-3B-Instruct | 下载 |
| Qwen2.5-VL-7B-Instruct | 下载 |
HF 文本模型(Qwen3)
| 模型 | 链接 |
|---|---|
| Qwen3-0.6B | 下载 |
| Qwen3-4B-Instruct-2507 | 下载 |
| qwen3-4b-Z-Image-Engineer | 下载 |
GGUF 模型(手动下载)
| 组别 | 模型 | 仓库 | 替代仓库 | 模型文件 | MMProj |
|---|---|---|---|---|---|
| Qwen 文本(GGUF) | Qwen3-4B-GGUF | Qwen/Qwen3-4B-GGUF | Qwen3-4B-Q4_K_M.gguf, Qwen3-4B-Q5_0.gguf, Qwen3-4B-Q5_K_M.gguf, Qwen3-4B-Q6_K.gguf, Qwen3-4B-Q8_0.gguf | ||
| Qwen-VL(GGUF) | Qwen3-VL-4B-Instruct-GGUF | Qwen/Qwen3-VL-4B-Instruct-GGUF | Qwen3VL-4B-Instruct-F16.gguf, Qwen3VL-4B-Instruct-Q4_K_M.gguf, Qwen3VL-4B-Instruct-Q8_0.gguf | mmproj-Qwen3VL-4B-Instruct-F16.gguf | |
| Qwen-VL(GGUF) | Qwen3-VL-8B-Instruct-GGUF | Qwen/Qwen3-VL-8B-Instruct-GGUF | Qwen3VL-8B-Instruct-F16.gguf, Qwen3VL-8B-Instruct-Q4_K_M.gguf, Qwen3VL-8B-Instruct-Q8_0.gguf | mmproj-Qwen3VL-8B-Instruct-F16.gguf | |
| Qwen-VL(GGUF) | Qwen3-VL-4B-Thinking-GGUF | Qwen/Qwen3-VL-4B-Thinking-GGUF | Qwen3VL-4B-Thinking-F16.gguf, Qwen3VL-4B-Thinking-Q4_K_M.gguf, Qwen3VL-4B-Thinking-Q8_0.gguf | mmproj-Qwen3VL-4B-Thinking-F16.gguf | |
| Qwen-VL(GGUF) | Qwen3-VL-8B-Thinking-GGUF | Qwen/Qwen3-VL-8B-Thinking-GGUF | Qwen3VL-8B-Thinking-F16.gguf, Qwen3VL-8B-Thinking-Q4_K_M.gguf, Qwen3VL-8B-Thinking-Q8_0.gguf | mmproj-Qwen3VL-8B-Thinking-F16.gguf |
📖 使用方法
基本用法
- 从 🧪AILab/QwenVL 类别中添加 “QwenVL” 节点。
- 选择您想要使用的 model_name。
- 将图像或视频(图像序列)源连接到节点。
- 使用预设或自定义字段编写您的提示。
- 运行工作流。
高级用法
为了获得更多的控制,可以使用 “QwenVL (Advanced)” 节点。这使您可以访问详细的生成参数,如温度、top_p、束搜索和设备选择。
⚙️ 参数
| 参数 | 描述 | 默认值 | 范围 | 节点 |
|---|---|---|---|---|
| model_name | 要使用的 Qwen-VL 模型。 | Qwen3-VL-4B-Instruct | - | 标准版与高级版 |
| quantization | 即时量化。对于预先量化的模型(例如 FP8)则忽略此选项。 | 8 位(平衡) | 4 位、8 位、无 | 标准版与高级版 |
| attention_mode | 注意力机制:自动(Sage→Flash→SDPA)、sage、flash_attention_2、sdpa | 自动 | 自动、sage、flash_attention_2、sdpa | 标准版与高级版 |
| preset_prompt | 常见任务的预定义提示选择。 | “描述一下这个……” | 任意文本 | 标准版与高级版 |
| custom_prompt | 如果提供,则会覆盖预设提示。 | 任意文本 | 标准版与高级版 | |
| max_tokens | 最大生成新标记数。 | 1024 | 64-2048 | 标准版与高级版 |
| keep_model_loaded | 将模型保留在 VRAM 中,以便后续运行更快。 | 真 | 真/假 | 标准版与高级版 |
| seed | 用于可重复结果的种子。 | 1 | 1 - 2^64-1 | 标准版与高级版 |
| temperature | 控制随机性。数值越高,越具创造性。(当 num_beams 为 1 时使用)。 | 0.6 | 0.1-1.0 | 仅高级版 |
| top_p | 核采样阈值。(当 num_beams 为 1 时使用)。 | 0.9 | 0.0-1.0 | 仅高级版 |
| num_beams | 束搜索的束数。大于 1 会禁用温度/top_p 采样。 | 1 | 1-10 | 仅高级版 |
| repetition_penalty | 不鼓励重复标记。 | 1.2 | 0.0-2.0 | 仅高级版 |
| frame_count | 从视频输入中采样的帧数。 | 16 | 1-64 | 仅高级版 |
| device | 覆盖自动设备选择。 | 自动 | 自动、cuda、cpu | 仅高级版 |
| use_torch_compile | 启用 torch.compile 优化以加快推理速度。 | 假 | 真/假 | 仅高级版 |
💡 量化选项
| 模式 | 精度 | 内存占用 | 速度 | 质量 | 推荐场景 |
|---|---|---|---|---|---|
| 无(FP16) | 16 位浮点 | 高 | 最快 | 最佳 | 高 VRAM 显卡(16GB+) |
| 8 位(平衡) | 8 位整数 | 中 | 快 | 非常好 | 平衡性能(8GB+) |
| 4 位(节省 VRAM) | 4 位整数 | 低 | 较慢* | 良好 | 低 VRAM 显卡(<8GB) |
* 关于 4 位速度的说明:4 位量化显著减少了 VRAM 的使用,但由于实时反量化带来的计算开销,在某些系统上可能会导致性能下降。
🎯 注意力模式指南
| 模式 | 描述 | 适用场景 |
|---|---|---|
| auto | 自动选择最佳可用模式:Sage → Flash → SDPA | 大多数用户(推荐) |
| sage | 基于 GPU 优化内核的 SageAttention | 在现代 GPU(RTX 40 系列、Hopper、Blackwell)上速度更快 |
| flash_attention_2 | Flash Attention 2 | 当 Sage 不可用时提供速度优势 |
| sdpa | PyTorch SDPA(默认) | 兼容性好,适用于 FP8 和 BitsAndBytes 模型 |
注意:无论选择哪种模式,FP8 模型和 BitsAndBytes 量化都会自动使用 SDPA。
🤔 设置建议
| 设置 | 建议 |
|---|---|
| 模型选择 | 对于大多数用户来说,Qwen3-VL-4B-Instruct 是一个很好的起点。如果你有 40 系列 GPU,可以尝试 -FP8 版本以获得更好的性能。 |
| 内存模式 | 如果计划多次运行该节点,建议保持 keep_model_loaded 开启(True),以获得最佳性能。仅在其他节点内存不足时才关闭它。 |
| 量化 | 首先使用默认的 8 位量化。如果显存充足(>16GB),可切换到无量化(FP16),以获得最快的速度和最佳质量。若显存紧张,则使用 4 位量化。 |
| 注意力模式 | 使用“auto”模式以获得最佳性能。在支持的 GPU 上,SageAttention 能提供最快的推理速度。 |
| 性能 | 第一次加载特定量化级别的模型时,可能会比较慢。但后续运行(保持 keep_model_loaded 开启)会快得多。 |
🧠 关于模型
该节点使用由阿里云通义实验室团队开发的 Qwen-VL 系列模型。这些是功能强大的开源大型视觉语言模型(LVLM),旨在理解和处理视觉与文本信息,非常适合用于详细描述图像和视频等任务。
🗺️ 路线图
✅ 已完成(v2.1.0)
- ✅ 支持基于每 GPU 架构优化的 SageAttention
- ✅ 改进了 FP8 模型的处理,自动回退到 SDPA
- ✅ 智能注意力选择(auto:Sage → Flash → SDPA)
- ✅ 模型加载和生成进度条
- ✅ 更好的内存管理和缓存清理
✅ 已完成(v2.0.0)
- ✅ 通过 llama.cpp 后端支持 GGUF 模型
- ✅ 文本优化增强节点
✅ 已完成(v1.0.0)
- ✅ 支持 Qwen3-VL 和 Qwen2.5-VL 模型。
- ✅ 自动下载和管理模型。
- ✅ 实时进行 4 位、8 位和 FP16 量化。
- ✅ 对 FP8 模型进行硬件兼容性检查。
- ✅ 支持图像和视频(帧序列)输入。
🙏 致谢
- Qwen 团队:阿里云 —— 感谢他们开发并开源了强大的 Qwen-VL 模型。
- ComfyUI:comfyanonymous —— 感谢其强大且可扩展的 ComfyUI 平台。
- llama-cpp-python:JamePeng/llama-cpp-python —— 提供了 GGUF 节点使用的具有视觉支持的 GGUF 后端。
- SageAttention:SageAttention —— 提供了高效的注意力实现及 GPU 优化的内核。
- ComfyUI 集成:1038lab —— 该自定义节点的开发者。
📜 许可证
本仓库的代码采用 GPL-3.0 许可证 发布。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
