llama.vscode
llama.vscode 是一款专为 VS Code 设计的开源扩展,旨在将强大的大语言模型(LLM)能力引入本地开发环境。它不仅能提供实时的代码与文本自动补全建议,还支持与 AI 进行对话聊天以及执行复杂的“代理式”编程任务,帮助开发者更高效地编写和调试代码。
这款工具核心解决了开发者对数据隐私的关注以及对云端 API 依赖的问题。通过直接在本地运行模型,用户无需联网即可享受智能辅助,既保障了代码安全,又避免了网络延迟。无论是需要快速补全代码片段的初级程序员,还是希望定制私有化 AI 工作流的高级工程师,都能从中受益。
llama.vscode 的技术亮点在于其卓越的硬件适应性。依托 llama.cpp 的强大后端,它采用了智能上下文复用技术,即使在显存有限的低端设备上,也能流畅处理超大上下文窗口。此外,它支持直接从 Huggingface 搜索下载模型,允许用户灵活配置包含补全、聊天、嵌入及工具调用的完整模型环境,并兼容 MCP 工具生态,为本地 AI 开发提供了极高的自由度和扩展性。
使用场景
一位后端开发者正在低配置笔记本电脑上重构遗留的 Python 数据清洗脚本,需要在不联网的环境下快速理解复杂逻辑并补充缺失的异常处理代码。
没有 llama.vscode 时
- 由于显存不足且无法连接云端 API,开发者只能手动查阅文档或复制粘贴代码片段,效率极低。
- 每次编写新的错误捕获逻辑时,必须中断思路去搜索标准写法,导致编码流频繁被打断。
- 面对大段遗留代码,缺乏本地化的上下文感知能力,难以快速生成符合当前项目风格的补全建议。
- 担心代码隐私泄露,不敢将敏感的业务逻辑复制到公共的在线 AI 编程助手之中。
使用 llama.vscode 后
- 利用智能上下文复用技术,即使在低显存硬件上也能流畅运行本地大模型,实现毫秒级代码自动补全。
- 通过
Tab键一键接受整行或整段建议,Ctrl+L手动触发灵感,让开发者在无需切换窗口的情况下保持心流状态。 - 基于当前打开文件和剪贴板内容构建“环形上下文”,生成的异常处理代码完美契合现有项目的命名规范与逻辑结构。
- 所有推理过程均在本地完成,彻底消除了将核心业务代码上传至云端的隐私顾虑,确保数据安全可控。
llama.vscode 让受限硬件也能拥有私有化、高响应且安全的智能编程体验,真正实现了离线环境下的敏捷开发。
运行环境要求
- Linux
- macOS
- Windows
- 非必需(支持纯 CPU 运行,但质量较低)
- 推荐根据显存大小选择模型:64GB+ VRAM (Qwen 30B), 16GB+ VRAM (Qwen 7B), 8GB-16GB VRAM (Qwen 3B), <8GB VRAM (Qwen 1.5B)
- 未指定具体显卡型号或 CUDA 版本,依赖 llama.cpp 后端自动适配
未说明(取决于所选模型大小,纯 CPU 模式下建议系统内存充足以加载模型)

快速开始
llama.vscode
本地LLM辅助文本补全、与AI聊天以及面向VS Code的代理式编程扩展


功能特性
- 输入时自动提示
- 使用
Tab键接受建议 - 使用
Shift + Tab键接受建议的第一行 - 使用
Ctrl/Cmd + 右箭头键接受下一个单词 - 按
Ctrl + L手动切换提示 - 控制最大文本生成时间
- 配置光标周围上下文的范围
- 将打开和编辑过的文件以及剪贴板内容以块的形式纳入上下文
- 通过智能上下文复用,即使在低端硬件上也能支持超大上下文
- 显示性能统计信息
- 用于代理式编程的Llama Agent
- 添加/删除/导出/导入模型——包括补全、聊天、嵌入和工具模型
- 模型选择——适用于补全、聊天、嵌入和工具
- 引入了环境(模型组)的概念。选择或取消选择某个环境会同时选择或取消选择其中的所有模型。
- 添加/删除/导出/导入环境
- 预定义模型(包括作为本地模型添加的OpenAI gpt-oss 20B)
- 针对不同使用场景的预定义环境——仅补全、聊天+补全、聊天+代理、本地完整包(含gpt-oss 20B)等
- 为代理选择MCP工具(来自VS Code中已安装的MCP服务器)
- 直接从llama-vscode中搜索并下载Huggingface上的模型
安装
VS Code扩展设置
从VS Code扩展市场安装llama-vscode扩展:

注意:也可在Open VSX上找到。
llama.cpp 设置
点击状态栏中的llama-vscode图标或按 Ctrl+Shift+M 打开llama-vscode菜单,然后选择“安装/升级llama.cpp”。这将自动为Mac和Windows安装llama.cpp。对于Linux系统,请获取最新二进制文件,并将bin目录添加到PATH中。
一旦安装好llama.cpp,您就可以从llama-vscode菜单的“选择/启动环境…”中根据需求选择合适的环境。
以下是手动安装llama.cpp的一些详细步骤(如果您更倾向于这种方式)。
Mac OS
brew install llama.cpp
Windows
winget install llama.cpp
其他操作系统
您可以使用最新二进制文件,也可以从源代码构建llama.cpp。有关如何运行llama.cpp服务器的更多信息,请参阅Wiki。
llama.cpp 设置
以下是根据您的显存容量推荐的设置:
显存大于64GB:
llama-server --fim-qwen-30b-default显存大于16GB:
llama-server --fim-qwen-7b-default显存小于16GB:
llama-server --fim-qwen-3b-default显存小于8GB:
llama-server --fim-qwen-1.5b-default
仅CPU配置
这些是仅使用CPU硬件时的llama-server设置。请注意,效果会显著降低:
llama-server \
-hf ggml-org/Qwen2.5-Coder-1.5B-Q8_0-GGUF \
--port 8012 -ub 512 -b 512 --ctx-size 0 --cache-reuse 256
llama-server \
-hf ggml-org/Qwen2.5-Coder-0.5B-Q8_0-GGUF \
--port 8012 -ub 1024 -b 1024 --ctx-size 0 --cache-reuse 256
您可以使用任何其他FIM兼容且您的系统能够运行的模型。默认情况下,使用 -hf 标志下载的模型会存储在以下路径:
- Mac OS:
~/Library/Caches/llama.cpp/ - Linux:
~/.cache/llama.cpp - Windows:
LOCALAPPDATA
推荐的LLM模型
该插件需要FIM兼容的模型:HF集合
Llama Agent
该扩展包含Llama Agent。
功能特性
- 在资源管理器视图中显示Llama Agent界面
- 支持本地模型——目前最佳选择是gpt-oss 20B
- 也可与外部模型配合使用(例如来自OpenRouter)
- 支持MCP——可以使用安装并运行在VS Code中的MCP服务器提供的工具
- 提供9种内置工具可供使用
- custom_tool——返回文件或网页的内容
- custom_eval_tool——用JavaScript编写您自己的工具(接受输入并返回字符串的函数)
- 可将选区附加到上下文中
- 可配置Llama Agent的最大循环次数
使用方法
- 使用
Ctrl+Shift+A或从llama-vscode菜单中的“显示Llama Agent”选项打开Llama Agent。 - 如果您尚未选择环境,请选择一个包含代理的环境。
- 输入查询,并在需要时使用 @ 按钮附加文件。
更多详情(https://github.com/ggml-org/llama.vscode/wiki)
示例
在M2 Studio上本地运行的推测性FIMs:
https://github.com/user-attachments/assets/cab99b93-4712-40b4-9c8d-cf86e98d4482
实现细节
该扩展旨在保持极简轻量,同时提供高质量且高效的本地FIM补全功能,即便是在消费级硬件上也能实现。
- 最初的实现由Ivaylo Gardev @igardev完成,参考了llama.vim插件。
- 技术说明:https://github.com/ggerganov/llama.cpp/pull/9787
其他IDE
- Vim/Neovim:https://github.com/ggml-org/llama.vim
版本历史
v0.0.452026/03/04v0.0.442026/03/02v0.0.432026/02/18v0.0.422026/01/18v0.0.412026/01/07v0.0.402026/01/05v0.0.392025/12/31v0.0.382025/12/30v0.0.372025/11/18v0.0.362025/11/04v0.0.352025/10/27v0.0.342025/10/14v0.0.332025/10/08v0.0.322025/10/05v0.0.312025/10/02v0.0.302025/10/02v0.0.292025/10/01v0.0.282025/09/30v0.0.272025/09/21v0.0.262025/09/18常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。