lemonade

3.6k 266 简单 1 次阅读今天Apache-2.0语言模型插件Agent图像开发框架

AI 解读由 AI 自动生成，仅供参考

Lemonade 是一款专为本地运行打造的高性能 AI 服务器，旨在让用户无需依赖云端，即可在个人电脑的 GPU 或 NPU 上免费、私密地部署和运行最新的大语言模型。它有效解决了用户在使用在线 AI 服务时面临的数据隐私泄露风险、高昂的 API 调用费用以及网络延迟等痛点。

无论是希望保护敏感数据的普通用户、需要离线开发环境的开发者，还是追求极致响应速度的研究人员，都能从 Lemonade 中受益。该工具不仅支持聊天、代码生成、语音处理及图像创作等多模态任务，还具备两大核心形态：作为独立服务器运行时，它能完美兼容 OpenAI、Anthropic 和 Ollama 等主流接口，让用户无缝连接数百款现有 AI 应用；作为嵌入式组件时，则可打包进自定义软件中，实现自动优化适配。

其独特的技术亮点在于深度的硬件优化，特别是由 AMD 工程师参与调优，能够充分释放 Ryzen AI、Radeon 显卡及 Strix Halo 平台的算力潜能，带来“清爽”般的极速体验。配合便捷的模型管理器和跨平台移动端支持，Lemonade 让每个人都能轻松将强大的 AI 能力装进自己的口袋。

使用场景

一位拥有高性能游戏本（搭载 AMD Ryzen AI 或 NVIDIA 显卡）的独立开发者，希望在完全离线且零成本的环境下，为本地代码编辑器集成智能编程助手。

没有 lemonade 时

高昂的订阅成本：想要获得媲美 Claude 或 GPT-4 的编程辅助能力，每月需支付昂贵的 API 订阅费，对个人开发者负担较重。
隐私泄露风险：将未脱敏的公司核心代码或私有算法上传至云端大模型，存在敏感数据外泄的合规隐患。
网络依赖与延迟：在网络不稳定或无网环境下无法使用 AI 功能，且云端请求往返导致代码补全响应有明显迟滞。
部署配置复杂：自行在本地部署开源模型（如 Llama 3）需要手动处理量化、显存优化及 API 接口兼容性问题，技术门槛极高。

使用 lemonade 后

零成本无限调用：lemonade 直接利用本地 GPU/NPU 算力运行优化后的顶尖模型，无需支付任何 Token 费用，实现真正的免费无限使用。
100% 数据隐私：所有代码推理过程均在本地完成，数据不出设备，彻底消除隐私顾虑，满足严格的安全合规要求。
极速离线响应：依托本地硬件加速，代码生成与对话几乎无延迟，且完全摆脱网络环境限制，随时随地可用。
一键兼容生态：lemonade 自动优化模型并原生支持 OpenAI/Anthropic 标准接口，可无缝对接 Cursor、VS Code 等主流编辑器，无需繁琐配置。

lemonade 将云端的强大智能转化为本地免费的私有算力，让每位开发者都能安全、低成本地拥有专属的超级编程助手。

运行环境要求

操作系统

Windows
Linux
macOS (beta)

GPU

非必需
支持多种后端：1. Vulkan: x86_64 CPU, AMD iGPU/dGPU
2. ROCm: 支持的 AMD GPU
3. Metal: Apple Silicon GPU (macOS)
4. NPU: AMD XDNA2 NPU (Ryzen AI)
未提及 NVIDIA CUDA 需求

内存

未说明

依赖

notes该项目由社区构建并经过 AMD 工程师优化，特别针对 Ryzen AI、Radeon 和 Strix Halo PC。支持文本生成、语音识别、语音合成和图像生成。提供服务器模式（兼容 OpenAI/Anthropic/Ollama API）和可嵌入二进制文件两种形式。模型支持 GGUF、FLM 和 ONNX 格式，可通过内置模型管理器下载或从 Hugging Face 导入自定义模型。

python未说明

llamacpp

whispercpp

GGUF

FLM

ONNX

快速开始

🍋 柠檬水：清爽快速的本地AI

柠檬水横幅

下载 | 文档 | Discord

柠檬水是一款本地AI服务器，它为您提供与云端API相同的功能，但完全免费且私密。您可以在自己的NPU和GPU上使用最新的模型进行聊天、编码、语音和图像生成。

柠檬水有两种形式：

柠檬水服务器会安装一个服务，您可以使用标准的OpenAI、Anthropic和Ollama API将其连接到数百款优秀的应用程序。
可嵌入的柠檬水是一个便携式二进制文件，您可以将其打包到您自己的应用程序中，为用户提供多模态的本地AI，并根据用户的电脑自动优化性能。

本项目由社区为所有PC打造，AMD工程师进行了优化，以充分发挥Ryzen AI、Radeon和Strix Halo PC的潜力。

快速入门

安装：Windows · Linux · macOS（测试版） · Docker · 源码
获取模型：使用模型管理器浏览并下载
生成：通过内置的聊天、图像生成、语音生成等界面尝试模型
移动端：随身携带您的柠檬水：iOS · Android · 源码
连接：将柠檬水与您喜爱的应用程序一起使用：

希望您的应用也能在此展示吗？只需提交一个市场PR即可！

支持的平台

平台	构建

使用命令行界面

要运行并与 Gemma 对话：

lemonade run Gemma-4-E2B-it-GGUF

要使用 Lemonade 模型进行编程：

lemonade launch claude

多模态功能：

# 图像生成
lemonade run SDXL-Turbo

# 语音生成
lemonade run kokoro-v1

# 转录
lemonade run Whisper-Large-v3-Turbo

查看可用模型并下载它们：

lemonade list

lemonade pull Gemma-4-E2B-it-GGUF

查看您电脑上可用的后端：

lemonade backends

模型库

Lemonade 支持多种大型语言模型（GGUF、FLM 和 ONNX），以及 Whisper、Stable Diffusion 等模型，可在 CPU、GPU 和 NPU 上运行。

使用 lemonade pull 或内置的 模型管理器 下载模型。您还可以从 Hugging Face 导入自定义 GGUF/ONNX 模型。

浏览所有内置模型 →

支持的配置

Lemonade 支持多种用于大语言模型、语音处理、文本转语音和图像生成的推理引擎，每种引擎都有其特定的后端和硬件要求。

模态	引擎	后端	设备	操作系统
文本生成	`llamacpp`	`vulkan`	`x86_64` CPU、AMD iGPU、AMD dGPU	Windows、Linux
		`rocm`	支持的 AMD ROCm iGPU/dGPU 系列*	Windows、Linux
		`cpu`	`x86_64` CPU	Windows、Linux
		`metal`	Apple Silicon GPU	macOS（测试版）
		`system`	`x86_64` CPU、GPU	Linux
	`flm`	`npu`	XDNA2 NPU	Windows、Linux
	`ryzenai-llm`	`npu`	XDNA2 NPU	Windows
语音转文本	`whispercpp`	`npu`	XDNA2 NPU	Windows
		`vulkan`	`x86_64` CPU	Linux
		`cpu`	`x86_64` CPU	Windows、Linux
文本转语音	`kokoro`	`cpu`	`x86_64` CPU	Windows、Linux
图像生成	`sd-cpp`	`rocm`	支持的 AMD ROCm iGPU/dGPU 系列*	Windows、Linux
图像生成	`sd-cpp`	`cpu`	`x86_64` CPU	Windows、Linux

要检查您的机器具体支持哪些配方/后端，请运行：

lemonade backends

* 参见支持的 AMD ROCm 平台

架构	平台支持	GPU 型号
gfx1151（STX Halo）	Windows、Ubuntu	Ryzen AI MAX+ Pro 395
gfx120X（RDNA4）	Windows、Ubuntu	Radeon AI PRO R9700、RX 9070 XT/GRE/9070、RX 9060 XT
gfx110X（RDNA3）	Windows、Ubuntu	Radeon PRO W7900/W7800/W7700/V710、RX 7900 XTX/XT/GRE、RX 7800 XT、RX 7700 XT

项目路线图

正在开发	正在考虑	最近完成
原生多模态工具调用	vLLM 支持	将应用移植到 Tauri
更多 whisper.cpp 后端		可嵌入式二进制发布
更多 SD.cpp 后端		图像生成
MLX 支持		语音转文本
		文本转语音
		应用市场

在您的应用中集成可嵌入式 Lemonade

可嵌入式 Lemonade 是 Lemonade 的二进制版本，您可以将其打包到自己的应用中，为应用提供一个便携、自动优化的多模态本地 AI 堆栈。这使得用户可以专注于您的应用，而无需安装 Lemonade、品牌宣传或数据收集。

请查看可嵌入式 Lemonade 指南。

将 Lemonade 服务器连接到您的应用程序

您可以通过将任何兼容 OpenAI 的客户端库配置为使用 http://localhost:13305/v1 作为基础 URL 来使用它。下表列出了不同语言中官方及流行的 OpenAI 客户端。

您可以自由选择您偏好的语言。

Python	C++	Java	C#	Node.js	Go	Ruby	Rust	PHP
openai-python	openai-cpp	openai-java	openai-dotnet	openai-node	go-openai	ruby-openai	async-openai	openai-php

Python 客户端示例

from openai import OpenAI

# 初始化客户端以使用 Lemonade 服务器
client = OpenAI(
    base_url="http://localhost:13305/api/v1",
    api_key="lemonade"  # 必需但未使用
)

# 创建聊天补全
completion = client.chat.completions.create(
    model="Gemma-4-E2B-it-GGUF",  # 或其他可用模型
    messages=[
        {"role": "user", "content": "法国的首都是哪里？"}
    ]
)

# 打印响应
print(completion.choices[0].message.content)

有关更详细的集成说明，请参阅集成指南。

常见问题解答

如需阅读我们的常见问题解答，请参阅FAQ 指南。

贡献

Lemonade 由本地 AI 社区共同构建！如果您希望为该项目做出贡献，请查看我们的贡献指南。

维护者

这是一个由 @amd-pworfolk、@bitgamma、@danielholanda、@jeremyfowers、@kenvandine、@Geramy、@ramkrishna2910、@sawansri、@siavashhub、@sofiageo、@superm1、@vgodsoe 维护的社区项目，并由 AMD 赞助。您可以通过提交issue、发送电子邮件至 lemonade@amd.com 或加入我们的Discord与我们联系。

代码签名政策

由 SignPath.io 提供免费代码签名服务，证书由 SignPath Foundation 颁发。

提交者和评审者：本仓库的维护者
批准者：所有者

隐私政策：除非用户或安装/操作人员明确请求，否则本程序不会将任何信息传输到其他联网系统。在用户请求时，Lemonade 会从 Hugging Face Hub 下载 AI 模型（请参阅其隐私政策)。

许可与署名

本项目：

使用 C++（服务器端）和 React（应用程序）构建，满怀对开源社区的热爱；
站在众多优秀工具的肩膀之上，这些工具包括：
- ggml/llama.cpp
- ggml/whisper.cpp
- ggml/stable-diffusion.cpp
- kokoros
- OnnxRuntime GenAI
- Hugging Face Hub
- OpenAI API
- IRON/MLIR-AIE
- 以及更多…
根据 Apache 2.0 许可证进行许可。
- 项目的部分内容按照 NOTICE.md 中的说明进行许可。

Lemonade 快速上手指南

Lemonade 是一款高性能的本地 AI 服务器，旨在提供与云端 API 同等的能力，但完全免费且保护隐私。它支持在本地 NPU 和 GPU 上运行最新的聊天、编程、语音及图像生成模型，并兼容 OpenAI、Anthropic 和 Ollama 标准接口。

环境准备

系统要求

Lemonade 支持多平台，针对不同硬件进行了优化（特别是 AMD Ryzen AI、Radeon 及 Strix Halo 平台）：

Windows: Windows 11 (推荐)
Linux: Ubuntu 24.04+, Debian Trixie+, Fedora 43, Arch Linux
macOS: Apple Silicon (M 系列芯片，Beta 版本)
容器: Docker

硬件后端支持

GPU: AMD iGPU/dGPU (Vulkan/ROCm), Apple Silicon (Metal), 通用 x86_64 GPU
NPU: AMD XDNA2 NPU (专为 Ryzen AI 优化)
CPU: 通用 x86_64 处理器

注意：无需预先安装复杂的深度学习框架（如 PyTorch），Lemonade 安装包已包含所需运行时依赖。

安装步骤

请选择适合你操作系统的安装方式：

1. Windows 用户

访问官方下载页面获取 .msi 安装包： https://lemonade-server.ai/install_options.html#windows 下载后双击运行安装向导即可。

2. Linux 用户 (以 Ubuntu 为例)

可以通过 PPA 源安装（推荐）：

sudo add-apt-repository ppa:lemonade-sdk/lemonade
sudo apt update
sudo apt install lemonade-server

或者使用 Snap 安装：

sudo snap install lemonade-server

其他发行版（Arch, Fedora, Debian）请参考官方文档对应的安装指令。

3. macOS 用户 (Beta)

访问官方下载页面获取 .pkg 安装包： https://lemonade-server.ai/install_options.html#macos

4. Docker 用户

拉取并运行容器：

docker run -d --gpus all -p 8000:8000 --name lemonade ghcr.io/lemonade-sdk/lemonade:latest

基本使用

安装完成后，lemonade 命令行工具即可使用。以下是核心工作流：

1. 查看可用模型

列出官方支持的模型库：

lemonade list

2. 下载模型

使用 pull 命令下载模型到本地（例如下载 Gemma 模型）：

lemonade pull Gemma-4-E2B-it-GGUF

提示：你也可以通过内置的图形化 "Model Manager" 浏览和下载模型，或导入自定义的 GGUF/ONNX 模型。

3. 运行模型

启动服务并与模型交互：

文本对话 (Chat):
```
lemonade run Gemma-4-E2B-it-GGUF
```
编程辅助 (Coding): 启动兼容 Claude Code 接口的服务：
```
lemonade launch claude
```

多模态任务:

# 图像生成
lemonade run SDXL-Turbo

# 语音生成 (TTS)
lemonade run kokoro-v1

# 语音转录 (STT)
lemonade run Whisper-Large-v3-Turbo

4. 连接第三方应用

Lemonade 启动后会自动监听本地端口，兼容标准 API。你可以将其连接到支持 OpenAI/Ollama 协议的应用中，例如：

Open WebUI: 配置 API 地址为 http://localhost:8000/v1
VS Code (Continue 插件): 选择 Ollama 或 OpenAI 提供商，指向本地 Lemonade 服务
Dify / n8n: 在集成设置中选择 Lemonade 插件或自定义 API 端点

5. 查看后端状态

检查当前机器可用的推理后端（CPU/GPU/NPU）：

lemonade backends

现在，你已经可以在本地私有环境中自由使用强大的 AI 模型了。更多高级配置和模型列表请访问 Lemonade 文档中心。

版本历史

v10.2.02026/04/08

v10.1.02026/04/06

v10.0.12026/03/24

v10.0.02026/03/11

v9.4.12026/02/27

v9.4.02026/02/26

v9.3.42026/02/18

v9.3.32026/02/18

v9.3.22026/02/12

v9.3.12026/02/07

v9.3.02026/02/05

v9.2.02026/01/28

v9.1.42026/01/21

v9.1.32026/01/09

v9.1.22026/01/07

v9.1.12025/12/17

v9.1.02025/12/10

v9.0.82025/12/05

v9.0.72025/12/04

v9.0.62025/12/03

常见问题

在 Linux 上遇到 NPU 固件版本不兼容错误（ERROR: NPU firmware version ... is incompatible）如何解决？

Lemonade SDK 是否有针对不同架构（CPU/GPU/NPU）的 LLM 基准测试数据？

如何在 Arch Linux 上安装 Lemonade Server？

在使用 ROCm 加载大型模型（如 gpt-oss-120b）时遇到 'unable to allocate ROCm0 buffer' 错误怎么办？

Lemonade Server 在处理长提示词（Long Prompt）时响应中途超时或停止输出如何解决？

Lemonade v8.0.6 版本对 llama.cpp 的支持有哪些主要改进？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像