GPTCache

8k 575 简单 1 次阅读昨天MITAgent语言模型开发框架插件

AI 解读由 AI 自动生成，仅供参考

GPTCache 是一个专为大语言模型（LLM）打造的语义缓存库，旨在通过智能存储和复用历史回答来优化应用性能。随着 AI 应用的普及，频繁调用 LLM API 不仅成本高昂，还常面临响应延迟的问题。GPTCache 通过理解问题的语义而非简单的文字匹配，能够识别出含义相似的用户提问并直接返回缓存结果，从而将 API 调用成本降低约 10 倍，同时将响应速度提升高达 100 倍。

这款工具主要面向开发者和研究人员，特别是那些正在使用 LangChain 或 llama_index 框架构建 AI 应用的技术人员。其核心亮点在于“语义缓存”技术，即利用向量相似度判断问题是否等价，即使提问措辞不同也能精准命中缓存。此外，GPTCache 已提供 Docker 服务器镜像，支持跨语言调用，让非 Python 环境也能轻松集成。对于希望在不牺牲回答质量的前提下，显著减少 Token 消耗并提升系统并发能力的团队来说，GPTCache 是一个高效且易于集成的解决方案。

使用场景

某电商公司开发了一款基于大模型的智能客服系统，用于实时回答用户关于商品详情、物流状态及售后政策的咨询。

没有 GPTCache 时

运营成本高昂：面对每日数万次的重复性提问（如“发货地在哪里”），系统每次都调用昂贵的 LLM API，导致月度账单激增。
响应延迟明显：在高并发时段，由于需等待外部模型生成回复，用户平均需等待 3-5 秒才能收到消息，体验流畅度差。
服务稳定性风险：一旦遇到网络波动或第三方 API 限流，整个客服系统将直接不可用，导致大量用户投诉。
资源浪费严重：计算资源被大量消耗在处理语义完全相同的请求上，无法将算力集中在处理复杂的个性化问题上。

使用 GPTCache 后

成本大幅降低：GPTCache 通过语义匹配拦截了约 80% 的常见重复问题，直接返回缓存结果，使 API 调用成本降低了 10 倍。
响应速度飞跃：对于命中缓存的请求，系统无需联网等待生成，响应时间从秒级缩短至毫秒级，整体吞吐量提升 100 倍。
系统高可用保障：即使外部大模型服务暂时中断，GPTCache 仍能依靠本地缓存维持核心问答功能的正常运转，保障业务连续性。
智能流量分流：系统自动区分简单与复杂问题，仅将真正需要推理的新颖问题发送给大模型，显著优化了资源配置效率。

GPTCache 通过构建高效的语义缓存层，在几乎不改变原有代码架构的前提下，实现了智能应用成本与性能的数量级优化。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes默认仅安装基础库，使用高级功能（如向量搜索）时会自动安装相关依赖（如 onnx、faiss）。支持通过 Docker 部署服务端以实现多语言调用。项目处于快速开发中，API 可能随时变更。使用前需配置 OPENAI_API_KEY 环境变量。建议将 pip 升级至最新版本以避免安装问题。

python3.8.1+

openai

onnx

faiss

sqlite

langchain

llama_index

快速开始

GPTCache：用于为大语言模型查询创建语义缓存的库

将您的 LLM API 成本降低 10 倍 💰，速度提升 100 倍 ⚡

🎉 GPTCache 已与 🦜️🔗LangChain 完全集成！以下是详细的使用说明。

🐳 GPTCache 服务器 Docker 镜像已发布，这意味着 任何编程语言 都可以使用 GPTCache！

📔 本项目正处于快速开发中，因此 API 可能会随时发生变化。有关最新信息，请参阅最新的文档和发布说明。

注意：随着大型模型数量的激增以及其 API 形态的不断演变，我们不再新增对新 API 或模型的支持。我们鼓励使用 GPTCache 中的 get 和 set API，示例代码如下：https://github.com/zilliztech/GPTCache/blob/main/examples/adapter/api.py

快速安装

pip install gptcache

🚀 什么是 GPTCache？

ChatGPT 和各种大型语言模型（LLMs）具有惊人的多功能性，能够支持多种应用的开发。然而，随着您的应用越来越受欢迎并面临更高的流量压力，与 LLM API 调用相关的成本可能会变得非常高昂。此外，LLM 服务在处理大量请求时可能会出现响应缓慢的情况。

为了解决这一挑战，我们开发了 GPTCache，这是一个专门用于构建语义缓存以存储 LLM 响应的项目。

😊 快速入门

注意：

您无需进行大量开发即可快速试用 GPTCache 并将其部署到生产环境。但请注意，该仓库目前仍在积极开发中。
默认情况下，仅安装有限数量的库来支持基本的缓存功能。当您需要使用其他功能时，相关库将会 自动安装。
请确保 Python 版本为 3.8.1 或更高，可通过运行 python --version 进行检查。
如果由于 pip 版本过低而导致无法安装某些库，请运行：python -m pip install --upgrade pip。

开发环境安装

# 克隆 GPTCache 仓库
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# 安装仓库
pip install -r requirements.txt
python setup.py install

示例用法

这些示例将帮助您理解如何使用精确匹配和相似匹配进行缓存。您也可以在 Colab 上运行这些示例。更多示例请参考训练营。

在运行示例之前，请确保已设置 OPENAI_API_KEY 环境变量，方法是执行 echo $OPENAI_API_KEY。如果尚未设置，可以在 Unix/Linux/MacOS 系统上使用 export OPENAI_API_KEY=YOUR_API_KEY，或在 Windows 系统上使用 set OPENAI_API_KEY=YOUR_API_KEY 来设置。

请注意，此方法仅为临时生效，若需永久生效，则需修改环境变量配置文件。例如，在 Mac 上，您可以编辑位于 /etc/profile 的文件。

点击以显示示例代码

OpenAI API 原始用法

import os
import time

import openai


def response_text(openai_resp):
    return openai_resp['choices'][0]['message']['content']


question = 'what‘s chatgpt'

# OpenAI API 原始用法
openai.api_key = os.getenv("OPENAI_API_KEY")
start_time = time.time()
response = openai.ChatCompletion.create(
  model='gpt-3.5-turbo',
  messages=[
    {
        'role': 'user',
        'content': question
    }
  ],
)
print(f'Question: {question}')
print("Time consuming: {:.2f}s".format(time.time() - start_time))
print(f'Answer: {response_text(response)}\n')

OpenAI API + GPTCache，精确匹配缓存

如果您向 ChatGPT 提出完全相同的两个问题，第二个问题的答案将直接从缓存中获取，而无需再次向 ChatGPT 发起请求。

import time


def response_text(openai_resp):
    return openai_resp['choices'][0]['message']['content']

print("Cache loading.....")

# 使用 GPTCache，您只需要做这些
# -------------------------------------------------
from gptcache import cache
from gptcache.adapter import openai

cache.init()
cache.set_openai_key()

# -------------------------------------------------

question = "什么是GitHub"
for _ in range(2):
    start_time = time.time()
    response = openai.ChatCompletion.create(
      model='gpt-3.5-turbo',
      messages=[
        {
            'role': 'user',
            'content': question
        }
      ],
    )
    print(f'问题: {question}')
    print("耗时: {:.2f}秒".format(time.time() - start_time))
    print(f'答案: {response_text(response)}\n')

OpenAI API + GPTCache，相似搜索缓存

在针对几个相似的问题从ChatGPT获取答案后，后续问题的答案可以直接从缓存中获取，而无需再次请求ChatGPT。

import time


def response_text(openai_resp):
    return openai_resp['choices'][0]['message']['content']

from gptcache import cache
from gptcache.adapter import openai
from gptcache.embedding import Onnx
from gptcache.manager import CacheBase、VectorBase、get_data_manager
from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation

print("缓存加载中.....")

onnx = Onnx()
data_manager = get_data_manager(CacheBase("sqlite")、VectorBase("faiss"、dimension=onnx.dimension))
cache.init(
    embedding_func=onnx.to_embeddings,
    data_manager=data_manager,
    similarity_evaluation=SearchDistanceEvaluation(),
    )
cache.set_openai_key()

questions = [
    "什么是GitHub",
    "你能解释一下GitHub是什么吗",
    "你能多告诉我一些关于GitHub的信息吗",
    "GitHub的用途是什么"
]

for question in questions:
    start_time = time.time()
    response = openai.ChatCompletion.create(
        model='gpt-3.5-turbo',
        messages=[
            {
                'role': 'user',
                'content': question
            }
        ],
    )
    print(f'问题: {question}')
    print("耗时: {:.2f}秒".format(time.time() - start_time))
    print(f'答案: {response_text(response)}\n')

OpenAI API + GPTCache，使用temperature参数

在请求API服务或模型时，您可以始终传递temperature参数。

temperature的取值范围是[0, 2]，默认值为0.0。

温度越高，越有可能跳过缓存搜索，直接请求大模型。当temperature为2时，一定会跳过缓存并直接向大模型发送请求。当temperature为0时，则会在请求大模型服务之前先搜索缓存。

默认的post_process_messages_func是temperature_softmax。在这种情况下，请参阅API参考以了解temperature如何影响输出。

import time

from gptcache import cache、Config
from gptcache.manager import manager_factory
from gptcache.embedding import Onnx
from gptcache.processor.post import temperature_softmax
from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation
from gptcache.adapter import openai

cache.set_openai_key()

onnx = Onnx()
data_manager = manager_factory("sqlite,faiss"、vector_params={"dimension": onnx.dimension})

cache.init(
    embedding_func=onnx.to_embeddings,
    data_manager=data_manager,
    similarity_evaluation=SearchDistanceEvaluation(),
    post_process_messages_func=temperature_softmax
    )
# cache.config = Config(similarity_threshold=0.2)

question = "什么是GitHub"

for _ in range(3):
    start = time.time()
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        temperature = 1.0,  # 在这里更改temperature
        messages=[{
            "role": "user",
            "content": question
        }],
    )
    print("用时:", round(time.time() - start, 3))
    print("答案:", response["choices"][0]["message"]["内容"])

要完全使用GPTCache，只需以下几行代码，无需修改任何现有代码。

from gptcache import cache
from gptcache.adapter import openai

cache.init()
cache.set_openai_key()

更多文档：

🎓 培训营

GPTCache与LangChain
GPTCache与Llama_index
- 网页问答
GPTCache与OpenAI
GPTCache与Replicate
- 视觉问答
GPTCache与Temperature参数
- OpenAI聊天
- OpenAI图像创作

😎 这能帮上什么忙？

GPTCache 提供以下主要优势：

降低成本：大多数大模型服务会根据请求数量和令牌计数来收取费用。GPTCache 通过缓存查询结果，有效减少发送到大模型服务的请求数量和令牌用量，从而显著降低使用成本。这样一来，您在使用该服务时将获得更具性价比的体验。
提升性能：大模型采用生成式 AI 算法实时生成响应，这一过程有时可能较为耗时。然而，当相似的查询已被缓存时，响应时间会大幅缩短，因为可以直接从缓存中获取结果，无需再与大模型服务交互。在大多数情况下，相比标准的大模型服务，GPTCache 还能提供更高的查询吞吐量。
灵活的开发与测试环境：作为开发大模型应用的工程师，您知道通常需要连接到大模型 API，并且在将应用部署到生产环境之前，进行全面测试至关重要。GPTCache 提供一个与大模型 API 兼容的接口，支持存储由大模型生成的数据以及模拟数据。这一特性使您能够轻松地开发和测试应用，而无需实际连接到大模型服务。
增强可扩展性和可用性：大模型服务经常实施速率限制，即 API 对用户或客户端在特定时间内访问服务器次数的约束。一旦达到速率限制，后续请求将被阻止，直到一定时间过去才会恢复，这可能导致服务中断。借助 GPTCache，您可以轻松扩展以应对不断增加的查询量，确保随着用户规模的增长，应用始终保持稳定的性能。

🤔 它是如何工作的？

在线服务通常具有数据局部性特征，用户往往会频繁访问热门或流行的内容。缓存系统正是利用这一特性，将常用数据存储起来，从而缩短数据检索时间、加快响应速度，并减轻后端服务器的压力。传统的缓存系统通常采用精确匹配的方式，即通过比对新查询与缓存中的查询是否完全一致，来判断所需内容是否已在缓存中，然后再进行数据获取。

然而，对于大模型的缓存来说，采用精确匹配的方法效果并不理想，因为大模型的查询往往复杂多样，导致缓存命中率较低。为解决这一问题，GPTCache 采用了语义缓存等替代策略。语义缓存能够识别并存储相似或相关的查询，从而提高缓存命中概率，提升整体缓存效率。

GPTCache 使用嵌入算法将查询转换为嵌入向量，并借助向量存储对这些嵌入向量进行相似度搜索。这一过程使 GPTCache 能够从缓存存储中识别并检索出相似或相关的查询，如模块部分所示。

GPTCache 采用模块化设计，方便用户自定义自己的语义缓存。系统为每个模块提供了多种实现方式，用户甚至可以根据自身需求开发专属的实现方案。

在语义缓存中，可能会出现缓存命中时的误报以及缓存未命中时的漏报。为了帮助开发者优化缓存系统，GPTCache 提供了三项性能指标：

命中率：该指标用于衡量缓存成功满足内容请求的能力，相对于其收到的总请求数而言。命中率越高，说明缓存越有效。
延迟：该指标用于测量查询被处理并从缓存中检索到相应数据所需的时间。延迟越低，表明缓存系统越高效、响应越迅速。
召回率：该指标表示由缓存提供的查询数量占本应由缓存提供的总查询数量的比例。召回率越高，说明缓存能够有效地提供合适的内容。

此外，还提供了一个示例基准测试，供用户开始评估其语义缓存的性能。

🤗 模块

GPTCache 结构

LLM 适配器： LLM 适配器旨在通过统一不同 LLM 模型的 API 和请求协议来实现集成。GPTCache 为此提供了标准化接口，目前支持 ChatGPT 集成。
- 支持 OpenAI ChatGPT API。
- 支持 langchain。
- 支持 minigpt4。
- 支持 Llamacpp。
- 支持 dolly。
- 支持其他 LLM，例如 Hugging Face Hub、Bard、Anthropic。
多模态适配器（实验性）：多模态适配器旨在通过统一不同大型多模态模型的 API 和请求协议来实现集成。GPTCache 为此提供了标准化接口，目前支持图像生成、音频转录等功能的集成。
- 支持 OpenAI Image Create API。
- 支持 OpenAI Audio Transcribe API。
- 支持 Replicate BLIP API。
- 支持 Stability Inference API。
- 支持 Hugging Face Stable Diffusion Pipeline（本地推理）。
- 支持其他多模态服务或自托管的大型多模态模型。
嵌入生成器：该模块用于从请求中提取嵌入向量，以进行相似度搜索。GPTCache 提供了一个通用接口，支持多种嵌入 API，并提供多种解决方案供选择。
- 禁用嵌入功能。这会将 GPTCache 变为基于关键词匹配的缓存。
- 支持 OpenAI 嵌入 API。
- 支持 ONNX，使用 GPTCache/paraphrase-albert-onnx 模型。
- 支持 Hugging Face 嵌入，包括 transformers、ViTModel、Data2VecAudio。
- 支持 Cohere 嵌入 API。
- 支持 fastText 嵌入。
- 支持 SentenceTransformers 嵌入。
- 支持 Timm 模型用于图像嵌入。
- 支持其他嵌入 API。
缓存存储： 缓存存储是存放来自 LLM（如 ChatGPT）响应的地方。缓存的响应会被检索出来，用于评估相似性，并在语义匹配良好时返回给请求者。目前，GPTCache 支持 SQLite，并提供一个通用接口以便扩展此模块。
- 支持 SQLite。
- 支持 DuckDB。
- 支持 PostgreSQL。
- 支持 MySQL。
- 支持 MariaDB。
- 支持 SQL Server。
- 支持 Oracle。
- 支持 DynamoDB。
- 支持 MongoDB。
- 支持 Redis。
- 支持 Minio。
- 支持 HBase。
- 支持 ElasticSearch。
- 支持其他存储系统。
向量存储： 向量存储模块根据输入请求提取的嵌入向量，帮助找到与之最相似的 K 个请求。其结果可用于评估相似性。GPTCache 提供了一个用户友好的接口，支持多种向量存储，包括 Milvus、Zilliz Cloud 和 FAISS。未来还将提供更多选项。
- 支持 Milvus——一款面向生产级 AI/LLM 应用的开源向量数据库。
- 支持 Zilliz Cloud——基于 Milvus 的全托管云向量数据库。
- 支持 Milvus Lite——一款可嵌入 Python 应用的轻量级 Milvus 版本。
- 支持 FAISS——一个用于高效相似度搜索和稠密向量聚类的库。
- 支持 Hnswlib——一个仅包含头文件的 C++/Python 库，用于快速近似最近邻搜索。
- 支持 PGVector——一个面向 Postgres 的开源向量相似度搜索工具。
- 支持 Chroma——一款原生支持 AI 的开源嵌入式数据库。
- 支持 DocArray——一个用于表示、传输和存储多模态数据的库，非常适合机器学习应用。
- 支持 qdrant
- 支持 weaviate
- 支持其他向量数据库。
缓存管理器： 缓存管理器负责控制 缓存存储 和 向量存储 的运行。
- 逐出策略：缓存逐出可以在内存中使用 Python 的 cachetools 进行管理，也可以通过 Redis 作为键值存储实现分布式管理。
- 内存缓存
目前，GPTCache 的逐出决策仅基于条目数量。这种方法可能导致资源评估不准确，并引发内存不足（OOM）错误。我们正在积极研究并开发更复杂的策略。
- 支持 LRU 逐出策略。
- 支持 FIFO 逐出策略。
- 支持 LFU 逐出策略。
- 支持 RR 逐出策略。
- 支持更复杂的逐出策略。
- 分布式缓存
如果您尝试使用内存缓存对 GPTCache 部署进行水平扩展，则无法实现。因为缓存信息将仅限于单个 Pod。

通过分布式缓存，可以在所有副本之间保持缓存信息的一致性，从而可以使用 Redis 等分布式缓存存储。
- 支持 Redis 分布式缓存。
- 支持 memcached 分布式缓存。
相似度评估器：该模块从 缓存存储 和 向量存储 中收集数据，并使用多种策略来确定输入请求与 向量存储 中请求之间的相似度。基于此相似度，它决定请求是否与缓存匹配。GPTCache 提供了标准化接口，用于集成各种策略，并附带一系列实现方案可供使用。目前支持或未来将支持的相似度定义如下：
- 由 向量存储 得到的距离。
- 基于模型的相似度，使用来自 ONNX 的 GPTCache/albert-duplicate-onnx 模型计算。
- 输入请求与 向量存储 中获取的请求之间的完全匹配。
- 通过将 numpy 的 linalg.norm 应用于嵌入向量所表示的距离。
- BM25 和其他相似度测量方法。
- 支持 PyTorch 等其他模型推理框架。
注意：并非所有模块组合都能相互兼容。例如，如果禁用 嵌入提取器，向量存储 可能无法正常工作。我们目前正在为 GPTCache 实现组合合理性检查。

😇 路线图

即将推出！敬请关注！

😍 参与贡献

我们非常欢迎各种形式的贡献，无论是新增功能、优化基础设施，还是改进文档。

有关如何参与贡献的详细说明，请参阅我们的贡献指南。

GPTCache 快速上手指南

GPTCache 是一个专为大语言模型（LLM）查询设计的语义缓存库。它能将 LLM API 成本降低 10 倍，响应速度提升 100 倍，通过缓存相似问题的回答来避免重复调用昂贵的 LLM 服务。

环境准备

在开始之前，请确保满足以下系统要求：

Python 版本：3.8.1 或更高。
- 检查命令：python --version
pip 版本：建议升级到最新版本以避免安装错误。
- 升级命令：python -m pip install --upgrade pip
API Key：如果使用 OpenAI 等模型，需提前设置好环境变量 OPENAI_API_KEY。
- Linux/Mac: export OPENAI_API_KEY=YOUR_API_KEY
- Windows: set OPENAI_API_KEY=YOUR_API_KEY

提示：国内开发者若遇到网络安装问题，可使用清华源或阿里源加速安装（例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gptcache）。

安装步骤

方式一：通过 PyPI 安装（推荐）

这是最快速的安装方式，仅安装核心功能。当需要使用特定功能（如向量数据库、嵌入模型）时，相关依赖库会自动按需安装。

pip install gptcache

方式二：开发版安装

如果你需要体验最新功能或贡献代码，可以从 GitHub 克隆源码安装：

# 克隆仓库
git clone -b dev https://github.com/zilliztech/GPTCache.git
cd GPTCache

# 安装依赖并构建
pip install -r requirements.txt
python setup.py install

基本使用

GPTCache 的设计目标是零代码侵入。你只需添加几行初始化代码，即可让现有的 OpenAI 调用自动具备缓存能力。

1. 精确匹配缓存（Exact Match）

适用于完全相同的问题直接返回缓存结果，无需再次请求 LLM。

import time
from gptcache import cache
from gptcache.adapter import openai

# 初始化缓存并设置 Key
cache.init()
cache.set_openai_key()

def response_text(openai_resp):
    return openai_resp['choices'][0]['message']['content']

question = "what's github"

# 第一次请求：调用 LLM 并缓存结果
# 第二次请求：直接从缓存获取，速度极快且无 API 费用
for _ in range(2):
    start_time = time.time()
    response = openai.ChatCompletion.create(
      model='gpt-3.5-turbo',
      messages=[{'role': 'user', 'content': question}],
    )
    print(f'Question: {question}')
    print("Time consuming: {:.2f}s".format(time.time() - start_time))
    print(f'Answer: {response_text(response)}\n')

2. 语义相似匹配缓存（Similarity Search）

适用于问题表述不同但意图相似的场景（例如："GitHub 是什么" 和 "介绍一下 GitHub"）。这需要配置嵌入模型（Embedding）和向量存储。

import time
from gptcache import cache
from gptcache.adapter import openai
from gptcache.embedding import Onnx
from gptcache.manager import CacheBase, VectorBase, get_data_manager
from gptcache.similarity_evaluation.distance import SearchDistanceEvaluation

# 配置嵌入模型和向量数据库
onnx = Onnx()
data_manager = get_data_manager(CacheBase("sqlite"), VectorBase("faiss", dimension=onnx.dimension))

# 初始化缓存
cache.init(
    embedding_func=onnx.to_embeddings,
    data_manager=data_manager,
    similarity_evaluation=SearchDistanceEvaluation(),
)
cache.set_openai_key()

questions = [
    "what's github",
    "can you explain what GitHub is",  # 语义相似，将命中缓存
    "can you tell me more about GitHub", # 语义相似，将命中缓存
]

for question in questions:
    start_time = time.time()
    response = openai.ChatCompletion.create(
        model='gpt-3.5-turbo',
        messages=[{'role': 'user', 'content': question}],
    )
    print(f'Question: {question}')
    print("Time consuming: {:.2f}s".format(time.time() - start_time))
    print(f'Answer: {response_text(response)}\n')

进阶提示：温度参数（Temperature）

你可以通过传递 temperature 参数来控制缓存行为：

temperature = 0：优先搜索缓存，未命中才请求模型。
temperature = 2：跳过缓存，直接请求模型。
中间值：按概率决定是否跳过缓存搜索。

response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    temperature=1.0,  # 调整此参数控制缓存命中率
    messages=[{"role": "user", "content": "what's github"}],
)

版本历史

0.1.442024/08/01

0.1.432023/11/28

0.1.422023/09/28

0.1.412023/09/14

0.1.402023/08/23

0.1.39.12023/08/15

0.1.392023/08/12

0.1.382023/07/31

0.1.372023/07/23

0.1.362023/07/14

0.1.352023/07/07

0.1.342023/06/30

0.1.332023/06/27

0.1.322023/06/15

0.1.312023/06/14

0.1.302023/06/07

0.1.292023/06/02

0.1.282023/05/29

0.1.272023/05/25

0.1.262023/05/23

常见问题

在使用 LangChain 的 ConversationalRetrievalChain 时，为什么缓存没有生效或聊天历史无法保存？

调用 OpenAI Moderation API 时报错 'NoneType' object is not subscriptable 怎么办？

发送多条消息给 OpenAI API 时，为什么返回的不是最后一条消息的答案？

如何在 GPTCache 中处理过长的 Prompt 以避免错误或提高缓存命中率？

GPTCache 是否支持 Hugging Face Transformers 的 LLM 模型？

如何在 LangChain 中正确配置 GPTCache 以确保缓存正常工作？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|4天前

Agent插件