clip.cpp

557 53 较难 1 次阅读昨天MIT语言模型其他音频数据工具开发框架图像Agent插件

AI 解读由 AI 自动生成，仅供参考

clip.cpp 是一个用纯 C/C++ 编写的开源项目，旨在无需任何额外依赖即可高效运行 CLIP 模型。它让开发者能够在资源受限的设备上轻松实现图像语义搜索、零样本图像标注等功能，也是构建大型多模态应用的轻量级基石。

传统深度学习框架往往体积庞大且启动缓慢，难以在边缘设备或无服务器环境中部署。clip.cpp 通过引入 GGML 库，完美解决了这一痛点。它不仅将量化后的模型体积压缩至约 85MB，还具备极快的冷启动速度，非常适合对内存和计算能力有严格限制的场景。

该项目主要面向嵌入式开发者、后端工程师以及希望优化模型部署的研究人员。其核心技术亮点包括支持 4 位、5 位及 8 位多种量化精度，灵活适配文本、视觉或双塔模型架构。更值得一提的是，它提供了仅依赖 Python 标准库的绑定接口，彻底摆脱了 NumPy、PyTorch 等重型框架的束缚，同时兼容 C 语言调用，为多语言生态集成提供了极大便利。如果你需要在低成本硬件上快速落地多模态 AI 应用，clip.cpp 是一个值得尝试的高效方案。

使用场景

一家初创公司正在开发一款运行在边缘设备（如 Raspberry Pi）上的离线智能相册应用，需要实时根据用户输入的自然语言描述检索本地图片。

没有 clip.cpp 时

部署体积过大：传统 PyTorch 或 TensorFlow 环境连同依赖库动辄数百兆甚至数 GB，远超边缘设备的存储限制。
启动延迟严重：加载庞大的深度学习框架导致应用冷启动时间过长，用户点击搜索后需等待数秒才能响应。
依赖管理复杂：在资源受限的 Linux 环境中配置 Python 虚拟环境、安装 NumPy 等科学计算库极易出错且维护困难。
内存占用过高：全精度模型运行时内存消耗巨大，容易导致低配设备内存溢出或系统卡顿。

使用 clip.cpp 后

极致轻量部署：借助 4-bit 量化技术，模型文件仅约 85.6 MB，且无需任何第三方依赖，轻松嵌入嵌入式系统。
毫秒级快速响应：摒弃了重型框架的加载开销，clip.cpp 启动极快，实现了近乎实时的图像语义检索体验。
纯净运行环境：仅依赖标准 C/C++ 库或原生 Python 绑定，彻底消除了复杂的环境配置难题，提升了系统稳定性。
低内存高效运行：量化模型大幅降低内存占用，使老旧硬件也能流畅运行多模态推理任务而不影响其他进程。

clip.cpp 通过将高性能 CLIP 推理带入无依赖的轻量级环境，成功让复杂的语义图像搜索在资源受限的边缘设备上变得触手可及。

运行环境要求

操作系统

Linux
macOS

GPU

不需要 GPU，纯 CPU 运行（基于 GGML）

内存

最低约 85.6 MB (4-bit 量化模型)，推荐视具体模型大小而定

依赖

notes1. 核心推理无需任何第三方依赖，支持 4/5/8-bit 量化以大幅降低内存占用。2. 模型需转换为 GGUF 格式才能使用（旧版 .bin 文件已不再支持）。3. Python 绑定通过 ctypes 调用动态库，无需安装 NumPy 或 PyTorch 即可运行。4. Mac M 系列芯片需注意架构识别问题。5. 若需自行转换模型，需临时安装 PyTorch 和 Transformers。

python标准库即可 (构建转换脚本需安装 PyTorch 和 Transformers)

无运行时依赖 (C/C++ 核心)

PyTorch (仅用于模型转换)

Transformers (仅用于模型转换)

快速开始

clip.cpp

纯 C/C++ 实现的 CLIP 推理，无额外依赖

说明

这是由 OpenAI 开发的知名 CLIP 模型的无依赖实现，得益于 GGML 的出色工作。你可以使用它来处理来自 OpenAI 和 LAION 的 Transformers 格式 CLIP 模型。

动机

CLIP 被广泛应用于语义图像搜索、零样本图像分类等多种任务。它也是 Stable Diffusion 以及新兴的大规模多模态模型（LMM）领域的一部分。本仓库旨在为基于此类模型的应用程序提供支持，特别是在计算或内存受限的设备上运行。经过 4 位量化后的 CLIP 模型仅需 85.6 MB！

特性

借助 ggml，实现无依赖、轻量级的推理。
支持 4 位、5 位和 8 位量化。
支持 仅文本、仅视觉 以及 双塔 模型变体的推理。在某些情况下，例如用于大型多模态模型的编码器，或者构建和搜索语义图像数据库时，单独使用某一模态可能更为合适。
无依赖的 Python 绑定，无需任何大型第三方库。不需要 NumPy、TensorFlow、PyTorch、ONNX 等，实际上仅需标准 Python 库即可。

与大型机器学习框架相比，clip.cpp 的启动时间更短，因此非常适合冷启动问题较为突出的无服务器部署场景。

破坏性变更

自 2023年9月27日起，clip.cpp 使用 GGUF 格式的全新模型文件结构。与旧版 .bin 文件兼容的最新提交是 05f2efd8081b8695e8174dea7a82116ece2fdf63。我们将不再提供对旧模型的向后兼容支持，建议您更新至新代码及模型文件。新结构不仅支持现有的 16 位浮点精度和 4 位量化，还新增了 32 位浮点精度、5 位和 8 位量化，并且可以分别存储仅文本和仅视觉的模型文件。

关于图像预处理的说明

PIL 在进行带抗锯齿的双通道卷积双三次插值缩放时，会应用抗锯齿处理。而在 PyTorch 中，抗锯齿是可选的。要实现与它们结果数值一致的预处理逻辑，需要特别注意。不过，我发现线性插值对于比较本实现与其他 Transformers 实现的嵌入向量，以及比较本实现与其它实现的嵌入向量来说，已经足够好。因此，在我们开发出合适的双三次插值之前，暂时就使用线性插值吧。

预转换模型

预转换模型可在 Hugging Face 上标记为 clip-cpp-gguf 的仓库中找到。如果您出于某种原因希望自行进行转换，请参阅下文。否则，您可以从上述链接下载所需的模型，然后直接跳转到编译部分。

模型转换

您可以将 OpenAI 和 LAION 提供的 Transformers 格式 CLIP 模型进行转换。据称，LAION 的模型在多项基准测试中表现优于 OpenAI 的模型，因此推荐使用 LAION 的模型。

从 Hugging Face Hub 克隆模型仓库：

git lfs init

git clone https://huggingface.co/laion/CLIP-ViT-B-32-laion2B-s34B-b79K

克隆本仓库：

git clone --recurse-submodules https://github.com/monatis/clip.cpp.git

cd clip.cpp/models

如果尚未安装 PyTorch 和 Transformers 库，请先安装；否则可跳过此步骤：

pip install -r requirements.txt

使用 models/convert_hf_to_gguf.py 将其转换为 GGUF 格式：

python convert_hf_to_gguf.py -m ../../CLIP-ViT-B-32-laion2B-s34B-b79K

输出的 CLIP-ViT-B-32-laion2B-s34B-b79K_ggml-model-f16.bin 文件位于上述命令中指定的模型目录中。

如需查看转换脚本的其他选项，请运行：

python convert_hf_to_gguf.py --help

编译

git clone --recurse-submodules https://github.com/monatis/clip.cpp.git

cd clip.cpp

mkdir build

cd build

cmake -DCLIP_NATIVE=ON ..

make

编译生成的二进制文件位于 ./bin 目录中。

注意：部分 Mac 设备报告的架构为 x86_64 而不是 arm64。如果遇到这种情况，请参阅此处的讨论。我在自己的 MacBook M2 Pro 上未能复现该问题，因此无法提供更多帮助。如果您知道可以在 CMakeLists.txt 中加入的解决方案，请在此处联系我：issues/24。

量化

clip.cpp 支持 q4_0、q4_1、q5_0、q5_1 和 q8_0 五种量化类型。您可以使用 ./bin/quantize 二进制工具，将 f32（推荐）或 f16 格式的模型量化为其中任意一种类型。

用法：./bin/quantize /path/to/ggml-model-f32.gguf /path/to/ggml-model-quantized.gguf type                              
  type = 2 - q4_0                                                                                                       
  type = 3 - q4_1                                                                                                       
  type = 6 - q5_0                                                                                                       
  type = 7 - q5_1                                                                                                       
  type = 8 - q8_0

例如，您可以运行以下命令将模型量化为 q5_1：

./bin/quantize ./CLIP-ViT-B-32-laion2B-s34B-b79K/ggml-model-f32.gguf ./CLIP-ViT-B-32-laion2B-s34B-b79K/ggml-model-q5_1.gguf 7

现在您可以像使用 f16 格式的模型一样使用 ggml-model-q5_1.gguf。

使用方法

目前我们有4个示例：main、zsl 和 image-search。

main 仅用于演示 API 的使用，并可选择性地输出详细的计时信息。它简单地计算通过命令行参数传入的一张图片与一段文本之间的相似度。

用法：./bin/main [选项]

选项：  -h, --help：显示此消息并退出
  -m <路径>, --model <路径>：模型路径。默认值：models/ggml-model-f16.gguf
  -t N, --threads N：用于推理的线程数。默认值：4
  --text <文本>：要编码的文本。至少需要指定一个文本。
  --image <路径>：图像文件的路径。至少需要指定一个图像路径。
  -v <级别>, --verbose <级别>：控制详细程度。0 = 最低，2 = 最高。默认值：1

zsl 是一个零样本图像标注示例。它会根据提供的标签对一张图像进行标注。命令行参数与 main 相同，但必须指定多个 --text 参数来定义标签。
image-search 是一个基于 USearch 的语义图像搜索示例。编译时需启用 CLIP_BUILD_IMAGE_SEARCH 选项，依赖项将由 CMake 自动下载：

mkdir build

cd build

cmake -DCLIP_BUILD_IMAGE_SEARCH=ON ..

make

更多信息和使用方法请参阅 examples/image-search/README.md。

extract 是一个工具，用于将向量提取为 NumPy 格式的 *.npy 文件。它同样无需任何依赖，即不需要安装 NumPy。命令行参数与 main 和 zsl 相同，但可以传递一个或多个 --text 和/或 --image 参数。两者均可单独使用，也可组合使用。

注意：支持处理 *.txt 文件和图像目录的功能正在开发中。

Python 绑定

您可以在 Python 中使用 clip.cpp，而无需任何第三方库（除了标准 Python 库之外没有其他依赖）。它使用 ctypes 加载动态链接库 (DLL)，以实现与 C/C++ 实现的接口。

如果您使用的是 X64 架构的 Linux 发行版，可以直接通过 Pip 安装并获得 AVX2 支持：

pip install clip_cpp

提供 Colab 笔记本以便快速实验：

如果您使用的是其他操作系统或架构，或者希望利用 AVX2 以外的指令集支持（例如 AVX512），您可以从源代码编译。

您只需使用 -DBUILD_SHARED_LIBS=ON 选项进行编译，即可生成所需的 DLL。

mkdir build

cd build

cmake -DBUILD_SHARED_LIBS=ON ..

make

编译完成后，您将在 build 目录中找到 libclip.so 二进制文件。更多信息和使用方法请参阅 examples/python_bindings/README.md。

基准测试

您可以使用基准测试工具比较不同检查点和量化类型的表现。

用法：./bin/benchmark <模型路径> <图像目录> <每个子目录的图像数量> [输出文件]

模型路径：GGML 格式的 CLIP 模型路径
图像目录：包含按类别命名的子目录的图像目录
每个子目录的图像数量：从每个子目录中最多读取的图像数量。如果为 0，则读取所有文件
输出文件：可选。如果指定，则将输出转储到该文件，而不是标准输出

有关基准测试的更多信息，请参阅 tests/README.md。

未来工作

集成最新版本的 GGML，并支持多种后端。
[ ]

clip.cpp 快速上手指南

clip.cpp 是一个无依赖、轻量级的 CLIP 模型推理工具，基于 C/C++ 和 GGML 库实现。它支持 4-bit/5-bit/8-bit 量化，模型文件极小（4-bit 版本仅约 85.6 MB），非常适合在计算或内存受限的设备上运行，也适用于对冷启动敏感的 Serverless 部署。

环境准备

操作系统: Linux, macOS, Windows (需构建环境)
编译器: 支持 C++11 的编译器 (如 gcc, clang, msvc)
构建工具: cmake, make (Windows 下可用 nmake 或 mingw32-make)
模型转换依赖 (可选): 若需自行转换模型，需安装 Python 及 torch, transformers 库。
```
pip install torch transformers
```
Git LFS: 下载大模型文件时需要。

安装步骤

1. 克隆项目

git clone --recurse-submodules https://github.com/monatis/clip.cpp.git
cd clip.cpp

2. 编译构建

创建构建目录并编译：

mkdir build
cd build
cmake -DCLIP_NATIVE=ON ..
make

编译完成后，可执行文件位于 ./bin 目录中。

注意: 若在 macOS M1/M2 等设备上遇到架构识别问题，请参考项目 Issue 讨论调整 CMake 配置。

3. 获取模型

你可以直接从 HuggingFace 下载已转换好的 GGUF 格式模型（推荐），或自行转换。

下载预转换模型: 访问 HuggingFace Models 搜索带有 clip-cpp-gguf 标签的模型并下载 .gguf 文件。

自行转换模型 (可选): 若需使用特定模型，可先将 HuggingFace 上的 Transformers 格式模型转换为 GGUF 格式：

# 假设已克隆目标模型仓库到 ../../CLIP-ViT-B-32-laion2B-s34B-b79K
python models/convert_hf_to_gguf.py -m ../../CLIP-ViT-B-32-laion2B-s34B-b79K

4. 模型量化 (可选)

为了进一步减小体积和提升速度，可将模型量化为 4-bit/5-bit/8-bit：

# 用法：./bin/quantize <输入模型> <输出模型> <类型>
# 类型代码：2=q4_0, 3=q4_1, 6=q5_0, 7=q5_1, 8=q8_0
./bin/quantize ./ggml-model-f32.gguf ./ggml-model-q5_1.gguf 7

基本使用

编译后的 bin 目录包含多个示例工具，最常用的是 main（计算图文相似度）和 zsl（零样本图像分类）。

示例 1：计算图像与文本的相似度 (`main`)

计算一张图片与一段文本的匹配程度：

./bin/main \
  -m ../models/ggml-model-f16.gguf \
  --text "a photo of a dog" \
  --image ../images/dog.jpg

参数说明:

-m: 模型路径 (默认 models/ggml-model-f16.gguf)
--text: 需要编码的文本
--image: 图片文件路径
-t: 线程数 (默认 4)
-v: 详细程度 (0-2)

示例 2：零样本图像分类 (`zsl`)

从多个标签中选择最符合图片内容的标签：

./bin/zsl \
  -m ../models/ggml-model-f16.gguf \
  --text "cat" \
  --text "dog" \
  --text "bird" \
  --image ../images/animal.jpg

注意：必须提供多个 --text 参数作为候选标签。

示例 3：提取向量 (`extract`)

将图像或文本编码为向量并保存为 NumPy 格式 (.npy)，无需安装 NumPy：

./bin/extract \
  -m ../models/ggml-model-f16.gguf \
  --text "hello world" \
  --image ../images/test.png

生成的向量文件可用于后续的语义搜索或其他任务。

Python 绑定 (可选)

clip.cpp 提供无第三方依赖的 Python 绑定。

直接安装 (Linux x64):
```
pip install clip_cpp
```
源码编译启用共享库: 若需自定义指令集或在其他平台使用，编译时需开启共享库选项：
```
cmake -DBUILD_SHARED_LIBS=ON ..
make
```
随后通过 ctypes 加载生成的 libclip.so (或对应平台的动态库) 即可在 Python 中调用。具体用法参见 examples/python_bindings/。

常见问题

在 Apple M1/M2 (ARM64) Mac 上编译时遇到架构警告或构建错误怎么办？

加载大型 CLIP 模型（如 ViT-H-14）时出现内存不足或断言失败错误如何解决？

使用 4bit 量化模型运行 image-search-build 处理多张图片时发生段错误（Segmentation Fault）怎么办？

为什么零样本分类（ZSL）的结果与 Hugging Face 演示不一致，或者对某些类别（如性别）有严重偏差？

该项目是否支持 BLIP 或 Stable Diffusion 等多模态模型？

如何正确编译项目以避免 C++ 标准相关的语法错误？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 146.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

使用场景

没有 clip.cpp 时

使用 clip.cpp 后

运行环境要求

快速开始

clip.cpp

说明

动机

特性

最新动态

破坏性变更

关于图像预处理的说明

预转换模型

模型转换

编译

量化

使用方法

Python 绑定

基准测试

未来工作

clip.cpp 快速上手指南

环境准备

安装步骤

1. 克隆项目

2. 编译构建

3. 获取模型

4. 模型量化 (可选)

基本使用

示例 1：计算图像与文本的相似度 (main)

示例 2：零样本图像分类 (zsl)

示例 3：提取向量 (extract)

Python 绑定 (可选)

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch

示例 1：计算图像与文本的相似度 (`main`)

示例 2：零样本图像分类 (`zsl`)

示例 3：提取向量 (`extract`)