Multilingual-CLIP

828 68 简单 1 次阅读 3周前MIT语言模型图像其他

AI 解读由 AI 自动生成，仅供参考

Multilingual-CLIP 是一个强大的开源项目，旨在让 OpenAI 著名的 CLIP 模型能够理解全球多种语言。原始的 CLIP 模型虽然能出色地连接图像与文本，但主要局限于英语环境；Multilingual-CLIP 通过替换并微调文本编码器，成功打破了这一语言壁垒，让用户可以用中文、瑞典语、俄语等一百多种语言直接检索图片，无需依赖翻译。

该项目核心解决了跨语言图文匹配难题，使得非英语用户也能充分利用大规模图像数据集（如 LAION-400M）进行高效搜索与分析。它特别适合 AI 开发者、研究人员以及需要构建多语言图像检索系统的设计师使用。开发者可以轻松调用其提供的 PyTorch 或 TensorFlow 代码，快速集成预训练模型到自己的应用中。

技术亮点在于，它巧妙地将 Hugging Face 上成熟的多语言 Transformer 模型（如 XLM-RoBERTa 和 LaBSE）作为文本编码器，与 OpenAI 的视觉编码器相结合，并在顶部添加线性层进行适配。这不仅保留了原模型强大的视觉理解能力，还赋予了其真正的全球化语言视野。无论是用于学术研究还是实际产品开发，Multilingual-CLIP 都为多模态人工智能的普及提供了便捷高效的解决方案。

使用场景

一家面向全球市场的跨境电商公司，需要让不同语言的用户都能通过自然语言描述快速检索到匹配的商品图片。

没有 Multilingual-CLIP 时

语言壁垒高筑：系统仅支持英语检索，法语、德语或中文用户必须先将查询词翻译成英文，否则无法找到任何结果。
开发成本高昂：团队需为每种目标语言单独训练或微调图像 - 文本模型，并维护多套独立的检索索引，服务器资源消耗巨大。
语义匹配偏差：简单的机器翻译往往丢失原文的语境和细微差别（如“复古风”与"vintage"的微妙差异），导致搜出的图片不相关。
响应延迟严重：用户查询需经过“翻译 API+ 英文检索”的双重链路，增加了网络请求次数，显著拖慢了页面加载速度。

使用 Multilingual-CLIP 后

原生多语言支持：直接利用预训练模型，用户用法语、瑞典语或俄语输入描述，即可在同一个向量空间中精准匹配到对应图片，无需任何翻译步骤。
架构统一简化：只需部署一套模型和索引，即可覆盖超过 100 种语言，大幅降低了运维复杂度和云计算成本。
跨语言语义对齐：基于对比学习训练，模型能深刻理解不同语言中相同的视觉概念，即使措辞不同也能召回高度相关的商品图。
实时检索体验：去除了中间翻译环节，查询请求一步到位，显著降低了延迟，让用户获得流畅的“即搜即得”体验。

Multilingual-CLIP 通过打破语言隔阂，让全球用户能用母语直接与视觉数据对话，极大地提升了跨国业务的搜索效率与用户体验。

运行环境要求

操作系统

未说明

GPU

可选（支持 CPU 运行）
若使用 GPU，需根据安装的 PyTorch/TensorFlow 版本配置对应的 CUDA 环境
README 示例中提及了 cudatoolkit=11.0（针对旧版遗留模型），新版模型未强制指定具体显卡型号或显存大小，但运行大型模型（如 ViT-L/14）建议具备足够显存

内存

未说明

依赖

notes该工具主要提供多语言文本编码器，可单独用于文本嵌入计算（无需 GPU）。安装时可选择 PyTorch 或 TensorFlow 后端。若需复现旧版模型或使用特定训练脚本，可能需要手动安装对应版本的 CUDA 工具包（如 11.0）。预训练模型托管在 Hugging Face，首次运行会自动下载。

python3.6.9

multilingual-clip

torch

transformers==4.8.1

tensorflow (可选)

快速开始

多语言CLIP

适用于任何语言的OpenAI CLIP文本编码器

在线演示 · 预训练模型 · 报告问题

概述

Alt text

OpenAI 最近发布了论文从自然语言监督中学习可迁移的视觉模型，其中他们介绍了CLIP（对比语言-图像预训练）模型。该模型通过使用对比学习目标来匹配文本和图像的相应向量表示，从而实现文本与图像之间的关联。 CLIP由两个独立的模型组成：视觉编码器和文本编码器。这两个模型是在惊人的4亿张图片及其对应的标题上进行训练的。自那以来，OpenAI发布了一系列较小的CLIP模型，这些模型可以在官方CLIP GitHub 上找到。

演示

使用M-CLIP进行多语言文本-图像检索的实时演示可以在这里找到！点击此处。这个演示由 Rom1504 创建，它允许你使用M-CLIP以多种语言搜索LAION-400M数据集。

本仓库包含

多种语言的预训练CLIP文本编码器
PyTorch 和 TensorFlow 推理代码
TensorFlow 训练代码

需求

虽然其他版本也可能同样适用，但我们主要使用了以下环境：

Python = 3.6.9
Transformers = 4.8.1

安装

pip install multilingual-clip torch

你也可以选择安装 tensorflow 而不是 torch。

推理使用

TensorFlow 的推理代码也包含在 inference_example.py 中。

from multilingual_clip import pt_multilingual_clip
import transformers

texts = [
    '三匹盲马正在聆听莫扎特。',
    '麋鹿是森林之王！',
    '北极熊如何在南极生活？',
    '你知道所有的北极熊都是左撇子吗？'
]
model_name = 'M-CLIP/XLM-Roberta-Large-Vit-L-14'

# 加载模型和分词器
model = pt_multilingual_clip.MultilingualCLIP.from_pretrained(model_name)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)

embeddings = model.forward(texts, tokenizer)
print(embeddings.shape)

开发环境安装

设置一个虚拟环境：

python3 -m venv .env
source .env/bin/activate
pip install -e .

预训练模型

每个文本编码器都是一个可在 Huggingface 上获取的Transformer模型，并在其顶部添加了一个线性层。有关特定模型的更多信息，请点击模型名称查看其模型卡片。

名称	模型基础	视觉模型	视觉维度	预训练语言	参数量
LABSE Vit-L/14	LaBSE	OpenAI ViT-L/14	768	109种语言	1.1亿
XLM-R Large Vit-B/32	XLM-Roberta-Large	OpenAI ViT-B/32	512	100种语言	3.44亿
XLM-R Large Vit-L/14	XLM-Roberta-Large	OpenAI ViT-L/14	768	100种语言	3.44亿
XLM-R Large Vit-B/16+	XLM-Roberta-Large	开放CLIP ViT-B-16-plus-240	640	100种语言	3.44亿

验证与训练曲线

以下是针对人工翻译的 MS-COCO 测试集的 Txt2Img @10-Recall 表格。

名称	英语	德语	西班牙语	法语	中文	意大利语	波兰语	韩语	俄语	土耳其语	日语
OpenAI CLIP Vit-B/32	90.3	-	-	-	-	-	-	-	-	-	-
OpenAI CLIP Vit-L/14	91.8	-	-	-	-	-	-	-	-	-	-
OpenCLIP ViT-B-16+-	94.3	-	-	-	-	-	-	-	-	-	-
LABSE Vit-L/14	91.6	89.6	89.5	89.9	88.9	90.1	89.8	80.8	85.5	89.8	73.9
XLM-R Large Vit-B/32	91.8	88.7	89.1	89.4	89.3	89.8	91.4	82.1	86.1	88.8	81.0
XLM-R Vit-L/14	92.4	90.6	91.0	90.0	89.7	91.1	91.3	85.2	85.8	90.3	81.9
XLM-R Large Vit-B/16+	95.0	93.0	93.6	93.1	94.0	93.1	94.4	89.0	90.0	93.0	84.2

这些模型的训练曲线可以在这份 Weights and Biases 报告中找到。其他未成功及正在进行的实验结果则可在 Weights and Biases 项目中查阅。

遗留用法与模型

较早版本的 M-CLIP 会将线性权重单独存储在 Huggingface 之外。而新模型则直接将其整合到 Huggingface 仓库中。有关这些旧模型的更多信息可在本节中找到。

点击查看更多信息

下载 CLIP 模型

$ conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0
$ pip install ftfy regex tqdm
$ pip install git+https://github.com/openai/CLIP.git

请将上述命令中的 cudatoolkit=11.0 替换为你机器上对应的 CUDA 版本，或者在无 GPU 的机器上安装时使用 cpuonly。更多信息请参阅官方 CLIP 仓库。

下载线性权重

# 线性模型权重
$ bash legacy_get-weights.sh

推理

from multilingual_clip import multilingual_clip

print(multilingual_clip.AVAILABLE_MODELS.keys())

model = multilingual_clip.load_model('M-BERT-Distil-40')

embeddings = model(['Älgen är skogens konung!', 'Wie leben Eisbären in der Antarktis?', 'Вы знали, что все белые медведи левши?'])
print(embeddings.shape)
# 输出：torch.Size([3, 640])

如需更详细的示例，比较文本嵌入与 CLIP 图像嵌入，请参阅此 Colab 笔记本。

遗留预训练模型

每个文本编码器都是一个可在 Huggingface 上找到的 Transformer 模型，并在其顶部附加了一个线性层。这两种模型均未经过广泛测试，但如需更多信息及特定模型的定性测试结果，请点击模型名称查看其模型卡片。

*** 下载新模型时，请务必更新至仓库的最新版本，并重新运行 Shell 脚本来下载线性权重。***

名称	模型基础	视觉模型	预训练语言	目标语言	参数量
多语言
M-BERT Distil 40	M-BERT Distil	RN50x4	101 种语言	40 种语言	6600 万
M-BERT Base 69	M-BERT Base	RN50x4	101 种语言	68 种语言	1.1 亿
M-BERT Base ViT-B	M-BERT Base	ViT-B/32	101 种语言	68 种语言	1.1 亿
单语言
Swe-CLIP 50 万	KB-BERT	RN50x4	瑞典语	瑞典语	1.1 亿
Swe-CLIP 200 万	KB-BERT	RN50x4	瑞典语	瑞典语	1.1 亿

训练新模型

此文件夹包含用于训练上述模型的代码。如果你想训练自己的模型，你需要完成以下步骤：

准备一组从英语翻译成你语言的句子对。
为英语句子计算常规的 CLIP 文本嵌入。
编辑 Training.py 以加载你的数据。
通过教师学习法训练一个新的 CLIP 文本编码器。

预计算的 CLIP 嵌入与翻译数据

此 Google Drive 文件夹包含大量来自 GCC + MSCOCO + VizWiz 图片说明的预计算 CLIP 文本嵌入。

该 Google Drive 文件夹还包含用于训练当前可用模型的翻译数据。祝你好运！

贡献

如果你已经训练了一款专属于你语言的 CLIP 文本编码器，或另一款覆盖此处未支持语言的模型，请随时与我们联系，我们将上传你的模型并署名，或直接链接到你已上传的模型。

联系方式

如对代码或与此 GitHub 页面相关的问题有任何疑问，请提交 issue。

如有其他事宜，欢迎直接联系我：Fredrik.Carlsson@ri.se

致谢

许可证

根据 MIT 许可证发布。更多信息请参阅 LICENSE 文件。

引用

如果您觉得本仓库有用，请考虑引用：

@InProceedings{carlsson-EtAl:2022:LREC,
  author    = {卡尔松，弗雷德里克 与 艾森，菲利普 与 雷卡塔蒂，法通 与 萨尔格伦，马格努斯},
  title     = {跨语言与多语言CLIP},
  booktitle      = {语言资源与评估会议论文集},
  month          = {6月},
  year           = {2022},
  address        = {法国马赛},
  publisher      = {欧洲语言资源协会},
  pages     = {6848--6854},
  abstract  = {长期以来，文本与视觉领域的关联研究最近迎来了一个关键性突破，即OpenAI发布了CLIP模型。该模型能够以前所未有的精度判断一段英文文本与给定图像的匹配程度。CLIP通过对比学习目标，在包含4亿张图像及其对应标题的大规模数据集上进行训练，其复杂性和规模使得复现工作尤其困难，特别是对于低资源语言而言。基于CLIP架构的模块化特性，我们提出利用跨语言教师学习方法，为多种非英语语言重新训练文本编码器。我们的方法无需图像数据，完全依赖机器翻译，从而避免了对目标语言数据的需求。实验表明，该方法能够在相对较低的计算成本下高效地训练出新的文本编码器，并且在多语言图像-文本检索任务中仍优于现有基线模型。},
  url       = {https://aclanthology.org/2022.lrec-1.739}
}

Multilingual-CLIP 快速上手指南

Multilingual-CLIP (M-CLIP) 是基于 OpenAI CLIP 架构的多语言文本编码器，支持将多种语言的文本映射到与图像相同的向量空间，从而实现跨语言的图文检索。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux, macOS 或 Windows
Python 版本: 推荐 Python 3.6.9 或更高版本
核心依赖:
- torch (PyTorch) 或 tensorflow
- transformers (Hugging Face)

注意：虽然其他版本可能也能运行，但官方测试环境为 Python 3.6.9 和 Transformers 4.8.1。

安装步骤

推荐使用 pip 进行安装。您可以选择安装 PyTorch 版本或 TensorFlow 版本。

方式一：安装 PyTorch 版本（推荐）

pip install multilingual-clip torch

方式二：安装 TensorFlow 版本

如果您更倾向于使用 TensorFlow，可以运行：

pip install multilingual-clip tensorflow

国内加速提示：如果下载速度较慢，建议使用国内镜像源（如清华源或阿里源）：
pip install multilingual-clip torch -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下是最简单的 PyTorch 推理示例，展示如何加载预训练模型并生成多语言文本嵌入向量。

代码示例

from multilingual_clip import pt_multilingual_clip
import transformers

# 准备多语言文本列表
texts = [
    'Three blind horses listening to Mozart.',
    'Älgen är skogens konung!',
    'Wie leben Eisbären in der Antarktis?',
    'Вы знали, что все белые медведи левши?'
]

# 指定模型名称 (此处以 XLM-Roberta-Large + ViT-L-14 为例)
model_name = 'M-CLIP/XLM-Roberta-Large-Vit-L-14'

# 加载模型与分词器
model = pt_multilingual_clip.MultilingualCLIP.from_pretrained(model_name)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)

# 生成嵌入向量
embeddings = model.forward(texts, tokenizer)

# 输出向量形状
print(embeddings.shape)

说明

模型选择：代码中的 model_name 可以从 Hugging Face Model Hub 中查找其他可用模型（如支持更多语种的 LABSE-Vit-L-14 等）。
输出结果：embeddings 是一个张量，形状为 [文本数量，向量维度]，可直接用于计算与图像向量的相似度。

版本历史

1.0.102022/06/02

1.0.82022/06/02

1.0.72022/06/02

1.0.62022/06/02

1.0.52022/06/02

1.0.42022/06/02

1.0.32022/06/02

1.0.22022/06/02

1.0.12022/06/02

1.0.02022/06/02

常见问题

是否提供训练或微调代码？

是否支持 ViT-B/32 视觉模型？

是否有针对资源较少语言表现更好的 XLM-Roberta 模型？

如何训练适配 ViT-L/14 的多语言文本编码器？

该项目是否有推荐的 BibTeX 引用格式？

项目的许可证是什么？微调后的权重也适用该许可证吗？

能否使用 Vicuna 等大语言模型作为文本编码器来计算嵌入向量？

如何获取 1024 维度的嵌入模型（如适配 AudioCLIP）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架