Qwen3-VL-Embedding

1.2k 90 中等 1 次阅读今天Apache-2.0其他

AI 解读由 AI 自动生成，仅供参考

Qwen3-VL-Embedding 是一款基于 Qwen3-VL 打造的先进多模态嵌入与重排序模型系列，旨在解决复杂场景下的信息检索难题。它能够同时理解文本、图片、截图及视频等多种输入形式，甚至能处理这些模态混合的内容，将不同形式的信息映射到统一的语义空间中，从而实现精准的跨模态匹配与检索。

该工具主要解决了传统检索系统难以跨越“文字”与“视觉”鸿沟的痛点。在实际应用中，Qwen3-VL-Embedding 负责初步召回，生成富含语义的向量；而配套的 Qwen3-VL-Reranker 则对候选结果进行二次精细排序，两者协同工作，显著提升了图文搜索、视频内容匹配及视觉问答等任务的准确率。

这款工具特别适合开发者、AI 研究人员以及需要构建高性能检索系统的工程师使用。无论是搭建支持全球 30 多种语言的跨国应用，还是优化现有的知识库检索流程，它都能提供强大支持。其技术亮点包括支持灵活调整向量维度的“套娃”表示学习（MRL）技术，以及在量化压缩后依然保持卓越性能的能力，便于在资源受限的环境中高效部署。通过简单的指令定制，用户还能针对特定任务进一步优化模型表现，是构建下一代多模态智能应用的理想基石。

使用场景

某跨境电商平台的智能客服团队正在构建一个支持图文混合检索的知识库系统，旨在让用户能通过上传商品截图或描述故障现象，快速定位到对应的维修视频或图文教程。

没有 Qwen3-VL-Embedding 时

跨模态检索失效：系统无法理解“这张屏幕碎裂的图片”与文本描述“显示屏物理损坏”之间的语义关联，导致用户上传图片后搜不到任何结果。
视频内容黑盒：海量的售后维修视频仅能依靠人工打标的标题进行匹配，无法深入理解视频画面中的具体操作步骤，检索准确率极低。
多语言支持薄弱：面对全球用户的英文、西班牙文等混合查询，旧模型难以在统一空间内对齐不同语言的文本与视觉特征，常出现漏检。
维护成本高昂：为了弥补算法缺陷，运营团队需人工为每张图片及视频片段编写大量关键词标签，耗时耗力且难以覆盖长尾问题。

使用 Qwen3-VL-Embedding 后

语义精准对齐：Qwen3-VL-Embedding 将图片、视频帧与多语言文本映射至同一向量空间，用户直接上传故障截图即可毫秒级召回相关的维修指南。
深度视频理解：模型能直接提取视频中的视觉语义，用户搜索“如何更换电池”时，系统能精准定位到视频中展示拆卸动作的具体片段，而非仅匹配标题。
全球化无缝体验：凭借对 30+ 种语言的支持，无论用户使用何种语言输入文本或搭配图片，Qwen3-VL-Embedding 均能实现高精度的跨模态检索。
流程自动化升级：无需人工手动打标，Qwen3-VL-Embedding 自动为新入库的图文及视频素材生成高质量向量索引，大幅降低了知识库的构建与维护门槛。

Qwen3-VL-Embedding 通过统一的跨模态语义表示，彻底打破了文本与视觉数据的壁垒，让非结构化多媒体内容的检索变得像文本搜索一样简单高效。

运行环境要求

操作系统

未说明

GPU

建议配备支持 Flash Attention 2 的 NVIDIA GPU（代码示例中提及），显存需求取决于模型大小（2B/8B）及是否使用量化，具体数值未明确说明

内存

未说明

依赖

notes项目推荐使用 'uv' 工具通过脚本自动安装依赖并创建虚拟环境。模型支持 2B 和 8B 两种参数量版本，输入支持文本、图像、截图和视频的多模态混合。若使用 vLLM 加速推理，需确保版本不低于 0.14.0。模型权重可从 Hugging Face 或 ModelScope 下载。

python未说明

torch

transformers

huggingface-hub

modelscope

vLLM (>=0.14.0, 可选)

快速开始

通义千问3-VL嵌入模型与重排模型

基于通义千问3-VL构建的最先进多模态嵌入和重排模型，支持文本、图像、截图、视频以及混合模态输入，适用于高级信息检索和跨模态理解任务。

概述

通义千问3-VL嵌入模型和重排模型系列是通义千问家族的最新成员，建立在近期开源的强大基础模型【通义千问3-VL】之上。该系列专为多模态信息检索和跨模态理解设计，可接受包括文本、图像、截图和视频在内的多种输入，同时也支持这些模态的混合输入。

延续我们面向文本的【通义千问3-嵌入】和【通义千问3-重排】系列的成功经验，这些多模态模型将业界领先的性能扩展到了视觉和视频理解任务中。两者的协同工作模式如下：嵌入模型负责生成语义丰富的向量，完成初步召回；而重排模型则通过精确的相关性打分进行二次排序，从而显著提升最终检索的准确性。

特性

🎨 多模态通用性：在一个统一的框架内无缝处理包含文本、图像、截图和视频的输入。在图像-文本检索、视频-文本匹配、视觉问答（VQA）以及多模态内容聚类等多样化任务中均达到行业领先水平。
🔄 统一表示空间：利用通义千问3-VL架构生成语义丰富的向量，在共享空间中同时捕捉视觉和文本信息，从而实现不同模态间高效的相似度估计与检索。
🎯 高精度重排：重排模型接受查询-文档对作为输入——其中查询和文档均可由任意单一或混合模态构成——并输出精确的相关性分数，以获得更优的检索结果。
🌍 出色的实用性：
- 支持超过30种语言，非常适合全球化应用
- 可自定义指令以针对特定任务进行优化
- 向量维度灵活，采用套娃式表征学习（MRL）
- 在量化嵌入下仍保持强劲性能，便于高效部署
- 易于集成到现有检索流程中

模型架构

模型规格

模型	参数量	层数	序列长度	嵌入维度	量化支持	MRL支持	指令感知
Qwen3-VL-Embedding-2B	20亿	28	32K	2048	✅	✅	✅
Qwen3-VL-Embedding-8B	80亿	36	32K	4096	✅	✅	✅
Qwen3-VL-Reranker-2B	20亿	28	32K	-	-	-	✅
Qwen3-VL-Reranker-8B	80亿	36	32K	-	-	-	✅

LoRA配置

模型	rank	alpha	target_modules
Qwen3-VL-Embedding	32	32	q_proj, v_proj, k_proj, up_proj, down_proj, gate_proj
Qwen3-VL-Reranker	32	32	q_proj, v_proj, k_proj, up_proj, down_proj, gate_proj

架构设计

Qwen3-VL-Embedding：双塔架构

接收单模态或混合模态输入，并将其映射为高维语义向量
从基础模型的最后一层提取对应[EOS]标记的隐藏状态向量，作为最终的语义表示
实现高效且独立的编码，满足大规模检索需求。

Qwen3-VL-Reranker：单塔架构

接收查询-文档对输入，并执行逐点重排
利用交叉注意力机制实现更深层次、更精细的跨模态交互与信息融合
通过预测特殊标记（“yes”和“no”）的生成概率来表达相关性得分。

功能对比

	Qwen3-VL-Embedding	Qwen3-VL-Reranker
核心功能	语义表示、嵌入生成	相关性评分、逐点重排
输入	单一模态或混合模态	查询-文档对，可含单模态或混合模态
架构	双塔	单塔
机制	高效检索	深度跨模态交互、精准对齐
输出	语义向量	相关性分数

两款模型均采用多阶段训练范式构建，充分利用了通义千问3-VL强大的通用多模态语义理解能力，为复杂的大规模多模态检索任务提供了高质量的语义表示和精确的重排机制。

安装

环境搭建

# 克隆仓库
git clone https://github.com/QwenLM/Qwen3-VL-Embedding.git
cd Qwen3-VL-Embedding

# 运行环境搭建脚本
bash scripts/setup_environment.sh

环境搭建脚本将自动完成以下操作：

如果尚未安装，则会安装uv
安装项目所需的所有依赖包

环境搭建完成后，请激活虚拟环境：

source .venv/bin/activate

下载模型

我们的模型在 Hugging Face 和 ModelScope 上均可获取。

模型	Hugging Face	ModelScope
Qwen3-VL-Embedding-2B	链接	链接
Qwen3-VL-Embedding-8B	链接	链接
Qwen3-VL-Reranker-2B	链接	链接
Qwen3-VL-Reranker-8B	链接	链接

安装下载依赖：

从 Hugging Face 下载：

uv pip install huggingface-hub

huggingface-cli download Qwen/Qwen3-VL-Embedding-2B --local-dir ./models/Qwen3-VL-Embedding-2B

从 ModelScope 下载：

uv pip install modelscope

modelscope download --model qwen/Qwen3-VL-Embedding-2B --local_dir ./models/Qwen3-VL-Embedding-2B

使用说明

快速入门

嵌入模型

Transformers 使用

import torch
from src.models.qwen3_vl_embedding import Qwen3VLEmbedder

model = Qwen3VLEmbedder(
    model_name_or_path="./models/Qwen3-VL-Embedding-2B",
    # flash_attention_2 用于更好的加速和内存节省
    # torch_dtype=torch.bfloat16, 
    # attn_implementation="flash_attention_2"
)

inputs = [{
    "text": "一位女士在日落时分的海滩上与她的狗玩耍。",
    "instruction": "检索与用户查询相关的图像或文本。",
}, {
    "text": "一位女士在阳光明媚的日落海滩上与她的金毛犬共享欢乐时光，狗狗伸出爪子，展现出温暖的陪伴与信任。"
}, {
    "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
}, {
    "text": "一位女士在阳光明媚的日落海滩上与她的金毛犬共享欢乐时光，狗狗伸出爪子，展现出温暖的陪伴与信任。",
    "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
}]

embeddings = model.process(inputs)
print(embeddings @ embeddings.T)

vLLM 使用

注意：需要 vLLM >= 0.14.0

有关嵌入模型的 vLLM 使用示例，请参阅 examples/embedding_vllm.ipynb。

重排序模型

Transformers 使用

import torch
from src.models.qwen3_vl_reranker import Qwen3VLReranker

model = Qwen3VLReranker(
    model_name_or_path="./models/Qwen3-VL-Reranker-2B",
    # flash_attention_2 用于更好的加速和内存节省
    # torch_dtype=torch.bfloat16, 
    # attn_implementation="flash_attention_2"
)

inputs = {
    "instruction": "检索与用户查询相关的图像或文本。",
    "query": {"text": "一位女士在日落时分的海滩上与她的狗玩耍。"},
    "documents": [
        {"text": "一位女士在阳光明媚的日落海滩上与她的金毛犬共享欢乐时光，狗狗伸出爪子，展现出温暖的陪伴与信任。"},
        {"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"},
        {"text": "一位女士在阳光明媚的日落海滩上与她的金毛犬共享欢乐时光，狗狗伸出爪子，展现出温暖的陪伴与信任。",
         "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}
    ],
    "fps": 1.0, 
    "max_frames": 64
}

scores = model.process(inputs)
print(scores)

vLLM 使用

注意：需要 vLLM >= 0.14.0

有关重排序模型的 vLLM 使用示例，请参阅 examples/reranker_vllm.ipynb。

模型输入规范

多模态对象

一个字典，可以包含以下键：

text: 文本输入，可以是字符串或字符串列表。
image: 图像输入，支持：
- 本地文件路径
- URL（网络路径）
- PIL.Image.Image 实例
- 以上任意组合的列表（多张图片）。
video: 视频输入，支持：
- 本地文件路径
- URL（网络路径）
- 视频帧序列（图像路径列表或 PIL.Image.Image 实例）
- 以上任意组合的列表（多段视频）。

注意：所有输入类型（文本、图像、视频）现在都支持单个对象和对象列表，允许您在一个请求中提供同类型的多个输入。例如，您可以传递多个图像的列表、多个文本字符串的列表，或多个视频的列表。

Instruction

任务描述，用于相关性评估（默认值为“表示用户的输入”）。

视频采样设置

仅当视频输入为视频文件时有效：

fps: 每秒采样帧数（帧/秒）。
max_frames: 最大采样帧数。

输入格式

嵌入模型：一个字典列表，其中每个字典包含：

指令（可选）
视频采样设置（可选）
多模态对象键（text、image 和/或 video）。

重排序模型：一个字典，包含：

query: 一个多模态对象。
documents: 多个多模态对象的列表。
instruction: 任务描述（可选）。
fps: 视频采样率（可选）。
max_frames: 最大帧数（可选）。

嵌入模型

模型初始化参数

Qwen3VLEmbedder(
    model_name_or_path="./models/Qwen3-VL-Embedding-2B",
    max_length=8192,           # 默认上下文长度
    min_pixels=4096,           # 输入图像的最小像素数
    max_pixels=1843200,        # 输入图像的最大像素数（相当于 1280×1440 分辨率）
    total_pixels=7864320,      # 输入视频的最大总像素数（模型内部乘以 2）
                              # 对于一段 16 帧的视频，每帧最多可有 983040 像素（1280×768 分辨率）
    fps=1.0,                   # 视频文件的默认采样帧率（帧/秒）
    max_frames=64,             # 视频输入的最大帧数
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2"
)

示例

嵌入模型

我们在此处提供了全面的示例 here，展示了跨不同模态的各种任务：

文本任务：

文本分类（AG News）
文本问答（SQuAD）
文本检索（MS MARCO）

图像任务：

图像分类（CIFAR-10）
图像问答（VQAv2）
图像检索（MS COCO）

视频和视觉文档任务的示例则在技术报告的附录中呈现。

此外，我们还提供了一个端到端的多模态 RAG 示例，使用 Qwen3-VL-Embedding、Qwen3-VL-Reranker 和 Qwen3-VL 这里。

重排序模型

我们在此处提供了全面的示例 here，展示了跨不同模态的各种任务：

文本任务：

文本检索（MS MARCO）

图像任务：

图像检索（MS COCO）

模型性能

嵌入模型

在 MMEB-V2 上的评估结果

MMEB-V2 基准测试的结果。除 IFM-TTE 外，所有模型均已在更新后的 VisDoc OOD 分割上重新评估。CLS：分类，QA：问答，RET：检索，GD：定位，MRET：时刻检索，VDR：ViDoRe，VR：VisRAG，OOD：分布外。

模型	模型大小	图像 CLS	图像 QA	图像 RET	图像 GD	图像总体	视频 CLS	视频 QA	视频 RET	视频 MRET	视频总体	VisDoc VDRv1	VisDoc VDRv2	VisDoc VR	VisDoc OOD	VisDoc 总体	全部
数据集数量 →		10	10	12	4	36	5	5	5	3	18	10	4	6	4	24	78
VLM2Vec	2B	58.7	49.3	65.0	72.9	59.7	33.4	30.5	20.6	30.7	28.6	49.8	13.5	51.8	48.2	44.0	47.7
VLM2Vec-V2	2B	62.9	56.3	69.5	77.3	64.9	39.3	34.3	28.8	36.8	34.6	75.5	44.9	79.4	62.2	69.2	59.2
GME-2B	2B	54.4	29.9	66.9	55.5	51.9	34.9	42.0	25.6	31.1	33.6	86.1	54.0	82.5	67.5	76.8	55.3
GME-7B	7B	57.7	34.7	71.2	59.3	56.0	37.4	50.4	28.4	37.0	38.4	89.4	55.6	85.0	68.3	79.3	59.1
Ops-MM-embedding-v1	8B	69.7	69.6	73.1	87.2	72.7	59.7	62.2	45.7	43.2	53.8	80.1	59.6	79.3	67.8	74.4	68.9
IFM-TTE	8B	76.7	78.5	74.6	89.3	77.9	60.5	67.9	51.7	54.9	59.2	85.2	71.5	92.7	53.3	79.5	74.1
RzenEmbed	8B	70.6	71.7	78.5	92.1	75.9	58.8	63.5	51.0	45.5	55.7	89.7	60.7	88.7	69.9	81.3	72.9
Seed-1.6-embedding-1215	未知	75.0	74.9	79.3	89.0	78.0	85.2	66.7	59.1	54.8	67.7	90.0	60.3	90.0	70.7	82.2	76.9
Qwen3-VL-Embedding-2B	2B	70.3	74.3	74.8	88.5	75.0	71.9	64.9	53.9	53.3	61.9	84.4	65.3	86.4	69.4	79.2	73.2
Qwen3-VL-Embedding-8B	8B	74.2	81.1	80.0	92.2	80.1	78.4	71.0	58.7	56.1	67.1	87.2	69.9	88.7	73.3	73.3	73.3

在 MMTEB 上的评估结果

MMTEB 基准测试的结果。

模型	大小	平均分（任务）	平均分（类型）	文本挖掘	分类	聚类	实例检索	多类别	成对分类	重排序	检索	STS
NV-Embed-v2	7B	56.3	49.6	57.8	57.3	40.8	1.0	18.6	78.9	63.8	56.7	71.1
GritLM-7B	7B	60.9	53.7	70.5	61.8	49.8	3.5	22.8	79.9	63.8	58.3	73.3
BGE-M3	0.6B	59.6	52.2	79.1	60.4	40.9	-3.1	20.1	80.8	62.8	54.6	74.1
multilingual-e5-large-instruct	0.6B	63.2	55.1	80.1	64.9	50.8	-0.4	22.9	80.9	62.6	57.1	76.8
gte-Qwen2-1.5B-instruct	1.5B	59.5	52.7	62.5	58.3	52.1	0.7	24.0	81.6	62.6	60.8	71.6
gte-Qwen2-7b-Instruct	7B	62.5	55.9	73.9	61.6	52.8	4.9	25.5	85.1	65.6	60.1	74.0
text-embedding-3-large	-	58.9	51.4	62.2	60.3	46.9	-2.7	22.0	79.2	63.9	59.3	71.7
Cohere-embed-multilingual-v3.0	-	61.1	53.2	70.5	63.0	46.9	-1.9	22.7	79.9	64.1	59.2	74.8
Gemini Embedding	-	68.4	59.6	79.3	71.8	54.6	5.2	29.2	83.6	65.6	67.7	79.4
Qwen3-Embedding-0.6B	0.6B	64.3	56.0	72.2	66.8	52.3	5.1	24.6	80.8	61.4	64.6	76.2
Qwen3-Embedding-4B	4B	69.5	60.9	79.4	72.3	57.2	11.6	26.8	85.1	65.1	69.6	80.9
Qwen3-Embedding-8B	8B	70.6	61.7	80.9	74.0	57.7	10.1	28.7	86.4	65.6	70.9	81.1
Qwen3-VL-Embedding-2B	2B	63.9	55.8	69.5	65.9	52.5	3.9	26.1	78.5	64.8	67.1	74.3
Qwen3-VL-Embedding-8B	8B	67.9	58.9	77.5	72.0	55.8	4.5	28.6	81.1	65.7	69.4	75.4

重排序模型

我们使用了来自 MMEB-v2 和 MMTEB 检索基准中各个子任务的数据集。对于视觉文档检索，我们采用了 JinaVDR 和 ViDoRe v3 数据集。我们的实验结果表明，所有 Qwen3-VL-Reranker 模型均持续优于基础嵌入模型和基线重排序模型，其中 8B 版本在大多数任务上取得了最佳性能。

模型	规模	MMEB-v2（检索）- 平均	MMEB-v2（检索）- 图像	MMEB-v2（检索）- 视频	MMEB-v2（检索）- 视觉文档	MMTEB（检索）	JinaVDR	ViDoRe(v3)
Qwen3-VL-Embedding-2B	2B	73.4	74.8	53.6	79.2	68.1	71.0	52.9
jina-reranker-m0	2B	-	68.2	-	85.2	-	82.2	57.8
Qwen3-VL-Reranker-2B	2B	75.2	74.0	53.2	83.2	70.0	80.9	60.8
Qwen3-VL-Reranker-8B	8B	79.2	78.2	61.0	85.8	74.9	83.6	66.7

评估复现

嵌入模型

我们基于 VLM2Vec 提供了针对 MMEB v2 基准的可复现评估代码。要复现结果，请按以下步骤操作：

下载评估数据：

bash data/evaluation/mmeb_v2/download_data.sh

运行评估：
```
bash scripts/evaluation/mmeb_v2/eval_embedding.sh
```
不带参数运行该脚本即可查看所需参数。脚本将自动评估各项任务并收集结果。

重排序模型

我们提供了针对 MMEB v2 检索子集的可复现评估代码。要复现结果，请按以下步骤操作：

下载评估数据：

bash data/evaluation/mmeb_v2/download_data.sh

运行评估：
```
bash scripts/evaluation/mmeb_v2/eval_reranker.sh
```
不带参数运行该脚本即可查看所需参数。脚本将自动评估各项任务并收集结果。

引用

@article{qwen3vlembedding,
  title={Qwen3-VL-Embedding 和 Qwen3-VL-Reranker：用于最先进的多模态检索与排序的统一框架},
  author={Li, Mingxin and Zhang, Yanzhao and Long, Dingkun and Chen, Keqin and Song, Sibo and Bai, Shuai and Yang, Zhibo and Xie, Pengjun and Yang, An and Liu, Dayiheng and Zhou, Jingren and Lin, Junyang},
  journal={arXiv},
  year={2026}
}

Qwen3-VL-Embedding 快速上手指南

Qwen3-VL-Embedding 与 Qwen3-VL-Reranker 是基于 Qwen3-VL 基座模型构建的最先进多模态嵌入和重排序模型系列。它们支持文本、图像、截图、视频及混合模态输入，专为高级信息检索和跨模态理解设计。

环境准备

系统要求: Linux / macOS / Windows (推荐 Linux)
Python 版本: 3.8+
核心依赖: PyTorch, Transformers, vLLM (可选，用于加速)
显存建议:
- 2B 模型：建议 8GB+ 显存
- 8B 模型：建议 16GB+ 显存 (使用量化或 FlashAttention 可降低需求)

安装步骤

1. 克隆项目并配置环境

项目提供了自动化脚本安装依赖（包含 uv 包管理器）。

# 克隆仓库
git clone https://github.com/QwenLM/Qwen3-VL-Embedding.git
cd Qwen3-VL-Embedding

# 运行环境设置脚本
bash scripts/setup_environment.sh

# 激活虚拟环境
source .venv/bin/activate

2. 下载模型（推荐国内镜像）

模型托管在 Hugging Face 和 ModelScope（魔搭社区）。国内用户强烈推荐使用 ModelScope 下载以获得更快速度。

方案 A：使用 ModelScope 下载（推荐）

# 安装 modelscope
uv pip install modelscope

# 下载 2B Embedding 模型示例
modelscope download --model qwen/Qwen3-VL-Embedding-2B --local_dir ./models/Qwen3-VL-Embedding-2B

其他模型下载地址参考：

Embedding-8B: qwen/Qwen3-VL-Embedding-8B

Reranker-2B: qwen/Qwen3-VL-Reranker-2B

Reranker-8B: qwen/Qwen3-VL-Reranker-8B

方案 B：使用 Hugging Face 下载

# 安装 huggingface-hub
uv pip install huggingface-hub

# 下载模型
huggingface-cli download Qwen/Qwen3-VL-Embedding-2B --local-dir ./models/Qwen3-VL-Embedding-2B

基本使用

以下示例展示如何使用 Transformers 后端进行最简单的嵌入生成和重排序操作。

1. 嵌入模型 (Embedding)

支持单模态（纯文本/纯图）及多模态混合输入。

import torch
from src.models.qwen3_vl_embedding import Qwen3VLEmbedder

# 初始化模型
model = Qwen3VLEmbedder(
    model_name_or_path="./models/Qwen3-VL-Embedding-2B",
    # 可选：开启 flash_attention_2 以加速并节省显存
    # torch_dtype=torch.bfloat16, 
    # attn_implementation="flash_attention_2"
)

# 准备输入数据 (支持文本、图片 URL/路径、混合输入)
inputs = [
    {
        "text": "A woman playing with her dog on a beach at sunset.",
        "instruction": "Retrieve images or text relevant to the user's query.",
    },
    {
        "text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust."
    },
    {
        "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
    },
    {
        "text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust.", 
        "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"
    }
]

# 生成嵌入向量
embeddings = model.process(inputs)

# 计算相似度矩阵示例
print(embeddings @ embeddings.T)

2. 重排序模型 (Reranker)

接收 (Query, Document) 对，输出相关性分数。支持多模态查询和多模态文档列表。

import torch
from src.models.qwen3_vl_reranker import Qwen3VLReranker

# 初始化模型
model = Qwen3VLReranker(
    model_name_or_path="./models/Qwen3-VL-Reranker-2B",
    # 可选：开启 flash_attention_2
    # torch_dtype=torch.bfloat16, 
    # attn_implementation="flash_attention_2"
)

# 准备输入数据
inputs = {
    "instruction": "Retrieve images or text relevant to the user's query.",
    "query": {"text": "A woman playing with her dog on a beach at sunset."},
    "documents": [
        {"text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust."},
        {"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"},
        {"text": "A woman shares a joyful moment with her golden retriever on a sun-drenched beach at sunset, as the dog offers its paw in a heartwarming display of companionship and trust.", 
         "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"}
    ],
    "fps": 1.0,      # 视频采样帧率 (若涉及视频)
    "max_frames": 64 # 视频最大采样帧数
}

# 获取重排序分数
scores = model.process(inputs)
print(scores)

输入格式说明

文本 (text): 字符串或字符串列表。
图像 (image): 本地路径、URL、PIL.Image 对象或其列表。
视频 (video): 本地路径、URL、帧序列列表或其列表。
指令 (instruction): 可选，用于指定任务类型（默认："Represent the user's input"）。

常见问题

如何在 vLLM 中部署 Qwen3-VL-Embedding 模型时解决 'language_model.lm_head.weight' 缺失的报错？

vLLM 0.14 版本尚未正式发布，如何安装以支持 Qwen3-VL-Embedding 的在线推理？

在没有安装 Flash Attention 的情况下，A100 GPU 上推理速度极慢（约 9 秒/图）该如何优化？

如何使用 Qwen3-VL-Embedding 实现“以图搜文”或计算图像与文本列表的相似度？

官方示例脚本与本地运行脚本得到的 Embedding 结果差异较大，原因是什么？

Qwen3-VL-Embedding 是否支持一次输入多张图片进行批量推理？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|2天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|昨天

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|6天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.3k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|6天前

开发框架其他

使用场景

没有 Qwen3-VL-Embedding 时

使用 Qwen3-VL-Embedding 后

运行环境要求

快速开始

通义千问3-VL嵌入模型与重排模型

目录

概述

特性

模型架构

模型规格

LoRA配置

架构设计

功能对比

安装

环境搭建

下载模型

使用说明

快速入门

嵌入模型

Transformers 使用

vLLM 使用

重排序模型

Transformers 使用

vLLM 使用

模型输入规范

多模态对象

Instruction

视频采样设置

输入格式

嵌入模型

模型初始化参数

示例

嵌入模型

重排序模型

模型性能

嵌入模型

在 MMEB-V2 上的评估结果

在 MMTEB 上的评估结果

重排序模型

评估复现

嵌入模型

重排序模型

引用

Qwen3-VL-Embedding 快速上手指南

环境准备

安装步骤

1. 克隆项目并配置环境

2. 下载模型（推荐国内镜像）

方案 A：使用 ModelScope 下载（推荐）

方案 B：使用 Hugging Face 下载

基本使用

1. 嵌入模型 (Embedding)

2. 重排序模型 (Reranker)

输入格式说明

常见问题

相似工具推荐

ML-For-Beginners

funNLP

cs-video-courses

ragflow

PaddleOCR

awesome-machine-learning