RAG-Retrieval

1.1k 89 中等 1 次阅读 4天前MIT其他图像开发框架语言模型Agent

AI 解读由 AI 自动生成，仅供参考

RAG-Retrieval 是一个专为检索增强生成（RAG）系统打造的一站式开源工具，旨在统一并简化检索模型的高效微调、推理与知识蒸馏流程。它主要解决了开发者在构建 RAG 应用时，面对嵌入模型（Embedding）、晚期交互模型（如 ColBERT）及重排序模型（Reranker）等多种架构时，训练代码分散、推理接口不统一的痛点。

该工具非常适合从事自然语言处理的研究人员、算法工程师以及希望优化搜索效果的 AI 开发者使用。其核心亮点在于提供了端到端的完整代码支持：在训练阶段，兼容各类开源模型（如 BGE、BCE、GTE 等），支持基于 BERT 或大语言模型（LLM）架构的微调；在推理阶段，通过轻量级 Python 库提供统一调用接口，极大降低了部署复杂度；此外，它还支持将大型模型的知识蒸馏至小型模型，以平衡性能与效率。近期更新更涵盖了针对位置偏差的实证研究及 MRL 损失函数实现，展现了其在前沿技术探索上的深度。RAG-Retrieval 以简洁优雅的代码结构著称，让用户能轻松上手并根据需求灵活定制。

使用场景

某电商公司的算法团队正在构建新一代智能客服系统，需要让大模型基于海量商品文档精准回答用户咨询。

没有 RAG-Retrieval 时

模型适配繁琐：团队尝试了 BGE、BCE 等多种开源嵌入和重排序模型，但每个模型的训练代码和推理接口各不相同，导致重复开发工作量巨大。
检索精度瓶颈：仅使用基础的向量检索（Embedding）难以处理复杂的长尾查询，缺乏高效的 ColBERT 或重排序（Reranker）模块来优化最终结果，用户常收到不相关的商品链接。
资源与性能失衡：想要提升精度只能部署超大模型，导致推理延迟高；想降低延迟又缺乏将大模型能力蒸馏到小模型（如 BERT-Base）的标准流程，陷入两难。
实验迭代缓慢：由于缺乏统一的微调框架，验证新的检索策略（如基于 LLM 偏好的监督微调）需要数周时间重构代码，严重拖慢产品上线节奏。

使用 RAG-Retrieval 后

统一训练与推理：利用 RAG-Retrieval 端到端支持 Embedding、ColBERT 和 Reranker 的特性，团队用同一套代码库完成了多种模型的微调和蒸馏，并通过其轻量级 Python 库统一了所有模型的调用方式。
检索效果显著跃升：通过引入 RAG-Retrieval 优化的重排序模型和 ColBERT 架构，系统在复杂查询下的召回准确率提升了 30%，有效解决了“答非所问”的痛点。
高效模型蒸馏：借助内置的蒸馏功能，成功将大型 LLM 重排序模型的能力迁移至小型 BERT 模型，在保持高精度的同时将推理延迟降低了 60%。
敏捷策略验证：简单的代码结构让团队能在几天内完成从数据准备到基于 LLM 偏好微调的全流程，快速验证了多种检索增强策略并落地生产。

RAG-Retrieval 通过统一高效的微调与推理框架，帮助团队以最低成本实现了检索精度的最大化与工程落地的最简化。

运行环境要求

操作系统

未说明

GPU

训练阶段必需（支持多 GPU，包含 DeepSpeed、FSDP 策略）
推理阶段视模型大小而定
具体显卡型号、显存大小及 CUDA 版本未在文中明确指定，但建议手动安装与本地 CUDA 兼容的 torch 版本

内存

未说明

依赖

notes1. 为避免自动安装的 torch 与本地 CUDA 不兼容，强烈建议在运行下一步之前手动安装兼容版本的 torch。 2. 支持多种模型架构的微调（Embedding、ColBERT、Reranker）及蒸馏（从大模型到 0.5B LLM 或 BERT-base）。 3. 提供轻量级推理库 'rag-retrieval'，统一调用各类 RAG 排序模型。 4. 训练时需进入对应的子目录（如 rag_retrieval/train/embedding）执行脚本。

python3.8+

torch

requirements.txt 中定义的其他依赖

快速开始

RAG-检索

English | 中文

RAG-检索提供RAG检索模型的训练、推理和蒸馏的端到端代码。

在训练方面，RAG-检索支持任何开源RAG检索模型的微调，包括嵌入模型（图a，基于BERT、基于LLM）、晚期交互模型（图d，ColBERT）以及重排序模型（图c，基于BERT、基于LLM）。
在推理方面，RAG-检索专注于重排序，并开发了一个轻量级的Python库rag-retrieval，该库提供了一种统一的方式来调用任何不同的RAG重排序模型。
在蒸馏方面，支持嵌入模型和重排序模型的蒸馏，可以将较大的模型蒸馏为较小的模型（0.5B参数的LLM或BERT-base）。

ColBERT

社区交流

加入我们的微信群聊

新闻

🔥 22/05/2025: RAG-检索发布了《短视陷阱》，这是一项关于整个IR流程中位置偏差的实证研究。我们系统地评估了一系列SOTA检索模型——包括BM25、密集嵌入、ColBERT风格模型和重排序器——在两个精心设计的位置感知基准测试集上：SQuAD-PosQ和FineWeb-PosQ。了解更多
29/12/2024: RAG-检索发布了Stella和Jasper嵌入模型的核心训练代码（stage3）Jasper和Stella：SOTA嵌入模型的蒸馏。
21/10/2024: RAG-检索发布了两种基于LLM的重排序任务方法，以及一种将其蒸馏为BERT的方法。LLM在重排序任务中的最佳实践？一份简单的实验报告（附代码）
05/06/2024: RAG-检索实现了用于嵌入模型的MRL损失函数。RAG-检索：让MRL损失成为向量（嵌入）模型训练的标准
02/06/2024: RAG-检索实现了基于LLM偏好的监督微调的RAG检索器。RAG-检索实现基于LLM偏好的监督微调的RAG检索器
05/05/2024: RAG-检索发布了一个轻量级的Python库。RAG-检索：你的RAG应用值得一个更好的推理框架
18/03/2024: RAG-检索发布知乎上的RAG-检索介绍

特性

简单而优雅：摒弃复杂性，采用简单易懂的代码结构，便于修改。
支持RAG检索模型的端到端微调：嵌入模型（基于BERT、基于LLM）、晚期交互模型（ColBERT）以及重排序模型（基于BERT、基于LLM）。
支持任何开源RAG检索模型的微调：兼容大多数开源嵌入和重排序模型，例如：bge（bge-embedding、bge-m3、bge-reranker）、bce（bce-embedding、bce-reranker）、gte（gte-embedding、gte-multilingual-reranker-base）。
支持将大模型蒸馏为小模型：能够将较大的基于LLM的重排序或嵌入模型蒸馏为较小的模型（如0.5B参数的LLM或BERT-base）。
先进算法：对于嵌入模型，支持使用MRL算法来降低输出向量的维度，以及Stella蒸馏方法。
多GPU训练策略：包含deepspeed、fsdp。

快速入门

安装

用于训练（全部）：

conda create -n rag-retrieval python=3.8 && conda activate rag-retrieval
# 为了避免自动安装的torch与本地cuda不兼容，建议手动安装兼容版本的torch后再进行下一步。
pip install -r requirements.txt

用于预测（重排序）：

# 为了避免自动安装的torch与本地cuda不兼容，建议手动安装兼容版本的torch后再进行下一步。
pip install rag-retrieval

训练

针对不同类型的模型，请进入不同的子目录。例如：对于嵌入，其他类型也类似。详细步骤可在各子目录的README文件中找到。

cd ./rag_retrieval/train/embedding
bash train_embedding.sh

推理

RAG-检索开发了一个轻量级的Python库rag-retrieval，它提供了一个统一的接口来调用各种RAG重排序模型，具有以下特点：

支持多种重排序模型：兼容常见的开源重排序模型（交叉编码器重排序器、仅解码器LLM重排序器）。
对长文档友好：支持两种不同的处理逻辑来应对长文档（最大长度截断和拆分以取最高分）。
易于扩展：如果有新的重排序模型，用户只需继承BaseReranker并实现rank和compute_score函数即可。

有关rag-retrieval包的详细使用方法和注意事项，请参阅教程

实验结果

重排序模型在 MTEB 重排序任务上的结果

模型	模型大小(GB)	T2重排序	MMarco重排序	CMedQA v1	CMedQA v2	平均
bge-reranker-base	1.11	67.28	35.46	81.27	84.10	67.03
bce-reranker-base_v1	1.11	70.25	34.13	79.64	81.31	66.33
rag-retrieval-reranker	0.41	67.33	31.57	83.54	86.03	67.12

其中，rag-retrieval-reranker 是基于 hfl/chinese-roberta-wwm-ext 模型，使用 RAG-Retrieval 代码进行训练的结果，训练数据采用了 bge-rerank 模型的训练数据。

Colbert 模型在 MTEB 重排序任务中的结果

模型	模型大小(GB)	维度	T2重排序	MMarco重排序	CMedQA v1	CMedQA v2	平均
bge-m3-colbert	2.24	1024	66.82	26.71	75.88	76.83	61.56
rag-retrieval-colbert	0.41	1024	66.85	31.46	81.05	84.22	65.90

其中，rag-retrieval-colbert 是基于 hfl/chinese-roberta-wwm-ext 模型，使用 RAG-Retrieval 代码进行训练的结果，训练数据采用了 bge-rerank 模型的训练数据。

使用领域数据微调开源 BGE 系列模型

模型	T2重排序
bge-v1.5-embedding	66.49
bge-v1.5-embedding 微调	67.15	+0.66
bge-m3-colbert	66.82
bge-m3-colbert 微调	67.22	+0.40
bge-reranker-base	67.28
bge-reranker-base 微调	67.57	+0.29

末尾标注“微调”的数字表示我们使用了 RAG-Retrieval 对相应开源模型进行了微调，训练数据为 T2-重排序的训练集。

值得注意的是，bge 的三个开源模型的训练集中已经包含了 T2-重排序的数据，且数据较为通用，因此使用该数据进行微调后的性能提升并不显著。然而，如果使用垂直领域的数据集对开源模型进行微调，则性能提升会更加明显。

引用

如果您觉得本仓库有所帮助，请引用我们的工作：

@misc{zhang2025jasperstelladistillationsota,
      title={Jasper and Stella: distillation of SOTA embedding models}, 
      author={Dun Zhang and Jiacheng Li and Ziyang Zeng and Fulong Wang},
      year={2025},
      eprint={2412.19048},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2412.19048}, 
}

致谢

在开发过程中，我们借鉴或基于以下项目的实现。我们衷心感谢这些团队为开源研究与开发所做出的贡献。

星标历史

许可证

RAG-Retrieval 采用 MIT 许可证许可。

RAG-Retrieval 快速上手指南

RAG-Retrieval 是一个端到端的工具库，支持 RAG 检索模型（Embedding、ColBERT、Reranker）的训练、推理和蒸馏。它兼容主流开源模型（如 BGE、BCE、GTE 系列），并提供统一的推理接口。

1. 环境准备

操作系统: Linux / macOS / Windows
Python 版本: 推荐 Python 3.8+
硬件要求:
- 训练: 需要 NVIDIA GPU，建议安装与本地 CUDA 版本匹配的 PyTorch。
- 推理: CPU 或 GPU 均可运行。
前置依赖: 建议先手动安装适配本地环境的 torch，以避免自动安装版本不兼容的问题。

2. 安装步骤

场景 A：模型训练 (Training)

如果你需要微调 Embedding、ColBERT 或 Reranker 模型，请执行以下命令：

# 创建并激活虚拟环境
conda create -n rag-retrieval python=3.8 && conda activate rag-retrieval

# 【重要】建议先手动安装与你本地 CUDA 版本匹配的 torch，例如：
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目依赖
pip install -r requirements.txt

国内加速提示：如遇网络问题，可使用清华源或阿里源安装依赖： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

场景 B：模型推理 (Inference)

如果你仅需使用现成的 Reranker 模型进行排序推理，可直接安装轻量级 Python 库：

# 【重要】同样建议先手动安装适配的 torch

# 安装推理库
pip install rag-retrieval

3. 基本使用

3.1 训练模型 (Training)

RAG-Retrieval 将不同模型的训练代码分置于子目录中。以下以 Embedding 模型 的微调为例：

# 进入 Embedding 训练目录
cd ./rag_retrieval/train/embedding

# 执行训练脚本 (请根据实际需求修改 train_embedding.sh 中的参数)
bash train_embedding.sh

注：ColBERT 和 Reranker 的训练方式类似，只需进入对应的 train/colbert 或 train/reranker 目录即可。具体参数配置请参考各子目录下的 README。

3.2 模型推理 (Inference)

安装 rag-retrieval 包后，你可以使用统一的接口调用各种开源 Reranker 模型（支持 Cross Encoder 和 LLM-based 模型）。

以下是一个最简单的 Python 使用示例：

from rag_retrieval import Reranker

# 初始化 Reranker，自动加载默认模型或指定本地/HF 模型路径
# 支持长文档处理策略（截断或分段取最大分）
reranker = Reranker('BAAI/bge-reranker-base', device='cuda') 

# 准备查询和候选文档列表
query = "什么是人工智能？"
documents = [
    "人工智能是计算机科学的一个分支。",
    "今天天气真不错。",
    "深度学习是人工智能的重要子领域。"
]

# 执行排序
results = reranker.rank(query=query, docs=documents)

# 输出结果
for res in results:
    print(f"文档: {res['text']}, 得分: {res['score']}")

特性说明：

多模型兼容: 支持 bge-reranker, bce-reranker, gte-reranker 等主流模型。
长文档友好: 内置处理超长文本的逻辑（最大长度截断或切片后取最高分）。
易于扩展: 若有新模型，只需继承 BaseReranker 类并实现 rank 和 compute_score 方法即可。

更多高级用法（如自定义打分策略、批量处理等）请参考官方 Reranker 教程。

版本历史

rag_retrieval_only_train2024/05/04

常见问题

如何构建自己的微调数据集？

为什么 Reranker 微调时 Listwise Loss 会导致召回率骤降或不稳定？

训练 m3e-base 或其他模型时 Loss 出现 NaN 怎么办？

在小数据集上进行知识蒸馏（Distillation）效果不好或 Loss 为 NaN 是什么原因？

为什么该框架的训练速度比其他代码（如 FlagEmbedding）慢很多？

微调 BGE 系列模型时报错或无法启动，如何解决配置文件问题？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像