Awesome-RAG

1.1k 94 非常简单 1 次阅读今天CC0-1.0开发框架语言模型其他

AI 解读由 AI 自动生成，仅供参考

Awesome-RAG 是一份精心整理的生成式 AI 资源清单，专注于检索增强生成（RAG）技术。它就像一张详细的“生态地图”，汇集了构建 RAG 系统所需的工具、框架、架构模式、实战技巧及学习材料。

传统大语言模型往往受限于训练数据的截止时间，且容易产生“幻觉”或无法回答私有领域问题。Awesome-RAG 旨在解决这些痛点，帮助开发者通过动态检索外部知识库，让模型能够利用最新、特定领域或专有的信息进行回答。这不仅显著提升了回答的准确性，还降低了微调成本，并增强了数据来源的透明度与安全性。

这份资源特别适合 AI 开发者、研究人员以及希望将大模型落地到具体业务场景的技术团队。无论你是想从零开始搭建原型，还是寻求生产环境下的优化策略，都能在这里找到权威指南。其独特亮点在于内容覆盖极广，从基础的 Python 教程（如 LangChain、LlamaIndex 实战）到高级的架构设计、评估指标乃至生产级最佳实践，均提供了直接的链接与说明，是探索和建设 RAG 应用的一站式入门与进阶宝典。

使用场景

某金融科技公司的研发团队正急需构建一个能实时回答最新监管政策变化的智能客服系统，以应对频繁更新的合规要求。

没有 Awesome-RAG 时

技术选型迷茫：面对市面上繁杂的向量数据库和框架，团队花费数周试错，难以确定适合金融高隐私要求的架构组合。
幻觉问题频发：直接微调大模型成本高且更新滞后，导致客服经常编造不存在的法规条款，引发合规风险。
缺乏评估标准：不知道如何量化检索准确率，上线后无法判断回答是基于真实文档还是模型臆测。
开发效率低下：由于缺少权威的实战教程和最佳实践指引，初级工程师在数据清洗和提示词工程上反复踩坑。

使用 Awesome-RAG 后

架构快速落地：通过查阅 curated 的资源地图，团队迅速锁定了"LangChain+Chroma"的成熟方案，将原型开发周期从数周缩短至三天。
精准事实溯源：借鉴库中提供的先进检索技巧，系统能动态抓取最新监管文件，确保每条回答都有据可查，彻底消除幻觉。
科学效果评估：利用推荐的评估指标体系，团队建立了自动化测试流程，实时监控检索相关性，确保持续优化。
避坑指南齐全：参考生产环境最佳实践和生产级模式，直接规避了异步处理和数据安全等常见陷阱，提升了系统稳定性。

Awesome-RAG 不仅是一张资源清单，更是团队从概念验证到生产落地的加速引擎，让构建可信、实时的领域专家系统变得有章可循。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesAwesome-RAG 是一个 curated list（资源列表）仓库，而非单一的可执行软件工具。它主要收集了构建检索增强生成（RAG）系统所需的工具、框架、技术教程和学习资料链接（如 LangChain, LlamaIndex, Haystack 等）。因此，该仓库本身没有特定的操作系统、GPU、内存或 Python 版本要求。具体的运行环境需求取决于用户选择使用的下游框架或示例项目（例如 README 中提到的 LangChain-Chroma-RAG-demo）。部分列出的工具支持多种语言（如 Rust, TypeScript），不仅限于 Python。

python未说明

快速开始

😎 令人惊叹的检索增强生成（RAG）

这是一份精心整理的资源地图，涵盖了构建检索增强生成（RAG）系统所需的工具、框架、技术和学习资料。本仓库系统性地梳理了RAG生态，并提供了权威来源、教程和实现的链接，帮助您探索和开发RAG应用。

概述

**检索增强生成（RAG）**是生成式AI领域中的一项先进方法，它通过在生成过程中动态检索并整合来自外部知识源的相关上下文信息，从而增强大型语言模型（LLM）的能力。与仅依赖预训练知识的传统LLM不同，RAG系统能够让模型访问最新、特定领域或专有的信息，显著提升准确性、减少幻觉现象，并实现知识的实时更新。

主要优势

减少幻觉：使回答基于检索到的事实信息
领域适应性：无需微调即可让LLM处理专业领域知识
实时更新：无需重新训练模型即可引入最新信息
成本效益：相比针对特定任务进行微调更具经济性
透明度：为生成内容提供来源标注
隐私与安全：将敏感数据保留在私有知识库中

ℹ️ RAG概述

RAG解决了LLM的一个根本性局限：其静态的知识截止点以及无法访问外部信息的能力。传统的RAG实现通常采用一个检索流水线，在LLM的提示中加入来自知识库的上下文相关文档。例如，当询问关于某栋特定房屋的装修材料时，LLM可能具备一般的装修知识，但缺乏该房产的具体细节。而RAG系统则能够检索到相关文档（如建筑蓝图、材料规格、当地建筑规范等），从而提供准确且上下文感知的回答。

实现资源

Python教程与示例

完整的基础Python RAG实现：使用LangChain和Chroma的全栈RAG示例
LangChain RAG教程：构建RAG应用的全面指南
LlamaIndex RAG教程：使用LlamaIndex入门RAG
Haystack RAG流水线：利用Haystack构建RAG流水线

生产与最佳实践

生产级RAG模式与最佳实践：面向生产的RAG优化策略
LangChain生产指南：将LangChain应用部署至生产环境
Python异步编程最佳实践：编写高效的异步Python代码以支持AI应用

🏗️ 架构模式

根据具体需求，RAG系统可以采用多种架构模式：

朴素RAG：基础的“先检索后生成”流水线，未经过优化
高级RAG：结合查询重写、重排序和上下文压缩等技术
模块化RAG：由可组合的检索、排序和生成组件构成
代理式RAG：由LLM驱动的智能体动态做出检索决策
自适应RAG：模型能够自我反思检索质量并调整策略
图谱RAG：利用知识图谱进行结构化信息检索

🎯 高级方法

RAG 的实现方式复杂多样，从简单的文档检索到集成迭代反馈循环、多智能体系统和领域特定增强的高级技术不等。现代方法包括：

Vision-RAG：将整页内容嵌入为图像，使视觉模型可以直接进行推理，而无需解析文本-RAG。
缓存增强生成 (CAG)：将相关文档预加载到模型的上下文中，并存储推理状态（键值对 (KV) 缓存）。
代理式 RAG：也称为检索代理，能够对检索过程做出决策。
A-RAG：具有层次化检索接口（关键词、语义、块级）的代理式 RAG，使 LLM 代理能够在多个粒度上自主搜索和检索。（论文）
纠正式 RAG（CRAG）：在将检索到的信息整合到 LLM 回答之前对其进行纠正或优化的方法。
检索增强微调（RAFT）：专门针对增强检索和生成任务对 LLM 进行微调的技术。
自我反思式 RAG：根据模型性能反馈动态调整检索策略的模型。
RAG 融合：结合多种检索方法以改善上下文整合的技术。
时间增强型检索（TAR）：在检索过程中考虑时间敏感数据。
先规划后 RAG（PlanRAG）：针对复杂任务，在执行 RAG 之前加入规划阶段的战略。
GraphRAG：一种使用知识图谱来增强上下文整合和推理的结构化方法。
代码图谱-RAG：用于多语言代码库分析的知识图谱 RAG 系统。
FLARE：一种结合主动检索与增强生成的方法，以提高响应质量。
GNN-RAG：用于大型语言模型推理的图神经网络检索。
多模态 RAG：将 RAG 扩展到处理文本、图像和音频等多种模态。
VideoRAG：利用大型视频语言模型 (LVLMs) 将 RAG 扩展到视频领域，以检索和整合视觉及文本内容，实现多模态生成。
REFRAG：通过在生成前将检索到的上下文压缩为嵌入向量来优化 RAG 解码，从而在保持输出质量的同时降低延迟。
InstructRAG：通过基于指令的微调以及自合成的理由来提升检索和生成质量的 RAG 系统。

🧰 促进 RAG 的框架

Haystack：用于构建可定制且生产就绪的 LLM 应用程序的 LLM 协调框架。
LangChain：一个用于处理 LLM 的通用框架。
Semantic Kernel：微软提供的用于开发生成式 AI 应用程序的 SDK。
LlamaIndex：用于将自定义数据源连接到 LLM 的框架。
Dify：一个开源的 LLM 应用开发平台。
Cognita：一个开源的 RAG 框架，用于构建模块化且生产就绪的应用程序。
Verba：一个开源自带 RAG 功能的应用程序。
Mastra：用于构建 AI 应用程序的 TypeScript 框架。
Letta：一个开源框架，用于构建有状态的 LLM 应用程序。
Flowise：一个拖放式 UI，用于构建自定义的 LLM 流程。
Kreuzberg：一个多语言文档智能库（Rust 核心，附带 Python、TypeScript 和 Go 绑定），可以从 62 种以上的文档格式中提取文本、表格和元数据，用于 RAG 数据摄取管道。
Swiftide：一个用于构建模块化、流式 LLM 应用程序的 Rust 框架。
CocoIndex：一个用于为 AI 索引数据的 ETL 框架，例如 RAG；支持实时增量更新。
Pathway：一个高性能的开源 Python ETL 框架，采用 Rust 运行时，支持 300 多种数据源。
Pathway AI Pipelines：一个生产就绪的 RAG 框架，支持跨不同数据源的实时索引、检索和变更跟踪。
LiteLLM：一个统一的接口，用于连接多个 LLM 提供商（OpenAI、Anthropic、Hugging Face、Replicate），并提供日志记录、监控和成本跟踪功能。
Agentset：一个开源的生产就绪 RAG 平台，内置代理式推理、混合搜索和多模态支持。

🐍 RAG 的 Python 生态系统

Python 是目前 RAG 最成熟的生态系统，广泛支持 LLM、嵌入、向量数据库、评估以及生产工具。

请参阅完整指南：RAG 的 Python 生态系统

🛠️ 技术

数据清洗

数据清洗技术：用于优化输入数据并提升模型性能的预处理步骤。

提示工程

策略
- 标记与标签：为检索到的数据添加语义标签，以提升相关性。
- 思维链（CoT）：鼓励模型在给出答案前，逐步思考问题。
- 验证链（CoVe）：提示模型逐项验证其推理过程的准确性。
- 自我一致性：生成多条推理路径，并选择最一致的答案。
- 零样本提示：设计无需任何示例即可引导模型的提示。
- 少样本提示：在提示中提供少量示例，以展示期望的响应格式。
- 推理与行动（ReAct）提示：将推理（如思维链）与行动（如工具调用）相结合。
缓存
- 提示缓存：通过存储和重用预计算的注意力状态来优化大语言模型。
结构化
- 基于标记的对象表示法：一种紧凑且确定性的 JSON 格式，用于大语言模型的提示。

分块

分块策略是 RAG 系统设计中最关键的决策之一，它直接影响检索精度和上下文质量。最佳方法取决于文档类型、领域特征和查询模式。

固定大小分块
- 适用场景：结构不重要的简单、均匀文档
- 特点：将文本划分为大小一致的段落（通常 256–512 个 token），可配置 10%–20% 的重叠
- 优点：实现简单，分块大小可预测，处理效率高
- 缺点：可能分割句子或段落，丢失文档结构，容易打散语义单元
- 实现：CharacterTextSplitter（LangChain）、SentenceSplitter（LlamaIndex）
递归分块
- 适用场景：具有层次结构的文档（Markdown、HTML、代码）
- 特点：递归地按分隔符（段落→句子→词）拆分，直到达到所需的分块大小
- 优点：保留自然边界，尊重文档层次结构，语义连贯性更好
- 缺点：较为复杂，分块大小不一，需仔细配置分隔符
- 实现：RecursiveCharacterTextSplitter（LangChain）
基于文档的分块
- 适用场景：具有清晰章节的结构化文档（Markdown 标题、PDF 节、数据库记录）
- 特点：根据文档元数据、格式提示或结构元素进行分割
- 优点：保持文档结构，保留上下文，支持富含元数据的检索
- 缺点：需要结构化输入，可能导致分块过大或过小
- 实现：MarkdownHeaderTextSplitter（LangChain）
- 多模态：使用如 OpenCLIP 等模型处理图像和文本。
语义分块
- 适用场景：语义连贯性至关重要的文档（叙事性文本、技术文档）
- 特点：利用嵌入相似性识别自然的语义边界
- 优点：保留语义单元，适应内容变化，提高检索相关性
- 缺点：计算成本高，需使用嵌入模型，分块大小较难预测
- 最适合：对上下文保存要求极高的高质量检索场景。
代理式分块
- 适用场景：需要智能分割决策的复杂文档
- 特点：使用大语言模型分析内容，确定最优的分块边界
- 优点：高度自适应，理解上下文，能应用领域知识
- 缺点：成本高，处理速度慢，需访问大语言模型 API
- 最适合：标准分块方法失效的专业领域。

分块最佳实践：

重叠策略：使用 10%–20% 的重叠，以保持跨边界的内容连贯性。
大小优化：平衡分块大小（越大上下文越丰富，越小精度越高）。
元数据保留：在分块元数据中保留文档结构、标题和格式信息。
多粒度：考虑层次化方法（小分块用于检索，大分块用于提供上下文）。

嵌入

嵌入是 RAG 系统中语义搜索的基础。嵌入模型的选择显著影响检索质量。

模型选择
- MTEB 排行榜：全面评估嵌入模型在多个任务和语言上的表现。应选择在与您的应用场景相关的任务上表现优异的模型（如检索、聚类、分类）。
- 模型特性：从以下方面评估模型：
  - 维度：较高维度（768–1024）通常提供更好的质量，但会增加存储和计算成本。
  - 上下文长度：确保模型支持您的文档分块大小。
  - 多语言支持：国际应用需要多语言支持。
  - 领域专长：通用模型与特定领域模型（如科学、法律、医学）的区别。
自定义嵌入
- 微调：使用对比学习、三元组损失或监督微调，将预训练模型适配到您的领域。
- 从头训练：适用于有足够标注数据的高度专业化领域。
- 多模态嵌入：用于需要理解文本、图像或音频的应用场景（如 CLIP、ImageBind）。
- 集成方法：结合多种嵌入模型以提高鲁棒性。

檢索

搜尋方法
- 向量存儲平面索引
  - 簡單且高效的檢索方式。
  - 將內容向量化後以平面向量形式存儲。
- 層次索引檢索
  - 按照層次結構逐步縮小數據範圍。
  - 按照層次順序執行檢索。
- 假設性問題
  - 用於提高資料庫分塊與查詢之間的相似度（與 HyDE 相同）。
  - 使用大型語言模型為每個文本分塊生成具體問題。
  - 將這些問題轉換為向量嵌入。
  - 搜尋時，將查詢與該問題向量索引進行匹配。
- 假設性文檔嵌入 (HyDE)
  - 用於提高資料庫分塊與查詢之間的相似度（與假設性問題相同）。
  - 使用大型語言模型根據查詢生成一個假設的回答。
  - 將此回答轉換為向量嵌入。
  - 將查詢向量與假設回應向量進行比較。
- 由小到大檢索
  - 通過使用較小的分塊進行搜尋，而使用較大的分塊提供上下文來改進檢索效果。
  - 較小的子分塊引用較大的父分塊。
- 情境檢索
  - 通過保留通常在分塊過程中丟失的文檔上下文，提升 RAG 檢索的準確性。
  - 在嵌入和索引之前，每個文本分塊都會被添加一段由模型生成的簡短摘要，從而產生情境嵌入和情境 BM25。
  - 這種結合方法同時改善了語義和詞法匹配，並在與重新排序結合時降低了檢索失敗率。
- 自適應檢索
  - 在生成過程中動態決定何時以及檢索多少內容。
- 查詢重構與擴展
  - 在檢索前自動重寫或擴展查詢，以提高召回率。
  - 對於冗長或模糊的用戶查詢特別有用。
重新排序：通過對初始檢索到的文檔進行重新排序，優先選擇與查詢語義最相關的文檔，從而提升 RAG 流程中的搜尋結果。

回應品質與安全性

確保高品質、安全且可靠的回應對於生產環境下的 RAG 系統至關重要。

幻覺現象緩解
- 檢測技術：實施方法以識別模型何時生成無據可依的信息。
- 依據事實驗證：將生成的主張與檢索到的上下文進行交叉核對。
- 置信度評分：根據來源質量為生成的回應分配置信度分數。
- 來源歸屬：要求所有事實性主張都附有引用來源。
- 檢索品質：提高檢索精確度以降低幻覺風險。
安全防護機制
- 實施指南：全面的安全機制實施方法。
- 內容審查：在輸入和輸出階段過濾有害、偏見或不適當的內容。
- 偏見緩解：檢測並緩解檢索內容及生成回應中的偏見。
- 事實核查：將主張與權威來源或知識庫進行核對。
- 毒性檢測：使用分類器識別並過濾有毒內容。
提示注入預防
- 安全指南：理解並預防提示注入攻擊。
- 輸入驗證：嚴格驗證並淨化所有外部輸入，採用白名單、長度限制和模式匹配等方法。
- 內容分離：使用明確的分隔符、模板系統和基於角色的提示，將指令與用戶數據分開。
- 輸出監控：持續監控回應是否存在異常、意外行為或安全漏洞。
- 速率限制：實施速率限制和濫用檢測，以防止系統性攻擊。
- 沙盒隔離：將 LLM 的執行環境隔離，以限制成功注入可能造成的損害。

📊 指標與評估

嵌入相似度指標

這些指標用於衡量嵌入之間的相似度，對於評估 RAG 系統如何有效地檢索和整合外部文檔或資料來源至關重要。通過選擇合適的相似度指標，您可以優化 RAG 系統的性能和準確性。此外，您也可以根據特定領域的需求開發自定義指標，以捕捉領域特有的細節並提高相關性。

餘弦相似度
- 衡量多維空間中兩個向量夾角的餘弦值。
- 對於比較文本嵌入非常有效，因為向量的方向代表語義信息。
- 在 RAG 系統中常用於衡量查詢嵌入與文檔嵌入之間的語義相似度。
點積
- 計算兩個數列對應項乘積之和。
- 在向量歸一化的情況下，等同於餘弦相似度。
- 簡單高效，常與硬體加速結合，適用於大規模運算。
歐幾里得距離
- 計算歐幾里得空間中兩點之間的直線距離。
- 可用於嵌入比較，但在高維空間中可能會因「維度災難」而失去效用。
- 常用於降維後的 K-means 等聚類算法中。
傑卡德相似度
- 衡量兩個有限集合之間的相似度，即交集大小除以並集大小。
- 對於比較詞袋模型或 n 元組比較中的詞彙集合非常有用。
- 對於大型語言模型生成的連續型嵌入則不太適用。

注意：一般認為餘弦相似度和點積是衡量高維嵌入之間相似度最有效的指標。

响应评估指标

RAG 解决方案中的响应评估涉及使用多种指标来衡量语言模型输出的质量。以下是评估这些响应的结构化方法：

自动化基准测试
- BLEU： 评估机器生成文本与参考文本之间的 n-gram 重叠程度，从而反映其精确度。
- ROUGE: 通过比较 n-gram、跳过二元组或最长公共子序列与参考文本，来衡量召回率。
- METEOR： 专注于精确匹配、词干提取、同义词和对齐，主要用于机器翻译任务。
人工评估 由人工评价者根据以下方面对响应进行评估：
- 相关性： 与用户查询的一致性。
- 流畅性： 语法和风格质量。
- 事实准确性： 根据权威来源验证陈述的真实性。
- 连贯性： 响应内部的逻辑一致性。
具体方法包括：
- 标注队列： 为人工标注者提供一个简洁、定向的界面，以便将反馈附加到特定的运行记录上。
模型评估 利用预训练的评估工具，从多维度对比和衡量输出结果：
- TuringBench： 提供跨语言基准的全面评估。
- Hugging Face Evaluate： 计算输出与人类偏好的一致程度。
评估的关键维度
- ** groundedness（ groundedness）：** 评估响应是否完全基于提供的上下文。低 groundedness 可能表明系统依赖于幻觉或无关信息。
- 完整性： 衡量响应是否回答了查询的所有方面。
- 检索评分： 使用 AI 辅助的检索评分以及基于提示的意图验证。
- 利用率： 评估检索到的数据在多大程度上对响应有贡献。
- 分析： 利用 LLM 检查检索到的片段是否被纳入响应中。

工具

这些工具可以帮助您评估 RAG 系统的性能，从跟踪用户反馈到记录查询交互，并随时间比较多种评估指标。

LangFuse： 开源工具，用于跟踪 LLM 指标、可观测性和提示管理。
Opik： 开源平台，用于 LLM 的可观测性、评估和提示优化。
Ragas： 一个帮助评估 RAG 流程的框架。
LangSmith： 一个用于构建生产级 LLM 应用程序的平台，允许您密切监控和评估您的应用。
Hugging Face Evaluate： 用于计算 BLEU 和 ROUGE 等指标以评估文本质量的工具。
Weights & Biases： 跟踪实验、记录指标并可视化性能。

💾 数据库

向量数据库是 RAG 系统的关键组件，它们为嵌入提供高效的存储和相似性搜索能力。选择合适的数据库取决于规模、延迟要求、部署模式（云或本地）以及功能需求（混合搜索、过滤等）。以下列表列出了一些适用于 RAG 应用的数据库系统：

基准测试

选择向量数据库

分布式数据处理与服务引擎：

Apache Cassandra：分布式 NoSQL 数据库管理系统。
MongoDB Atlas：全球分布式的多模型数据库服务，集成向量搜索功能。
Vespa：开源的大数据处理与服务引擎，专为实时应用设计。

具备向量功能的搜索引擎：

Elasticsearch：提供传统搜索功能的同时，也具备向量搜索能力。
OpenSearch：从 Elasticsearch 分叉而来的分布式搜索与分析引擎。

向量数据库：

Chroma DB：一款面向 AI 的开源嵌入数据库。
Milvus：面向 AI 驱动应用的开源向量数据库。
Pinecone：无服务器架构的向量数据库，专为机器学习工作流优化。
Oracle AI 向量搜索：将向量搜索功能集成到 Oracle 数据库中，支持基于向量嵌入的语义查询。

关系型数据库扩展：

Pgvector：PostgreSQL 中用于向量相似性搜索的开源扩展。

其他数据库系统：

Azure Cosmos DB：全球分布式的多模型数据库服务，集成向量搜索功能。
Couchbase：分布式 NoSQL 云数据库。
Lantern：注重隐私的个人搜索引擎。
LlamaIndex：采用简单的内存向量存储，便于快速实验。
Neo4j：图数据库管理系统。
Qdrant：一款开源向量数据库，专为相似性搜索设计。
Redis Stack：作为数据库、缓存和消息代理使用的内存数据结构存储。
SurrealDB：一款可扩展的多模型数据库，针对时序数据进行了优化。
Weaviate：一款开源的云原生向量搜索引擎。

向量搜索库与工具：

FAISS：一个用于高效相似性搜索和密集向量聚类的库，专为大规模数据集设计，优化了最近邻快速检索。

🚀 生产注意事项

构建生产级 RAG 系统不仅需要关注核心的检索和生成流程，还需要解决以下几个关键问题：

可扩展性与性能

索引吞吐量：设计管道以处理高容量文档摄取，并支持增量更新
查询延迟：通过高效索引（HNSW、IVF）、缓存策略和并行处理优化检索速度
并发请求：在高流量场景下实施连接池、请求队列和负载均衡
资源管理：监控 GPU/CPU 利用率、内存消耗以及数据库连接池

可靠性与监控

可观测性：实现全面的日志记录、链路追踪和指标收集（延迟、吞吐量、错误率）
健康检查：监控嵌入服务可用性、向量数据库连接状态以及 LLM API 状态
错误处理：实现重试逻辑、熔断器和优雅降级策略
A/B 测试：比较不同的检索策略、分块方法和提示模板

数据管理

增量更新：支持实时或近实时的文档索引，无需全量重新索引
版本控制：跟踪文档版本、嵌入模型版本和提示模板
数据质量：实施验证管道，以检测损坏的嵌入、缺失的元数据或过时的内容
备份与恢复：定期备份向量索引和元数据存储

安全与合规

访问控制：实施身份验证、授权和审计日志记录
数据隐私：对静态和传输中的数据进行加密，支持数据本地化要求
内容过滤：应用内容审核、PII 检测和合规性检查
速率限制：防止滥用并确保公平的资源分配

成本优化

嵌入缓存：缓存频繁访问的嵌入，以降低 API 成本
选择性检索：使用查询路由避免不必要的检索操作
模型选择：在选择嵌入模型和 LLM 模型时，权衡成本与性能
资源合理化：根据实际使用情况优化基础设施

🔌 平台特定的 RAG 实现

有关特定平台的详细实现指南，请参阅文档：

Supabase 集成指南：使用 Supabase、pgvector 和 Edge Functions 构建 RAG 系统

💡 最佳实践

分块策略

领域感知分块：相较于固定大小的分块，采用语义或基于文档结构的分块方式，以更好地保留上下文
重叠管理：设置 10%-20% 的策略性重叠，以保持跨边界上下文连贯性
元数据保留：在分块元数据中保留文档结构、标题和格式提示
多粒度分块：考虑层次化分块（小块用于检索，大块用于提供上下文）

嵌入模型选择

模型评估：使用 MTEB 排行榜和领域特定基准测试来选择合适的模型
维度优化：在嵌入维度之间取得平衡（更高维数意味着更好质量，更低维数则检索更快）
领域微调：尽可能在领域特定数据上对嵌入进行微调
一致性：确保索引和查询时使用相同的嵌入模型

检索优化

混合搜索：结合语义（向量）和词汇（BM25/关键词）搜索，以提高召回率
重排序：应用交叉编码器或学习排序模型，以提升精确度
查询理解：实施查询分类、意图识别和查询扩展
结果多样化：通过实施多样性约束，避免重复结果

提示工程

清晰指令：明确指示如何使用检索到的上下文
来源标注：要求引用来源，并确保回答基于提供的上下文
少样本示例：提供展示期望响应格式和质量的示例
上下文压缩：当上下文超出限制时，使用摘要或提取等技术

评估框架

多维度指标：评估相关性、准确性、完整性以及回答的依据性
人机协作：纳入人工反馈以持续改进
合成评估：生成测试查询和预期输出，以进行自动化测试
生产监控：跟踪用户满意度、查询模式和故障类型

迭代改进

反馈循环：收集用户反馈、查询日志和性能指标
实验：通过受控实验系统地测试改进方案（分块、检索、提示）
模型更新：规划嵌入模型的升级及迁移策略
文档维护：保持架构、决策和操作流程的清晰文档

贡献

这是一个由社区驱动的资源，并将持续发展。欢迎贡献！如需添加资源、修复错误或改进组织结构：

克隆仓库
创建一个用于更改的分支
提交带有清晰描述的拉取请求

对于新增条目，请确保链接有效、描述准确简洁，并且内容符合相应章节的要求。

许可证

本项目采用 CC0 1.0 通用许可。

Awesome-RAG 快速上手指南

Awesome-RAG 并非一个单一的独立软件包，而是一个精选的检索增强生成（RAG）生态系统资源地图。它汇集了构建 RAG 系统所需的工具、框架、技术模式和最佳实践。本指南将指导你如何利用该仓库推荐的 Python 生态核心组件，快速搭建一个基础的 RAG 应用。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux, macOS 或 Windows (推荐 WSL2)
Python 版本: Python 3.9 或更高版本
包管理器: pip 或 conda
前置依赖:
- 基础 Python 开发环境
- 网络连接（用于下载模型和访问外部 API）
- (可选) GPU 支持（如需本地运行大型嵌入模型或 LLM）

国内加速建议：建议使用国内镜像源加速 Python 包的安装，例如阿里云或清华大学镜像源。

安装步骤

由于 Awesome-RAG 推荐了多种框架（如 LangChain, LlamaIndex, Haystack 等），这里以生态最成熟、文档最丰富的 LangChain + ChromaDB 组合为例进行安装。这是入门 RAG 最经典的技术栈。

创建虚拟环境（推荐）：

python -m venv rag-env
source rag-env/bin/activate  # Windows 用户请使用: rag-env\Scripts\activate

安装核心依赖：使用国内镜像源安装 LangChain、Chroma 向量数据库及相关嵌入模型支持。
```
pip install langchain langchain-community langchain-chroma langchain-openai tiktoken -i https://pypi.tuna.tsinghua.edu.cn/simple
```
注：如果你计划使用本地开源模型（如通过 Ollama 或 HuggingFace），还需安装 langchain-huggingface 或配置相应的本地服务。

基本使用

以下是一个最简单的 RAG 流程示例：加载文本数据 -> 存入向量数据库 -> 检索相关上下文 -> 生成回答。

1. 准备数据与初始化

创建一个名为 quick_start.py 的文件，并写入以下代码。此示例使用 LangChain 内置的文档加载器和 Chroma 作为内存向量存储。

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
import os

# 【重要】设置你的 API Key (以 OpenAI 为例，也可替换为其他兼容接口)
# 国内用户可使用中转服务或替换为本地模型端点
os.environ["OPENAI_API_KEY"] = "your-api-key-here"

# 1. 加载数据 (假设当前目录下有一个 data.txt 文件)
# 如果没有文件，可以先创建一个测试文件
with open("data.txt", "w", encoding="utf-8") as f:
    f.write("检索增强生成 (RAG) 是一种通过从外部知识库检索相关信息来增强大语言模型能力的技术。")
    f.write("它可以减少幻觉，提供实时信息，并允许模型访问私有数据。")

loader = TextLoader("data.txt", encoding="utf-8")
documents = loader.load()

# 2. 分割文本 (Chunking)
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 3. 初始化嵌入模型和向量数据库
# 注意：首次运行会下载嵌入模型或调用 API
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(documents=texts, embedding=embeddings)

# 4. 设置检索器
retriever = vectorstore.as_retriever(search_kwargs={"k": 1})

# 5. 构建生成链
template = """基于以下已知信息，简洁和专业地回答用户的问题。如果无法从中得到答案，请说“根据已知信息无法回答该问题”，不要编造答案。
已知信息：{context}
问题：{question}
"""
prompt = ChatPromptTemplate.from_template(template)

model = ChatOpenAI(model="gpt-3.5-turbo") # 或替换为你使用的模型

rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

# 6. 执行查询
query = "RAG 技术有什么主要好处？"
response = rag_chain.invoke(query)

print(f"问题：{query}")
print(f"回答：{response}")

2. 运行示例

在终端中执行脚本：

python quick_start.py

3. 下一步探索

完成上述基础示例后，你可以参考 Awesome-RAG 仓库中的其他章节进行深入：

架构模式: 尝试从 Naive RAG 升级到 Advanced RAG（增加重排序、查询改写）。
高级方法: 探索 Agentic RAG 或 GraphRAG 以处理更复杂的推理任务。
框架切换: 尝试使用 LlamaIndex 或 Haystack 重构上述流程，对比不同框架的特性。
生产部署: 参考仓库中的 "Production Considerations" 部分，学习如何优化延迟、监控成本及评估效果。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架