[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-datawhalechina--all-in-rag":3,"tool-datawhalechina--all-in-rag":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160411,2,"2026-04-18T23:33:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":88,"forks":89,"last_commit_at":90,"license":77,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":105,"github_topics":107,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":117,"updated_at":118,"faqs":119,"releases":150},9357,"datawhalechina\u002Fall-in-rag","all-in-rag","🔍大模型应用开发实战一：RAG 技术全栈指南，在线阅读地址：https:\u002F\u002Fdatawhalechina.github.io\u002Fall-in-rag\u002F","all-in-rag 是一套专为大模型应用开发者打造的检索增强生成（RAG）技术全栈指南。它致力于解决当前 RAG 学习资源零散、缺乏系统性以及难以落地生产级应用的痛点，帮助使用者从理论认知平滑过渡到工程实践。\n\n该项目非常适合具备 Python 基础的 AI 工程师、希望构建智能问答系统的产品开发者，以及对检索增强生成技术有深入研究需求的研究人员。通过 all-in-rag，用户能够系统掌握从数据清洗、文本分块、向量索引构建，到混合检索、Text2SQL 高级查询及系统评估优化的完整闭环技能。\n\n其核心亮点在于构建了“理论 + 实战”并重的学习体系：不仅深入浅出地解析了 RAG 的核心原理，还提供了丰富的项目案例和多模态（文本 + 图像）检索支持。内容涵盖从基础入门到生产就绪的工程化最佳实践，旨在帮助用户独立搭建高效、可靠的智能知识检索系统，是通往 RAG 技术精通之路的实用路线图。","# All-in-RAG | 大模型应用开发实战一：RAG技术全栈指南\n\n\u003Cdiv align='center'>\n  \u003Cimg src=\".\u002Fdocs\u002Flogo.svg\" alt=\"All-in-RAG Logo\" width=\"70%\">\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Ch2>🔍 检索增强生成 (RAG) 技术全栈指南\u003C\u002Fh2>\n  \u003Cp>\u003Cem>从理论到实践，从基础到进阶，构建你的RAG技术体系\u003C\u002Fem>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fdatawhalechina\u002Fall-in-rag?style=for-the-badge&logo=github&color=ff6b6b\" alt=\"GitHub stars\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fdatawhalechina\u002Fall-in-rag?style=for-the-badge&logo=github&color=4ecdc4\" alt=\"GitHub forks\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.12.7-blue?style=for-the-badge&logo=python&logoColor=white\" alt=\"Python\"\u002F>\n  \u003Ca href=\"https:\u002F\u002Fzread.ai\u002Fdatawhalechina\u002Fall-in-rag\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FAsk_Zread-_.svg?style=for-the-badge&color=00b0aa&labelColor=000000&logo=data%3Aimage%2Fsvg%2Bxml%3Bbase64%2CPHN2ZyB3aWR0aD0iMTYiIGhlaWdodD0iMTYiIHZpZXdCb3g9IjAgMCAxNiAxNiIgZmlsbD0ibm9uZSIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj4KPHBhdGggZD0iTTQuOTYxNTYgMS42MDAxSDIuMjQxNTZDMS44ODgxIDEuNjAwMSAxLjYwMTU2IDEuODg2NjQgMS42MDE1NiAyLjI0MDFWNC45NjAxQzEuNjAxNTYgNS4zMTM1NiAxLjg4ODEgNS42MDAxIDIuMjQxNTYgNS42MDAxSDQuOTYxNTZDNS4zMTUwMiA1LjYwMDEgNS42MDE1NiA1LjMxMzU2IDUuNjAxNTYgNC45NjAxVjIuMjQwMUM1LjYwMTU2IDEuODg2NjQgNS4zMTUwMiAxLjYwMDEgNC45NjE1NiAxLjYwMDFaIiBmaWxsPSIjZmZmIi8%2BCjxwYXRoIGQ9Ik00Ljk2MTU2IDEwLjM5OTlIMi4yNDE1NkMxLjg4ODEgMTAuMzk5OSAxLjYwMTU2IDEwLjY4NjQgMS42MDE1NiAxMS4wMzk5VjEzLjc1OTlDMS42MDE1NiAxNC4xMTM0IDEuODg4MSAxNC4zOTk5IDIuMjQxNTYgMTQuMzk5OUg0Ljk2MTU2QzUuMzE1MDIgMTQuMzk5OSA1LjYwMTU2IDE0LjExMzQgNS42MDE1NiAxMy43NTk5VjExLjAzOTlDNS42MDE1NiAxMC42ODY0IDUuMzE1MDIgMTAuMzk5OSA0Ljk2MTU2IDEwLjM5OTlaIiBmaWxsPSIjZmZmIi8%2BCjxwYXRoIGQ9Ik0xMy43NTg0IDEuNjAwMUgxMS4wMzg0QzEwLjY4NSAxLjYwMDEgMTAuMzk4NCAxLjg4NjY0IDEwLjM5ODQgMi4yNDAxVjQuOTYwMUMxMC4zOTg0IDUuMzEzNTYgMTAuNjg1IDUuNjAwMSAxMS4wMzg0IDUuNjAwMUgxMy43NTg0QzE0LjExMTkgNS42MDAxIDE0LjM5ODQgNS4zMTM1NiAxNC4zOTg0IDQuOTYwMVYyLjI0MDFDMTQuMzk4NCAxLjg4NjY0IDE0LjExMTkgMS42MDAxIDEzLjc1ODQgMS42MDAxWiIgZmlsbD0iI2ZmZiIvPgo8cGF0aCBkPSJNNCAxMkwxMiA0TDQgMTJaIiBmaWxsPSIjZmZmIi8%2BCjxwYXRoIGQ9Ik00IDEyTDEyIDQiIHN0cm9rZT0iI2ZmZiIgc3Ryb2tlLXdpZHRoPSIxLjUiIHN0cm9rZS1saW5lY2FwPSJyb3VuZCIvPgo8L3N2Zz4K&logoColor=ffffff\" alt=\"zread\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fdatawhalechina.github.io\u002Fall-in-rag\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📖_在线阅读-立即开始-success?style=for-the-badge&logoColor=white\" alt=\"在线阅读\"\u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"README_en.md\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌍_English-Version-blue?style=for-the-badge&logoColor=white\" alt=\"English Version\"\u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatawhalechina\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬_讨论交流-加入我们-purple?style=for-the-badge&logoColor=white\" alt=\"讨论交流\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Cbr>\n  \u003Ctable>\n    \u003Ctr>\n      \u003Ctd align=\"center\">🎯 \u003Cstrong>系统化学习\u003C\u002Fstrong>\u003Cbr>完整的RAG技术体系\u003C\u002Ftd>\n      \u003Ctd align=\"center\">🛠️ \u003Cstrong>动手实践\u003C\u002Fstrong>\u003Cbr>丰富的项目案例\u003C\u002Ftd>\n      \u003Ctd align=\"center\">🚀 \u003Cstrong>生产就绪\u003C\u002Fstrong>\u003Cbr>工程化最佳实践\u003C\u002Ftd>\n      \u003Ctd align=\"center\">📊 \u003Cstrong>多模态支持\u003C\u002Fstrong>\u003Cbr>文本+图像检索\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n## 项目简介（中文 | [English](README_en.md)）\n\n本项目是一个面向大模型应用开发者的RAG（检索增强生成）技术全栈教程，旨在通过体系化的学习路径和动手实践项目，帮助开发者掌握基于大语言模型的RAG应用开发技能，构建生产级的智能问答和知识检索系统。\n\n**主要内容包括：**\n\n1. **RAG技术基础**：深入浅出地介绍RAG的核心概念、技术原理和应用场景\n2. **数据处理全流程**：从数据加载、清洗到文本分块的完整数据准备流程\n3. **索引构建与优化**：向量嵌入、多模态嵌入、向量数据库构建及索引优化技术\n4. **检索技术进阶**：混合检索、查询构建、Text2SQL等高级检索技术\n5. **生成集成与评估**：格式化生成、系统评估与优化方法\n6. **项目实战**：从基础到进阶的完整RAG应用开发实践\n\n## 项目意义\n\n随着大语言模型的快速发展，RAG技术已成为构建智能问答系统、知识检索应用的核心技术。然而，现有的RAG教程往往零散且缺乏系统性，初学者难以形成完整的技术体系认知。\n\n本项目从实践出发，结合最新的RAG技术发展趋势，构建了一套完整的RAG学习体系，帮助开发者：\n- 系统掌握RAG技术的理论基础和实践技能\n- 理解RAG系统的完整架构和各组件的作用\n- 具备独立开发RAG应用的能力\n- 掌握RAG系统的评估和优化方法\n\n## 项目受众\n\n**本项目适合以下人群学习：**\n- 具备Python编程基础，对RAG技术感兴趣的开发者\n- 希望系统学习RAG技术的AI工程师\n- 想要构建智能问答系统的产品开发者\n- 对检索增强生成技术有学习需求的研究人员\n\n**前置要求：**\n- 掌握Python基础语法和常用库的使用\n- 能够简单使用docker\n- 了解基本的LLM概念（推荐但非必需）\n- 具备基础的Linux命令行操作能力\n\n## 项目亮点\n\n1. **体系化学习路径**：从基础概念到高级应用，构建完整的RAG技术学习体系\n2. **理论与实践并重**：每个章节都包含理论讲解和代码实践，确保学以致用\n3. **多模态支持**：不仅涵盖文本RAG，还包括多模态嵌入和检索技术\n4. **工程化导向**：注重实际应用中的工程化问题，包括性能优化、系统评估等\n5. **丰富的实战项目**：提供从基础到进阶的多个实战项目，帮助巩固学习成果\n\n## 内容大纲\n\n### 第一部分：RAG基础入门\n\n**第一章 解锁RAG** [📖 查看章节](.\u002Fdocs\u002Fchapter1)\n- [x] [RAG简介](.\u002Fdocs\u002Fchapter1\u002F01_RAG_intro.md) - RAG技术概述与应用场景\n- [x] [准备工作](.\u002Fdocs\u002Fchapter1\u002F02_preparation.md) - 环境配置与准备\n- [x] [四步构建RAG](.\u002Fdocs\u002Fchapter1\u002F03_get_start_rag.md) - 快速上手RAG开发\n- [x] [附：环境部署](.\u002Fdocs\u002Fchapter1\u002Fvirtualenv.md) - Python虚拟环境部署方案补充 (贡献者: [@anarchysaiko](https:\u002F\u002Fgithub.com\u002Fanarchysaiko))\n\n**第二章 数据准备** [📖 查看章节](.\u002Fdocs\u002Fchapter2)\n- [x] [数据加载](.\u002Fdocs\u002Fchapter2\u002F04_data_load.md) - 多格式文档处理与加载\n- [x] [文本分块](.\u002Fdocs\u002Fchapter2\u002F05_text_chunking.md) - 文本切分策略与优化\n\n### 第二部分：索引构建与优化\n\n**第三章 索引构建** [📖 查看章节](.\u002Fdocs\u002Fchapter3)\n- [x] [向量嵌入](.\u002Fdocs\u002Fchapter3\u002F06_vector_embedding.md) - 文本向量化技术详解\n- [x] [多模态嵌入](.\u002Fdocs\u002Fchapter3\u002F07_multimodal_embedding.md) - 图文多模态向量化\n- [x] [向量数据库](.\u002Fdocs\u002Fchapter3\u002F08_vector_db.md) - 向量存储与检索系统\n- [x] [Milvus实践](.\u002Fdocs\u002Fchapter3\u002F09_milvus.md) - Milvus多模态检索实战\n- [x] [索引优化](.\u002Fdocs\u002Fchapter3\u002F10_index_optimization.md) - 索引性能调优技巧\n\n### 第三部分：检索技术进阶\n\n**第四章 检索优化** [📖 查看章节](.\u002Fdocs\u002Fchapter4)\n- [x] [混合检索](.\u002Fdocs\u002Fchapter4\u002F11_hybrid_search.md) - 稠密+稀疏检索融合\n- [x] [查询构建](.\u002Fdocs\u002Fchapter4\u002F12_query_construction.md) - 智能查询理解与构建\n- [x] [Text2SQL](.\u002Fdocs\u002Fchapter4\u002F13_text2sql.md) - 自然语言转SQL查询\n- [x] [查询重构与分发](.\u002Fdocs\u002Fchapter4\u002F14_query_rewriting.md) - 查询优化策略\n- [x] [检索进阶技术](.\u002Fdocs\u002Fchapter4\u002F15_advanced_retrieval_techniques.md) - 高级检索算法\n\n### 第四部分：生成与评估\n\n**第五章 生成集成** [📖 查看章节](.\u002Fdocs\u002Fchapter5)\n- [x] [格式化生成](.\u002Fdocs\u002Fchapter5\u002F16_formatted_generation.md) - 结构化输出与格式控制\n\n**第六章 RAG系统评估** [📖 查看章节](.\u002Fdocs\u002Fchapter6)\n- [x] [评估介绍](.\u002Fdocs\u002Fchapter6\u002F18_system_evaluation.md) - RAG系统评估方法论\n- [x] [评估工具](.\u002Fdocs\u002Fchapter6\u002F19_common_tools.md) - 常用评估工具与指标\n\n### 第五部分：高级应用与实战\n\n**第七章 高级RAG架构（拓展部分）** [📖 查看章节](.\u002Fdocs\u002Fchapter7)\n\n- [x] [基于知识图谱的RAG](.\u002Fdocs\u002Fchapter7\u002F20_kg_rag.md)\n\n**第八章 项目实战一** [📖 查看章节](.\u002Fdocs\u002Fchapter8)\n- [x] [环境配置与项目架构](.\u002Fdocs\u002Fchapter8\u002F01_env_architecture.md)\n- [x] [数据准备模块实现](.\u002Fdocs\u002Fchapter8\u002F02_data_preparation.md)\n- [x] [索引构建与检索优化](.\u002Fdocs\u002Fchapter8\u002F03_index_retrieval.md)\n- [x] [生成集成与系统整合](.\u002Fdocs\u002Fchapter8\u002F04_generation_sys.md)\n\n**第九章 项目实战一优化（选修篇）** [📖 查看章节](.\u002Fdocs\u002Fchapter9)\n\n[🍽️ 项目展示](https:\u002F\u002Fgithub.com\u002FFutureUnreal\u002FWhat-to-eat-today)\n- [x] [图RAG架构设计](.\u002Fdocs\u002Fchapter9\u002F01_graph_rag_architecture.md)\n- [x] [图数据建模与准备](.\u002Fdocs\u002Fchapter9\u002F02_graph_data_modeling.md)\n- [x] [Milvus索引构建](.\u002Fdocs\u002Fchapter9\u002F03_index_construction.md)\n- [x] [智能查询路由与检索策略](.\u002Fdocs\u002Fchapter9\u002F04_intelligent_query_routing.md)\n\n**第十章 项目实战二（选修篇）** [📖 查看章节](.\u002Fdocs\u002Fchapter10) *规划中*\n\n### Extra-chapter\n\n- [Neo4J 简单应用](.\u002FExtra-chapter\u002FNeo4J-Simple-Application\u002Freadme.md) （贡献者: [dalvqw](https:\u002F\u002Fgithub.com\u002FFutureUnreal)）\n\n> 如果你在使用 RAG \u002F 向量数据库 \u002F Agentic RAG 等相关技术时，也有值得分享的经验与专题内容，非常欢迎以独立章节的形式投稿到 [Extra Chapter](.\u002FExtra-chapter\u002F) 中。提交前请先阅读 Extra Chapter 的[贡献与 PR 指南](.\u002FExtra-chapter\u002FREADME.md)，我们会根据内容的完整度、实践深度与参考价值综合评估是否合并，并视情况在主教程中进行引用或扩展说明。\n\n## 目录结构说明\n\n```\nall-in-rag\u002F\n├── docs\u002F           # 教程文档\n├── code\u002F           # 代码示例\n├── data\u002F           # 示例数据\n├── models\u002F         # 预训练模型\n├── Extra-chapter\u002F  # 扩展章节与社区实践内容\n└── README.md       # 项目说明\n```\n\n## 实战项目展示\n\n### 第八章 项目一：\n\n![项目一](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_a1251aec730f.png)\n\n### 第九章 项目一（Graph RAG优化）：\n\n![项目一（Graph RAG优化）](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_fbc98ecb1a3b.png)\n\n### 第十章 项目二：\n\n## 致谢\n\n**核心贡献者**\n- [dalvqw-项目负责人](https:\u002F\u002Fgithub.com\u002FFutureUnreal)（项目发起人与主要贡献者）\n\n**额外章节贡献者**\n- [孙超-内容创作者](https:\u002F\u002Fgithub.com\u002Fanarchysaiko)（Datawhale成员-上海工程技术大学）\n\n### 特别感谢\n- 感谢 [@Sm1les](https:\u002F\u002Fgithub.com\u002FSm1les) 对本项目的帮助与支持\n- 感谢所有为本项目做出贡献的开发者们\n- 感谢开源社区提供的优秀工具和框架支持\n- 特别感谢以下为教程做出贡献的开发者！\n\n[![Contributors](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_aa47d81b56b5.png)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fgraphs\u002Fcontributors)\n\n*Made with [contrib.rocks](https:\u002F\u002Fcontrib.rocks).*\n\n## 参与贡献\n\n我们欢迎所有形式的贡献，包括但不限于：\n\n- 🚨 **Bug报告**：发现问题请提交 [Issue](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues)\n- 💭 **教程建议**：有好的想法欢迎在 [Discussions](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fdiscussions) 中讨论\n- 📚 **文档改进**：帮助完善文档内容和示例代码（当前仅支持 Extra-chapter 优质内容pr）\n\n## Star History\n\n[![all-in-rag stats](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_607c12e74d33.png)](https:\u002F\u002Fdatawhalechina.github.io\u002Fmembers-visualization\u002Frepo-badge?repo=all-in-rag)\n\n\u003Cdiv align=\"center\">\n  \u003Cp>如果这个项目对你有帮助，请给我们一个 ⭐️\u003C\u002Fp>\n  \u003Cp>让更多人发现这个项目（护食？发来！）\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n![star](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_447440e19820.png)\n\n## 关于 Datawhale\n\n\u003Cdiv align='center'>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_303cd5dfe9c5.jpeg\" alt=\"Datawhale\" width=\"30%\">\n    \u003Cp>扫描二维码关注 Datawhale 公众号，获取更多优质开源内容\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n---\n\n## 许可证\n\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可协议\" style=\"border-width:0\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC%20BY--NC--SA%204.0-lightgrey\" \u002F>\u003C\u002Fa>\n\n本作品采用 [知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议](http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 进行许可。\n\n---\n","# All-in-RAG | 大模型应用开发实战一：RAG技术全栈指南\n\n\u003Cdiv align='center'>\n  \u003Cimg src=\".\u002Fdocs\u002Flogo.svg\" alt=\"All-in-RAG Logo\" width=\"70%\">\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Ch2>🔍 检索增强生成 (RAG) 技术全栈指南\u003C\u002Fh2>\n  \u003Cp>\u003Cem>从理论到实践，从基础到进阶，构建你的RAG技术体系\u003C\u002Fem>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fdatawhalechina\u002Fall-in-rag?style=for-the-badge&logo=github&color=ff6b6b\" alt=\"GitHub stars\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fdatawhalechina\u002Fall-in-rag?style=for-the-badge&logo=github&color=4ecdc4\" alt=\"GitHub forks\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.12.7-blue?style=for-the-badge&logo=python&logoColor=white\" alt=\"Python\"\u002F>\n  \u003Ca href=\"https:\u002F\u002Fzread.ai\u002Fdatawhalechina\u002Fall-in-rag\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FAsk_Zread-_.svg?style=for-the-badge&color=00b0aa&labelColor=000000&logo=data%3Aimage%2Fsvg%2Bxml%3Bbase64%2CPHN2ZyB3aWR0aD0iMTYiIGhlaWdodD0iMTYiIHZpZXdCb3g9IjAgMCAxNiAxNiIgZmlsbD0ibm9uZSIgeG1sbnM9Imh0dHA6Ly93d3cudzMub3JnLzIwMDAvc3ZnIj4KPHBhdGggZD0iTTQuOTYxNTYgMS42MDAxSDIuMjQxNTZDMS44ODgxIDEuNjAwMSAxLjYwMTU2IDEuODg2NjQgMS42MDE1NiAyLjI0MDFWNC45NjAxQzEuNjAxNTYgNS4zMTM1NiAxLjg4ODEgNS42MDAxIDIuMjQxNTYgNS42MDAxSDQuOTYxNTZDNS4zMTUwMiA1LjYwMDEgNS42MDE1NiA1LjMxMzU2IDUuNjAxNTYgNC45NjAxVjIuMjQwMUM1LjYwMTU2IDEuODg2NjQgNS4zMTUwMiAxLjYwMDEgNC45NjE1NiAxLjYwMDFaIiBmaWxsPSIjZmZmIi8%2BCjxwYXRoIGQ9Ik00Ljk6MTU2IDEwLjM5OTlIMi4yNDE1NkMxLjg4ODEgMTAuMzk5OSAxLjYwMTU2IDEwLjY4NjQgMS42MDE1NiAxMS4wMzk5VjEzLjc1OTlDMS42MDE1NiAxNC4xMTM0IDEuODg4MSAxNC4zOTk5IDIuMjQxNTYgMTQuMzk5OUH0Ljk6MTU2QzUuMzE1MDIgMTQuMzk5OSA1LjYwMTU2IDE0LjExMzQgNS42MDE1NiAxMy43NTk5VjExLjAzOTlDNS5YwMTU2IDEwLjYODYQIDUuMzE1MDIgMTAuMzk5OSA0Ljk6MTU2IDEwLjM9OTlWaSIsZmlsbD0iI2ZmZiIvPgo8cGF0aCBkPSJNNCAxMkwxMiA0TDQgMTJaIiBmaWxsPSIjZmZmIi8%2BCjxwYXRoIGQ9Ik00IDEyTDEyIDQiIHN0cm9rZT0iI2ZmZiIgc3Ryb2tlLXdpZHRoPSIxLjUiIHN0cm9rZS1saW5lY2FwPSJyb3VuZCIvPgo8L3N2Zz4K&logoColor=ffffff\" alt=\"zread\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fdatawhalechina.github.io\u002Fall-in-rag\u002F\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📖_在线阅读-立即开始-success?style=for-the-badge&logoColor=white\" alt=\"在线阅读\"\u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"README_en.md\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌍_English-Version-blue?style=for-the-badge&logoColor=white\" alt=\"English Version\"\u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdatawhalechina\">\n    \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬_讨论交流-加入我们-purple?style=for-the-badge&logoColor=white\" alt=\"讨论交流\"\u002F>\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n  \u003Cbr>\n  \u003Ctable>\n    \u003Ctr>\n      \u003Ctd align=\"center\">🎯 \u003Cstrong>系统化学习\u003C\u002Fstrong>\u003Cbr>完整的RAG技术体系\u003C\u002Ftd>\n      \u003Ctd align=\"center\">🛠️ \u003Cstrong>动手实践\u003C\u002Fstrong>\u003Cbr>丰富的项目案例\u003C\u002Ftd>\n      \u003Ctd align=\"center\">🚀 \u003Cstrong>生产就绪\u003C\u002Fstrong>\u003Cbr>工程化最佳实践\u003C\u002Ftd>\n      \u003Ctd align=\"center\">📊 \u003Cstrong>多模态支持\u003C\u002Fstrong>\u003Cbr>文本+图像检索\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n## 项目简介（中文 | [English](README_en.md)）\n\n本项目是一个面向大模型应用开发者的RAG（检索增强生成）技术全栈教程，旨在通过体系化的学习路径和动手实践项目，帮助开发者掌握基于大语言模型的RAG应用开发技能，构建生产级的智能问答和知识检索系统。\n\n**主要内容包括：**\n\n1. **RAG技术基础**：深入浅出地介绍RAG的核心概念、技术原理和应用场景\n2. **数据处理全流程**：从数据加载、清洗到文本分块的完整数据准备流程\n3. **索引构建与优化**：向量嵌入、多模态嵌入、向量数据库构建及索引优化技术\n4. **检索技术进阶**：混合检索、查询构建、Text2SQL等高级检索技术\n5. **生成集成与评估**：格式化生成、系统评估与优化方法\n6. **项目实战**：从基础到进阶的完整RAG应用开发实践\n\n## 项目意义\n\n随着大语言模型的快速发展，RAG技术已成为构建智能问答系统、知识检索应用的核心技术。然而，现有的RAG教程往往零散且缺乏系统性，初学者难以形成完整的技术体系认知。\n\n本项目从实践出发，结合最新的RAG技术发展趋势，构建了一套完整的RAG学习体系，帮助开发者：\n- 系统掌握RAG技术的理论基础和实践技能\n- 理解RAG系统的完整架构和各组件的作用\n- 具备独立开发RAG应用的能力\n- 掌握RAG系统的评估和优化方法\n\n## 项目受众\n\n**本项目适合以下人群学习：**\n- 具备Python编程基础，对RAG技术感兴趣的开发者\n- 希望系统学习RAG技术的AI工程师\n- 想要构建智能问答系统的产品开发者\n- 对检索增强生成技术有学习需求的研究人员\n\n**前置要求：**\n- 掌握Python基础语法和常用库的使用\n- 能够简单使用docker\n- 了解基本的LLM概念（推荐但非必需）\n- 具备基础的Linux命令行操作能力\n\n## 项目亮点\n\n1. **体系化学习路径**：从基础概念到高级应用，构建完整的RAG技术学习体系\n2. **理论与实践并重**：每个章节都包含理论讲解和代码实践，确保学以致用\n3. **多模态支持**：不仅涵盖文本RAG，还包括多模态嵌入和检索技术\n4. **工程化导向**：注重实际应用中的工程化问题，包括性能优化、系统评估等\n5. **丰富的实战项目**：提供从基础到进阶的多个实战项目，帮助巩固学习成果\n\n## 内容大纲\n\n### 第一部分：RAG基础入门\n\n**第一章 解锁RAG** [📖 查看章节](.\u002Fdocs\u002Fchapter1)\n- [x] [RAG简介](.\u002Fdocs\u002Fchapter1\u002F01_RAG_intro.md) - RAG技术概述与应用场景\n- [x] [准备工作](.\u002Fdocs\u002Fchapter1\u002F02_preparation.md) - 环境配置与准备\n- [x] [四步构建RAG](.\u002Fdocs\u002Fchapter1\u002F03_get_start_rag.md) - 快速上手RAG开发\n- [x] [附：环境部署](.\u002Fdocs\u002Fchapter1\u002Fvirtualenv.md) - Python虚拟环境部署方案补充 (贡献者: [@anarchysaiko](https:\u002F\u002Fgithub.com\u002Fanarchysaiko))\n\n**第二章 数据准备** [📖 查看章节](.\u002Fdocs\u002Fchapter2)\n- [x] [数据加载](.\u002Fdocs\u002Fchapter2\u002F04_data_load.md) - 多格式文档处理与加载\n- [x] [文本分块](.\u002Fdocs\u002Fchapter2\u002F05_text_chunking.md) - 文本切分策略与优化\n\n### 第二部分：索引构建与优化\n\n**第三章 索引构建** [📖 查看章节](.\u002Fdocs\u002Fchapter3)\n- [x] [向量嵌入](.\u002Fdocs\u002Fchapter3\u002F06_vector_embedding.md) - 文本向量化技术详解\n- [x] [多模态嵌入](.\u002Fdocs\u002Fchapter3\u002F07_multimodal_embedding.md) - 图文多模态向量化\n- [x] [向量数据库](.\u002Fdocs\u002Fchapter3\u002F08_vector_db.md) - 向量存储与检索系统\n- [x] [Milvus实践](.\u002Fdocs\u002Fchapter3\u002F09_milvus.md) - Milvus多模态检索实战\n- [x] [索引优化](.\u002Fdocs\u002Fchapter3\u002F10_index_optimization.md) - 索引性能调优技巧\n\n### 第三部分：检索技术进阶\n\n**第四章 检索优化** [📖 查看章节](.\u002Fdocs\u002Fchapter4)\n- [x] [混合检索](.\u002Fdocs\u002Fchapter4\u002F11_hybrid_search.md) - 稠密+稀疏检索融合\n- [x] [查询构建](.\u002Fdocs\u002Fchapter4\u002F12_query_construction.md) - 智能查询理解与构建\n- [x] [Text2SQL](.\u002Fdocs\u002Fchapter4\u002F13_text2sql.md) - 自然语言转SQL查询\n- [x] [查询重构与分发](.\u002Fdocs\u002Fchapter4\u002F14_query_rewriting.md) - 查询优化策略\n- [x] [检索进阶技术](.\u002Fdocs\u002Fchapter4\u002F15_advanced_retrieval_techniques.md) - 高级检索算法\n\n### 第四部分：生成与评估\n\n**第五章 生成集成** [📖 查看章节](.\u002Fdocs\u002Fchapter5)\n- [x] [格式化生成](.\u002Fdocs\u002Fchapter5\u002F16_formatted_generation.md) - 结构化输出与格式控制\n\n**第六章 RAG系统评估** [📖 查看章节](.\u002Fdocs\u002Fchapter6)\n- [x] [评估介绍](.\u002Fdocs\u002Fchapter6\u002F18_system_evaluation.md) - RAG系统评估方法论\n- [x] [评估工具](.\u002Fdocs\u002Fchapter6\u002F19_common_tools.md) - 常用评估工具与指标\n\n### 第五部分：高级应用与实战\n\n**第七章 高级RAG架构（拓展部分）** [📖 查看章节](.\u002Fdocs\u002Fchapter7)\n\n- [x] [基于知识图谱的RAG](.\u002Fdocs\u002Fchapter7\u002F20_kg_rag.md)\n\n**第八章 项目实战一** [📖 查看章节](.\u002Fdocs\u002Fchapter8)\n- [x] [环境配置与项目架构](.\u002Fdocs\u002Fchapter8\u002F01_env_architecture.md)\n- [x] [数据准备模块实现](.\u002Fdocs\u002Fchapter8\u002F02_data_preparation.md)\n- [x] [索引构建与检索优化](.\u002Fdocs\u002Fchapter8\u002F03_index_retrieval.md)\n- [x] [生成集成与系统整合](.\u002Fdocs\u002Fchapter8\u002F04_generation_sys.md)\n\n**第九章 项目实战一优化（选修篇）** [📖 查看章节](.\u002Fdocs\u002Fchapter9)\n\n[🍽️ 项目展示](https:\u002F\u002Fgithub.com\u002FFutureUnreal\u002FWhat-to-eat-today)\n- [x] [图RAG架构设计](.\u002Fdocs\u002Fchapter9\u002F01_graph_rag_architecture.md)\n- [x] [图数据建模与准备](.\u002Fdocs\u002Fchapter9\u002F02_graph_data_modeling.md)\n- [x] [Milvus索引构建](.\u002Fdocs\u002Fchapter9\u002F03_index_construction.md)\n- [x] [智能查询路由与检索策略](.\u002Fdocs\u002Fchapter9\u002F04_intelligent_query_routing.md)\n\n**第十章 项目实战二（选修篇）** [📖 查看章节](.\u002Fdocs\u002Fchapter10) *规划中*\n\n### Extra-chapter\n\n- [Neo4J 简单应用](.\u002FExtra-chapter\u002FNeo4J-Simple-Application\u002Freadme.md) （贡献者: [dalvqw](https:\u002F\u002Fgithub.com\u002FFutureUnreal)）\n\n> 如果你在使用 RAG \u002F 向量数据库 \u002F Agentic RAG 等相关技术时，也有值得分享的经验与专题内容，非常欢迎以独立章节的形式投稿到 [Extra Chapter](.\u002FExtra-chapter\u002F) 中。提交前请先阅读 Extra Chapter 的[贡献与 PR 指南](.\u002FExtra-chapter\u002FREADME.md)，我们会根据内容的完整度、实践深度与参考价值综合评估是否合并，并视情况在主教程中进行引用或扩展说明。\n\n## 目录结构说明\n\n```\nall-in-rag\u002F\n├── docs\u002F           # 教程文档\n├── code\u002F           # 代码示例\n├── data\u002F           # 示例数据\n├── models\u002F         # 预训练模型\n├── Extra-chapter\u002F  # 扩展章节与社区实践内容\n└── README.md       # 项目说明\n```\n\n## 实战项目展示\n\n### 第八章 项目一：\n\n![项目一](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_a1251aec730f.png)\n\n### 第九章 项目一（Graph RAG优化）：\n\n![项目一（Graph RAG优化）](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_fbc98ecb1a3b.png)\n\n### 第十章 项目二：\n\n## 致谢\n\n**核心贡献者**\n- [dalvqw-项目负责人](https:\u002F\u002Fgithub.com\u002FFutureUnreal)（项目发起人与主要贡献者）\n\n**额外章节贡献者**\n- [孙超-内容创作者](https:\u002F\u002Fgithub.com\u002Fanarchysaiko)（Datawhale成员-上海工程技术大学）\n\n### 特别感谢\n- 感谢 [@Sm1les](https:\u002F\u002Fgithub.com\u002FSm1les) 对本项目的帮助与支持\n- 感谢所有为本项目做出贡献的开发者们\n- 感谢开源社区提供的优秀工具和框架支持\n- 特别感谢以下为教程做出贡献的开发者！\n\n[![Contributors](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_aa47d81b56b5.png)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fgraphs\u002Fcontributors)\n\n*由 [contrib.rocks](https:\u002F\u002Fcontrib.rocks) 制作。*\n\n## 参与贡献\n\n我们欢迎所有形式的贡献，包括但不限于：\n\n- 🚨 **Bug报告**：发现问题请提交 [Issue](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues)\n- 💭 **教程建议**：有好的想法欢迎在 [Discussions](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fdiscussions) 中讨论\n- 📚 **文档改进**：帮助完善文档内容和示例代码（当前仅支持 Extra-chapter 优质内容pr）\n\n## Star History\n\n[![all-in-rag stats](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_607c12e74d33.png)](https:\u002F\u002Fdatawhalechina.github.io\u002Fmembers-visualization\u002Frepo-badge?repo=all-in-rag)\n\n\u003Cdiv align=\"center\">\n  \u003Cp>如果这个项目对你有帮助，请给我们一个 ⭐️\u003C\u002Fp>\n  \u003Cp>让更多人发现这个项目（护食？发来！）\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n![star](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_447440e19820.png)\n\n## 关于 Datawhale\n\n\u003Cdiv align='center'>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_readme_303cd5dfe9c5.jpeg\" alt=\"Datawhale\" width=\"30%\">\n    \u003Cp>扫描二维码关注 Datawhale 公众号，获取更多优质开源内容\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n---\n\n## 许可证\n\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可协议\" style=\"border-width:0\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC%20BY--NC--SA%204.0-lightgrey\" \u002F>\u003C\u002Fa>\n\n本作品采用 [知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议](http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 进行许可。\n\n---","# All-in-RAG 快速上手指南\n\nAll-in-RAG 是一个面向大模型应用开发者的 RAG（检索增强生成）技术全栈教程，涵盖从理论原理到工程实战的完整体系。本指南将帮助你快速搭建环境并运行基础示例。\n\n## 1. 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows (推荐 WSL2)\n*   **Python 版本**：3.12.7 (或其他 3.10+ 版本)\n*   **容器工具**：Docker (用于部署向量数据库如 Milvus)\n*   **基础知识**：具备 Python 基础语法及 Linux 命令行操作能力\n\n### 前置依赖检查\n请确保已安装 `git` 和 `docker`：\n```bash\ngit --version\ndocker --version\n```\n\n## 2. 安装步骤\n\n### 第一步：克隆项目\n使用 git 克隆仓库到本地：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag.git\ncd all-in-rag\n```\n\n### 第二步：创建虚拟环境\n推荐使用 `venv` 或 `conda` 隔离环境。\n\n**方案 A：使用 venv (推荐)**\n```bash\npython -m venv venv\n# Linux\u002FmacOS 激活\nsource venv\u002Fbin\u002Factivate\n# Windows 激活\nvenv\\Scripts\\activate\n```\n\n**方案 B：使用 Conda**\n```bash\nconda create -n all-in-rag python=3.12\nconda activate all-in-rag\n```\n\n### 第三步：安装依赖\n进入代码目录并安装所需 Python 库。\n*(注：若需国内加速，可在 pip 命令后添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n```bash\ncd code\npip install -r requirements.txt\n```\n\n### 第四步：启动基础设施 (Docker)\n部分章节（如第三章 Milvus 实践）需要向量数据库支持。以启动 Milvus 为例：\n\n```bash\n# 在项目根目录或对应的 docker 配置目录下\ndocker compose up -d\n# 或者使用单独的 docker run 命令（参考 docs\u002Fchapter3\u002F09_milvus.md）\n```\n\n## 3. 基本使用\n\n本项目采用“文档 + 代码”结合的学习方式。最简单的上手路径是跟随第一章完成一个最小可用的 RAG 流程。\n\n### 运行第一个 RAG 示例\n进入第一章的代码目录，执行快速入门脚本：\n\n```bash\ncd code\u002Fchapter1\npython 03_get_start_rag.py\n```\n\n**代码逻辑简述：**\n该脚本通常包含以下核心步骤（具体代码请参考源文件）：\n1.  **加载数据**：读取本地文本文件。\n2.  **文本分块**：将长文本切分为适合检索的片段。\n3.  **向量化**：调用 Embedding 模型将文本转为向量。\n4.  **检索与生成**：模拟用户提问，检索相关片段并交由 LLM 生成回答。\n\n### 学习路径建议\n1.  **基础入门**：阅读 `docs\u002Fchapter1` 和 `docs\u002Fchapter2`，掌握数据加载与分块策略。\n2.  **索引构建**：阅读 `docs\u002Fchapter3`，配合 Docker 部署 Milvus，实践向量存储。\n3.  **进阶实战**：直接运行 `docs\u002Fchapter8` 中的完整项目代码，体验从数据准备到系统整合的全流程。\n\n> **提示**：详细的技术原理解析和参数配置说明，请访问 [在线阅读文档](https:\u002F\u002Fdatawhalechina.github.io\u002Fall-in-rag\u002F) 或查看 `docs\u002F` 目录下的 Markdown 文件。","某金融科技公司的高级算法工程师李明，正负责为公司内部合规部门构建一个基于最新监管文件的智能问答系统，以辅助快速检索复杂的法律条款。\n\n### 没有 all-in-rag 时\n- **知识体系碎片化**：李明需要在 GitHub、博客和技术文档间反复跳转，难以拼凑出从数据清洗到向量索引的完整 RAG 技术链路，学习成本极高。\n- **工程落地陷阱多**：在处理长文本分块和混合检索策略时，因缺乏最佳实践参考，导致系统频繁出现“检索不到”或“回答幻觉”的问题，调试耗时数周。\n- **评估标准缺失**：项目上线前无法科学量化检索准确率与生成质量，只能依靠人工主观测试，难以向业务方证明系统可靠性。\n- **多模态支持空白**：面对包含图表的监管报告，现有零散教程未提供图像检索方案，导致关键数据无法被系统识别和利用。\n\n### 使用 all-in-rag 后\n- **全栈路径清晰**：all-in-rag 提供了从理论到生产的系统化指南，李明在一周内便掌握了数据加载、嵌入模型选型及向量数据库构建的完整闭环。\n- **避坑指南高效**：依托项目中丰富的实战案例和优化技巧，他迅速解决了分块粒度不当和查询重写难题，将开发周期缩短了 50% 以上。\n- **科学评估体系**：利用工具内置的评估方法论，李明建立了自动化测试流程，用精确的指标数据证明了系统效果，顺利推动项目上线。\n- **多模态能力进阶**：参考 all-in-rag 中的多模态检索章节，他成功集成了图像嵌入技术，实现了对监管文件中复杂图表内容的精准问答。\n\nall-in-rag 将原本零散摸索的 RAG 开发过程转变为一条标准化、可落地的工程捷径，极大降低了企业级智能应用的构建门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_all-in-rag_fbc98ecb.png","datawhalechina","Datawhale","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdatawhalechina_f57a6118.png","for the learner，和学习者一起成长",null,"https:\u002F\u002Fdatawhale.cn","https:\u002F\u002Fgithub.com\u002Fdatawhalechina",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",98,{"name":86,"color":87,"percentage":32},"Cypher","#34c0eb",6327,3123,"2026-04-18T16:49:09","Linux, macOS, Windows","未说明（项目涵盖多模态及向量数据库实践，通常建议具备 NVIDIA GPU 以加速嵌入和推理，但 README 未明确具体型号或显存要求）","未说明（建议 16GB+ 以运行本地向量数据库和大模型）",{"notes":95,"python":96,"dependencies":97},"前置要求包括掌握 Python 基础、能够简单使用 Docker、了解基本 LLM 概念及具备基础 Linux 命令行操作能力。项目涉及 Milvus 向量数据库和 Neo4J 图数据库的实践，建议使用 Docker 部署这些服务。具体依赖库版本需参考代码目录下的 requirements 文件（README 中未列出具体版本号）。","3.12.7",[98,99,100,101,102,103,104],"docker","milvus","neo4j","torch","transformers","sentence-transformers","langchain",[14,13,106,15,35],"其他",[108,109,104,110,111,99,112,113,114,100,115,116],"embedding","kimi-k2","llama-index","llm","multimodal","rag","ai","python","deepseek","2026-03-27T02:49:30.150509","2026-04-19T09:17:58.568288",[120,125,130,135,140,145],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},41974,"在 Cloud Studio 创建应用导入 Git 仓库时提示失败，可能是什么原因？","这通常是因为应用描述中包含了无效或不被允许的网址。请检查“应用描述”字段，如果其中包含类似 `https:\u002F\u002Fdatawhalechina.github.io\u002Fall-in-rag\u002F` 的在线阅读地址链接，请将其删除后重试创建。","https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues\u002F45",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},41975,"运行代码时报错 `AttributeError: module 'pyarrow' has no attribute 'PyExtensionType'` 如何解决？","这是因为安装了过新版本的 `pyarrow` (21.0.0+)，该版本移除了 `PyExtensionType` 属性。解决方案是将 `pyarrow` 降级到 20.0.0 版本。可以在 `requirements.txt` 中指定版本，或手动执行 `pip install pyarrow==20.0.0` 进行安装。","https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues\u002F5",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},41976,"教程第 9 章提到的 Agent 示例代码在哪里可以找到？","相关代码已补充到仓库中。你可以访问以下路径获取：`https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Ftree\u002Fmain\u002Fcode\u002FC9\u002Fagent(代码系 ai 生成)`。","https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues\u002F4",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},41977,"参与 OceanBase 共创任务（如 PocketFlow 集成）的预期产出是什么？需要向原项目提 PR 吗？","预期产出是在本仓库的 `Extra-chapter` 目录下新建一个文件夹，包含核心类（如 `OceanbaseMemory`）的实现代码、单元测试以及说明文档。文档重点应放在让读者学习实现方法和核心代码逻辑上。不需要向 PocketFlow 等原项目提交 PR。","https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues\u002F73",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},41978,"认领共创任务（如 PowerRAG 或 SeekDB 任务）后，对提交的 PR 有什么具体要求？","维护者会分配任务给认领者。PR 的重要衡量指标之一是文档的质量：必须产出完整、详实且“弱 AI 味”的文档。建议文档中包含清晰的实现思路、使用方法以及必要的配置步骤（如 Docker 启动、API Key 获取等）。","https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues\u002F75",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},41979,"使用 SeekDB MCP 构建 AI 应用时，文档需要包含哪些内容才能通过验收？","文档需要清楚说明应用的设计场景、使用方法，特别是 SeekDB MCP 的运行模式与启动方式，以及必要的环境变量配置。同时需要提供可成功执行的示例脚本来演示应用功能。","https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fall-in-rag\u002Fissues\u002F74",[]]