rag

562 244 较难 1 次阅读昨天Apache-2.0其他开发框架视频

AI 解读由 AI 自动生成，仅供参考

NVIDIA RAG Blueprint 是一套专为构建检索增强生成（RAG）管道设计的参考解决方案。它巧妙结合了大语言模型的推理能力与企业实时数据检索，旨在解决通用 AI 模型容易“幻觉”、缺乏领域知识及数据滞后等痛点，确保回答基于可信的企业内部资料，从而提升准确性与合规性。

这套方案主要面向希望快速搭建私有化知识库问答系统的开发者与企业技术团队。其核心亮点在于深度集成了 NVIDIA NIM 微服务与 NeMo Retriever 模型，提供从多模态内容提取（支持文本、图表、音频等）、混合搜索排序到安全护栏的全流程加速能力。架构上高度模块化且可灵活配置，支持本地 Docker 或 Kubernetes 多种部署方式，并内置了评估脚本与示例用户界面。无论是需要处理复杂文档结构，还是对延迟和扩展性有严格要求的场景，NVIDIA RAG Blueprint 都能作为一个坚实的起点，帮助团队高效定制出符合自身业务需求的智能问答应用。

使用场景

某大型制造企业的技术支援团队每天需处理大量关于设备维修手册、工程图纸和历史故障报告的查询请求。

没有 rag 时

工程师面对海量非结构化文档（含复杂表格和图表），人工检索耗时极长，紧急停机时难以快速定位解决方案。
通用大模型因缺乏企业内部数据，常编造不存在的维修步骤或参数，导致“幻觉”风险，可能引发严重的安全事故。
无法有效解析扫描件中的工程图表或模糊图片，关键视觉信息被忽略，导致故障诊断依据不足。
每次回答无法追溯具体来源文档，合规审计困难，管理层难以信任 AI 生成的建议。

使用 rag 后

利用多模态内容提取能力，rag 能瞬间解析包含文本、表格、图表甚至音频的维修手册，工程师通过自然语言提问即可秒级获取精准答案。
结合企业可信数据源进行实时检索，rag 将回答严格限定在真实手册范围内，彻底消除幻觉，确保维修指令的准确性与合规性。
内置的视觉语言模型支持直接“看懂”工程图纸和故障照片，自动关联相关文字说明，提供图文并茂的完整诊断方案。
系统自动标注每个答案引用的具体文档页码和段落，生成可追溯的报告，满足严格的行业审计与安全治理要求。

rag 通过将企业私有知识与大模型推理能力深度融合，把原本高风险、低效率的人工查阅转变为安全、实时且可信赖的智能决策辅助。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
需支持 GPU 加速的组件（NVIDIA NIM microservices, cuVS）
具体显存大小取决于所选模型（如 Nemotron-Super-49B, NeMo Retriever 系列），文档未明确最低显存要求，但提及支持本地 Docker 和 Kubernetes 部署

内存

未说明

依赖

notes该工具是 NVIDIA RAG Blueprint，主要基于容器化部署（推荐 Docker Compose 或 Kubernetes）。核心功能依赖 NVIDIA NIM 微服务（包括推理、检索、重排序、OCR 等模型）和 GPU 加速的向量数据库 (cuVS)。支持多种部署模式：本地自托管模型或使用 NVIDIA 托管端点。包含用于 AI 编码助手的 Agent Skill。具体模型许可证需遵循 NVIDIA 及 Llama 社区协议。

python未说明

Docker Compose

Kubernetes (可选)

NVIDIA NIM microservices

LangChain

Milvus 或 Elasticsearch (向量数据库)

NVIDIA cuVS

minIO (对象存储)

快速开始

NVIDIA RAG 蓝图

检索增强生成（RAG）将大型语言模型（LLM）的推理能力与来自可信数据源的实时检索相结合。它使 AI 回答基于企业知识，从而减少幻觉现象，确保准确性、合规性和信息的新鲜度。

概述

NVIDIA RAG 蓝图是一个参考解决方案和基础起点，用于使用 NVIDIA NIM 微服务构建检索增强生成（RAG）流水线。它使企业能够基于自身数据提供自然语言问答服务，同时满足治理、延迟和可扩展性要求。该蓝图设计为可分解且可配置，集成了 GPU 加速组件、NeMo Retriever 模型、多模态和视觉语言模型以及安全约束服务，以提供一个企业就绪的框架。凭借预构建的参考 UI、开源代码以及多种部署选项——包括本地 Docker（带或不带 NVIDIA 托管端点）和 Kubernetes—— 它为开发者提供了一个灵活的起点，可根据其特定需求进行调整和扩展。

主要特性

数据摄取

多模态内容提取——包含文本、表格、图表、信息图和音频的文档。有关支持的文件类型的完整列表，请参阅 [NeMo Retriever 提取概述](https://docs.nvidia.com/nemo/retriever/latest/extraction/overview/)。
自定义元数据支持

搜索与检索

多集合可搜索性
稠密与稀疏混合搜索
重排序以进一步提高准确性
GPU 加速的索引创建与搜索
可插拔向量数据库

查询处理

查询分解
动态过滤表达式生成

生成与丰富

在答案生成管道中选择启用多模态和视觉语言模型支持。
采用多种策略进行文档摘要，支持灵活的页面筛选和实时进度跟踪
通过可选的反思机制提升准确性
可选的内容安全编程化护栏

评估

评估脚本（RAGAS 框架）

用户体验

示例用户界面
多轮对话
多会话支持

部署与运维

遥测与可观测性
可分解且可定制
NIM Operator 支持
Python 库模式支持
兼容 OpenAI 的 API

软件组件

RAG 蓝图由以下互补类别的软件构建而成：

NVIDIA NIM 微服务——提供核心 AI 功能。大规模推理（例如用于响应生成的 Nemotron LLM 模型）、检索与重排序模型，以及用于文本、表格、图表和图形的专用提取器。可选的 NIM 还可通过 OCR、内容安全、主题控制和多模态嵌入等功能扩展这些能力。
集成与编排层——充当将系统整合为完整解决方案的粘合剂。

这种模块化设计确保了高效的查询处理、准确的信息检索以及便捷的定制化。

NVIDIA NIM 微服务

响应生成（推理）
- NVIDIA NIM llama-3.3-nemotron-super-49b-v1.5
检索与提取模型
可选的 NIM

集成与编排层

RAG 编排服务器——协调用户、检索器、向量数据库和推理模型之间的交互，确保多轮和上下文感知的查询处理。该系统基于 LangChain 构建。
向量数据库（由 NVIDIA cuVS 加速）——以 GPU 加速的索引和检索技术存储与搜索大规模嵌入，实现低延迟性能。您可以使用 Milvus 向量数据库或 Elasticsearch。
NeMo Retriever 提取——一个高性能的多模态内容解析摄取微服务。有关摄取流程的更多信息，请参阅 NeMo Retriever 提取概述。
RAG 用户界面（rag-frontend）——一个轻量级用户界面，展示了面向开发人员和最终用户的端到端查询、检索和响应工作流。有关更多信息，请参阅 RAG UI。

技术架构图

下图展示了系统的架构和工作流程。

工作流程

以下是从终端用户视角出发的工作流程的逐步说明：

数据摄取与提取管道 – 多模态企业文档（文本、图像、表格、图表、信息图和音频）被摄取。
用户查询 – 用户通过 UI 或 API 与系统交互，提交问题。一个可选的 NeMo Guardrails 模块可以在查询进入检索管道之前，出于安全和合规性的考虑对其进行过滤或重塑。
查询处理 – 查询由查询处理服务进行处理，该服务还可能利用反思功能（一个可选的 LLM 步骤）来提升对查询的理解或重新表述，以获得更好的检索结果。
从企业数据中检索 – 经过处理的查询使用 NeMo Retriever Embedding 转换为嵌入向量，并与存储在 cuVS 加速向量数据库（CuVS）及关联对象存储（minIO）中的企业数据进行匹配。根据相似度识别出相关结果。
精确度重排序 – 一个可选的 NeMo Retriever Reranker 对检索到的段落进行重新排序，确保选择最相关的片段作为响应的基础。
响应生成 – 所选上下文被传递给 LLM 推理服务（例如 Llama Nemotron 模型）。一个可选的反思步骤可以进一步根据检索到的上下文验证或优化答案。在交付之前，还可以应用护栏机制以确保安全性。
用户响应 – 生成的、有据可依的响应会被发送回用户界面，通常还会附上对检索文档的引用，以提高透明度。

AI 代理技能

包含一项代理技能，使 AI 编码助手（Claude Code、Cursor 等）能够自主部署、配置、故障排除并管理 RAG 蓝图。

安装

npx skills add .

这将从 skill-source/ 中安装 rag-blueprint 技能。安装完成后，代理可以处理如下请求：

“在 Docker 上部署带有 NVIDIA 托管模型的 RAG”
“启用 VLM 图像描述功能并重启摄取器”
“3 个文件的摄取失败，你能检查一下原因吗？”
“从 Docker 切换到库模式”
“关闭所有 RAG 服务”

注意： 如果代理未能自动识别该技能（例如针对简短或模糊的查询），请使用 /rag-blueprint <your request> 显式调用它。

有关技能架构的详细信息，请参阅 skill-source/README.md。

开始使用 NVIDIA RAG 蓝图

推荐的入门方式是使用 Docker Compose 部署单节点的 NVIDIA RAG 蓝图，并采用自托管的本地模型。有关详细信息，请参阅开始使用。

请参阅完整的文档 [docs/readme.md]，了解以下内容：

最低要求
部署选项
配置设置
常见自定义
可用笔记本
故障排除
附加资源

博客文章

邀请社区参与贡献

我们将在 GitHub 上发布这些示例，以支持 NVIDIA LLM 社区并促进反馈。我们诚挚邀请大家贡献力量！如需打开 GitHub 问题或拉取请求，请参阅贡献指南。

许可证

本 NVIDIA AI 蓝图依据 Apache License, Version 2.0 进行许可。该项目会下载并安装其他第三方开源软件项目和容器。在使用前，请查阅这些开源项目的许可条款。

本蓝图中所使用的模型受 NVIDIA AI 基础模型社区许可证的约束。

使用条款

补充信息

对于 llama-3.1-nemotron-nano-vl-8b-v1、llama-3.1-nemoguard-8b-content-safety 和 llama-3.1-nemoguard-8b-topic-control 模型，适用 Llama 3.1 社区许可协议。
对于 nvidia/llama-nemotron-embed-1b-v2、nvidia/llama-nemotron-rerank-1b-v2 和 llama-3.2-nemoretriever-1b-vlm-embed-v1 模型，适用 Llama 3.2 社区许可协议。
对于 llama-3.3-nemotron-super-49b-v1.5 模型，适用 Llama 3.3 社区许可协议。这些模型均基于 Llama 构建。
Apache 2.0 许可适用于 NVIDIA 摄取组件以及 nemoretriever-page-elements-v2、nemotron-table-structure-v1、nemotron-graphic-elements-v1、paddleocr 和 nemoretriever-ocr-v1 等模型。

NVIDIA RAG Blueprint 快速上手指南

NVIDIA RAG Blueprint 是一个基于 NVIDIA NIM 微服务构建的检索增强生成（RAG）参考解决方案。它帮助企业利用自有数据构建自然语言问答系统，结合 GPU 加速的检索、重排序及多模态处理能力，有效减少大模型幻觉，确保回答的准确性与合规性。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

系统要求

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS (部分功能受限)。
GPU: 支持 CUDA 的 NVIDIA GPU（推荐用于加速向量检索和推理）。
Docker: 已安装 Docker Engine 和 Docker Compose。
内存: 建议至少 16GB RAM（取决于所选模型大小）。

前置依赖

NVIDIA API Key: 您需要一个 NVIDIA NGC API Key 来访问 NIM 微服务。
- 注册地址：build.nvidia.com
- 获取密钥后，请在终端设置环境变量：
```
export NVIDIA_API_KEY=your_api_key_here
```
Git: 用于克隆代码仓库。
Python: 建议版本 3.10+（如需使用 Python 库模式）。

注意：国内开发者若访问 build.nvidia.com 或 Docker Hub 较慢，建议配置合适的网络代理或使用国内镜像源加速 Docker 拉取过程。

安装步骤

推荐使用 Docker Compose 进行单机部署，这是最快捷的启动方式。

1. 克隆项目仓库

git clone https://github.com/NVIDIA-AI-Blueprints/rag.git
cd rag

2. 配置环境变量

复制示例环境变量文件并根据需要修改（主要是填入 API Key）：

cp .env.example .env
# 编辑 .env 文件，确保 NVIDIA_API_KEY 已正确填写

3. 启动服务

使用 Docker Compose 启动所有组件（包括向量数据库、NIM 代理、编排服务和前端 UI）：

docker compose up -d

提示：首次运行时会拉取多个容器镜像，可能需要几分钟时间。您可以使用 docker compose logs -f 查看实时日志以确认服务状态。

4. 验证安装

等待所有服务状态变为 healthy 后，在浏览器中访问：

http://localhost:8501

您将看到 RAG 用户界面。

基本使用

以下是通过 Web 界面进行最简单问答的操作流程：

第一步：上传数据 (Data Ingestion)

在 UI 界面左侧导航栏点击 "Ingest" 或 "Data Management"。
上传您的企业文档（支持 PDF, TXT, Markdown, 图片，表格等多模态文件）。
- 系统会自动调用 NeMo Retriever 进行内容提取、分块和向量化。
等待处理状态显示为 "Completed"。

第二步：发起查询 (Query)

切换到 "Chat" 标签页。
在对话框中输入与自然语言相关的问题，例如：

"根据上传的财报，上个季度的营收增长率是多少？"
系统后台将自动执行以下流程：
- 查询处理：优化问题表述。
- 检索：在向量数据库中搜索相关片段。
- 重排序：筛选最相关的上下文。
- 生成：由 LLM 基于检索到的事实生成回答。

第三步：查看结果

界面将显示生成的回答，并附带引用来源（Citations），点击可跳转至原文档的具体位置，确保答案可追溯。
支持多轮对话，系统会记住上下文历史。

进阶：使用 AI Agent 技能管理

如果您使用支持 Agent 技能的编码助手（如 Cursor, Claude Code），可以安装内置技能来自动化管理 RAG 蓝图：

npx skills add .

安装后，您可以直接通过自然语言指令控制部署，例如：

"Deploy RAG on Docker with NVIDIA-hosted models"
"Ingestion failed for 3 files, can you check why?"
"Shut down all RAG services"

若 Agent 未自动识别，可显式调用：

/rag-blueprint <your request>

更多详细配置、自定义模型替换及 Kubernetes 部署方案，请参阅项目根目录下的 docs/ 文件夹。

版本历史

v2.5.02026/03/17

v2.4.02026/02/20

v2.3.22026/01/09

v2.3.02025/10/15

v2.2.12025/07/22

v2.2.02025/07/09

v2.1.02025/05/14

v2.0.02025/03/18

v1.0.02025/01/23

常见问题

使用 nvdev 端点上传文档时遇到 MilvusException：向量维度不匹配（例如 2048 vs 1024）或 Rerank 模型返回 404 错误，如何解决？

部署该方案需要多少张 H100 GPU？默认的大模型（如 llama-3.3-nemotron-super-49b-v1）能在单卡上运行吗？

使用 Helm 升级安装时遇到端口无效错误（Invalid value: 0: must be between 1 and 65535），该如何解决？

如何在 ingestion（数据摄入）阶段添加自定义元数据字段（如 URL、文件类型、标签等）以便后续进行元数据过滤？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架