[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-NVIDIA-AI-Blueprints--rag":3,"tool-NVIDIA-AI-Blueprints--rag":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":113,"forks":114,"last_commit_at":115,"license":116,"difficulty_score":117,"env_os":118,"env_gpu":119,"env_ram":120,"env_deps":121,"category_tags":131,"github_topics":134,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":138,"updated_at":139,"faqs":140,"releases":161},7857,"NVIDIA-AI-Blueprints\u002Frag","rag","This NVIDIA RAG blueprint serves as a reference solution for a foundational Retrieval Augmented Generation (RAG) pipeline.","NVIDIA RAG Blueprint 是一套专为构建检索增强生成（RAG）管道设计的参考解决方案。它巧妙结合了大语言模型的推理能力与企业实时数据检索，旨在解决通用 AI 模型容易“幻觉”、缺乏领域知识及数据滞后等痛点，确保回答基于可信的企业内部资料，从而提升准确性与合规性。\n\n这套方案主要面向希望快速搭建私有化知识库问答系统的开发者与企业技术团队。其核心亮点在于深度集成了 NVIDIA NIM 微服务与 NeMo Retriever 模型，提供从多模态内容提取（支持文本、图表、音频等）、混合搜索排序到安全护栏的全流程加速能力。架构上高度模块化且可灵活配置，支持本地 Docker 或 Kubernetes 多种部署方式，并内置了评估脚本与示例用户界面。无论是需要处理复杂文档结构，还是对延迟和扩展性有严格要求的场景，NVIDIA RAG Blueprint 都能作为一个坚实的起点，帮助团队高效定制出符合自身业务需求的智能问答应用。","\u003Ch1>NVIDIA RAG Blueprint\u003C\u002Fh1>\n\nRetrieval-Augmented Generation (RAG) combines the reasoning power of large language models (LLMs)\nwith real-time retrieval from trusted data sources.\nIt grounds AI responses in enterprise knowledge,\nreducing hallucinations and ensuring accuracy, compliance, and freshness.\n\n\n\n## Overview\n\nThe NVIDIA RAG Blueprint is a reference solution and foundational starting point\nfor building Retrieval-Augmented Generation (RAG) pipelines with NVIDIA NIM microservices.\nIt enables enterprises to deliver natural language question answering grounded in their own data,\nwhile meeting governance, latency, and scalability requirements.\nDesigned to be decomposable and configurable, the blueprint integrates GPU-accelerated components with NeMo Retriever models, Multimodal and Vision Language Models, and guardrailing services,\nto provide an enterprise-ready framework.\nWith a pre-built reference UI, open-source code, and multiple deployment options — including local docker (with and without NVIDIA Hosted endpoints) and Kubernetes —\nit serves as a flexible starting point that developers can adapt and extend to their specific needs.\n\n\n\n## Key Features\n\n\u003Cdetails>\n    \u003Csummary>Data Ingestion\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Multimodal content extraction - Documents with text, tables, charts, infographics, and audio. For the full list of supported file types, see [NeMo Retriever Extraction Overview](https:\u002F\u002Fdocs.nvidia.com\u002Fnemo\u002Fretriever\u002Flatest\u002Fextraction\u002Foverview\u002F).\u003C\u002Fli>\n        \u003Cli>Custom metadata support\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>Search and Retrieval\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Multi-collection searchability\u003C\u002Fli>\n        \u003Cli>Hybrid search with dense and sparse search\u003C\u002Fli>\n        \u003Cli>Reranking to further improve accuracy\u003C\u002Fli>\n        \u003Cli>GPU-accelerated Index creation and search\u003C\u002Fli>\n        \u003Cli>Pluggable vector database\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>Query Processing\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Query decomposition\u003C\u002Fli>\n        \u003Cli>Dynamic filter expression creation\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>Generation and Enrichment\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Opt-in for Multimodal and Vision Language Model Support in the answer generation pipeline.\u003C\u002Fli>\n        \u003Cli>Document summarization with multiple strategies, flexible page filtering, and real-time progress tracking\u003C\u002Fli>\n        \u003Cli>Improve accuracy with optional reflection\u003C\u002Fli>\n        \u003Cli>Optional programmable guardrails for content safety\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>Evaluation\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Evaluation scripts (RAGAS framework)\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>User Experience\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Sample user interface\u003C\u002Fli>\n        \u003Cli>Multi-turn conversations\u003C\u002Fli>\n        \u003Cli>Multi-session support\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>Deployment and Operations\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>Telemetry and observability\u003C\u002Fli>\n        \u003Cli>Decomposable and customizable\u003C\u002Fli>\n        \u003Cli>NIM Operator support\u003C\u002Fli>\n        \u003Cli>Python library mode support\u003C\u002Fli>\n        \u003Cli>OpenAI-compatible APIs\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\n\n\n## Software Components\n\nThe RAG blueprint is built from the following complementary categories of software:\n\n\n- **NVIDIA NIM microservices** – Deliver the core AI functionality. Large-scale inference (e.g. for example, Nemotron LLM models for response generation), retrieval and reranking models, and specialized extractors for text, tables, charts, and graphics. Optional NIMs extend these capabilities with OCR, content safety, topic control, and multimodal embeddings.\n\n- **The integration and orchestration layer** – Acts as the glue that binds the system into a complete solution.\n\nThis modular design ensures efficient query processing, accurate retrieval of information, and easy customization.\n\n\n### NVIDIA NIM Microservices\n\n\n- Response Generation (Inference)\n\n    - [NVIDIA NIM llama-3.3-nemotron-super-49b-v1.5](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_3-nemotron-super-49b-v1_5)\n\n- Retriever and Extraction Models\n\n    - [NVIDIA NIM llama-3_2-nv-embedqa-1b-v2](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_2-nv-embedqa-1b-v2)\n    - [NVIDIA NIM llama-3_2-nv-rerankqa-1b-v2](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_2-nv-rerankqa-1b-v2)\n    - [NeMo Retriever Page Elements NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-page-elements-v3)\n    - [NeMo Retriever Table Structure NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-table-structure-v1)\n    - [NeMo Retriever Graphic Elements NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-graphic-elements-v1)\n    - [NeMo Retriever OCR NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemoretriever-ocr)\n\n- Optional NIMs\n\n    - [Llama 3.1 NemoGuard 8B Content Safety NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_1-nemoguard-8b-content-safety)\n    - [Llama 3.1 NemoGuard 8B Topic Control NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_1-nemoguard-8b-topic-control)\n    - [Llama-3.1 Nemotron-nano-12b-v2-vl NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-nano-12b-v2-vl)\n    - [NeMo Retriever Parse NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemoretriever-parse)\n    - [PaddleOCR NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fbaidu\u002Fpaddleocr)\n    - [llama-3.2-nemoretriever-1b-vlm-embed-v1](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_2-nemoretriever-1b-vlm-embed-v1) (Early Access)\n\n\n ### Integration and orchestration layer\n\n- **RAG Orchestrator Server** – Coordinates interactions between the user, retrievers, vector database, and inference models, ensuring multi-turn and context-aware query handling. This is [LangChain](https:\u002F\u002Fwww.langchain.com\u002F)-based.\n\n- **Vector Database (accelerated with NVIDIA cuVS)** – Stores and searches embeddings at scale with GPU-accelerated indexing and retrieval for low-latency performance. You can use [Milvus Vector Database](https:\u002F\u002Fmilvus.io\u002F) or [Elasticsearch](https:\u002F\u002Fwww.elastic.co\u002Felasticsearch\u002Fvector-database).\n\n- **NeMo Retriever Extraction** – A high-performance ingestion microservice for parsing multimodal content. For more information about the ingestion pipeline, see [NeMo Retriever Extraction Overview](https:\u002F\u002Fdocs.nvidia.com\u002Fnemo\u002Fretriever\u002Flatest\u002Fextraction\u002Foverview\u002F)\n\n- **RAG User Interface (rag-frontend)** – A lightweight user interface that demonstrates end-to-end query, retrieval, and response workflows for developers and end users. For more information, refer to [RAG UI](docs\u002Fuser-interface.md).\n\n\n\n\n## Technical Diagram\n\nThe following image represents the architecture and workflow.\n\n  \u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA-AI-Blueprints_rag_readme_4e2f09084303.png\" width=\"750\">\n  \u003C\u002Fp>\n\n\n## Workflow\n\nThe following is a step-by-step explanation of the workflow from the end-user perspective:\n\n1. **Data Ingestion & Extraction Pipeline** – Multimodal enterprise documents (text, images, tables, charts, infographics, and audio) are ingested.\n\n2. **User Query** – The user interacts with the system through the UI or APIs, submitting a question. An optional NeMo Guardrails module can filter or reshape the query for safety and compliance before it enters the retrieval pipeline.\n\n3. **Query Processing** – The query is processed by the Query Processing service, which may also leverage reflection (an optional LLM step) to improve query understanding or reformulation for better retrieval results.\n\n4. **Retrieval from Enterprise Data** – The processed query is converted into embeddings using NeMo Retriever Embedding and matched against enterprise data stored in a cuVS accelerated Vector Database (CuVS) and associated object store(minIO). Relevant results are identified based on similarity.\n\n5. **Reranking for Precision** – An optional NeMo Retriever Reranker reorders the retrieved passages, ensuring the most relevant chunks are selected to ground the response.\n\n6. **Response Generation** – The selected context is passed into the LLM inference service (e.g., Llama Nemotron models). An optional reflection step can further validate or refine the answer against the retrieved context. Guardrails may also be applied to enforce safety before delivery.\n\n7. **User Response** – The generated, grounded response is sent back to the user interface, often with citations to retrieved documents for transparency.\n\n\n\n## AI Agent Skill\n\nAn agent skill is included that enables AI coding assistants (Claude Code, Cursor, etc.) to deploy, configure, troubleshoot, and manage the RAG Blueprint autonomously.\n\n### Install\n\n```bash\nnpx skills add .\n```\n\nThis installs the `rag-blueprint` skill from `skill-source\u002F`. After installation, the agent handles requests like:\n\n- *\"Deploy RAG on Docker with NVIDIA-hosted models\"*\n- *\"Enable VLM image captioning and restart the ingestor\"*\n- *\"Ingestion failed for 3 files, can you check why?\"*\n- *\"Switch from Docker to library mode\"*\n- *\"Shut down all RAG services\"*\n\n> **Note:** If the agent doesn't pick up the skill automatically (e.g., for short or ambiguous queries), invoke it explicitly with `\u002Frag-blueprint \u003Cyour request>`.\n\nFor skill architecture details, see [`skill-source\u002FREADME.md`](skill-source\u002FREADME.md).\n\n\n## Get Started With NVIDIA RAG Blueprint\n\nThe recommended way to get started is to deploy the NVIDIA RAG Blueprint\nwith Docker Compose for a single node deployment, and using self-hosted on-premises models.\nFor details, refer to [Get Started](docs\u002Fdeploy-docker-self-hosted.md).\n\nRefer to the [full documentation](docs\u002Freadme.md) to learn about the following:\n\n- Minimum Requirements\n- Deployment Options\n- Configuration Settings\n- Common Customizations\n- Available Notebooks\n- Troubleshooting\n- Additional Resources\n\n\n\n## Blog Posts\n\n- [NVIDIA NeMo Retriever Delivers Accurate Multimodal PDF Data Extraction 15x Faster](https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fnvidia-nemo-retriever-delivers-accurate-multimodal-pdf-data-extraction-15x-faster\u002F)\n- [Finding the Best Chunking Strategy for Accurate AI Responses](https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Ffinding-the-best-chunking-strategy-for-accurate-ai-responses\u002F)\n\n\n## Inviting the community to contribute\n\nWe're posting these examples on GitHub to support the NVIDIA LLM community and facilitate feedback.\nWe invite contributions!\nTo open a GitHub issue or pull request, see the [contributing guidelines](.\u002FCONTRIBUTING.md).\n\n\n## License\n\nThis NVIDIA AI BLUEPRINT is licensed under the [Apache License, Version 2.0.](.\u002FLICENSE) This project will download and install additional third-party open source software projects and containers. Review [the license terms of these open source projects](.\u002FLICENSE-3rd-party.txt) before use.\n\nUse of the models in this blueprint is governed by the [NVIDIA AI Foundation Models Community License](https:\u002F\u002Fdocs.nvidia.com\u002Fai-foundation-models-community-license.pdf).\n\n\n## Terms of Use\nThis blueprint is governed by the [NVIDIA Agreements | Enterprise Software | NVIDIA Software License Agreement](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fnvidia-software-license-agreement\u002F) and the [NVIDIA Agreements | Enterprise Software | Product Specific Terms for AI Product](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fproduct-specific-terms-for-ai-products\u002F). The models are governed by the [NVIDIA Agreements | Enterprise Software | NVIDIA Community Model License](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fnvidia-community-models-license\u002F) and the [NVIDIA RAG dataset](.\u002Fdata\u002Fmultimodal\u002F) which is governed by the [NVIDIA Asset License Agreement](https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fblob\u002Fmain\u002Fdata\u002FLICENSE.DATA).\nThe following models that are built with Llama are governed by the Llama 3.2 Community License Agreement: nvidia\u002Fllama-nemotron-embed-1b-v2 and nvidia\u002Fllama-nemotron-rerank-1b-v2 and llama-3.2-nemoretriever-1b-vlm-embed-v1.\n\n## Additional Information\n\nThe [Llama 3.1 Community License Agreement](https:\u002F\u002Fwww.llama.com\u002Fllama3_1\u002Flicense\u002F) for the llama-3.1-nemotron-nano-vl-8b-v1, llama-3.1-nemoguard-8b-content-safety and llama-3.1-nemoguard-8b-topic-control models. The [Llama 3.2 Community License Agreement](https:\u002F\u002Fwww.llama.com\u002Fllama3_2\u002Flicense\u002F) for the nvidia\u002Fllama-nemotron-embed-1b-v2, nvidia\u002Fllama-nemotron-rerank-1b-v2 and llama-3.2-nemoretriever-1b-vlm-embed-v1 models. The [Llama 3.3 Community License Agreement](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-models\u002Fblob\u002Fmain\u002Fmodels\u002Fllama3_3\u002FLICENSE) for the llama-3.3-nemotron-super-49b-v1.5 models. Built with Llama. Apache 2.0 for NVIDIA Ingest and for the nemoretriever-page-elements-v2, nemotron-table-structure-v1, nemotron-graphic-elements-v1, paddleocr and nemoretriever-ocr-v1 models.\n\n","\u003Ch1>NVIDIA RAG 蓝图\u003C\u002Fh1>\n\n检索增强生成（RAG）将大型语言模型（LLM）的推理能力与来自可信数据源的实时检索相结合。\n它使 AI 回答基于企业知识，从而减少幻觉现象，确保准确性、合规性和信息的新鲜度。\n\n\n\n## 概述\n\nNVIDIA RAG 蓝图是一个参考解决方案和基础起点，\n用于使用 NVIDIA NIM 微服务构建检索增强生成（RAG）流水线。\n它使企业能够基于自身数据提供自然语言问答服务，\n同时满足治理、延迟和可扩展性要求。该蓝图设计为可分解且可配置，\n集成了 GPU 加速组件、NeMo Retriever 模型、多模态和视觉语言模型以及安全约束服务，\n以提供一个企业就绪的框架。凭借预构建的参考 UI、开源代码以及多种部署选项——包括本地 Docker（带或不带 NVIDIA 托管端点）和 Kubernetes——\n它为开发者提供了一个灵活的起点，可根据其特定需求进行调整和扩展。\n\n\n\n## 主要特性\n\n\u003Cdetails>\n    \u003Csummary>数据摄取\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>多模态内容提取——包含文本、表格、图表、信息图和音频的文档。有关支持的文件类型的完整列表，请参阅 [NeMo Retriever 提取概述](https:\u002F\u002Fdocs.nvidia.com\u002Fnemo\u002Fretriever\u002Flatest\u002Fextraction\u002Foverview\u002F)。\u003C\u002Fli>\n        \u003Cli>自定义元数据支持\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>搜索与检索\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>多集合可搜索性\u003C\u002Fli>\n        \u003Cli>稠密与稀疏混合搜索\u003C\u002Fli>\n        \u003Cli>重排序以进一步提高准确性\u003C\u002Fli>\n        \u003Cli>GPU 加速的索引创建与搜索\u003C\u002Fli>\n        \u003Cli>可插拔向量数据库\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>查询处理\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>查询分解\u003C\u002Fli>\n        \u003Cli>动态过滤表达式生成\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>生成与丰富\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>在答案生成管道中选择启用多模态和视觉语言模型支持。\u003C\u002Fli>\n        \u003Cli>采用多种策略进行文档摘要，支持灵活的页面筛选和实时进度跟踪\u003C\u002Fli>\n        \u003Cli>通过可选的反思机制提升准确性\u003C\u002Fli>\n        \u003Cli>可选的内容安全编程化护栏\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>评估\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>评估脚本（RAGAS 框架）\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>用户体验\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>示例用户界面\u003C\u002Fli>\n        \u003Cli>多轮对话\u003C\u002Fli>\n        \u003Cli>多会话支持\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\u003Cdetails>\n    \u003Csummary>部署与运维\u003C\u002Fsummary>\n    \u003Cul>\n        \u003Cli>遥测与可观测性\u003C\u002Fli>\n        \u003Cli>可分解且可定制\u003C\u002Fli>\n        \u003Cli>NIM Operator 支持\u003C\u002Fli>\n        \u003Cli>Python 库模式支持\u003C\u002Fli>\n        \u003Cli>兼容 OpenAI 的 API\u003C\u002Fli>\n    \u003C\u002Ful>\n\u003C\u002Fdetails>\n\n\n\n## 软件组件\n\nRAG 蓝图由以下互补类别的软件构建而成：\n\n\n- **NVIDIA NIM 微服务**——提供核心 AI 功能。大规模推理（例如用于响应生成的 Nemotron LLM 模型）、检索与重排序模型，以及用于文本、表格、图表和图形的专用提取器。可选的 NIM 还可通过 OCR、内容安全、主题控制和多模态嵌入等功能扩展这些能力。\n\n- **集成与编排层**——充当将系统整合为完整解决方案的粘合剂。\n\n这种模块化设计确保了高效的查询处理、准确的信息检索以及便捷的定制化。\n\n\n### NVIDIA NIM 微服务\n\n\n- 响应生成（推理）\n\n    - [NVIDIA NIM llama-3.3-nemotron-super-49b-v1.5](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_3-nemotron-super-49b-v1_5)\n\n- 检索与提取模型\n\n    - [NVIDIA NIM llama-3_2-nv-embedqa-1b-v2](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_2-nv-embedqa-1b-v2)\n    - [NVIDIA NIM llama-3_2-nv-rerankqa-1b-v2](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_2-nv-rerankqa-1b-v2)\n    - [NeMo Retriever 页面元素 NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-page-elements-v3)\n    - [NeMo Retriever 表格结构 NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-table-structure-v1)\n    - [NeMo Retriever 图形元素 NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-graphic-elements-v1)\n    - [NeMo Retriever OCR NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemoretriever-ocr)\n\n- 可选的 NIM\n\n    - [Llama 3.1 NemoGuard 8B 内容安全 NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_1-nemoguard-8b-content-safety)\n    - [Llama 3.1 NemoGuard 8B 主题控制 NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_1-nemoguard-8b-topic-control)\n    - [Llama-3.1 Nemotron-nano-12b-v2-vl NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-nano-12b-v2-vl)\n    - [NeMo Retriever Parse NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemoretriever-parse)\n    - [PaddleOCR NIM](https:\u002F\u002Fbuild.nvidia.com\u002Fbaidu\u002Fpaddleocr)\n    - [llama-3.2-nemoretriever-1b-vlm-embed-v1](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_2-nemoretriever-1b-vlm-embed-v1)（早期访问）\n\n\n ### 集成与编排层\n\n- **RAG 编排服务器**——协调用户、检索器、向量数据库和推理模型之间的交互，确保多轮和上下文感知的查询处理。该系统基于 [LangChain](https:\u002F\u002Fwww.langchain.com\u002F) 构建。\n\n- **向量数据库（由 NVIDIA cuVS 加速）**——以 GPU 加速的索引和检索技术存储与搜索大规模嵌入，实现低延迟性能。您可以使用 [Milvus 向量数据库](https:\u002F\u002Fmilvus.io\u002F) 或 [Elasticsearch](https:\u002F\u002Fwww.elastic.co\u002Felasticsearch\u002Fvector-database)。\n\n- **NeMo Retriever 提取**——一个高性能的多模态内容解析摄取微服务。有关摄取流程的更多信息，请参阅 [NeMo Retriever 提取概述](https:\u002F\u002Fdocs.nvidia.com\u002Fnemo\u002Fretriever\u002Flatest\u002Fextraction\u002Foverview\u002F)。\n\n- **RAG 用户界面（rag-frontend）**——一个轻量级用户界面，展示了面向开发人员和最终用户的端到端查询、检索和响应工作流。有关更多信息，请参阅 [RAG UI](docs\u002Fuser-interface.md)。\n\n\n\n\n## 技术架构图\n\n下图展示了系统的架构和工作流程。\n\n  \u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA-AI-Blueprints_rag_readme_4e2f09084303.png\" width=\"750\">\n  \u003C\u002Fp>\n\n## 工作流程\n\n以下是从终端用户视角出发的工作流程的逐步说明：\n\n1. **数据摄取与提取管道** – 多模态企业文档（文本、图像、表格、图表、信息图和音频）被摄取。\n\n2. **用户查询** – 用户通过 UI 或 API 与系统交互，提交问题。一个可选的 NeMo Guardrails 模块可以在查询进入检索管道之前，出于安全和合规性的考虑对其进行过滤或重塑。\n\n3. **查询处理** – 查询由查询处理服务进行处理，该服务还可能利用反思功能（一个可选的 LLM 步骤）来提升对查询的理解或重新表述，以获得更好的检索结果。\n\n4. **从企业数据中检索** – 经过处理的查询使用 NeMo Retriever Embedding 转换为嵌入向量，并与存储在 cuVS 加速向量数据库（CuVS）及关联对象存储（minIO）中的企业数据进行匹配。根据相似度识别出相关结果。\n\n5. **精确度重排序** – 一个可选的 NeMo Retriever Reranker 对检索到的段落进行重新排序，确保选择最相关的片段作为响应的基础。\n\n6. **响应生成** – 所选上下文被传递给 LLM 推理服务（例如 Llama Nemotron 模型）。一个可选的反思步骤可以进一步根据检索到的上下文验证或优化答案。在交付之前，还可以应用护栏机制以确保安全性。\n\n7. **用户响应** – 生成的、有据可依的响应会被发送回用户界面，通常还会附上对检索文档的引用，以提高透明度。\n\n\n\n## AI 代理技能\n\n包含一项代理技能，使 AI 编码助手（Claude Code、Cursor 等）能够自主部署、配置、故障排除并管理 RAG 蓝图。\n\n### 安装\n\n```bash\nnpx skills add .\n```\n\n这将从 `skill-source\u002F` 中安装 `rag-blueprint` 技能。安装完成后，代理可以处理如下请求：\n\n- *“在 Docker 上部署带有 NVIDIA 托管模型的 RAG”*\n- *“启用 VLM 图像描述功能并重启摄取器”*\n- *“3 个文件的摄取失败，你能检查一下原因吗？”*\n- *“从 Docker 切换到库模式”*\n- *“关闭所有 RAG 服务”*\n\n> **注意：** 如果代理未能自动识别该技能（例如针对简短或模糊的查询），请使用 `\u002Frag-blueprint \u003Cyour request>` 显式调用它。\n\n有关技能架构的详细信息，请参阅 [`skill-source\u002FREADME.md`](skill-source\u002FREADME.md)。\n\n\n## 开始使用 NVIDIA RAG 蓝图\n\n推荐的入门方式是使用 Docker Compose 部署单节点的 NVIDIA RAG 蓝图，并采用自托管的本地模型。有关详细信息，请参阅 [开始使用](docs\u002Fdeploy-docker-self-hosted.md)。\n\n请参阅完整的文档 [docs\u002Freadme.md]，了解以下内容：\n\n- 最低要求\n- 部署选项\n- 配置设置\n- 常见自定义\n- 可用笔记本\n- 故障排除\n- 附加资源\n\n\n\n## 博客文章\n\n- [NVIDIA NeMo Retriever 提供准确的多模态 PDF 数据提取，速度提升 15 倍](https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fnvidia-nemo-retriever-delivers-accurate-multimodal-pdf-data-extraction-15x-faster\u002F)\n- [寻找用于生成准确 AI 响应的最佳分块策略](https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Ffinding-the-best-chunking-strategy-for-accurate-ai-responses\u002F)\n\n\n## 邀请社区参与贡献\n\n我们将在 GitHub 上发布这些示例，以支持 NVIDIA LLM 社区并促进反馈。我们诚挚邀请大家贡献力量！如需打开 GitHub 问题或拉取请求，请参阅 [贡献指南](.\u002FCONTRIBUTING.md)。\n\n\n## 许可证\n\n本 NVIDIA AI 蓝图依据 [Apache License, Version 2.0](.\u002FLICENSE) 进行许可。该项目会下载并安装其他第三方开源软件项目和容器。在使用前，请查阅 [这些开源项目的许可条款](.\u002FLICENSE-3rd-party.txt)。\n\n本蓝图中所使用的模型受 [NVIDIA AI 基础模型社区许可证](https:\u002F\u002Fdocs.nvidia.com\u002Fai-foundation-models-community-license.pdf)的约束。\n\n\n## 使用条款\n本蓝图受 [NVIDIA 协议 | 企业软件 | NVIDIA 软件许可协议](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fnvidia-software-license-agreement\u002F)以及 [NVIDIA 协议 | 企业软件 | AI 产品特定条款](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fproduct-specific-terms-for-ai-products\u002F)的约束。模型则受 [NVIDIA 协议 | 企业软件 | NVIDIA 社区模型许可](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fagreements\u002Fenterprise-software\u002Fnvidia-community-models-license\u002F)以及 [NVIDIA RAG 数据集](.\u002Fdata\u002Fmultimodal\u002F)的约束，后者受 [NVIDIA 资产许可协议](https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fblob\u002Fmain\u002Fdata\u002FLICENSE.DATA)的约束。  \n以下基于 Llama 构建的模型受 Llama 3.2 社区许可协议约束：nvidia\u002Fllama-nemotron-embed-1b-v2、nvidia\u002Fllama-nemotron-rerank-1b-v2 和 llama-3.2-nemoretriever-1b-vlm-embed-v1。\n\n## 补充信息\n\n对于 llama-3.1-nemotron-nano-vl-8b-v1、llama-3.1-nemoguard-8b-content-safety 和 llama-3.1-nemoguard-8b-topic-control 模型，适用 [Llama 3.1 社区许可协议](https:\u002F\u002Fwww.llama.com\u002Fllama3_1\u002Flicense\u002F)。  \n对于 nvidia\u002Fllama-nemotron-embed-1b-v2、nvidia\u002Fllama-nemotron-rerank-1b-v2 和 llama-3.2-nemoretriever-1b-vlm-embed-v1 模型，适用 [Llama 3.2 社区许可协议](https:\u002F\u002Fwww.llama.com\u002Fllama3_2\u002Flicense\u002F)。  \n对于 llama-3.3-nemotron-super-49b-v1.5 模型，适用 [Llama 3.3 社区许可协议](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-models\u002Fblob\u002Fmain\u002Fmodels\u002Fllama3_3\u002FLICENSE)。这些模型均基于 Llama 构建。  \nApache 2.0 许可适用于 NVIDIA 摄取组件以及 nemoretriever-page-elements-v2、nemotron-table-structure-v1、nemotron-graphic-elements-v1、paddleocr 和 nemoretriever-ocr-v1 等模型。","# NVIDIA RAG Blueprint 快速上手指南\n\nNVIDIA RAG Blueprint 是一个基于 NVIDIA NIM 微服务构建的检索增强生成（RAG）参考解决方案。它帮助企业利用自有数据构建自然语言问答系统，结合 GPU 加速的检索、重排序及多模态处理能力，有效减少大模型幻觉，确保回答的准确性与合规性。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04) 或 macOS (部分功能受限)。\n- **GPU**: 支持 CUDA 的 NVIDIA GPU（推荐用于加速向量检索和推理）。\n- **Docker**: 已安装 Docker Engine 和 Docker Compose。\n- **内存**: 建议至少 16GB RAM（取决于所选模型大小）。\n\n### 前置依赖\n- **NVIDIA API Key**: 您需要一个 NVIDIA NGC API Key 来访问 NIM 微服务。\n  - 注册地址：[build.nvidia.com](https:\u002F\u002Fbuild.nvidia.com\u002F)\n  - 获取密钥后，请在终端设置环境变量：\n    ```bash\n    export NVIDIA_API_KEY=your_api_key_here\n    ```\n- **Git**: 用于克隆代码仓库。\n- **Python**: 建议版本 3.10+（如需使用 Python 库模式）。\n\n> **注意**：国内开发者若访问 `build.nvidia.com` 或 Docker Hub 较慢，建议配置合适的网络代理或使用国内镜像源加速 Docker 拉取过程。\n\n## 安装步骤\n\n推荐使用 **Docker Compose** 进行单机部署，这是最快捷的启动方式。\n\n### 1. 克隆项目仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag.git\ncd rag\n```\n\n### 2. 配置环境变量\n复制示例环境变量文件并根据需要修改（主要是填入 API Key）：\n```bash\ncp .env.example .env\n# 编辑 .env 文件，确保 NVIDIA_API_KEY 已正确填写\n```\n\n### 3. 启动服务\n使用 Docker Compose 启动所有组件（包括向量数据库、NIM 代理、编排服务和前端 UI）：\n```bash\ndocker compose up -d\n```\n\n> **提示**：首次运行时会拉取多个容器镜像，可能需要几分钟时间。您可以使用 `docker compose logs -f` 查看实时日志以确认服务状态。\n\n### 4. 验证安装\n等待所有服务状态变为 `healthy` 后，在浏览器中访问：\n```\nhttp:\u002F\u002Flocalhost:8501\n```\n您将看到 RAG 用户界面。\n\n## 基本使用\n\n以下是通过 Web 界面进行最简单问答的操作流程：\n\n### 第一步：上传数据 (Data Ingestion)\n1. 在 UI 界面左侧导航栏点击 **\"Ingest\"** 或 **\"Data Management\"**。\n2. 上传您的企业文档（支持 PDF, TXT, Markdown, 图片，表格等多模态文件）。\n   - 系统会自动调用 NeMo Retriever 进行内容提取、分块和向量化。\n3. 等待处理状态显示为 \"Completed\"。\n\n### 第二步：发起查询 (Query)\n1. 切换到 **\"Chat\"** 标签页。\n2. 在对话框中输入与自然语言相关的问题，例如：\n   > \"根据上传的财报，上个季度的营收增长率是多少？\"\n3. 系统后台将自动执行以下流程：\n   - **查询处理**：优化问题表述。\n   - **检索**：在向量数据库中搜索相关片段。\n   - **重排序**：筛选最相关的上下文。\n   - **生成**：由 LLM 基于检索到的事实生成回答。\n\n### 第三步：查看结果\n- 界面将显示生成的回答，并附带**引用来源**（Citations），点击可跳转至原文档的具体位置，确保答案可追溯。\n- 支持多轮对话，系统会记住上下文历史。\n\n### 进阶：使用 AI Agent 技能管理\n如果您使用支持 Agent 技能的编码助手（如 Cursor, Claude Code），可以安装内置技能来自动化管理 RAG 蓝图：\n\n```bash\nnpx skills add .\n```\n\n安装后，您可以直接通过自然语言指令控制部署，例如：\n- *\"Deploy RAG on Docker with NVIDIA-hosted models\"*\n- *\"Ingestion failed for 3 files, can you check why?\"*\n- *\"Shut down all RAG services\"*\n\n若 Agent 未自动识别，可显式调用：\n```\n\u002Frag-blueprint \u003Cyour request>\n```\n\n---\n*更多详细配置、自定义模型替换及 Kubernetes 部署方案，请参阅项目根目录下的 `docs\u002F` 文件夹。*","某大型制造企业的技术支援团队每天需处理大量关于设备维修手册、工程图纸和历史故障报告的查询请求。\n\n### 没有 rag 时\n- 工程师面对海量非结构化文档（含复杂表格和图表），人工检索耗时极长，紧急停机时难以快速定位解决方案。\n- 通用大模型因缺乏企业内部数据，常编造不存在的维修步骤或参数，导致“幻觉”风险，可能引发严重的安全事故。\n- 无法有效解析扫描件中的工程图表或模糊图片，关键视觉信息被忽略，导致故障诊断依据不足。\n- 每次回答无法追溯具体来源文档，合规审计困难，管理层难以信任 AI 生成的建议。\n\n### 使用 rag 后\n- 利用多模态内容提取能力，rag 能瞬间解析包含文本、表格、图表甚至音频的维修手册，工程师通过自然语言提问即可秒级获取精准答案。\n- 结合企业可信数据源进行实时检索，rag 将回答严格限定在真实手册范围内，彻底消除幻觉，确保维修指令的准确性与合规性。\n- 内置的视觉语言模型支持直接“看懂”工程图纸和故障照片，自动关联相关文字说明，提供图文并茂的完整诊断方案。\n- 系统自动标注每个答案引用的具体文档页码和段落，生成可追溯的报告，满足严格的行业审计与安全治理要求。\n\nrag 通过将企业私有知识与大模型推理能力深度融合，把原本高风险、低效率的人工查阅转变为安全、实时且可信赖的智能决策辅助。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA-AI-Blueprints_rag_57929459.png","NVIDIA-AI-Blueprints","NVIDIA AI Blueprints","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FNVIDIA-AI-Blueprints_ef2128b9.png","NVIDIA AI Blueprints are reference examples that illustrate how NVIDIA NIM can be leveraged to build innovative solutions.",null,"https:\u002F\u002Fbuild.nvidia.com\u002Fnim\u002Fagent-blueprints","https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints",[80,84,88,92,96,100,104,107,110],{"name":81,"color":82,"percentage":83},"Python","#3572A5",69.5,{"name":85,"color":86,"percentage":87},"TypeScript","#3178c6",17.7,{"name":89,"color":90,"percentage":91},"Jupyter Notebook","#DA5B0B",12.2,{"name":93,"color":94,"percentage":95},"Dockerfile","#384d54",0.4,{"name":97,"color":98,"percentage":99},"Shell","#89e051",0.1,{"name":101,"color":102,"percentage":103},"Go Template","#00ADD8",0,{"name":105,"color":106,"percentage":103},"CSS","#663399",{"name":108,"color":109,"percentage":103},"JavaScript","#f1e05a",{"name":111,"color":112,"percentage":103},"HTML","#e34c26",562,244,"2026-04-14T18:53:33","Apache-2.0",4,"Linux","必需 NVIDIA GPU。需支持 GPU 加速的组件（NVIDIA NIM microservices, cuVS）。具体显存大小取决于所选模型（如 Nemotron-Super-49B, NeMo Retriever 系列），文档未明确最低显存要求，但提及支持本地 Docker 和 Kubernetes 部署。","未说明",{"notes":122,"python":120,"dependencies":123},"该工具是 NVIDIA RAG Blueprint，主要基于容器化部署（推荐 Docker Compose 或 Kubernetes）。核心功能依赖 NVIDIA NIM 微服务（包括推理、检索、重排序、OCR 等模型）和 GPU 加速的向量数据库 (cuVS)。支持多种部署模式：本地自托管模型或使用 NVIDIA 托管端点。包含用于 AI 编码助手的 Agent Skill。具体模型许可证需遵循 NVIDIA 及 Llama 社区协议。",[124,125,126,127,128,129,130],"Docker Compose","Kubernetes (可选)","NVIDIA NIM microservices","LangChain","Milvus 或 Elasticsearch (向量数据库)","NVIDIA cuVS","minIO (对象存储)",[132,14,133],"其他","视频",[135,64,136,137],"nim","blueprint","retrieval-augmented-generation","2026-03-27T02:49:30.150509","2026-04-16T08:17:10.415009",[141,146,151,156],{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},35205,"使用 nvdev 端点上传文档时遇到 MilvusException：向量维度不匹配（例如 2048 vs 1024）或 Rerank 模型返回 404 错误，如何解决？","对于 nvdev 端点，需要在代码中手动注册模型以进行变通处理。请在 `src\u002Futils.py` 的第 272 行附近添加以下代码来注册 Rerank 模型：\n\nfrom langchain_nvidia import register_model, Model\nregister_model(Model(\n        id=\"nvdev\u002Fnvidia\u002Fllama-3.2-nv-rerankqa-1b-v2\",\n        model_type=\"ranking\",\n        client=\"NVIDIARerank\",\n        endpoint=\"https:\u002F\u002Fai.api.nvidia.com\u002Fv1\u002Fnvdev\u002Fretrieval\u002Fnvidia\u002Fllama-3_2-nv-rerankqa-1b-v2\u002Freranking\",\n    )\n)\n\n此外，确保使用的嵌入模型和重排序模型与 API Catalog 中托管的版本兼容。如果问题依旧，尝试创建新的集合（collection）后再上传文档。","https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fissues\u002F7",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},35206,"部署该方案需要多少张 H100 GPU？默认的大模型（如 llama-3.3-nemotron-super-49b-v1）能在单卡上运行吗？","资源需求取决于部署方式：\n1. **Helm 部署**：文档中提到的 8x H100 是针对 Helm 部署完整解决方案的要求。\n2. **Docker 部署**：如果使用 Docker 部署，2x H100 即可运行完整方案。\n3. **大模型运行**：默认的 `llama-3.3-nemotron-super-49b-v1` 或其最新的 v1.5 FP8 NIM 版本可以在 1x H100 上部署运行。具体支持的配置 profiles 可参考官方 NIM 文档。","https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fissues\u002F48",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},35207,"使用 Helm 升级安装时遇到端口无效错误（Invalid value: 0: must be between 1 and 65535），该如何解决？","该错误通常是由于 Helm chart 版本过旧或值合并逻辑导致端口映射出现了空值或重复值。解决方法是升级到最新的 release 版本（例如 v2.3.0 或更高），新版本已修复了相关的 schema 约束违规问题。请尝试运行：\nhelm upgrade --install rag -n rag https:\u002F\u002Fhelm.ngc.nvidia.com\u002Fnvidia\u002Fblueprint\u002Fcharts\u002Fnvidia-blueprint-rag-v2.3.0.tgz ...","https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fissues\u002F30",{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},35208,"如何在 ingestion（数据摄入）阶段添加自定义元数据字段（如 URL、文件类型、标签等）以便后续进行元数据过滤？","该功能已在 RAG Blueprint 的 v2.2.0 版本中得到支持。同时，底层的 `nv-ingest` 项目也在 PR #657 中合并了相关修复。请确保您将 RAG Blueprint 升级到 v2.2.0 或更高版本，即可在上传文档时传递自定义元数据字段用于后续的 RAG 链过滤。","https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fissues\u002F17",[162,167,172,177,182,187,192,197,202],{"id":163,"version":164,"summary_zh":165,"released_at":166},280225,"v2.5.0","## 版本 2.5.0（2026-03-17）\n\n此版本引入了对 Nemotron-super-3 模型的支持，将 NIM 更新至最新版本，升级了 NV-Ingest，并新增了持续摄取功能以及对 RTX 6000 MIG 的支持。\n\n### 亮点\n\n此版本包含以下关键更新：\n\n- **Nemotron-super-3 模型支持。** 现在您可以按照[本文档](.\u002Fdocs\u002Fnemotron3-super-deployment.md)中的步骤集成 Nemotron-super-3 模型。\n- **NIM 更新至最新版本。**\n  包含以下模型更新：\n  - `nvidia\u002Fllama-3.2-nv-embedqa-1b-v2` → `nvidia\u002Fllama-nemotron-embed-1b-v2`\n  - `nvidia\u002Fllama-3.2-nv-rerankqa-1b-v2` → `nvidia\u002Fllama-nemotron-rerank-1b-v2`\n  - `nemoretriever-page-elements-v3` → `nemotron-page-elements-v3`\n  - `nemoretriever-graphic-elements-v1` → `nemotron-graphic-elements-v1`\n  - `nemoretriever-table-structure-v1` → `nemotron-table-structure-v1`\n  - `nvidia\u002Fllama-3.2-nemoretriever-1b-vlm-embed-v1` → `nvidia\u002Fllama-nemotron-embed-vl-1b-v2`\n- 将 NVIngest 更新至[版本 26.1.2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo-Retriever\u002Freleases\u002Ftag\u002F26.1.2)。\n- 新增了一个演示持续摄取流水线的示例。更多信息请参阅[rag_event_ingest.ipynb](https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fblob\u002Fmain\u002Fnotebooks\u002Frag_event_ingest.ipynb)。\n- **新增对 RTX 6000 的 MIG 支持。** 有关详细信息，请参阅[MIG 部署](.\u002Fdocs\u002Fmig-deployment.md)，并使用 `values-mig-rtx6000.yaml` 和 `mig-config-rtx6000.yaml`。\n- 新增了实验性 Nemotron-parse-only 摄取流水线的文档。该配置允许您仅通过 NV-Ingest 使用 Nemotron Parse 进行提取，而无需依赖 OCR、page-elements、graphic-elements 或 table-structure NIM。更多信息请参阅[nemotron-parse-extraction.md](.\u002Fdocs\u002Fnemotron-parse-extraction.md#experimental-nemotron-parse-only-extraction)。\n- 修复了多个 bug，包括前端 CVE 问题的解决、改进了 VLM 嵌入的多模态内容拼接、增强了高并发并行摄取时的 VDB 序列化，以及对可观测性和 NeMo Guardrails 配置的更新。\n- 新增了代理技能支持：`rag-blueprint` 技能使 AI 编码助手（Claude Code、Cursor、Codex 等）能够自主部署、配置、故障排除和管理 RAG Blueprint。有关详细信息，请参阅[RAG Blueprint 代理技能](.\u002Fskill-source\u002FREADME.md)。\n- 新增了跨七个公开数据集（RagBattlepacket、KG-RAG、Financebench、DC767、HotPotQA、Google Frames 和 Vidore）的[准确性基准测试结果](.\u002Fdocs\u002Faccuracy-benchmarks.md)，比较了 LLM 和 VLM 配置在开启与关闭推理模式下的表现。基准测试采用 RAGAS 中的 NVIDIA 回答准确率指标。\n- 新增了一个展示 NVIDIA RAG Blueprint 的[LangChain 连接器](https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fblob\u002Fv2.5.0\u002Fnotebooks\u002Flangchain_nvidia_retriever.ipynb)的笔记本。\n\n### 已修复的已知问题\n\n以下已知问题已被解决","2026-03-17T17:26:53",{"id":168,"version":169,"summary_zh":170,"released_at":171},280226,"v2.4.0","## 版本 2.4.0（2026-02-20）\n\n此版本为 RAG 流程新增了支持代理工作流的功能，并通过 VLM 增强多模态输入，进一步提升了生成效果。\n\n### 亮点\n\n本版本包含以下关键变更：\n\n- 更新了 NIM 和相关代码，以支持 [NVIDIA Ingest 26.01 版本](https:\u002F\u002Fdocs.nvidia.com\u002Fnemo\u002Fretriever\u002Flatest\u002Fextraction\u002Freleasenotes-nv-ingest\u002F)。\n- 新增对非 NIM 模型的支持，包括 OpenAI、部署在 AWS 和 Azure 上的模型、开源模型等。这些模型可通过各自服务的 API 密钥进行访问。详情请参阅 [获取 API 密钥](.\u002Fdocs\u002Fapi-key.md)。\n- RAG 蓝图现将 [nemoretriever-ocr-v1](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemoretriever-ocr-v1\u002Fmodelcard) 作为默认的 OCR 模型。详情请参阅 [NeMo Retriever OCR 配置指南](.\u002Fdocs\u002Fnemoretriever-ocr.md)。\n- 改进了基于 VLM 的生成支持。视觉语言模型（VLM）推理功能现采用 [nemotron-nano-12b-v2-vl](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fnemotron-nano-12b-v2-vl\u002Fmodelcard) 模型。详情请参阅 [用于生成的 VLM](.\u002Fdocs\u002Fvlm.md)。\n- 用户界面优化，包括目录展示、图像与文本查询等功能。详情请参阅 [用户界面](.\u002Fdocs\u002Fuser-interface.md)。\n- 新增使用 OpenTelemetry (OTEL) 的摄取指标端点，用于监控文档上传、摄取的元素以及处理的页面数。详情请参阅 [可观测性](.\u002Fdocs\u002Fobservability.md)。\n- 支持以图像和文本作为输入查询。详情请参阅 [多模态查询支持](.\u002Fdocs\u002Fmultimodal-query.md)。\n- 新增对 Nemotron-3-Nano 模型的支持，并引入推理预算功能。详情请参阅 [启用推理](.\u002Fdocs\u002Fenable-nemotron-thinking.md)。\n- 向量数据库增强，包括安全的数据库访问机制。详情请参阅 [Milvus 配置](.\u002Fdocs\u002Fmilvus-configuration.md) 和 [Elasticsearch 配置](.\u002Fdocs\u002Fchange-vectordb.md)。\n- 现可通过模型上下文协议（MCP）服务器访问 RAG 功能，以实现工具集成。详情请参阅 [MCP 服务器与客户端使用](.\u002Fdocs\u002Fmcp.md)。\n- 新增兼容 OpenAI 的搜索端点，便于与 OpenAI 工具集成。详情请参阅 [API - RAG 服务器架构](.\u002Fdocs\u002Fapi-rag.md)。\n- 新增对集合级别数据目录、描述及元数据的支持。详情请参阅 [数据目录](.\u002Fdocs\u002Fdata-catalog.md)。\n- 优化了 `\u002Fstatus` 端点，可发布摄取指标与状态信息。详情请参阅 [摄取笔记本](https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fblob\u002Fv2.4.0\u002Fnotebooks\u002Fingestion_api_usage.ipynb)。\n- 多轮对话支持已不再是流程中检索或生成阶段的默认设置。详情请参阅 [多轮对话支持](.\u002Fdocs\u002Fmultiturn.md)。\n- 改进了文档处理与元素提取能力。\n- 对 RAG 库模式进行了多项增强。详情请参阅 [使用 NVIDIA RAG 蓝图 Python 包]","2026-02-20T19:14:24",{"id":173,"version":174,"summary_zh":175,"released_at":176},280227,"v2.3.2","## 版本 2.3.2（2025-12-25）\n\n此版本为 RAG v2.3.0 的热修复版本。\n### 变更\n- 将 embedqa 镜像\u002F版本升级至 1.10.1，将 nim-llm 升级至 1.14.0 版本。\n- 调整 Helm 值及所有引用的标签，使其与新的 embedqa 和 nim-llm 版本保持一致。","2026-01-09T13:42:27",{"id":178,"version":179,"summary_zh":180,"released_at":181},280228,"v2.3.0","## 版本 2.3.0（2025-10-14）\n\n此版本新增了对 RTX6000 平台的支持，引入了通过 NIM Operator 进行部署的方式，增强了蓝图中向量数据库的可插拔性，并进行了其他改进。\n\n### 新增功能\n- 支持在 RTX6000 平台上部署该蓝图。\n- 默认 LLM 模型迁移至 [`llama-3.3-nemotron-super-49b-v1.5`](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_3-nemotron-super-49b-v1_5)。\n- 增加了使用 NVIDIA NIM Operator 部署 Helm Chart 的支持。详细信息请参阅 [使用 NIM Operator 部署 NVIDIA RAG 蓝图](docs\u002Fdeploy-nim-operator.md)。\n- 更新所有 NIM、NVIDIA Ingest 及第三方依赖至最新版本。\n- 重构代码以更 streamlined 的方式支持自定义第三方向量数据库集成。\n  - 展示以库模式集成的交互式笔记本位于 [这里](.\u002Fnotebooks\u002Fbuilding_rag_vdb_operator.ipynb)。\n- 增加了对 [Elasticsearch 向量数据库作为 Milvus 替代方案](.\u002Fdocs\u002Fchange-vectordb.md) 的支持。\n- 增加了可选的 [查询分解支持](.\u002Fdocs\u002Fquery_decomposition.md)。\n- 增加了可选的 [nemoretriever-OCR 支持](.\u002Fdocs\u002Fnemoretriever-ocr.md)。\n- 增加了可选的 [VLM 嵌入支持](.\u002Fdocs\u002Fvlm-embed.md)。\n- 自定义元数据增强。详细文档见 [这里](.\u002Fdocs\u002Fcustom-metadata.md)。\n  - 增加了对更多数据类型的支持。\n  - 提供了基于 LLM 生成过滤器的可选功能，以提升准确性。\n  - 添加了一个展示新功能的 [交互式笔记本](.\u002Fnotebooks\u002Fnb_metadata.ipynb)。\n- 为 Ingestor 服务器的 `\u002Fhealth` API 增加了依赖项检查支持。\n- 在 API 层增加了可配置的检索置信度阈值支持。\n- 支持将 NV-Ingest 提取结果 [直接从文件系统存储](.\u002Fdocs\u002Fmount-ingestor-volume.md)。\n- 日志记录增强。\n- 为 RAG 服务器增加了更好的延迟数据报告：\n  - 在 API 级别增强了组件级延迟监控。\n  - 增加了专用的 Prometheus 指标端点。\n- 增加了用于展示批量摄取的独立脚本 [这里](.\u002Fscripts\u002FREADME.md)。\n- 启用了 [GPU 索引结合 CPU 搜索](.\u002Fdocs\u002Fmilvus-configuration.md#gpu-indexing-with-cpu-search) 的支持：\n  - 将 `APP_VECTORSTORE_EF` 公开为可配置参数。\n- 增加了用于控制 LLM 参数 `LLM_MAX_TOKENS`、`LLM_TEMPERATURE` 和 `LLM_TOP_P` 的环境变量。\n- 增加了使用常用指标评估 RAG 的笔记本：\n  - [笔记本 1 - 使用 RAGAS 进行评估](.\u002Fnotebooks\u002Fevaluation_01_ragas.ipynb)。\n  - [笔记本 2 - 召回率计算](.\u002Fnotebooks\u002Fevaluation_02_recall.ipynb)。\n- 增加了用于维护代码质量的 [单元测试](.\u002Ftests\u002Funit\u002F) 和 [pre-commit](.\u002FLINTING.md) 钩子。\n- 通过移除不必要的软件包并提升安全性，优化了容器镜像大小。\n\n### 变更内容\n- 默认的反思 LLM 模型由 `mixtral-8x22b-instruct-v01` 迁移至 `llama-3.3-nemotron-super-49b`。\n- 重构了 [rag-playground](.\u002Ffrontend\u002F) 代码：\n  - 全面采用 React 技术栈，废弃了 Next.js 依赖。\n  - 更加便于开发者使用。","2025-10-15T05:15:20",{"id":183,"version":184,"summary_zh":185,"released_at":186},280229,"v2.2.1","此小补丁版本已更新至最新的 nvingest 客户端版本 `25.6.3`，以修复因 pypdfium 引入的破坏性变更。\n详情请参见：\nhttps:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fnv-ingest\u002Freleases\u002Ftag\u002F25.6.3\n\n所有现有的预构建容器应仍能正常运行。\n同时发布了相应的 PyPI 库：\nhttps:\u002F\u002Fpypi.org\u002Fproject\u002Fnvidia-rag\u002F2.2.1\u002F","2025-07-22T17:50:14",{"id":188,"version":189,"summary_zh":190,"released_at":191},280230,"v2.2.0","本次发布新增了对 B200 平台的支持、原生 Python API，以及针对多模态和元数据功能的重大增强。同时，还提升了 RAG 蓝图的部署灵活性和可定制性。\n\n### 新增功能\n- 支持在 B200 平台上部署该蓝图。\n- 增加对 [原生 Python API](.\u002Fdocs\u002Fpython-client.md) 的支持：\n  - 重构代码和目录结构以支持 Python API；\n  - 更好的模块化设计，便于自定义；\n  - 将该项目的包管理工具切换为 `uv`。\n- 新增可配置向量存储一致性级别（有界\u002F强一致性\u002F会话），以优化检索性能与准确性的权衡。\n- 提供 [添加自定义元数据](.\u002Fdocs\u002Fcustom-metadata.md) 的能力，用于文件及基于元数据的过滤。\n- 文档化了 [使用多实例 GPU](.\u002Fdocs\u002Fmig-deployment.md) 的方法，将 Helm Chart 的最低 GPU 要求降低至 3xH100。\n- 增加了 [多集合检索](.\u002Fdocs\u002Fmulti-collection-retrieval.md) 支持。\n- 新增对音频文件（.mp3 和 .wav）的支持，详见 [音频数据摄取](.\u002Fdocs\u002Faudio_ingestion.md)。\n- 支持使用 [视觉语言模型](.\u002Fdocs\u002Fvlm.md) 生成图表和图像内容。\n- 新增对上传文件进行 [摘要生成](.\u002Fdocs\u002Fsummarization.md) 的功能。\n- 样例用户界面增强：\n  - 支持非阻塞式文件上传；\n  - 更高效地报告数据摄取失败信息。\n- 新增 [提示词自定义](.\u002Fdocs\u002Fprompt-customization.md) 功能，无需重新构建镜像即可实现。\n- 新增启用信息图表的功能，可提升包含图片中文字的文档的准确性。详情请参阅 [此指南](.\u002Fdocs\u002Faccuracy_perf.md#ingestion-and-chunking)。\n- 其他新自定义选项：\n  - 如何支持非 nVIngester 的数据摄取与检索；\n  - 如何启用 [基于 CPU 的 Milvus](.\u002Fdocs\u002Fmilvus-configuration.md)；\n  - 如何将 [NemoRetriever-Parse](.\u002Fdocs\u002Fnemoretriever-parse-extraction.md) 作为替代 PDF 解析器启用；\n  - 如何使用 [独立的 nV-ingest Python 客户端](.\u002Fdocs\u002Fnv-ingest-standalone.md) 进行数据摄取。\n- 新增对 [NVIDIA AI Workbench](.\u002Fdeploy\u002Fworkbench\u002F) 的支持。\n\n### 变更内容\n- 更新了 [API 架构](.\u002Fdocs\u002Fapi_reference\u002F) 以支持新增功能：\n  - 将废弃 `\u002Fcollections` 的 POST 请求，改用 `\u002Fcollection` 的 POST 请求用于摄取服务端；\n  - 为 RAG 服务端新增了 `\u002Fsummary` GET 端点；\n  - 元数据信息现可通过 `\u002Fcollections` 和 `\u002Fdocuments` API 获取；\n  - 有关 API 层面的详细变更，请参阅 [迁移指南](.\u002Fdocs\u002Fmigration_guide.md#migration-guide-rag-v210-to-rag-v220)。\n- 优化了 [批处理模式](.\u002Fdocs\u002Faccuracy_perf.md#ingestion-batch-mode-optimization) 的数据摄取支持，以提升多用户并发上传文件时的性能。\n\n### 已知问题\n请查阅 [此部分](.\u002Fdocs\u002Ftroubleshooting.md#known-issues)，了解本版本中存在的已知问题。","2025-07-09T04:56:31",{"id":193,"version":194,"summary_zh":195,"released_at":196},280231,"v2.1.0","此版本降低了部署蓝图所需的总体 GPU 资源需求，同时提升了基于 Docker 和 Helm 的部署性能与稳定性。\n\n### 新增功能\n- 为上传文档 API 添加了非阻塞异步支持：\n  - 新增 `blocking: bool` 字段，用于从客户端控制该行为，默认值为 `true`。\n  - 新增 `\u002Fstatus` API，用于监控已上传文档的状态或完成情况。\n- Helm Chart 已发布至 NGC 公共注册表。\n- 现已提供 Helm Chart 自定义指南，涵盖所有可选功能，详情请参见 [文档](.\u002FREADME.md#available-customizations)。\n- 修复了上传超大文件时出现的问题。\n- 增强了安全性并提升了系统稳定性。\n\n### 变更内容\n- 总体 GPU 需求降低至 2xH100\u002F3xA100。\n  - 默认 LLM 模型更改为 [llama-3_3-nemotron-super-49b-v1](https:\u002F\u002Fbuild.nvidia.com\u002Fnvidia\u002Fllama-3_3-nemotron-super-49b-v1)，这使得部署 LLM 模型所需的总体 GPU 减少至 1xH100\u002F2xA100。\n  - 所有其他 NIM（摄取和重排序 NIM）的默认 GPU 需求调整为 1xH100\u002F1xA100。\n- 将默认分块大小更改为 512，以减少 LLM 的上下文长度，从而降低 RAG 服务器的响应延迟。\n- 提供了在分块后拆分 PDF 的配置选项，通过 ingestor-server 中的 `APP_NVINGEST_ENABLEPDFSPLITTER` 环境变量进行控制，默认值为 `True`。\n- 添加了基于批处理的摄取功能，有助于更有效地管理 `ingestor-server` 的内存使用。可通过 `ENABLE_NV_INGEST_BATCH_MODE` 和 `NV_INGEST_FILES_PER_BATCH` 变量进行控制，其默认值分别为 `True` 和 `100`。\n- 从 `ingestor-server` 的 API 层移除了 `extract_options`。\n- 解决了批量摄取过程中遇到的问题：当单个文件摄取失败时，整个摄取任务也会失败。\n\n### 已知问题\n- 如果更改了 `APP_LLM_MODELNAME`、`APP_EMBEDDINGS_MODELNAME` 或 `APP_RANKING_MODELNAME` 环境变量的值，则需要重新构建 `rag-playground` 容器。\n- 在尝试同时上传多个文件时，可能会出现超时错误 `Error uploading documents: [Error: aborted] { code: 'ECONNRESET' }`。建议开发者直接使用 API 进行批量上传，而非使用示例中的 rag-playground。UI 端默认的上传超时时间为 1 小时。\n- 在文件上传失败时，rag-playground 的用户界面可能不会显示错误信息。建议开发者查看 `ingestor-server` 的日志以获取详细信息。\n\n有关从旧版本迁移的详细指南，请参阅 [此处](.\u002Fdocs\u002Fmigration_guide.md)，以帮助开发者更顺畅地完成升级。","2025-05-14T20:47:40",{"id":198,"version":199,"summary_zh":200,"released_at":201},280232,"v2.0.0","## [2.0.0] - 2025-03-18\n\n本次发布新增了对使用 [Nvidia Ingest](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fnv-ingest) 的多模态文档的支持，包括 PDF、Word 和 PowerPoint 文档的解析功能。同时，通过重构 API 和架构，并新增了一个更友好的开发者界面，显著提升了准确性和性能表现。\n\n### 新增功能\n- 集成 Nvingest 作为数据摄取管道，基于 unstructured.io 的旧管道现已弃用。\n- 兼容 OTEL 的[可观测性与遥测支持](.\u002Fdocs\u002Fobservability.md)。\n- API 重构。更新后的 Schema 可见[此处](.\u002Fdocs\u002Fapi_reference\u002F)。\n  - 支持所有常用参数的运行时配置。\n  - 多模态引用支持。\n  - 新增用于删除集合、创建集合以及重新摄取文档的专用端点。\n- [全新基于 React + Node.js 的 UI](.\u002Ffrontend\u002F)，展示运行时配置功能。\n- 增加了一些可选功能以提升管道的准确性和可靠性，默认情况下未启用。最佳实践请参阅[此处](.\u002Fdocs\u002Faccuracy_perf.md)。\n  - [自我反思支持](.\u002Fdocs\u002Fself-reflection.md)。\n  - [NeMo Guardrails 支持](.\u002Fdocs\u002Fnemo-guardrails.md)。\n  - [使用 Milvus 实现混合检索支持](.\u002Fdocs\u002Fhybrid_search.md)。\n- 兼容 [Brev dev](https:\u002F\u002Fdeveloper.nvidia.com\u002Fbrev) 的[Notebook](.\u002Fnotebooks\u002Flaunchable.ipynb)。\n- 安全性增强及稳定性改进。\n\n### 变更内容\n- 在 **RAG v1.0.0** 中，单个服务器同时管理 **摄取** 和 **检索\u002F生成** API。而在 **RAG v2.0.0** 中，架构已演进为使用 **两个独立的微服务**。\n- [Helm Chart](.\u002Fdeploy\u002Fhelm\u002F) 现在实现了模块化，每个独立的微服务都提供了单独的 Helm Chart。\n- 默认设置经过优化，可在准确性和性能之间取得平衡。\n  - [默认流程使用本地部署模型](.\u002Fdocs\u002Fquickstart.md#deploy-with-docker-compose)，同时也支持切换到 API 目录端点以进行基于 Docker 的部署。\n  - [查询改写](.\u002Fdocs\u002Fquery_rewriter.md) 使用较小的 llama3.1-8b-instruct 模型，默认情况下未启用。\n  - 支持在检索过程中利用对话历史，以实现低延迟的多轮交互。\n\n### 已知问题\n- 如果更改了 `APP_LLM_MODELNAME`、`APP_EMBEDDINGS_MODELNAME` 或 `APP_RANKING_MODELNAME` 环境变量的值，则需要重新构建 `rag-playground` 容器。\n- 可选功能中的自我反思、nemoguardrails 和图像描述功能在基于 Helm 的部署中不可用。\n- 在摄取过程中，上传扩展名为 .txt 的大文件可能会失败。为避免此问题，建议将此类文件拆分为更小的片段。\n\n我们提供了一份详细的迁移指南[此处](.\u002Fdocs\u002Fmigration_guide.md)，旨在帮助开发者更顺利地从旧版本迁移到新版本。","2025-03-18T18:12:20",{"id":203,"version":204,"summary_zh":205,"released_at":206},280233,"v1.0.0","这是 NVIDIA AI RAG 蓝图的首个版本，用作基础型检索增强生成（RAG）流水线的参考解决方案。该蓝图展示了如何搭建一个使用 NVIDIA NIM 和 GPU 加速组件的 RAG 解决方案。\n默认情况下，该蓝图会利用 [NVIDIA API 目录](https:\u002F\u002Fbuild.nvidia.com\u002F) 中提供的 NVIDIA 托管模型。不过，您也可以将其替换为您本地部署的 NIM 模型，以满足特定的数据治理和延迟要求。\n如需了解更多详情，请参阅 [README](https:\u002F\u002Fgithub.com\u002FNVIDIA-AI-Blueprints\u002Frag\u002Fblob\u002Fv1.0.0\u002FREADME.md)。","2025-01-23T07:45:56"]