KAG

8.7k 664 中等 1 次阅读今天Apache-2.0语言模型数据工具

AI 解读由 AI 自动生成，仅供参考

KAG（知识增强生成）是一款专为专业领域打造的智能问答与逻辑推理框架。它巧妙结合了 OpenSPG 引擎的结构化能力与大语言模型的灵活性，旨在解决传统检索增强生成（RAG）技术中常见的痛点：即单纯依赖向量相似度计算导致的语义模糊，以及自动提取知识时引入的噪声干扰。

通过引入“逻辑形式引导”机制，KAG 能够精准处理复杂的多跳推理任务和高精度的事实性问答，特别适用于金融、法律、医疗等对准确性要求极高的垂直行业知识库建设。其核心技术亮点包括独特的“知识与文本块互索引”结构，既保留了完整的上下文信息，又实现了图谱结构与原文的高效关联；同时采用概念语义推理进行知识对齐，有效清洗数据噪声，并支持基于专家定义的 Schema 约束来构建高质量领域知识。

这款工具主要面向开发者、人工智能研究人员以及企业级知识工程团队。如果你正在寻求构建超越传统搜索体验、具备深度逻辑理解能力的专业问答系统，KAG 提供了一个成熟且高效的开源解决方案，帮助将分散的非结构化数据与专家经验转化为可推理、可信赖的业务智慧。

使用场景

某大型金融机构的风控团队正在构建智能合规问答系统，需要基于复杂的监管文档和内部交易记录回答涉及多步逻辑推导的专业问题。

没有 KAG 时

语义匹配失真：传统 RAG 仅靠向量相似度检索，常因关键词重合而召回无关条款，导致模型依据错误事实生成回答。
逻辑推理断裂：面对“若 A 公司持股 B 超过 5% 且 B 涉及制裁，则 A 是否违规”这类多跳问题，系统无法串联分散在不同文档中的实体关系。
噪声干扰严重：自动化提取的知识图谱包含大量由开放信息抽取（OpenIE）产生的错误三元组，误导大模型产生幻觉。
专家经验缺失：非结构化的业务规则难以与结构化数据融合，系统无法理解行业特有的 Schema 约束，回答缺乏专业深度。

使用 KAG 后

精准事实定位：KAG 利用“知识与文本块互索引”结构，不仅匹配语义，更结合上下文块定位，彻底消除向量检索的歧义性。
逻辑形式引导推理：通过逻辑形式引导的混合推理机制，KAG 能自动拆解复杂问题，在知识图谱上执行多跳查询，精准得出推导结论。
概念对齐去噪：借助概念语义推理进行知识对齐，KAG 有效过滤了开放抽取带来的噪声，确保推理链条中的事实准确无误。
Schema 约束构建：支持基于 Schema 的领域专家知识构建，将内部风控规则转化为机器可理解的逻辑，使回答符合行业标准。

KAG 通过将严谨的逻辑推理能力注入大模型，成功将金融风控问答从“模糊猜测”升级为“可解释的精准决策”。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes普通用户推荐使用 Docker Compose 部署（支持 macOS, Linux, Windows/WSL2）；开发者需安装 Python 3.10+ 并通过 pip 安装。具体操作系统版本要求：macOS Monterey 12.6+, CentOS 7/Ubuntu 20.04+, Windows 10 LTSC 2021+。

python3.10+

Docker

Docker Compose

Git

快速开始

KAG：知识增强生成

English | 简体中文 | 日本語版ドキュメント

1. 什么是KAG？

KAG是一个基于OpenSPG引擎和大型语言模型的逻辑推理与问答框架，用于构建垂直领域知识库的逻辑推理和问答解决方案。KAG能够有效克服传统RAG向量相似度计算的模糊性以及由OpenIE引入的GraphRAG噪声问题。KAG支持逻辑推理、多跳事实问答等功能，显著优于当前的SOTA方法。

KAG的目标是在专业领域构建一个知识增强型LLM服务框架，支持逻辑推理、事实问答等任务。KAG充分整合了知识图谱的逻辑性和事实性特征，其核心功能包括：

知识与文本块互索引结构，以整合更完整的上下文信息
基于概念语义推理的知识对齐，缓解OpenIE带来的噪声问题
模式约束下的知识构建，支持领域专家知识的表示与构建
逻辑形式引导的混合推理与检索，支持逻辑推理及多跳推理问答

⭐️ 请给我们的仓库点个星，以便及时了解激动人心的新功能和改进！您将立即收到新版本发布的通知！🌟

Star KAG

2. 核心功能

2.1 知识表示

在私有知识库的场景下，非结构化数据、结构化信息和业务专家经验往往并存。KAG参考DIKW层次结构，将SPG升级为更适合LLM使用的版本。

对于新闻、事件、日志、书籍等非结构化数据，以及交易、统计、审批等结构化数据，还有业务经验和领域知识规则，KAG采用布局分析、知识提取、属性归一化和语义对齐等技术，将原始业务数据和专家规则整合进统一的业务知识图谱中。

KAG示意图

这使得它能够在同一知识类型（例如实体类型、事件类型）上兼容无模式的信息抽取和有模式约束的专家知识构建，并支持图结构与原始文本块之间的交叉索引表示。

这种互索引表示有助于基于图结构构建倒排索引，促进逻辑形式的统一表示与推理。

2.2 逻辑形式引导的混合推理

逻辑形式求解器

KAG提出了一种逻辑形式引导的混合解决方案及推理引擎。

该引擎包含规划、推理和检索三类算子，可将自然语言问题转化为结合语言与符号的求解过程。

在此过程中，每一步都可以使用不同的算子，如精确匹配检索、文本检索、数值计算或语义推理，从而实现检索、知识图谱推理、语言推理和数值计算四种不同求解过程的融合。

3. 发布说明

3.1 最新更新

2025年6月27日：发布KAG 0.8.0版本
- 扩展了两种模式：私有知识库（包括结构化与非结构化数据）和公共网络知识库，支持通过MCP协议集成LBS、WebSearch等公共数据源。
- 增强了私有知识库的索引能力，内置大纲、摘要、知识单元、原子查询、文本块和表格等基础索引类型。
- 将知识库与应用解耦：知识库管理私有数据（结构化与非结构化）和公共数据；应用可以关联多个知识库，并根据知识库构建时设定的索引类型自动适配相应的检索器进行数据召回。
- 完全拥抱MCP协议，使KAG驱动的推理问答（通过MCP协议）能够在代理工作流中运行。
- 完成了KAG-Thinker模型的适配。通过对问题广度分解、深度求解、知识边界确定以及抗噪声检索结果等方面的优化，在多轮迭代思维框架的指导下，框架的推理范式稳定性和逻辑严谨性得到了提升。
2025年4月17日：发布KAG 0.7版本
- 首先，我们重构了KAG-Solver框架。增加了静态和迭代两种任务规划模式，同时为推理阶段实施了更为严格的知识分层机制。
- 其次，我们优化了产品体验：在推理阶段引入“简单模式”和“深度推理”两种模式，并支持流式推理输出、自动渲染图索引以及将生成内容链接到原始参考文献。
- 在KAG仓库的顶级目录下新增了open_benchmark文件夹，用于在同一基准下比较各种RAG方法，以达到最先进的水平（SOTA）。
- 引入了“轻量化构建”模式，将知识构建的token成本降低了89%。
2025年1月7日：支持领域知识注入、领域模式定制、QFS任务支持、可视化查询分析，启用抽取的模式约束模式等。
2024年11月21日：支持Word文档上传、模型调用并发设置、用户体验优化等。
2024年10月25日：KAG首次发布

3.2 未来计划

我们将继续专注于提升大模型利用外部知识库的能力。我们的目标是在大模型与符号化知识之间实现双向增强和无缝融合，从而提高专业场景下推理和问答的事实性、严谨性和一致性。同时，我们也将持续发布更新，以突破能力边界，并推动其在垂直领域的应用。

4. 快速入门

4.1 基于产品的使用（面向普通用户）

4.1.1 引擎及依赖镜像安装

推荐系统版本：

macOS 用户：macOS Monterey 12.6 或更高版本
Linux 用户：CentOS 7 / Ubuntu 20.04 或更高版本
Windows 用户：Windows 10 LTSC 2021 或更高版本

软件要求：

macOS / Linux 用户：Docker，Docker Compose
Windows 用户：WSL 2 / Hyper-V，Docker，Docker Compose

使用以下命令下载 docker-compose.yml 文件，并通过 Docker Compose 启动服务。

# 设置 HOME 环境变量（仅 Windows 用户需要执行此命令）
# set HOME=%USERPROFILE%

curl -sSL https://raw.githubusercontent.com/OpenSPG/openspg/refs/heads/master/dev/release/docker-compose-west.yml -o docker-compose-west.yml
docker compose -f docker-compose-west.yml up -d

4.1.2 使用产品

使用浏览器访问 KAG 产品的默认网址：http://127.0.0.1:8887

默认用户名：openspg
默认密码：openspg@kag

详细使用说明请参阅 KAG 使用指南（产品模式）。

4.2 基于工具包的使用（面向开发者）

4.2.1 引擎及依赖镜像安装

请参考 3.1 节完成引擎及依赖镜像的安装。

4.2.2 安装 KAG

macOS / Linux 开发者

# 创建 conda 环境：conda create -n kag-demo python=3.10 && conda activate kag-demo

# 克隆代码：git clone https://github.com/OpenSPG/KAG.git

# 安装 KAG：cd KAG && pip install -e .

Windows 开发者

# 安装官方 Python 3.10 或更高版本，安装 Git。

# 创建并激活 Python venv：py -m venv kag-demo && kag-demo\Scripts\activate

# 克隆代码：git clone https://github.com/OpenSPG/KAG.git

# 安装 KAG：cd KAG && pip install -e .

4.2.3 使用工具包

请参阅 KAG 使用指南（开发者模式），了解工具包的详细使用方法。随后，您可以使用内置组件复现内置数据集的性能结果，并将这些组件应用于新的业务场景中。

5. 技术架构

KAG 技术架构

KAG 框架包含三个部分：kg-builder、kg-solver 和 kag-model。本次发布仅涉及前两部分，kag-model 将在未来逐步开源。

kg-builder 实现了一种对大规模语言模型（LLM）友好的知识表示方式。基于 DIKW（数据、信息、知识和智慧）的层次结构，它提升了 SPG 的知识表示能力，并兼容无模式约束的信息抽取以及具有模式约束的专业知识构建（例如实体类型和事件类型）。此外，它还支持图结构与原始文本块之间的相互索引表示，从而为推理问答阶段提供高效的检索支持。

kg-solver 使用一种由逻辑符号引导的混合求解与推理引擎，该引擎包含三种类型的算子：规划、推理和检索，可将自然语言问题转化为语言与符号相结合的问题求解过程。在此过程中，每一步都可以使用不同的算子，如精确匹配检索、文本检索、数值计算或语义推理，从而实现四种不同问题求解过程的整合：检索、知识图谱推理、语言推理和数值计算。

6. 社区与支持

GitHub: https://github.com/OpenSPG/KAG

官网: https://openspg.github.io/v2/docs_en

Discord

加入我们的 Discord 社区。

微信

关注 OpenSPG 官方公众号，获取关于 OpenSPG 和 KAG 的技术文章及产品更新。

扫描下方二维码加入我们的微信交流群。

7. KAG、RAG 和 GraphRAG 的区别

KAG 介绍与应用： https://github.com/orgs/OpenSPG/discussions/52

8. 引用

如果您使用本软件，请按以下方式引用：

KAG：通过知识增强生成提升专业领域中的 LLM 性能
KGFabric：用于企业数据互联的可扩展知识图谱仓库

@article{liang2024kag,
  title={KAG：通过知识增强生成提升专业领域中的 LLM 性能},
  author={梁磊、孙梦舒、桂正科、朱仲书、蒋周宇、钟凌、赵培龙、薄仲璞、杨进等},
  journal={arXiv 预印本 arXiv:2409.13731},
  year={2024}
}

@article{yikgfabric,
  title={KGFabric：用于企业数据互联的可扩展知识图谱仓库},
  author={易鹏、梁磊、张达、陈勇、朱金叶、刘向宇、唐坤、陈嘉林、林浩、邱雷杰、周军}
}

许可证

Apache 许可证 2.0

KAG 核心团队

梁磊、孙梦舒、桂正科、朱仲书、蒋周宇、钟凌、赵培龙、薄仲璞、杨进、熊怀东、袁林、徐俊、王兆阳、张志强、张文、陈华军、陈文广、周军、王浩芬

KAG 快速上手指南

KAG (Knowledge Augmented Generation) 是一个基于 OpenSPG 引擎和大语言模型的逻辑推理与问答框架。它旨在解决传统 RAG 的向量相似度歧义问题以及 GraphRAG 中由开放信息抽取引入的噪声问题，特别适用于垂直领域知识库的逻辑推理和多跳事实问答。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

系统要求

macOS: macOS Monterey 12.6 或更高版本
Linux: CentOS 7 / Ubuntu 20.04 或更高版本
Windows: Windows 10 LTSC 2021 或更高版本

前置依赖

macOS / Linux 用户:
- Docker
- Docker Compose
Windows 用户:
- WSL 2 或 Hyper-V
- Docker
- Docker Compose
开发模式额外需要:
- Python 3.10 或更高版本
- Git
- Conda (推荐) 或 venv

2. 安装步骤

您可以根据需求选择产品化部署（适合普通用户，通过 Web 界面使用）或工具包开发（适合开发者，通过代码调用）。

方式一：产品化部署 (Product-based)

此方式通过 Docker Compose 一键启动包含前端界面的完整服务。

设置环境变量 (仅 Windows 用户需要):
```
set HOME=%USERPROFILE%
```

下载配置文件并启动服务:

curl -sSL https://raw.githubusercontent.com/OpenSPG/openspg/refs/heads/master/dev/release/docker-compose-west.yml -o docker-compose-west.yml
docker compose -f docker-compose-west.yml up -d

访问服务: 浏览器打开 http://127.0.0.1:8887
- 默认用户名：openspg
- 默认密码：openspg@kag

方式二：工具包开发 (Toolkit-based)

此方式适合开发者将 KAG 集成到自己的项目中。请先完成上述“方式一”中的引擎与依赖镜像安装，然后执行以下步骤：

macOS / Linux 开发者:

# 1. 创建并激活 Conda 环境
conda create -n kag-demo python=3.10
conda activate kag-demo

# 2. 克隆代码仓库
git clone https://github.com/OpenSPG/KAG.git

# 3. 安装 KAG
cd KAG && pip install -e .

Windows 开发者:

# 1. 创建并激活 Python 虚拟环境
py -m venv kag-demo
kag-demo\Scripts\activate

# 2. 克隆代码仓库
git clone https://github.com/OpenSPG/KAG.git

# 3. 安装 KAG
cd KAG && pip install -e .

3. 基本使用

产品化模式使用

工具包模式使用

安装完成后，您可以在 Python 代码中导入 KAG 组件，复现内置数据集的性能结果，或将其应用于新的业务场景。核心流程包括构建知识表示（kg-builder）和使用逻辑符号引导的混合求解引擎（kg-solver）。

示例代码结构参考：

from kag import solver

# 初始化求解器 (具体初始化参数需参考官方开发者文档配置)
# solver_instance = solver.init(...)

# 执行逻辑推理问答
# result = solver_instance.solve("您的自然语言问题")

详细的 API 调用和组件使用说明，请参阅 KAG 开发者模式使用指南。

版本历史

v0.8.02025/06/28

v0.7.12025/04/25

v0.72025/04/17

v0.62025/01/08

v0.5.12024/11/21

v0.52024/11/04

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|5天前

语言模型数据工具其他