NLP-Knowledge-Graph
NLP-Knowledge-Graph 是一个专注于自然语言处理(NLP)与知识图谱技术的开源研究资源库。它并非单一的软件工具,而是一套系统化的技术指南与资料合集,旨在帮助开发者深入理解从知识获取、图谱构建到基于知识库的问答系统及对话系统的全流程技术。
该项目有效解决了 AI 领域初学者和研究者在面对海量碎片化论文、算法实现及数据集时难以入手的问题。通过整理前沿理论解析、经典论文导读(如 Transformer、BERT、ERNIE 等)、中文金融文档结构化研究以及主流开源工具列表,它为构建认知智能应用提供了清晰的学习路径和实践参考。无论是图存储查询、可视化方案,还是中英文预处理工具,这里都提供了丰富的外链与总结。
NLP-Knowledge-Graph 特别适合人工智能研究人员、算法工程师以及对知识图谱和对话系统感兴趣的高校学生使用。其独特亮点在于不仅涵盖了深度学习与知识图谱融合的前沿趋势,还特别收录了针对中文场景(如金融文档抽取)的专项研究成果,并持续追踪“数据融合知识”与“大模型(LLM)”结合的最新动向,是探索认知智能技术不可多得的实用宝典。
使用场景
某金融科技公司研发团队正致力于构建一个能深度理解中文财报并自动回答复杂业务问题的智能投研助手。
没有 NLP-Knowledge-Graph 时
- 数据孤岛严重:非结构化的金融文档(如年报、公告)与结构化数据割裂,难以挖掘实体间隐含的深层关联。
- 问答能力受限:传统关键词匹配无法处理“某公司上下游供应链风险”等多跳推理问题,回答往往片面或缺乏逻辑。
- 研发效率低下:团队需从零梳理知识抽取、图谱构建及存储的技术路线,缺乏系统的论文解析与开源组件参考,试错成本极高。
- 领域适配困难:缺少针对中文金融场景(如 chFinAnn)的专用抽取模型与数据集,通用模型在专业术语识别上准确率低迷。
使用 NLP-Knowledge-Graph 后
- 知识深度融合:利用项目中“中文金融文档结构化研究”成果,快速将非结构化文本转化为包含实体关系的高质量事理图谱,打破数据壁垒。
- 推理能力跃升:基于集成的 KG&QA 理论与对话系统技术,实现了多跳推理问答,能精准追溯风险传导路径并提供可解释的依据。
- 技术落地加速:直接复用项目整理的图存储工具、预处理列表及前沿论文(如 Doc2EDAG)解析,大幅缩短从算法选型到原型验证的周期。
- 专业精度保障:依托特定的金融数据集与抽取方案,显著提升了模型对行业术语和复杂事件的识别精度,满足商业级交付标准。
NLP-Knowledge-Graph 通过提供从理论综述到代码实现的全链路资源,将认知智能技术在垂直领域的落地门槛降低了数个量级。
运行环境要求
未说明
未说明

快速开始
有需要为该开源项目贡献的小伙伴可以联系我哟。
知识图谱深度学习
创建时间 2019-08-24
探索认知智能系列---趋势:1. 数据融合知识;2. All in LLM。
包括知识获取、知识库构建、基于知识库的问答系统系列技术研究与应用。涉及到NLP领域的前沿技术和论文。
资源外链
-
用于跟踪自然语言处理(NLP)进展的仓库,包括数据集和最常见的NLP任务的当前最先进水平。
-
提供了论文和代码。
-
个人日常技术和闲聊网站。
知识图谱的前世今生
| 序号 | 文章 |
|---|---|
| 1 | 为什么要将「知识图谱」追溯到 1956 年? |
研究总结列表
专题研究
KG&QA相关理论解析
- 知识图谱综述
- 知识图谱的挑战
- 深度学习与知识图谱
- CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System
- KBQA
- 赵汀阳:人工智能的自我意识何以可能?1-3
- NLP大学开张大吉--李维老师,Simon Fraser University,博士
- ACL 2019 知识图谱的全方位总结
NLP相关论文解析
- The Illustrated Transformer
- An Attentive Survey of Attention Models
- BERT:双向编码器表示来自Transformer
- ERNIE:通过知识整合增强表示
- ERNIE:用信息丰富的实体增强语言表示
- Google T5:文本到文本迁移Transformer
中文金融文档结构化研究
知识图谱相关会议
| 编号 | 名称 | 等级 | 类型 | 领域 |
|---|---|---|---|---|
| 1 | ACL | A类 | 学术会议 | 人工智能 |
| 2 | CVPR | A类 | 学术会议 | 人工智能 |
| 3 | ICML | A类 | 学术会议 | 人工智能 |
| 4 | IJCAI | A类 | 学术会议 | 人工智能 |
| 5 | EMNLP | B类 | 学术会议 | 人工智能 |
| 6 | CIKM | B类 | 学术会议 | 数据库/数据挖掘/内容检索 |
| 7 | AAAI | A类 | 学术会议 | 人工智能 |
| 8 | SIGKDD | A类 | 学术会议 | 数据库/数据挖掘/内容检索 |
| 9 | TKDE | A类 | 学术期刊 | (数据库/数据挖掘/内容检索) |
| 10 | SIGIR | A类 | 学术会议 | 数据库/数据挖掘/内容检索 |
事理图谱
对话系统技术
关于NLP/对话/KG的商业化相关(仅供交流学习)
- 语音交互中的自然语言处理技术--xiaomi
- 精益知识图谱方法论--文因互联
- 小i机器人在中文语义开放平台的研究与进展--小i机器人
- 科大讯飞-从应用角度来看知识图谱的价值和挑战--科大讯飞
主流开源的问答&&对话系统列表
| 编号 | 名称 | 地址 |
|---|---|---|
| 1 | questionAnsweringsystem | QuestionAnsweringSystem是一个Java实现的人机问答系统,能够自动分析问题并给出候选答案。 |
| 2 | QABasedOnMedicaKnowledgeGraph | 从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。python |
| 3 | DeepPavlov | An open source library for deep learning end-to-end dialog systems and chatbots. python |
主流语义平台列表
| 编号 | 名称 |
|---|---|
| 1 | 腾讯文智中文语义平台 |
| 2 | 科大讯飞开放语义平台 |
| 3 | 玻森中文语义开放平台 |
| 4 | 哈工大语言云 |
中英文文本预处理工具列表
| 编号 | 名称 | 主要功能 |
|---|---|---|
| 1 | THULAC | 中文词法分析工具,支持C++/JAVA/Python by清华 |
| 2 | LTP | 语言技术平台 pylyp LTP的Python封装 by 哈工大 |
| 3 | HanLP | 支持Java |
| 4 | 结巴分词 | 中文分词(仅支持分词),Java、python、C++ |
| 5 | jiagu | 提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。Python |
| 6 | fudanNLP | 中文分词(分词、词性标注、命名实体识别), 支持Java |
| 7 | deepdive | 斯坦福大学的开源知识抽取工具(三元组抽取), 支持python |
| 8 | FudanDNN-NLP3.0 | 用于中文分词、命名识别、词性标注、句子分类、语义分析、知识库访问、对话问答,支持Java----复旦大学计算机学院机器人研究实验室所开发的基于深度学习的中文自然语言处理工具 |
| 9 | Stanford CoreNLP | 可进行多语言的词性标注器、命名实体的识别器、解析器(句子与语法结构)、指代消解器(就是在篇章中确定代词指向哪个名词短语的问题)、情感分析器、 引导模式学习器、开放信息提取器, Java/Python----- Stanford CoreNLP是斯坦福大学的自然语言处理工具包,工具包需要java的支持 |
图存储与查询工具
| 编号 | 名称 | 主要功能 |
|---|---|---|
| 1 | Neo4j | 开源图形数据库,由Java开发。 |
| 2 | OrientDB | 开源的noSQL数据库,可处理文档、图形、传统数据库组件。由Java编写,存储速度快。 |
| 3 | Virtuoso | 支持RDF与SPARQL查询。 |
| 4 | Titan | 可与Gremlin/Hbase进行集成,可实现分布式存储和计算的图数据处理。 |
| 5 | Apache Jena-IDB | 在JAVA下操作RDF。其中TDB是使用triple store的形式对RDF数据提供持久性存储(persistent store),TDB相比RDB、SDB更快且具有扩展性。 |
| 6 | Cypher | 声明式图查询语言,表达高效查询和更新图数据库。 |
| 7 | Gremlin | 一种函数式数据流语言,可以使得用户使用简洁的方式表述复杂的属性图(property graph)的遍历或查询。 |
| 8 | SPARQL | 为RDF开发的一种查询语言和数据获取协议。 |
| 9 | rdflib | 基于Python语言编写的,RDF / XML,N3,NTriples,N-Quads,Turtle,TriX,RDFa和Microdata的解析器和序列化器,支持SPARQL 1.1查询和更新语句。 |
可视化工具
| 编号 | 名称 | 主要功能 |
|---|---|---|
| 1 | ECharts | 百度开源工具,API封装完善,简单好用,易上手,但不支持事件处理。 |
| 2 | Cytoscape.js | 针对图形和网络,事件交互性的支持不错,同样易上手。 |
| 3 | D3.js | 使用门槛较高,但支持事件处理器,D3的开销极小,支持大型数据集和交互动画的动态行为,支持图形丰富。 |
中英文知识图谱数据集列表
| 编号 | 名称 | 应用任务 |
|---|---|---|
| 1 | OpenKG | 开放知识图谱 |
| 2 | CN-Probase | 大规模中文概念图谱 |
| 3 | SentiBridge | 中文实体情感知识库,刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对 |
| 4 | 音乐知识图谱 | 中文音乐知识图谱,歌手、歌曲等信息 |
| 5 | 人物类RDF知识 | 采集自百科网站的人物类知识,共65万个RDF三元组 |
| 6 | 中国旅游景点知识图谱 | 中国旅游景点中文知识图谱是CASIA-KB知识图谱的一部分。抽取自百度百科和互动百科。旅游景点知识图谱可用于地理、生活、娱乐等应用。 |
| 7 | 200万条商品画像数据 | 本数据是百分点在7年运营过程中积累的产品画像数据的小结,百分点自建了丰富的电商品分类体系和媒体分类体系。 |
| 8 | 中文症状库 | 这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。 |
| 9 | cnSchema机场知识图谱 | 基于cnSchema的机场知识图谱可查询世界各机场的属性,包含名称、时区、机场代码、地理位置(经纬度)等。 |
| 10 | 七律-通用知识图谱 | 本数据共包含8000万条百科三元组,为七律的一部分子集,后续将持续加大开放。七律-7Lore,是狗尾草科技精心打造的百科知识图谱,是人类世界海量知识的集合,它包含了事物、事实、概念、规则等等。 |
比赛
- ATEC蚂蚁开发者大赛之学习赛--NLP之问题相似度计算--2019-3
- 百度2019语言与智能技术竞赛之第二赛道--知识驱动对话--2019-4
- SMP2019中文人机对话技术评测(ECDT),子任务:领域分类、意图识别和语义槽填充--Task1:自然语言理解评测--2019-5
思考
- 知识图谱的构建是一个体系化的工程项目,目前结合深度学习技术以及自然语言处理知识在一定程度上提升了构建的效率并降低了成本。知识图谱的地位在认知智能是一个基础资源设施,基于此可以进行问答、对话、、推荐系统、可解释性的增强等方面的应用。
- 目前对于垂直领域的知识图谱构建需求较多。应用方面在智能问答和主动式对话系统的实践是比较热点的方向。
- 个人觉得一套爬虫系统可以为知识库提供动态更新的知识来源。
- 结合知识/常识的对话系统,更具准确性和多样性,是一个值得研究的方向,可让机器引导用户进行话题的交流。如上面比赛2就是这一方向的应用。
- 自然语言处理/理解目前门槛已经高升到了BERT啦,在绝大数任务中基本都是必提的,基于Transformer做编码器!如何在模型训练中融入知识(可以是多模态)已是目前研究的热点方向,如百度最近提出的ERNIE表示模型就引入这一思想,也在下游任务中取得了不错的效果。
- 知识图谱的表示研究问题(Knowledge Graph Embedding, KGE)是当前的一个研究热点。
- 多模态数据知识融合应该是领域性机器智能走向通用知识智能的一个重要探索阶段。一是,由于多模态数据自身特点,结构化是非常重要的,结构化后可以极大丰富知识图谱的知识构成,更具丰富的表达。二是,CV、NLP组件化后的若能打通两者并协同工作感觉也比较有意思,比如问答场景的回复内容更丰富,和人们更加自然交流等。
<strong>针对文本数据的结构化,除了选用机器学习方法外,也可以结合正则表达式进行数据的抽取、模型建模的中间处理环节等。如:正则表达式结合深度学习</strong>- 20230226:NLP的发展从2022年的后半程到2023年又是一次范式的变化,随着ChatGPT问世,领域内外无人不晓,在各行各业引起了热列的讨论,国内外大厂纷纷跟进。譬如LLM(Large Language Model)、AIGC(AI Generated Content)、NLP部分细分任务因LLM走向大一统,LLM成为各行各业基础设施等话题层出不穷。ChatGPT的出现一是给人一种惊喜,二是给人新的探索可能,三是对于AI也算一是普及。
- 从体验chatgpt来看,基本上是我把前面的思考全部覆盖了,信息抽取,对话,观点生成,思维链--有推理,可加入新知识进行更新,写代码,最为惊喜的是能一本正经的胡说八道,对于逻辑性问题还能罗列步骤。
- 从论文中进一步了解原理。GPT-1到GPT3的发展,认识Transformer基础架构。
- 20230521:国内的LLM跟进速度非常快,发布了自研大语言模型,也有开源的,如清华的ChatGLM-6/130b等。围绕LLM的生态发展也很快,各类应用,如Chatpdf,插件等,最近OpenAI发布了ChatGpt IOS版本,更是将LLM的落地推进了一大步,可以畅想未来好多应用都会基于LLM的能力。针对如何基于LLM搭建一些应用,开源框架LangChain迭代速度非常快,基本几行代码就能让你快速体验如基于个人文档的问答, 向量的计算,存储等,方便快捷,推荐大家学习和使用。针对文本,其实大多数文本是非结构化的,如pdf,word,html等需要基于其他工具结构化,langchain也提供了开源方式。LLM私有化部署+本地化知识接入+插件化扩展LLM的能力是当前发展的方向。
- 20250208:2024年LLM依然是AI领域的热门,在基座和应用两端市场均有进展,医疗,编程助手,基于RAG方案构建知识库进行智能问答等,各种私有化部署。同时,基于LLM构建的各种工作流(结合AGENT)可以作为工具辅助人们日常场景。这里把我日常看的部分paper放在这里,方便了解下各类大模型背后的原理。
- 比较标志性的模型事件:从OpenAI的闭源ChatGPT到开源LLaMA(此后国内模型数量猛涨)再到开源权重及思维链过程的DeepSeek-R1。
- 从学术到工业再到各类消费级用户,大语言模型已经走入普通人群中,期待2025年有更大突破性发展。
Star History
说明
- 以上内容均为个人在学习过程的相关整理(包含互联网内容、个人整理笔记等),希望对研究学习认知智能领域的小伙伴有帮助。
Contact
- CSDN
- 个人网站
- wiki-技术总结
- 邮箱:hanghangli@aliyun.co
- 更新时间:2024.02.08
- 李航航
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
