lightKG
lightKG 是一个基于 PyTorch 和 torchtext 构建的轻量级知识图谱深度学习框架,旨在为开发者提供一套模块化、易上手的 NLP 解决方案。它专注于解决从非结构化文本到结构化知识的转化难题,覆盖了知识表示学习、实体识别与链接、关系抽取、事件检测及知识推理等核心环节。
对于自然语言处理领域的研究人员和工程师而言,lightKG 极大地降低了构建知识图谱应用的门槛。用户无需从零搭建复杂模型,即可快速实现如 TransE 等经典翻译模型的训练,或利用 BiLSTM-CRF、TextCNN 等架构完成命名实体识别(NER)、语义角色标注(SRL)及关系抽取任务。框架支持标准的 CSV、BIO 及 CONLL 数据格式,并提供了直观的 API 用于模型训练、评估及概率预测(如推断头尾实体或潜在关系)。
其独特亮点在于将知识图谱构建的全流程功能整合为六个清晰的功能模块(krl, erl, ere, ede, ksq, kr),既适合学术研究者进行算法验证与对比实验,也便于工程开发人员快速原型落地。如果你正在寻找一个灵活、开源且专注于中文场景的知识图谱基础工具,lightKG 值得尝试。
使用场景
某电商公司的数据团队正致力于从海量商品评论和客服对话中构建“用户 - 商品知识图谱”,以支持智能推荐和故障归因分析。
没有 lightKG 时
- 开发门槛高:团队需分别寻找并整合独立的 NER、关系抽取和表示学习代码库,环境配置冲突频发,耗时数周仍无法跑通基线。
- 流程割裂严重:实体识别、关系抽取与图谱推理由不同脚本处理,数据格式转换繁琐,导致从原始文本到可用图谱的周期长达数天。
- 缺乏统一推理能力:仅能存储显式提取的关系,无法利用 TransE 等模型预测潜在关联(如推断“编译器”的外文名),限制了知识发现的深度。
- 维护成本巨大:各模块依赖版本不一,缺乏统一框架管理,一旦上游数据变动,整个流水线极易崩溃且难以调试。
使用 lightKG 后
- 一站式开箱即用:通过
pip install lightKG即可获取基于 PyTorch 的统一框架,内置 NER、关系抽取及 TransE 模型,半天内完成环境搭建与基线训练。 - 全流程无缝衔接:利用
erl模块提取实体,ere模块抽取关系,直接接入krl模块进行向量化表示,数据在框架内自动流转,构建效率提升 80%。 - 具备深度推理能力:调用
predict_tail或predict_rel接口,不仅能存储已知事实,还能高概率预测缺失链接(如自动补全商品属性的外文名),激活沉睡数据价值。 - 架构稳定易扩展:所有功能模块标准化封装,训练数据格式清晰(CSV/BIO/CONLL),后续新增事件检测模块只需按文档补充数据,维护难度大幅降低。
lightKG 将原本碎片化、高门槛的知识图谱构建过程,转化为一条高效、可推理的标准化流水线,让中小团队也能轻松驾驭深度学习驱动的图谱应用。
运行环境要求
- Linux
- macOS
- Windows
非必需(取决于是否使用 CUDA 加速的 PyTorch 版本),具体型号和显存未说明,需根据 PyTorch 官网选择对应的 CUDA 版本
未说明

快速开始
lightKG,lightsmile个人的知识图谱技术框架
说明
最近忙着学别的,暂时没怎么管这个lib了,后续会持续更新的。
前言
根据知识图谱发展报告2018相关介绍,框架主要设计为有以下五大功能:
- 知识表示学习, Knowledge Representation Learning
- 实体识别与链接, Entity Recognition and Linking
- 实体关系抽取, Entity Relation Extraction
- 事件检测与抽取, Event Detection and Extraction
- 知识存储与查询, Knowledge Storage and Query
- 知识推理, Knowledge Reasoning
因此将有六个主要的功能模块:krl(知识表示学习)、erl(实体识别与链接)、ere(实体关系抽取)、ede(实体检测与抽取)、ksq(知识存储与查询)、kr(知识推理)以及其他功能模块。
当前已实现的功能
知识表示学习
- 基于翻译模型(Trans系列)的知识表示学习, TransE
实体识别与链接
- 命名实体识别, ner
实体关系抽取
- 关系抽取, re
事件检测与抽取
- 语义角色标注, srl
知识存储与查询
知识推理
安装
本项目基于Pytorch1.0
pip install lightKG
建议使用国内源来安装,如使用以下命令:
pip install -i https://pypi.douban.com/simple/ lightKG
安装依赖
由于有些库如pytorch、torchtext并不在pypi源中或者里面只有比较老旧的版本,我们需要单独安装一些库。
安装pytorch
具体安装参见pytorch官网来根据平台、安装方式、Python版本、CUDA版本来选择适合自己的版本。
安装torchtext
使用以下命令安装最新版本torchtext:
pip install https://github.com/pytorch/text/archive/master.zip
模型
- krl:TransE等
- re: TextCNN
- srl: BiLstm-CRF
- ner: BiLstm-CRF
训练数据说明
krl
csv格式
共三列,依次为头实体、关系、尾实体, 示例如下:
科学,包涵,自然、社会、思维等领域
科学,外文名,science
科学,拼音,kē xué
科学,中文名,科学
科学,解释,发现、积累的真理的运用与实践
语法学,外文名,syntactics
语法学,中文名,语法学
物理宇宙学,对象,大尺度结构和宇宙形成
物理宇宙学,时间,二十世纪
物理宇宙学,所属,天体物理学
ner
BIO
训练数据示例如下:
清 B_Time
明 I_Time
是 O
人 B_Person
们 I_Person
祭 O
扫 O
先 B_Person
人 I_Person
, O
怀 O
念 O
追 O
思 O
的 O
日 B_Time
子 I_Time
。 O
正 O
如 O
宋 B_Time
代 I_Time
诗 B_Person
人 I_Person
srl
CONLL
训练数据示例如下,其中各列分别为词、词性、是否语义谓词、角色,每句仅有一个谓语动词为语义谓词,即每句中第三列仅有一行取值为1,其余都为0.
宋浩京 NR 0 O
转达 VV 0 O
了 AS 0 O
朝鲜 NR 0 O
领导人 NN 0 O
对 P 0 O
中国 NR 0 O
领导人 NN 0 O
的 DEG 0 O
亲切 JJ 0 O
问候 NN 0 O
, PU 0 O
代表 VV 0 O
朝方 NN 0 O
对 P 0 O
中国 NR 0 B-ARG0
党政 NN 0 I-ARG0
领导人 NN 0 I-ARG0
和 CC 0 I-ARG0
人民 NN 0 E-ARG0
哀悼 VV 1 rel
金日成 NR 0 B-ARG1
主席 NN 0 I-ARG1
逝世 VV 0 E-ARG1
表示 VV 0 O
深切 JJ 0 O
谢意 NN 0 O
。 PU 0 O
re
训练数据示例如下,其中各列分别为实体1、实体2、关系、句子
钱钟书 辛笛 同门 与辛笛京沪唱和聽钱钟书与钱钟书是清华校友,钱钟书高辛笛两班。
元武 元华 unknown 于师傅在一次京剧表演中,选了元龙(洪金宝)、元楼(元奎)、元彪、成龙、元华、元武、元泰7人担任七小福的主角。
使用
krl
训练
from lightkg.krl import KRL
train_path = '/home/lightsmile/NLP/corpus/kg/baike/train.sample.csv'
dev_path = '/home/lightsmile/NLP/corpus/kg/baike/test.sample.csv'
model_type = 'TransE'
krl = KRL()
krl.train(train_path, model_type=model_type, dev_path=train_path, save_path='./krl_{}_saves'.format(model_type))
测试
krl.load(save_path='./krl_{}_saves'.format(model_type), model_type=model_type)
krl.test(train_path)
预测
根据头实体、关系、尾实体,预测其概率
print(krl.predict(head='编译器', rel='外文名', tail='Compiler'))
输出为:
0.998942494392395
根据头实体和关系,预测训练集词表中topk(默认为3)个可能尾实体
print(krl.predict_tail(head='编译器', rel='外文名'))
输出为:
[('Compiler', 0.998942494392395), ('20世纪50年代末', 0.3786872327327728), ('译码器', 0.3767447769641876)]
根据头实体和尾实体,预测训练集词表中topk(默认为3)个可能关系
print(krl.predict_rel(head='编译器', tail='Compiler'))
输出为:
[('外文名', 0.998942494392395), ('英译', 0.8240533471107483), ('拼音', 0.4082326292991638)]
根据尾实体和关系,预测训练集词表中topk(默认为3)个可能头实体
print(krl.predict_head(rel='外文名', tail='Compiler'))
输出为:
[('编译器', 0.998942494392395), ('译码器', 0.36795616149902344), ('计算机,单片机,编程语言', 0.36788302659988403)]
ner
训练
from lightkg.erl import NER
# 创建NER对象
ner_model = NER()
train_path = '/home/lightsmile/NLP/corpus/ner/train.sample.txt'
dev_path = '/home/lightsmile/NLP/corpus/ner/test.sample.txt'
vec_path = '/home/lightsmile/NLP/embedding/char/token_vec_300.bin'
# 只需指定训练数据路径,预训练字向量可选,开发集路径可选,模型保存路径可选。
ner_model.train(train_path, vectors_path=vec_path, dev_path=dev_path, save_path='./ner_saves')
测试
# 加载模型,默认当前目录下的`saves`目录
ner_model.load('./ner_saves')
# 对train_path下的测试集进行读取测试
ner_model.test(train_path)
预测
from pprint import pprint
pprint(ner_model.predict('另一个很酷的事情是,通过框架我们可以停止并在稍后恢复训练。'))
预测结果:
[{'end': 15, 'entity': '我们', 'start': 14, 'type': 'Person'}]
re
训练
from lightkg.ere import RE
re = RE()
train_path = '/home/lightsmile/Projects/NLP/ChineseNRE/data/people-relation/train.sample.txt'
dev_path = '/home/lightsmile/Projects/NLP/ChineseNRE/data/people-relation/test.sample.txt'
vec_path = '/home/lightsmile/NLP/embedding/word/sgns.zhihu.bigram-char'
re.train(train_path, dev_path=dev_path, vectors_path=vec_path, save_path='./re_saves')
测试
re.load('./re_saves')
re.test(dev_path)
预测
print(re.predict('钱钟书', '辛笛', '与辛笛京沪唱和聽钱钟书与钱钟书是清华校友,钱钟书高辛笛两班。'))
预测结果:
(0.7306928038597107, '同门') # return格式为(预测概率,预测标签)
srl
训练
from lightkg.ede import SRL
srl_model = SRL()
train_path = '/home/lightsmile/NLP/corpus/srl/train.sample.tsv'
dev_path = '/home/lightsmile/NLP/corpus/srl/test.sample.tsv'
vec_path = '/home/lightsmile/NLP/embedding/word/sgns.zhihu.bigram-char'
srl_model.train(train_path, vectors_path=vec_path, dev_path=dev_path, save_path='./srl_saves')
测试
srl_model.load('./srl_saves')
srl_model.test(dev_path)
预测
word_list = ['代表', '朝方', '对', '中国', '党政', '领导人', '和', '人民', '哀悼', '金日成', '主席', '逝世', '表示', '深切', '谢意', '。']
pos_list = ['VV', 'NN', 'P', 'NR', 'NN', 'NN', 'CC', 'NN', 'VV', 'NR', 'NN', 'VV', 'VV', 'JJ', 'NN', 'PU']
rel_list = [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
print(srl_model.predict(word_list, pos_list, rel_list))
预测结果:
{'ARG0': '中国党政领导人和人民', 'rel': '哀悼', 'ARG1': '金日成主席逝世'}
项目组织结构
项目架构
- base
- config.py
- model.py
- module.py
- tool.py
- common
- entity.py
- relation.py
- ede
- srl, 语义角色标注
- ere
- re, 关系抽取
- erl
- ner, 命名实体识别
- kr
- krl,知识表示学习
- models
- transE
- utils
- models
- ksq
- utils
架构说明
base目录
放一些基础的模块实现,其他的高层业务模型以及相关训练代码都从此module继承相应父类。
config
存放模型训练相关的超参数等配置信息
model
模型的实现抽象基类,包含base.model.BaseConfig和base.model.BaseModel,包含load、save等方法
module
业务模块的训练验证测试等实现抽象基类,包含base.module.Module,包含train、load、_validate、test等方法
tool
业务模块的数据处理抽象基类,包含base.tool.Tool,包含get_dataset、get_vectors、get_vocab、get_iterator、get_score等方法
common目录
entity
实体基类, 所有需要使用实体对象的使用此类或从此类继承子类
relation
关系基类, 所有需要使用关系对象的使用此类或从此类继承子类
util目录
放一些通用的方法
todo
业务
工程
- 重构项目结构,将相同冗余的地方合并起来,保持项目结构清晰
- 增加断点重训功能。
- 增加earlyStopping。
- 现在模型保存的路径和名字默认一致,会冲突,接下来每个模型都有自己的
name。
功能
- 增加关系抽取相关模型以及训练预测代码
- 增加事件抽取相关模型以及训练预测代码
- 增加命名实体识别相关模型以及预测训练代码
- 增加基于翻译模型的知识表示学习相关模型以及训练预测代码
- 增加实体链接的知识表示学习相关模型以及训练预测代码
参考
Deep Learning
- What's the difference between “hidden” and “output” in PyTorch LSTM?
- What's the difference between LSTM() and LSTMCell()?
- 深度学习框架技术剖析[转]
NLP
知识图谱
Pytorch教程
- PyTorch 常用方法总结4:张量维度操作(拼接、维度扩展、压缩、转置、重复……)
- Pytorch中的RNN之pack_padded_sequence()和pad_packed_sequence()
- pytorch学习笔记(二):gradient
- torch.multinomial()理解
- Pytorch 细节记录
- What does flatten_parameters() do?
- 关于Pytorch的二维tensor的gather和scatter_操作用法分析
- Pytorch scatter_ 理解轴的含义
- ‘model.eval()’ vs ‘with torch.no_grad()’
- 到底什么是生成式对抗网络GAN?
torchtext介绍
其他工具模块
数据集
表示学习
命名实体识别
关系抽取
事件抽取
这里暂时粗浅的将语义角色标注技术实现等同于事件抽取任务。
其他
打赏
如果该项目对您有所帮助,欢迎打赏~

常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备