chatbot-base-on-Knowledge-Graph

790 210 中等 2 次阅读 2周前语言模型

AI 解读由 AI 自动生成，仅供参考

chatbot-base-on-Knowledge-Graph 是一款专为医疗垂直领域打造的智能对话系统后台程序。它致力于解决医疗咨询场景中非结构化数据难以利用、问答响应不够精准的痛点。通过整合深度学习与自然语言处理技术，该系统能够自动解析用户提问，并在构建好的知识图谱中检索相关知识。

在技术实现上，项目展现了独特的亮点：首先利用爬虫获取并清洗医疗数据，随后采用 BiLSTM-CRF 模型精准识别疾病、科室等医疗实体，配合 TextCNN 网络准确判断用户意图。最终将结构化知识存入 Neo4j 图数据库，实现了高效的知识点存储与查询。整个流程涵盖了从数据准备、图谱构建到自动问答的完整闭环。

这套开源方案非常适合希望探索 NLP 应用、学习知识图谱构建或从事医疗 AI 研发的开发者与研究人员参考。它不仅提供了一个可运行的对话系统示例，还展示了如何将复杂的医疗数据转化为机器可理解的逻辑结构，为相关领域的二次开发奠定了坚实基础。

使用场景

某三甲医院信息科计划开发智能导诊机器人，旨在解决患者在线咨询量大且专业性问题突出的难题。

没有 chatbot-base-on-Knowledge-Graph 时

依赖人工整理 FAQ 文档，面对海量疾病咨询难以覆盖所有变种问法，响应效率低下。
传统搜索引擎无法识别“左下腹疼痛可能是什么病”中的医学实体含义，匹配结果杂乱。
科室与疾病关系分散在多个系统中，缺乏统一的知识关联，导致推荐科室不准确。
系统无法理解用户意图，常将挂号咨询误判为普通信息查询，增加人工客服负担。

使用 chatbot-base-on-Knowledge-Graph 后

利用 BiLSTM-CRF 模型精准提取疾病名称与检查项目，实现语义级问题解析，回答更精准。
基于 Neo4j 构建医疗知识图谱，自动关联症状、科室与治疗方案，回答逻辑严密且可追溯。
文本 CNN 分类器准确识别挂号、问诊等意图，引导用户进入正确服务流程，提升体验。
爬取的寻医问药结构化数据直接入库，大幅降低知识库维护成本与更新时间，支持持续迭代。

chatbot-base-on-Knowledge-Graph 通过深度学习与知识图谱结合，实现了医疗垂直领域问答的自动化与专业化。

运行环境要求

操作系统

Linux

GPU

训练需 GPU，部署可用 CPU，具体型号/显存/CUDA 版本未说明

内存

未说明

依赖

notes1. 深度学习模块训练使用 TensorFlow GPU 版本，应用部署阶段使用 CPU 版本。 2. 克隆项目时尽量保持扩展包的版本一致。 3. 知识图谱基于 Neo4j 图数据库。 4. 基础数据爬取自寻医问药网站。

python3.6.8

neo4j==3.2.2

py2neo==3.1.1

jieba==0.39

numpy==1.17.0

pandas==0.25.0

tensorflow==1.10.0

pyahocorasick

chatbot-base-on-Knowledge-Graph hero image

快速开始

它确实是保持人类理智的一种奢侈。 ——《流浪地球》中的机器人莫斯

“让人类永远保持理智，确实是一种奢求”，机器人莫斯，《流浪地球》

Sample

0.项目概况
1.基础数据爬取
2.知识图谱搭建
3.自动问答实现
- 数据准备
- 词向量训练
- 医疗命名实体识别
  - 嵌入层
  - [BiLSTM 层](#句子输入到 BiLSTM 层)
  - [CRF 层](#CRF 层)
  - 损失函数及反向传播
  - 网络结构与超参数
- 用户意图识别
  - 数据嵌入人工特征
  - 模型选择
  - 嵌入层
  - 卷积层
  - 池化层
  - [全连接及 SoftMax 层](#全连接及 SoftMax 分类层)
  - 网络结构与超参数
参考资料

项目概况

本项目为一个使用深度学习方法解析问题，知识图谱存储、查询知识点，基于医疗垂直领域的对话系统的后台程序

运行效果：

Sample

项目的搭建大致分为三个模块：
- 基础数据爬取
- 知识图谱构建
- 自动问答实现
项目运行环境：

python :

 python 3.6.8

运行系统：

ubuntu 16.04

知识图谱：

neo4j           3.2.2 图形数据库
py2neo          3.1.1  			neo4j 对应的 python 驱动

深度学习：

jieba           0.39   
numpy           1.17.0 
pandas          0.25.0 
tensorflow      1.10.0

文本匹配：

ahocorasick    （安装方法 pip install pyahocorasick）

必要说明：

1.深度学习模块深度网络的训练使用 tensorflow 的 gpu 版本，
  在应用阶段由于要部署要服务器上使用的对应的 tensorflow 的 cpu 版本
2.若要 clone 项目，尽量保持扩展包的版本一致

项目运行方式

搭建知识图谱：python build_grapy.py。大概几个小时，耐心等待。
启动问答系统：python chatbot_graph.py

chatbot
├── answer_search.py                        # 问题查询及返回
├── BiLSTM_CRF.py                           # 实体识别的双向 LSTM-CRF 网络
├── build_medicalgraph.py                   # 将结构化 json 数据导入 neo4j
├── chatbot_graph.py                        # 问答程序脚本
├── classifyApp.py                          # 问句分类应用脚本
├── classifyUtils.py                        # 工具函数集合
├── data
│   └── medical.json                        # 全科知识数据
├── data_ai
│   ├── cbowData                            # 词向量文件
│   │   ├── classifyDocument.txt.ebd.npy    # 词向量查找表
│   │   ├── classifyDocument.txt.vab        # 词向量中词与索引对照表
│   │   ├── document.txt.ebd.npy            
│   │   └── document.txt.vab
│   ├── classifyData                        # 问句分类训练数据
│   │   ├── test_data.txt
│   │   └── train_data.txt
│   ├── classifyModel                       # 问句分类模型
│   │   ├── checkpoint
│   │   ├── model-3500.data-00000-of-00001
│   │   ├── model-3500.index
│   │   └── model-3500.meta
│   ├── nerData                          
│   └── nerModel                            # 命名实体识别模型
├── dict                                    # 实体数据文件
├── nerApp.py                               # 命名实体识别应用脚本
├── nerUtils.py                             # 工具函数集合
├── prepare_data                           
│   ├── build_data.py                       # 数据库操作脚本
│   ├── data_spider.py                      # 数据采集脚本
│   └── max_cut.py                          # 基于词典的最大前向/后向匹配
├── question_analysis.py                    # 问句类型分类脚本
├── question_parser.py                      # 回答生成脚本
└── text_cnn.py                             # 文本分类的 cnn 网络

基础数据爬取

基础数据爬取于寻医问药网站，一家医疗信息提供平台，上面的数据做了较好的分类处理，爬下来后可以较为方便的保存为 json 格式的结构化文件，格式展示如下：

Sample

爬取的数据保存为 json 格式文件

知识图谱搭建

知识图谱可以用若干三元组来表示，三元组的基本形式：

实体 1-关系 - 实体 2
实体 - 属性 - 属性值

将爬取的数据调用 build_medicalgraph.py 脚本将结构化 json 数据导入 neo4j 图数据库，部分数据库展示如下：

Sample

图形数据库部分展示

知识图谱实体类型

实体类型	中文含义	实体数量	举例
Check	诊断检查项目	3,353	支气管造影;关节镜检查
Department	医疗科目	54	整形美容科;烧伤科
Disease	疾病	8,807	血栓闭塞性脉管炎;胸降主动脉动脉瘤
Drug	药品	3,828	京万红痔疮膏;布林佐胺滴眼液
Food	食物	4,870	番茄冲菜牛肉丸汤;竹笋炖羊肉
Producer	在售药品	17,201	通药制药青霉素 V 钾片;青阳醋酸地塞米松片
Symptom	疾病症状	5,998	乳腺组织肥厚;脑实质深部出血
Total	总计	44,111	约 4.4 万实体量级

知识图谱实体关系类型

实体关系类型	中文含义	关系数量	举例
belongs_to	属于	8,844	<妇科，属于，妇产科>
common_drug	疾病常用药品	14,649	<阳强，常用，甲磺酸酚妥拉明分散片>
do_eat	疾病宜吃食物	22,238	<胸椎骨折，宜吃，黑鱼>
drugs_of	药品在售药品	17,315	<青霉素 V 钾片，在售，通药制药青霉素 V 钾片>
need_check	疾病所需检查	39,422	<单侧肺气肿，所需检查，支气管造影>
no_eat	疾病忌吃食物	22,247	<唇病，忌吃，杏仁>
recommand_drug	疾病推荐药品	59,467	<混合痔，推荐用药，京万红痔疮膏>
recommand_eat	疾病推荐食谱	40,221	<鞘膜积液，推荐食谱，番茄冲菜牛肉丸汤>
has_symptom	疾病症状	5,998	<早期乳腺癌，疾病症状，乳腺组织肥厚>
acompany_with	疾病并发疾病	12,029	<下肢交通静脉瓣膜关闭不全，并发疾病，血栓闭塞性脉管炎>
Total	总计	294,149	约 30 万关系量级

知识图谱属性类型

属性类型	中文含义	举例
name	疾病名称	喘息样支气管炎
desc	疾病简介	又称哮喘性支气管炎...
cause	疾病病因	常见的有合胞病毒等...
prevent	预防措施	注意家族与患儿自身过敏史...
cure_lasttime	治疗周期	6-12 个月
cure_way	治疗方式	"药物治疗","支持性治疗"
cured_prob	治愈概率	95%
easy_get	疾病易感人群	无特定的人群

自动问答实现

自动问答采用深度学习的方法，由于缺少问句训练语料，训练数据来源于自制的问句生成器，然后对问句分词，问句中的每个词进行嵌入，即由词向量组成的问句代替自然语言的问句输入，再进行命名实体识别及实体/问句关系抽取（问句分类），实现对问句的语义解析。

Sample

自动问答实现流程图

本仓库为了代码结构清晰，只放了深度学习的模型应用的脚本，词向量及模型训练的脚本会放在另一个代码仓库中。

数据准备

数据冷启动

问句解析部分是用深度学习的方法实现的，那自然需要数据来训练模型。在通常的垂直领域内，由于缺乏系统性地数据积累或合作项目，本项目所用地问句语义解析必须依赖大规模地问句语料，因此设计了一个问句生成器（专业点地叫法为数据冷启动？），就是根据设定好的问句模板将上文爬取到的实体填充到模板的槽当中，同时对问句进行逐词的命名实体标注（BIOES 标注法）及问句类别标注，用于后面的实体抽取及实体/问句关系抽取（问句分类）

命名实体标注标签：

实体	序号	含义
O	0	其它
B-dis	1	疾病实体开头
I-dis	2	疾病实体中间
E-dis	3	疾病实体末尾
B-sym	4	症状
I-sym	5
E-sym	6
B-dru	7	药品
I-dru	8
E-dru	9
S-dis	10	单个 - 疾病实体
S-sym	11
S-dru	12

问句类别标注标签

类别	序号	含义
disease_symptom	0	疾病有哪些症状
symptom_curway	1	症状有哪些治疗方法
symptom_disease	2	症状对应哪些疾病
disease_drug	3	疾病需要服用哪些药品
drug_disease	4	药品能治疗哪些疾病
disease_check	5	疾病需要做哪些检查
disease_prevent	6	疾病有哪些预防方式

数据增强

经过人工构造问句后，针对问句结构类型单一、不够多样的问题进行了数据增强，例如采取了如下措施：句子结构倒装，同义词替换，随机插入标点以引入噪声。

数据类别平衡及 Shuffle

在未进行类别平衡及数据 Shuffle（打乱）时，模型会出现严重过拟合，有时只能预测出一种结果，在测试集上的正确率很低。进行了类别平衡及输入数据打乱之后，预测结果显著改善。

词向量训练

采用词向量模型中的连续词袋模型（Continuous Bag of Words, CBOW）进行词向量的训练。

一些参数：

参数名	参数值
学习率	0.0001
词向量长度（中间/隐藏层维度）	200
上下文 window_size	10
batch_size	300
最小词频 min_frq	2

值得注意的是：

词向量的训练也会有 loss（损失），但是在训练词向量的过程中没有太必要关注其 loss，因为训练词向量一般只是我们想要的中间结果，与我们的最终目的相去甚远。经验是等 loss 稳定之后将词向量先用于后面的任务，看后面任务的实际效果怎么样，若效果不佳再调整参数甚至更换其它词向量模型。
最开始使用的是字向量，但是用于之后的任务效果不佳，会出现 NER（命名实体识别）标注偏差及正确率低的现象。然后使用了词向量，效果提升较大。究其原因可能是词包含的信息更多，对模型的辅助效果更明显。
网上说词向量一般在 200~300 维度表示效果较好，字向量在 100~200 维度就够了。当语料很小时，词向量维度应调小。实际测试在 10 多 M 的语料大小情况下，词向量维度 50 都能达到可用效果。

医疗命名实体识别

模型训练描述

在知识库问答系统处理过程中，解析问句意图首先需要进行命名实体识别（Named Entity Recognition, NER），正确提取出问句中询问的医疗实体。当前 NER 模型大多采用 LSTM-CRF 模型。基于词的中文 NER，则需要预先对句子进行分词。

嵌入层

最开始我使用的是字向量，但是效果不好，换成了词向量。句子分词后，将每个词查找词向量的 lookup table 获得对应词向量，用词向量替换原句子中的词，形成新的句子作为输入。为保证训练效果，当句子太长时候要截断，句子太短时要填充，本项目使用的 0 填充。

BiLSTM 层

然后将规整后的句子输入到双向长短期记忆网络（Bidirectional Long Short-Term Memory, BiLSTM）中，就是句子正向导入 LSTM 网络一次，再把句子反向导入 LSTM 网络一次，经过多次迭代输出 LSTM 网络的两个预测结果（正向，反向），然后将两个预测结果拼接成一个长向量作为下一层的 CRF（条件随机场）层的输入。

具体是怎么拼接的：做 NER 时，前向时候得到的 LSTM 的中间状态输出向量和后向时中间状态输出向量中对应的单词的中间状态拼接，如下图：

Sample

lstm 中间状态向量拼接作为输出用于 ner

若用于句子的情感分类则作以下拼接：

Sample

lstm 中间状态向量拼接作为输出用于情感分类

图片来至详解 BiLSTM 及代码实现

tensorflow 中 tf.nn.dynamic_rnn 函数

outputs, state = tf.nn.dynamic_rnn(
    cell,
    inputs,
    sequence_length=None,
    initial_state=None,
    dtype=None,
    parallel_iterations=None,
    swap_memory=False,
    time_major=False,
    scope=None
)
其中两个返回值：
outputs: The RNN output Tensor. this will be a Tensor shaped: [batch_size, max_time, cell.output_size].

state: The final state. If cell.state_size is an int, this will be shaped [batch_size, cell.state_size].

第一个输出 outputs 就是一批数据的中间状态输出的集合（张量）。第二个输出 state 就是 LSTM 最后一个状态，它含了一个方向的所有信息。

CRF 层

CRF 的 转移矩阵 A 由神经网络的 CRF 学习得到，而 发射概率矩阵 P 就是由 Bi-LSTM 的输出来作近似模拟。

这样有了（A,P,$\pi$）就可以调用维特比算法（Viterbi Algorithm）进行解码做预测了。

Sample

Bi-LSMT+CRF

##### 损失函数及反向传播

损失函数用的 tensorflow 的 crf.crf_log_likelihood，对数似然函数。

目标函数是的 -tf.reduce_mean(crf.crf_log_likelihood)，即对数自然函数的均值的负数，这和逻辑回归（LR）的目标函数一样。

反向传播更新参数，进行下一批数据前向传播训练。

循环网络结构与超参数

a）使用句子分词后词的词向量作为输入，

b）dropout（随机失活）的值调到 0.5，

c）句子的最大长度 sentence_length 调到 30 以下（我使用的 20），

d）句子填充那里使用的 0 填充，

e）语料中实体种类数目做平衡（不出现某个种类严重偏差，否则就回导致预测偏差严重和过拟合），

f）语料标注使用的 BIOES 标注（之前用的 BIO 标注）

训练出来模型的 F1 值可以达到 0.98，

参数名	参数值
lstm 隐藏层维度	600
学习速率	0.00075
batch_size	100
句子截断长度	25
梯度截断	[-5,5]
标签数目	13
训练时 dropout	0.5
句子填充	0 值填充
句子标注方式	BIOES 法

用户意图识别

通过命名实体识别模型正确提取出问句中询问的医疗实体之后，还需要理解用户问句的意图，其意图的具体表现就是医疗实体的关系或属性，即需要进行问句意图和知识库关系的映射。考虑医疗问诊场景的用户问题通常是短文本，因此本项目将用户意图识别设定为短文本分类任务。

数据嵌入人工特征

数据同样用冷启动的方式获得大量数据，然后将在上一轮识别出来的命名实体类别嵌入到句子中，增加句子的区分度。

得了感冒要吃啥药
嵌入人工特征：
得了感冒 disease 要吃啥药

模型选择

由 n-gram 语言模型可知，自然语言存在局部特征，卷积神经网络（Convolutional Neural Network, CNN）可用来提取局部特征，如今常被用于表示句子级别的信息和短文本分类任务，结合识别出的医疗实体实现用户问句的意图理解。

短文本有其特点，局部信息可决定句子意图，比如像 我头疼发烧流鼻涕，这是啥病 与问句 这是啥病，我最近发烧流鼻涕头疼 里面的整体与局部语序换了，但是句子意图没有变，所以短文本适用于 CNN。长文本可用 LSTM，attention（注意力机制），有大量训练语料则 bert（Bidirectional Encoder Representations from Transformers）有优势，需要快速但精确度要求不高可用 fasttext 模型。

嵌入层

将词表示成具有相同长度的词向量，句子就可表示成词向量的矩阵，一个二维的矩阵，这个矩阵可以类比为一张单通道的图片。若图片是 RGB 三通道图片，则在这里，我们的词可以采用不同的嵌入方式，比如字嵌入，或者 glove 形式的词向量，这样就可得到多层的句子词向量矩阵。

Sample

textCNN 词的嵌入

##### 卷积层

一个长度为 n 的句子被视为 N 个 word 的拼接（concatenation），每个 word 的 embedding 有 k 维，则 concat 后的句子表示为一个 N x k 的矩阵，即神经网络的输入。
由于图像是二维（长和宽）三通道 (RGB)，而句子是一维的（word 按顺序拼接）（可以 L 通道，即使用 L 种不同的 embedding 方法，就可以形成 L 层输入为 N x k 的矩阵），因此这里的 CNN 的 filter（卷积核）的大小都为 h x k（h 为卷积核所围窗口中单词的个数），即每个 filter 扫过的区域是从上往下覆盖到 h 个 word 的所有 embedding 长度。
根据 n-gram 模型，可选取几个不同大小 (h 不同的) filter 去学习句子的不同的局部特征，得到不同的 feature map（特征图）。

池化层

在得到每个卷积核的 feature map 之后，要做一个 max-pooling（最大池化），即 max(c)。

max-pooling 的用处是： 1.使得可以输入不同长度的句子。长度不同的 sentence 经过这个卷积核后得到的特征都为 1 维。 2.能够有效抓取句子的最突出特征。比如一个卷积核是用来检测是否存在 not like 这样的负面评论，则不论出现该模式出现在句子的哪里，前面还是后面，这个卷积核都能取得很高的卷积值。

当然 Pooling 会损失句子的 order 信息，比如最显著的模式出现的位置（句子的前面还是后面），因此有多种基于 Pooling 的优化：如 k-max pooling（保留 feature map 中 K 个最大的值）或者 dynamic k-max pooling（sentence 分为几段，每一段取一个最大值）。

全连接及 SoftMax 分类层

一个句子从输入卷积层，再到最大池化后的数据，拼接成一个向量（一共有多少个 feature map，这个向量就有多少维），然后喂入全连接层。比如作 13 分类，则全链接的输出就是 13 维的向量。

最后接一层全连接的 softmax 层，输出每个类别的概率。

注意：一般之后还会过一个 tf.argmax 函数过程，就是将向量中最大的概率变那一位为 1，其余变成 0。

卷积网络结构与超参数

参数	值
嵌入层（词向量）维度	200
卷积核尺寸	h=2,3,4 此外不做填充，步长=1
卷积核个数	各种尺寸各 128 个
dropout_keep_prob	0.5
batch_size	300
预测类别	9
学习率	0.0001
l2 正则化系数	3

另外还指定了句子截断长度为 20，textcnn 可以不用要求指定输入句子的长度，但是发现 tensorflow 运行时会说不指明 input 的所有维度会分配很多内存，以免溢出，就会占用大量内存，所以指明了。

一个 textcnn 的参考图

Sample

textCNN

回答生成

知识图谱三元组 <实体，关系，实体> 或者是 <实体，属性，属性值>。

前面抽取的“医疗命名实体”就三元组的第一个元素——实体。

前面进行的“用户意图识别”则是三元组中的第二个元素——关系/属性。

得到三元组的这两个元素就可以用 cypher 语言在 neo4j 图数据库中进行查找对应的实体或属性值，然后构建回答返回给用户。

    def sql_transfer(self, question_type, entities):
        if not entities:
            return []

        # 查询语句
        sql = []
        # 查询疾病的原因
        if question_type == 'disease_cause':
            sql = ["MATCH (m:Disease) where m.name = '{0}' return m.name, m.cause".format(i) for i in entities]

查询疾病的防御措施

    elif question_type == 'disease_prevent':
        sql = ["MATCH (m:Disease) where m.name = '{0}' return m.name, m.prevent".format(i) for i in entities]

    # 查询疾病的持续时间
    elif question_type == 'disease_lasttime':
        sql = ["MATCH (m:Disease) where m.name = '{0}' return m.name, m.cure_lasttime".format(i) for i in entities]

    # 查询疾病的治愈概率
    elif question_type == 'disease_cureprob':
        sql = ["MATCH (m:Disease) where m.name = '{0}' return m.name, m.cured_prob".format(i) for i in entities]
	'''
	...
	'''
    return sql






### 参考资料

[用于序列标注的双向 LSTM-CRF 模型](<https://arxiv.org/pdf/1508.01991v1.pdf>)

[用于句子分类的卷积神经网络](<https://arxiv.org/pdf/1408.5882.pdf>)

[理解用于自然语言处理的卷积神经网络](<http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/>)

chatbot-base-on-Knowledge-Graph 快速上手指南

本项目是一个基于深度学习方法解析问题，利用知识图谱存储和查询知识点，面向医疗垂直领域的对话系统后台程序。

环境准备

请确保您的开发环境满足以下要求，以保证兼容性和稳定性：

操作系统: Ubuntu 16.04 (推荐)
Python 版本: 3.6.8
图数据库: Neo4j 3.2.2
深度学习框架: TensorFlow 1.10.0 (训练建议使用 GPU 版，部署建议使用 CPU 版)
其他依赖:
- jieba 0.39
- numpy 1.17.0
- pandas 0.25.0
- py2neo 3.1.1
- pyahocorasick

注意：克隆项目后，建议尽量保持扩展包版本与上述一致。

安装步骤

1. 安装 Python 依赖库

在项目根目录下，根据需求安装必要的 Python 包：

pip install jieba==0.39 numpy==1.17.0 pandas==0.25.0 tensorflow==1.10.0 py2neo==3.1.1
pip install pyahocorasick

2. 配置 Neo4j 数据库

确保 Neo4j 服务已安装并启动。默认端口通常为 7474。

# 示例：启动 Neo4j 服务
sudo systemctl start neo4j

3. 准备数据文件

项目需要医疗结构化数据。如果未进行数据爬取，请确保 data/medical.json 文件存在。若需自行爬取数据，可参考项目中的 prepare_data/data_spider.py 脚本。

基本使用

项目主要包含两个核心运行步骤：构建知识图谱和启动问答系统。

1. 搭建知识图谱

将结构化的 JSON 数据导入 Neo4j 图数据库。此过程可能需要数小时，请耐心等待。

python build_medicalgraph.py

提示：如果目录中存在 build_grapy.py，请使用该脚本；否则使用 build_medicalgraph.py。

2. 启动问答系统

图谱构建完成后，即可启动聊天机器人服务。

python chatbot_graph.py

启动后，系统将进入自动问答模式，支持通过自然语言查询疾病、药品、症状等医疗信息。

3. 目录结构说明

data/medical.json: 全科知识数据源
data_ai/: 存放词向量、训练数据及预训练模型
answer_search.py: 问题查询及返回逻辑
chatbot_graph.py: 问答程序主入口
BiLSTM_CRF.py: 实体识别网络模型

常见问题

如何获取项目的词向量及模型训练脚本？

哪里可以找到模型训练代码和问句扩增方法的源码？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架