BERT-Relation-Extraction

603 134 中等 1 次阅读 3天前Apache-2.0开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

BERT-Relation-Extraction 是一个基于 PyTorch 开发的开源项目，旨在高效提取文本中实体间的语义关系。它复现了 ACL 2019 论文《Matching the Blanks》的核心算法，并扩展支持了 ALBERT 和 BioBERT 等先进预训练模型。

在自然语言处理中，准确判断两个实体（如“人物”与“地点”）之间的具体关系往往具有挑战性。传统方法依赖大量标注数据，而 BERT-Relation-Extraction 通过独特的“匹配空白”（Matching the Blanks）机制，利用分布相似性进行无监督预训练，显著降低了对标注数据的依赖，同时在 SemEval 等标准任务上实现了高精度的关系分类。

该工具特别适合 NLP 研究人员、AI 开发者以及需要构建知识图谱的数据工程师使用。无论是处理通用新闻文本还是生物医学文献（借助 BioBERT），用户都能灵活调用。其技术亮点在于将实体掩码预训练与微调任务相结合，既支持从零开始的深度训练，也允许直接加载预训练权重进行快速推理。只需简单标记句子中的实体，即可即时获得如“因果”、“部分 - 整体”等关系预测结果，是探索关系抽取领域的实用利器。

使用场景

某金融科技公司的情报团队需要从海量财经新闻中自动提取实体间的因果关系，以构建实时风险预警图谱。

没有 BERT-Relation-Extraction 时

规则维护成本高：依赖人工编写正则表达式匹配“导致”、“引发”等关键词，无法覆盖“造成”、“致使”等多样化表达，漏报率极高。
语境理解能力弱：难以区分字面相似但逻辑相反的句子（如否定句或假设句），常将“未造成损失”错误识别为存在因果关系。
领域适配困难：通用模型缺乏对金融术语（如“流动性枯竭”、“抛售潮”）的敏感度，在专业文本上准确率大幅下降。
标注数据依赖重：训练新模型需要大量人工标注的“实体 - 关系”对数据，耗时耗力且启动周期长。

使用 BERT-Relation-Extraction 后

语义泛化能力强：利用 MTB（Matching the Blanks）预训练机制，模型能自动学习分布相似性，精准识别各种隐含的因果表述，无需穷举关键词。
深层逻辑判断准：基于 BERT/BioBERT 的上下文编码能力，有效处理否定、倒装等复杂句式，显著降低误报率。
领域迁移更灵活：直接加载 BioBERT 或在财经语料上进行空白匹配预训练，快速适配金融场景，大幅提升专业实体关系的抽取精度。
冷启动门槛低：支持在无标注数据情况下先进行自监督预训练，仅需少量样本微调即可达到可用效果，极大缩短项目上线时间。

BERT-Relation-Extraction 通过创新的空白匹配预训练策略，让机器像人类一样理解实体间潜在的语义关联，将非结构化文本转化为高价值知识图谱的效率提升了数倍。

运行环境要求

操作系统

未说明

GPU

必需（预训练耗时取决于可用 GPU），具体型号、显存大小及 CUDA 版本未说明

内存

未说明

依赖

notes1. 需手动下载并解压 BioBERT 模型至 ./additional_models 文件夹。2. 预训练数据（如 CNN 数据集或 Wiki dumps）和微调数据（SemEval2010 Task 8, FewRel）需单独下载并放置于指定目录。3. 预训练过程可能非常耗时，建议根据硬件条件调整批次大小或使用混合精度训练 (--fp16)。4. 推理时支持自动实体检测或手动标注实体标签 ([E1], [E2])。

python3.8+

torch (PyTorch)

spacy

en_core_web_lg (Spacy 模型)

transformers (隐含，用于加载 HuggingFace BERT/ALBERT)

requirements.txt 中定义的其他依赖

快速开始

用于关系抽取的 BERT(S)

概述

这是一个基于 PyTorch 的实现，用于 ACL 2019 年发表的论文《匹配空缺：用于关系学习的分布相似性》（https://arxiv.org/pdf/1906.03158.pdf）中的模型。
注意：这不是该论文的官方仓库。
在此基础上，我们还实现了以下基于该论文方法的关系抽取模型：

ALBERT (https://arxiv.org/abs/1909.11942)
BioBERT (https://arxiv.org/abs/1901.08746)

有关实现的更多概念性细节，请参阅：https://towardsdatascience.com/bert-s-for-relation-extraction-in-nlp-2c7c3ab487c4

如果您喜欢我的工作，请考虑通过点击顶部的赞助按钮来支持我。

需求

需求：Python (3.8+)

python3 -m pip install -r requirements.txt
python3 -m spacy download en_core_web_lg

预训练的 BERT 模型（ALBERT、BERT）由 HuggingFace.co (https://huggingface.co) 提供；
预训练的 BioBERT 模型由 https://github.com/dmis-lab/biobert 提供。

要使用 BioBERT (biobert_v1.1_pubmed)，请从这里下载并解压模型到 ./additional_models 文件夹中。

通过匹配空缺进行预训练（BERT_EM + MTB）

运行 main_pretraining.py，并传入以下参数。预训练数据可以是任何 .txt 格式的连续文本文件。
我们使用 Spacy NLP 从文本中提取成对实体（窗口大小为 40 个标记），以形成用于预训练的关系语句。实体识别基于 NER 和主语/宾语的依存句法分析。

我使用的 CNN 数据集（cnn.txt）预训练数据可在此下载：链接。
请下载并保存为 ./data/cnn.txt。
不过请注意，论文中用于 MTB 预训练的数据是维基百科转储文件，其规模远大于 CNN 数据集。

注意：预训练可能需要较长时间，具体取决于可用的 GPU。您也可以直接在关系抽取任务上进行微调，同样可以获得合理的结果，详见下文。

main_pretraining.py [-h] 
	[--pretrain_data TRAIN_PATH] 
	[--batch_size BATCH_SIZE]
	[--freeze FREEZE]  
	[--gradient_acc_steps GRADIENT_ACC_STEPS]
	[--max_norm MAX_NORM]
	[--fp16 FP_16]  
	[--num_epochs NUM_EPOCHS]
	[--lr LR]
	[--model_no MODEL_NO (0: BERT ; 1: ALBERT ; 2: BioBERT)]  
	[--model_size MODEL_SIZE (BERT: 'bert-base-uncased', 'bert-large-uncased';   
				ALBERT: 'albert-base-v2', 'albert-large-v2';   
				BioBERT: 'bert-base-uncased' (biobert_v1.1_pubmed))]

在 SemEval2010 Task 8 上进行微调（BERT_EM/BERT_EM + MTB）

运行 main_task.py，并传入以下参数。需要 SemEval2010 Task 8 数据集，可在此下载：链接。请下载并解压到 ./data/ 文件夹中。

main_task.py [-h] 
	[--train_data TRAIN_DATA]
	[--test_data TEST_DATA]
	[--use_pretrained_blanks USE_PRETRAINED_BLANKS]
	[--num_classes NUM_CLASSES] 
	[--batch_size BATCH_SIZE]
	[--gradient_acc_steps GRADIENT_ACC_STEPS]
	[--max_norm MAX_NORM]
	[--fp16 FP_16]  
	[--num_epochs NUM_EPOCHS]
	[--lr LR]
	[--model_no MODEL_NO (0: BERT ; 1: ALBERT ; 2: BioBERT)]  
	[--model_size MODEL_SIZE (BERT: 'bert-base-uncased', 'bert-large-uncased';   
				ALBERT: 'albert-base-v2', 'albert-large-v2';   
				BioBERT: 'bert-base-uncased' (biobert_v1.1_pubmed))]    
	[--train TRAIN]
	[--infer INFER]

推理 (--infer=1)

要对一句话进行推理，您可以将句子中感兴趣的实体1和实体2分别用标签 [E1] 和 [E2] 标注。
示例：

输入句子（输入 'quit' 或 'exit' 结束）：
The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.

句子： The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.
预测： Cause-Effect(e1,e2)

from src.tasks.infer import infer_from_trained

inferer = infer_from_trained(args, detect_entities=False)
test = "The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor."
inferer.infer_sentence(test, detect_entities=False)

句子： The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.
预测： Cause-Effect(e1,e2)

该脚本还可以自动检测输入句子中的潜在实体，在这种情况下会推断出所有可能的关系组合：

inferer = infer_from_trained(args, detect_entities=True)
test2 = "After eating the chicken, he developed a sore throat the next morning."
inferer.infer_sentence(test2, detect_entities=True)

句子： [E2]After eating the chicken[/E2] , [E1]he[/E1] developed a sore throat the next morning .
预测： Other 

句子： After eating the chicken , [E1]he[/E1] developed [E2]a sore throat[/E2] the next morning .
预测： Other 

句子： [E1]After eating the chicken[/E1] , [E2]he[/E2] developed a sore throat the next morning .
预测： Other 

句子： [E1]After eating the chicken[/E1] , he developed [E2]a sore throat[/E2] the next morning .
预测： Other 

句子： After eating the chicken , [E2]he[/E2] developed [E1]a sore throat[/E1] the next morning .
预测： Other 

句子： [E2]After eating the chicken[/E2] , he developed [E1]a sore throat[/E1] the next morning .
预测： Cause-Effect(e2,e1)

FewRel 任务

请在此下载 FewRel 1.0 数据集：链接，并解压到 ./data/ 文件夹中。
运行 main_task.py，并将参数 'task' 设置为 'fewrel'。

python main_task.py --task fewrel

结果如下：
(5-way 1-shot)
BERT_EM 未使用 MTB，未在任何 FewRel 数据上训练

模型尺寸	准确率（41646 个样本）
bert-base-uncased	62.229 %
bert-large-uncased	72.766 %

基准测试结果

SemEval2010 Task 8

基础架构：BERT base uncased（12 层，768 隐藏层，12 头注意力，1.1 亿参数）

未使用 MTB 预训练：在 100% 训练数据上训练时的 F1 分数：

基础架构：ALBERT base uncased（12 重复层，128 嵌入维度，768 隐藏层，12 头注意力，1100 万参数）

未使用 MTB 预训练：在 100% 训练数据上训练时的 F1 分数：

待补充

使用 MTB 预训练后在基准测试（SemEval2010 Task 8）上的推理与结果
felrel 任务

BERT-Relation-Extraction 快速上手指南

本指南基于 ACL 2019 论文《Matching the Blanks: Distributional Similarity for Relation Learning》的 PyTorch 实现，支持 BERT、ALBERT 和 BioBERT 模型进行关系抽取任务。

环境准备

系统要求：

Python 3.8 或更高版本
GPU 环境（推荐，用于加速预训练和微调）
Git

前置依赖：

PyTorch
HuggingFace Transformers (用于加载 BERT/ALBERT)
Spacy (用于实体识别和依存句法分析)
其他依赖见 requirements.txt

安装步骤

克隆仓库并安装依赖
```
git clone https://github.com/plkmo/BERT-Relation-Extraction.git
cd BERT-Relation-Extraction
python3 -m pip install -r requirements.txt
```
提示：国内用户建议使用清华或阿里镜像源加速安装： python3 -m pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
下载 Spacy 英文模型
```
python3 -m spacy download en_core_web_lg
```
提示：若下载缓慢，可手动下载模型文件后离线安装，或使用国内镜像配置。
准备预训练模型（可选）
- BERT / ALBERT：代码运行时会自动从 HuggingFace 下载。
- BioBERT：需手动下载。
  1. 访问 BioBERT GitHub 下载 biobert_v1.1_pubmed 模型。
  2. 解压并将文件夹放入项目根目录下的 ./additional_models 文件夹中。
准备数据集
- SemEval2010 Task 8 (微调必备)：下载数据集链接，解压至 ./data/ 目录。
- 预训练数据 (可选)：如需复现论文的 MTB 预训练，可下载 CNN 数据集保存为 ./data/cnn.txt，或使用更大的 Wiki dumps 数据。

基本使用

1. 直接推理（无需训练）

如果你已有训练好的模型，可以直接对句子进行关系推断。实体需用 [E1]...[/E1] 和 [E2]...[/E2] 标签标记。

命令行交互模式：

python main_task.py --infer 1 --model_no 0 --model_size 'bert-base-uncased'

输入示例：

Type input sentence ('quit' or 'exit' to terminate):
The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.

输出示例：

Sentence:  The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor.
Predicted:  Cause-Effect(e1,e2)

Python 代码调用模式：

from src.tasks.infer import infer_from_trained
import argparse

# 模拟参数配置 (实际使用时请加载你的 args)
args = argparse.Namespace()
args.model_no = 0
args.model_size = 'bert-base-uncased'
# ... 其他必要参数

# 初始化推断器 (detect_entities=False 表示实体已标记)
inferer = infer_from_trained(args, detect_entities=False)

test_sentence = "The surprise [E1]visit[/E1] caused a [E2]frenzy[/E2] on the already chaotic trading floor."
result = inferer.infer_sentence(test_sentence, detect_entities=False)
print(result)

自动实体检测模式： 若未标记实体，可设置 detect_entities=True，系统将自动尝试识别所有可能的实体组合并预测关系：

inferer = infer_from_trained(args, detect_entities=True)
test_sentence = "After eating the chicken, he developed a sore throat the next morning."
# 系统将输出多种实体组合的预测结果
inferer.infer_sentence(test_sentence, detect_entities=True)

2. 微调模型 (Fine-tuning)

使用 SemEval2010 Task 8 数据集微调模型：

python main_task.py \
    --train_data ./data/train.txt \
    --test_data ./data/test.txt \
    --model_no 0 \
    --model_size 'bert-base-uncased' \
    --num_epochs 10 \
    --lr 2e-5 \
    --batch_size 16 \
    --train 1

3. MTB 预训练 (进阶)

若需从头进行“匹配空白”(Matching the Blanks) 预训练：

python main_pretraining.py \
    --pretrain_data ./data/cnn.txt \
    --model_no 0 \
    --model_size 'bert-base-uncased' \
    --num_epochs 5 \
    --batch_size 32

注意：预训练耗时较长，建议仅在拥有充足 GPU 资源且需要特定领域适配时进行。一般情况下，直接使用预训练权重进行微调即可获得良好效果。

常见问题

运行代码时提示找不到 './data/BERT_tokenizer.pkl' 文件，该如何解决？

在 SemEval2010 Task 8 数据集上运行 main_task.py 时出现 'AssertionError: assert re.match("^Comment", comment)' 错误怎么办？

使用 'bert-large-uncased' 模型时出现 'RuntimeError: size mismatch' 维度不匹配错误，如何解决？

微调后的模型 F1 分数非常低（例如 0.59 左右），可能是什么原因？

如何使用已训练好的模型进行推理（Inference）？需要指定模型文件路径吗？

代码中是否包含了正确的 MTB（Matching The Blanks）损失函数实现？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架