Awesome-LLM4IE-Papers

1.1k 62 非常简单 1 次阅读 5天前数据工具语言模型

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM4IE-Papers 是一个专注于“利用大语言模型进行生成式信息抽取”的学术资源合集。它系统性地整理了该前沿领域的高质量论文，旨在解决研究人员在面对海量文献时难以快速定位核心成果、缺乏统一分类视角的痛点。

该资源特别适合人工智能领域的研究人员、高校师生以及算法工程师使用。无论是希望深入了解命名实体识别、关系抽取、事件抽取等具体任务，还是想探索监督微调、少样本学习、提示词设计及约束解码等关键技术路线，都能在此找到详尽的指引。此外，它还涵盖了特定领域应用、评估分析方法及相关数据集链接，为复现实验和开展新研究提供了坚实基础。

其独特亮点在于不仅提供论文列表，更依托一篇已被《Frontiers of Computer Science》接收的综述文章构建了清晰的分类体系，并保持着高频更新（如 2024 年 9 月单次新增 22 篇），确保用户能紧跟最新学术动态。社区欢迎全球学者共同贡献与反馈，是一个开放、活跃且极具参考价值的科研导航工具。

使用场景

某金融科技公司算法团队正致力于构建新一代智能合同审查系统，需要从海量非结构化法律文本中精准提取实体、关系及关键事件。

没有 Awesome-LLM4IE-Papers 时

文献检索如大海捞针：团队成员需在 arXiv、ACL Anthology 等多个平台分散搜索“生成式信息抽取”相关论文，耗时数周仍难以覆盖最新成果。
技术选型缺乏依据：面对零样本（Zero-shot）、少样本（Few-shot）或约束解码等多种技术路线，因缺乏系统性综述对比，难以判断哪种方案最适合法律垂直领域。
复现成本高昂：找到的论文往往缺失代码链接或数据集下载地址，导致工程师需从头复现基线模型，严重拖慢研发进度。
前沿动态滞后：无法及时获取 2024 年最新的研究进展（如细粒度实体识别或验证增强型 NER），导致技术方案可能起步即落后。

使用 Awesome-LLM4IE-Papers 后

一站式资源聚合：直接通过分类目录（如命名实体识别、事件抽取）快速定位到 2024 年 EMNLP、ACL 等顶会的 20+ 篇最新论文，调研效率提升十倍。
清晰的技术路线图：借助工具中按“监督微调”、“提示词设计”等技术维度的整理，团队迅速锁定了适合法律场景的“知识接地推理”方案。
开箱即用的工程加速：利用列表中提供的 GitHub 代码链接和专用数据集下载源，两天内即可完成基线模型搭建与验证。
持续同步前沿突破：通过"Recently Updated Papers"板块，实时掌握如 Double-Checker 等最新校验机制，确保系统架构始终处于行业领先地位。

Awesome-LLM4IE-Papers 将原本数月的碎片化调研工作压缩至数天，为生成式信息抽取落地提供了从理论到代码的全链路加速引擎。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个学术论文列表（Awesome List），用于汇总基于大语言模型的生成式信息提取相关研究，本身不包含可执行的源代码、模型权重或环境配置文件。因此，没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户若需运行列表中链接的具体论文代码，需参考各子项目的独立文档。

python未说明

快速开始

令人惊叹的LLM4IE论文集

🔥🔥🔥 该文章已被《计算机科学前沿》（FCS）接收。

关于使用大语言模型进行生成式信息抽取的优秀论文

论文的组织方式在我们的综述中进行了讨论：用于生成式信息抽取的大语言模型：综述。

如果您发现任何尚未包含在我们研究中的相关学术论文，请提交更新请求。我们欢迎所有人的贡献。

如有任何建议或错误，请随时通过电子邮件告知我们：derongxu@mail.ustc.edu.cn 和 chenweicw@mail.ustc.edu.cn。我们非常感谢您的反馈，并期待您的帮助以改进我们的工作。

如果您认为我们的综述对您的研究有所帮助，请引用以下论文：

@article{xu2024large,
  title={Large language models for generative information extraction: A survey},
  author={Xu, Derong and Chen, Wei and Peng, Wenjun and Zhang, Chao and Xu, Tong and Zhao, Xiangyu and Wu, Xian and Zheng, Yefeng and Wang, Yang and Chen, Enhong},
  journal={Frontiers of Computer Science},
  volume={18},
  number={6},
  pages={186357},
  year={2024},
  publisher={Springer}
}

📒 目录

信息抽取任务
信息抽取技术
特定领域
评估与分析
项目与工具包
⏰ 近期更新的论文（2024年9月4日之后的更新论文在此~）
⭐️ 数据集（附下载链接~）

💡 新闻

更新日志
- 详情请参阅 ./update_new_papers_list。
- 2024年9月4日 增加22篇论文
- 2024年6月6日 增加41篇论文
- 2024年3月30日 增加27篇论文
- 2024年3月29日 增加20篇论文

信息抽取任务

按不同任务分类。

命名实体识别

仅针对NER任务的模型。

实体类型标注

论文	会议/期刊	发表日期	代码
用于高效且可泛化的超细粒度实体类型标注的校准序列到序列模型	EMNLP Findings	2023年12月	GitHub
基于课程学习的生成式实体类型标注	EMNLP	2022年12月	GitHub

实体识别与类型标注

论文	会议/期刊	发表日期	代码链接
Granular Entity Mapper: 推进细粒度多模态命名实体识别与对齐	EMNLP Findings	2024
Double-Checker: 大型语言模型作为少样本命名实体识别的校验器	EMNLP Findings	2024	GitHub
VerifiNER: 基于知识推理的大型语言模型增强型验证式 NER	ACL	2024	GitHub
ProgGen: 利用自我反思型大型语言模型逐步生成命名实体识别数据集	ACL Findings	2024	GitHub
重新思考生成式命名实体识别中的负样本	ACL Findings	2024	GitHub
LLMs as Bridges: 重新构建基于知识的多模态命名实体识别	ACL Findings	2024	GitHub
RT: 用于少样本医学命名实体识别的检索与思维链框架	其他	2024年5月	GitHub
P-ICL: 大型语言模型下的点式上下文学习用于命名实体识别	Arxiv	2024年6月	GitHub
Astro-NER -- 天文学命名实体识别：GPT 是优秀的领域专家标注者吗？	Arxiv	2024年5月
Know-Adapter: 面向知识感知的参数高效迁移学习，用于少样本命名实体识别	COLING	2024
ToNER: 基于类型的生成式语言模型命名实体识别	COLING	2024
CHisIEC: 古代中国历史信息抽取语料库	COLING	2024	GitHub
利用大型语言模型从天体物理期刊文章中提取天文知识实体	其他	2024年4月
LTNER: 上下文化实体标记的大语言模型命名实体识别标签生成	Arxiv	2024年4月	GitHub
利用大型语言模型进行单选题问答以增强软件相关的信息抽取	其他	2024年4月
面向低资源命名实体识别的知识增强提示	TALLIP	2024年4月
VANER: 利用大型语言模型实现多功能自适应生物医学命名实体识别	Arxiv	2024年4月	GitHub
大型语言模型在生物医学领域的应用：临床命名实体识别研究	Arxiv	2024年4月
走出芝麻街：通过上下文学习研究葡萄牙法律命名实体识别	ResearchGate	2024年4月
利用大型语言模型从材料科学文献中挖掘实验数据：一项评估研究	Arxiv	2024年4月	GitHub
LinkNER: 使用不确定性将本地命名实体识别模型与大型语言模型连接	WWW	2024年
利用大型语言模型实现零样本命名实体识别的自我改进	NAACL Short	2024年	GitHub
针对生物医学 NER 的 LLM 即时定义增强	NAACL	2024年	GitHub
MetaIE: 从 LLM 中提炼元模型，用于各类信息抽取任务	Arxiv	2024年3月	GitHub
从大型语言模型中蒸馏濒危物种命名实体识别模型	Arxiv	2024年3月
利用 LLM 增强 NER 数据集：迈向自动化和精细化标注	Arxiv	2024年3月
ConsistNER: 基于本体与上下文一致性的 LLM 指令式 NER 展示	AAAI	2024年
使用探测分类器进行嵌入式命名实体识别	Arxiv	2024年3月	GitHub
少样本嵌套命名实体识别的上下文学习	Arxiv	2024年2月
LLM-DA: 利用大型语言模型进行少样本命名实体识别的数据增强	Arxiv	2024年2月
利用大型语言模型从科学文本中结构化提取信息	Nature Communications	2024年2月	GitHub
NuNER: 基于 LLM 标注数据的实体识别编码器预训练	Arxiv	2024年2月
一种简单而有效的方法来改善信息抽取的结构化语言模型输出	Arxiv	2024年2月
PaDeLLM-NER: 大型语言模型中的并行解码用于命名实体识别	Arxiv	2024年2月
小型语言模型可以作为中文实体关系抽取中大型语言模型的良好指导	Arxiv	2024年2月
C-ICL: 对比式上下文学习用于信息抽取	Arxiv	2024年2月
UniversalNER: 针对开放命名实体识别从大型语言模型中定向蒸馏	ICLR	2024年	GitHub
通过提示工程提升大型语言模型在临床命名实体识别中的性能	Arxiv	2024年1月	GitHub
2INER: 针对少样本命名实体识别的指令式与上下文学习	EMNLP Findings	2023年12月
少样本多模态命名实体识别的上下文学习	EMNLP Findings	2023年12月
大型语言模型并非优秀的少样本信息抽取者，但却是硬样本的良好重排序器！	EMNLP Findings	2023年12月	GitHub
利用合成数据集学习为命名实体识别排序上下文	EMNLP	2023年12月	GitHub
LLMaAA: 让大型语言模型成为主动标注者	EMNLP Findings	2023年12月	GitHub
在 MNER 中提示 ChatGPT：借助辅助精炼知识增强多模态命名实体识别	EMNLP Findings	2023年12月	GitHub
GLiNER: 使用双向 Transformer 的通用命名实体识别模型	Arxiv	2023年11月	GitHub
GPT Struct Me: 探测 GPT 模型在叙事性实体抽取中的表现	WI-IAT	2023年10月	GitHub
GPT-NER: 利用大型语言模型进行命名实体识别	Arxiv	2023年10月	GitHub
Prompt-NER: 利用大型语言模型在天文学文献中进行零样本命名实体识别	Arxiv	2023年10月
通过外部知识激发大型语言模型在生物医学命名实体识别中的潜力	Arxiv	2023年9月
一个模型适用于所有领域：跨领域 NER 的协作式域前缀调优	IJCAI	2023年9月	GitHub
针对多模态命名实体识别与多模态关系抽取的思维链提示蒸馏	Arxiv	2023年8月
学习上下文学习用于命名实体识别	ACL	2023年7月	GitHub
通过校准序列似然值来去偏生成式命名实体识别	ACL Short	2023年7月
基于实体到文本的数据增强，用于各类命名实体识别任务	ACL Findings	2023年7月
大型语言模型作为导师：多语言临床实体抽取研究	BioNLP	2023年7月	GitHub
NAG-NER: 一个统一的非自回归生成框架，用于各种 NER 任务	ACL Industry	2023年7月
统一的命名实体识别作为多标签序列生成	IJCNN	2023年6月
PromptNER：用于命名实体识别的提示	Arxiv	2023年6月
LLM 合成数据生成是否有助于临床文本挖掘？	Arxiv	2023年4月
利用指令微调的语言模型进行统一的文本结构化	Arxiv	2023年3月
利用精细调优的大型语言模型从复杂科学文本中结构化提取信息	Arxiv	2022年12月	演示
LightNER: 通过可插拔提示实现轻量级调优，用于低资源 NER	COLING	2022年10月	GitHub
统一 NER 任务中生成式抽取的去偏处理	ACL	2022年5月
InstructionNER：一个多任务指令驱动的生成式框架，用于少样本 NER	Arxiv	2022年3月
基于文档级实体的抽取作为模板生成	EMNLP	2021年11月	GitHub
一个统一的生成式框架，用于各类 NER 子任务	ACL	2021年8月	GitHub
利用 BART 进行基于模板的命名实体识别	ACL Findings	2021年8月	GitHub

关系抽取

仅针对关系抽取任务的模型。

关系分类

论文	会议/期刊	发表日期	代码
通过大型语言模型的单选题问答增强软件相关信息抽取	其他	2024-04
CRE-LLM：基于微调大型语言模型的领域特定中文关系抽取框架	Arxiv	2024-04	GitHub
召回、检索与推理：迈向更好的上下文关系抽取	IJCAI	2024-04
大型语言模型在对话式关系抽取中的实证分析	IJCAI	2024-04
元上下文学习使大型语言模型成为更优秀的零样本和少样本关系抽取器	IJCAI	2024-04
基于检索增强生成的关系抽取	Arxiv	2024-04	GitHub
利用大型语言模型进行关系抽取：以穴位位置为例	Arxiv	2024-04
STAR：借助大型语言模型的结构到文本数据生成提升低资源信息抽取	AAAI	2024-03
把握要点：为零样本关系抽取量身定制大型语言模型	Arxiv	2024-02
带有显式证据推理的思维链用于少样本关系抽取	EMNLP Findings	2023-12
GPT-RE：使用大型语言模型进行关系抽取的上下文学习	EMNLP	2023-12	GitHub
面向上下文信息抽取的指南学习	EMNLP	2023-12
大型语言模型并非优秀的少样本信息抽取器，却是处理困难样本的好重排序器！	EMNLP Findings	2023-12	GitHub
LLMaAA：让大型语言模型成为主动标注者	EMNLP Findings	2023-12	GitHub
通过扩充多样化的句子对改进无监督关系抽取	EMNLP	2023-12	GitHub
重新审视大型语言模型作为零样本关系抽取器	EMNLP Findings	2023-12
借助大型语言模型和一致的推理环境掌握开放信息抽取任务	Arxiv	2023-10
指令任务对齐解锁大型语言模型的零样本关系抽取能力	ACL Findings	2023-07	GitHub
如何释放大型语言模型在少样本关系抽取中的力量？	ACL Workshop	2023-07	GitHub
通过标签增强进行序列生成以实现关系抽取	AAAI	2023-06	GitHub
LLMs 的合成数据生成有助于临床文本挖掘吗？	Arxiv	2023-04
DORE：基于生成式框架的文档有序关系抽取	EMNLP Findings	2022-12
REBEL：端到端语言生成的关系抽取	EMNLP Findings	2021-11	GitHub

关系三元组

论文	会议/期刊	发表日期	代码
ERA-CoT：通过实体关系分析改进思维链	ACL	2024	GitHub
AutoRE：使用大型语言模型进行文档级关系抽取	ACL Demos	2024	GitHub
元上下文学习使大型语言模型成为更优秀的零样本和少样本关系抽取器	IJCAI	2024-04
一致性引导的知识检索与去噪在 LLM 中用于零样本文档级关系三元组抽取	WWW	2024
提升大型语言模型的召回率：一种用于关系三元组抽取的模型协作方法	COLING	2024	GitHub
通过表格化提示解锁指导性上下文学习以进行关系三元组抽取	COLING	2024
一种简单而有效的方法来改善结构化语言模型输出以用于信息抽取	Arxiv	2024-02
利用大型语言模型从科学文本中进行结构化信息抽取	Nature Communications	2024-02	GitHub
通过预训练语言模型进行文档级上下文少样本关系抽取	Arxiv	2024-02	GitHub
小型语言模型是中国语义关系抽取中大型语言模型的良好引导者	Arxiv	2024-02
利用预训练语言模型进行开放信息抽取的有效数据学习	EMNLP Findings	2023-12
借助大型语言模型和一致的推理环境掌握开放信息抽取任务	Arxiv	2023-10
使用指令微调的语言模型进行统一的文本结构化	Arxiv	2023-03
基于实体的文档级抽取作为模板生成	EMNLP	2021-11	GitHub

关系严格

论文	会议/期刊	日期	代码
MetaIE：从大语言模型中蒸馏出适用于各类信息抽取任务的元模型	Arxiv	2024-03	GitHub
从大语言模型中蒸馏濒危物种命名实体识别模型	Arxiv	2024-03
CHisIEC：面向中国古代历史的信息抽取语料库	COLING	2024-03	GitHub
用于联合实体与关系抽取的自回归文本到图框架	AAAI	2024-03	GitHub
C-ICL：面向信息抽取的对比式上下文学习	Arxiv	2024-02
REBEL：端到端语言生成的关系抽取	EMNLP Findings	2021-11	GitHub

事件抽取

仅针对事件抽取任务的模型。

事件检测

论文	会议/期刊	日期
改进零样本事件检测中的事件定义顺序	Arxiv	2024-03
利用大语言模型和一致推理环境掌握开放信息抽取任务	Arxiv	2023-10
基于指令微调的语言模型实现统一的文本结构化	Arxiv	2023-03
释放GPT-2在事件检测中的潜力	ACL	2021-08

事件论元抽取

论文	会议/期刊	日期	代码
LLM通过演示学习任务启发式：一种启发式驱动的提示策略用于文档级事件论元抽取	ACL	2024	GitHub
超越单事件抽取：迈向高效的文档级多事件论元抽取	ACL Findings	2024	GitHub
KeyEE：借助辅助关键词子提示提升低资源生成式事件抽取	其他	2024-04	GitHub
MetaIE：从大语言模型中蒸馏出适用于各类信息抽取任务的元模型	Arxiv	2024-03	GitHub
在药物警戒事件抽取中利用ChatGPT：一项实证研究	EACL	2024-02	GitHub
ULTRA：通过层次建模和成对精炼释放LLM在事件论元抽取中的潜力	Arxiv	2024-01
基于扩散模型的生成式事件论元抽取的上下文感知提示	CIKM	2023-10
面向事件论元抽取的上下文化软提示	ACL Findings	2023-07
AMPERE：面向生成式事件论元抽取模型的AMR感知前缀	ACL	2023-07	GitHub
Code4Struct：用于少样本事件结构预测的代码生成	ACL	2023-07	GitHub
将事件抽取视为问题生成与回答	ACL short	2023-07	GitHub
通过提示施加全局约束以进行零样本事件论元分类	EACL Findings	2023-05
用于抽取的提示？PAIE：面向事件论元抽取的提示式论元交互	ACL	2022-05	GitHub

事件检测与论元抽取

论文	会议	日期	代码
TextEE：事件抽取的基准、重新评估、反思及未来挑战	ACL Findings	2024	GitHub
EventRL：利用结果监督提升大语言模型的事件抽取能力	Arxiv	2024-02
上下文信息抽取中的指南学习	EMNLP	2023-12
DemoSG：演示增强的模式引导生成用于低资源事件抽取	EMNLP Findings	2023-12	GitHub
大语言模型并非优秀的少样本信息抽取器，而是硬样本的良好重排序器！	EMNLP Findings	2023-12	GitHub
DICE：基于生成模型的数据高效临床事件抽取	ACL	2023-07	GitHub
零样本社会政治事件抽取的蒙特卡洛语言模型流水线	NeurIPS Workshop	2023-10
STAR：利用大语言模型进行结构到文本的数据生成以提升低资源信息抽取能力	AAAI	2024-03
DEGREE：一种数据高效的生成式事件抽取模型	NAACL	2022-07	GitHub
ClarET：为以事件为中心的生成和分类任务预训练相关性感知的上下文到事件转换器	ACL	2022-05	GitHub
用于生成式模板驱动事件抽取的动态前缀调优	ACL	2022-05
Text2event：端到端事件抽取的可控序列到结构生成	ACL	2021-08	GitHub
基于条件生成的文档级事件论元抽取	NAACL	2021-06	GitHub

通用信息抽取

针对多种信息抽取任务的统一模型。

基于自然语言大模型

论文	会议	日期	代码
Diluie：利用大语言模型构建多样化的上下文学习演示以实现统一信息抽取	其他	2024-04	GitHub
ChatUIE：探索使用大语言模型的聊天式统一信息抽取	COLING	2024
YAYI-UIE：一种聊天增强的指令微调框架用于通用信息抽取	Arxiv	2024-04
集合学习用于生成式信息抽取	EMNLP	2023-12
GIELLM：利用相互强化效应的日语通用信息抽取大语言模型	Arxiv	2023-11
InstructUIE：用于统一信息抽取的多任务指令微调	Arxiv	2023-04	GitHub
通过与ChatGPT聊天实现零样本信息抽取	Arxiv	2023-02	GitHub
GenIE：生成式信息抽取	NAACL	2022-07	GitHub
DEEPSTRUCT：用于结构预测的语言模型预训练	ACL Findings	2022-05	GitHub
用于通用信息抽取的统一结构生成	ACL	2022-05	GitHub
结构预测作为增强型自然语言之间的翻译	ICLR	2021-01	GitHub

基于代码大模型

论文	会议	日期	代码
KnowCoder：将结构化知识编码进大语言模型以实现通用信息抽取	ACL	2024	GitHub
GoLLIE：标注指南提升零样本信息抽取能力	ICLR	2024	GitHub
检索增强的代码生成用于通用信息抽取	Arxiv	2023-11
CODEIE：大型代码生成模型是更优秀的少样本信息抽取器	ACL	2023-07	GitHub
CodeKGC：用于生成式知识图谱构建的代码语言模型	ACM TALLIP	2024-03	GitHub

信息抽取技术

按技术分类。

有监督微调

论文	会议/期刊	发表日期	代码链接
重新思考生成式命名实体识别中的负样本	ACL Findings	2024	GitHub
超越单事件抽取：迈向高效的文档级多事件论元抽取	ACL Findings	2024	GitHub
AutoRE：基于大语言模型的文档级关系抽取	ACL Demos	2024	GitHub
召回、检索与推理：迈向更好的上下文关系抽取	IJCAI	2024年4月
大语言模型在对话关系抽取中的实证分析	IJCAI	2024年4月
用于联合实体与关系抽取的自回归文本到图框架	AAAI	2024	GitHub
提升大语言模型的召回率：一种用于关系三元组抽取的模型协作方法	COLING	2024	GitHub
ToNER：基于生成式语言模型的类型导向命名实体识别	COLING	2024
CHisIEC：面向中国古代历史的信息抽取语料库	COLING	2024	GitHub
KeyEE：利用辅助关键词子提示增强低资源场景下的生成式事件抽取	其他	2024年4月	GitHub
VANER：利用大语言模型实现通用且自适应的生物医学命名实体识别	Arxiv	2024年4月	GitHub
大语言模型在生物医学领域的应用：临床命名实体识别研究	Arxiv	2024年4月
利用大语言模型从材料科学文献中挖掘实验数据：一项评估研究	Arxiv	2024年4月	GitHub
CRE-LLM：基于微调大语言模型的领域特定中文关系抽取框架	Arxiv	2024年4月	GitHub
利用大语言模型进行关系抽取：以针灸穴位位置为例	Arxiv	2024年4月
改进零样本事件检测中的事件定义	Arxiv	2024年3月
使用探测分类器进行嵌入式命名实体识别	Arxiv	2024年3月	GitHub
EventRL：通过结果监督增强大语言模型的事件抽取能力	Arxiv	2024年2月
利用大语言模型从科学文本中提取结构化信息	Nature Communications	2024年2月	GitHub
PaDeLLM-NER：大语言模型中的并行解码技术用于命名实体识别	Arxiv	2024年2月
UniversalNER：面向开放命名实体识别的大语言模型目标蒸馏方法	ICLR	2024	GitHub
GoLLIE：标注指南提升零样本信息抽取性能	ICLR	2024	GitHub
用于生成式信息抽取的集合学习	EMNLP	2023年12月
利用预训练语言模型进行开放信息抽取的高效数据学习	EMNLP Findings	2023年12月
DemoSG：演示增强的模式引导生成技术用于低资源事件抽取	EMNLP Findings	2023年12月	GitHub
校准后的Seq2seq模型用于高效且可泛化的超细粒度实体类型标注	EMNLP Findings	2023年12月
GIELLM：利用相互强化效应的日语通用信息抽取大语言模型	Arxiv	2023年11月
GLiNER：基于双向Transformer的命名实体识别通用模型	Arxiv	2023年11月	GitHub
基于扩散模型的上下文感知提示用于生成式事件论元抽取	CIKM	2023年10月
用于事件论元抽取的上下文化软提示	ACL Findings	2023年7月
AMPERE：面向生成式事件论元抽取模型的AMR感知前缀	ACL	2023年7月	GitHub
通过校准序列似然来去偏生成式命名实体识别	ACL short	2023年7月
DICE：基于生成模型的高效临床事件抽取	ACL	2023年7月	GitHub
将事件抽取视为问答任务	ACL short	2023年7月	GitHub
NAG-NER：一个统一的非自回归生成框架，适用于多种NER任务	ACL Industry	2023年7月
通过标签增强进行关系抽取的序列生成	AAAI	2023年6月	GitHub
将统一命名实体识别视为多标签序列生成	IJCNN	2023年6月
InstructUIE：面向统一信息抽取的多任务指令微调	Arxiv	2023年4月	GitHub
利用微调大语言模型从复杂科学文本中提取结构化信息	Arxiv	2022年12月	演示
基于课程学习的生成式实体类型标注	EMNLP	2022年12月	GitHub
DORE：基于生成式框架的文档有序关系抽取	EMNLP Findings	2022年12月
LasUIE：利用潜在自适应结构感知生成语言模型统一信息抽取	NeurIPS	2022年10月	GitHub
LightNER：通过可插拔提示实现低资源NER的轻量级微调范式	COLING	2022年10月	GitHub
GenIE：生成式信息抽取	NAACL	2022年7月	GitHub
DEGREE：一种数据高效的生成式事件抽取模型	NAACL	2022年7月	GitHub
ClarET：为以事件为中心的生成和分类任务预训练相关性感知的上下文到事件转换器	ACL	2022年5月	GitHub
DEEPSTRUCT：为结构预测预训练语言模型	ACL Findings	2022年5月	GitHub
用于生成模板式事件抽取的动态前缀微调	ACL	2022年5月
用于事件论元抽取的提示交互？PAIE：提示论元交互	ACL	2022年5月	GitHub
用于通用信息抽取的统一结构生成	ACL	2022年5月	GitHub
用于统一NER任务的生成式抽取去偏处理	ACL	2022年5月
文档级基于实体的抽取作为模板生成	EMNLP	2021年11月	GitHub
REBEL：端到端语言生成的关系抽取	EMNLP Findings	2021年11月	GitHub
用于多种NER子任务的统一生成式框架	ACL	2021年8月	GitHub
利用BART进行基于模板的命名实体识别	ACL Findings	2021年8月	GitHub
Text2event：可控的序列到结构生成，用于端到端事件抽取	ACL	2021年8月	GitHub
通过条件生成进行文档级事件论元抽取	NAACL	2021年6月	GitHub
将结构预测视为增强自然语言之间的翻译	ICLR	2021年1月	GitHub

少样本

少样本微调

论文	会议/期刊	发表日期	代码链接
Diluie: 利用大语言模型构建多样化的上下文学习示例，用于统一的信息抽取	其他	2024-04	GitHub
KeyEE: 通过辅助关键词子提示增强低资源生成式事件抽取	其他	2024-04	GitHub
元上下文学习使大语言模型成为更好的零样本和少样本关系抽取器	IJCAI	2024-04
针对生物医学命名实体识别的LLM即时定义增强	NAACL	2024-03	GitHub
DemoSG: 基于示例增强的模式引导生成方法，用于低资源事件抽取	EMNLP Findings	2023-12	GitHub
一个模型适用于所有领域：跨领域NER的协作式领域前缀微调	IJCAI	2023-09	GitHub
LightNER: 基于可插拔提示的轻量级微调范式，用于低资源NER	COLING	2022-10	GitHub
面向通用信息抽取的统一结构生成	ACL	2022-05	GitHub
InstructionNER: 一种基于多任务指令的少样本NER生成式框架	Arxiv	2022-03
基于模板的BART命名实体识别	ACL Findings	2021-08	GitHub
结构化预测作为增强自然语言之间的翻译	ICLR	2021-01	GitHub

上下文学习

论文	会议/期刊	发表日期	代码链接
TextEE：事件抽取的基准、重新评估、反思及未来挑战	ACL Findings	2024年	GitHub
RT：一种用于少样本医学命名实体识别的检索与思维链框架	其他	2024-05	GitHub
P-ICL：基于大型语言模型的命名实体识别点式上下文学习	Arxiv	2024-06	GitHub
LTNER：结合上下文实体标注的大型语言模型命名实体识别标记方法	Arxiv	2024-04	GitHub
通过大型语言模型的单选题问答增强软件相关信息抽取	其他	2024-04
生物医学中的大语言模型：临床命名实体识别研究	Arxiv	2024-04
走出芝麻街：基于上下文学习的葡萄牙法律命名实体识别研究	ResearchGate	2024-04
利用大型语言模型从材料科学文献中挖掘实验数据：一项评估研究	Arxiv	2024-04	GitHub
大型语言模型对话关系抽取的实证分析	IJCAI	2024-04
基于大型语言模型的零样本命名实体识别自我改进	NAACL Short	2024	GitHub
ConsistNER：面向LLM的指令式NER演示，兼顾本体与上下文一致性	AAAI	2024
用于生物医学NER的LLM即时定义增强	NAACL	2024	GitHub
CHisIEC：古代中国历史信息抽取语料库	COLING	2024	GitHub
通过表格化提示解锁指令式上下文学习，用于关系三元组抽取	COLING	2024
CodeKGC：用于生成式知识图谱构建的代码语言模型	ACM TALLIP	2024-03	GitHub
基于预训练语言模型的文档级上下文少样本关系抽取	Arxiv	2024-02	GitHub
用于少样本嵌套命名实体识别的上下文学习	Arxiv	2024-02
利用ChatGPT进行药物警戒事件抽取：一项实证研究	EACL	2024-02	GitHub
启发式驱动的类比链提示：提升大型语言模型在文档级事件论元抽取中的性能	Arxiv	2024-02
LinkNER：利用不确定性将本地命名实体识别模型与大型语言模型连接	WWW	2024
小型语言模型是中文实体关系抽取中大型语言模型的良好引导者	Arxiv	2024-02
C-ICL：用于信息抽取的对比式上下文学习	Arxiv	2024-02
通过提示工程提升大型语言模型的临床命名实体识别能力	Arxiv	2024-01	GitHub
带有明确证据推理的思维链用于少样本关系抽取	EMNLP Findings	2023-12
GPT-RE：利用大型语言模型进行关系抽取的上下文学习	EMNLP	2023-12	GitHub
用于上下文信息抽取的指南学习	EMNLP	2023-12
大型语言模型并非优秀的少样本信息抽取器，却是硬样本重排序的好帮手！	EMNLP Findings	2023-12	GitHub
检索增强的代码生成用于通用信息抽取	Arxiv	2023-11
借助大型语言模型和一致的推理环境掌握开放信息抽取任务	Arxiv	2023-10
GPT-NER：基于大型语言模型的命名实体识别	Arxiv	2023-10	GitHub
GPT Struct Me：探究GPT模型在叙事性实体抽取中的表现	WI-IAT	2023-10	GitHub
学习用于命名实体识别的上下文学习	ACL	2023-07	GitHub
对齐指令任务可释放大型语言模型作为零样本关系抽取器的能力	ACL Findings	2023-07	GitHub
Code4Struct：用于少样本事件结构预测的代码生成	ACL	2023-07	GitHub
CODEIE：大型代码生成模型是更优秀的少样本信息抽取器	ACL	2023-07	GitHub
如何释放大型语言模型在少样本关系抽取中的潜力？	ACL Workshop	2023-07	GitHub
PromptNER：用于命名实体识别的提示设计	Arxiv	2023-06	GitHub
使用指令微调的语言模型实现统一文本结构化	Arxiv	2023-03

零样本

零样本提示

论文	会议/期刊	发表日期	代码链接
ERA-CoT：通过实体关系分析提升思维链	ACL	2024年	GitHub
利用大型语言模型从天体物理学期刊文章中提取天文知识实体	其他	2024年4月
使用大型语言模型从材料科学文献中挖掘实验数据：一项评估研究	Arxiv	2024年4月	GitHub
大型语言模型在对话关系抽取中的实证分析	IJCAI	2024年4月
基于检索增强生成的关系抽取	Arxiv	2024年4月	GitHub
利用大型语言模型进行关系抽取：以穴位位置为例的研究	Arxiv	2024年4月
元上下文学习使大型语言模型成为更优秀的零样本和少样本关系抽取器	IJCAI	2024年4月
利用大型语言模型实现零样本命名实体识别的自我改进	NAACL Short	2024年	GitHub
CodeKGC：用于生成式知识图谱构建的代码语言模型	ACM TALLIP	2024年3月	GitHub
针对生物医学命名实体识别的LLM即时定义增强	NAACL	2024年3月	GitHub
在药物警戒事件抽取中利用ChatGPT：一项实证研究	EACL	2024年2月	GitHub
一种简单而有效的方法，用于改善信息抽取中结构化语言模型的输出	Arxiv	2024年2月
小型语言模型可作为中文实体关系抽取中大型语言模型的良好指导	Arxiv	2024年2月
通过提示工程提升大型语言模型在临床命名实体识别中的性能	Arxiv	2024年1月	GitHub
通过扩充多样化的句子对来改进无监督关系抽取	EMNLP	2023年12月	GitHub
Prompt-NER：利用大型语言模型在天文学文献中进行零样本命名实体识别	Arxiv	2023年10月
重新审视大型语言模型作为零样本关系抽取器	EMNLP Findings	2023年10月
对齐指令任务可解锁大型语言模型的零样本关系抽取能力	ACL Findings	2023年7月	GitHub
Code4Struct：用于少样本事件结构预测的代码生成	ACL	2023年7月	GitHub
用于零样本社会政治事件抽取的蒙特卡洛语言模型流水线	NeurIPS Workshop	2023年10月
通过提示引入全局约束进行零样本事件论元分类	EACL Findings	2023年5月
通过与ChatGPT对话实现零样本信息抽取	Arxiv	2023年2月	GitHub

跨领域学习

论文	会议	日期	代码
KnowCoder: 将结构化知识编码到大语言模型中以实现通用信息抽取	ACL	2024	GitHub
VerifiNER: 基于知识推理的大语言模型增强的实体识别验证方法	ACL	2024	GitHub
重新思考生成式命名实体识别中的负样本	ACL Findings	2024	GitHub
IEPile: 挖掘大规模基于模式的信息抽取语料库	ACL Short	2024	GitHub
Diluie: 利用大语言模型构建多样化的上下文学习示例，用于统一信息抽取	其他	2024年4月	GitHub
通过大语言模型的指令微调推进生物医学领域的实体识别	生物信息学	2024年3月	GitHub
ChatUIE: 探索基于聊天的大语言模型进行统一信息抽取	COLING	2024
ULTRA: 通过层次建模和成对精炼释放大语言模型在事件论元抽取中的潜力	Arxiv	2024年1月
YAYI-UIE: 一种增强聊天功能的指令微调框架，用于通用信息抽取	Arxiv	2024年4月
GoLLIE: 注释指南提升零样本信息抽取性能	ICLR	2024年	GitHub
UniversalNER: 从大语言模型中针对性蒸馏，用于开放式命名实体识别	ICLR	2024年	GitHub
InstructUIE: 面向统一信息抽取的多任务指令微调	Arxiv	2023年4月	GitHub
DEEPSTRUCT: 用于结构预测的语言模型预训练	ACL Findings	2022年5月	GitHub
面向零样本跨语言事件论元抽取的多语言生成式语言模型	ACL	2022年5月	GitHub

跨类型学习

论文	会议	日期	代码
基于条件生成的文档级事件论元抽取	NAACL	2021年6月	GitHub

数据增强

数据标注

论文	会议	日期	代码
Astro-NER -- 天文学命名实体识别：GPT是优秀的领域专家标注者吗？	Arxiv	2024年5月
MetaIE: 从大语言模型中蒸馏出适用于各类信息抽取任务的元模型	Arxiv	2024年3月	GitHub
利用大语言模型扩充命名实体识别数据集：迈向自动化与精细化标注	Arxiv	2024年3月
NuNER: 基于大语言模型标注数据的实体识别编码器预训练	Arxiv	2024年2月
在药物警戒事件抽取中利用ChatGPT：一项实证研究	EACL	2024年2月	GitHub
LLM-DA: 基于大语言模型的数据增强，用于少样本命名实体识别	Arxiv	2024年2月
LLMaAA: 让大语言模型成为主动标注者	EMNLP Findings	2023年12月	GitHub
通过扩充多样化句子对改进无监督关系抽取	EMNLP	2023年12月	GitHub
利用大语言模型的远程监督进行文档级关系抽取的半自动数据增强	EMNLP	2023年12月	GitHub
如何释放大语言模型在少样本关系抽取中的力量？	ACL Workshop	2023年7月	GitHub
大语言模型作为导师：多语言临床实体抽取研究	bioNLP Workshop	2023年7月	GitHub
大语言模型的合成数据生成是否有助于临床文本挖掘？	Arxiv	2023年4月
释放GPT-2在事件检测中的力量	ACL	2021年8月

知识检索

论文	会议	日期	代码
大语言模型作为桥梁：重构基于知识的多模态命名实体识别	ACL Findings	2024年	GitHub
一致性引导下的知识检索与去噪，用于大语言模型中的零样本文档级关系三元组抽取	WWW	2024年
使用合成数据集学习为命名实体识别排序上下文	EMNLP	2023年12月	GitHub
在MNER中提示ChatGPT：借助辅助精炼知识增强多模态命名实体识别	EMNLP Findings	2023年12月	GitHub
针对多模态命名实体识别和多模态关系抽取的思维链提示蒸馏	Arxiv	2023年8月

逆向生成

论文	会议/期刊	发表日期	代码链接
从大型语言模型中蒸馏濒危物种命名实体识别模型	Arxiv	2024-03
[改进零样本事件检测中的事件定义] (https://arxiv.org/abs/2403.02586)	Arxiv	2024-03
ProgGen：利用自我反思型大型语言模型逐步生成命名实体识别数据集	ACL Findings	2024	GitHub
把握本质：为零样本关系抽取量身定制大型语言模型	Arxiv	2024-02
利用不对称性生成合成训练数据：SynthIE与信息抽取案例	EMNLP	2023-12	GitHub
基于实体到文本的数据增强，用于多种命名实体识别任务	ACL Findings	2023-07
将事件抽取视为问题生成与回答	ACL Short	2023-07	GitHub
STAR：通过大型语言模型的结构到文本数据生成，提升低资源事件抽取性能	AAAI	2024-03

用于指令微调的合成数据集

论文	会议/期刊	发表日期	代码链接
重新思考生成式命名实体识别中的负样本	ACL Findings	2024	GitHub
UniversalNER：面向开放命名实体识别的大型语言模型定向蒸馏	ICLR	2024-01	GitHub
GLiNER：使用双向Transformer的通用命名实体识别模型	Arxiv	2023-11	GitHub
用于多模态命名实体识别和多模态关系抽取的思维链提示蒸馏	Arxiv	2023-08

提示词设计

问答

论文	会议/期刊	发表日期	代码链接
面向低资源命名实体识别的知识增强提示	TALLIP	2024-04
通过大型语言模型的单选题问答提升软件相关信息抽取	其他	2024-04
重新审视大型语言模型作为零样本关系抽取器	EMNLP Findings	2023-12
对齐指令任务可解锁大型语言模型的零样本关系抽取能力	ACL Findings	2023-07	GitHub
通过与ChatGPT对话实现零样本信息抽取	Arxiv	2023-02	GitHub

思维链

论文	会议/期刊	发表日期	代码链接
RT：一种用于少样本医学命名实体识别的检索与思维链框架	其他	2024-05	GitHub
以生物医学命名实体识别领域的外部知识激发大型语言模型	Arxiv	2023-09
用于多模态命名实体识别和多模态关系抽取的思维链提示蒸馏	Arxiv	2023-08
在大型语言模型时代重新审视关系抽取	ACL	2023-07	GitHub
使用ChatGPT进行零样本时间关系抽取	BioNLP	2023-07
PromptNER：用于命名实体识别的提示工程	Arxiv	2023-06

自我改进

论文	会议/期刊	发表日期	代码链接
ProgGen：利用自我反思型大型语言模型逐步生成命名实体识别数据集	ACL Findings	2024	GitHub
ULTRA：通过层次化建模和成对精炼释放大型语言模型在事件论元抽取方面的潜力	Arxiv	2024-01
利用大型语言模型实现零样本命名实体识别的自我改进	NAACL Short	2024	GitHub

约束解码生成

论文	会议/期刊	发表日期	代码链接
用于联合实体与关系抽取的自回归文本到图框架	AAAI	2024-03	GitHub
无需微调即可用于结构化NLP任务的语法约束解码	EMNLP	2024-01	GitHub
DORE：基于生成式框架的文档有序关系抽取	EMNLP Findings	2022-12
利用语言模型进行自回归结构化预测	EMNLP Findings	2022-12	GitHub
用于通用信息抽取的统一结构生成	ACL	2022-05	GitHub

特定领域

论文	领域	会议/期刊	发表日期	代码
粒度实体映射器：推进细粒度多模态命名实体识别与对齐	多模态	EMNLP Findings	2024
大语言模型作为桥梁：重新构建 grounded 多模态命名实体识别	多模态	ACL Findings	2024	GitHub
RT：一种用于少样本医学命名实体识别的检索与思维链框架	医学	其他	2024-05	GitHub
Astro-NER——天文学命名实体识别：GPT 是优秀的领域专家标注者吗？	天文学	Arxiv	2024-05
通过大型语言模型从天体物理期刊文章中提取天文知识实体	天文学	其他	2024-04
VANER：利用大型语言模型实现通用且自适应的生物医学命名实体识别	生物医学	Arxiv	2024-04	GitHub
大语言模型在生物医学中的应用：临床命名实体识别研究	生物医学	Arxiv	2024-04
通过大型语言模型的单选题问答增强软件相关信息抽取	软件	其他	2024-04
走出芝麻街：基于上下文学习的葡萄牙法律命名实体识别研究	法律	ResearchGate	2024-04
利用大型语言模型从材料科学文献中挖掘实验数据：一项评估研究	科学	Arxiv	2024-04	GitHub
使用大型语言模型进行关系抽取：以穴位位置为例的研究	穴位	Arxiv	2024-04
通过指令微调大型语言模型推进生物医学领域的实体识别	生物医学	生物信息学	2024-03	GitHub
从大型语言模型中蒸馏濒危物种命名实体识别模型	濒危物种	Arxiv	2024-03
CHisIEC：古代中国历史的信息抽取语料库	历史	COLING	2024-03	GitHub
针对生物医学 NER 的 LLM 即时定义增强	生物医学	NAACL	2024-03	GitHub
通过上下文学习改进基于 LLM 的健康信息抽取	健康	其他	2024-03
利用大型语言模型从科学文本中结构化抽取信息	科学	Nat. Commun.	2024-02	GitHub
将 ChatGPT 应用于药物警戒事件抽取：一项实证研究	药物警戒	EACL	2024-02	GitHub
利用大型语言模型从科学文本中结构化抽取信息	科学	Nat. Commun.	2024-02	GitHub
结合基于提示的语言模型和弱监督技术对法律文书进行命名实体识别标注	法律	其他	2024-02
通过提示工程改进大型语言模型在临床命名实体识别中的表现	临床	Arxiv	2024-01	GitHub
样本选择对科学写作中实体抽取的上下文学习的影响	科学	EMNLP Findings	2023-12	GitHub
在 MNER 中提示 ChatGPT：借助辅助精炼知识提升多模态命名实体识别	多模态	ENMLP Findings	2023-12	GitHub
少样本多模态命名实体识别的上下文学习	多模态	ENMLP Findings	2023-12
PolyIE：聚合物材料科学文献的信息抽取数据集	聚合物材料	Arxiv	2023-11	GitHub
Prompt-NER：利用大型语言模型在天文学文献中进行零样本命名实体识别	天文	Arxiv	2023-10
以外部知识激发大型语言模型在生物医学命名实体识别中的表现	生物医学	Arxiv	2023-09
面向多模态命名实体识别与多模态关系抽取的思维链提示蒸馏	多模态	Arxiv	2023-08
DICE：基于生成模型的高效临床事件抽取	临床	ACL	2023-07	GitHub
语言模型距离医疗领域 100% 少样本命名实体识别还有多远？	医疗	Arxiv	2023-07	GitHub
大型语言模型作为导师：多语言临床实体抽取研究	多语言/临床	BioNLP	2023-07	GitHub
LLM 的合成数据生成是否有助于临床文本挖掘？	临床	Arxiv	2023-04
是的，但是……ChatGPT 能否识别历史文献中的实体？	历史	JCDL	2023-03
利用 ChatGPT 进行零样本临床实体识别	临床	Arxiv	2023-03
利用微调后的大型语言模型从复杂科学文本中结构化抽取信息	科学	Arxiv	2022-12	演示
多语言生成式语言模型用于零样本跨语言事件论元抽取	多语言	ACL	2022-05	GitHub

评估与分析

论文	会议/期刊	日期	代码
TextEE: 事件抽取的基准、重新评估、反思及未来挑战	ACL Findings	2024	GitHub
IEPile: 挖掘大规模基于模式的信息抽取语料库	ACL Short	2024	GitHub
CHisIEC: 古代中国历史信息抽取语料库	COLING	2024	GitHub
GenRES: 大型语言模型时代生成式关系抽取的评估重思	NAACL	2024	GitHub
大型语言模型在对话关系抽取中的实证分析	IJCAI	2024
Astro-NER -- 天文学命名实体识别：GPT是优秀的领域专家标注者吗？	Arxiv	2024年5月
利用大型语言模型进行关系抽取：以穴位位置为例	Arxiv	2024年4月
使用大型语言模型从材料科学文献中挖掘实验数据：一项评估研究	Arxiv	2024年4月	GitHub
从大型语言模型中蒸馏濒危物种命名实体识别模型	Arxiv	2024年3月
用于知识图谱构建与推理的大语言模型：最新能力与未来机遇	Arxiv	2024年2月	GitHub
三种语言下的少样本临床实体识别：掩码语言模型优于大语言模型提示	Arxiv	2024年2月
法律遗嘱中的信息抽取：GPT-4表现如何？	EMNLP Findings	2023年12月	GitHub
低资源场景下的信息抽取：综述与展望	Arxiv	2023年12月	GitHub
ChatGPT零样本NER的实证研究	EMNLP	2023年12月	GitHub
NERetrieve: 下一代命名实体识别与检索的数据集	EMNLP Findings	2023年12月	GitHub
保持知识不变性：重思开放信息抽取的鲁棒性评估	EMNLP	2023年12月	GitHub
PolyIE: 聚合物材料科学文献中的信息抽取数据集	Arxiv	2023年11月	GitHub
XNLP: 通用结构化NLP的交互式演示系统	Arxiv	2023年8月	演示
指令微调大型语言模型在临床和生物医学任务中的零样本与少样本研究	Arxiv	2023年7月
语言模型距离医疗领域100%少样本命名实体识别还有多远	Arxiv	2023年7月	GitHub
大型语言模型时代的关系抽取再审视	ACL	2023年7月	GitHub
ChatGPT零样本时间关系抽取	BioNLP	2023年7月
InstructIE: 一个基于指令的中文信息抽取数据集	Arxiv	2023年5月	GitHub
ChatGPT是否解决了信息抽取问题？性能、评估标准、鲁棒性和错误分析	Arxiv	2023年5月	GitHub
评估ChatGPT的信息抽取能力：性能、可解释性、校准与忠实度	Arxiv	2023年4月	GitHub
探索ChatGPT用于事件抽取的可行性	Arxiv	2023年3月
但是……ChatGPT能识别历史文献中的实体吗？	JCDL	2023年3月
使用ChatGPT进行零样本临床实体识别	Arxiv	2023年3月
考虑将GPT-3的上下文学习应用于生物医学信息抽取吗？再想想吧	EMNLP Findings	2022年12月	GitHub
大型语言模型是少样本临床信息抽取器	EMNLP	2022年12月	Huggingface

项目与工具包

论文	类型	会议/期刊	日期	链接
ONEKE	项目	-	-	链接
TechGPT-2.0: 一个解决知识图谱构建任务的大语言模型项目	项目	Arxiv	2024年1月	链接
CollabKG: 一种可学习的人机协作信息抽取工具包，用于（事件）知识图谱构建	工具包	Arxiv	2023年7月	链接

论文	会议/期刊	发表日期	代码链接
基于时间线的句子分解与上下文学习用于时序事实抽取	ACL	2024-08	GitHub
利用大语言模型进行基于事件的疫情监测中的信息抽取	ICICT	2024-08
SpeechEE：一种新颖的语音事件抽取基准	ACM MM	2024-08	GitHub
HybridRAG：融合知识图谱与向量检索增强生成以实现高效信息抽取	Arxiv	2024-08
Knowledge AI：微调NLP模型以促进科学知识的提取与理解	Arxiv	2024-08
视觉语言模型的信息抽取目标提示	Arxiv	2024-08
使用大语言模型的少样本提示评估命名实体识别	Arxiv	2024-08	GitHub
利用大语言模型对中医药抗击新冠肺炎文献中的命名实体识别：对比研究	Arxiv	2024-08
CLLMFS：一种基于对比学习增强的大语言模型框架，用于少样本命名实体识别	ECAI	2024-08
大语言模型并非生物医学信息抽取的零样本推理者	Arxiv	2024-08
利用通用大语言模型进行标签对齐与重新分配，以提升跨领域命名实体识别	Arxiv	2024-07
MMM：多语言相互强化效应混合数据集与开放域信息抽取大语言模型测试	Arxiv	2024-08	GitHub
FsPONER：面向特定领域场景的命名实体识别少样本提示优化	ECAI	2024-07	GitHub
通过适配器利用知识图谱将多语言LLM适配到低资源语言	KaLLM workshop	2024-07	GitHub
少展示、多指导：用定义和指南丰富提示以实现零样本NER	Arxiv	2024-07
大语言模型在临床命名实体识别的标记级别上表现不佳	AMIA	2024-08
GLiNER多任务：适用于各类信息抽取任务的通用轻量级模型	Arxiv	2024-08
利用大语言模型进行开放NER的检索增强指令微调	Arxiv	2024-06	GitHub
超越边界：学习跨数据集和语言的通用实体分类体系，用于开放命名实体识别	Arxiv	2024-06	GitHub
对抗少样本命名实体识别中的重复训练与样本依赖问题	IEEE Access	2024-06	GitHub
llmNER：（零\|少）样本命名实体识别，挖掘大语言模型的力量	Arxiv	2024-06	GitHub
评估中文开源大语言模型在信息抽取任务中的性能	Arxiv	2024-06

数据集

* 表示该数据集为多模态。# 表示类别或句子的数量。

任务	数据集	领域	#类别	#训练	#验证	#测试	链接
命名实体识别 (NER)	ACE04	新闻	7	6202	745	812	链接
	ACE05	新闻	7	7299	971	1060	链接
	BC5CDR	生物医学	2	4560	4581	4797	链接
	Broad Twitter Corpus	社交媒体	3	6338	1001	2000	链接
	CADEC	生物医学	1	5340	1097	1160	链接
	CoNLL03	新闻	4	14041	3250	3453	链接
	CoNLLpp	新闻	4	14041	3250	3453	链接
	CrossNER-AI	人工智能	14	100	350	431	链接
	CrossNER-Literature	文学	12	100	400	416
	CrossNER-Music	音乐	13	100	380	465
	CrossNER-Politics	政治	9	199	540	650
	CrossNER-Science	科学	17	200	450	543
	FabNER	科学	12	9435	2182	2064	链接
	Few-NERD	通用	66	131767	18824	37468	链接
	FindVehicle	交通	21	21565	20777	20777	链接
	GENIA	生物医学	5	15023	1669	1854	链接
	HarveyNER	社交媒体	4	3967	1301	1303	链接
	MIT-Movie	社交媒体	12	9774	2442	2442	链接
	MIT-Restaurant	社交媒体	8	7659	1520	1520	链接
	MultiNERD	维基百科	16	134144	10000	10000	链接
	NCBI	生物医学	4	5432	923	940	链接
	OntoNotes 5.0	通用	18	59924	8528	8262	链接
	ShARe13	生物医学	1	8508	12050	9009	链接
	ShARe14	生物医学	1	17404	1360	15850	链接
	SNAP^*	社交媒体	4	4290	1432	1459	链接
	Temporal Twitter Corpus (TTC)	社交媒体	3	10000	500	1500	链接
	Tweebank-NER	社交媒体	4	1639	710	1201	链接
	Twitter2015^*	社交媒体	4	4000	1000	3357	链接
	Twitter2017^*	社交媒体	4	3373	723	723	链接
	TwitterNER7	社交媒体	7	7111	886	576	链接
	WikiDiverse^*	新闻	13	6312	755	757	链接
	WNUT2017	社交媒体	6	3394	1009	1287	链接
关系抽取 (RE)	ACE05	新闻	7	10051	2420	2050	链接
	ADE	生物医学	1	3417	427	428	链接
	CoNLL04	新闻	5	922	231	288	链接
	DocRED	维基百科	96	3008	300	700	链接
	MNRE^*	社交媒体	23	12247	1624	1614	链接
	NYT	新闻	24	56196	5000	5000	链接
	Re-TACRED	新闻	40	58465	19584	13418	链接
	SciERC	科学	7	1366	187	397	链接
	SemEval2010	通用	19	6507	1493	2717	链接
	TACRED	新闻	42	68124	22631	15509	链接
	TACREV	新闻	42	68124	22631	15509	链接
事件抽取 (EE)	ACE05	新闻	33/22	17172	923	832	链接
	CASIE	网络安全	5/26	11189	1778	3208	链接
	GENIA11	生物医学	9/11	8730	1091	1092	链接
	GENIA13	生物医学	13/7	4000	500	500	链接
	PHEE	生物医学	2/16	2898	961	968	链接
	RAMS	新闻	139/65	7329	924	871	链接
	WikiEvents	维基百科	50/59	5262	378	492	链接

星标历史

Awesome-LLM4IE-Papers 快速上手指南

Awesome-LLM4IE-Papers 并非一个可直接运行的软件工具或 Python 库，而是一个学术论文与代码资源的精选合集。它整理了基于大语言模型（LLM）进行生成式信息抽取（Information Extraction, IE）的前沿研究，涵盖命名实体识别（NER）、关系抽取、事件抽取等任务。

本指南旨在帮助开发者快速获取该资源列表，并找到相关论文对应的代码仓库进行使用。

环境准备

由于本项目主要是论文列表和链接索引，无需安装特定的运行时环境或依赖包。您只需要具备以下基础条件即可开始探索：

操作系统：Windows, macOS 或 Linux 均可。
必备工具：
- 现代浏览器（用于查看论文详情）。
- Git（用于克隆本仓库及下属论文的代码仓库）。
- Python 环境（用于运行具体论文提供的代码，版本要求视具体子项目而定，通常建议 Python 3.8+）。
网络环境：
- 访问 GitHub 可能需要稳定的网络连接。
- 部分论文链接（如 ACL Anthology, arXiv）在国内访问速度尚可，若遇阻可尝试学术镜像。

安装步骤（获取资源）

要使用此资源库，只需将其克隆到本地即可。

打开终端或命令行工具。
克隆仓库：使用以下命令将项目下载到本地：
```
git clone https://github.com/derongxu/Awesome-LLM4IE-Papers.git
```
国内加速方案（如果官方源速度慢）： 您可以使用 Gitee 镜像（如果有）或通过代理加速克隆：
```
# 示例：使用镜像站加速克隆（需确保镜像存在）
git clone https://gitee.com/mirrors/Awesome-LLM4IE-Papers.git
```
(注：若暂无官方 Gitee 镜像，建议使用 git clone 配合网络代理，或直接在线浏览 GitHub 页面)
进入目录：
```
cd Awesome-LLM4IE-Papers
```
查看更新日志（可选）：查看最近更新的论文列表：
```
cat ./update_new_papers_list
```

基本使用

本项目的核心用法是查阅表格找到您感兴趣的论文，然后跳转到对应的 Code 列提供的 GitHub 仓库进行实际部署。

1. 浏览论文列表

在本地用 Markdown 阅读器打开 README.md，或直接访问 GitHub 页面。内容按以下结构分类：

任务类型：命名实体识别 (NER)、关系抽取、事件抽取、通用信息抽取。
技术方法：监督微调 (SFT)、少样本 (Few-shot)、零样本 (Zero-shot)、数据增强、提示词设计等。
特定领域：生物医学、法律、天文等。

2. 获取具体模型代码（示例）

假设您对 "UniversalNER"（一个用于开放命名实体识别的通用模型）感兴趣：

在 README 的 Named Entity Recognition 表格中找到该行。
点击 Code 列的 [GitHub](https://github.com/universal-ner/universal-ner) 链接。
进入该子项目的仓库后，按照其独立的 README 进行安装和运行。

典型子项目运行流程（以 UniversalNER 为例）：

# 1. 克隆具体模型的代码仓库
git clone https://github.com/universal-ner/universal-ner.git
cd universal-ner

# 2. 创建虚拟环境并安装依赖 (具体依赖参考子项目 requirements.txt)
pip install -r requirements.txt

# 3. 下载预训练模型或数据 (参考子项目说明)
# 4. 运行推理或训练脚本
python inference.py --input "Your text here"

3. 引用文献

如果您在研究中使用了该合集整理的思路或数据，请在您的论文中引用核心综述文章：

@article{xu2024large,
  title={Large language models for generative information extraction: A survey},
  author={Xu, Derong and Chen, Wei and Peng, Wenjun and Zhang, Chao and Xu, Tong and Zhao, Xiangyu and Wu, Xian and Zheng, Yefeng and Wang, Yang and Chen, Enhong},
  journal={Frontiers of Computer Science},
  volume={18},
  number={6},
  pages={186357},
  year={2024},
  publisher={Springer}
}

提示：发现遗漏的重要论文或有修正建议，可通过邮件联系作者 (derongxu@mail.ustc.edu.cn)。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

使用场景

没有 Awesome-LLM4IE-Papers 时

使用 Awesome-LLM4IE-Papers 后

运行环境要求

快速开始

令人惊叹的LLM4IE论文集

📒 目录

💡 新闻

信息抽取任务

命名实体识别

实体类型标注

实体识别与类型标注

关系抽取

关系分类

关系三元组

关系严格

事件抽取

事件检测

事件论元抽取

事件检测与论元抽取

通用信息抽取

基于自然语言大模型

基于代码大模型

信息抽取技术

有监督微调

少样本

少样本微调

上下文学习

零样本

零样本提示

跨领域学习

跨类型学习

数据增强

数据标注

知识检索

逆向生成

用于指令微调的合成数据集

提示词设计

问答

思维链

自我改进

约束解码生成

特定领域

评估与分析

项目与工具包

最新更新的论文

2024/09/04

数据集

星标历史

Awesome-LLM4IE-Papers 快速上手指南

环境准备

安装步骤（获取资源）

基本使用

1. 浏览论文列表

2. 获取具体模型代码（示例）

3. 引用文献

相似工具推荐

openclaw

everything-claude-code

LLMs-from-scratch

spec-kit

NextChat

ML-For-Beginners