nlp-paper
nlp-paper 是一个专注于自然语言处理(NLP)领域的开源论文清单项目,旨在为研究者和开发者提供一份系统化、分类清晰的学术资源导航。面对 NLP 领域论文爆发式增长、检索难度大的痛点,nlp-paper 将海量文献按主题精细划分为 BERT 系列、Transformer 架构、迁移学习、文本摘要、情感分析、机器翻译及大语言模型(LLM)等二十余个核心板块。
该项目不仅收录了如 BERT、RoBERTa、ALBERT 等奠基性经典论文,还涵盖了针对注意力机制分析、模型压缩、多模态融合及特定下游任务的前沿研究成果。其独特亮点在于结构化的知识整理方式,帮助用户快速定位从基础理论到具体应用(如问答系统、命名实体识别)的关键文献,极大提升了文献调研效率。
nlp-paper 特别适合高校科研人员、算法工程师以及希望深入理解 NLP 技术演进的学生使用。无论是为了追踪最新学术动态,还是为工程项目寻找理论支撑,这份清单都能成为得力的助手。它以开放共享的精神,降低了获取高质量学术信息的门槛,是进入自然语言处理世界不可或缺的参考指南。
使用场景
某金融科技公司算法团队正着手构建新一代智能客服系统,急需调研最新的自然语言处理(NLP)论文以优化意图识别与情感分析模块。
没有 nlp-paper 时
- 检索效率低下:研究人员需在 arXiv、ACL Anthology 等多个平台分散搜索,耗费数天才能拼凑出关于 BERT 变体或情感分析的文献列表。
- 分类体系混乱:找到的论文缺乏统一标签,难以快速区分哪些属于“迁移学习”,哪些专攻“槽位填充”或“指代消解”,导致技术选型方向模糊。
- 遗漏关键成果:由于缺乏系统性整理,极易错过如 RoBERTa 优化策略或特定领域(Domain specific)的最新突破性研究,影响模型基线性能。
- 复现成本高昂:部分论文链接失效或缺少对应的代码仓库指引,团队在验证算法可行性上走了许多弯路。
使用 nlp-paper 后
- 一站式获取资源:团队直接通过 nlp-paper 的结构化目录,几分钟内即可锁定"Sentiment Analysis"和"QA MC Dialogue"等核心板块的全部高质论文。
- 精准技术映射:利用其细致的子分类(如 Word segmentation parsing NER、Relation extraction),迅速将业务需求与具体学术成果对应,明确了从 BERT 到 ALBERT 的演进路线。
- 前沿动态同步:借助涵盖 LLM、多模态及模型压缩等最新板块,及时引入了适合部署的轻量化模型方案,显著提升了系统响应速度。
- 链路完整可溯:每条记录均附带权威会议来源及 ArXiv 链接,部分还关联 GitHub 项目,大幅缩短了从理论调研到代码复现的周期。
nlp-paper 将碎片化的学术海洋转化为结构清晰的导航图,让研发团队能从繁琐的文献挖掘中解脱,专注于核心算法的创新与落地。
运行环境要求
未说明
未说明

快速开始
自然语言处理论文
自然语言处理论文列表
目录
- Bert系列
- Transformer系列
- 迁移学习
- 文本摘要
- 情感分析
- 问答
- 机器翻译
- 综述论文
- 下游任务
- 生成
- 质量评估器
- 改进方法(多任务、掩码策略等)
- 探针
- 多语言
- 非英语模型
- 领域特定
- 多模态
- 模型压缩
- 大语言模型
- 其他
Bert系列
- BERT:用于语言理解的深度双向Transformer预训练 - NAACL 2019)
- ERNIE 2.0:持续预训练的语言理解框架 - arXiv 2019)
- StructBERT:将语言结构融入预训练以实现深度语言理解 - arXiv 2019)
- RoBERTa:一种鲁棒优化的BERT预训练方法 - arXiv 2019)
- ALBERT:用于自监督语言表示学习的轻量级BERT - arXiv 2019)
- 用于自然语言理解的多任务深度神经网络 - arXiv 2019)
- BERT学到了关于语言结构的什么? (ACL2019)
- 多头自注意力分析:专用头负责主要工作,其余可剪枝 (ACL2019) [github]
- 芝麻开门:深入BERT的语言知识 (ACL2019 WS)
- Transformer语言模型中注意力结构的分析 (ACL2019 WS)
- BERT关注的是什么?BERT注意力分析 (ACL2019 WS)
- BERT中的注意力头是否跟踪句法依赖关系?
- 黑盒遇见黑盒:神经语言模型与大脑的表征相似性和稳定性分析 (ACL2019 WS)
- 从BERT表示中诱导句法树 (ACL2019 WS)
- Transformer模型中注意力的多尺度可视化 (ACL2019 Demo)
- BERT几何结构的可视化与测量
- 上下文相关的词表示到底有多上下文化?比较BERT、ELMo和GPT-2嵌入的几何结构 (EMNLP2019)
- 十六个头真的比一个好吗? (NeurIPS2019)
- 作为Transformer模型解释的自注意力的有效性探讨
- BERT有效性的可视化与理解 (EMNLP2019)
- 跨NLP任务的注意力可解释性
- 揭示BERT的黑暗秘密 (EMNLP2019)
- 探究BERT对语言的认知:使用NPIs的五种分析方法 (EMNLP2019)
- Transformer中表示的自下而上的演化:一项结合机器翻译和语言建模目标的研究 (EMNLP2019)
- BERT学入门:我们所知道的关于BERT工作原理的一切
- NLP模型知道数字吗?嵌入中的数字能力探测 (EMNLP2019)
- BERT如何回答问题?Transformer表示的逐层分析 (CIKM2019)
- 你在看什么呢?在问答任务中通过DeepLIFT提升BERT注意力
- BERT从多项选择阅读理解数据集中学到了什么?
- 预训练Transformer的校准
- exBERT:探索Transformer模型中学习到的表示的可视化分析工具 [github]
- MobileBERT:适用于资源受限设备的紧凑型任务无关BERT [github]
- 测量并减少预训练模型中的性别相关性
- DEBERTA:解耦注意力的解码增强型BERT [github] (ACL2021)
- STRUCTBERT:将语言结构融入预训练以实现深度语言理解 (ACL2021)
- SpanBERT:通过表示和预测跨度来改进预训练 [github] (ACL2021)
Transformer系列
- 注意力就是一切 - arXiv 2017年
- Transformer-XL:超越固定长度上下文的注意力语言模型 - arXiv 2019年
- 通用Transformer - ICLR 2019年
- 探索统一文本到文本Transformer迁移学习的极限 - arXiv 2019年
- Reformer:高效的Transformer - ICLR 2020年
- Transformer中的自适应注意力范围(ACL2019)
- Transformer-XL:超越固定长度上下文的注意力语言模型(ACL2019)[github]
- 使用稀疏Transformer生成长序列
- 自适应稀疏Transformer(EMNLP2019)
- 用于长距离序列建模的压缩Transformer
- 进化版Transformer(ICML2019)
- Reformer:高效的Transformer(ICLR2020)[github]
- GRET:全局表示增强型Transformer(AAAI2020)
- 节食版Transformer [github]
- 基于路由的高效内容稀疏注意力Transformer
- BP-Transformer:通过二元划分建模长距离上下文
- 构建开放域聊天机器人的方法
- Longformer:长文档Transformer
- UnifiedQA:用单一问答系统跨越格式边界 [github]
- Big Bird:适用于更长序列的Transformer
- Longformer:长文档Transformer [github](ACL2021)
- REFORMER:高效的Transformer(ACL2021)
- Linformer:线性复杂度的自注意力机制(ACL2021)
- 重新思考Performers中的注意力机制 [github](ICLR2021)
- Big Bird:适用于更长序列的Transformer(ACL2021)
迁移学习
- 深度上下文化词表示 - NAACL 2018年
- 面向文本分类的通用语言模型微调 - ACL 2018年
- 通过生成式预训练提升语言理解能力 - Alec Radford
- BERT:面向语言理解的深度双向Transformer预训练 - NAACL 2019年
- 基于完形填空的自注意力网络预训练 - arXiv 2019年
- 面向自然语言理解和生成的统一语言模型预训练 - arXiv 2019年
- MASS:面向语言生成的掩码序列到序列预训练 - ICML 2019年
- MPNet:面向语言理解的掩码与置换预训练[github]
- UNILMv2:用于统一语言模型预训练的伪掩码语言模型[github]
- AdapterFusion:用于迁移学习的非破坏性任务组合(ACL2022)
- 前缀调优:优化连续提示以进行生成(ACL2022)
- LORA:大型语言模型的低秩适配(ACL2022)
文本摘要
- 位置编码控制输出序列长度 - Sho Takase(2019年)
- 微调BERT进行抽取式摘要 - Yang Liu(2019年)
- 语言模型是无监督的多任务学习者 - Alec Radford(2019年)
- 使用不一致性损失的抽取式和抽象式摘要统一模型 - Wan-Ting Hsu(2018年)
- 面向长文档抽象式摘要的话语感知注意力模型 - Arman Cohan(2018年)
- 通过总结长序列生成维基百科 - Peter J. Liu(2018年)
- 直奔主题:使用指针-生成器网络进行摘要 - Abigail See(2017年)
- 面向句子摘要的神经注意力模型 - Alexander M. Rush(2015年)
- PEGASUS:通过提取间隔句进行抽象式摘要的预训练(ACL2021)
- 使用BART进行抽象式文本摘要(ACL2021)
- CTRLSUM:迈向通用可控文本摘要(ACL2021)
情感分析
- 用于自然语言理解的多任务深度神经网络 - 刘晓东(2019)
- 基于AS胶囊网络的方面级情感分析 - 王业权(2019)
- 文本预处理在神经网络架构中的作用: 文本分类与情感分析的评估研究 - 何塞·卡马乔-科利亚多斯(2018)
- 在翻译中学习:上下文化词向量 - 布莱恩·麦肯(2018)
- 面向文本分类的通用语言模型微调 - 杰里米·霍华德(2018)
- 带有循环神经网络滤波器的卷积神经网络 - 杨毅(2018)
- 通过动态路由进行信息聚合以实现序列编码 - 龚晶晶(2018)
- 学习生成评论并发现情感 - 亚历克·拉德福德(2017)
- 一种结构化的自注意力句子嵌入 - 林周涵(2017)
问答系统
- 语言模型是无监督的多任务学习者 - 亚历克·拉德福德(2019)
- 通过生成式预训练提升语言理解能力 - 亚历克·拉德福德(2018)
- 用于机器阅读理解的双向注意力流 - 徐珉俊(2018)
- 用于机器阅读理解的强化记忆读者 - 胡明浩(2017)
- 用于文本处理的神经变分推断 - 缪一书(2015)
- UnifiedQA:用单一问答系统跨越格式边界 [github] (ACL2021)
- REALM:检索增强型语言模型预训练 (ACL2021)
机器翻译
综述论文
下游任务
问答多选对话
- 自然问题数据集的 BERT 基线
- MultiQA:阅读理解中泛化与迁移的实证研究(ACL2019)
- 阅读理解中的无监督领域适应
- BERTQA——强化版注意力机制
- 一种用于需要离散推理的阅读理解的多类型多跨度网络(EMNLP2019)
- SDNet:面向会话问答的基于上下文注意力的深度网络
- 通过推理链实现多跳问答
- 选择、回答并解释:多文档上的可解释多跳阅读理解
- 面向多跳问答的多步实体中心信息检索(EMNLP2019 WS)
- 使用 BERTserini 的端到端开放域问答(NAALC2019)
- 弱监督开放域问答中的潜在检索(ACL2019)
- 多段落 BERT:一种用于开放域问答的全局归一化 BERT 模型(EMNLP2019)
- 学习在维基百科图上检索推理路径以进行问答(ICLR2020)
- 为机器阅读理解学习提出无法回答的问题(ACL2019)
- 通过完形填空式翻译实现无监督问答(ACL2019)
- 基于强化学习的图到序列模型用于自然问题生成
- 一种基于循环 BERT 的问题生成模型(EMNLP2019 WS)
- 通过学会提问来学会回答:融合 GPT-2 和 BERT 的优势
- 利用丰富知识增强预训练语言表示以用于机器阅读理解(ACL2019)
- 通过多任务学习将关系知识融入常识阅读理解(CIKM2019)
- SG-Net:语法引导的机器阅读理解
- MMM:用于多选阅读理解的多阶段多任务学习
- Cosmos QA:具有情境化常识推理的机器阅读理解(EMNLP2019)
- ReClor:一个需要逻辑推理的阅读理解数据集(ICLR2020)
- 通过后验正则化结合语言学约束实现鲁棒阅读理解
- BAS:一种使用 BERT 语言模型的答案选择方法
- 战胜 AI:探究阅读理解中的对抗性人工标注
- 一种简单而有效的方法,将多轮对话上下文与 BERT 结合用于会话式机器阅读理解(ACL2019 WS)
- FlowDelta:为会话式机器阅读理解建模推理中的信息流增益(ACL2019 WS)
- 带有历史答案嵌入的 BERT 用于会话问答(SIGIR2019)
- GraphFlow:利用图神经网络捕捉对话流以进行会话式机器阅读理解(ICML2019 WS)
- 超越仅英语的阅读理解:针对保加利亚语的零样本多语言迁移实验(RANLP2019)
- XQA:跨语言开放域问答数据集(ACL2019)
- 跨语言机器阅读理解(EMNLP2019)
- 基于多语言语言表示模型的跨语言迁移学习实现零样本阅读理解
- 应用于对话代理的格式化文本多语言问答
- BiPaR:用于小说的多语言和跨语言阅读理解的双语平行数据集(EMNLP2019)
- MLQA:评估跨语言抽取式问答
- 探究先验知识对挑战性中文机器阅读理解的作用(TACL)
- SberQuAD——俄语阅读理解数据集:描述与分析
- 给 BERT 装上计算器:通过阅读理解寻找运算和参数(EMNLP2019)
- BERT-DST:基于 Transformer 双向编码器表示的可扩展端到端对话状态跟踪(Interspeech2019)
- 对话状态跟踪:一种基于神经网络的阅读理解方法
- 一种简单而有效的 BERT 模型,适用于资源受限系统的对话状态跟踪(ICASSP2020)
- 针对模式引导的零样本对话状态跟踪微调 BERT
- 面向目标的多任务 BERT 对话状态跟踪器
- 用于响应选择的领域自适应训练 BERT
- BERT 进入法学院:量化访问大型法律语料库在合同理解方面的竞争优势
- 自然问题数据集的 BERT 基线
- 维基百科巫师
- BlenderBot 3:一款持续∗学习并负责任地互动的已部署对话代理(ACL2022)
实体填充
- 用于联合意图分类和实体填充的 BERT
- 多语言意图识别与实体填充的联合 BERT 模型
- 语言理解深度学习方法的比较(Interspeech2019)
分析
- 基于话语上下文感知自注意力的细粒度信息状态分类
- 以挖掘规则作为弱监督的神经方面与观点术语抽取 (ACL2019)
- 基于BERT的词汇替换 (ACL2019)
- 评估BERT的句法能力
- BERT是否一致?通过一致性关系评估对结构依赖性的理解
- 用于关系抽取和语义角色标注的简单BERT模型
- LIMIT-BERT:语言学启发的多任务BERT
- 一种简单的基于BERT的词汇简化方法
- 基于BERT的多头架构用于语法错误修正 (ACL2019 WS)
- 迈向低监督的基于BERT的语法错误修正
- 基于BERT的阿拉伯社交媒体作者画像
- 社交媒体中基于句子级别的BERT及年龄和性别多任务学习
- 评估摘要式文本摘要的事实一致性
- NegBERT:用于否定检测与作用域解析的迁移学习方法
- xSLUE:跨风格语言理解与评估的基准及分析平台
- TabFact:用于基于表格的事实核查的大规模数据集
- 快速适配BERT用于领域特定商业文档的信息抽取
- LAMBERT:利用BERT进行信息抽取的版面感知语言建模
- 基于上下文嵌入的序列标注方法提取学术论文中的关键短语 (ECIR2020) [github]
- 基于跨度特征表示的关键短语提取
- 你所说的BERT是什么意思?评估BERT作为分布语义模型
词分割、句法分析、NER
- BERT与中文分词
- 基于多准则学习的快速且准确的神经网络中文分词
- 为新十年建立强大基线:使用BERT进行序列标注、句法与语义分析
- 在54种语言上评估上下文嵌入在词性标注、词形还原和依存句法分析中的表现
- NEZHA:用于中文语言理解的神经上下文表示
- 过渡型与图型依存句法分析中的深度上下文词嵌入——重温两种分析器的故事 (EMNLP2019)
- 词性标注对于神经网络依存句法分析来说是必要的还是有帮助的?
- 将句法分析作为预训练 (AAAI2020)
- 跨语言BERT转换用于零样本依存句法分析
- 递归式非自回归图到图Transformer用于依存句法分析,结合迭代精炼
- 命名实体识别——是否存在天花板? (CoNLL2019)
- 用于命名实体识别的统一MRC框架
- 利用预训练语言模型训练用于低资源实体标注的紧凑模型
- 通过真大小写预训练实现鲁棒的命名实体识别 (AAAI2020)
- LTP:基于Bert-CRF的命名实体识别的新主动学习策略
- MT-BioNER:使用深度双向Transformer进行生物医学命名实体识别的多任务学习
- 使用BERT-CRF进行葡萄牙语命名实体识别
- 迈向通用语言的命名实体识别,借助BERT
代词共指消解
- 利用BERT解决性别相关的歧义代词问题 (ACL2019 WS)
- 匿名化BERT:应对性别相关代词消解挑战的一种增强方法 (ACL2019 WS)
- 使用BERT和抽取式问答形式解决性别相关代词消解问题 (ACL2019 WS)
- MSnet:基于BERT的性别相关代词消解网络 (ACL2019 WS)
- 填补空白:利用BERT进行代词消解 (ACL2019 WS)
- 关于GAP共指消解共享任务:来自第三名解决方案的见解 (ACL2019 WS)
- 再看句法:用于性别相关歧义代词消解的关系图卷积网络 (ACL2019 WS)
- BERT掩码语言模型用于共指消解 (ACL2019 WS)
- 通过实体对等进行共指消解 (ACL2019)
- BERT用于共指消解:基线与分析 (EMNLP2019) [github]
- WikiCREM:用于共指消解的大规模无监督语料库 (EMNLP2019)
- 省略与共指消解作为问答问题
- 将共指消解视为基于查询的跨度预测
- 基于多任务学习的神经桥接参考消解
词义消歧
- GlossBERT:利用释义知识进行词义消歧的BERT模型(EMNLP 2019)
- 基于预训练上下文感知词表示的改进型词义消歧方法(EMNLP 2019)
- 使用BERT进行词义消歧
- 语言建模让一切更合理:通过WordNet传播表示以实现全覆盖的词义消歧(ACL 2019)
- BERT真的有意义吗?基于上下文嵌入的可解释词义消歧(KONVENS 2019)
情感分析
- 通过构建辅助句子利用BERT进行基于方面的情感分析(NAACL 2019)
- 用于评论阅读理解和基于方面的情感分析的BERT后训练(NAACL 2019)
- 利用BERT实现端到端的基于方面的情感分析(EMNLP 2019 WS)
- 适应还是落后:通过微调BERT语言模型实现领域自适应,用于方面—目标情感分类
- 日语中基于迁移学习的情感分析研究(ACL 2019)
- "掩码与填充":将掩码语言模型应用于情感迁移
- 基于BERT的对抗训练在基于方面的情感分析中的应用
- 利用BERT中间层进行基于方面的情感分析和自然语言推理
- 利用BERT中间层进行基于方面的情感分析和自然语言推理
关系抽取
- 填补空白:基于分布相似性的关系学习(ACL 2019)
- 基于BERT的多头选择用于联合实体—关系抽取(NLPCC 2019)
- 用实体信息丰富预训练语言模型以进行关系分类
- 基于跨度的联合实体与关系抽取及Transformer预训练
- 两步流程微调BERT用于DocRED
- 基于上下文感知跨度表示的实体、关系和事件抽取(EMNLP 2019)
知识图谱
- KG-BERT:用于知识图谱补全的BERT模型
- 语言模型能否作为知识库?(EMNLP 2019)[github]
- BERT还不是知识库(目前):无监督问答中的事实性知识与基于名称的推理
- 从BERT中诱导关系知识(AAAI 2020)
- 潜在关系语言模型(AAAI 2020)
- 预训练百科全书:弱监督知识预训练语言模型(ICLR 2020)
- 基于密集实体检索的零样本实体链接
- 通过简单的神经网络端到端实体链接研究BERT中的实体知识(CoNLL 2019)
- 通过建模潜在实体类型信息提升实体链接性能(AAAI 2020)
- PEL-BERT:协议实体链接的联合模型
- 我们如何知道语言模型了解什么?
- REALM:检索增强型语言模型预训练
文本分类
- 如何对BERT进行文本分类的微调?
- X-BERT:基于BERT的极端多标签文本分类
- DocBERT:用于文档分类的BERT
- 用知识图谱嵌入丰富BERT以用于文档分类
- 基于上下文感知词嵌入的论点分类与聚类(ACL 2019)
- BERT用于证据检索和主张验证
- 堆叠DeBERT:在不完整数据下对文本分类的全部关注
- 面向不平衡数据的代价敏感BERT用于可泛化句子分类
WSC WNLI NLI
- 探索无监督预训练和句子结构建模以应对维诺格拉德模式挑战
- 一种令人惊讶的稳健技巧用于维诺格拉德模式挑战
- WinoGrande:大规模的对抗性维诺格拉德模式挑战(AAAI 2020)
- 借助预训练句法分析器改进自然语言推理
- 对抗性NLI:自然语言理解的新基准
- 自然语言推理系统的对抗性分析(ICSC 2020)
- HypoNLI:探索自然语言推理中仅基于假设的偏见的人工模式(LREC 2020)
- 评估BERT在自然语言推理中的表现:以CommitmentBank为例(EMNLP 2019)
常识推理
- CommonsenseQA:一项针对常识知识的问答挑战(NAACL2019)
- HellaSwag:机器真的能完成你的句子吗?(ACL2019)[官网]
- 通过可迁移的BERT进行故事结局预测(IJCAI2019)
- 解释你自己!利用语言模型进行常识推理(ACL2019)
- 对齐、掩码与选择:一种将常识知识融入语言表示模型的简单方法
- 利用外部语言学知识指导无监督预训练
- 常识知识+BERT用于二级阅读理解能力测试
- BIG MOOD:将Transformer与显式常识知识关联起来
- 从预训练模型中挖掘常识知识(EMNLP2019)
- KagNet:面向常识推理的知识感知图网络(EMNLP2019)
- 破解上下文中的常识密码:理解深度上下文表示的常识推理能力(EMNLP2019研讨会)
- 大规模预训练的语言模型是否能成为更好的讲故事者?(CoNLL2019)
- PIQA:关于自然语言中物理常识的推理(AAAI2020)
- 评估预训练语言模型中的常识(AAAI2020)
- 为什么掩码神经语言模型仍然需要常识知识?
- 神经语言表示是否学习了物理常识?(CogSci2019)
抽取式摘要
- HIBERT:用于文档摘要的层次双向Transformer的文档级预训练(ACL2019)
- Deleter:利用BERT实现无监督的连续文本压缩
- 面向文本摘要的篇章意识神经抽取模型
- PEGASUS:基于抽取的间隔句进行抽象式摘要的预训练[github]
- 篇章意识神经抽取式文本摘要[github]
信息检索
- 使用BERT进行段落重排序
- 探究BERT在段落重排序中的成功与失败
- 理解BERT在排序中的行为
- 通过查询预测进行文档扩展
- CEDR:用于文档排名的上下文化嵌入(SIGIR2019)
- 借助上下文神经语言建模实现更深层次的文本理解以用于信息检索(SIGIR2019)
- 利用查询-问题相似度和基于BERT的查询-答案相关性进行FAQ检索(SIGIR2019)
- 多阶段文档排名与BERT
- REALM:检索增强型语言模型预训练
- 你能将多少知识塞进语言模型的参数里?[github]
- 开放域问答中的密集段落检索[github]
生成
- BERT有嘴,它必须说话:BERT作为马尔可夫随机场语言模型 (NAACL2019 WS)
- 基于预训练的自然语言生成用于文本摘要
- 使用预训练编码器进行文本摘要 (EMNLP2019) [github (原版)] [github (Hugging Face)]
- 抽象摘要的多阶段预训练
- PEGASUS:基于抽取式间隔句的抽象摘要预训练
- MASS:面向语言生成的掩码序列到序列预训练 (ICML2019) [github], [github]
- 面向自然语言理解与生成的统一语言模型预训练 [github] (NeurIPS2019)
- UniLMv2:用于统一语言模型预训练的伪掩码语言模型 [github]
- ProphetNet:为序列到序列预训练预测未来N-gram
- 在神经机器翻译中最大化利用BERT
- 利用预训练表示改进神经机器翻译
- 关于在神经机器翻译中使用BERT的研究 (EMNLP2019 WS)
- 将BERT融入神经机器翻译 (ICLR2020)
- 将预训练的BERT编码器复用于神经机器翻译
- 利用预训练检查点处理序列生成任务
- Mask-Predict:条件掩码语言模型的并行解码 (EMNLP2019)
- BART:面向自然语言生成、翻译和理解的去噪序列到序列预训练
- ERNIE-GEN:增强型多流预训练与微调框架,用于自然语言生成
- 通过预训练实现跨语言自然语言生成 (AAAI2020) [github]
- 面向神经机器翻译的多语言去噪预训练
- PLATO:具有离散潜在变量的预训练对话生成模型
- 自然语言生成的无监督预训练:文献综述
- 通过生成式预训练提升语言理解能力
- 语言模型是无监督的多任务学习者
- 语言模型是少样本学习者
质量评估器
- BERTScore:用BERT评估文本生成 (ICLR2020)
- 用BERT回归器评估机器翻译
- SumQE:基于BERT的摘要质量评估模型 (EMNLP2019)
- MoverScore:基于上下文嵌入和地球移动距离的文本生成评估 (EMNLP2019) [github]
- BERT作为教师:用于序列级奖励的上下文嵌入
修改(多任务、掩码策略等)
- 用于自然语言理解的多任务深度神经网络(ACL2019)
- 微软用于自然语言理解的多任务深度神经网络工具包
- BERT与PALs:用于多任务学习中高效适应的投影注意力层(ICML2019)
- 通过跨度抽取统一问答和文本分类
- ERNIE:融入信息实体的增强语言表示(ACL2019)
- ERNIE:通过知识融合增强表示
- ERNIE 2.0:面向语言理解的持续预训练框架(AAAI2020)
- 针对中文BERT的整词掩码预训练
- SpanBERT:通过表示和预测跨度改进预训练 [github]
- 空白语言模型
- 通过渐进式堆叠高效训练BERT(ICML2019)[github]
- RoBERTa:一种鲁棒优化的BERT预训练方法 [github]
- ALBERT:用于语言表示自监督学习的轻量级BERT(ICLR2020)
- ELECTRA:将文本编码器作为判别器而非生成器进行预训练(ICLR2020)[github] [blog]
- FreeLB:用于语言理解的增强对抗训练(ICLR2020)
- KERMIT:基于生成式插入的序列建模
- DisSent:从显式话语关系中学习句子表示(ACL2019)
- StructBERT:将语言结构融入预训练以实现深度语言理解(ICLR2020)
- 面向机器翻译和自然语言理解的注入句法的Transformer和BERT模型
- SenseBERT:为BERT注入语义
- 面向语言理解的语义感知BERT(AAAI2020)
- K-BERT:利用知识图谱赋能语言表示
- 知识增强的上下文词表示(EMNLP2019)
- KEPLER:知识嵌入与预训练语言表示的统一模型
- Sentence-BERT:使用暹罗BERT网络生成句子嵌入(EMNLP2019)
- SBERT-WK:通过解构基于BERT的词模型进行句子嵌入的方法
- 来自BERT的通用文本表示:一项实证研究
- 基于对称正则化的BERT用于成对语义推理
- 迁移微调:一个BERT案例研究(EMNLP2019)
- 通过词汇扩展改进多语言预训练模型(CoNLL2019)
- SesameBERT:无处不在的注意力机制
- 探索统一文本到文本转换Transformer的迁移学习极限 [github]
- SMART:通过原则性正则化优化实现对预训练自然语言模型的鲁棒高效微调
探针
- 用于在词表示中发现句法的结构探针(NAACL2019)
- 语境表示中的语言学知识与可迁移性(NAACL2019)[github]
- 探究不同NLP任务教会机器关于功能词理解的内容(*SEM2019)
- BERT重新发现经典NLP流水线(ACL2019)
- 探测神经网络对自然语言论据的理解(ACL2019)
- 破解语境常识代码:理解深度语境表示的常识推理能力(EMNLP2019 WS)
- 你所说的BERT是什么意思?评估BERT作为分布语义模型
- 对于神经语言模型而言,数量并不能带来高质量的句法(EMNLP2019)
- 预训练语言模型是否意识到短语的存在?用于语法归纳的简单而强大的基线(ICLR2020)
- oLMpics——关于语言模型预训练所捕捉的内容
- 你能将多少知识塞进语言模型的参数里?
- 我的问答模型知道些什么?利用专家知识设计可控探针
- 注意力并非解释(ACL2021)
多语言
- 基于自注意力机制和预训练的多语言句法分析 (ACL2019)
- 语言模型预训练 (NeurIPS2019) [github]
- 75种语言,1个模型:通用依存关系的通用句法分析 (EMNLP2019) [github]
- 利用预训练的多语言句子表示进行零样本依存句法分析 (EMNLP2019 WS)
- Beto、Bentz、Becas:BERT令人惊讶的跨语言有效性 (EMNLP2019)
- 多语言BERT到底有多“多语言”? (ACL2019)
- 多语言BERT究竟有多“语言中立”?
- 多语言BERT在语言生成方面是否流利?
- Unicoder:通过多任务跨语言预训练构建的通用语言编码器 (EMNLP2019)
- BERT并非中间语,以及分词偏见 (EMNLP2019 WS)
- 多语言BERT的跨语言能力:一项实证研究 (ICLR2020)
- 上下文词表示的多语言对齐 (ICLR2020)
- 单语表示的跨语言迁移性研究
- 大规模无监督跨语言表示学习
- 预训练语言模型中涌现的跨语言结构
- 单语预训练模型能否帮助跨语言分类?
- 基于BERT的完全无监督跨语言语义文本相似度度量,用于识别平行数据 (CoNLL2019)
- 那个“[MASK]”是什么?解读特定语言的BERT模型
- XTREME:一个大规模多语言多任务基准,用于评估跨语言泛化能力
- mT5:一个大规模多语言预训练的文本到文本转换器 (ACL2021) [github]
非英语语言模型
- CamemBERT:一款美味的法语语言模型
- FlauBERT:面向法语的无监督语言模型预训练
- 仅多语言还不够:芬兰语版BERT
- BERTje:荷兰版BERT模型
- RobBERT:基于RoBERTa的荷兰语语言模型
- 深度双向多语言Transformer在俄语中的适配
- AraBERT:基于Transformer的阿拉伯语理解模型
- PhoBERT:面向越南语的预训练语言模型
- CLUECorpus2020:用于语言模型预训练的大规模中文语料库
领域专用
- BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型
- 生物医学自然语言处理中的迁移学习:BERT和ELMo在十个基准数据集上的评估 (ACL2019 WS)
- 基于BERT的排序方法用于生物医学实体归一化
- PubMedQA:生物医学研究问答数据集 (EMNLP2019)
- 用于生物医学问答的预训练语言模型
- 如何预训练你的模型?不同预训练方式在生物医学问答中的比较
- ClinicalBERT:临床笔记建模与医院再入院预测
- 公开可用的临床BERT嵌入 (NAACL2019 WS)
- 利用基于注意力的深度学习模型结合BERT进行病程记录分类与关键词提取
- SciBERT:面向科学文本的预训练上下文嵌入 [github]
- PatentBERT:通过微调预训练BERT模型进行专利分类
多模态
- VideoBERT:视频与语言表示学习的联合模型(ICCV2019)
- ViLBERT:面向视觉-语言任务的、与任务无关的视觉语言表示预训练(NeurIPS2019)
- VisualBERT:一种简单高效的视觉与语言基线模型
- Selfie:用于图像嵌入的自监督预训练
- ImageBERT:基于大规模弱监督图文数据的跨模态预训练
- 用于时间表示学习的对比双向Transformer
- M-BERT:在BERT结构中注入多模态信息
- LXMERT:从Transformer中学习跨模态编码器表示(EMNLP2019)
- 文本中检测到的物体融合用于视觉问答(EMNLP2019)
- 用于视频问答的BERT表示(WACV2020)
- 面向图像字幕生成和VQA的统一视觉-语言预训练 [github]
- 面向视觉对话的大规模预训练:一种简单的最先进基线
- VL-BERT:通用视觉-语言表示的预训练(ICLR2020)
- Unicoder-VL:通过跨模态预训练构建的视觉与语言通用编码器
- UNITER:学习通用的图文表示
- 用于分类图像和文本的有监督多模态双变换器
- 弱监督有助于词-物体对齐的涌现,并提升视觉-语言任务性能
- BERT开箱即用即可“看见”:关于文本表示的跨模态可迁移性
- 结合测试时增强的BERT用于大规模视频片段分类(ICCV2019WS)
- SpeechBERT:面向端到端语音问答的跨模态预训练语言模型
- vq-wav2vec:离散语音表示的自监督学习
- 自监督预训练对语音识别的有效性
- 通过预训练理解语音语义
- 迈向基于深度预训练语言模型的端到端语音合成迁移学习
模型压缩
- 将BERT中的特定任务知识蒸馏到简单神经网络中
- 针对BERT模型压缩的耐心知识蒸馏(EMNLP2019)
- 用于序列标注的小型实用BERT模型(EMNLP2019)
- 剪枝基于BERT的问答模型
- TinyBERT:为自然语言理解蒸馏BERT [github]
- DistilBERT,BERT的蒸馏版本:更小、更快、更便宜且更轻(NeurIPS2019 WS)[github]
- 从内部表示进行知识蒸馏(AAAI2020)
- PoWER-BERT:加速BERT在分类任务中的推理
- WaLDORf:无浪费的语言模型蒸馏——以阅读理解为例
- 利用最优子词和共享投影实现极端语言模型压缩
- 忒修斯之船BERT:通过渐进式模块替换压缩BERT
- 压缩BERT:研究权重剪枝对迁移学习的影响
- MiniLM:面向任务无关压缩的预训练Transformer的深度自注意力蒸馏
- 大规模基于Transformer的模型压缩:以BERT为例
- 先大后小:重新思考模型规模以实现Transformer的高效训练与推理
- MobileBERT:通过渐进式知识迁移实现BERT的任务无关压缩
- Q-BERT:基于Hessian矩阵的超低精度量化BERT
- Q8BERT:量化为8位的BERT(NeurIPS2019 WS)
大语言模型
- 注意力就是一切
- 通过生成式预训练提升语言理解能力
- BERT:用于语言理解的深度双向Transformer预训练
- 语言模型是无监督的多任务学习者
- Megatron-LM:利用模型并行训练数十亿参数的语言模型
- 使用统一的文本到文本Transformer探索迁移学习的极限
- ZeRO:面向训练万亿参数模型的内存优化技术
- 神经语言模型的扩展定律
- 语言模型是少样本学习者
- Switch Transformer:通过简单高效的稀疏性扩展至万亿参数模型
- 对基于代码训练的大规模语言模型进行评估
- 多任务提示训练实现零样本任务泛化
- GLaM:基于专家混合的高效语言模型扩展
- WebGPT:结合浏览器辅助与人类反馈的问答系统
- 通过检索数万亿个词元改进语言模型
- 语言模型的扩展:训练Gopher的经验、方法与见解
- 思维链提示在大型语言模型中激发推理能力
- LaMDA:面向对话应用的语言模型
- 利用语言模型解决定量推理问题
- 使用Deep和Megatron训练Megatron-Turing NLG 530B,一个大规模生成式语言模型
- 通过人类反馈训练语言模型遵循指令
- PaLM:通过Pathways扩展语言建模
- 计算最优的大规模语言模型训练的实证分析
- OPT:开放的预训练Transformer语言模型
- 统一语言学习范式
- 大型语言模型的涌现能力
- 超越模仿游戏:量化并外推语言模型的能力
- 语言模型是通用接口
- 通过有针对性的人类判断改进对话代理的一致性
- 指令微调语言模型的扩展
- GLM-130B:一个开放的双语预训练模型
- 语言模型的全面评估
- BLOOM:一个拥有1760亿参数的开源多语言语言模型
- Galactica:一个面向科学领域的大型语言模型
- OPT-IML:从泛化的视角扩展语言模型指令元学习
- Flan系列:为有效指令微调设计数据与方法
- LLaMA:开放且高效的基座语言模型
- 语言并非一切:将感知与语言模型对齐
- PaLM-E:具身多模态语言模型
- GPT-4技术报告
- Pythia:一套用于分析训练与扩展过程中大型语言模型的工具
- 基于原则的自对齐语言模型:从零开始,在极少人类监督下实现
- PaLM 2技术报告
- RWKV:为Transformer时代重新发明RNN
- 直接偏好优化:你的语言模型其实是一个奖励模型
- Llama 2:开放的基座模型与微调后的聊天模型
- Mamba:具有选择性状态空间的线性时间序列建模
- TinyLlama:一个开源的小型语言模型
- 指令微调语言模型的扩展 [github] (ACL2023)
杂项
- jiant:用于通用文本理解模型研究的软件工具包 [github]
- 基于完形填空的自注意力网络预训练
- 通用语言智能的学习与评估
- 微调还是不微调?将预训练表示适配到多样化任务(ACL2019 WS)
- 在奇幻文字冒险游戏中学习说话与行动(EMNLP2019)
- 条件式BERT上下文增强
- 利用预训练Transformer模型进行数据增强
- 深度学习的大批量优化:76分钟内训练BERT(ICLR2020)
- Mixout:有效正则化方法,用于微调大规模预训练语言模型(ICLR2020)
- 从互信息最大化视角看语言表示学习(ICLR2020)
- BERT真的 robust吗?针对文本分类与蕴含任务的自然语言攻击(AAAI2020)
- 芝麻街上的窃贼!基于BERT的API模型提取(ICLR2020)
- Graph-Bert:学习图表示仅需注意力机制
- CodeBERT:面向编程与自然语言的预训练模型
- 预训练语言模型的微调:权重初始化、数据顺序与早停策略
- 将机器语言模型扩展至人类水平的语言理解
- Glyce:用于汉字表示的字形向量
- 回到未来——文本表示的序列对齐
- 利用BERT提升楔形文字的语言识别能力(NAACL2019 WS)
- BERT拥有道德指南针:提升机器的伦理与道德价值
- SMILES-BERT:用于分子性质预测的大规模无监督预训练(ACM-BCB2019)
- 关于预训练语言模型的可比较性
- Transformer:最先进的自然语言处理技术
- Jukebox:音乐生成模型
- WT5?!训练文本到文本模型以解释其预测
- TAPAS:通过预训练实现弱监督表格解析 [github]
- TABERT:面向文本与表格数据联合理解的预训练
作者
ChangWookJun / @changwookjun(changwookjun@gmail.com)
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。