Contrastive-Learning-NLP-Papers

571 61 简单 1 次阅读 2个月前语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Contrastive-Learning-NLP-Papers 是一个专注于自然语言处理（NLP）领域中对比学习技术的开源论文清单。当前 NLP 模型高度依赖有效的表示学习，而对比学习通过拉近相似样本、推远不相似样本的嵌入距离，显著提升了模型在监督和无监督场景下的表现。该项目旨在解决研究人员在面对海量文献时难以系统追踪对比学习最新进展的痛点，将分散的研究成果整合为结构清晰的知识库。

这份资源特别适合 NLP 领域的研究人员、算法工程师以及希望深入理解前沿技术的开发者使用。它不仅涵盖了从基础理论（如损失函数设计、采样策略）到具体应用（如文本分类、机器翻译、少样本学习）的全面分类，还独特地整理了教程、综述文章、技术演讲及博客解读。无论是想要快速入门的新手，还是寻求特定任务优化方案的专家，都能在此找到从“对比预训练”到“可解释性分析”等关键方向的高质量文献指引，是探索对比学习在文本领域应用价值的理想起点。

使用场景

某金融科技公司的算法团队正致力于构建一个高精度的“小额信贷欺诈检测系统”，需要在海量未标注的用户评论和聊天记录中挖掘潜在的欺诈模式。

没有 Contrastive-Learning-NLP-Papers 时

文献检索如大海捞针：团队成员分散在 arXiv、Google Scholar 等平台手动搜索，难以区分哪些论文真正适用于 NLP 领域的对比学习，大量时间浪费在筛选无关的计算机视觉（Vision）论文上。
技术选型缺乏依据：面对“数据增强策略”或“负样本采样”等关键模块，团队不清楚业界最新的最佳实践，只能凭经验盲目尝试，导致模型收敛慢且效果不稳定。
忽视零样本学习能力：由于未接触到关于"Data-Efficient Learning"的前沿研究，团队误以为必须收集数万条标注数据才能启动项目，严重拖慢了冷启动进度。
可解释性方案缺失：在业务方要求解释“为何判定为欺诈”时，团队找不到结合对比学习与可解释性（Interpretability）的相关文献，无法提供令人信服的证据。

使用 Contrastive-Learning-NLP-Papers 后

一站式精准导航：团队直接利用该清单中的分类目录（如"Contrastive Data Augmentation for NLP"），迅速锁定了针对文本任务的专用数据增强方法和损失函数，研发效率提升数倍。
站在巨人肩膀上创新：参考清单中收录的 NAACL 教程及核心论文，团队快速复现了先进的无监督预训练流程，显著提升了模型在少样本场景下的泛化能力。
突破数据瓶颈：受清单中"Zero-shot and Few-shot settings"相关研究的启发，团队成功利用少量标注样本结合大量无标签数据完成了训练，将项目上线周期缩短了两个月。
完善业务闭环：通过查阅"Interpretability and Explainability"板块，团队引入了新的分析视角，能够清晰展示异常文本在嵌入空间中的分布差异，满足了合规审计需求。

Contrastive-Learning-NLP-Papers 将碎片化的前沿研究转化为结构化的行动指南，帮助团队在数据稀缺场景下快速构建出兼具高性能与可解释性的风控模型。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个自然语言处理（NLP）对比学习相关的论文、教程和博客的列表合集，并非一个可直接运行的软件工具或代码库。README 中列出的链接指向外部资源（如 arXiv 论文、GitHub 项目、幻灯片等），因此本仓库本身没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户若需运行列表中提到的具体算法，需参考对应论文所附带的独立代码仓库的环境配置。

python未说明

Contrastive-Learning-NLP-Papers hero image

快速开始

对比学习在自然语言处理中的应用

当前的自然语言处理模型高度依赖于有效的表示学习算法。对比学习就是一种通过构建嵌入空间，使相似的数据样本对具有相近的表示，而不相似的样本则彼此远离的技术。它可以在有监督或无监督的场景下使用不同的损失函数，从而生成特定任务的表示或通用的表示。尽管对比学习最初是在视觉任务中取得成功的，但近年来关于对比学习在自然语言处理领域的研究论文数量不断增加。这些早期工作不仅在各种自然语言处理任务中带来了令人鼓舞的性能提升，还提供了诸如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置下的数据高效学习、可解释性和透明性等理想特性。

教程与综述
讲座、演示与博客
对比学习的基础
对比学习在NLP中的应用

1. 教程与综述

自然语言处理中的对比数据与对比学习 张睿、季阳峰、张悦、丽贝卡·J·帕索诺 NAACL 2022 教程 [官网] [幻灯片] [视频]
语言处理中对比预训练入门：方法、经验教训与展望 尼尔斯·雷特迈尔、伊莎贝尔·奥根斯坦 [PDF]
对比自监督学习综述 阿希什·贾伊斯瓦尔、阿什温·拉梅什·巴布、穆罕默德·扎基·扎德、黛芭普里亚·班纳吉、菲利亚·马凯东 [PDF]
自监督学习：自预测与对比学习 莉莲·王、金钟旭 NeurIPS 2021 教程 [官网][幻灯片]

2. 讲座、演示与博客

文本中的对比表示学习 陈丹琪 [幻灯片]
无论是用于学习还是评估，对比样本对都优于独立样本 马特·加德纳 [视频]
对比表示学习 莉莲·王 [博客]
理解对比学习 埃金·提乌 [博客]
对比自监督学习 安凯什·阿南德 [博客]
对比学习入门指南 罗希特·昆杜 [博客]
TensorFlow中的三元组损失与在线三元组挖掘 奥利维耶·莫因德罗 [博客]
理解排序损失、对比损失、间隔损失、三元组损失、铰链损失以及所有那些让人困惑的名称 劳尔·戈麦斯 [博客]
3分钟读懂对比学习 蔡太英 [博客]
揭秘噪声对比估计 杰克·莫里斯 [博客]
短语检索及其拓展 李镇赫 [博客]
对比学习的理解、改进与应用进展 丹·傅 [博客]
提升有监督对比学习中的迁移能力和鲁棒性 梅伊·陈 [博客]
TABi：面向开放域实体检索的类型感知双编码器 梅根·莱什琴斯基 [博客]

3. 对比学习的基础

对比学习目标

以判别方式学习相似度度量，并应用于人脸验证 Sumit Chopra、Raia Hadsell、Yann LeCun CVPR 2005 [pdf]
FaceNet：用于人脸识别和聚类的统一嵌入 Florian Schroff、Dmitry Kalenichenko 和 James Philbin CVPR 2015 [pdf]
通过提升结构化特征嵌入实现深度度量学习 Hyun Oh Song、Yu Xiang、Stefanie Jegelka、Silvio Savarese CVPR 2016 [pdf]
基于多分类 n 对损失的目标改进深度度量学习 Kihyuk Sohn NeurIPS 2016 [pdf]
噪声对比估计：一种适用于未归一化统计模型的新估计原理 Michael Gutmann 和 Aapo Hyvärinen AISTATS 2010 [pdf]
基于对比预测编码的表示学习 Aaron van den Oord、Yazhe Li、Oriol Vinyals arXiv [pdf]
通过保持类别邻域结构学习非线性嵌入 Ruslan Salakhutdinov、Geoff Hinton AISTATS 2007 [pdf]
利用软近邻损失分析与改进表示 Nicholas Frosst、Nicolas Papernot、Geoffrey Hinton ICML 2019 [pdf]

对比学习的采样策略

通过互信息估计与最大化学习深度表示 R Devon Hjelm、Alex Fedorov、Samuel Lavoie-Marchildon、Karan Grewal、Phil Bachman、Adam Trischler、Yoshua Bengio ICLR 2019 [pdf] [代码]
去偏对比学习 Ching-Yao Chuang、Joshua Robinson、Lin Yen-Chen、Antonio Torralba、Stefanie Jegelka NeurIPS 2020 [pdf]
使用难负样本的对比学习 Joshua Robinson、Ching-Yao Chuang、Suvrit Sra、Stefanie Jegelka ICLR 2021 [pdf]
监督对比学习 Prannay Khosla、Piotr Teterwak、Chen Wang、Aaron Sarna、Yonglong Tian、Phillip Isola、Aaron Maschinot、Ce Liu、Dilip Krishnan NeurIPS 2020 [pdf]
对抗自监督对比学习 Minseon Kim、Jihoon Tack、Sung Ju Hwang NeurIPS 2020 [pdf] [代码]
解耦对比学习 Chun-Hsiao Yeh、Cheng-Yao Hong、Yen-Chi Hsu、Tyng-Luh Liu、Yubei Chen、Yann LeCun arXiv [pdf] [代码]
用于无监督视觉表示学习的动量对比 Kaiming He、Haoqi Fan、Yuxin Wu、Saining Xie、Ross Girshick CVPR 2020 [pdf] [代码]
通过对比聚类分配进行视觉特征的无监督学习 Mathilde Caron、Ishan Misra、Julien Mairal、Priya Goyal、Piotr Bojanowski、Armand Joulin NeurIPS 2020 [pdf] [代码]
对比多视图编码 Yonglong Tian、Dilip Krishnan、Phillip Isola arXiv 2019 [pdf] [代码]
无监督表示的原型对比学习 Junnan Li、Pan Zhou、Caiming Xiong、Steven C.H. Hoi ICLR 2021 [pdf] [代码]

对比学习最显著的应用

高效地在向量空间中估计词表示 Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean arXiv [pdf]
一种用于视觉表示对比学习的简单框架 Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton ICML 2020 [pdf] [代码]
从自然语言监督中学习可迁移的视觉模型 Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger、Ilya Sutskever arXiv [pdf] [代码]

对比学习分析

对比无监督表征学习的理论分析 Sanjeev Arora、Hrishikesh Khandeparkar、Mikhail Khodak、Orestis Plevrakis、Nikunj Saunshi ICML 2019 [pdf]
通过超球面上的一致性和对齐性理解对比表征学习 Tongzhou Wang、Phillip Isola ICML 2020 [pdf] [代码]
什么样的数据增强才是对比学习中好的视图？ Yonglong Tian、Chen Sun、Ben Poole、Dilip Krishnan、Cordelia Schmid、Phillip Isola NeurIPS 2020 [pdf] [代码]
揭秘对比自监督学习：不变性、数据增强与数据集偏差 Senthil Purushwalkam、Abhinav Gupta NeurIPS 2020 [pdf]
对比学习中什么不应该被对比？ Tete Xiao、Xiaolong Wang、Alexei A. Efros、Trevor Darrell ICLR 2021 [pdf]
剖析监督对比学习 Florian Graf、Christoph D. Hofer、Marc Niethammer、Roland Kwitt ICML 2021 [pdf] [代码]
关于对比学习视觉表征迁移性的广泛研究 Ashraful Islam、Chun-Fu Chen、Rameswar Panda、Leonid Karlinsky、Richard Radke、Rogerio Feris ICCV 2021 [pdf]
对比学习中的投毒与后门攻击 Nicholas Carlini、Andreas Terzis ICLR 2022 [pdf]
理解对比自监督学习中的维度坍塌 Li Jing、Pascal Vincent、Yann LeCun、Yuandong Tian ICLR 2022 [pdf]
基于谱对比损失的自监督深度学习的可证明保证 Jeff Z. HaoChen、Colin Wei、Adrien Gaidon、Tengyu Ma NeurIPS 2021 [pdf]
超越可分性：分析对比表征对相关子群体的线性迁移能力 Jeff Z. HaoChen、Colin Wei、Ananya Kumar、Tengyu Ma arXiv 2022 [pdf]
连接而非坍塌：解释用于无监督域适应的对比学习 Kendrick Shen、Robbie Jones、Ananya Kumar、Sang Michael Xie、Jeff Z. HaoChen、Tengyu Ma、Percy Liang arXiv 2022 [pdf]
完美平衡：提升监督对比学习的迁移性和鲁棒性 Mayee F. Chen、Daniel Y. Fu、Avanika Narayan、Michael Zhang、Zhao Song、Kayvon Fatahalian、Christopher Ré arXiv [pdf]
对比损失的有趣性质 Ting Chen、Calvin Luo、Lala Li NeurIPS 2021 [pdf] [代码]
重新思考InfoNCE：你需要多少负样本？ Chuhan Wu、Fangzhao Wu、Yongfeng Huang arXiv [pdf]

图对比学习

带有数据增强的图对比学习 Yuning You、Tianlong Chen、Yongduo Sui、Ting Chen、Zhangyang Wang、Yang Shen NeurIPS 2020 [pdf] [代码]
图上的多视图对比表征学习 Kaveh Hassani、Amir Hosein Khasahmadi ICML 2020 [pdf]
深度图对比表征学习 Yanqiao Zhu、Yichen Xu、Feng Yu、Qiang Liu、Shu Wu、Liang Wang ICML图表示学习及更广泛领域研讨会 [pdf] [代码]

4. NLP领域的对比学习

针对自然语言处理的对比数据增强

利用反事实增强数据学习差异的本质 迪万尚·考希克、爱德华·霍维、扎卡里·C·利普顿 ICLR 2020 [pdf] [代码]
NL-Augmenter：一种任务敏感型自然语言增强框架 考斯图布·D·多勒、瓦伦·甘加尔、塞巴斯蒂安·格尔曼、阿德什·古普塔、李振豪、萨德·马哈穆德、阿比纳亚·马亨德兰、西蒙·米耶、阿希什·斯里瓦斯塔瓦、萨姆森·谭、吴彤爽、贾莎·索尔-迪克斯坦、崔镇浩、爱德华·霍维、翁德雷·杜塞克、塞巴斯蒂安·鲁德尔、萨詹特·阿南德、纳根德·阿内贾、拉宾·班贾德、丽莎·巴特、汉娜·贝恩克、伊恩·贝尔洛特-阿特韦尔、康纳·博伊尔、卡罗琳·布伦、马尔科·安东尼奥·索布雷维利亚·卡贝苏多、塞缪尔·卡亚维贾亚、埃米尔·沙普伊斯、万相哲、穆昆德·乔达里、克里斯蒂安·克劳斯、皮埃尔·科隆博、菲利普·康奈尔、戈蒂耶·达甘、马尤克·达斯、塔纳伊·迪克西特、托马斯·多皮埃尔、保罗-亚历克西斯·德拉伊、苏奇特拉·杜贝、塔蒂亚娜·埃凯因霍尔、马尔科·迪·乔瓦尼、里沙布·古普塔、卢阿内斯·哈姆拉、桑·韩、法布里斯·哈雷尔-加拿大、安托万·奥诺雷、伊山·金达尔、普热米斯瓦夫·K·约尼亚克、丹尼斯·克莱科、韦内林·科瓦切夫、卡尔佩什·克里希纳、阿舒托什·库马尔、斯特凡·兰格、李承宰瑞安、科里·詹姆斯·莱文森、梁华楼、梁凯照、刘泽雄、安德烈·卢基扬年科、武科西·马里维特、杰拉尔德·德·梅洛、西蒙·梅奥尼、马克西姆·迈耶、阿夫南·米尔、纳菲塞·萨达特·穆萨维、尼克拉斯·门尼霍夫、提摩西·孙洪·门、肯顿·默里、马尔钦·纳米斯尔、玛丽亚·奥别德科娃、普里蒂·奥利、尼夫兰舒·帕斯里查、扬·普菲斯特、理查德·普兰特、维奈·普拉布、瓦西列·派斯、李波琴、沙哈布·拉吉、帕万·库马尔·拉杰普特、维卡斯·劳纳克、罗伊·林伯格、尼古拉斯·罗伯茨、胡安·迭戈·罗德里格斯、克洛德·鲁、瓦斯科塞洛斯·P·H·S、阿南娅·B·赛、罗宾·M·施密特、托马斯·斯基亚洛姆、切菲绍·塞法拉、萨基布·N·沙姆西、申旭东、史浩悦、史艺文、安娜·什韦茨、尼克·西格尔、达米安·西莱奥、杰米·西蒙、钱丹·辛格、罗曼·西特列夫、普里扬克·索尼、泰勒·索伦森、威廉·索托、阿曼·斯里瓦斯塔瓦、KV·阿迪提亚·斯里瓦茨、托尼·孙、穆昆德·瓦尔马·T、A·塔巴西姆、菲奥娜·安廷·谭、瑞安·蒂汉、莫·蒂瓦里、玛丽·托尔基恩、艾瑟娜·王、齐建·王、格洛丽亚·王、齐杰·J·王、傅轩伟、布莱恩·威利、根塔·英德拉·维纳塔、信义·吴、维托尔德·维德曼斯基、田宝·谢、乌萨马·亚辛、M·Yee、景张、岳张 arXiv [pdf] [代码]
一种简单但难以超越的自然语言理解与生成数据增强方法 丁翰·申、明志·郑、叶龙·申、严如·曲、魏竹·陈 arXiv [pdf] [代码]
通过新颖的数据增强和课程学习实现高效的对比学习 成贤·叶、智善·金、爱丽丝·欧 EMNLP 2021 [pdf] [代码]
CoDA：用于自然语言理解的对比增强与多样性促进数据增强 严如·曲、丁翰·申、叶龙·申、桑德拉·萨吉夫、贾伟·韩、魏竹·陈 ICLR 2021 [pdf]

文本分类

CERT：面向语言理解的对比自监督学习 方洪超、王思诚、周萌、丁嘉元、谢鹏涛 arXiv [pdf] [代码]
面向对话系统中用户满意度高效预测的自监督对比学习 穆罕默德·卡丘伊、郝源、金永彬、李成珍 NAACL 2021 [pdf]
并非所有负样本都同等重要：面向细粒度文本分类的标签感知对比损失 瓦尔莎·苏雷什、德斯蒙德·C·昂 EMNLP 2021 [pdf]
通过摘要构建对比样本，用于标注有限的文本分类任务 杜阳凯、马腾飞、吴凌飞、徐芳莉、张旭宏、龙波、季守灵 EMNLP 2021成果 [pdf]
基于对比张力的语义再调优 弗雷德里克·卡尔松、阿马鲁·库巴·吉伦斯滕、埃万杰利亚·戈古鲁、埃里克·伊利帕·赫尔奎斯特、马格努斯·萨尔格伦 ICLR 2021 [pdf] [代码]
密集文本检索中的近似最近邻负对比学习 熊立、熊晨燕、李烨、唐国锋、刘佳林、保罗·贝内特、朱乃德·艾哈迈德、阿诺德·欧维尔克 ICLR 2021 [pdf]
通过对比学习和自编码器改进基于梯度的对抗训练在文本分类中的应用 邱瑶、张锦超、周洁 ACL 2021成果 [pdf]
基于图注意力网络的对比文档表示学习 许鹏、陈新驰、马晓飞、黄志恒、向兵 EMNLP 2021成果 [pdf]
基于注意力的对比学习应用于维诺格拉德模式 塔西洛·克莱因、莫因·纳比 EMNLP 2021成果 [pdf] [代码]
CLINE：面向自然语言理解的语义负样本对比学习 王栋、丁宁、李丕吉、郑海涛 ACL 2021 [pdf] [代码]
对比学习增强的最近邻机制用于多标签文本分类 苏锡翱、王然、戴鑫宇 ACL 2022 [pdf]
将层次结构融入文本编码器：一种用于层次化文本分类的对比学习方法 王子涵、王培怡、黄连哲、孙欣、王厚峰 ACL 2022 [pdf]
面向语言理解的标签锚定对比学习 张振宇、赵宇明、陈萌、何晓东 NAACL 2022 [pdf]
用于成对句子评分任务的批次-softmax对比损失 安东·切尔尼亚夫斯基、德米特里·伊尔沃夫斯基、帕维尔·卡利宁、普雷斯拉夫·纳科夫 NAACL 2022 [pdf]
面向公平文本分类的条件监督对比学习 Chi Jianfeng、William Shand、Yu Yaodong、Chang Kai-Wei、Zhao Han、Tian Yuan EMNLP 2022成果 [pdf]

句子嵌入与短语嵌入

迈向通用的释义句子嵌入 John Wieting, Mohit Bansal, Kevin Gimpel, Karen Livescu ICLR 2016 [pdf] [代码]
一种高效的学习句子表示框架 Lajanugen Logeswaran, Honglak Lee ICLR 2018 [pdf] [代码]
SimCSE：简单的句子嵌入对比学习 Tianyu Gao, Xingcheng Yao, Danqi Chen EMNLP 2021 [pdf] [代码]
快速、高效且自监督：将掩码语言模型转化为通用的词汇和句子编码器 Fangyu Liu, Ivan Vulić, Anna Korhonen, Nigel Collier EMNLP 2021 [pdf] [代码]
大规模学习密集型短语表示 Jinhyuk Lee, Mujeen Sung, Jaewoo Kang, Danqi Chen ACL 2021 [pdf] [代码]
短语检索也能学习段落检索 Jinhyuk Lee, Alexander Wettig, Danqi Chen EMNLP 2021 [pdf] [代码]
BERT句子表示的自引导对比学习 Taeuk Kim, Kang Min Yoo, Sang-goo Lee ACL 2021 [pdf]
基于成对监督的句子表示对比学习 Dejiao Zhang, Shang-Wen Li, Wei Xiao, Henghui Zhu, Ramesh Nallapati, Andrew O. Arnold, Bing Xiang EMNLP 2021 [pdf] [代码]
SupCL-Seq：面向下游优化的序列表示监督对比学习 Hooman Sedghamiz, Shivam Raval, Enrico Santus, Tuka Alhanai, Mohammad Ghassemi EMNLP 2021发现 [pdf] [代码]
Sentence-BERT：使用暹罗BERT网络的句子嵌入 Nils Reimers, Iryna Gurevych EMNLP 2019 [pdf] [代码]
通过最大化互信息的无监督句子嵌入方法 Yan Zhang, Ruidan He, Zuozhu Liu, Kwan Hui Lim, Lidong Bing EMNLP 2020 [pdf] [代码]
DeCLUTR：用于无监督文本表示的深度对比学习 John Giorgi, Osvald Nitski, Bo Wang, Gary Bader ACL 2021 [pdf] [代码]
ConSERT：一种用于自监督句子表示迁移的对比框架 Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu ACL 2021 [pdf] [代码]
DialogueCSE：基于对话的句子嵌入对比学习 Che Liu, Rui Wang, Jinghua Liu, Jian Sun, Fei Huang, Luo Si EMNLP 2021 [pdf] [代码]
使用对比句子目标进行预训练可提升语言模型的篇章表现 Dan Iter, Kelvin Guu, Larry Lansing, Dan Jurafsky ACL 2020 [pdf] [代码]
通过对比式自监督学习获得情境化和泛化的句子表示：以篇章关系分析为例 Hirokazu Kiyomaru, Sadao Kurohashi NAACL 2021 [pdf]
DiffCSE：基于差异的句子嵌入对比学习 Yung-Sung Chuang, Rumen Dangovski, Hongyin Luo, Yang Zhang, Shiyu Chang, Marin Soljačić, Shang-Wen Li, Wen-tau Yih, Yoon Kim, James Glass NAACL 2022 [pdf] [代码]
探索对比学习中负样本的影响：以句子嵌入为例 Rui Cao, Yihao Wang, Yuxin Liang, Ling Gao, Jie Zheng, Jie Ren, Zheng Wang ACL 2022发现 [pdf]
语法指导的预训练语言模型对比学习 Shuai Zhang, Wang Lijie, Xinyan Xiao, Hua Wu ACL 2022发现 [pdf]
虚拟增强支持下的句子表示对比学习 Dejiao Zhang, Wei Xiao, Henghui Zhu, Xiaofei Ma, Andrew Arnold ACL 2022发现 [pdf]
一句等于128个伪标记：一种语义感知的句子嵌入对比学习框架 Haochen Tan, Wei Shao, Han Wu, Ke Yang, Linqi Song ACL 2022发现 [pdf]
SCD：句子嵌入的自对比去相关 Tassilo Klein, Moin Nabi ACL 2022 [pdf]
从角度空间中的成对和三元视角学习句子表示的对比框架 Yuhao Zhang, Hongji Zhu, Yongliang Wang, Nan Xu, Xiaobo Li, Binqiang Zhao ACL 2022 [pdf]
无偏见的无监督句子表示对比学习 Kun Zhou, Beichen Zhang, Xin Zhao, Ji-Rong Wen ACL 2022 [pdf]
UCTopic：用于短语表示和主题挖掘的无监督对比学习 Jiacheng Li, Jingbo Shang, Julian McAuley ACL 2022 [pdf]
EASE：实体感知的句子嵌入对比学习 Sosuke Nishikawa, Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka, Isao Echizen NAACL 2022 [pdf]
MCSE：多模态句子嵌入对比学习 Miaoran Zhang, Marius Mosbach, David Ifeoluwa Adelani, Michael A. Hedderich, Dietrich Klakow NAACL 2022 [pdf]

信息抽取

ERICA：通过对比学习提升预训练语言模型的实体与关系理解 秦宇佳、林彦凯、高信一、刘知远、李鹏、季恒、黄民烈、孙茂松、周杰 ACL 2021 [pdf] [代码]
CIL：用于远程监督关系抽取的对比实例学习框架 陈涛、史海舟、唐思亮、陈志刚、吴飞、庄越挺 ACL 2021 [pdf]
CLEVE：面向事件抽取的对比预训练 王子奇、王晓智、韩旭、林彦凯、侯磊、刘知远、李鹏、李涓子、周杰 ACL 2021 [pdf] [代码]
CONTaiNER：基于对比学习的少样本命名实体识别 萨卡·斯尼格达·萨拉蒂·达斯、阿尔祖·卡蒂亚尔、丽贝卡·J·帕索诺、张睿 ACL 2022 [pdf] [代码]
TABi：面向开放域实体检索的类型感知双编码器 梅根·莱什琴斯基、傅丹尼尔·Y、陈美怡·F、克里斯托弗·雷 Findings of ACL 2022 [pdf]
面向低资源语言的细粒度实体分类的跨语言对比学习 韩旭、罗雨琪、陈伟泽、刘知远、孙茂松、周博通、费浩、郑孙聪 ACL 2022 [pdf] [代码]
HiCLRE：用于远程监督关系抽取的层次化对比学习框架 李东阳、张涛林、胡楠、王成宇、何晓峰 Findings of ACL 2022 [pdf]
HiURE：面向无监督关系抽取的层次化样例对比学习 刘书亮、胡旭明、张晨威、李树昂、温立杰、菲利普·S·余 NAACL 2022 [pdf]
基于对比学习的远程监督命名实体识别标签精炼 应怀远、罗盛轩、党天田、于胜 Findings of NAACL 2022 [pdf]

序列标注

对比估计：在未标注数据上训练对数线性模型 诺亚·A·史密斯、杰森·艾斯纳 ACL 2005 [pdf]

机器翻译

多对多多语言神经机器翻译中的对比学习 潘晓、王明轩、吴力伟、李磊 ACL 2021 [pdf] [代码]
用于评估MT中歧义消解的对比条件化：以蒸馏式Bia为例 扬尼斯·瓦姆瓦斯、里科·森尼希 EMNLP 2021 [pdf] [代码]
尽可能少，但又必须足够：利用对比条件化检测过度翻译和不足翻译 扬尼斯·瓦姆瓦斯、里科·森尼希 ACL 2022 [pdf]
通过两阶段对比学习改进词对齐 李耀然、刘芳宇、奈杰尔·科利尔、安娜·科霍嫩、伊万·武利奇 ACL 2022 [pdf]
对比词对齐何时能改善多对多神经机器翻译？ 毛卓远、楚晨辉、拉吉·达布雷、宋海月、万振、黑桥贞夫 Findings of NAACL 2022 [pdf]
CoCoA-MT：一个用于对比控制型MT的数据集与基准测试，应用于正式程度 玛丽亚·纳德耶德、安娜·库瑞、本杰明·许、牛兴、乔治安娜·迪努、马塞洛·费德里科 Findings of NAACL 2022 [pdf]

问答

面向开放域问答的密集段落检索 弗拉基米尔·卡尔普金、巴拉斯·奥古兹、闵世源、帕特里克·刘易斯、伍乐德、谢尔盖·埃杜诺夫、陈丹琦、叶文涛 EMNLP 2020 [pdf] [代码]
面向口语问答的自监督对比跨模态表征学习 游辰宇、陈诺、邹悦娴 Findings of EMNLP 2021 [pdf]
xMoCo：用于开放域问答的交叉动量对比学习 杨楠、魏福仁、焦斌星、江大新、杨林俊 ACL 2021 [pdf]
使用有限文本语料库进行问答的对比领域适应 岳振锐、伯恩哈德·克拉茨瓦尔德、施特凡·费尔里格尔 EMNLP 2021 [pdf] [代码]
回答还是不回答？基于跨度的对比学习改进机器阅读理解模型 姬云洁、陈良宇、窦晨晓、马宝昌、李向刚 Findings of NAACL 2022 [pdf]
透过现象看本质：一种针对低资源知识库问答的对比正则化方法 刘俊平、梅世杰、胡欣荣、姚勋、杨杰克、郭毅 Findings of NAACL 2022 [pdf]

摘要

CONFIT：基于语言学启发的对比微调实现忠实对话摘要 唐翔儒、阿琼·奈尔、王博睿、王炳耀、贾伊·阿米特·戴赛、亚伦·韦德、李浩然、阿斯莉·切利基尔马兹、雅沙尔·梅赫达德、德拉戈米尔·拉杰夫 NAACL 2022 [pdf]
CLIFF：通过对比学习提升抽象摘要的忠实性和事实性 曹书阳、王璐 EMNLP 2021 [pdf] [代码]
用于抽象句子摘要的对比注意力机制 段向宇、于洪飞、尹明明、张敏、罗伟华、张悦 EMNLP 2019 [pdf] [代码]
SimCLS：一种用于抽象摘要对比学习的简单框架 刘奕欣、刘鹏飞 ACL 2021 [pdf] [代码]
基于对比学习的无参考式摘要质量评估 吴汉露、马腾飞、吴凌飞、塔里罗·曼尤姆瓦、季寿玲 EMNLP 2020 [pdf] [代码]
多语言摘要的对比对齐联合学习 王丹青、陈家泽、周浩、邱锡鹏、李磊 ACL 2021发现 [pdf] [代码]
面向主题的对比学习用于抽象对话摘要 刘俊鹏、邹艳艳、张海楠、陈宏深、丁卓业、袁彩霞、王晓洁 EMNLP 2021发现 [pdf]
用于放射科检查结果摘要的图增强对比学习 胡金鹏、李卓、陈志宏、李振、万翔、张宗辉 ACL 2022 [pdf]

文本生成

基于对比前缀的可控自然语言生成 钱静、董力、沈越龙、魏福如、陈维珠 ACL 2022发现 [pdf] [代码]
用于神经文本生成的对比框架 苏一轩、兰天、王燕、达尼·约加塔玛、孔令鹏、奈杰尔·科利尔 NeurIPS 2022 [pdf] [代码]
用于语言GAN的反对比学习 柴叶坤、张海东、殷琪月、张俊格 EMNLP 2021发现 [pdf]
结合对抗扰动的对比学习用于条件文本生成 李西妮、李东朴、黄成柱 ICLR 2021 [pdf] [代码]
从语义解析中生成逻辑一致的文本 舒畅、张雨森、董向宇、石鹏、于涛、张锐 ACL 2021发现 [pdf] [代码]
基于对比表示学习的示例引导释义生成 杨浩然、林威、李丕吉 EMNLP 2021发现 [pdf] [代码]
低错误密度领域中的语法错误修正与对比学习 曹汉南、杨文冕、黄慧婷 EMNLP 2021发现 [pdf] [代码]
用于神经对话生成的分组对比学习 蔡恒毅、陈宏深、宋永豪、丁卓业、鲍勇军、严伟鹏、赵晓芳 EMNLP 2020发现 [pdf] [代码]
用于自动胸部X光报告生成的对比注意力机制 刘凤林、尹昌昌、吴贤、葛申、邹月仙、张平、孙旭 ACL 2021发现 [pdf]
弱监督对比学习用于胸部X光报告生成 安妍、何泽学、陆兴、杜江、埃里克·张、阿米尔卡雷·真蒂利、朱利安·麦考利、徐春南 EMNLP 2021发现 [pdf]
利用对比示例进行数据到文本生成的学习 上原由依、石垣达也、青木香澄、野地博史、五岛敬一、小林一郎、高村弘矢、宫尾祐介 COLING 2020 [pdf] [代码]
一种简单的对比学习目标用于缓解神经文本退化 蒋绍杰、张汝清、斯维特兰娜·瓦库连科、马尔滕·德·赖克 arXiv [pdf] [代码]
关键词与实例：统一混合粒度的层次化对比学习框架用于文本生成 李明哲、林谢雄、陈秀英、常锦雄、张启深、王峰、王泰丰、刘忠义、楚伟、赵东彦、颜瑞 ACL 2022 [pdf]

数据高效学习

一种显式联合与监督对比学习框架，用于少样本意图分类和槽位填充 刘汉、张峰、张晓彤、赵思扬、张献超 EMNLP 2021 发现 [pdf]
通过对比预训练与微调实现少样本意图检测 张建国、Trung Bui、Seunghyun Yoon、陈翔、刘志伟、夏聪颖、Quan Hung Tran、Walter Chang、Philip Yu EMNLP 2021 [pdf] [代码]
基于原型对比学习与标签混淆的跨域迁移：重新探索槽位填充的零样本学习 王丽雯、李雪峰、刘嘉驰、何克清、严元梦、徐维然 EMNLP 2021 [pdf] [代码]
通过获取对比样例进行主动学习 Katerina Margatina、Giorgos Vernikos、Loïc Barrault、Nikolaos Aletras EMNLP 2021 [pdf] [代码]
面向少样本场景的后训练双粒度对比学习 罗睿坤、黄冠寰、全晓军 ACL 2021 发现 [pdf]
基于提示的少样本语言学习者的对比学习 简一仁、高崇阳、Soroush Vosoughi NAACL 2022 [pdf]
基于有序对比学习和基于提示的预测的零样本事件检测 张森辉、季涛、季文迪、王小玲 NAACL 2022 发现 [pdf]
RCL：用于零样本关系抽取的关系对比学习 王树森、张博森、许雅静、吴亚楠、肖波 NAACL 2022 发现 [pdf]

对比预训练

COCO-LM：为语言模型预训练校正并对比文本序列 孟宇、熊晨燕、Payal Bajaj、Saurabh Tiwary、Paul Bennett、韩家伟、宋霞 NeurIPS 2021 [pdf] [代码]
TaCL：利用令牌感知的对比学习改进BERT预训练 苏义轩、刘芳宇、孟在乔、兰天、舒磊、Ehsan Shareghi、Nigel Collier NAACL 2022 发现 [pdf] [代码]
CLEAR：用于句子表示的对比学习 吴卓峰、王思农、顾家涛、马迪安·哈布萨、孙飞、马浩 arXiv [pdf]
面向预训练语言模型微调的监督对比学习 Beliz Gunel、杜静菲、Alexis Conneau、Ves Stoyanov ICLR 2021 [pdf]
将Transformer预训练为基于能量的完形填空模型 Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning EMNLP 2020 [pdf] [代码]
使用弱监督对预训练语言模型进行微调：一种对比正则化的自训练方法 于悦、左思淼、江浩明、任文迪、赵拓、张超 NAACL 2021 [pdf] [代码]
通过对比自监督实现数据高效的预训练 Nils Rethmeier、Isabelle Augenstein arXiv [pdf]
多粒度对比用于跨语言预训练 李世成、杨鹏程、罗福莉、谢俊 ACL 2021 发现 [pdf]
InfoXLM：一种信息论框架，用于跨语言语言模型预训练 Chi Zewen、Dong Li、Wei Furu、Yang Nan、Singhal Saksham、Wang Wenhui、Song Xia、Mao Xian-Ling、Huang Heyan、Zhou Ming NAACL 2021 [pdf] [代码]

可解释性与可说明性

通过对比集评估模型的局部决策边界 Matt Gardner、Yoav Artzi、Victoria Basmova、Jonathan Berant、Ben Bogin、陈思豪、Dasigi Pradeep、Dheeru Dua、Elazar Yanai、Gottumukkala Ananth、Gupta Nitish、Hajishirzi Hanna、Ilharco Gabriel、Khashabi Daniel、Lin Kevin、Liu Jiangming、Liu Nelson F.、Mulcaire Phoebe、Ning Qiang、Singhal Sameer、Smith Noah A.、Subramanian Sanjay、Tsarfaty Reut、Wallace Eric、Zhang Ally、Zhou Ben arXiv [pdf]
ALICE：带有对比自然语言解释的主动学习 梁伟欣、周詹姆斯 EMNLP 2020 [pdf]
通过最小化对比编辑（MiCE）解释NLP模型 Alexis Ross、Ana Marasović、Matthew E. Peters ACL 2021 发现 [pdf] [代码]
KACE：为自然语言推理生成知识感知的对比解释 Chen Qianglong、Ji Feng、Zeng Xiangji、Li Feng-Lin、Zhang Ji、Chen Haiqing、Zhang Yin ACL 2021 [pdf]
用于模型可解释性的对比解释 Alon Jacovi、Swabha Swayamdipta、Ravfogel Shauli、Elazar Yanai、Choi Yejin、Goldberg Yoav EMNLP 2021 [pdf] [代码]
基于预训练语言模型生成解释图：一项结合对比学习的实证研究 Saha Swarnadeep、Yadav Prateek、Bansal Mohit ACL 2022 [pdf] [代码]
迈向可解释的语义文本相似度：基于最优传输的对比句子学习 Lee Seonghyeon、Lee Dongha、Jang Seongbo、Yu Hwanjo ACL 2022 [pdf]

常识知识与推理

用于常识推理的对比自监督学习 塔西洛·克莱因、莫因·纳比 ACL 2020 [pdf] [代码]
针对常识推理任务的提示式对比解释 巴尔加维·帕兰贾佩、朱利安·迈克尔、马尔詹·加兹维内贾德、卢克·泽特勒莫耶、汉娜内·哈吉希尔齐 ACL 2021发现 [pdf]
KFCNet：面向生成式常识推理的知识过滤与对比学习网络 李浩楠、龚叶云、焦健、张若飞、蒂莫西·鲍德温、段楠 EMNLP 2021发现 [pdf]
从缺失关系中学习：利用常识知识图谱进行对比学习以实现常识推理 郑容浩、朴俊亨、崔俊英、李明宇、金俊浩、金康敏、李相根 ACL 2022发现 [pdf]

视觉-语言

语言模型也能“看”：在文本生成中引入视觉控制机制 苏一轩、兰田、刘雅慧、刘芳宇、达尼·约加塔玛、王燕、孔令鹏、奈杰尔·科利尔 arXiv [pdf] [代码]
用于弱监督视觉-语言对齐的反事实对比学习 张竹、赵舟、林志杰、朱继明、何修强 NeurIPS 2020 [pdf]
UNIMO：通过跨模态对比学习实现统一模态理解与生成 李伟、高灿、牛国成、肖欣妍、刘浩、刘嘉辰、吴华、王海峰 ACL 2021 [pdf] [代码]
对VQA模型进行排序：基于对比梯度学习提升一致性 萨米尔·达胡尔、普尔瓦·滕杜尔卡、德鲁夫·巴特拉、黛薇·帕里克、拉姆普拉萨斯·R·塞尔瓦拉朱 NeurIPS 2020研讨会 [pdf] [代码]
用于弱监督短语对齐的对比学习 坦梅·古普塔、阿拉什·瓦赫达特、加尔·切奇克、杨晓东、扬·考茨、德里克·霍伊姆 ECCV 2020 [pdf] [代码]
通过解耦的多模态对比学习实现无监督自然语言推理 崔婉云、郑广宇、王伟 EMNLP 2020 [pdf]
VideoCLIP：用于零样本视频-文本理解的对比预训练 徐虎、加尔吉·戈什、黄柏尧、德米特罗·奥洪科、阿曼·阿加贾尼扬、弗洛里安·梅策、卢克·泽特勒莫耶、克里斯托夫·费希滕霍费尔 EMNLP 2021 [pdf] [代码]
借助噪声文本监督扩大视觉及视觉-语言表征学习规模 贾超、杨寅飞、夏叶、陈怡婷、帕雷克·扎拉娜、范辉、黎光越、宋云轩、李振、杜里格·汤姆 ICML 2021 [pdf]
UMIC：一种基于对比学习的无参考图像描述评价指标 李焕熙、尹承贤、弗兰克·德农库尔、武忠、郑圭珉 ACL 2021 [pdf] [代码]
BLIP：面向统一视觉-语言理解和生成的语言-图像预训练自举方法 李俊南、李东旭、熊才明、史蒂文·霍伊 arXiv [pdf] [代码]
CyCLIP：循环对比语言-图像预训练 沙尚克·戈埃尔、赫里提克·班萨尔、苏米特·巴蒂亚、瑞安·A·罗西、维什瓦·维奈、阿迪提亚·格罗弗 arXiv [pdf] [代码]
使用对比双向Transformer学习视频表征 孙晨、法比安·巴拉德尔、凯文·墨菲、科黛莉亚·施密德 arXiv [pdf]

其他

借助对比学习迈向无监督密集信息检索 戈蒂埃·伊扎卡尔、马蒂尔德·卡隆、卢卡斯·霍塞尼、塞巴斯蒂安·里德尔、皮奥特·博亚诺夫斯基、阿芒·朱兰、爱德华·格拉夫 arXiv [pdf]
通过对比预训练获得文本和代码嵌入 阿尔文德·尼拉坎坦、许涛、劳尔·普里、亚历克·拉德福德、杰西·迈克尔·韩、杰里·特沃雷克、袁启明、尼科拉斯·泰扎克、金钟郁、克里斯·哈拉西、约翰内斯·海德克、普拉纳夫·夏姆、鲍里斯·鲍威尔、蒂娜·埃隆杜·内库尔、吉里什·萨斯特里、格雷琴·克鲁格、大卫·施努尔、费利佩·彼得罗斯基·苏奇、肯尼·许、玛德琳·汤普森、塔巴拉克·汗、托基·谢尔巴科夫、乔安妮·张、彼得·韦林德、莉莲·温格 arXiv [pdf] [代码]
用于跨语言对齐的多级对比学习 陈贝多、郭武、顾斌、刘权、王永超 ICASSP 2022 [pdf] [代码]
理解噪声对比估计中的难负样本 张文政、卡尔·斯特拉托斯 NAACL 2021 [pdf] [代码]
在内存受限环境下扩展深度对比学习的批量大小 高璐瑜、张云毅、韩家伟、杰米·卡伦 RepL4NLP 2021 [pdf] [代码]
基于中间表示的对比蒸馏用于语言模型压缩 孙思琪、甘哲、程宇、方宇威、王书航、刘静静 EMNLP 2020 [pdf] [代码]
FairFil：面向预训练文本编码器的对比神经去偏方法 程鹏宇、郝伟拓、袁思洋、司静晶、劳伦斯·卡林 ICLR 2021 [pdf]
补充你的维生素C！基于对比证据的稳健事实核查 塔尔·舒斯特、亚当·菲施、雷吉娜·巴尔齐莱 NAACL 2021 [pdf] [代码]
利用对比学习支持聚类 张德交、南峰、魏晓凯、李尚文、朱恒辉、凯瑟琳·麦基恩、拉梅什·纳拉帕蒂、安德鲁·阿诺德、向兵 NAACL 2021 [pdf] [代码]
基于监督对比学习的域外检测判别表征建模 曾志远、何克清、闫元梦、刘子俊、吴亚楠、徐宏、蒋慧星、徐维然 ACL 2021 [pdf] [代码]
预训练Transformer模型的对比式分布外检测 周文轩、刘方宇、陈慕浩 EMNLP 2021 [pdf] [代码]
对比微调提升神经排序器的鲁棒性 马晓飞、西塞罗·诺盖拉·多斯桑托斯、安德鲁·O·阿诺德 ACL 2021发现 [pdf]
对比编码表示学习 帕拉斯·贾因、阿杰·贾因、张天俊、皮特·阿贝尔、约瑟夫·E·冈萨雷斯、伊恩·斯托伊卡 EMNLP 2021 [pdf] [代码]
基于对比补全编码的知识表示学习 欧阳博、黄文兵、陈润发、谭志兴、刘洋、孙茂松、朱继红 EMNLP 2021发现 [pdf]
NLP中的对抗训练与对比学习 丹妮拉·N·里姆、许东宁、崔熙 يول arXiv [pdf]
面向NLP任务的简单对比表示对抗学习 苗德水、张佳琪、谢文博、宋健、李鑫、贾丽娟、郭宁 arXiv [pdf]
学习检索用于上下文学习的提示 欧哈德·鲁宾、乔纳森·赫尔齐格、乔纳森·贝兰特 arXiv [pdf]
RELiC：为文学主张检索证据 凯瑟琳·泰、张雅佩、卡尔佩什·克里希纳、莫希特·艾耶尔 ACL 2022 [pdf][代码]
跨语言对齐的多级对比学习 陈北斗、郭武、顾斌、刘泉、王永超 ICASSP 2022 [pdf]
弱监督查询式视频定位中的多尺度自对比学习与难负样本挖掘 莫申通、刘大宗、胡伟 arXiv [pdf]
预训练语言模型的对比示范微调 梁小专、张宁宇、程思源、毕振、张振儒、谭传奇、黄松芳、黄菲、陈华军 arXiv [pdf][代码]
GL-CLeF：跨语言口语理解的全局-局部对比学习框架 秦立波、陈启光、谢天宝、李启新、楼建光、车万祥、简明彦 ACL 2022 [pdf][代码]
基于对比学习的零样本立场检测 梁斌、陈子霄、桂林、何玉兰、杨敏和徐瑞峰 WWW 2022 [pdf][代码]
跨语言口语理解的多级对比学习 梁闪闪、寿林军、裴健、龚明、左万利、左向林、江大欣 arXiv [pdf]
MERIt：元路径引导的逻辑推理对比学习 焦方凯、郭阳阳、宋雪萌、聂立强 ACL 2022发现 [pdf]
前车之鉴，后事之师：基于错误驱动的对比概率优化用于中文拼写检查 李英辉、周庆宇、李阳宁、李忠利、刘瑞阳、孙荣义、王紫珍、李超、曹云波、郑海涛 ACL 2022发现 [pdf]
基于对比学习缓解对话中的矛盾 李伟钊、孔俊生、廖本、蔡毅 ACL 2022发现 [pdf]
寻找规律，而非单纯记忆步骤：用于解决数学应用题的对比学习 李忠利、张文轩、严超、周庆宇、李超、刘洪志、曹云波 ACL 2022发现 [pdf]
通过病理性对比训练缓解词重要性和模型置信度之间的不一致 詹鹏威、吴洋、周绍雷、张云健、王利明 ACL 2022发现 [pdf]
统一对比学习下的解耦知识迁移用于域外意图发现 牟宇涛、何克清、吴亚楠、曾志远、徐宏、蒋慧星、吴伟、徐维然 ACL 2022 [pdf]
JointCL：用于零样本立场检测的联合对比学习框架 梁斌、朱庆林、李翔、杨敏、桂林、何玉兰、徐瑞峰 ACL 2022 [pdf]
借助预训练和对比学习的新意图发现 张宇伟、张浩德、詹利明、吴晓明、阿尔伯特·拉姆 ACL 2022 [pdf]
RoCBert：具有多模态对比预训练的鲁棒中文Bert 苏辉、史伟伟、沈晓宇、肖周、季拓、方嘉睿、周杰 ACL 2022 [pdf]
面向开放域段落检索的句子感知对比学习 洪武、张卓胜、王金元、赵海 ACL 2022 [pdf]
通过同步弱监督对比学习和聚类改进事件表示 高军、王伟、于昌龙、赵焕、伍德弗雷德·吴、徐瑞峰 ACL 2022 [pdf]
对比视觉语义预训练放大自然语言表示的语义 罗伯特·沃尔夫、艾琳·卡利斯坎 ACL 2022 [pdf]
基于对比预训练的多语言分子表示学习 郭志辉、普拉莫德·夏尔马、安迪·马丁内斯、杜亮、罗宾·亚伯拉罕 ACL 2022 [pdf]
SimKGC：利用预训练语言模型的简单对比知识图谱补全 王亮、赵伟、魏卓宇、刘景明 ACL 2022 [pdf]
重连再探测：一种用于探查预训练语言模型生物医学知识的对比方法 孟在桥、刘方宇、埃桑·沙雷吉、苏一轩、夏洛特·柯林斯、奈杰尔·科利尔 ACL 2022 [pdf]
用于域外意图分类的KNN对比学习 周云华、刘沛举、邱锡鹏 ACL 2022 [pdf]
面向语音翻译的跨模态对比学习 叶荣、王明轩、李磊 NAACL 2022 [pdf]
重新审视OOD检测中的过度自信问题：基于自适应类别相关阈值的重分配对比学习 吴亚楠、何克清、闫元梦、高齐翔、曾志远、郑福佳、赵露露、江慧星、吴伟、徐维然 NAACL 2022 [pdf]
用于跨文档事件与实体共指消解的对比表示学习 本杰明·许、格雷厄姆·霍伍德 NAACL 2022 [pdf]
面向无监督领域适应的领域混淆对比学习 龙泉宇、罗天泽、王文雅、潘新标 NAACL 2022 [pdf]
基于深度半监督对比聚类的用户日志意图检测与发现 拉贾特·库马尔、马尤尔·帕蒂达尔、VAIBHAV VARSHNEY、洛韦凯什·维格、高塔姆·肖夫 NAACL 2022 [pdf]
通过对抗性对比学习检测低资源领域下的微博谣言 林洪展、马静、陈亮亮、杨志伟、程明飞、陈光 NAACL 2022成果 [pdf]
CLMLF：一种用于多模态情感检测的对比学习与多层融合方法 李振、徐冰、朱聪辉、赵铁军 NAACL 2022成果 [pdf]
基于有监督对比学习的提示增强生成式回放在终身意图检测中的应用 VAIBHAV VARSHNEY、马尤尔·帕蒂达尔、拉贾特·库马尔、洛韦凯什·维格、高塔姆·肖夫 NAACL 2022成果 [pdf]
CODE-MVP：利用对比预训练从多个视角学习源代码表示 王鑫、王亚胜、万瑶、王嘉伟、周平义、李莉、吴浩、刘金 NAACL 2022成果 [pdf]
结合对抗扰动的自监督对比学习用于防御基于词替换的攻击 赵萌、董一涵、姆里姆纳亚·萨昌、罗杰·瓦滕霍费尔 NAACL 2022成果 [pdf]

Contrastive-Learning-NLP-Papers 快速上手指南

项目简介： Contrastive-Learning-NLP-Papers 并非一个可直接运行的软件库或框架，而是一个精选论文与资源清单。它系统性地整理了自然语言处理（NLP）领域中对比学习（Contrastive Learning）的核心教程、演讲、基础理论及各类应用（如文本分类、机器翻译、句向量等）的学术成果。

本指南旨在帮助开发者高效利用该资源库进行学习、调研及代码复现。

1. 环境准备

由于本项目是文献索引，无需特定的运行时环境。但为了阅读论文、查看代码实现及复现算法，建议准备以下基础环境：

操作系统：Windows / macOS / Linux (推荐 Ubuntu 20.04+)
浏览器：Chrome 或 Edge（用于访问论文链接、幻灯片及视频）
编程环境（用于复现论文代码）：
- Python 3.8+
- PyTorch 或 TensorFlow (根据具体论文的实现框架而定)
- Git (用于克隆相关论文的官方代码仓库)
网络环境：
- 部分论文链接指向 arXiv、IEEE 或 Google Drive。
- 国内加速建议：
  - arXiv 论文下载推荐使用国内镜像：https://arxiv.org.cn/ 或 https://ar5iv.org/。
  - GitHub 代码克隆若速度慢，可使用 https://ghproxy.com/ 作为前缀加速。

2. 安装步骤

本项目无需执行传统的 install 命令。获取资源的最佳方式是克隆仓库或直接浏览在线列表。

方式一：克隆仓库（推荐）

方便本地检索和离线查看 Markdown 目录结构。

git clone https://github.com/RyanZhang-ai/Contrastive-Learning-NLP-Papers.git
cd Contrastive-Learning-NLP-Papers

方式二：直接访问在线列表

直接在 GitHub 页面浏览分类清晰的论文列表，点击链接跳转至原文或代码库。

地址：https://github.com/RyanZhang-ai/Contrastive-Learning-NLP-Papers

依赖安装（针对代码复现）

当你选定某篇论文并进入其对应的官方代码仓库（通常在论文标题后的 [[code]] 链接中）时，请参照该仓库的 requirements.txt 进行安装。通用深度学习环境搭建示例：

# 创建虚拟环境
python -m venv cl-nlp-env
source cl-nlp-env/bin/activate  # Windows: cl-nlp-env\Scripts\activate

# 安装基础深度学习框架 (以 PyTorch 为例，建议使用国内清华源)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers datasets scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

本项目的核心用法是按图索骥：根据研究需求查找论文，进而获取算法思路与代码实现。

场景一：快速入门对比学习理论

如果你刚接触该领域，建议优先阅读 Section 1: Tutorial and Survey 中的资源。

打开仓库中的 README.md。
定位到 ## 1. Tutorial and Survey。
点击 NAACL 2022 Tutorial 的 [[video]] 或 [[slides]] 链接。
- 视频地址：https://youtu.be/iqzJybIk4Go (需网络支持)
- 幻灯片：https://contrastive-nlp-tutorial.github.io/files/contrastive_nlp_tutorial.pdf
阅读综述文章 A Primer on Contrastive Pretraining in Language Processing 建立知识体系。

场景二：寻找特定任务的解决方案

假设你需要解决 句向量表示 (Sentence Embeddings) 问题：

在 README.md 中滚动至 ## 4. Contrastive Learning for NLP。
找到子章节 Sentence Embeddings and Phrase Embeddings。
浏览该列表下的论文，例如寻找高引用或最新的工作。
点击论文标题后的 [[code]] 链接（如果有），跳转到作者的 GitHub 仓库。

复现示例（假设找到了 SimCSE 相关代码）：

# 进入找到的具体代码仓库后
git clone <论文作者提供的代码仓库地址>
cd <仓库名称>
pip install -r requirements.txt

# 运行训练脚本 (具体命令需参考该仓库的 README)
python train.py --model_name_or_path bert-base-uncased --task sts

场景三：理解核心损失函数

若想深入研究 对比学习目标 (Contrastive Learning Objective)：

查看 ## 3. Foundation of Contrastive Learning -> Contrastive Learning Objective。
阅读经典论文，如 Noise-contrastive estimation (AISTATS 2010) 或 Supervised Contrastive Learning (NeurIPS 2020)。
结合 Section 2 中的博客文章（如 Lilian Weng 的 Contrastive Representation Learning）辅助理解数学原理。

提示：该仓库会持续更新，建议定期 git pull 获取最新的论文收录信息。对于具体的代码报错或模型调优，请务必查阅对应论文原始仓库的 Issues 区。

常见问题

教程的视频和幻灯片在哪里可以查看？

论文《Label Anchored Contrastive Learning for Language Understanding》的代码实现链接失效了怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 153.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架