awesome-pretrained-models-for-information-retrieval
awesome-pretrained-models-for-information-retrieval 是一个精心整理的开源资源库,专注于收录与信息检索(IR)领域预训练模型相关的顶尖学术论文。在海量数据时代,如何让用户快速、精准地找到所需信息是核心挑战,而传统的检索方法往往难以应对复杂的语义理解需求。该项目通过系统梳理“预训练用于信息检索”的前沿成果,为从业者提供了一条清晰的技术演进路径。
它详细涵盖了从初步检索(包括稀疏、稠密及混合检索策略)到重排序阶段的全流程技术,并深入探讨了长文档处理、效率优化、跨语言检索以及大语言模型(LLM)与检索系统的融合等热点方向。无论是利用硬负样本采样提升稠密向量质量,还是探索生成式重排序模型,这里都提供了丰富的理论依据和实践参考。
这份资源特别适合人工智能研究人员、算法工程师以及对搜索技术感兴趣的开发者使用。对于希望构建高效搜索引擎、优化推荐系统或深入研究 LLM 增强检索(RAG)的团队而言,awesome-pretrained-models-for-information-retrieval 不仅是一份论文清单,更是一张指引技术选型与创新方向的实用地图,帮助大家站在巨人的肩膀上加速研发进程。
使用场景
某电商公司的搜索算法团队正致力于优化内部商品检索系统,试图将传统的关键词匹配升级为基于语义的深度学习检索架构。
没有 awesome-pretrained-models-for-information-retrieval 时
- 文献调研效率低下:团队成员需在 arXiv、Google Scholar 等平台手动海量筛选论文,耗时数周仍难以穷尽“稠密检索”或“长文档处理”领域的最新进展。
- 技术选型盲目:面对稀疏检索、混合检索及重排序等多种技术路线,缺乏系统的分类指引,导致难以判断哪种预训练模型最适合当前的业务场景。
- 复现成本高昂:由于找不到经过验证的权威论文列表,团队常误选未成熟或已废弃的模型,造成大量算力浪费在无效的代码复现与调试上。
- 前沿趋势脱节:容易忽略如"LLM 赋能信息检索”或“对抗攻击防御”等新兴交叉方向,致使系统架构在设计之初就缺乏前瞻性。
使用 awesome-pretrained-models-for-information-retrieval 后
- 调研路径清晰化:直接利用其结构化的论文清单,按“第一阶段检索”或“重排序阶段”快速定位到神经项重加权、硬负样本采样等关键技术的顶会论文。
- 决策依据科学化:参考列表中关于领域自适应和知识蒸馏的分类综述,迅速锁定适合电商垂直领域的预训练模型,大幅缩短技术验证周期。
- 落地成功率提升:依托 curated list 中收录的高质量成果,团队直接复现成熟的稠密检索方案,避免了踩坑,将模型上线时间从数月压缩至数周。
- 架构演进前瞻化:通过关注"LLM for IR"和“多模态检索”板块,及时引入生成式查询扩展等新技术,显著提升了系统对模糊查询的语义理解能力。
awesome-pretrained-models-for-information-retrieval 将分散的学术成果转化为系统的工程指南,帮助开发者在信息检索的深海中精准导航,实现从理论到落地的高效跨越。
运行环境要求
未说明
未说明

快速开始
awesome-pretrained-models-for-information-retrieval
一个精心整理的、与信息检索预训练模型相关的优秀论文列表(即“IR领域的预训练”)。如果我遗漏了某些论文,欢迎随时提交PR将其加入!同时也非常欢迎大家提出反馈和贡献!
IR领域的预训练
混合检索
</details)
综述论文
- 信息检索中的预训练方法。 Yixing Fan, Xiaohui Xie 等. FnTIR 2022
- 基于预训练语言模型的稠密文本检索:综述。 Wayne Xin Zhao, Jing Liu 等. Arxiv 2022
- 用于文本排序的预训练Transformer:BERT及其之后。 Jimmy Lin 等. M&C 2021
- 初检阶段的语义模型:全面回顾。 Jiafeng Guo 等. TOIS 2021
- 深入探讨信息检索中的神经网络排序模型。 Jiafeng Guo 等. IPM 2020
第一阶段检索
稀疏检索
神经网络术语重加权
- 利用分布式表示学习术语重加权。 Guoqing Zheng, Jamie Callan SIGIR 2015。(DeepTR)
- 面向第一阶段段落检索的上下文感知术语权重调整。 Zhuyun Dai等 SIGIR 2020 短文。[代码](DeepCT)
- 面向即席检索的上下文感知文档术语权重调整。 Zhuyun Dai等 WWW 2020。[代码](HDCT)
- 学习术语判别能力。 Jibril Frej等 SIGIR 2020。(IDF-重加权)
- COIL:用上下文化倒排索引重新审视信息检索中的精确词汇匹配。 Luyu Gao等 NAACL 2020。[代码](COIL)
- 为倒排索引学习段落影响。 Antonio Mallia等 SIGIR 2021 短文。[代码](DeepImapct)
查询或文档扩展
- 基于查询预测的文档扩展。 Rodrigo Nogueira等 [doc2query 代码, docTTTTTquery 代码](doc2query, docTTTTTquery)
- 用于开放域问答的生成增强型检索。 Yuning Mao等 ACL 2021。[代码](使用 BART 进行查询扩展)
- 利用随机文本生成进行信息检索的无监督文档扩展。 Jeong等 arXiv 2021。[代码](无监督文档扩展)
稀疏表示学习
- SparTerm:学习基于术语的稀疏表示以实现快速文本检索。 Yang Bai, Xiaoguang Li等 Arxiv 2020。(SparTerm:由 MLM+二值术语门控得到的术语重要性分布)
- 面向实时开放域问答的上下文化稀疏表示。 Jinhyuk Lee, Minjoon Seo等 ACL 2020。[代码](SPARC,稀疏向量)
- SPLADE:用于第一阶段排序的稀疏词汇及扩展模型。,以及 v2。 Thibault Formal等 SIGIR 2021。[代码](SPLADE)
- 通过二值化实现超高维稀疏表示以提高文本检索效率。 Kyoung-Rok Jang等 EMNLP 2021。(UHD)
- 用于开放域问答的哈希高效段落检索。 Ikuya Yamada等 ACL 2021。[代码](BPR,将嵌入向量转换为二进制码)
密集检索
硬负采样
- 用于开放域问答的密集段落检索。 Vladimir Karpukhin, Barlas Oguz等 EMNLP 2020 [代码](DPR,批次内负样本)
- RepBERT:用于第一阶段检索的上下文化文本嵌入。 Jingtao Zhan等 Arxiv 2020。[代码](RepBERT)
- 密集文本检索中的近似最近邻负对比学习。 Lee Xiong, Chenyan Xiong等 [代码](ANCE,训练期间刷新索引)
- RocketQA:一种优化的训练方法,用于开放域问答的密集段落检索。 Yingqi Qu等 NAACL 2021。(RocketQA:跨批次负样本、去噪硬负样本和数据增强)
- 利用硬负样本优化密集检索模型训练。 Jingtao Zhan等 SIGIR 2021。[代码](ADORE&STAR,基于预训练文档编码器的查询端微调)
- 通过平衡的主题感知采样高效地训练有效的密集检索器。 Sebastian Hofstätter等 SIGIR 2021。[代码](TAS-Balanced,从查询簇中采样并从 BERT 集成模型中蒸馏)
- PAIR:利用以段落为中心的相似性关系改进密集段落检索 Ruiyang Ren等 EMNLP Findings 2021。[代码](PAIR)
晚期交互与多向量表示
- ColBERT:通过在 BERT 上进行上下文化的晚期交互实现高效且有效的段落搜索。 Omar Khattab等 SIGIR 2020。[代码](ColBERT)
- 多编码器:用于快速准确的多句评分的架构和预训练策略。 Samuel Humeau, Kurt Shuster等 ICLR 2020。[代码](多编码器)
- 用于文本检索的稀疏、密集和注意力机制表示。 Yi Luan, Jacob Eisenstein等 TACL 2020。(ME-BERT,多向量)
- 通过生成伪查询嵌入来改进文档表示,以用于密集检索。 Hongyin Tang, Xingwu Sun等 ACL 2021。
- 使用密集-稀疏短语索引实现实时开放域问答。 Minjoon Seo, Jinhyuk Lee等 ACL 2019。[代码](DENSPI)
- 大规模学习短语的密集表示。 Jinhyuk Lee, Danqi Chen等 ACL 2021。[代码](DensePhrases)
- 面向开放域密集检索的多视角文档表示学习。 Shunyu Zhang等 ACL 2022。(MVR)
- 用于信息检索的多变量表示学习。 Hamed Zamani等 SIGIR 2023。(学习多变量分布)
知识蒸馏
- 从阅读器向检索器蒸馏知识用于问答。 Gautier Izacard, Edouard Grave. ICLR 2020。[非官方代码] (将阅读器的交叉注意力蒸馏到检索器)
- 为快速检索型聊天机器人进行知识蒸馏。 Amir Vakili Tahami等。 SIGIR 2020。[代码] (从交叉编码器蒸馏到双编码器)
- 通过跨架构知识蒸馏改进高效的神经排序模型。 Sebastian Hofstätter等。 Arxiv 2020。[代码] (从BERT集成模型蒸馏)
- 利用紧密耦合的教师模型蒸馏密集表示以用于排序。 Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin。 Arxiv 2020。[代码] (TCTColBERT:从ColBERT蒸馏)
- 通过平衡的主题感知采样高效地训练有效的密集检索器。 Sebastian Hofstätter等。 SIGIR 2021。[代码] (TAS-Balanced,从查询簇中采样并从BERT集成模型蒸馏)
- RocketQAv2:一种用于密集段落检索和段落重排序的联合训练方法。 Ruiyang Ren, Yingqi Qu等。 EMNLP 2021。[代码] (RocketQAv2,通过知识蒸馏进行联合学习)
- 面向少样本对话式密集检索的课程式对比上下文去噪。 Kelong Mao等。 SIGIR 2022。
针对密集检索量身定制的预训练
- 用于弱监督开放域问答的潜在检索。 Kenton Lee等。 ACL 2019。[代码] (ORQA,ICT)
- 基于嵌入的大规模检索的预训练任务。 Wei-Cheng Chang等。 ICLR 2020。(ICT、BFS和WLP)
- REALM:检索增强的语言模型预训练。 Kelvin Guu、Kenton Lee等。 ICML 2020。[代码] (REALM)
- 少即是多:使用弱解码器为密集检索预训练强大的文本编码器。 Shuqi Lu、Di He、Chenyan Xiong等。 EMNLP 2021。[代码] (Seed)
- Condenser:一种用于密集检索的预训练架构。 Luyu Gao等。 EMNLP 2021。[代码] (Condenser)
- 面向多语言密集检索的无监督上下文感知句子表示预训练。 Ning Wu等。 JICAI 2022。[代码] (CCP,跨语言预训练)
- 面向密集段落检索的无监督语料库感知语言模型预训练。 Luyu Gao等。 ACL 2022。[代码] (coCondenser)
- LaPraDoR:用于零样本文本检索的无监督预训练密集检索器。 Canwen Xu、Daya Guo等。 ACL 2022。[代码] (LaPraDoR,ICT+dropout)
- 一种通过对比预训练学习用于密集检索的判别自编码器的方法。 Xinyu Ma等。 CIKM 2022。(CPADE,基于文档词频分布的对比预训练)
- 通过对比跨度预测为密集检索预训练判别性文本编码器 Xinyu Ma等。 SIGIR 2022。[代码] (COSTA,分组对比学习)
- H-ERNIE:一种用于网页搜索的多粒度预训练语言模型。 Xiaokai Chu等。 SIGIR 2022。(H-ERNIE)
- 保持结构与语义的文档表示。 Natraj Raman等。 SIGIR 2022。
- Contriever:利用对比学习实现无监督的密集信息检索。 Gautier Izacard等。 TMLR 2022。[代码] (Contriever)
- 通过插值与扰动生成密集检索用的文档表示。 Jeong等。 ACL 2022。[代码] (用于密集检索的增强)
检索与索引的联合学习
- 深度检索模型与基于产品量化技术的嵌入索引的联合学习。 Han Zhang等。 SIGIR 2021短会。[代码] (Poeem)
- 联合优化查询编码器和产品量化以提升检索性能。 Jingtao Zhan等。 CIKM 2021。[代码] (JPQ)
- 通过约束聚类学习离散表示以实现有效且高效的密集检索。 Jingtao Zhan等。 WSDM 2022。[代码] (RepCONC)
- 面向即席检索的匹配导向嵌入量化。 Shitao Xiao等。 EMNLP 2021。[代码]
- Distill-VQ:通过从密集嵌入中蒸馏知识来学习面向检索的向量量化。 Shitao Xiao等。 SIGIR 2022。[代码]
多跳密集检索
- 利用多跳密集检索回答复杂的开放域问题。 Wenhan Xiong、Xiang Lorraine Li等。 ICLR 2021 [代码] (迭代地将问题和先前检索到的文档编码为查询向量)
领域适应
- 面向知识密集型任务的多任务检索。 Jean Maillard、Vladimir Karpukhin^等。 ACL 2021。(多任务学习)
- 评估密集检索的外推性能。 Jingtao Zhan等。 CIKM 2022。[代码]
查询改写
- 用于多表示密集检索的伪相关反馈。 Xiao Wang等 ICTIR 2021 (ColBERT-PRF)
- 利用伪相关反馈改进密集检索的查询表示。 HongChien Yu等 CIKM 2021。[代码] (ANCE-PRF)
- LoL:一种用于伪相关反馈的查询改写损失比较正则化损失。 Yunchang Zhu等 SIGIR 2022。[代码] (LoL,伪相关反馈)
偏差
- 密集段落检索中的隐式反馈:一种反事实方法。 Shengyao Zhuang等 SIGIR 2022。[代码] (CoRocchio,反事实Rocchio算法)
- 硬负样本还是假负样本:纠正训练神经排序模型中的池化偏差。 Yinqiong Cai等 CIKM 2022。
混合检索
- 基于稠密-稀疏短语索引的实时开放域问答。 Minjoon Seo、Jinhyuk Lee等 ACL 2019。[代码] (DENSPI)
- 用语义残差嵌入补充词汇检索模型。 Luyu Gao等 ECIR 2021。
- 基于BERT的密集检索器需要与BM25进行插值才能有效进行段落检索。 Shuai Wang等 ICTIR 2021。
- 渐进优化的双粒度文档表示用于可扩展的基于嵌入的检索。 Shitao Xiao等 WWW 2022。[代码]
重排序阶段
基本用法
判别式排序模型
表示聚焦型
- 理解BERT在排序中的行为。 Yifan Qiao等 Arxiv 2019。(表示聚焦型和交互聚焦型)
交互聚焦型
- 使用BERT对段落进行重排序。 Rodrigo Nogueira等 [代码] (monoBERT:可能是最早将BERT应用于信息检索的工作)
- 使用BERT进行多阶段文档排序, 预训练序列到序列模型用于文本排序的Expando-Mono-Duo设计模式。 Rodrigo Nogueira等 Arxiv 2020。(Expando-Mono-Duo:doc2query+点对点+成对)
- CEDR:用于文档排序的上下文化嵌入。 Sean MacAvaney等 SIGIR 2020简报。[代码] (CEDR:BERT+neuIR模型)
生成式排序模型
- 通过生成式排序超越[CLS]。 Cicero Nogueira dos Santos等 EMNLP 2020简报。(使用GPT和BART生成查询)
- 使用预训练序列到序列模型进行文档排序。 Rodrigo Nogueira、Zhiying Jiang等 EMNLP 2020。[代码] (使用T5生成相关性标记)
- RankT5:使用排序损失对T5进行微调以用于文本排序。 Honglei Zhuang等 Arxiv 2022。
混合排序模型
- 利用生成任务泛化判别式检索模型。 Bingsheng Liu、Hamed Zamani等 WWW 2021。(GDMTL,多任务学习的联合判别式和生成式模型)
长文档处理技术
段落得分聚合
- 借助上下文神经语言建模实现更深入的IR文本理解。 Zhuyun Dai等 SIGIR 2020简报。[代码] (BERT-MaxP、BERT-firstP、BERT-sumP:段落级别)
- BERT在即席文档检索中的简单应用, 使用Birch将BERT应用于文档检索, 跨领域建模句子级证据用于文档检索。 Wei Yang、Haotian Zhang等 Arxiv 2020,Zeynep Akkalyoncu Yilmaz等 EMNLP 2019简报。[代码] (Birch:句子级别)
- 文档内级联:学习选择段落以进行神经文档排序。 Sebastian Hofstätter等 SIGIR 2021。[代码] (将排序模型蒸馏到conv-knrm以选择前k个段落)
段落表示聚合
- PARADE:用于文档重排序的段落表示聚合。 Canjia Li等 Arxiv 2020。[代码] (对各种段落表示聚合方法进行了广泛比较)
- 利用段落级累积增益进行文档排序。 Zhijing Wu等 WWW 2020。(PCGM)
设计新架构
- 针对长文本的局部自注意力机制以实现高效文档检索。 Sebastian Hofstätter等 SIGIR 2020简报。[代码] (TKL:用于长文本的Transformer-Kernel)
- 超越512个token:用于长文档匹配的暹罗多深度Transformer分层编码器。 Liu Yang等 CIKM 2020。[代码] (SMITH用于文档到文档的匹配)
- Socialformer:受社交网络启发的长文档建模用于文档排序。 Yujia Zhou等 WWW 2022。(Socialformer)
提高效率
解耦交互
- DC-BERT:为高效上下文编码解耦问题与文档。 张宇宇、聂平等 SIGIR 2020 短文。(DC-BERT)
- 通过预计算词项表示实现 Transformer 的高效文档重排序。 肖恩·麦卡维尼等 SIGIR 2020。[代码](PreTTR)
- 基于 Transformer 的模块化排序框架。 高璐宇等 EMNLP 2020。[代码](MORES,类似于 PreTTR)
- TILDE:用于段落重排序的词项独立似然模型。 庄圣尧、圭多·祖孔 SIGIR 2021。[代码](TILDE)
- 用于高效文档排序的快速前向索引。 尤雷克·莱昂哈特等 WWW 2022。(快速前向索引)
知识蒸馏
- 理解蒸馏下的 BERT 排序器。 高璐宇等 ICTIR 2020。(语言模型蒸馏 + 排序器蒸馏)
- 简化版 TinyBERT:用于文档检索的知识蒸馏。 陈宣昂等 ECIR 2021。[代码](TinyBERT+知识蒸馏)
部分微调
- 采用轻量级微调的半暹罗双编码器神经排序模型。 郑恩娜、崔在赫等 WWW 2022。[代码](轻量级微调)
- 分散还是连接?一种面向信息检索的优化参数高效微调方法。 马鑫宇等 CIKM 2022。(IAA,引入旁路模块以稳定训练)
早期退出
- 级联 Transformer:一种用于高效答案句子选择的应用。 卢卡·索尔代尼等 ACL 2020。[代码](级联 Transformer:按层剪枝候选)
- 用于高效文档排序的 BERT 早期退出。 辛吉等 EMNLP 2020 SustaiNLP 工作坊。[代码](早期退出)
其他主题
查询扩展
- BERT-QE:用于文档重排序的上下文化查询扩展。 郑志等 EMNLP 2020 Findings。[代码](BERT-QE)
重新加权训练样本
- 开放域答案重排序的训练课程。 肖恩·麦卡维尼等 SIGIR 2020。[代码](基于 BM25 的课程学习)
- 并非所有相关性得分都相等:深度检索模型的高效不确定性与校准建模。 丹尼尔·科恩等 SIGIR 2021。
针对重排序量身定制的预训练
- MarkedBERT:将传统 IR 特征融入预训练语言模型以进行段落检索。 莉拉·布阿利利等 SIGIR 2020 短文。[代码](MarkedBERT)
- 面向神经信息检索的选择性弱监督。 张凯涛等 WWW 2020。[代码](ReInfoSelect)
- PROP:针对即席检索的代表性词预测预训练。 马鑫宇等 WSDM 2021。[代码](PROP)
- 用于检索的跨语言语言模型预训练。 于普轩等 WWW 2021。
- B-PROP:基于代表性词预测的即席检索自举式预训练。 马鑫宇等 SIGIR 2021。[代码](B-PROP)
- 即席检索的预训练:超链接也是你需要的。 马正毅等 CIKM 2021。[代码](HARP)
- 面向上下文文档排序的用户行为序列对比学习。 朱宇涛等 CIKM 2021。[代码](COCA)
- 百度搜索中基于预训练语言模型的排序。 邹立新等 KDD 2021。
- 用于段落排序与扩展的统一预训练框架。 严明等 AAAI 2021。(UED,联合训练排序与查询生成)
- 面向即席搜索的公理化正则化预训练。 陈佳等 SIGIR 2022。[代码](ARES)
- Webformer:面向信息检索的网页预训练。 郭宇等 SIGIR 2022。(Webformer)
对抗攻击与防御
- 竞争性搜索。 奥伦·库兰德等 SIGIR 2022。
- PRADA:针对神经排序模型的实用黑盒对抗攻击。 吴晨等 Arxiv 2022。
- 有序—无序:针对黑盒神经排序模型的模仿式对抗攻击 刘嘉伟等 CCS 2022。
- 神经排序模型是否鲁棒? 吴晨等 TOIS。
- 神经排序模型对词语替换排序攻击的认证鲁棒性 吴晨等 CIKM 2022。
- 面向黑盒神经排序模型的主题导向对抗攻击。 刘宇安等 SIGIR 2023。
跨语言检索
- 用于迭代自监督训练的跨语言检索。 周 Tran 等 NIPS 2020。[代码](CRISS)
- CLIRMatrix:一个超大规模的双语和多语数据集,用于跨语言信息检索。 孙硕等 EMNLP 2020。[代码](多语数据集—CLIRMatrix 和多语 BERT)
检索与重排序的联合学习
- RocketQAv2:密集段落检索与段落重排序的联合训练方法。 任瑞阳、屈英琪等 EMNLP 2021。[代码] (RocketQAv2)
- 用于密集文本检索的对抗性检索器-排序器。 张航等 ICLR 2022。[代码] (AR2)
- RankFlow:将多阶段级联排序系统作为流进行联合优化。 秦嘉睿等 SIGIR 2022。(RankFlow)
基于模型的IR系统
- 重新思考搜索:让业余爱好者成为领域专家。 唐纳德·梅茨勒等 SIGIR Forum 2020。 (构想了基于模型的IR系统)
- Transformer内存作为可微分的搜索索引。 泰毅等 Arxiv 2022。 (DSI)
- DynamicRetriever:一种既无稀疏索引也无稠密索引的预训练模型IR系统。 周宇佳等 Arxiv 2022。 (DynamicRetriever)
- 用于文档检索的神经语料库索引器。 王玉静等 Arxiv 2022。(NCI)
- 自回归搜索引擎:生成子字符串作为文档标识符。 米凯莱·贝维拉夸等 Arxiv 2022。[代码] (SEAL)
- CorpusBrain:为知识密集型语言任务预训练生成式检索模型。 陈江贵等 CIKM 2022。[代码] (CorpusBrain)
- 通过提示学习实现知识密集型语言任务的统一生成式检索器。 陈江贵等 SIGIR 2023。[代码] (UGR)
- TOME:一种基于模型的两阶段检索方法。 任瑞阳等 ACL 2023。(TOME:先生成段落,再生成URL)
- 生成式检索如何扩展到数百万个段落? 罗纳克·普拉迪普、凯辉等 Arxiv 2023。(对所提出方法的全面研究,使用合成查询作为文档ID)
- 受学习策略启发的语义增强可微分搜索索引。 唐宇宝等 KDD 2023。(语义增强版DSI)
LLM与IR
观点或综述
- 信息检索遇上大语言模型:来自中国IR界的策略报告。 青瑶AI等 CCIR社区。AI Open 2023。
- 面向信息检索的大语言模型:综述。 朱宇涛等 中国人民大学。Arxiv 2023。
- 借助AI副驾驶应对复杂的搜索任务。 赖恩·W·怀特 微软研究院。Arxiv 2023。
检索增强LLM
- 用于知识密集型NLP任务的检索增强生成。 帕特里克·刘易斯、伊森·佩雷斯等 NIPS 2020。(RAG,针对4.4亿参数的BART)
- 通过从数万亿个标记中检索来改进语言模型。 塞巴斯蒂安·博尔戈、阿瑟·门施、乔丹·霍夫曼等 ICML 2022。[代码](*RETRO,编码解码架构,75亿参数)
- Atlas:利用检索增强语言模型进行少样本学习。 高蒂埃·伊扎卡尔、帕特里克·刘易斯等 Arxiv 2022。[代码] (Atlas,T5,110亿参数)
- 通过少样本提示对开放域问答进行互联网增强的语言模型。 安杰莉基·拉扎里杜等 Arxiv 2022。(Gopher 280B,以谷歌搜索结果为条件)
- 通过迭代的检索-生成协同作用增强检索增强大型语言模型。 邵志宏等 Arxiv 2023。
- 检索增强预训练后的指令调优。 王博欣等 Arxiv 2023。
- 检索任何内容以增强大型语言模型。
LLM用于IR
合成查询生成
- 通过零样本问题生成改进段落检索。 Devendra Singh Sachan 等人 EMNLP 2022。[代码](UPR,基于GPT-neo 2.7B/T0 3B、11B的查询似然对文档进行重排序)
- Promptagator:仅用8个示例实现少样本密集检索。 Zhuyun Dai 等人 ICLR 2023。(使用上下文学习和FLAN 137B生成伪查询)
- UDAPDR:通过LLM提示和重排序器蒸馏实现无监督领域适应。 Jon Saad-Falcon、Omar Khattab 等人 Arxiv 2023。代码
- InPars:利用大型语言模型进行信息检索的数据增强。 Luiz Bonifacio 等人 Arxiv 2022。[代码](使用GPT-3 Curie通过上下文学习生成伪查询,并根据查询生成概率选择前k个q-d对)
- InPars-v2:大型语言模型作为信息检索的高效数据生成器。 Vitor Jeronymo 等人 Arxiv 2023。[代码](与InPars类似,使用GPT-J 6B LLM及微调后的重排序器作为选择器)
- InPars-Light:经济高效的高效排序器无监督训练。 Leonid Boytsov 等人 Arxiv 2023。(与InPars相似,使用GPT-J 6B和BLOOM 7B)
- 基于大型语言模型的生成式相关性反馈。 Iain Mackie 等人 SIGIR 2023简报。(GRF,使用GPT3生成多种信息用于相关性反馈)
- 通过提示大型语言模型进行查询扩展。 Rolf Jagerman 等人 Arxiv 2023。
- 探索合成查询生成在相关性预测中的可行性。 Aditi Chaudhary 等人 Arxiv 2023。(使用FLAN-137B进行标签条件生成)
- 基于大型语言模型的淘宝搜索长尾查询改写。 Wenjun Peng 等人 Arxiv 2023。
- 生成、过滤与融合:面向零样本神经排序器的多步关键词生成查询扩展。 Minghan Li 等人 Arxiv 2023。(使用Flan-PaLM2-S生成关键词)
- 利用LLM在多语言密集检索中跨多种语言合成训练数据。 Nandan Thakur 等人 Arxiv 2023。
合成文档生成
- 与其检索,不如生成:大型语言模型是强大的上下文生成器。 Wenhao Yu 等人 ICLR 2023。[代码] (GenRead,使用InstructGPT生成读者所需的伪文档)
- 背诵增强型语言模型。 Zhiqing Sun 等人 ICLR 2023。[代码] (与GenRead类似)
- 无需相关性标签的精准零样本密集检索。 Luyu Gao、Xueguang Ma 等人 Arxiv 2022。[代码] (HyDE,InstructGPT生成伪文档,Contriever检索真实文档)
- Query2doc:利用大型语言模型进行查询扩展。 Liang Wang 等人 Arxiv 2023。(使用上下文学习生成伪文档,然后与查询拼接,采用text-davinci-003)
- 大型语言模型是强大的零样本检索器。 Tao Shen 等人 Arxiv 2023。(与Hyde类似,使用BM25将检索到的文档补充到LLM中)
- 为交叉编码器重排序器生成合成文档:ChatGPT与人类专家的比较研究。 Arian Askari 等人 Arxiv 2023。[代码] (使用ChatGPT生成的合成数据进行排序)
用于相关性评分的大语言模型
- 基于指令的任务感知检索。 浅井明里、蒂莫·希克等 Arxiv 2022年。[代码] (TART,包含40个带指令的任务数据集,15亿参数的FLAN-T5)
- 一个嵌入器,任意任务:指令微调的文本嵌入。 苏洪进、史伟嘉等 代码
- ExaRanker:基于解释增强的神经排序器。 费尔南多·费拉雷托等 Arxiv 2023年。[代码] (使用monoT5同时训练相关性分数和由GPT-3.5(text-davinci-002)生成的解释)
- 关于大语言模型在相关性判断中的视角。 古列尔莫·法吉奥利等 Arxiv 2023年。(观点论文)
- 利用大语言模型进行零样本列表式文档重排序。 马学光等 Arxiv 2023年。(LRL,使用GPT3生成排序列表)
- 大语言模型本身就是自回归搜索引擎。 诺亚·齐姆斯等 Arxiv 2023年。(LLM-URL,使用GPT-3 text-davinci-003生成URL,基于模型的信息检索)
- ChatGPT擅长搜索吗?探究大语言模型作为重排序代理。 孙伟伟等 EMNLP主会2023年。代码
- 通过成对排序提示,大语言模型可有效进行文本排序。 秦振等 Arxiv 2023年。
- RankVicuna:利用开源大语言模型进行零样本列表式文档重排序。 罗纳克·普拉迪普等 Arxiv 2023年。[代码]
- 中间发现:排列自一致性提升大语言模型中的列表式排序。 拉斐尔·唐、张欣宇等 Arxiv 2023年。[代码]
- 为多阶段文本检索微调LLaMA。 马学光等 Arxiv 2023年。
- 一种集合式方法,用于高效且有效的零样本排序大语言模型。 庄圣尧等 Arxiv 2023年。
- 开源大语言模型是强大的零样本查询似然模型,可用于文档排序。 庄圣尧等 Arxiv 2023年。[代码]
- PaRaDe:利用大语言模型进行演示的段落排名。 安德鲁·德罗佐夫等 Arxiv 2023年。
- 超越“是”与“否”:通过细粒度的相关性标签评分改进零样本大语言模型排序器。 庄宏磊等 Arxiv 2023年。
- 大语言模型可以准确预测搜索者的偏好。 保罗·托马斯等 Arxiv 2023年。
- RankZephyr:高效稳健的零样本列表式重排序轻而易举! 罗纳克·普拉迪普等 Arxiv 2023年。
- 无需GPT的排序:基于开源大语言模型构建独立于GPT的列表式重排序器。 张欣宇等 Arxiv 2023年。
用于生成式检索的大语言模型
- ACID:基于内容的抽象ID,用于语言模型驱动的文档检索。 李浩鑫等 Arxiv 2023年。(使用GPT-3.5生成关键词)
检索增强型文本生成
- WebGPT:浏览器辅助的人工反馈问答系统。 中野玲一郎、雅各布·希尔顿、苏奇尔·巴拉吉等 Arxiv 2022年。(WebGPT,GPT3)
- 教导语言模型用经过验证的引文支持答案。 DeepMind Arxiv 2022年。
- 评估生成式搜索引擎中的可验证性。 尼尔森·F·刘等 Arxiv 2023年。[代码]
- 使大语言模型能够生成带有引用的文本。 高天宇等 Arxiv 2023年。[代码] (ALCE基准测试)
- FreshLLMs:通过搜索引擎增强刷新大语言模型。 涂武等 Arxiv 2023年。[代码]
- 检索任何内容以增强大语言模型。 张培田、肖世涛等 Arxiv 2023年。[代码]
- 利用事件模式提出澄清问题,用于对话式法律案件检索。 刘步楼等 CIKM 2023年。
- 知道该去哪里:让大语言模型成为相关、负责且值得信赖的搜索引擎。 石翔等。
- 评估生成式临时信息检索。 卢卡斯·吉纳普等 Arxiv 2023年。
其他
- 演示–搜索–预测:将检索与语言模型结合用于知识密集型自然语言处理。 奥马尔·哈塔卜等 Arxiv 2023年。代码
多模态检索
统一单流架构
- Unicoder-VL:通过跨模态预训练实现视觉与语言的通用编码器。 李根、段楠等 AAAI 2020。[代码] (Unicoder-VL)
- XGPT:用于图像字幕生成的跨模态生成式预训练。 夏乔林、黄浩洋、段楠等 Arxiv 2020。[代码] (XGPT)
- UNITER:通用图像-文本表示学习。 陈彦淳、李林杰等 ECCV 2020。[代码] (UNITER)
- Oscar:面向视觉-语言任务的物体语义对齐预训练。 李秀军、尹曦等 ECCV 2020。[代码] (Oscar)
- VinVL:在视觉-语言模型中强化视觉表示的重要性。 张鹏川、李秀军等 ECCV 2020。[代码] (VinVL)
- 用于图文检索的动态模态交互建模。 Qu Leigang等 SIGIR 2021 最佳学生论文。[代码] (DIME)
应用于输入的多流架构
- ViLBERT:面向视觉-语言任务的预训练无关任务视觉语言表示。 陆嘉森、Dhruv Batra等 NeurIPS 2019。[代码] (VilBERT)
- 12-in-1:多任务视觉与语言表示学习。 陆嘉森、Dhruv Batra等 CVPR 2020。[代码] (基于VilBERT的多任务模型)
- 从自然语言监督中学习可迁移的视觉模型。 Alec Radford等 CVPR 2020。[代码] (CLIP,GPT团队)
- ERNIE-ViL:通过场景图增强知识的视觉-语言表示。 于飞、唐继吉等 Arxiv 2020。[代码] (ERNIE-ViL,VCR排行榜第一名)
- M6-v0:面向多模态预训练的视觉-语言交互。 林俊阳、杨安等 KDD 2020。(M6-v0/InterBERT)
- M3P:通过多任务、多语言、多模态预训练学习通用表示。 黄浩洋、苏琳等 CVPR 2021。[代码] (M3P,MILD数据集)
其他资源
一些检索工具包
关于NLP预训练模型的其他资源
关于高效Transformer的综述
- 高效Transformer:综述。 Yi Tay、Mostafa Dehghani等 Arxiv 2020。
版本历史
v1.02023/05/17相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器