awesome-pretrained-models-for-information-retrieval

676 49 非常简单 1 次阅读 3天前语言模型其他开发框架

AI 解读由 AI 自动生成，仅供参考

awesome-pretrained-models-for-information-retrieval 是一个精心整理的开源资源库，专注于收录与信息检索（IR）领域预训练模型相关的顶尖学术论文。在海量数据时代，如何让用户快速、精准地找到所需信息是核心挑战，而传统的检索方法往往难以应对复杂的语义理解需求。该项目通过系统梳理“预训练用于信息检索”的前沿成果，为从业者提供了一条清晰的技术演进路径。

它详细涵盖了从初步检索（包括稀疏、稠密及混合检索策略）到重排序阶段的全流程技术，并深入探讨了长文档处理、效率优化、跨语言检索以及大语言模型（LLM）与检索系统的融合等热点方向。无论是利用硬负样本采样提升稠密向量质量，还是探索生成式重排序模型，这里都提供了丰富的理论依据和实践参考。

这份资源特别适合人工智能研究人员、算法工程师以及对搜索技术感兴趣的开发者使用。对于希望构建高效搜索引擎、优化推荐系统或深入研究 LLM 增强检索（RAG）的团队而言，awesome-pretrained-models-for-information-retrieval 不仅是一份论文清单，更是一张指引技术选型与创新方向的实用地图，帮助大家站在巨人的肩膀上加速研发进程。

使用场景

某电商公司的搜索算法团队正致力于优化内部商品检索系统，试图将传统的关键词匹配升级为基于语义的深度学习检索架构。

没有 awesome-pretrained-models-for-information-retrieval 时

文献调研效率低下：团队成员需在 arXiv、Google Scholar 等平台手动海量筛选论文，耗时数周仍难以穷尽“稠密检索”或“长文档处理”领域的最新进展。
技术选型盲目：面对稀疏检索、混合检索及重排序等多种技术路线，缺乏系统的分类指引，导致难以判断哪种预训练模型最适合当前的业务场景。
复现成本高昂：由于找不到经过验证的权威论文列表，团队常误选未成熟或已废弃的模型，造成大量算力浪费在无效的代码复现与调试上。
前沿趋势脱节：容易忽略如"LLM 赋能信息检索”或“对抗攻击防御”等新兴交叉方向，致使系统架构在设计之初就缺乏前瞻性。

使用 awesome-pretrained-models-for-information-retrieval 后

调研路径清晰化：直接利用其结构化的论文清单，按“第一阶段检索”或“重排序阶段”快速定位到神经项重加权、硬负样本采样等关键技术的顶会论文。
决策依据科学化：参考列表中关于领域自适应和知识蒸馏的分类综述，迅速锁定适合电商垂直领域的预训练模型，大幅缩短技术验证周期。
落地成功率提升：依托 curated list 中收录的高质量成果，团队直接复现成熟的稠密检索方案，避免了踩坑，将模型上线时间从数月压缩至数周。
架构演进前瞻化：通过关注"LLM for IR"和“多模态检索”板块，及时引入生成式查询扩展等新技术，显著提升了系统对模糊查询的语义理解能力。

awesome-pretrained-models-for-information-retrieval 将分散的学术成果转化为系统的工程指南，帮助开发者在信息检索的深海中精准导航，实现从理论到落地的高效跨越。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个信息检索（IR）预训练模型相关论文的资源列表（Awesome List），并非一个可直接运行的单一软件工具或代码库。因此，README 中未包含具体的操作系统、硬件配置、Python 版本或依赖库安装要求。所列出的每个模型（如 DPR, ColBERT, SPLADE 等）都有独立的代码仓库和特定的环境需求，用户需参考各模型对应的链接获取具体运行指南。

python未说明

快速开始

awesome-pretrained-models-for-information-retrieval

一个精心整理的、与信息检索预训练模型相关的优秀论文列表（即“IR领域的预训练”）。如果我遗漏了某些论文，欢迎随时提交PR将其加入！同时也非常欢迎大家提出反馈和贡献！

混合检索

</details)

第二阶段：重排序

基本用法

判别式排序模型
生成式排序模型
混合型排序模型

长文档处理技术

段落得分聚合
段落表示聚合
设计新架构

提升效率

解耦交互过程
知识蒸馏
部分微调
提前退出

其他主题

查询扩展
训练样本权重调整
专为重排序定制的预训练
对抗攻击与防御
跨语言检索

观点或综述
合成查询生成
合成文档生成
用于相关性打分的大语言模型
基于IR的文本生成
其他

综述论文

信息检索中的预训练方法。 Yixing Fan, Xiaohui Xie 等. FnTIR 2022
基于预训练语言模型的稠密文本检索：综述。 Wayne Xin Zhao, Jing Liu 等. Arxiv 2022
用于文本排序的预训练Transformer：BERT及其之后。 Jimmy Lin 等. M&C 2021
初检阶段的语义模型：全面回顾。 Jiafeng Guo 等. TOIS 2021
深入探讨信息检索中的神经网络排序模型。 Jiafeng Guo 等. IPM 2020

第一阶段检索

稀疏检索

神经网络术语重加权

利用分布式表示学习术语重加权。 Guoqing Zheng, Jamie Callan SIGIR 2015。（DeepTR）
面向第一阶段段落检索的上下文感知术语权重调整。 Zhuyun Dai等 SIGIR 2020 短文。[代码]（DeepCT）
面向即席检索的上下文感知文档术语权重调整。 Zhuyun Dai等 WWW 2020。[代码]（HDCT）
学习术语判别能力。 Jibril Frej等 SIGIR 2020。（IDF-重加权）
COIL：用上下文化倒排索引重新审视信息检索中的精确词汇匹配。 Luyu Gao等 NAACL 2020。[代码]（COIL）
为倒排索引学习段落影响。 Antonio Mallia等 SIGIR 2021 短文。[代码]（DeepImapct）

查询或文档扩展

基于查询预测的文档扩展。 Rodrigo Nogueira等 [doc2query 代码, docTTTTTquery 代码]（doc2query, docTTTTTquery）
用于开放域问答的生成增强型检索。 Yuning Mao等 ACL 2021。[代码]（使用 BART 进行查询扩展）
利用随机文本生成进行信息检索的无监督文档扩展。 Jeong等 arXiv 2021。[代码]（无监督文档扩展）

稀疏表示学习

SparTerm：学习基于术语的稀疏表示以实现快速文本检索。 Yang Bai, Xiaoguang Li等 Arxiv 2020。（SparTerm：由 MLM+二值术语门控得到的术语重要性分布）
面向实时开放域问答的上下文化稀疏表示。 Jinhyuk Lee, Minjoon Seo等 ACL 2020。[代码]（SPARC，稀疏向量）
SPLADE：用于第一阶段排序的稀疏词汇及扩展模型。，以及 v2。 Thibault Formal等 SIGIR 2021。[代码]（SPLADE）
通过二值化实现超高维稀疏表示以提高文本检索效率。 Kyoung-Rok Jang等 EMNLP 2021。（UHD）
用于开放域问答的哈希高效段落检索。 Ikuya Yamada等 ACL 2021。[代码]（BPR，将嵌入向量转换为二进制码）

密集检索

硬负采样

用于开放域问答的密集段落检索。 Vladimir Karpukhin, Barlas Oguz等 EMNLP 2020 [代码]（DPR，批次内负样本）
RepBERT：用于第一阶段检索的上下文化文本嵌入。 Jingtao Zhan等 Arxiv 2020。[代码]（RepBERT）
密集文本检索中的近似最近邻负对比学习。 Lee Xiong, Chenyan Xiong等 [代码]（ANCE，训练期间刷新索引）
RocketQA：一种优化的训练方法，用于开放域问答的密集段落检索。 Yingqi Qu等 NAACL 2021。（RocketQA：跨批次负样本、去噪硬负样本和数据增强）
利用硬负样本优化密集检索模型训练。 Jingtao Zhan等 SIGIR 2021。[代码]（ADORE&STAR，基于预训练文档编码器的查询端微调）
通过平衡的主题感知采样高效地训练有效的密集检索器。 Sebastian Hofstätter等 SIGIR 2021。[代码]（TAS-Balanced，从查询簇中采样并从 BERT 集成模型中蒸馏）
PAIR：利用以段落为中心的相似性关系改进密集段落检索 Ruiyang Ren等 EMNLP Findings 2021。[代码]（PAIR）

晚期交互与多向量表示

ColBERT：通过在 BERT 上进行上下文化的晚期交互实现高效且有效的段落搜索。 Omar Khattab等 SIGIR 2020。[代码]（ColBERT）
多编码器：用于快速准确的多句评分的架构和预训练策略。 Samuel Humeau, Kurt Shuster等 ICLR 2020。[代码]（多编码器）
用于文本检索的稀疏、密集和注意力机制表示。 Yi Luan, Jacob Eisenstein等 TACL 2020。（ME-BERT，多向量）
通过生成伪查询嵌入来改进文档表示，以用于密集检索。 Hongyin Tang, Xingwu Sun等 ACL 2021。
使用密集-稀疏短语索引实现实时开放域问答。 Minjoon Seo, Jinhyuk Lee等 ACL 2019。[代码]（DENSPI）
大规模学习短语的密集表示。 Jinhyuk Lee, Danqi Chen等 ACL 2021。[代码]（DensePhrases）
面向开放域密集检索的多视角文档表示学习。 Shunyu Zhang等 ACL 2022。（MVR）
用于信息检索的多变量表示学习。 Hamed Zamani等 SIGIR 2023。（学习多变量分布）

知识蒸馏

从阅读器向检索器蒸馏知识用于问答。 Gautier Izacard, Edouard Grave. ICLR 2020。[非官方代码] (将阅读器的交叉注意力蒸馏到检索器)
为快速检索型聊天机器人进行知识蒸馏。 Amir Vakili Tahami等。 SIGIR 2020。[代码] (从交叉编码器蒸馏到双编码器)
通过跨架构知识蒸馏改进高效的神经排序模型。 Sebastian Hofstätter等。 Arxiv 2020。[代码] (从BERT集成模型蒸馏)
利用紧密耦合的教师模型蒸馏密集表示以用于排序。 Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin。 Arxiv 2020。[代码] (TCTColBERT：从ColBERT蒸馏)
通过平衡的主题感知采样高效地训练有效的密集检索器。 Sebastian Hofstätter等。 SIGIR 2021。[代码] (TAS-Balanced，从查询簇中采样并从BERT集成模型蒸馏)
RocketQAv2：一种用于密集段落检索和段落重排序的联合训练方法。 Ruiyang Ren, Yingqi Qu等。 EMNLP 2021。[代码] (RocketQAv2，通过知识蒸馏进行联合学习)
面向少样本对话式密集检索的课程式对比上下文去噪。 Kelong Mao等。 SIGIR 2022。

针对密集检索量身定制的预训练

用于弱监督开放域问答的潜在检索。 Kenton Lee等。 ACL 2019。[代码] (ORQA，ICT)
基于嵌入的大规模检索的预训练任务。 Wei-Cheng Chang等。 ICLR 2020。(ICT、BFS和WLP)
REALM：检索增强的语言模型预训练。 Kelvin Guu、Kenton Lee等。 ICML 2020。[代码] (REALM)
少即是多：使用弱解码器为密集检索预训练强大的文本编码器。 Shuqi Lu、Di He、Chenyan Xiong等。 EMNLP 2021。[代码] (Seed)
Condenser：一种用于密集检索的预训练架构。 Luyu Gao等。 EMNLP 2021。[代码] (Condenser)
面向多语言密集检索的无监督上下文感知句子表示预训练。 Ning Wu等。 JICAI 2022。[代码] (CCP，跨语言预训练)
面向密集段落检索的无监督语料库感知语言模型预训练。 Luyu Gao等。 ACL 2022。[代码] (coCondenser)
LaPraDoR：用于零样本文本检索的无监督预训练密集检索器。 Canwen Xu、Daya Guo等。 ACL 2022。[代码] (LaPraDoR，ICT+dropout)
一种通过对比预训练学习用于密集检索的判别自编码器的方法。 Xinyu Ma等。 CIKM 2022。(CPADE，基于文档词频分布的对比预训练)
通过对比跨度预测为密集检索预训练判别性文本编码器 Xinyu Ma等。 SIGIR 2022。[代码] (COSTA，分组对比学习)
H-ERNIE：一种用于网页搜索的多粒度预训练语言模型。 Xiaokai Chu等。 SIGIR 2022。(H-ERNIE)
保持结构与语义的文档表示。 Natraj Raman等。 SIGIR 2022。
Contriever：利用对比学习实现无监督的密集信息检索。 Gautier Izacard等。 TMLR 2022。[代码] (Contriever)
通过插值与扰动生成密集检索用的文档表示。 Jeong等。 ACL 2022。[代码] (用于密集检索的增强)

检索与索引的联合学习

深度检索模型与基于产品量化技术的嵌入索引的联合学习。 Han Zhang等。 SIGIR 2021短会。[代码] (Poeem)
联合优化查询编码器和产品量化以提升检索性能。 Jingtao Zhan等。 CIKM 2021。[代码] (JPQ)
通过约束聚类学习离散表示以实现有效且高效的密集检索。 Jingtao Zhan等。 WSDM 2022。[代码] (RepCONC)
面向即席检索的匹配导向嵌入量化。 Shitao Xiao等。 EMNLP 2021。[代码]
Distill-VQ：通过从密集嵌入中蒸馏知识来学习面向检索的向量量化。 Shitao Xiao等。 SIGIR 2022。[代码]

多跳密集检索

利用多跳密集检索回答复杂的开放域问题。 Wenhan Xiong、Xiang Lorraine Li等。 ICLR 2021 [代码] (迭代地将问题和先前检索到的文档编码为查询向量)

领域适应

面向知识密集型任务的多任务检索。 Jean Maillard、Vladimir Karpukhin^等。 ACL 2021。(多任务学习)
评估密集检索的外推性能。 Jingtao Zhan等。 CIKM 2022。[代码]

重排序阶段

基本用法

判别式排序模型

表示聚焦型

理解BERT在排序中的行为。 Yifan Qiao等 Arxiv 2019。(表示聚焦型和交互聚焦型)

交互聚焦型

使用BERT对段落进行重排序。 Rodrigo Nogueira等 [代码] (monoBERT：可能是最早将BERT应用于信息检索的工作)
使用BERT进行多阶段文档排序，预训练序列到序列模型用于文本排序的Expando-Mono-Duo设计模式。 Rodrigo Nogueira等 Arxiv 2020。(Expando-Mono-Duo：doc2query+点对点+成对)
CEDR：用于文档排序的上下文化嵌入。 Sean MacAvaney等 SIGIR 2020简报。[代码] (CEDR：BERT+neuIR模型)

生成式排序模型

通过生成式排序超越[CLS]。 Cicero Nogueira dos Santos等 EMNLP 2020简报。(使用GPT和BART生成查询)
使用预训练序列到序列模型进行文档排序。 Rodrigo Nogueira、Zhiying Jiang等 EMNLP 2020。[代码] (使用T5生成相关性标记)
RankT5：使用排序损失对T5进行微调以用于文本排序。 Honglei Zhuang等 Arxiv 2022。

混合排序模型

利用生成任务泛化判别式检索模型。 Bingsheng Liu、Hamed Zamani等 WWW 2021。(GDMTL，多任务学习的联合判别式和生成式模型)

长文档处理技术

段落得分聚合

借助上下文神经语言建模实现更深入的IR文本理解。 Zhuyun Dai等 SIGIR 2020简报。[代码] (BERT-MaxP、BERT-firstP、BERT-sumP：段落级别)
BERT在即席文档检索中的简单应用，使用Birch将BERT应用于文档检索，跨领域建模句子级证据用于文档检索。 Wei Yang、Haotian Zhang等 Arxiv 2020，Zeynep Akkalyoncu Yilmaz等 EMNLP 2019简报。[代码] (Birch：句子级别)
文档内级联：学习选择段落以进行神经文档排序。 Sebastian Hofstätter等 SIGIR 2021。[代码] (将排序模型蒸馏到conv-knrm以选择前k个段落)

段落表示聚合

PARADE：用于文档重排序的段落表示聚合。 Canjia Li等 Arxiv 2020。[代码] (对各种段落表示聚合方法进行了广泛比较)
利用段落级累积增益进行文档排序。 Zhijing Wu等 WWW 2020。(PCGM)

设计新架构

针对长文本的局部自注意力机制以实现高效文档检索。 Sebastian Hofstätter等 SIGIR 2020简报。[代码] (TKL：用于长文本的Transformer-Kernel)
超越512个token：用于长文档匹配的暹罗多深度Transformer分层编码器。 Liu Yang等 CIKM 2020。[代码] (SMITH用于文档到文档的匹配)
Socialformer：受社交网络启发的长文档建模用于文档排序。 Yujia Zhou等 WWW 2022。(Socialformer)

提高效率

解耦交互

DC-BERT：为高效上下文编码解耦问题与文档。 张宇宇、聂平等 SIGIR 2020 短文。（DC-BERT）
通过预计算词项表示实现 Transformer 的高效文档重排序。 肖恩·麦卡维尼等 SIGIR 2020。[代码]（PreTTR）
基于 Transformer 的模块化排序框架。 高璐宇等 EMNLP 2020。[代码]（MORES，类似于 PreTTR）
TILDE：用于段落重排序的词项独立似然模型。 庄圣尧、圭多·祖孔 SIGIR 2021。[代码]（TILDE）
用于高效文档排序的快速前向索引。 尤雷克·莱昂哈特等 WWW 2022。（快速前向索引）

知识蒸馏

理解蒸馏下的 BERT 排序器。 高璐宇等 ICTIR 2020。（语言模型蒸馏 + 排序器蒸馏）
简化版 TinyBERT：用于文档检索的知识蒸馏。 陈宣昂等 ECIR 2021。[代码]（TinyBERT+知识蒸馏）

部分微调

采用轻量级微调的半暹罗双编码器神经排序模型。 郑恩娜、崔在赫等 WWW 2022。[代码]（轻量级微调）
分散还是连接？一种面向信息检索的优化参数高效微调方法。 马鑫宇等 CIKM 2022。（IAA，引入旁路模块以稳定训练）

早期退出

级联 Transformer：一种用于高效答案句子选择的应用。 卢卡·索尔代尼等 ACL 2020。[代码]（级联 Transformer：按层剪枝候选）
用于高效文档排序的 BERT 早期退出。 辛吉等 EMNLP 2020 SustaiNLP 工作坊。[代码]（早期退出）

其他主题

查询扩展

BERT-QE：用于文档重排序的上下文化查询扩展。 郑志等 EMNLP 2020 Findings。[代码]（BERT-QE）

重新加权训练样本

开放域答案重排序的训练课程。 肖恩·麦卡维尼等 SIGIR 2020。[代码]（基于 BM25 的课程学习）
并非所有相关性得分都相等：深度检索模型的高效不确定性与校准建模。 丹尼尔·科恩等 SIGIR 2021。

针对重排序量身定制的预训练

MarkedBERT：将传统 IR 特征融入预训练语言模型以进行段落检索。 莉拉·布阿利利等 SIGIR 2020 短文。[代码]（MarkedBERT）
面向神经信息检索的选择性弱监督。 张凯涛等 WWW 2020。[代码]（ReInfoSelect）
PROP：针对即席检索的代表性词预测预训练。 马鑫宇等 WSDM 2021。[代码]（PROP）
用于检索的跨语言语言模型预训练。 于普轩等 WWW 2021。
B-PROP：基于代表性词预测的即席检索自举式预训练。 马鑫宇等 SIGIR 2021。[代码]（B-PROP）
即席检索的预训练：超链接也是你需要的。 马正毅等 CIKM 2021。[代码]（HARP）
面向上下文文档排序的用户行为序列对比学习。 朱宇涛等 CIKM 2021。[代码]（COCA）
百度搜索中基于预训练语言模型的排序。 邹立新等 KDD 2021。
用于段落排序与扩展的统一预训练框架。 严明等 AAAI 2021。（UED，联合训练排序与查询生成）
面向即席搜索的公理化正则化预训练。 陈佳等 SIGIR 2022。[代码]（ARES）
Webformer：面向信息检索的网页预训练。 郭宇等 SIGIR 2022。（Webformer）

对抗攻击与防御

竞争性搜索。 奥伦·库兰德等 SIGIR 2022。
PRADA：针对神经排序模型的实用黑盒对抗攻击。 吴晨等 Arxiv 2022。
有序—无序：针对黑盒神经排序模型的模仿式对抗攻击 刘嘉伟等 CCS 2022。
神经排序模型是否鲁棒？ 吴晨等 TOIS。
神经排序模型对词语替换排序攻击的认证鲁棒性 吴晨等 CIKM 2022。
面向黑盒神经排序模型的主题导向对抗攻击。 刘宇安等 SIGIR 2023。

跨语言检索

用于迭代自监督训练的跨语言检索。 周 Tran 等 NIPS 2020。[代码]（CRISS）
CLIRMatrix：一个超大规模的双语和多语数据集，用于跨语言信息检索。 孙硕等 EMNLP 2020。[代码]（多语数据集—CLIRMatrix 和多语 BERT）

检索与重排序的联合学习

RocketQAv2：密集段落检索与段落重排序的联合训练方法。 任瑞阳、屈英琪等 EMNLP 2021。[代码] (RocketQAv2)
用于密集文本检索的对抗性检索器-排序器。 张航等 ICLR 2022。[代码] (AR2)
RankFlow：将多阶段级联排序系统作为流进行联合优化。 秦嘉睿等 SIGIR 2022。(RankFlow)

基于模型的IR系统

重新思考搜索：让业余爱好者成为领域专家。 唐纳德·梅茨勒等 SIGIR Forum 2020。 (构想了基于模型的IR系统)
Transformer内存作为可微分的搜索索引。 泰毅等 Arxiv 2022。 (DSI)
DynamicRetriever：一种既无稀疏索引也无稠密索引的预训练模型IR系统。 周宇佳等 Arxiv 2022。 (DynamicRetriever)
用于文档检索的神经语料库索引器。 王玉静等 Arxiv 2022。（NCI）
自回归搜索引擎：生成子字符串作为文档标识符。 米凯莱·贝维拉夸等 Arxiv 2022。[代码] (SEAL)
CorpusBrain：为知识密集型语言任务预训练生成式检索模型。 陈江贵等 CIKM 2022。[代码] (CorpusBrain)
通过提示学习实现知识密集型语言任务的统一生成式检索器。 陈江贵等 SIGIR 2023。[代码] (UGR)
TOME：一种基于模型的两阶段检索方法。 任瑞阳等 ACL 2023。（TOME：先生成段落，再生成URL）
生成式检索如何扩展到数百万个段落？ 罗纳克·普拉迪普、凯辉等 Arxiv 2023。（对所提出方法的全面研究，使用合成查询作为文档ID）
受学习策略启发的语义增强可微分搜索索引。 唐宇宝等 KDD 2023。（语义增强版DSI）

LLM与IR

观点或综述

信息检索遇上大语言模型：来自中国IR界的策略报告。 青瑶AI等 CCIR社区。AI Open 2023。
面向信息检索的大语言模型：综述。 朱宇涛等 中国人民大学。Arxiv 2023。
借助AI副驾驶应对复杂的搜索任务。 赖恩·W·怀特 微软研究院。Arxiv 2023。

检索增强LLM

用于知识密集型NLP任务的检索增强生成。 帕特里克·刘易斯、伊森·佩雷斯等 NIPS 2020。（RAG，针对4.4亿参数的BART）
通过从数万亿个标记中检索来改进语言模型。 塞巴斯蒂安·博尔戈、阿瑟·门施、乔丹·霍夫曼等 ICML 2022。[代码]（*RETRO，编码解码架构，75亿参数）
Atlas：利用检索增强语言模型进行少样本学习。 高蒂埃·伊扎卡尔、帕特里克·刘易斯等 Arxiv 2022。[代码] (Atlas，T5，110亿参数)
通过少样本提示对开放域问答进行互联网增强的语言模型。 安杰莉基·拉扎里杜等 Arxiv 2022。（Gopher 280B，以谷歌搜索结果为条件）
通过迭代的检索-生成协同作用增强检索增强大型语言模型。 邵志宏等 Arxiv 2023。
检索增强预训练后的指令调优。 王博欣等 Arxiv 2023。
检索任何内容以增强大型语言模型。

LLM用于IR

合成查询生成

通过零样本问题生成改进段落检索。 Devendra Singh Sachan 等人 EMNLP 2022。[代码](UPR，基于GPT-neo 2.7B/T0 3B、11B的查询似然对文档进行重排序)
Promptagator：仅用8个示例实现少样本密集检索。 Zhuyun Dai 等人 ICLR 2023。(使用上下文学习和FLAN 137B生成伪查询)
UDAPDR：通过LLM提示和重排序器蒸馏实现无监督领域适应。 Jon Saad-Falcon、Omar Khattab 等人 Arxiv 2023。代码
InPars：利用大型语言模型进行信息检索的数据增强。 Luiz Bonifacio 等人 Arxiv 2022。[代码](使用GPT-3 Curie通过上下文学习生成伪查询，并根据查询生成概率选择前k个q-d对)
InPars-v2：大型语言模型作为信息检索的高效数据生成器。 Vitor Jeronymo 等人 Arxiv 2023。[代码](与InPars类似，使用GPT-J 6B LLM及微调后的重排序器作为选择器)
InPars-Light：经济高效的高效排序器无监督训练。 Leonid Boytsov 等人 Arxiv 2023。(与InPars相似，使用GPT-J 6B和BLOOM 7B)
基于大型语言模型的生成式相关性反馈。 Iain Mackie 等人 SIGIR 2023简报。(GRF，使用GPT3生成多种信息用于相关性反馈)
通过提示大型语言模型进行查询扩展。 Rolf Jagerman 等人 Arxiv 2023。
探索合成查询生成在相关性预测中的可行性。 Aditi Chaudhary 等人 Arxiv 2023。(使用FLAN-137B进行标签条件生成)
基于大型语言模型的淘宝搜索长尾查询改写。 Wenjun Peng 等人 Arxiv 2023。
生成、过滤与融合：面向零样本神经排序器的多步关键词生成查询扩展。 Minghan Li 等人 Arxiv 2023。(使用Flan-PaLM2-S生成关键词)
利用LLM在多语言密集检索中跨多种语言合成训练数据。 Nandan Thakur 等人 Arxiv 2023。

合成文档生成

与其检索，不如生成：大型语言模型是强大的上下文生成器。 Wenhao Yu 等人 ICLR 2023。[代码] (GenRead，使用InstructGPT生成读者所需的伪文档)
背诵增强型语言模型。 Zhiqing Sun 等人 ICLR 2023。[代码] (与GenRead类似)
无需相关性标签的精准零样本密集检索。 Luyu Gao、Xueguang Ma 等人 Arxiv 2022。[代码] (HyDE，InstructGPT生成伪文档，Contriever检索真实文档)
Query2doc：利用大型语言模型进行查询扩展。 Liang Wang 等人 Arxiv 2023。(使用上下文学习生成伪文档，然后与查询拼接，采用text-davinci-003)
大型语言模型是强大的零样本检索器。 Tao Shen 等人 Arxiv 2023。(与Hyde类似，使用BM25将检索到的文档补充到LLM中)
为交叉编码器重排序器生成合成文档：ChatGPT与人类专家的比较研究。 Arian Askari 等人 Arxiv 2023。[代码] (使用ChatGPT生成的合成数据进行排序)

用于相关性评分的大语言模型

基于指令的任务感知检索。 浅井明里、蒂莫·希克等 Arxiv 2022年。[代码] (TART，包含40个带指令的任务数据集，15亿参数的FLAN-T5)
一个嵌入器，任意任务：指令微调的文本嵌入。 苏洪进、史伟嘉等 代码
ExaRanker：基于解释增强的神经排序器。 费尔南多·费拉雷托等 Arxiv 2023年。[代码] (使用monoT5同时训练相关性分数和由GPT-3.5（text-davinci-002）生成的解释)
关于大语言模型在相关性判断中的视角。 古列尔莫·法吉奥利等 Arxiv 2023年。(观点论文)
利用大语言模型进行零样本列表式文档重排序。 马学光等 Arxiv 2023年。(LRL，使用GPT3生成排序列表)
大语言模型本身就是自回归搜索引擎。 诺亚·齐姆斯等 Arxiv 2023年。(LLM-URL，使用GPT-3 text-davinci-003生成URL，基于模型的信息检索)
ChatGPT擅长搜索吗？探究大语言模型作为重排序代理。 孙伟伟等 EMNLP主会2023年。代码
通过成对排序提示，大语言模型可有效进行文本排序。 秦振等 Arxiv 2023年。
RankVicuna：利用开源大语言模型进行零样本列表式文档重排序。 罗纳克·普拉迪普等 Arxiv 2023年。[代码]
中间发现：排列自一致性提升大语言模型中的列表式排序。 拉斐尔·唐、张欣宇等 Arxiv 2023年。[代码]
为多阶段文本检索微调LLaMA。 马学光等 Arxiv 2023年。
一种集合式方法，用于高效且有效的零样本排序大语言模型。 庄圣尧等 Arxiv 2023年。
开源大语言模型是强大的零样本查询似然模型，可用于文档排序。 庄圣尧等 Arxiv 2023年。[代码]
PaRaDe：利用大语言模型进行演示的段落排名。 安德鲁·德罗佐夫等 Arxiv 2023年。
超越“是”与“否”：通过细粒度的相关性标签评分改进零样本大语言模型排序器。 庄宏磊等 Arxiv 2023年。
大语言模型可以准确预测搜索者的偏好。 保罗·托马斯等 Arxiv 2023年。
RankZephyr：高效稳健的零样本列表式重排序轻而易举！ 罗纳克·普拉迪普等 Arxiv 2023年。
无需GPT的排序：基于开源大语言模型构建独立于GPT的列表式重排序器。 张欣宇等 Arxiv 2023年。

用于生成式检索的大语言模型

ACID：基于内容的抽象ID，用于语言模型驱动的文档检索。 李浩鑫等 Arxiv 2023年。(使用GPT-3.5生成关键词)

检索增强型文本生成

WebGPT：浏览器辅助的人工反馈问答系统。 中野玲一郎、雅各布·希尔顿、苏奇尔·巴拉吉等 Arxiv 2022年。(WebGPT，GPT3)
教导语言模型用经过验证的引文支持答案。 DeepMind Arxiv 2022年。
评估生成式搜索引擎中的可验证性。 尼尔森·F·刘等 Arxiv 2023年。[代码]
使大语言模型能够生成带有引用的文本。 高天宇等 Arxiv 2023年。[代码] (ALCE基准测试)
FreshLLMs：通过搜索引擎增强刷新大语言模型。 涂武等 Arxiv 2023年。[代码]
检索任何内容以增强大语言模型。 张培田、肖世涛等 Arxiv 2023年。[代码]
利用事件模式提出澄清问题，用于对话式法律案件检索。 刘步楼等 CIKM 2023年。
知道该去哪里：让大语言模型成为相关、负责且值得信赖的搜索引擎。 石翔等。
评估生成式临时信息检索。 卢卡斯·吉纳普等 Arxiv 2023年。

其他

演示–搜索–预测：将检索与语言模型结合用于知识密集型自然语言处理。 奥马尔·哈塔卜等 Arxiv 2023年。代码

多模态检索

统一单流架构

Unicoder-VL：通过跨模态预训练实现视觉与语言的通用编码器。 李根、段楠等 AAAI 2020。[代码] (Unicoder-VL)
XGPT：用于图像字幕生成的跨模态生成式预训练。 夏乔林、黄浩洋、段楠等 Arxiv 2020。[代码] (XGPT)
UNITER：通用图像-文本表示学习。 陈彦淳、李林杰等 ECCV 2020。[代码] (UNITER)
Oscar：面向视觉-语言任务的物体语义对齐预训练。 李秀军、尹曦等 ECCV 2020。[代码] (Oscar)
VinVL：在视觉-语言模型中强化视觉表示的重要性。 张鹏川、李秀军等 ECCV 2020。[代码] (VinVL)
用于图文检索的动态模态交互建模。 Qu Leigang等 SIGIR 2021 最佳学生论文。[代码] (DIME)

应用于输入的多流架构

ViLBERT：面向视觉-语言任务的预训练无关任务视觉语言表示。 陆嘉森、Dhruv Batra等 NeurIPS 2019。[代码] (VilBERT)
12-in-1：多任务视觉与语言表示学习。 陆嘉森、Dhruv Batra等 CVPR 2020。[代码] (基于VilBERT的多任务模型)
从自然语言监督中学习可迁移的视觉模型。 Alec Radford等 CVPR 2020。[代码] (CLIP，GPT团队)
ERNIE-ViL：通过场景图增强知识的视觉-语言表示。 于飞、唐继吉等 Arxiv 2020。[代码] (ERNIE-ViL，VCR排行榜第一名)
M6-v0：面向多模态预训练的视觉-语言交互。 林俊阳、杨安等 KDD 2020。(M6-v0/InterBERT)
M3P：通过多任务、多语言、多模态预训练学习通用表示。 黄浩洋、苏琳等 CVPR 2021。[代码] (M3P，MILD数据集)

其他资源

一些检索工具包

关于NLP预训练模型的其他资源

关于高效Transformer的综述

高效Transformer：综述。 Yi Tay、Mostafa Dehghani等 Arxiv 2020。

awesome-pretrained-models-for-information-retrieval 快速上手指南

本项目并非一个单一的 Python 包，而是一个精选列表（Awesome List），收录了信息检索（IR）领域预训练模型相关的论文、代码库和资源。本指南将指导你如何利用该列表找到合适的模型，并以列表中热门的 DPR (Dense Passage Retrieval) 和 SPLADE 为例，演示如何快速搭建环境并运行代码。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2 推荐)
Python: 3.8 或更高版本
硬件: 建议配备 NVIDIA GPU (显存 8GB+) 以进行模型微调或推理；仅使用预训练权重进行轻量级推理可在 CPU 上运行。
前置依赖:
- git: 用于克隆代码库
- pip 或 conda: 包管理工具
- CUDA & cuDNN: 如需使用 GPU 加速，请预先安装与 PyTorch 版本匹配的驱动。

安装步骤

由于本项目是资源列表，你需要根据需求选择具体的模型仓库进行安装。以下以两个代表性项目为例：

1. 获取资源列表

首先克隆本仓库以浏览所有可用资源：

git clone https://github.com/FlagOpen/awesome-pretrained-models-for-information-retrieval.git
cd awesome-pretrained-models-for-information-retrieval

(注：如果访问 GitHub 较慢，可使用国内镜像源如 https://gitee.com/mirrors/awesome-pretrained-models-for-information-retrieval 若存在，或直接访问原库)

2. 安装具体模型示例：DPR (Facebook Research)

DPR 是稠密检索的基准模型。

# 克隆 DPR 官方代码库
git clone https://github.com/facebookresearch/DPR.git
cd DPR

# 创建虚拟环境 (推荐)
python -m venv dpr_env
source dpr_env/bin/activate  # Windows 用户请使用: dpr_env\Scripts\activate

# 安装依赖 (使用国内 pip 源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 DPR 包本身
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装具体模型示例：SPLADE (Naver)

SPLADE 是稀疏检索的代表模型。

# 克隆 SPLADE 代码库
git clone https://github.com/naver/splade.git
cd splade

# 创建并激活环境
conda create -n splade python=3.8 -y
conda activate splade

# 安装依赖 (使用国内源)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

以下展示如何加载预训练模型并进行简单的检索测试。

示例 1：使用 DPR 进行编码 (Dense Retrieval)

此示例演示如何加载预训练的查询编码器（Query Encoder）并将文本转换为向量。

import torch
from dpr.models import init_encoder_components
from dpr.options import add_encoder_params, setup_args_gpu, print_args
from dpr.utils.model_utils import setup_for_distributed_mode, get_model_obj

# 1. 初始化参数 (模拟命令行参数)
# 这里以 bi-encoder 为例，使用 facebook-dpr-question_encoder-multiset-base
class Args:
    encoder_type = "hf_bert"
    pretrained_file = "facebook/dpr-question_encoder-multiset-base"
    sequence_length = 256
    dropout = 0.1
    fp16 = False
    local_rank = -1
    device = "cuda" if torch.cuda.is_available() else "cpu"

args = Args()

# 2. 初始化模型组件
encoder, tokenizer = init_encoder_components(args.encoder_type, args)

# 3. 准备输入数据
questions = ["What is the capital of France?", "How does photosynthesis work?"]
tokenized_data = tokenizer(questions, return_tensors="pt", padding=True, truncation=True)

# 4. 生成嵌入向量
with torch.no_grad():
    outputs = encoder(tokenized_data["input_ids"], tokenized_data["attention_mask"])
    embeddings = outputs.pooler_output  # 获取 [CLS] 向量作为句子表示

print(f"Input questions: {questions}")
print(f"Embedding shape: {embeddings.shape}")
# 输出示例: Embedding shape: torch.Size([2, 768])

示例 2：使用 SPLADE 进行加权 (Sparse Retrieval)

SPLADE 通过 MLM 头预测词的重要性权重。以下是基于 Hugging Face transformers 的简化调用逻辑（需先安装 transformers）。

from transformers import AutoModelForMaskedLM, AutoTokenizer
import torch

# 1. 加载预训练模型 (以 SPLADE v2 为例)
model_name = "naver/splade-cocondenser-ensembledistil"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForMaskedLM.from_pretrained(model_name)

# 2. 准备文档或查询
text = "The quick brown fox jumps over the lazy dog."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)

# 3. 前向传播获取词权重
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    
    # SPLADE 核心操作: ReLU + Log(1+x) 激活
    weights = torch.relu(logits).log1p()
    
    # 获取每个 token 的最大权重 (max pooling over vocab dimension for each position)
    # 注意：实际 SPLADE 实现通常会对同一词的不同子词进行聚合
    aggregated_weights = torch.max(weights, dim=1).values 

# 4. 映射回词汇表查看高权重词
vocab = tokenizer.get_vocab()
ids = inputs["input_ids"][0]
for i, weight in enumerate(aggregated_weights[0]):
    if weight > 0.5: # 过滤低权重词
        token = tokenizer.convert_ids_to_tokens([ids[i]])[0]
        print(f"Token: {token}, Weight: {weight.item():.4f}")

下一步建议

浏览本项目根目录下的 README.md，根据 "First-stage Retrieval" (第一阶段检索) 或 "Re-ranking Stage" (重排序阶段) 分类，查找更多特定任务的论文链接和对应的 GitHub 代码库地址，按照各仓库的具体说明进行深度使用。

版本历史

v1.02023/05/17

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|4天前

插件开发框架

使用场景

没有 awesome-pretrained-models-for-information-retrieval 时

使用 awesome-pretrained-models-for-information-retrieval 后

运行环境要求

快速开始

awesome-pretrained-models-for-information-retrieval

IR领域的预训练

综述论文

第一阶段检索

稀疏检索

神经网络术语重加权

查询或文档扩展

稀疏表示学习

密集检索

硬负采样

晚期交互与多向量表示

知识蒸馏

针对密集检索量身定制的预训练

检索与索引的联合学习

多跳密集检索

领域适应

查询改写

偏差

混合检索

重排序阶段

基本用法

判别式排序模型

表示聚焦型

交互聚焦型

生成式排序模型

混合排序模型

长文档处理技术

段落得分聚合

段落表示聚合

设计新架构

提高效率

解耦交互

知识蒸馏

部分微调

早期退出

其他主题

查询扩展

重新加权训练样本

针对重排序量身定制的预训练

对抗攻击与防御

跨语言检索

检索与重排序的联合学习

基于模型的IR系统

LLM与IR

观点或综述

检索增强LLM

LLM用于IR

合成查询生成

合成文档生成

用于相关性评分的大语言模型

用于生成式检索的大语言模型

检索增强型文本生成

其他

多模态检索

统一单流架构

应用于输入的多流架构

其他资源

一些检索工具包

关于NLP预训练模型的其他资源

关于高效Transformer的综述

awesome-pretrained-models-for-information-retrieval 快速上手指南

环境准备

安装步骤

1. 获取资源列表

2. 安装具体模型示例：DPR (Facebook Research)

3. 安装具体模型示例：SPLADE (Naver)

基本使用

示例 1：使用 DPR 进行编码 (Dense Retrieval)

示例 2：使用 SPLADE 进行加权 (Sparse Retrieval)

下一步建议

版本历史

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code