Reco-papers
Reco-papers 是一个专注于推荐系统领域的开源知识库,由行业专家王喆整理并动态更新。它汇集了推荐算法发展史上的经典论文、前沿技术文档以及业界实战分享,旨在解决从业者在海量学术资源中难以高效筛选核心价值内容的痛点。
该资源库内容结构清晰,涵盖了从“召回与重排序”到“深度学习推荐模型”等关键模块。其中不仅收录了阿里巴巴的 DIN、微软的 Deep Crossing、斯坦福的 DCN 等里程碑式论文,还包含了关于个性化重排序(PRM)、多样性优化及大规模检索结构等具体工程实践的深度资料。相比通用的学术搜索引擎,Reco-papers 的独特亮点在于其“工业界视角”,精选的文章多为经过大规模业务验证的技术方案,兼具理论深度与落地指导意义。
Reco-papers 非常适合推荐算法工程师、人工智能研究人员以及相关领域的学生使用。对于希望快速构建知识体系、追踪技术演进路线或寻找工程优化灵感的开发者而言,这是一份极具价值的入门指南与进阶手册。通过这份清单,用户能够系统地掌握推荐系统的核心脉络,避免在碎片化信息中迷失方向,从而更高效地提升专业能力。
使用场景
某电商平台的推荐算法工程师正在为“双 11"大促优化召回与重排序模块,急需寻找能平衡准确率与多样性的前沿工业界方案。
没有 Reco-papers 时
- 检索效率低下:需要在 Google Scholar、ArXiv 和各类博客中碎片化搜索,耗费数天才能拼凑出完整的“召回 - 粗排 - 精排”技术链路。
- 缺乏工业落地视角:找到的多为纯学术理论论文,难以判断哪些模型(如 DIN、DCN)已在阿里、Airbnb 等大厂实际验证过,不敢轻易上线。
- 关键资源缺失:很难一次性获取到关于多样性控制(如 DPP)、序列重排序(如 Seq2Slate)等细分领域的经典文献合集。
- 知识体系断层:由于资料分散,难以系统性地对比从 RankNet 到 LambdaMART 再到深度学习模型的演进逻辑,导致技术方案选型犹豫不决。
使用 Reco-papers 后
- 一站式高效获取:直接通过 Reco-papers 的目录结构,按"Retrieval and Rerank"或"Deep Learning"分类,几分钟内即可定位到 TDM、COLD 等目标论文。
- 聚焦工业实战:优先阅读收录的 Airbnb 多样性管理、Hulu 重排序等业界分享,快速确认模型在大规模数据下的可行性,降低试错成本。
- 专题资源聚合:针对“提升阅读时长”或“广告点击预测”等具体目标,直接调取蒸馏多任务学习、Deep Crossing 等针对性极强的经典文档。
- 构建系统认知:借助整理好的演进路线,清晰梳理出从传统排序学习到深度交叉网络的技术脉络,迅速制定出适合当前业务的重排序升级方案。
Reco-papers 将散落的推荐系统明珠串联成图,让算法工程师从“大海捞针”转变为“按图索骥”,极大缩短了从理论研究到工业落地的路径。
运行环境要求
未说明
未说明

快速开始
推荐系统论文、学习资料、业界分享
动态更新工作中实现或者阅读过的推荐系统相关论文、学习资料和业界分享,作为自己工作的总结,也希望能为推荐系统相关行业的同学带来便利。 所有资料均来自于互联网,如有侵权,请联系王喆。同时欢迎对推荐系统感兴趣的同学与我讨论相关问题,我的联系方式如下:
- Email: wzhe06@gmail.com
- LinkedIn: 王喆的LinkedIn
- 知乎私信: 王喆的知乎
其他相关资源
目录
检索与重排
- [蒸馏] 基于蒸馏的多任务学习——一种用于提升阅读时长的候选生成模型
- [PRM] 面向推荐的个性化重排
- [COLD] 通往下一代预排序系统的道路
- [Seq2Slate] 使用RNN进行重排与版面优化
- [Hulu多样性] 用于改善推荐多样性的行列式点过程快速贪心映射推理
- [TDM] 学习面向推荐系统的树形深度模型
- [LTR] 从RankNet到LambdaRank再到LambdaMART——综述
- [AirBnb重排] 管理Airbnb搜索中的多样性
- [深度检索] 学习用于大规模推荐的可检索结构
深度学习推荐系统
- [DCN] 用于广告点击预测的深度与交叉网络(斯坦福大学,2017年)
- [Deep Crossing] Deep Crossing——无需人工设计组合特征的Web规模建模(微软,2016年)
- [DIN] 用于点击率预测的深度兴趣网络(阿里巴巴,2018年)
- [DL Recsys Intro] 基于深度学习的推荐系统——综述与新视角(新南威尔士大学,2018年)
- [PinnerFormer] Pinterest中基于序列建模的用户表征
- [xDeepFM] xDeepFM——将显式和隐式特征交互结合用于推荐系统(中国科学技术大学,2018年)
- [Image CTR] 图片很重要——利用高级模型服务器对用户行为进行视觉建模(阿里巴巴,2018年)
- [CDL] 用于推荐系统的协同深度学习(香港科技大学,2015年)
- [DSSM in Recsys] 推荐系统中跨域用户建模的多视图深度学习方法(微软,2015年)
- [AFM] 注意力因子分解机——通过注意力网络学习特征交互权重(浙江大学,2017年)
- [DIEN] 用于点击率预测的深度兴趣进化网络(阿里巴巴,2019年)
- [Wide&Deep] 用于推荐系统的Wide & Deep学习(谷歌,2016年)
- [DSSM] 利用点击数据学习用于Web搜索的深度结构化语义模型(伊利诺伊大学厄巴纳-香槟分校,2013年)
- [NCF] 神经协同过滤(新加坡国立大学,2017年)
- [FNN] 面向多字段类别型数据的深度学习(伦敦大学学院,2016年)
- [DeepFM] 基于因子分解机的神经网络用于CTR预测(哈尔滨工业大学—华为,2017年)
- [NFM] 用于稀疏预测分析的神经因子分解机(新加坡国立大学,2017年)
- [Latent Cross] Latent Cross——在循环推荐系统中利用上下文信息(谷歌,2018年)
- [TransAct] Pinterest中基于Transformer的实时用户行为推荐模型
嵌入
- [负采样] Word2vec详解——负采样词嵌入方法(2014)
- [SDNE] 结构化深度网络嵌入(清华大学,2016)
- [Item2Vec] Item2Vec——用于协同过滤的神经网络物品嵌入(微软,2016)
- [Word2Vec] 词与短语的分布式表示及其组合性(谷歌,2013)
- [LSH] 局部敏感哈希用于寻找最近邻(IEEE,2008)
- [Word2Vec] Word2vec参数学习详解(密歇根大学,2016)
- [GraphSAGE] 大规模图上的归纳式表示学习
- [Node2vec] Node2vec——可扩展的网络特征学习(斯坦福大学,2016)
- [图嵌入] DeepWalk——社交表示的在线学习(石溪大学,2014)
- [RippleNet] 知识图谱上用户偏好传播用于推荐系统
- [Airbnb嵌入] Airbnb搜索排序中基于嵌入的实时个性化(Airbnb,2018)
- [阿里巴巴嵌入] 阿里巴巴电商推荐中的十亿级商品嵌入(阿里巴巴,2018)
- [KGAT] 知识图注意力网络用于推荐
- [Word2Vec] 向量空间中词表示的有效估计(谷歌,2013)
- [可解释推荐] 基于知识图谱的公平性感知可解释推荐
- [LINE] LINE——大规模信息网络嵌入(MSRA,2015)
著名机器学习论文
- [注意力] 注意力就是一切
- [RNN] 使用RNN编码器-解码器进行统计机器翻译的短语表示学习(密歇根大学,2014)
- [CNN] 使用深度卷积神经网络进行ImageNet分类(多伦多大学,2012)
多任务
- [ESMM] 全空间多任务模型——一种有效估算点击后转化率的方法
- [MMoE] 多门专家混合模型在多任务学习中建模任务关系
- [PLE] 渐进式分层提取(PLE)——一种用于个性化推荐的新型多任务学习(MTL)模型
特征数据与基础设施
- [隐私] 隐私保护的新闻推荐模型学习
- [EdgeRec] 手淘端侧推荐系统
- [MMKGs] 用于推荐系统的多模态知识图谱
- [延迟反馈] 通过时间间隔采样捕获转化率预测中的延迟反馈
- [延迟反馈] 在建模延迟反馈时处理每次点击的多次转化
- [ViLBERT] 用于视觉-语言任务的预训练无关任务的视觉语言表示
- [MM-Rec] 多模态新闻推荐
经典推荐系统
- [MF] 推荐系统的矩阵分解技术(雅虎2009)
- [最早的CF] 利用协同过滤编织信息织锦(PARC 1992)
- [推荐系统导论] 推荐系统手册(FRicci 2011)
- [推荐系统导论幻灯片] 推荐系统简介(DJannach 2014)
- [CF] 亚马逊推荐:物品对物品的协同过滤(亚马逊2003)
- [ItemCF] 基于物品的协同过滤推荐算法(UMN 2001)
- [双线性] 使用预测性双线性模型进行动态内容的个性化推荐(雅虎2009)
大语言模型推荐系统
- [Once] 利用开源与闭源大型语言模型增强基于内容的推荐
- [PALR] 面向推荐的个性化感知大语言模型
- [Onesearch] 电商搜索统一端到端生成式框架的初步探索
- [NoteLLM] 用于笔记推荐的可检索大型语言模型
- [PMG] 基于大型语言模型的个性化多模态生成
- [MTGR] 美团工业级生成式推荐框架
- [MoRecl] 推荐系统下一步走向何方?基于ID与基于模态的推荐模型
- [GR] 生成式推荐——迈向下一代推荐范式
- [MetaGR] 行动胜于言辞——用于生成式推荐的万亿参数序列转换器
- [OneRec] 通过生成式推荐与偏好对齐统一召回与排序
- [ClickPrompt] CTR模型是强大的提示词生成器,可用于将语言模型适配到CTR预测
- [Tiger] 基于生成式召回的推荐系统
评估
- [EE评估简介] 交互式系统的离线评估与优化(微软,2015年)
- [自助重放] 通过自助法改进上下文 bandit 算法的离线评估(乌里尔,2014年)
- [交错测试] 交错式搜索评估的大规模验证与分析(雅虎,2012年)
- [RecSim] 一个可配置的推荐系统仿真平台
- [重放] 上下文 bandit 模型新闻文章推荐算法的无偏离线评估(雅虎,2012年)
- [评估代理] 基于大型语言模型的代理进行用户行为模拟
- [经典指标] 推荐任务准确率评估指标综述(微软,2009年)
强化学习在推荐中的应用
- [主动学习] 协同过滤推荐系统中的主动学习(UNIBZ,2014年)
- [RL音乐] 交互式个性化音乐推荐中的探索——一种强化学习方法(NUS,2013年)
- [主动学习] 协同过滤推荐系统中主动学习的综述(POLIMI,2016年)
- [DRN] 新闻推荐的深度强化学习框架(MSRA,2018年)
工业界推荐系统
- [Pinterest] Pinterest 首页个性化内容融合(Pinterest 2016)
- [Pinterest] 面向大规模推荐系统的图卷积神经网络(Pinterest 2018)
- [Airbnb] Airbnb 搜索排序与个性化演示文稿(Airbnb 2018)
- [百度幻灯片] 百度广告中的深度神经网络(百度 2017)
- [Quora] 在 Quora 构建机器学习平台(Quora 2016)
- [Airbnb] 利用多任务学习优化 Airbnb 搜索流程
- [阿里巴巴] 基于终身序列行为数据的搜索型用户兴趣建模用于点击率预估
- [阿里巴巴 Star] 一模型服务所有——面向多领域点击率预估的星型拓扑自适应推荐系统
- [Netflix] Netflix 推荐系统——算法、商业价值与创新(Netflix 2015)
- [Youtube] 用于 YouTube 推荐的深度神经网络(Youtube 2016)
- [阿里巴巴] 抓住促销期间的转化率波动——一种新颖的历史数据复用方法
- [Airbnb] 将深度学习应用于 Airbnb 搜索(Airbnb 2018)
- [阿里巴巴] 图像很重要——利用高级模型服务器对用户视觉行为进行建模
探索与利用
- [广告中的探索与利用] 使用多臂老虎机实验通过展示广告获取客户(密歇根大学,2015年)
- [广告中的探索与利用] 基于效果的上下文广告系统中的利用与探索(雅虎,2010年)
- [AlphaGo中的探索与利用] 使用深度神经网络和树搜索掌握围棋游戏(DeepMind,2016年)
- [UCB1] 老虎机算法续——UCB1(诺埃尔·威尔士,2010年)
- [Spotify] 探索、利用与解释——用老虎机算法个性化可解释的推荐(Spotify,2018年)
- [TS简介] 汤普森采样幻灯片(伯克利,2010年)
- [汤普森采样] 汤普森采样的实证评估(雅虎,2011年)
- [UCT] 围棋中的探索与利用:蒙特卡洛围棋的UCT算法(UPSUD,2016年)
- [LinUCB] 上下文老虎机方法在个性化新闻文章推荐中的应用(雅虎,2010年)
- [MAB中的随机森林] 面向上下文老虎机问题的随机森林(Orange,2016年)
- [探索与利用简介] 王哲关于探索与利用问题的介绍(Hulu,2017年)
冷启动与去偏
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。