Deep-Learning-Papers-Reading-Roadmap

39.5k 7.3k 非常简单 1 次阅读昨天开发框架

AI 解读由 AI 自动生成，仅供参考

Deep-Learning-Papers-Reading-Roadmap 是一份专为深度学习初学者和进阶者打造的论文阅读指南。面对浩如烟海的学术文献，许多人在入门时往往困惑于“该从哪篇读起”，这份路线图正是为了解决这一痛点而生。它并非简单的列表堆砌，而是依据“从轮廓到细节、从经典到前沿、从通用到专项”四大原则精心构建的学习路径。

内容涵盖深度学习历史基石（如 Bengio 的《深度学习》圣经）、里程碑式突破（如 AlexNet、ResNet）以及语音识别等垂直领域的演进历程。其独特亮点在于不仅收录了奠定学科基础的经典之作，还持续更新极具价值的前沿论文，帮助读者在掌握核心原理的同时紧跟技术潮流。无论是希望系统建立知识体系的开发者、需要追踪最新进展的研究人员，还是对人工智能充满好奇的学习者，都能从中获得清晰的指引，高效开启深度学习之旅。

使用场景

某高校计算机系研究生李明刚进入深度学习领域，面对海量论文不知从何下手，急需构建系统的知识体系以开展图像识别课题研究。

没有 Deep-Learning-Papers-Reading-Roadmap 时

盲目搜索效率低：在 Google Scholar 或 arXiv 上随机关键词搜索，容易陷入碎片化信息，花费数周仍找不到核心奠基之作。
学习路径混乱：不清楚应该先读经典的 DBN 还是直接看最新的 Transformer，缺乏“从轮廓到细节、从旧到新”的科学指引，导致基础不牢。
错过关键里程碑：极易忽略如 Hinton 团队的早期突破或 AlexNet 等转折点论文，难以理解技术演进的内在逻辑。
时间成本高昂：为了筛选高质量文献，不得不阅读大量低相关度的综述，严重拖慢科研进度和开题报告的准备。

使用 Deep-Learning-Papers-Reading-Roadmap 后

按图索骥高效入门：直接跟随路线图从《Deep Learning》圣经书和三位巨头的综述开始，迅速建立对领域的宏观认知。
循序渐进掌握脉络：严格遵循从深度信念网络（DBN）到 ImageNet 爆发（AlexNet, ResNet）再到语音识别演进的路径，清晰把握技术迭代规律。
精准锁定核心文献：路线图明确标注了带星号的关键论文（如 ResNet、GoogLeNet），确保每一篇阅读的材料都是该阶段的精华。
快速形成研究方案：在短时间内梳理完历史与前沿，将原本需要一个月的文献调研压缩至一周，迅速聚焦到具体的改进算法设计上。

Deep-Learning-Papers-Reading-Roadmap 通过提供一条经过验证的标准化学习路径，将新手从茫茫文海中解救出来，实现了从盲目摸索到系统精进的根本转变。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目并非可运行的软件工具，而是一份深度学习论文的阅读路线图（书单）。它列出了从基础到前沿的经典学术论文及其链接，旨在指导初学者和研究者按顺序阅读。因此，该项目没有操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户只需具备阅读 PDF 文档的能力即可。

python未说明

Deep-Learning-Papers-Reading-Roadmap hero image

快速开始

深度学习论文阅读路线图

如果你是深度学习领域的初学者，你可能会问的第一个问题是：“我应该从哪篇论文开始读起呢？”

这里有一份深度学习论文的阅读路线图！

该路线图按照以下四条原则构建：

由概览到细节
由经典到最前沿
由通用领域到特定方向
聚焦最前沿

你会发现许多非常新的论文，但都非常值得一读。

我会继续向这份路线图中添加更多论文。

1 深度学习历史与基础

1.0 书籍

[0] Bengio, Yoshua, Ian J. Goodfellow, and Aaron Courville. "Deep learning." 麻省理工学院出版社出版。（2015年）[html] （深度学习圣经，你可以在阅读后续论文的同时阅读此书。） :star::star::star::star::star:

1.1 综述

[1] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444. [pdf] （三位巨头的综述） :star::star::star::star::star:

1.2 深度信念网络(DBN)（深度学习黎明期的里程碑）

[2] Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep belief nets." Neural computation 18.7 (2006): 1527-1554. [pdf]（深度学习黎明期） :star::star::star:

[3] Hinton, Geoffrey E., and Ruslan R. Salakhutdinov. "Reducing the dimensionality of data with neural networks." Science 313.5786 (2006): 504-507. [pdf] （里程碑，展示了深度学习的潜力） :star::star::star:

1.3 ImageNet发展史（深度学习由此爆发）

[4] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." 神经信息处理系统进展。2012年。[pdf] （AlexNet，深度学习的突破） :star::star::star::star::star:

[5] Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv预印本 arXiv:1409.1556 (2014). [pdf] （VGGNet，神经网络变得非常深！） :star::star::star:

[6] Szegedy, Christian, et al. "Going deeper with convolutions." IEEE计算机视觉与模式识别会议论文集。2015年。[pdf] （GoogLeNet） :star::star::star:

[7] He, Kaiming, et al. "Deep residual learning for image recognition." arXiv预印本 arXiv:1512.03385 (2015). [pdf] （ResNet，非常非常深的网络，CVPR最佳论文） :star::star::star::star::star:

1.4 语音识别发展史

[8] Hinton, Geoffrey, et al. "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE信号处理杂志 29.6 (2012): 82-97. [pdf] （语音识别领域的突破） :star::star::star::star:

[9] Graves, Alex, Abdel-rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." 2013 IEEE国际声学、语音和信号处理会议。IEEE，2013年。[pdf] （RNN） :star::star::star:

[10] Graves, Alex, and Navdeep Jaitly. "Towards End-To-End Speech Recognition with Recurrent Neural Networks." ICML. 第14卷。2014年。[pdf] :star::star::star:

[11] Sak, Haşim, et al. "Fast and accurate recurrent neural network acoustic models for speech recognition." arXiv预印本 arXiv:1507.06947 (2015). [pdf] （谷歌语音识别系统） :star::star::star:

[12] Amodei, Dario, et al. "Deep speech 2: End-to-end speech recognition in english and mandarin." arXiv预印本 arXiv:1512.02595 (2015). [pdf] （百度语音识别系统） :star::star::star::star:

[13] W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig "Achieving Human Parity in Conversational Speech Recognition." arXiv预印本 arXiv:1610.05256 (2016). [pdf] （语音识别领域的最前沿，微软） :star::star::star::star:

阅读完以上论文后，你将对深度学习的历史、深度学习模型的基本架构（包括CNN、RNN、LSTM）以及深度学习如何应用于图像和语音识别问题有一个基本的了解。接下来的几篇论文将带你深入理解深度学习的方法、深度学习在不同应用领域的实践以及该领域的前沿进展。建议你可以根据自己的兴趣和研究方向选择阅读以下论文。

#2 深度学习方法

2.1 模型

[14] Hinton, Geoffrey E., 等。"通过防止特征检测器的协同适应来改进神经网络"。arXiv 预印本 arXiv:1207.0580 (2012)。[pdf] (Dropout) :star::star::star:

[15] Srivastava, Nitish, 等。"Dropout：一种简单的方法来防止神经网络过拟合"。机器学习研究杂志 15.1 (2014)：1929-1958。[pdf] :star::star::star:

[16] Ioffe, Sergey, 和 Christian Szegedy。"批归一化：通过减少内部协变量偏移加速深度网络训练"。arXiv 预印本 arXiv:1502.03167 (2015)。[pdf] (2015 年杰出工作) :star::star::star::star:

[17] Ba, Jimmy Lei, Jamie Ryan Kiros, 和 Geoffrey E. Hinton。"层归一化"。arXiv 预印本 arXiv:1607.06450 (2016)。[pdf] (批归一化的升级版) :star::star::star::star:

[18] Courbariaux, Matthieu, 等。"二值化神经网络：将权重和激活限制为 +1 或 −1 的神经网络训练"。[pdf] (新模型，速度快) :star::star::star:

[19] Jaderberg, Max, 等。"使用合成梯度解耦的神经接口"。arXiv 预印本 arXiv:1608.05343 (2016)。[pdf] (训练方法的创新，令人惊叹的工作) :star::star::star::star::star:

[20] Chen, Tianqi, Ian Goodfellow, 和 Jonathon Shlens。"Net2net：通过知识迁移加速学习"。arXiv 预印本 arXiv:1511.05641 (2015)。[pdf] (修改已训练网络以减少训练轮次) :star::star::star:

[21] Wei, Tao, 等。"网络形态学"。arXiv 预印本 arXiv:1603.01670 (2016)。[pdf] (修改已训练网络以减少训练轮次) :star::star::star:

2.2 优化

[22] Sutskever, Ilya, 等。"关于深度学习中初始化和动量的重要性"。ICML (3) 28 (2013)：1139-1147。[pdf] (动量优化器) :star::star:

[23] Kingma, Diederik, 和 Jimmy Ba。"Adam：一种随机优化方法"。arXiv 预印本 arXiv:1412.6980 (2014)。[pdf] (目前可能使用最广泛) :star::star::star:

[24] Andrychowicz, Marcin, 等。"通过梯度下降学习梯度下降"。arXiv 预印本 arXiv:1606.04474 (2016)。[pdf] (神经优化器，令人惊叹的工作) :star::star::star::star::star:

[25] Han, Song, Huizi Mao, 和 William J. Dally。"深度压缩：通过剪枝、量化训练和霍夫曼编码压缩深度神经网络"。CoRR, abs/1510.00149 2 (2015)。[pdf] (ICLR 最佳论文，使神经网络运行更快的新方向，DeePhi 科技初创公司) :star::star::star::star::star:

[26] Iandola, Forrest N., 等。"SqueezeNet：参数减少 50 倍、模型大小小于 1MB 却达到 AlexNet 级别准确率"。arXiv 预印本 arXiv:1602.07360 (2016)。[pdf] (也是优化神经网络的新方向，DeePhi 科技初创公司) :star::star::star::star:

[27] Glorat Xavier, Bengio Yoshua, 等。"理解训练深层前馈神经网络的困难"。第十三次国际人工智能与统计会议论文集，PMLR 9：249-256，2010。[pdf] :star::star::star::star:

2.3 无监督学习 / 深度生成模型

[28] Le, Quoc V。"利用大规模无监督学习构建高层特征"。2013 年 IEEE 国际声学、语音和信号处理会议。IEEE，2013。[pdf] (里程碑，Andrew Ng，Google Brain 项目，猫) :star::star::star::star:

[29] Kingma, Diederik P., 和 Max Welling。"变分自编码器"。arXiv 预印本 arXiv:1312.6114 (2013)。[pdf] (VAE) :star::star::star::star:

[30] Goodfellow, Ian, 等。"生成对抗网络"。神经信息处理系统进展。2014。[pdf] (GAN，超酷的想法) :star::star::star::star::star:

[31] Radford, Alec, Luke Metz, 和 Soumith Chintala。"使用深度卷积生成对抗网络进行无监督表征学习"。arXiv 预印本 arXiv:1511.06434 (2015)。[pdf] (DCGAN) :star::star::star::star:

[32] Gregor, Karol, 等。"DRAW：用于图像生成的循环神经网络"。arXiv 预印本 arXiv:1502.04623 (2015)。[pdf] (带有注意力机制的 VAE，杰出工作) :star::star::star::star::star:

[33] Oord, Aaron van den, Nal Kalchbrenner, 和 Koray Kavukcuoglu。"像素递归神经网络"。arXiv 预印本 arXiv:1601.06759 (2016)。[pdf] (PixelRNN) :star::star::star::star:

[34] Oord, Aaron van den, 等。"使用 PixelCNN 解码器进行条件图像生成"。arXiv 预印本 arXiv:1606.05328 (2016)。[pdf] (PixelCNN) :star::star::star::star:

[34] S. Mehri 等，"SampleRNN：一种无条件端到端神经音频生成模型"。arXiv 预印本 arXiv:1612.07837 (2016)。[pdf] :star::star::star::star::star:

2.4 RNN / 序列到序列模型

[35] 格雷夫斯，亚历克斯。“利用循环神经网络生成序列”。arXiv预印本 arXiv:1308.0850（2013）。[pdf] (LSTM，生成效果非常好，展现了RNN的强大能力) :star::star::star::star:

[36] 曹庆贤等。“使用RNN编码器-解码器学习短语表示以进行统计机器翻译”。arXiv预印本 arXiv:1406.1078（2014）。[pdf] (第一篇序列到序列论文) :star::star::star::star:

[37] 苏茨克维尔，伊利亚、奥里奥尔·维尼亚尔斯和阮国。 “基于神经网络的序列到序列学习”。神经信息处理系统进展。2014年。[pdf] (杰出工作) :star::star::star::star::star:

[38] 巴达诺、曹庆贤和约书亚·本吉奥。“通过联合学习对齐与翻译实现神经机器翻译”。arXiv预印本 arXiv:1409.0473（2014）。[pdf] :star::star::star::star:

[39] 维尼亚尔斯和阮国。“神经对话模型”。arXiv预印本 arXiv:1506.05869（2015）。[pdf] (用于聊天机器人的序列到序列模型) :star::star::star:

2.5 神经图灵机

[40] 格雷夫斯，亚历克斯、格雷格·韦恩和伊沃·丹尼赫尔卡。“神经图灵机”。arXiv预印本 arXiv:1410.5401（2014）。[pdf] (未来计算机的基本原型) :star::star::star::star::star:

[41] 扎伦巴，沃伊切赫和苏茨克维尔，伊利亚。“强化学习神经图灵机”。arXiv预印本 arXiv:1505.00521 362（2015）。[pdf] :star::star::star:

[42] 韦斯顿，杰森、苏米特·乔普拉和安托万·博德斯。“记忆网络”。arXiv预印本 arXiv:1410.3916（2014）。[pdf] :star::star::star:

[43] 苏赫巴塔尔，赛恩巴亚尔、杰森·韦斯顿和罗布·弗格斯。“端到端记忆网络”。神经信息处理系统进展。2015年。[pdf] :star::star::star::star:

[44] 维尼亚尔斯，奥里奥尔、梅雷·福图纳托和纳夫迪普·贾特利。“指针网络”。神经信息处理系统进展。2015年。[pdf] :star::star::star::star:

[45] 格雷夫斯，亚历克斯等。“使用具有动态外部内存的神经网络进行混合计算”。《自然》杂志（2016）。[pdf] (里程碑，结合了上述论文的思想) :star::star::star::star::star:

2.6 深度强化学习

[46] 米尼，沃洛迪米尔等。“使用深度强化学习玩雅达利游戏”。arXiv预印本 arXiv:1312.5602（2013）。[pdf]) (第一篇名为深度强化学习的论文) :star::star::star::star:

[47] 米尼，沃洛迪米尔等。“通过深度强化学习达到人类水平的控制”。《自然》杂志518卷7540期（2015）：529–533页。[pdf] (里程碑) :star::star::star::star::star:

[48] 王子宇、南多·德·弗雷塔斯和马克·兰克托。“用于深度强化学习的决斗网络架构”。arXiv预印本 arXiv:1511.06581（2015）。[pdf] (ICLR最佳论文，极具创意) :star::star::star::star:

[49] 米尼，沃洛迪米尔等。“深度强化学习的异步方法”。arXiv预印本 arXiv:1602.01783（2016）。[pdf] (最先进的方法) :star::star::star::star::star:

[50] 利利克拉普，蒂莫西·P.等。“深度强化学习中的连续控制”。arXiv预印本 arXiv:1509.02971（2015）。[pdf] (DDPG) :star::star::star::star:

[51] 古世翔等。“基于模型加速的连续深度Q学习”。arXiv预印本 arXiv:1603.00748（2016）。[pdf] (NAF) :star::star::star::star:

[52] 舒尔曼，约翰等。“信任域策略优化”。CoRR, abs/1502.05477（2015）。[pdf] (TRPO) :star::star::star::star:

[53] 银行，戴维等。“利用深度神经网络和树搜索掌握围棋”。《自然》杂志529卷7587期（2016）：484–489页。[pdf] (AlphaGo) :star::star::star::star::star:

2.7 深度迁移学习 / 终身学习 / 尤其是针对RL

[54] 本吉奥，约书亚。“无监督与迁移学习的深度学习表示”。ICML无监督与迁移学习会议第27次会议（2012）：17–36页。[pdf] (教程) :star::star::star:

[55] 银行，丹尼尔·L.、杨强和李良浩。“终身机器学习系统：超越学习算法”。AAAI春季研讨会：终身机器学习。2013年。[pdf] (关于终身学习的简要讨论) :star::star::star:

[56] 辛顿，杰弗里、奥里奥尔·维尼亚尔斯和杰夫·迪恩。“蒸馏神经网络中的知识”。arXiv预印本 arXiv:1503.02531（2015）。[pdf] (奠基之作) :star::star::star::star:

[57] 鲁苏，安德烈·A.等。“策略蒸馏”。arXiv预印本 arXiv:1511.06295（2015）。[pdf] (强化学习领域) :star::star::star:

[58] 帕里索托，埃米利奥、吉米·雷·巴和鲁斯兰·萨拉胡丁诺夫。“演员模仿：深度多任务与迁移强化学习”。arXiv预印本 arXiv:1511.06342（2015）。[pdf] (强化学习领域) :star::star::star:

[59] 鲁苏，安德烈·A.等。“渐进式神经网络”。arXiv预印本 arXiv:1606.04671（2016）。[pdf] (杰出工作，新颖的想法) :star::star::star::star::star:

2.8 一次-shot深度学习

[60] Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. "通过概率程序归纳实现人类水平的概念学习." Science 350.6266 (2015): 1332-1338. [pdf] （无深度学习，但值得一读） :star::star::star::star::star:

[61] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "用于一次-shot图像识别的暹罗神经网络."（2015） [pdf] :star::star::star:

[62] Santoro, Adam, et al. "基于记忆增强神经网络的一次-shot学习." arXiv预印本 arXiv:1605.06065 (2016). [pdf] （一次-shot学习的基础步骤） :star::star::star::star:

[63] Vinyals, Oriol, et al. "用于一次-shot学习的匹配网络." arXiv预印本 arXiv:1606.04080 (2016). [pdf] :star::star::star:

[64] Hariharan, Bharath, and Ross Girshick. "低样本量下的视觉目标识别." arXiv预印本 arXiv:1606.02819 (2016). [pdf] （向大规模数据迈进的一步） :star::star::star::star:

3 应用

3.1 自然语言处理

[1] Antoine Bordes, et al. "开放文本语义解析中词与语义表示的联合学习." AISTATS(2012) [pdf] :star::star::star::star:

[2] Mikolov, et al. "词与短语的分布式表示及其组合性." ANIPS(2013): 3111-3119 [pdf] （word2vec） :star::star::star:

[3] Sutskever, et al. "“序列到序列学习与神经网络." ANIPS(2014) [pdf] :star::star::star:

[4] Ankit Kumar, et al. "“问我任何问题：用于自然语言处理的动态记忆网络." arXiv预印本 arXiv:1506.07285(2015) [pdf] :star::star::star::star:

[5] Yoon Kim, et al. "字符感知型神经语言模型." NIPS(2015) arXiv预印本 arXiv:1508.06615(2015) [pdf] :star::star::star::star:

[6] Jason Weston, et al. "迈向人工智能完备问答：一组先决玩具任务." arXiv预印本 arXiv:1502.05698(2015) [pdf] （bAbI任务） :star::star::star:

[7] Karl Moritz Hermann, et al. "教机器阅读和理解." arXiv预印本 arXiv:1506.03340(2015) [pdf] （CNN/每日邮报完形填空式问题） :star::star:

[8] Alexis Conneau, et al. "用于自然语言处理的超深卷积网络." arXiv预印本 arXiv:1606.01781(2016) [pdf] （文本分类领域的最新技术） :star::star::star:

[9] Armand Joulin, et al. "高效文本分类的技巧集." arXiv预印本 arXiv:1607.01759(2016) [pdf] （略逊于最先进技术，但速度更快） :star::star::star:

3.2 目标检测

[1] Szegedy, Christian, Alexander Toshev, and Dumitru Erhan. "用于目标检测的深度神经网络." 神经信息处理系统进展. 2013. [pdf] :star::star::star:

[2] Girshick, Ross, et al. "用于精确目标检测和语义分割的丰富特征层次结构." IEEE计算机视觉与模式识别会议论文集. 2014. [pdf] （RCNN） :star::star::star::star::star:

[3] He, Kaiming, et al. "用于视觉识别的深度卷积网络中的空间金字塔池化." 欧洲计算机视觉大会. Springer International Publishing, 2014. [pdf] （SPPNet） :star::star::star::star:

[4] Girshick, Ross. "Fast R-CNN." IEEE国际计算机视觉会议论文集. 2015. [pdf] :star::star::star::star:

[5] Ren, Shaoqing, et al. "Faster R-CNN：通过区域建议网络实现实时目标检测." 神经信息处理系统进展. 2015. [pdf] :star::star::star::star:

[6] Redmon, Joseph, et al. "你只需看一眼：统一、实时的目标检测." arXiv预印本 arXiv:1506.02640 (2015). [pdf] （YOLO，杰出工作，非常实用） :star::star::star::star::star:

[7] Liu, Wei, et al. "SSD：单次多框检测器." arXiv预印本 arXiv:1512.02325 (2015). [pdf] :star::star::star:

[8] Dai, Jifeng, et al. "R-FCN：基于区域的全卷积网络进行目标检测." arXiv预印本 arXiv:1605.06409 (2016). [pdf] :star::star::star::star:

[9] He, Gkioxari, et al. "Mask R-CNN" arXiv预印本 arXiv:1703.06870 (2017). [pdf] :star::star::star::star:

[10] Bochkovskiy, Alexey, et al. "YOLOv4：目标检测的最佳速度与精度。" arXiv预印本 arXiv:2004.10934 (2020). [pdf] :star::star::star::star:

[11] Tan, Mingxing, et al. “EfficientDet：可扩展且高效的目标检测。" arXiv预印本 arXiv:1911.09070 (2019). [pdf] :star::star::star::star::star:

3.3 视觉跟踪

[1] Wang, Naiyan, 和 Dit-Yan Yeung。"学习用于视觉跟踪的深度紧凑图像表示"。神经信息处理系统进展。2013年。[pdf] （首个使用深度学习进行视觉跟踪的论文，DLT跟踪器） :star::star::star:

[2] Wang, Naiyan 等。"迁移丰富的特征层次结构以实现鲁棒的视觉跟踪"。arXiv 预印本 arXiv:1501.04587 (2015)。[pdf] （SO-DLT） :star::star::star::star:

[3] Wang, Lijun 等。"基于全卷积网络的视觉跟踪"。IEEE 国际计算机视觉会议论文集。2015年。[pdf] （FCNT） :star::star::star::star:

[4] Held, David, Sebastian Thrun 和 Silvio Savarese。"利用深度回归网络以每秒100帧的速度学习跟踪"。arXiv 预印本 arXiv:1604.01802 (2016)。[pdf] （GOTURN，作为深度学习方法速度非常快，但仍远落后于非深度学习方法） :star::star::star::star:

[5] Bertinetto, Luca 等。"用于目标跟踪的全卷积暹罗网络"。arXiv 预印本 arXiv:1606.09549 (2016)。[pdf] （SiameseFC，实时目标跟踪的新 state-of-the-art） :star::star::star::star:

[6] Martin Danelljan、Andreas Robinson、Fahad Khan 和 Michael Felsberg。"超越相关滤波器：学习用于视觉跟踪的连续卷积算子"。ECCV（2016）。[pdf] （C-COT） :star::star::star::star:

[7] Nam, Hyeonseob、Mooyeol Baek 和 Bohyung Han。"在树状结构中建模和传播 CNN 以用于视觉跟踪"。arXiv 预印本 arXiv:1608.07242 (2016)。[pdf] （VOT2016 冠军，TCNN） :star::star::star::star:

3.4 图像描述

[1] Farhadi,Ali等。"每张图片都讲述一个故事：从图像生成句子"。载于计算机视觉ECCV 2010。Springer Berlin Heidelberg：15-29，2010年。[pdf] :star::star::star:

[2] Kulkarni, Girish 等。"婴儿语言：理解和生成图像描述"。载于第24届CVPR会议论文集，2011年。[pdf]:star::star::star::star:

[3] Vinyals, Oriol 等。"展示与讲述：一种神经图像字幕生成器"。载于arXiv预印本arXiv:1411.4555，2014年。[pdf]:star::star::star:

[4] Donahue, Jeff 等。"用于视觉识别和描述的长期循环卷积网络"。载于arXiv预印本arXiv:1411.4389，2014年。[pdf]

[5] Karpathy, Andrej 和 Li Fei-Fei。"用于生成图像描述的深度视觉-语义对齐"。载于arXiv预印本arXiv:1412.2306，2014年。[pdf]:star::star::star::star::star:

[6] Karpathy, Andrej、Armand Joulin 和 Fei Fei F. Li。"用于双向图像-句子映射的深度片段嵌入"。载于神经信息处理系统进展，2014年。[pdf]:star::star::star::star:

[7] Fang, Hao 等。"从字幕到视觉概念再返回"。载于arXiv预印本arXiv:1411.4952，2014年。[pdf]:star::star::star::star::star:

[8] Chen, Xinlei 和 C. Lawrence Zitnick。"学习用于图像字幕生成的循环视觉表示"。载于arXiv预印本arXiv:1411.5654，2014年。[pdf]:star::star::star::star:

[9] Mao, Junhua 等。"使用多模态循环神经网络（m-rnn）进行深度字幕生成"。载于arXiv预印本arXiv:1412.6632，2014年。[pdf]:star::star::star:

[10] Xu, Kelvin 等。"展示、注意并讲述：带有视觉注意力的神经图像字幕生成"。载于arXiv预印本arXiv:1502.03044，2015年。[pdf]:star::star::star::star::star:

3.5 机器翻译

一些里程碑式的论文已在 RNN / Seq-to-Seq 主题中列出。

[1] Luong, Minh-Thang 等。"解决神经机器翻译中的罕见词问题"。arXiv 预印本 arXiv:1410.8206 (2014)。[pdf] :star::star::star::star:

[2] Sennrich 等。"使用子词单元进行罕见词的神经机器翻译"。载于arXiv预印本arXiv:1508.07909，2015年。[pdf]:star::star::star:

[3] Luong, Minh-Thang、Hieu Pham 和 Christopher D. Manning。"基于注意力的神经机器翻译的有效方法"。arXiv 预印本 arXiv:1508.04025 (2015)。[pdf] :star::star::star::star:

[4] Chung 等。"用于神经机器翻译的无显式分词字符级解码器"。载于arXiv预印本arXiv:1603.06147，2016年。[pdf]:star::star:

[5] Lee 等。"完全基于字符级的无显式分词神经机器翻译"。载于arXiv预印本arXiv:1610.03017，2016年。[pdf]:star::star::star::star::star:

[6] Wu、Schuster、Chen、Le 等。"谷歌的神经机器翻译系统：弥合人类与机器翻译之间的差距"。载于arXiv预印本arXiv:1609.08144v2，2016年。[pdf] （里程碑） :star::star::star::star:

3.6 机器人学

[1] Koutník, Jan, 等。"基于视觉的强化学习中大规模神经网络的演化"。第15届遗传与进化计算年会论文集。ACM，2013年。[pdf] :star::star::star:

[2] Levine, Sergey, 等。"深度视觉-运动策略的端到端训练"。机器学习研究杂志 17.39 (2016): 1-40。[pdf] :star::star::star::star::star:

[3] Pinto, Lerrel, 和 Abhinav Gupta。"自我监督的超大规模扩展：从5万次尝试和700小时机器人数据中学习抓取"。arXiv预印本 arXiv:1509.06825 (2015)。[pdf] :star::star::star:

[4] Levine, Sergey, 等。"利用深度学习和大规模数据收集学习机器人抓取中的手眼协调"。arXiv预印本 arXiv:1603.02199 (2016)。[pdf] :star::star::star::star:

[5] Zhu, Yuke, 等。"基于深度强化学习的室内场景目标驱动视觉导航"。arXiv预印本 arXiv:1609.05143 (2016)。[pdf] :star::star::star::star:

[6] Yahya, Ali, 等。"分布式异步引导策略搜索下的集体机器人强化学习"。arXiv预印本 arXiv:1610.00673 (2016)。[pdf] :star::star::star::star:

[7] Gu, Shixiang, 等。"用于机器人操作的深度强化学习"。arXiv预印本 arXiv:1610.00633 (2016)。[pdf] :star::star::star::star:

[8] A Rusu, M Vecerik, Thomas Rothörl, N Heess, R Pascanu, R Hadsell。"通过渐进式网络实现从像素到现实的机器人学习"。arXiv预印本 arXiv:1610.04286 (2016)。[pdf] :star::star::star::star:

[9] Mirowski, Piotr, 等。"学习在复杂环境中导航"。arXiv预印本 arXiv:1611.03673 (2016)。[pdf] :star::star::star::star:

3.7 艺术

[1] Mordvintsev, Alexander；Olah, Christopher；Tyka, Mike（2015）。"Inceptionism：深入神经网络"。谷歌研究。[html] （Deep Dream） :star::star::star::star:

[2] Gatys, Leon A., Alexander S. Ecker, 和 Matthias Bethge。"一种艺术风格的神经算法"。arXiv预印本 arXiv:1508.06576 (2015)。[pdf] （杰出工作，目前最成功的方法） :star::star::star::star::star:

[3] Zhu, Jun-Yan, 等。"自然图像流形上的生成式视觉操控"。欧洲计算机视觉会议。施普林格国际出版，2016年。[pdf] （iGAN） :star::star::star::star:

[4] Champandard, Alex J。"语义风格迁移及将两比特涂鸦转化为精美艺术品"。arXiv预印本 arXiv:1603.01768 (2016)。[pdf] （Neural Doodle） :star::star::star::star:

[5] Zhang, Richard，Phillip Isola，和 Alexei A. Efros。"彩色图像着色"。arXiv预印本 arXiv:1603.08511 (2016)。[pdf] :star::star::star::star:

[6] Johnson, Justin，Alexandre Alahi，和 Li Fei-Fei。"用于实时风格迁移和超分辨率的感知损失"。arXiv预印本 arXiv:1603.08155 (2016)。[pdf] :star::star::star::star:

[7] Vincent Dumoulin，Jonathon Shlens 和 Manjunath Kudlur。"一种艺术风格的学习表示"。arXiv预印本 arXiv:1610.07629 (2016)。[pdf] :star::star::star::star:

[8] Gatys, Leon 和 Ecker 等人。"控制神经风格迁移中的感知因素"。arXiv预印本 arXiv:1611.07865 (2016)。[pdf] （可控制风格迁移的空间位置、色彩信息及空间尺度） :star::star::star::star:

[9] Ulyanov, Dmitry 和 Lebedev, Vadim 等人。"纹理网络：纹理与风格化图像的前馈合成"。arXiv预印本 arXiv:1603.03417 (2016)。[pdf] （纹理生成与风格迁移） :star::star::star::star:

[10] Yijun Li，Ming-Yu Liu，Xueting Li，Ming-Hsuan Yang，Jan Kautz（NVIDIA）。"照片级真实图像风格化的闭式解"。arXiv预印本 arXiv:1802.06474 (2018)。[pdf] （非常快速且超逼真的风格迁移） :star::star::star::star:

3.8 目标分割

[1] J. Long，E. Shelhamer，和 T. Darrell。"用于语义分割的全卷积网络"。CVPR，2015年。[pdf] :star::star::star::star::star:

[2] L.-C. Chen，G. Papandreou，I. Kokkinos，K. Murphy，和 A. L. Yuille。"使用深度卷积网络和全连接条件随机场进行语义图像分割"。ICLR，2015年。[pdf] :star::star::star::star::star:

[3] Pinheiro, P.O.，Collobert, R.，Dollar, P。"学习分割目标候选"。NIPS，2015年。[pdf] :star::star::star::star:

[4] Dai, J.，He, K.，Sun, J。"通过多任务网络级联实现实例感知的语义分割"。CVPR，2016年。[pdf] :star::star::star:

[5] Dai, J.，He, K.，Sun, J。"实例敏感的全卷积网络"。arXiv预印本 arXiv:1603.08678 (2016)。[pdf] :star::star::star:

Deep-Learning-Papers-Reading-Roadmap 快速上手指南

本项目并非可执行的软件工具或代码库，而是一份深度学习论文阅读路线图。它整理了一份从基础到前沿的经典论文清单，旨在帮助初学者和研究者系统性地掌握深度学习领域。因此，本指南侧重于如何获取、浏览及利用这份资源，而非软件安装。

环境准备

由于本项目本质上是文档索引，对环境要求极低：

系统要求：任何支持现代浏览器的操作系统（Windows, macOS, Linux）。
前置依赖：
- Git（可选）：用于克隆仓库到本地。
- PDF 阅读器：用于阅读链接中的学术论文。
- 学术网络环境：部分论文源地址（如 arXiv, NIPS, IEEE）在国内访问可能较慢，建议配置好科研网络环境或使用学术镜像。

获取与浏览步骤

你可以通过以下两种方式查看路线图：

方式一：在线直接浏览（推荐）

直接访问 GitHub 仓库页面，即可看到渲染好的 Markdown 目录和论文链接。

打开浏览器访问项目主页： https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap
在 README.md 中按章节（如历史基础、模型方法、优化算法等）点击论文标题或 [pdf] 链接进行阅读。

方式二：克隆到本地

如果你希望离线查看或贡献内容，可以使用 Git 克隆：

git clone https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap.git
cd Deep-Learning-Papers-Reading-Roadmap

国内加速方案：如果 github.com 访问缓慢，可使用 Gitee 镜像（如有）或通过代理加速克隆：

# 使用国内镜像源示例 (若存在同步镜像)
git clone https://gitee.com/mirrors/Deep-Learning-Papers-Reading-Roadmap.git

(注：若无特定镜像，请确保网络通畅后使用官方地址)

基本使用指南

本项目的核心用法是按图索骥进行文献阅读。建议遵循以下路径：

1. 新手入门路径

按照 README 中的顺序，从 第 1 章 (Deep Learning History and Basics) 开始：

必读经典：先阅读 [0] Deep Learning Book (花书) 建立理论框架。
综述概览：阅读 [1] Deep learning (Nature 2015) 了解三大巨头的观点。
里程碑突破：重点研读 [4] AlexNet 和 [7] ResNet，理解 CNN 的演进。

2. 进阶研究方向

具备基础后，根据兴趣跳转至 第 2 章 (Deep Learning Method) 的具体细分领域：

模型优化：阅读 [16] Batch Normalization 和 [23] Adam optimizer。
生成模型：深入 [30] GAN 和 [29] VAE 系列论文。
序列模型：研究 [36] Seq-to-Seq 和 [35] LSTM 相关文献。

3. 阅读技巧

星号标记：注意文中标记为 :star::star::star::star::star: 的论文，这些是作者强烈推荐的必读核心文章。
对比阅读：例如在阅读图像识别时，将 VGGNet 与 GoogLeNet 对比，理解不同架构的设计思路。
代码复现：虽然本项目只提供论文链接，但建议在阅读完关键论文（如 ResNet, Transformer 等）后，去 GitHub 搜索对应的开源实现代码进行复现，以加深理解。

提示：该路线图会持续更新，建议定期 Pull 最新代码或刷新网页以获取最新添加的 SOTA (State-of-the-Art) 论文。

常见问题

为什么阅读路线图中包含 Word2Vec？它不算深度学习模型吗？

在 Windows 上运行 download.py 脚本报错或无法工作怎么办？

《Deep Learning》书籍的链接失效了，新地址是什么？

路线图是否计划包含音频处理相关的论文（如 WaveNet）？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent