awesome-deep-learning-papers

26.1k 4.4k 非常简单 1 次阅读昨天开发框架

AI 解读由 AI 自动生成，仅供参考

awesome-deep-learning-papers 是一份精心整理的深度学习经典论文清单，主要收录了 2012 年至 2016 年间引用率最高的前 100 篇核心文献。在深度学习领域论文数量呈爆炸式增长的背景下，初学者和研究者往往面临信息过载、难以筛选高质量资料的困境。这份列表通过严格的引用量标准和学术影响力评估，去芜存菁，帮助用户快速锁定那些跨越具体应用领域、具有里程碑意义的“必读”奠基之作。

该资源特别适合人工智能领域的研究人员、学生以及希望系统构建知识体系的开发者使用。其独特之处在于不仅提供静态列表，还建立了动态维护机制：严格限定核心榜单为 100 篇，新增论文时需替换旧作，确保清单始终代表最精华的内容；同时设有“超过前 100 篇”及新旧论文分区，兼顾了广度与深度。此外，项目还提供了便捷的脚本工具，支持用户一键下载全部论文原文、提取作者信息或获取参考文献格式文件，极大地提升了文献调研的效率。尽管官方已停止对列表进行日常更新以应对海量新发论文，但它依然是回顾深度学习早期发展历程、理解核心技术演进的最佳入门指南。

使用场景

某高校人工智能实验室的硕士研究生李明，正着手开展关于卷积神经网络优化的课题研究，急需在两周内梳理出该领域的核心理论脉络以确立研究起点。

没有 awesome-deep-learning-papers 时

文献筛选如大海捞针：面对谷歌学术上海量的搜索结果，难以区分哪些是奠基性的经典论文，哪些只是普通的增量研究，耗费大量时间阅读低价值文档。
缺乏权威引用标准：不确定 2012 至 2016 年间哪些论文真正定义了行业标准，担心遗漏关键理论（如 AlexNet、ResNet 的原始提出者），导致开题报告理论基础薄弱。
学习路径混乱无序：网络上各类书单杂乱无章，缺乏经过严格引用数据筛选的“必读”清单，初学者容易陷入细节而忽视领域发展的宏观逻辑。
资料收集效率低下：需要手动逐个查找论文 PDF、整理作者信息和 BibTeX 引用格式，繁琐的准备工作挤占了核心思考时间。

使用 awesome-deep-learning-papers 后

直击领域核心精华：直接获取经严格筛选的“前 100 篇”高引论文列表，迅速锁定 2012-2016 年间最具影响力的奠基之作，瞬间明确研究坐标。
建立扎实理论框架：依据列表中的经典架构（如 VGG、GoogLeNet）按图索骥，快速构建起对深度学习演进史的清晰认知，确保研究方向不偏航。
遵循科学阅读路线：依托这份被社区公认的“必读”清单，制定出从基础原理到前沿突破的高效阅读计划，避免在次要文献上浪费精力。
一键获取科研资源：利用仓库提供的脚本自动批量下载顶会论文 PDF 并生成标准的 BibTeX 文件，将资料准备时间从数天缩短至几分钟。

awesome-deep-learning-papers 通过提供一份经过时间验证的顶级论文清单，帮助研究者从信息过载中解脱，将宝贵精力聚焦于真正的创新思考之上。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目并非可运行的软件工具，而是一个深度学习论文的阅读清单（Awesome List）。它主要包含论文标题、作者和 PDF 下载链接，因此没有操作系统、GPU、内存或 Python 环境等运行需求。README 中提到的 Python 脚本（fetch_papers.py, get_authors.py）仅用于抓取列表中的论文元数据，对运行环境无特殊要求。

python未说明

快速开始

令人惊叹——引用次数最多的深度学习论文

【注】由于自2017年以来每天都有大量深度学习论文发表，本列表已不再维护。

一份精选的、引用次数最多的深度学习论文清单（2012—2016年）

我们认为，存在一些无论应用于哪个领域都值得阅读的“经典”深度学习论文。与其提供数量庞大的论文列表，我们更希望呈现一份精心挑选的、在特定研究领域被视为“必读”的优秀深度学习论文清单。

背景

在此列表之前，已经存在其他“深度学习精彩列表”，例如Deep Vision和Awesome Recurrent Neural Networks。此外，在本列表发布之后，又出现了一份面向深度学习初学者的精彩列表，名为Deep Learning Papers Reading Roadmap，深受众多深度学习研究者的喜爱。

尽管“路线图列表”收录了许多重要的深度学习论文，但要全部读完仍让人感到压力巨大。正如我在前言中所提到的，我认为那些开创性的工作无论其应用领域如何，都能为我们带来启发。因此，我在此推荐前100篇深度学习论文，作为概览深度学习研究的良好起点。

如需每日获取最新论文资讯，请关注我的推特或脸书主页！

精彩列表标准

建议列出2012年至2016年间发表的前100篇深度学习论文。
若有新论文加入列表，则应移除另一篇论文（通常来自“更多2016年论文”部分），以保持前100篇的规模。（因此，移除论文与添加论文同样重要）
那些虽重要但未能入选的论文，将被列入“超过前100篇”部分。
请参阅“新论文”和“旧论文”部分，了解最近6个月内或2012年之前发表的论文。

（引用标准）

< 6个月：新论文（经讨论决定）
2016年：+60次引用，或归入“更多2016年论文”
2015年：+200次引用
2014年：+400次引用
2013年：+600次引用
2012年：+800次引用
~2012年：旧论文（经讨论决定）

请注意，我们更倾向于那些可应用于多种研究领域的开创性深度学习论文，而非专注于特定应用的论文。因此，有些符合标准的论文可能不会被收录，而另一些则可能被接受。这取决于论文的影响、对其他研究的适用性以及该研究领域的稀缺程度等因素。

我们需要您的贡献！

如果您有任何建议（遗漏的论文、新论文、关键研究人员或错别字等），欢迎随时编辑并提交拉取请求。（请阅读贡献指南以获取更多说明，不过仅仅告知我们论文标题对我们来说也是一项巨大的帮助。）

（更新）您可以使用这个脚本下载所有前100篇论文，并用这个脚本收集所有作者的名字。此外，还提供了包含所有前100篇论文的BibTeX文件。感谢doodhwala、Sven和grepinsight！

是否有人愿意贡献代码，用于统计前100篇论文的作者信息呢？

神经网络中的知识蒸馏（2015年），G. Hinton等[pdf]
深度神经网络极易被欺骗：对无法识别图像的高置信度预测（2015年），A. Nguyen等[pdf]
深度神经网络中的特征有多强的可迁移性？（2014年），J. Yosinski等[pdf]
CNN的现成特征：一种惊人的分类基线（2014年），A. Razavian等[pdf]
利用卷积神经网络学习和迁移中级图像表示（2014年），M. Oquab等[pdf]
可视化与理解卷积网络（2014年），M. Zeiler和R. Fergus[pdf]
DeCAF：一种用于通用视觉识别的深度卷积激活特征（2014年），J. Donahue等[pdf]

优化/训练技巧

训练非常深的网络（2015），R. 斯里瓦斯塔瓦等 [pdf]
批归一化：通过减少内部协变量偏移加速深度网络训练（2015），S. 洛菲和 C. 谢盖迪 [pdf]
深入研究修正线性单元：在 ImageNet 分类任务上超越人类水平性能（2015），K. 何等 [pdf]
Dropout：防止神经网络过拟合的简单方法（2014），N. 斯里瓦斯塔瓦等 [pdf]
Adam：一种随机优化方法（2014），D. 金格玛和 J. 巴 [pdf]
通过防止特征检测器的协同适应来改进神经网络（2012），G. 希顿等 [pdf]
超参数优化的随机搜索（2012）J. 伯格斯特拉和 Y. 本吉奥 [pdf]

无监督/生成模型

像素递归神经网络（2016），A. 奥德等 [pdf]
GAN 训练技术的改进（2016），T. 萨利曼斯等 [pdf]
使用深度卷积生成对抗网络进行无监督表征学习（2015），A. 拉德福德等 [pdf]
DRAW：用于图像生成的循环神经网络（2015），K. 格雷戈尔等 [pdf]
生成对抗网络（2014），I. 古德费洛等 [pdf]
变分自编码器（2013），D. 金格玛和 M. 韦林 [pdf]
利用大规模无监督学习构建高层特征（2013），Q. 乐等 [pdf]

卷积神经网络模型

重新思考计算机视觉中的 Inception 架构（2016），C. 谢盖迪等 [pdf]
Inception-v4、Inception-ResNet 以及残差连接对学习的影响（2016），C. 谢盖迪等 [pdf]
深度残差网络中的恒等映射（2016），K. 何等 [pdf]
用于图像识别的深度残差学习（2016），K. 何等 [pdf]
空间变换网络（2015），M. 贾德伯格等，[pdf]
更深的卷积网络（2015），C. 谢盖迪等 [pdf]
用于大规模图像识别的非常深的卷积网络（2014），K. 西蒙尼扬和 A. 赛瑟曼 [pdf]
细节中的魔鬼再现：深入卷积网络（2014），K. 查特菲尔德等 [pdf]
OverFeat：使用卷积网络实现集成式识别、定位与检测（2013），P. 塞尔马内等 [pdf]
Maxout 网络（2013），I. 古德费洛等 [pdf]
网络中的网络（2013），M. 林等 [pdf]
使用深度卷积神经网络进行 ImageNet 分类（2012），A. 克里泽夫斯基等 [pdf]

图像：分割 / 目标检测

You only look once: 统一的实时目标检测（2016），J. Redmon 等人 [pdf]
用于语义分割的全卷积网络（2015），J. Long 等人 [pdf]
Faster R-CNN：通过区域提议网络实现实时目标检测（2015），S. Ren 等人 [pdf]
Fast R-CNN（2015），R. Girshick [pdf]
用于精确目标检测和语义分割的丰富特征层次结构（2014），R. Girshick 等人 [pdf]
深度卷积网络中的空间金字塔池化用于视觉识别（2014），K. He 等人 [pdf]
基于深度卷积网络和全连接条件随机场的语义图像分割，L. Chen 等人 [pdf]
学习场景标注的层次化特征（2013），C. Farabet 等人 [pdf]

图像 / 视频 / 其他

基于深度卷积网络的图像超分辨率（2016），C. Dong 等人 [pdf]
艺术风格的神经算法（2015），L. Gatys 等人 [pdf]
用于生成图像描述的深度视觉—语义对齐（2015），A. Karpathy 和 L. Fei-Fei [pdf]
展示、关注与讲述：带有视觉注意力的神经图像字幕生成（2015），K. Xu 等人 [pdf]
展示与讲述：一种神经图像字幕生成器（2015），O. Vinyals 等人 [pdf]
用于视觉识别和描述的长期递归卷积网络（2015），J. Donahue 等人 [pdf]
VQA：视觉问答（2015），S. Antol 等人 [pdf]
DeepFace：在人脸验证中缩小与人类水平性能的差距（2014），Y. Taigman 等人 [pdf]:
基于卷积神经网络的大规模视频分类（2014），A. Karpathy 等人 [pdf]
用于视频中动作识别的双流卷积网络（2014），K. Simonyan 等人 [pdf]
用于人体动作识别的三维卷积神经网络（2013），S. Ji 等人 [pdf]

自然语言处理 / RNN

用于命名实体识别的神经网络架构（2016），G. Lample 等人 [pdf]
探索语言模型的极限（2016），R. Jozefowicz 等人 [pdf]
教机器阅读与理解（2015），K. Hermann 等人 [pdf]
基于注意力机制的有效神经机器翻译方法（2015），M. Luong 等人 [pdf]
条件随机场作为循环神经网络（2015），S. Zheng 和 S. Jayasumana [pdf]
记忆网络（2014），J. Weston 等人 [pdf]
神经图灵机（2014），A. Graves 等人 [pdf]
通过联合学习对齐与翻译实现的神经机器翻译（2014），D. Bahdanau 等人 [pdf]
基于神经网络的序列到序列学习（2014），I. Sutskever 等人 [pdf]
利用 RNN 编码器-解码器学习短语表示以进行统计机器翻译（2014），K. Cho 等人 [pdf]
用于句子建模的卷积神经网络（2014），N. Kalchbrenner 等人 [pdf]
用于句子分类的卷积神经网络（2014），Y. Kim [pdf]
GloVe：单词表示的全局向量（2014），J. Pennington 等人 [pdf]
句子和文档的分布式表示（2014），Q. Le 和 T. Mikolov [pdf]
单词和短语的分布式表示及其组合性（2013），T. Mikolov 等人 [pdf]
向量空间中单词表示的有效估计（2013），T. Mikolov 等人 [pdf]
基于递归深度模型的情感树库语义组合性研究（2013），R. Socher 等人 [pdf]
利用循环神经网络生成序列（2013），A. Graves [pdf]

语音 / 其他领域

端到端基于注意力的大词汇量语音识别（2016），D. Bahdanau 等人 [pdf]
Deep Speech 2：英语和普通话的端到端语音识别（2015），D. Amodei 等人 [pdf]
基于深度循环神经网络的语音识别（2013），A. Graves [pdf]
用于语音识别声学建模的深度神经网络：四个研究小组的共同见解（2012），G. Hinton 等人 [pdf]
用于大词汇量语音识别的上下文相关预训练深度神经网络（2012）G. Dahl 等人 [pdf]
使用深度信念网络进行声学建模（2012），A. Mohamed 等人 [pdf]

强化学习 / 机器人学

深度视觉-运动策略的端到端训练（2016），S. Levine 等人 [pdf]
利用深度学习和大规模数据收集学习机器人抓取的手眼协调（2016），S. Levine 等人 [pdf]
深度强化学习的异步方法（2016），V. Mnih 等人 [pdf]
采用双 Q 学习的深度强化学习（2016），H. Hasselt 等人 [pdf]
结合深度神经网络与树搜索掌握围棋游戏（2016），D. Silver 等人 [pdf]
深度强化学习的连续控制（2015），T. Lillicrap 等人 [pdf]
通过深度强化学习达到人类水平的控制（2015），V. Mnih 等人 [pdf]
利用深度学习检测机器人抓取动作（2015），I. Lenz 等人 [pdf]
利用深度强化学习玩雅达利游戏（2013），V. Mnih 等人 [pdf])

2016年的更多论文

层归一化（2016），J. Ba 等人 [pdf]
通过梯度下降学习如何进行梯度下降（2016），M. Andrychowicz 等人 [pdf]
神经网络的领域对抗训练（2016），Y. Ganin 等人 [pdf]
WaveNet：一种用于原始音频的生成模型（2016），A. Oord 等人 [pdf] [web]
彩色图像着色（2016），R. Zhang 等人 [pdf]
自然图像流形上的生成式视觉操控（2016），J. Zhu 等人 [pdf]
纹理网络：纹理与风格化图像的前馈合成（2016），D Ulyanov 等人 [pdf]
SSD：单次多框检测器（2016），W. Liu 等人 [pdf]
SqueezeNet：参数量减少50倍、模型大小小于1MB却达到AlexNet级别精度（2016），F. Iandola 等人 [pdf]
Eie：压缩深度神经网络上的高效推理引擎（2016），S. Han 等人 [pdf]
二值化神经网络：将权重和激活限制为+1或-1的深度神经网络训练方法（2016），M. Courbariaux 等人 [pdf]
用于视觉和文本问答的动态记忆网络（2016），C. Xiong 等人 [pdf]
用于图像问答的堆叠注意力网络（2016），Z. Yang 等人 [pdf]
使用具有动态外部内存的神经网络的混合计算（2016），A. Graves 等人 [pdf]
谷歌的神经机器翻译系统：弥合人类与机器翻译之间的鸿沟（2016），Y. Wu 等人 [pdf]

新论文

新近发表（< 6个月）且值得一读的论文

MobileNets：适用于移动视觉应用的高效卷积神经网络（2017），Andrew G. Howard 等人 [pdf]
卷积序列到序列学习（2017），Jonas Gehring 等人 [pdf]
基于知识的神经对话模型（2017），Marjan Ghazvininejad 等人 [pdf]
高精度大批量SGD：1小时内训练ImageNet（2017），Priya Goyal 等人 [pdf]
TACOTRON：迈向端到端语音合成（2017），Y. Wang 等人 [pdf]
深度照片风格迁移（2017），F. Luan 等人 [pdf]
进化策略作为强化学习的可扩展替代方案（2017），T. Salimans 等人 [pdf]
可变形卷积网络（2017），J. Dai 等人 [pdf]
Mask R-CNN（2017），K. He 等人 [pdf]
使用生成对抗网络发现跨域关系的学习（2017），T. Kim 等人 [pdf]
Deep Voice：实时神经文本转语音（2017），S. Arik 等人，[pdf]
PixelNet：由像素、为像素而设计的像素表示（2017），A. Bansal 等人 [pdf]
批量重归一化：朝着降低批量归一化模型对小批量依赖的方向努力（2017），S. Ioffe。[pdf]
Wasserstein GAN（2017），M. Arjovsky 等人 [pdf]
理解深度学习需要重新思考泛化问题（2017），C. Zhang 等人 [pdf]
最小二乘生成对抗网络（2016），X. Mao 等人 [pdf]

老文献

2012年之前发表的经典论文

无监督特征学习中的单层网络分析（2011），A. Coates 等人 [pdf]
深度稀疏修正神经网络（2011），X. Glorot 等人 [pdf]
几乎从零开始的自然语言处理（2011），R. Collobert 等人 [pdf]
基于循环神经网络的语言模型（2010），T. Mikolov 等人 [pdf]
堆叠去噪自编码器：在深度网络中通过局部去噪准则学习有用表示（2010），P. Vincent 等人 [pdf]
学习用于识别的中层特征（2010），Y. Boureau [pdf]
训练受限玻尔兹曼机的实用指南（2010），G. Hinton [pdf]
理解训练深度前馈神经网络的困难（2010），X. Glorot 和 Y. Bengio [pdf]
为什么无监督预训练有助于深度学习（2010），D. Erhan 等人 [pdf]
学习面向人工智能的深度架构（2009），Y. Bengio。[pdf]
用于层次化表示可扩展无监督学习的卷积深度信念网络（2009），H. Lee 等人 [pdf]
深度网络的贪婪分层训练（2007），Y. Bengio 等人 [pdf]
使用神经网络降低数据维度，G. Hinton 和 R. Salakhutdinov。[pdf]
深度信念网络的快速学习算法（2006），G. Hinton 等人 [pdf]
基于梯度的学习应用于文档识别（1998），Y. LeCun 等人 [pdf]
长短期记忆（1997），S. Hochreiter 和 J. Schmidhuber。[pdf]

硬件 / 软件 / 数据集

SQuAD：用于文本机器理解的10万+个问题（2016），Rajpurkar 等人 [pdf]
OpenAI gym（2016），G. Brockman 等人 [pdf]
TensorFlow：异构分布式系统上的大规模机器学习（2016），M. Abadi 等人 [pdf]
Theano：用于快速计算数学表达式的 Python 框架，R. Al-Rfou 等人。
Torch7：用于机器学习的类 MATLAB 环境，R. Collobert 等人 [pdf]
MatConvNet：用于 MATLAB 的卷积神经网络（2015），A. Vedaldi 和 K. Lenc [pdf]
ImageNet 大规模视觉识别挑战赛（2015），O. Russakovsky 等人 [pdf]
Caffe：用于快速特征嵌入的卷积架构（2014），Y. Jia 等人 [pdf]

书籍 / 综述 / 评论

关于深度学习的起源（2017），H. Wang 和 Bhiksha Raj。[pdf]
深度强化学习：概述（2017），Y. Li，[pdf]
神经机器翻译与序列到序列模型（2017）：教程，G. Neubig。[pdf]
神经网络与深度学习（书，2017年1月），Michael Nielsen。[html]
深度学习（书，2016），Goodfellow 等人。[html]
LSTM：搜索空间的奥德赛（2016），K. Greff 等人 [pdf]
变分自编码器教程（2016），C. Doersch。[pdf]
深度学习（2015），Y. LeCun、Y. Bengio 和 G. Hinton [pdf]
神经网络中的深度学习：概述（2015），J. Schmidhuber [pdf]
表征学习：回顾与新视角（2013），Y. Bengio 等人 [pdf]

视频讲座 / 教程 / 博客

(讲座)

CS231n，用于视觉识别的卷积神经网络，斯坦福大学 [web]
CS224d，自然语言处理的深度学习，斯坦福大学 [web]
牛津深度 NLP 2017，自然语言处理的深度学习，牛津大学 [web]

(教程)

NIPS 2016 教程，长滩 [web]
ICML 2016 教程，纽约市 [web]
ICLR 2016 视频，圣胡安 [web]
2016 年蒙特利尔深度学习暑期学校 [web]
2016 年湾区深度学习学校，斯坦福 [web]

(博客)

OpenAI [web]
Distill [web]
Andrej Karpathy 博客 [web]
Colah 的博客 [Web]
WildML [Web]
FastML [web]
TheMorningPaper [web]

附录：不止于前100篇

(2016)

用于神经机器翻译的无显式分词字符级解码器（2016），J. Chung 等人 [pdf]
基于深度神经网络的皮肤癌分类达到皮肤科医生水平（2017），A. Esteva 等人 [html]
基于多折多实例学习的弱监督目标定位（2017），R. Gokberk 等人 [pdf]
基于深度神经网络的脑肿瘤分割（2017），M. Havaei 等人 [pdf]
教授强制：一种训练循环网络的新算法（2016），A. Lamb 等人 [pdf]
对抗性学习推理（2016），V. Dumoulin 等人 [web][pdf]
理解卷积神经网络（2016），J. Koushik [pdf]
将人类排除在闭环之外：贝叶斯优化综述（2016），B. Shahriari 等人 [pdf]
循环神经网络的自适应计算时间（2016），A. Graves [pdf]
密集连接的卷积网络（2016），G. Huang 等人 [pdf]
基于区域的卷积网络，用于精确的目标检测和分割（2016），R. Girshick 等人
基于模型加速的连续深度Q学习（2016），S. Gu 等人 [pdf]
对CNN/Daily Mail阅读理解任务的深入研究（2016），D. Chen 等人 [pdf]
利用混合词-字符模型实现开放词汇量的神经机器翻译，M. Luong 和 C. Manning。[pdf]
用于自然语言处理的超深卷积网络（2016），A. Conneau 等人 [pdf]
高效文本分类的技巧大全（2016），A. Joulin 等人 [pdf]
语义分割中深度结构化模型的高效分段训练（2016），G. Lin 等人 [pdf]
学习组合神经网络以进行问答（2016），J. Andreas 等人 [pdf]
用于实时风格迁移和超分辨率的感知损失（2016），J. Johnson 等人 [pdf]
使用卷积神经网络在野外读取文本（2016），M. Jaderberg 等人 [pdf]
什么构成了有效的检测建议？（2016），J. Hosang 等人 [pdf]
内外网：利用跳跃池化和循环神经网络在上下文中检测目标（2016），S. Bell 等人 [pdf]。
基于多任务网络级联的实例感知语义分割（2016），J. Dai 等人 [pdf]
基于PixelCNN解码器的条件图像生成（2016），A. van den Oord 等人 [pdf]
具有随机深度的深度网络（2016），G. Huang 等人，[pdf]
随机梯度朗之万动力学的一致性与波动性（2016），Yee Whye Teh 等人 [pdf]

(2015)

问问你的神经元：一种基于神经网络的图像问答方法（2015），M. Malinowski 等人 [pdf]
探索图像问答的模型与数据（2015），M. Ren 等人 [pdf]
你在和机器对话吗？多语言图像问答数据集及方法（2015），H. Gao 等人 [pdf]
心灵之眼：用于图像字幕生成的循环视觉表示（2015），X. Chen 和 C. Zitnick [pdf]
从字幕到视觉概念再返回（2015），H. Fang 等人 [pdf]。
朝向人工智能完备的问答：一组先决条件玩具任务（2015），J. Weston 等人 [pdf]
随便问吧：用于自然语言处理的动态记忆网络（2015），A. Kumar 等人 [pdf]
使用 LSTM 进行视频表示的无监督学习（2015），N. Srivastava 等人 [pdf]
深度压缩：通过剪枝、训练后量化和霍夫曼编码压缩深度神经网络（2015），S. Han 等人 [pdf]
基于树结构长短期记忆网络的语义表示改进（2015），K. Tai 等人 [pdf]
字符感知的神经语言模型（2015），Y. Kim 等人 [pdf]
文法作为一门外语（2015），O. Vinyals 等人 [pdf]
约束区域策略优化（2015），J. Schulman 等人 [pdf]
不止于短片段：用于视频分类的深度网络（2015）[pdf]
用于语义分割的反卷积网络学习（2015），H. Noh 等人 [pdf]
使用三维卷积网络学习时空特征（2015），D. Tran 等人 [pdf]
通过深度可视化理解神经网络（2015），J. Yosinski 等人 [pdf]
循环网络架构的实证探索（2015），R. Jozefowicz 等人 [pdf]
使用对抗网络拉普拉斯金字塔的深度生成图像模型（2015），E. Denton 等人 [pdf]
门控反馈循环神经网络（2015），J. Chung 等人 [pdf]
基于指数线性单元（ELUs）的快速且精确的深度网络学习（2015），D. Clevert 等人 [pdf]
指针网络（2015），O. Vinyals 等人 [pdf]
可视化与理解循环网络（2015），A. Karpathy 等人 [pdf]
基于注意力机制的语音识别模型（2015），J. Chorowski 等人 [pdf]
端到端记忆网络（2015），S. Sukbaatar 等人 [pdf]
利用时间结构描述视频（2015），L. Yao 等人 [pdf]
一种神经对话模型（2015），O. Vinyals 和 Q. Le [pdf]
借鉴词嵌入经验提升分布相似性，O. Levy 等人 [[pdf]] (https://www.transacl.org/ojs/index.php/tacl/article/download/570/124)
基于堆栈式长短期记忆的依存句法分析（2015），C. Dyer 等人 [pdf]
使用 LSTM 对字符而非单词建模以改进基于转换的句法分析（2015），M. Ballesteros 等人 [pdf]
由形见意：用于开放词汇表征的组合式字符模型（2015），W. Ling 等人 [pdf]

(~2014)

DeepPose：基于深度神经网络的人体姿态估计（2014年），A. Toshev 和 C. Szegedy [pdf]
学习用于图像超分辨率的深度卷积网络（2014年，C. Dong 等）[pdf]
视觉注意力的循环模型（2014年），V. Mnih 等 [pdf]
门控循环神经网络在序列建模中的经验评估（2014年），J. Chung 等 [pdf]
解决神经机器翻译中的罕见词问题（2014年），M. Luong 等 [pdf]
关于神经机器翻译的性质：编码器-解码器方法（2014年），K. Cho 等
循环神经网络正则化（2014年），W. Zaremba 等 [pdf]
神经网络的有趣特性（2014年），C. Szegedy 等 [pdf]
基于循环神经网络的端到端语音识别（2014年），A. Graves 和 N. Jaitly。[pdf]
使用深度神经网络的可扩展目标检测（2014年），D. Erhan 等 [pdf]
深度学习中初始化和动量的重要性（2013年），I. Sutskever 等 [pdf]
使用DropConnect对神经网络进行正则化（2013年），L. Wan 等 [pdf]
用于场景标注的层次特征学习（2013年），C. Farabet 等 [pdf]
连续空间词表示中的语言规律性（2013年），T. Mikolov 等 [pdf]
大规模分布式深度网络（2012年），J. Dean 等 [pdf]
使用神经网络的快速且准确的依存句法分析器。Chen 和 Manning。[pdf]

致谢

感谢大家的贡献。请在提交拉取请求之前务必阅读贡献指南。

许可证

在法律允许的最大范围内，Terry T. Um 已放弃本作品的所有版权及相关或邻接权利。

awesome-deep-learning-papers 快速上手指南

awesome-deep-learning-papers 并非一个需要安装运行的软件库，而是一个精选的深度学习经典论文清单（2012-2016 年高引用论文）。本指南将帮助你快速获取、阅读和管理这些论文资源。

环境准备

本项目无需特定的系统环境或编程语言依赖，只需具备以下条件：

操作系统：Windows、macOS 或 Linux 均可。
基础工具：
- git：用于克隆仓库。
- 浏览器或 PDF 阅读器：用于阅读论文。
- (可选) Python 3.x：如果你希望运行脚本批量下载论文或提取作者信息。

安装步骤

方法一：直接浏览在线列表（推荐）

最直接的方式是访问 GitHub 仓库页面在线阅读分类整理的论文列表及链接：

# 在浏览器中打开
https://github.com/terryum/awesome-deep-learning-papers

方法二：克隆仓库到本地

如果你希望离线查看或运行辅助脚本，请执行以下命令：

git clone https://github.com/terryum/awesome-deep-learning-papers.git
cd awesome-deep-learning-papers

国内加速提示：如果克隆速度较慢，可使用国内镜像源（如 Gitee 镜像，若有）或配置 git 代理。
# 示例：使用代理加速（需根据实际网络环境配置）
git clone https://github.com/terryum/awesome-deep-learning-papers.git --config http.proxy=http://127.0.0.1:7890

(可选) 安装 Python 依赖

若要使用项目提供的批量下载脚本，确保已安装 Python 及 requests 库：

pip install requests

基本使用

1. 在线阅读与检索

仓库 README.md 已将论文按领域分类（如卷积网络、生成模型、NLP 等）。你可以直接在文件中搜索关键词（如 "ResNet", "GAN", "Attention"）找到对应论文标题和 arXiv/PDF 链接。

核心分类包括：

Understanding / Generalization: 知识蒸馏、特征迁移等。
Optimization: Batch Normalization, Adam, Dropout 等。
Generative Models: GAN, VAE, PixelRNN 等。
CNN Models: ResNet, Inception, VGG, AlexNet 等。

2. 批量下载论文 (Python 脚本)

项目提供了脚本一键下载前 100 篇经典论文的 PDF 文件。

下载所有 Top-100 论文：

python fetch_papers.py

执行后，脚本会自动创建目录并将论文 PDF 下载到本地。

提取所有作者姓名：

python get_authors.py

3. 使用 BibTeX 引用

如果你正在撰写学术论文，可以直接使用项目提供的 top100papers.bib 文件。将该文件复制到你的 LaTeX 项目目录，并在 .tex 文件中引用：

\bibliographystyle{plain}
\bibliography{top100papers}

4. 贡献与更新

由于该列表主要维护至 2016 年的经典论文，若你需要查找最新论文，建议关注作者提到的社交媒体渠道或查阅列表中的 "New Papers" 附录部分。如有遗漏的经典论文，欢迎通过 Pull Request 贡献。

常见问题

项目是否收录需要付费下载的 IEEE 论文？

运行 fetch_papers.py 脚本时出现语法错误或命令未找到怎么办？

为什么列表中同时存在两篇关于 Dropout 的论文（2012 年和 2014 年）？

发现列表中的论文链接失效或指向错误内容该怎么办？

如何向项目推荐新的论文资源或书籍？

项目是否有计划支持 BibTeX (*.bib) 格式以便导入文献管理软件？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 awesome-deep-learning-papers 时

使用 awesome-deep-learning-papers 后

运行环境要求

快速开始

令人惊叹——引用次数最多的深度学习论文

背景

精彩列表标准

目录

理解/泛化/迁移

优化/训练技巧

无监督/生成模型

卷积神经网络模型

图像：分割 / 目标检测

图像 / 视频 / 其他

自然语言处理 / RNN

语音 / 其他领域

强化学习 / 机器人学

2016年的更多论文

新论文

老文献

硬件 / 软件 / 数据集

书籍 / 综述 / 评论

视频讲座 / 教程 / 博客

附录：不止于前100篇

致谢

许可证

awesome-deep-learning-papers 快速上手指南

环境准备

安装步骤

方法一：直接浏览在线列表（推荐）

方法二：克隆仓库到本地

(可选) 安装 Python 依赖

基本使用

1. 在线阅读与检索

2. 批量下载论文 (Python 脚本)

3. 使用 BibTeX 引用

4. 贡献与更新

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown