Deep-Learning-Papers-Reading-Roadmap
Deep-Learning-Papers-Reading-Roadmap 是一份专为深度学习初学者和进阶者打造的论文阅读指南。面对浩如烟海的学术文献,许多人在入门时往往困惑于“该从哪篇读起”,这份路线图正是为了解决这一痛点而生。它并非简单的列表堆砌,而是依据“从轮廓到细节、从经典到前沿、从通用到专项”四大原则精心构建的学习路径。
内容涵盖深度学习历史基石(如 Bengio 的《深度学习》圣经)、里程碑式突破(如 AlexNet、ResNet)以及语音识别等垂直领域的演进历程。其独特亮点在于不仅收录了奠定学科基础的经典之作,还持续更新极具价值的前沿论文,帮助读者在掌握核心原理的同时紧跟技术潮流。无论是希望系统建立知识体系的开发者、需要追踪最新进展的研究人员,还是对人工智能充满好奇的学习者,都能从中获得清晰的指引,高效开启深度学习之旅。
使用场景
某高校计算机系研究生李明刚进入深度学习领域,面对海量论文不知从何下手,急需构建系统的知识体系以开展图像识别课题研究。
没有 Deep-Learning-Papers-Reading-Roadmap 时
- 盲目搜索效率低:在 Google Scholar 或 arXiv 上随机关键词搜索,容易陷入碎片化信息,花费数周仍找不到核心奠基之作。
- 学习路径混乱:不清楚应该先读经典的 DBN 还是直接看最新的 Transformer,缺乏“从轮廓到细节、从旧到新”的科学指引,导致基础不牢。
- 错过关键里程碑:极易忽略如 Hinton 团队的早期突破或 AlexNet 等转折点论文,难以理解技术演进的内在逻辑。
- 时间成本高昂:为了筛选高质量文献,不得不阅读大量低相关度的综述,严重拖慢科研进度和开题报告的准备。
使用 Deep-Learning-Papers-Reading-Roadmap 后
- 按图索骥高效入门:直接跟随路线图从《Deep Learning》圣经书和三位巨头的综述开始,迅速建立对领域的宏观认知。
- 循序渐进掌握脉络:严格遵循从深度信念网络(DBN)到 ImageNet 爆发(AlexNet, ResNet)再到语音识别演进的路径,清晰把握技术迭代规律。
- 精准锁定核心文献:路线图明确标注了带星号的关键论文(如 ResNet、GoogLeNet),确保每一篇阅读的材料都是该阶段的精华。
- 快速形成研究方案:在短时间内梳理完历史与前沿,将原本需要一个月的文献调研压缩至一周,迅速聚焦到具体的改进算法设计上。
Deep-Learning-Papers-Reading-Roadmap 通过提供一条经过验证的标准化学习路径,将新手从茫茫文海中解救出来,实现了从盲目摸索到系统精进的根本转变。
运行环境要求
未说明
未说明

快速开始
深度学习论文阅读路线图
如果你是深度学习领域的初学者,你可能会问的第一个问题是:“我应该从哪篇论文开始读起呢?”
这里有一份深度学习论文的阅读路线图!
该路线图按照以下四条原则构建:
- 由概览到细节
- 由经典到最前沿
- 由通用领域到特定方向
- 聚焦最前沿
你会发现许多非常新的论文,但都非常值得一读。
我会继续向这份路线图中添加更多论文。
1 深度学习历史与基础
1.0 书籍
[0] Bengio, Yoshua, Ian J. Goodfellow, and Aaron Courville. "Deep learning." 麻省理工学院出版社出版。(2015年)[html] (深度学习圣经,你可以在阅读后续论文的同时阅读此书。) :star::star::star::star::star:
1.1 综述
[1] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444. [pdf] (三位巨头的综述) :star::star::star::star::star:
1.2 深度信念网络(DBN)(深度学习黎明期的里程碑)
[2] Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep belief nets." Neural computation 18.7 (2006): 1527-1554. [pdf](深度学习黎明期) :star::star::star:
[3] Hinton, Geoffrey E., and Ruslan R. Salakhutdinov. "Reducing the dimensionality of data with neural networks." Science 313.5786 (2006): 504-507. [pdf] (里程碑,展示了深度学习的潜力) :star::star::star:
1.3 ImageNet发展史(深度学习由此爆发)
[4] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." 神经信息处理系统进展。2012年。[pdf] (AlexNet,深度学习的突破) :star::star::star::star::star:
[5] Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv预印本 arXiv:1409.1556 (2014). [pdf] (VGGNet,神经网络变得非常深!) :star::star::star:
[6] Szegedy, Christian, et al. "Going deeper with convolutions." IEEE计算机视觉与模式识别会议论文集。2015年。[pdf] (GoogLeNet) :star::star::star:
[7] He, Kaiming, et al. "Deep residual learning for image recognition." arXiv预印本 arXiv:1512.03385 (2015). [pdf] (ResNet,非常非常深的网络,CVPR最佳论文) :star::star::star::star::star:
1.4 语音识别发展史
[8] Hinton, Geoffrey, et al. "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups." IEEE信号处理杂志 29.6 (2012): 82-97. [pdf] (语音识别领域的突破) :star::star::star::star:
[9] Graves, Alex, Abdel-rahman Mohamed, and Geoffrey Hinton. "Speech recognition with deep recurrent neural networks." 2013 IEEE国际声学、语音和信号处理会议。IEEE,2013年。[pdf] (RNN) :star::star::star:
[10] Graves, Alex, and Navdeep Jaitly. "Towards End-To-End Speech Recognition with Recurrent Neural Networks." ICML. 第14卷。2014年。[pdf] :star::star::star:
[11] Sak, Haşim, et al. "Fast and accurate recurrent neural network acoustic models for speech recognition." arXiv预印本 arXiv:1507.06947 (2015). [pdf] (谷歌语音识别系统) :star::star::star:
[12] Amodei, Dario, et al. "Deep speech 2: End-to-end speech recognition in english and mandarin." arXiv预印本 arXiv:1512.02595 (2015). [pdf] (百度语音识别系统) :star::star::star::star:
[13] W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig "Achieving Human Parity in Conversational Speech Recognition." arXiv预印本 arXiv:1610.05256 (2016). [pdf] (语音识别领域的最前沿,微软) :star::star::star::star:
阅读完以上论文后,你将对深度学习的历史、深度学习模型的基本架构(包括CNN、RNN、LSTM)以及深度学习如何应用于图像和语音识别问题有一个基本的了解。接下来的几篇论文将带你深入理解深度学习的方法、深度学习在不同应用领域的实践以及该领域的前沿进展。建议你可以根据自己的兴趣和研究方向选择阅读以下论文。
#2 深度学习方法
2.1 模型
[14] Hinton, Geoffrey E., 等。"通过防止特征检测器的协同适应来改进神经网络"。arXiv 预印本 arXiv:1207.0580 (2012)。[pdf] (Dropout) :star::star::star:
[15] Srivastava, Nitish, 等。"Dropout:一种简单的方法来防止神经网络过拟合"。机器学习研究杂志 15.1 (2014):1929-1958。[pdf] :star::star::star:
[16] Ioffe, Sergey, 和 Christian Szegedy。"批归一化:通过减少内部协变量偏移加速深度网络训练"。arXiv 预印本 arXiv:1502.03167 (2015)。[pdf] (2015 年杰出工作) :star::star::star::star:
[17] Ba, Jimmy Lei, Jamie Ryan Kiros, 和 Geoffrey E. Hinton。"层归一化"。arXiv 预印本 arXiv:1607.06450 (2016)。[pdf] (批归一化的升级版) :star::star::star::star:
[18] Courbariaux, Matthieu, 等。"二值化神经网络:将权重和激活限制为 +1 或 −1 的神经网络训练"。[pdf] (新模型,速度快) :star::star::star:
[19] Jaderberg, Max, 等。"使用合成梯度解耦的神经接口"。arXiv 预印本 arXiv:1608.05343 (2016)。[pdf] (训练方法的创新,令人惊叹的工作) :star::star::star::star::star:
[20] Chen, Tianqi, Ian Goodfellow, 和 Jonathon Shlens。"Net2net:通过知识迁移加速学习"。arXiv 预印本 arXiv:1511.05641 (2015)。[pdf] (修改已训练网络以减少训练轮次) :star::star::star:
[21] Wei, Tao, 等。"网络形态学"。arXiv 预印本 arXiv:1603.01670 (2016)。[pdf] (修改已训练网络以减少训练轮次) :star::star::star:
2.2 优化
[22] Sutskever, Ilya, 等。"关于深度学习中初始化和动量的重要性"。ICML (3) 28 (2013):1139-1147。[pdf] (动量优化器) :star::star:
[23] Kingma, Diederik, 和 Jimmy Ba。"Adam:一种随机优化方法"。arXiv 预印本 arXiv:1412.6980 (2014)。[pdf] (目前可能使用最广泛) :star::star::star:
[24] Andrychowicz, Marcin, 等。"通过梯度下降学习梯度下降"。arXiv 预印本 arXiv:1606.04474 (2016)。[pdf] (神经优化器,令人惊叹的工作) :star::star::star::star::star:
[25] Han, Song, Huizi Mao, 和 William J. Dally。"深度压缩:通过剪枝、量化训练和霍夫曼编码压缩深度神经网络"。CoRR, abs/1510.00149 2 (2015)。[pdf] (ICLR 最佳论文,使神经网络运行更快的新方向,DeePhi 科技初创公司) :star::star::star::star::star:
[26] Iandola, Forrest N., 等。"SqueezeNet:参数减少 50 倍、模型大小小于 1MB 却达到 AlexNet 级别准确率"。arXiv 预印本 arXiv:1602.07360 (2016)。[pdf] (也是优化神经网络的新方向,DeePhi 科技初创公司) :star::star::star::star:
[27] Glorat Xavier, Bengio Yoshua, 等。"理解训练深层前馈神经网络的困难"。第十三次国际人工智能与统计会议论文集,PMLR 9:249-256,2010。[pdf] :star::star::star::star:
2.3 无监督学习 / 深度生成模型
[28] Le, Quoc V。"利用大规模无监督学习构建高层特征"。2013 年 IEEE 国际声学、语音和信号处理会议。IEEE,2013。[pdf] (里程碑,Andrew Ng,Google Brain 项目,猫) :star::star::star::star:
[29] Kingma, Diederik P., 和 Max Welling。"变分自编码器"。arXiv 预印本 arXiv:1312.6114 (2013)。[pdf] (VAE) :star::star::star::star:
[30] Goodfellow, Ian, 等。"生成对抗网络"。神经信息处理系统进展。2014。[pdf] (GAN,超酷的想法) :star::star::star::star::star:
[31] Radford, Alec, Luke Metz, 和 Soumith Chintala。"使用深度卷积生成对抗网络进行无监督表征学习"。arXiv 预印本 arXiv:1511.06434 (2015)。[pdf] (DCGAN) :star::star::star::star:
[32] Gregor, Karol, 等。"DRAW:用于图像生成的循环神经网络"。arXiv 预印本 arXiv:1502.04623 (2015)。[pdf] (带有注意力机制的 VAE,杰出工作) :star::star::star::star::star:
[33] Oord, Aaron van den, Nal Kalchbrenner, 和 Koray Kavukcuoglu。"像素递归神经网络"。arXiv 预印本 arXiv:1601.06759 (2016)。[pdf] (PixelRNN) :star::star::star::star:
[34] Oord, Aaron van den, 等。"使用 PixelCNN 解码器进行条件图像生成"。arXiv 预印本 arXiv:1606.05328 (2016)。[pdf] (PixelCNN) :star::star::star::star:
[34] S. Mehri 等,"SampleRNN:一种无条件端到端神经音频生成模型"。arXiv 预印本 arXiv:1612.07837 (2016)。[pdf] :star::star::star::star::star:
2.4 RNN / 序列到序列模型
[35] 格雷夫斯,亚历克斯。“利用循环神经网络生成序列”。arXiv预印本 arXiv:1308.0850(2013)。[pdf] (LSTM,生成效果非常好,展现了RNN的强大能力) :star::star::star::star:
[36] 曹庆贤等。“使用RNN编码器-解码器学习短语表示以进行统计机器翻译”。arXiv预印本 arXiv:1406.1078(2014)。[pdf] (第一篇序列到序列论文) :star::star::star::star:
[37] 苏茨克维尔,伊利亚、奥里奥尔·维尼亚尔斯和阮国。 “基于神经网络的序列到序列学习”。神经信息处理系统进展。2014年。[pdf] (杰出工作) :star::star::star::star::star:
[38] 巴达诺、曹庆贤和约书亚·本吉奥。“通过联合学习对齐与翻译实现神经机器翻译”。arXiv预印本 arXiv:1409.0473(2014)。[pdf] :star::star::star::star:
[39] 维尼亚尔斯和阮国。“神经对话模型”。arXiv预印本 arXiv:1506.05869(2015)。[pdf] (用于聊天机器人的序列到序列模型) :star::star::star:
2.5 神经图灵机
[40] 格雷夫斯,亚历克斯、格雷格·韦恩和伊沃·丹尼赫尔卡。“神经图灵机”。arXiv预印本 arXiv:1410.5401(2014)。[pdf] (未来计算机的基本原型) :star::star::star::star::star:
[41] 扎伦巴,沃伊切赫和苏茨克维尔,伊利亚。“强化学习神经图灵机”。arXiv预印本 arXiv:1505.00521 362(2015)。[pdf] :star::star::star:
[42] 韦斯顿,杰森、苏米特·乔普拉和安托万·博德斯。“记忆网络”。arXiv预印本 arXiv:1410.3916(2014)。[pdf] :star::star::star:
[43] 苏赫巴塔尔,赛恩巴亚尔、杰森·韦斯顿和罗布·弗格斯。“端到端记忆网络”。神经信息处理系统进展。2015年。[pdf] :star::star::star::star:
[44] 维尼亚尔斯,奥里奥尔、梅雷·福图纳托和纳夫迪普·贾特利。“指针网络”。神经信息处理系统进展。2015年。[pdf] :star::star::star::star:
[45] 格雷夫斯,亚历克斯等。“使用具有动态外部内存的神经网络进行混合计算”。《自然》杂志(2016)。[pdf] (里程碑,结合了上述论文的思想) :star::star::star::star::star:
2.6 深度强化学习
[46] 米尼,沃洛迪米尔等。“使用深度强化学习玩雅达利游戏”。arXiv预印本 arXiv:1312.5602(2013)。[pdf]) (第一篇名为深度强化学习的论文) :star::star::star::star:
[47] 米尼,沃洛迪米尔等。“通过深度强化学习达到人类水平的控制”。《自然》杂志518卷7540期(2015):529–533页。[pdf] (里程碑) :star::star::star::star::star:
[48] 王子宇、南多·德·弗雷塔斯和马克·兰克托。“用于深度强化学习的决斗网络架构”。arXiv预印本 arXiv:1511.06581(2015)。[pdf] (ICLR最佳论文,极具创意) :star::star::star::star:
[49] 米尼,沃洛迪米尔等。“深度强化学习的异步方法”。arXiv预印本 arXiv:1602.01783(2016)。[pdf] (最先进的方法) :star::star::star::star::star:
[50] 利利克拉普,蒂莫西·P.等。“深度强化学习中的连续控制”。arXiv预印本 arXiv:1509.02971(2015)。[pdf] (DDPG) :star::star::star::star:
[51] 古世翔等。“基于模型加速的连续深度Q学习”。arXiv预印本 arXiv:1603.00748(2016)。[pdf] (NAF) :star::star::star::star:
[52] 舒尔曼,约翰等。“信任域策略优化”。CoRR, abs/1502.05477(2015)。[pdf] (TRPO) :star::star::star::star:
[53] 银行,戴维等。“利用深度神经网络和树搜索掌握围棋”。《自然》杂志529卷7587期(2016):484–489页。[pdf] (AlphaGo) :star::star::star::star::star:
2.7 深度迁移学习 / 终身学习 / 尤其是针对RL
[54] 本吉奥,约书亚。“无监督与迁移学习的深度学习表示”。ICML无监督与迁移学习会议第27次会议(2012):17–36页。[pdf] (教程) :star::star::star:
[55] 银行,丹尼尔·L.、杨强和李良浩。“终身机器学习系统:超越学习算法”。AAAI春季研讨会:终身机器学习。2013年。[pdf] (关于终身学习的简要讨论) :star::star::star:
[56] 辛顿,杰弗里、奥里奥尔·维尼亚尔斯和杰夫·迪恩。“蒸馏神经网络中的知识”。arXiv预印本 arXiv:1503.02531(2015)。[pdf] (奠基之作) :star::star::star::star:
[57] 鲁苏,安德烈·A.等。“策略蒸馏”。arXiv预印本 arXiv:1511.06295(2015)。[pdf] (强化学习领域) :star::star::star:
[58] 帕里索托,埃米利奥、吉米·雷·巴和鲁斯兰·萨拉胡丁诺夫。“演员模仿:深度多任务与迁移强化学习”。arXiv预印本 arXiv:1511.06342(2015)。[pdf] (强化学习领域) :star::star::star:
[59] 鲁苏,安德烈·A.等。“渐进式神经网络”。arXiv预印本 arXiv:1606.04671(2016)。[pdf] (杰出工作,新颖的想法) :star::star::star::star::star:
2.8 一次-shot深度学习
[60] Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. "通过概率程序归纳实现人类水平的概念学习." Science 350.6266 (2015): 1332-1338. [pdf] (无深度学习,但值得一读) :star::star::star::star::star:
[61] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "用于一次-shot图像识别的暹罗神经网络."(2015) [pdf] :star::star::star:
[62] Santoro, Adam, et al. "基于记忆增强神经网络的一次-shot学习." arXiv预印本 arXiv:1605.06065 (2016). [pdf] (一次-shot学习的基础步骤) :star::star::star::star:
[63] Vinyals, Oriol, et al. "用于一次-shot学习的匹配网络." arXiv预印本 arXiv:1606.04080 (2016). [pdf] :star::star::star:
[64] Hariharan, Bharath, and Ross Girshick. "低样本量下的视觉目标识别." arXiv预印本 arXiv:1606.02819 (2016). [pdf] (向大规模数据迈进的一步) :star::star::star::star:
3 应用
3.1 自然语言处理
[1] Antoine Bordes, et al. "开放文本语义解析中词与语义表示的联合学习." AISTATS(2012) [pdf] :star::star::star::star:
[2] Mikolov, et al. "词与短语的分布式表示及其组合性." ANIPS(2013): 3111-3119 [pdf] (word2vec) :star::star::star:
[3] Sutskever, et al. "“序列到序列学习与神经网络." ANIPS(2014) [pdf] :star::star::star:
[4] Ankit Kumar, et al. "“问我任何问题:用于自然语言处理的动态记忆网络." arXiv预印本 arXiv:1506.07285(2015) [pdf] :star::star::star::star:
[5] Yoon Kim, et al. "字符感知型神经语言模型." NIPS(2015) arXiv预印本 arXiv:1508.06615(2015) [pdf] :star::star::star::star:
[6] Jason Weston, et al. "迈向人工智能完备问答:一组先决玩具任务." arXiv预印本 arXiv:1502.05698(2015) [pdf] (bAbI任务) :star::star::star:
[7] Karl Moritz Hermann, et al. "教机器阅读和理解." arXiv预印本 arXiv:1506.03340(2015) [pdf] (CNN/每日邮报完形填空式问题) :star::star:
[8] Alexis Conneau, et al. "用于自然语言处理的超深卷积网络." arXiv预印本 arXiv:1606.01781(2016) [pdf] (文本分类领域的最新技术) :star::star::star:
[9] Armand Joulin, et al. "高效文本分类的技巧集." arXiv预印本 arXiv:1607.01759(2016) [pdf] (略逊于最先进技术,但速度更快) :star::star::star:
3.2 目标检测
[1] Szegedy, Christian, Alexander Toshev, and Dumitru Erhan. "用于目标检测的深度神经网络." 神经信息处理系统进展. 2013. [pdf] :star::star::star:
[2] Girshick, Ross, et al. "用于精确目标检测和语义分割的丰富特征层次结构." IEEE计算机视觉与模式识别会议论文集. 2014. [pdf] (RCNN) :star::star::star::star::star:
[3] He, Kaiming, et al. "用于视觉识别的深度卷积网络中的空间金字塔池化." 欧洲计算机视觉大会. Springer International Publishing, 2014. [pdf] (SPPNet) :star::star::star::star:
[4] Girshick, Ross. "Fast R-CNN." IEEE国际计算机视觉会议论文集. 2015. [pdf] :star::star::star::star:
[5] Ren, Shaoqing, et al. "Faster R-CNN:通过区域建议网络实现实时目标检测." 神经信息处理系统进展. 2015. [pdf] :star::star::star::star:
[6] Redmon, Joseph, et al. "你只需看一眼:统一、实时的目标检测." arXiv预印本 arXiv:1506.02640 (2015). [pdf] (YOLO,杰出工作,非常实用) :star::star::star::star::star:
[7] Liu, Wei, et al. "SSD:单次多框检测器." arXiv预印本 arXiv:1512.02325 (2015). [pdf] :star::star::star:
[8] Dai, Jifeng, et al. "R-FCN:基于区域的全卷积网络进行目标检测." arXiv预印本 arXiv:1605.06409 (2016). [pdf] :star::star::star::star:
[9] He, Gkioxari, et al. "Mask R-CNN" arXiv预印本 arXiv:1703.06870 (2017). [pdf] :star::star::star::star:
[10] Bochkovskiy, Alexey, et al. "YOLOv4:目标检测的最佳速度与精度。" arXiv预印本 arXiv:2004.10934 (2020). [pdf] :star::star::star::star:
[11] Tan, Mingxing, et al. “EfficientDet:可扩展且高效的目标检测。" arXiv预印本 arXiv:1911.09070 (2019). [pdf] :star::star::star::star::star:
3.3 视觉跟踪
[1] Wang, Naiyan, 和 Dit-Yan Yeung。"学习用于视觉跟踪的深度紧凑图像表示"。神经信息处理系统进展。2013年。[pdf] (首个使用深度学习进行视觉跟踪的论文,DLT跟踪器) :star::star::star:
[2] Wang, Naiyan 等。"迁移丰富的特征层次结构以实现鲁棒的视觉跟踪"。arXiv 预印本 arXiv:1501.04587 (2015)。[pdf] (SO-DLT) :star::star::star::star:
[3] Wang, Lijun 等。"基于全卷积网络的视觉跟踪"。IEEE 国际计算机视觉会议论文集。2015年。[pdf] (FCNT) :star::star::star::star:
[4] Held, David, Sebastian Thrun 和 Silvio Savarese。"利用深度回归网络以每秒100帧的速度学习跟踪"。arXiv 预印本 arXiv:1604.01802 (2016)。[pdf] (GOTURN,作为深度学习方法速度非常快,但仍远落后于非深度学习方法) :star::star::star::star:
[5] Bertinetto, Luca 等。"用于目标跟踪的全卷积暹罗网络"。arXiv 预印本 arXiv:1606.09549 (2016)。[pdf] (SiameseFC,实时目标跟踪的新 state-of-the-art) :star::star::star::star:
[6] Martin Danelljan、Andreas Robinson、Fahad Khan 和 Michael Felsberg。"超越相关滤波器:学习用于视觉跟踪的连续卷积算子"。ECCV(2016)。[pdf] (C-COT) :star::star::star::star:
[7] Nam, Hyeonseob、Mooyeol Baek 和 Bohyung Han。"在树状结构中建模和传播 CNN 以用于视觉跟踪"。arXiv 预印本 arXiv:1608.07242 (2016)。[pdf] (VOT2016 冠军,TCNN) :star::star::star::star:
3.4 图像描述
[1] Farhadi,Ali等。"每张图片都讲述一个故事:从图像生成句子"。载于计算机视觉ECCV 2010。Springer Berlin Heidelberg:15-29,2010年。[pdf] :star::star::star:
[2] Kulkarni, Girish 等。"婴儿语言:理解和生成图像描述"。载于第24届CVPR会议论文集,2011年。[pdf]:star::star::star::star:
[3] Vinyals, Oriol 等。"展示与讲述:一种神经图像字幕生成器"。载于arXiv预印本arXiv:1411.4555,2014年。[pdf]:star::star::star:
[4] Donahue, Jeff 等。"用于视觉识别和描述的长期循环卷积网络"。载于arXiv预印本arXiv:1411.4389,2014年。[pdf]
[5] Karpathy, Andrej 和 Li Fei-Fei。"用于生成图像描述的深度视觉-语义对齐"。载于arXiv预印本arXiv:1412.2306,2014年。[pdf]:star::star::star::star::star:
[6] Karpathy, Andrej、Armand Joulin 和 Fei Fei F. Li。"用于双向图像-句子映射的深度片段嵌入"。载于神经信息处理系统进展,2014年。[pdf]:star::star::star::star:
[7] Fang, Hao 等。"从字幕到视觉概念再返回"。载于arXiv预印本arXiv:1411.4952,2014年。[pdf]:star::star::star::star::star:
[8] Chen, Xinlei 和 C. Lawrence Zitnick。"学习用于图像字幕生成的循环视觉表示"。载于arXiv预印本arXiv:1411.5654,2014年。[pdf]:star::star::star::star:
[9] Mao, Junhua 等。"使用多模态循环神经网络(m-rnn)进行深度字幕生成"。载于arXiv预印本arXiv:1412.6632,2014年。[pdf]:star::star::star:
[10] Xu, Kelvin 等。"展示、注意并讲述:带有视觉注意力的神经图像字幕生成"。载于arXiv预印本arXiv:1502.03044,2015年。[pdf]:star::star::star::star::star:
3.5 机器翻译
一些里程碑式的论文已在 RNN / Seq-to-Seq 主题中列出。
[1] Luong, Minh-Thang 等。"解决神经机器翻译中的罕见词问题"。arXiv 预印本 arXiv:1410.8206 (2014)。[pdf] :star::star::star::star:
[2] Sennrich 等。"使用子词单元进行罕见词的神经机器翻译"。载于arXiv预印本arXiv:1508.07909,2015年。[pdf]:star::star::star:
[3] Luong, Minh-Thang、Hieu Pham 和 Christopher D. Manning。"基于注意力的神经机器翻译的有效方法"。arXiv 预印本 arXiv:1508.04025 (2015)。[pdf] :star::star::star::star:
[4] Chung 等。"用于神经机器翻译的无显式分词字符级解码器"。载于arXiv预印本arXiv:1603.06147,2016年。[pdf]:star::star:
[5] Lee 等。"完全基于字符级的无显式分词神经机器翻译"。载于arXiv预印本arXiv:1610.03017,2016年。[pdf]:star::star::star::star::star:
[6] Wu、Schuster、Chen、Le 等。"谷歌的神经机器翻译系统:弥合人类与机器翻译之间的差距"。载于arXiv预印本arXiv:1609.08144v2,2016年。[pdf] (里程碑) :star::star::star::star:
3.6 机器人学
[1] Koutník, Jan, 等。"基于视觉的强化学习中大规模神经网络的演化"。第15届遗传与进化计算年会论文集。ACM,2013年。[pdf] :star::star::star:
[2] Levine, Sergey, 等。"深度视觉-运动策略的端到端训练"。机器学习研究杂志 17.39 (2016): 1-40。[pdf] :star::star::star::star::star:
[3] Pinto, Lerrel, 和 Abhinav Gupta。"自我监督的超大规模扩展:从5万次尝试和700小时机器人数据中学习抓取"。arXiv预印本 arXiv:1509.06825 (2015)。[pdf] :star::star::star:
[4] Levine, Sergey, 等。"利用深度学习和大规模数据收集学习机器人抓取中的手眼协调"。arXiv预印本 arXiv:1603.02199 (2016)。[pdf] :star::star::star::star:
[5] Zhu, Yuke, 等。"基于深度强化学习的室内场景目标驱动视觉导航"。arXiv预印本 arXiv:1609.05143 (2016)。[pdf] :star::star::star::star:
[6] Yahya, Ali, 等。"分布式异步引导策略搜索下的集体机器人强化学习"。arXiv预印本 arXiv:1610.00673 (2016)。[pdf] :star::star::star::star:
[7] Gu, Shixiang, 等。"用于机器人操作的深度强化学习"。arXiv预印本 arXiv:1610.00633 (2016)。[pdf] :star::star::star::star:
[8] A Rusu, M Vecerik, Thomas Rothörl, N Heess, R Pascanu, R Hadsell。"通过渐进式网络实现从像素到现实的机器人学习"。arXiv预印本 arXiv:1610.04286 (2016)。[pdf] :star::star::star::star:
[9] Mirowski, Piotr, 等。"学习在复杂环境中导航"。arXiv预印本 arXiv:1611.03673 (2016)。[pdf] :star::star::star::star:
3.7 艺术
[1] Mordvintsev, Alexander;Olah, Christopher;Tyka, Mike(2015)。"Inceptionism:深入神经网络"。谷歌研究。[html] (Deep Dream) :star::star::star::star:
[2] Gatys, Leon A., Alexander S. Ecker, 和 Matthias Bethge。"一种艺术风格的神经算法"。arXiv预印本 arXiv:1508.06576 (2015)。[pdf] (杰出工作,目前最成功的方法) :star::star::star::star::star:
[3] Zhu, Jun-Yan, 等。"自然图像流形上的生成式视觉操控"。欧洲计算机视觉会议。施普林格国际出版,2016年。[pdf] (iGAN) :star::star::star::star:
[4] Champandard, Alex J。"语义风格迁移及将两比特涂鸦转化为精美艺术品"。arXiv预印本 arXiv:1603.01768 (2016)。[pdf] (Neural Doodle) :star::star::star::star:
[5] Zhang, Richard,Phillip Isola,和 Alexei A. Efros。"彩色图像着色"。arXiv预印本 arXiv:1603.08511 (2016)。[pdf] :star::star::star::star:
[6] Johnson, Justin,Alexandre Alahi,和 Li Fei-Fei。"用于实时风格迁移和超分辨率的感知损失"。arXiv预印本 arXiv:1603.08155 (2016)。[pdf] :star::star::star::star:
[7] Vincent Dumoulin,Jonathon Shlens 和 Manjunath Kudlur。"一种艺术风格的学习表示"。arXiv预印本 arXiv:1610.07629 (2016)。[pdf] :star::star::star::star:
[8] Gatys, Leon 和 Ecker 等人。"控制神经风格迁移中的感知因素"。arXiv预印本 arXiv:1611.07865 (2016)。[pdf] (可控制风格迁移的空间位置、色彩信息及空间尺度) :star::star::star::star:
[9] Ulyanov, Dmitry 和 Lebedev, Vadim 等人。"纹理网络:纹理与风格化图像的前馈合成"。arXiv预印本 arXiv:1603.03417 (2016)。[pdf] (纹理生成与风格迁移) :star::star::star::star:
[10] Yijun Li,Ming-Yu Liu,Xueting Li,Ming-Hsuan Yang,Jan Kautz(NVIDIA)。"照片级真实图像风格化的闭式解"。arXiv预印本 arXiv:1802.06474 (2018)。[pdf] (非常快速且超逼真的风格迁移) :star::star::star::star:
3.8 目标分割
[1] J. Long,E. Shelhamer,和 T. Darrell。"用于语义分割的全卷积网络"。CVPR,2015年。[pdf] :star::star::star::star::star:
[2] L.-C. Chen,G. Papandreou,I. Kokkinos,K. Murphy,和 A. L. Yuille。"使用深度卷积网络和全连接条件随机场进行语义图像分割"。ICLR,2015年。[pdf] :star::star::star::star::star:
[3] Pinheiro, P.O.,Collobert, R.,Dollar, P。"学习分割目标候选"。NIPS,2015年。[pdf] :star::star::star::star:
[4] Dai, J.,He, K.,Sun, J。"通过多任务网络级联实现实例感知的语义分割"。CVPR,2016年。[pdf] :star::star::star:
[5] Dai, J.,He, K.,Sun, J。"实例敏感的全卷积网络"。arXiv预印本 arXiv:1603.08678 (2016)。[pdf] :star::star::star:
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。