awesome-deep-learning-papers

GitHub
26.1k 4.4k 非常简单 1 次阅读 昨天开发框架
AI 解读 由 AI 自动生成,仅供参考

awesome-deep-learning-papers 是一份精心整理的深度学习经典论文清单,主要收录了 2012 年至 2016 年间引用率最高的前 100 篇核心文献。在深度学习领域论文数量呈爆炸式增长的背景下,初学者和研究者往往面临信息过载、难以筛选高质量资料的困境。这份列表通过严格的引用量标准和学术影响力评估,去芜存菁,帮助用户快速锁定那些跨越具体应用领域、具有里程碑意义的“必读”奠基之作。

该资源特别适合人工智能领域的研究人员、学生以及希望系统构建知识体系的开发者使用。其独特之处在于不仅提供静态列表,还建立了动态维护机制:严格限定核心榜单为 100 篇,新增论文时需替换旧作,确保清单始终代表最精华的内容;同时设有“超过前 100 篇”及新旧论文分区,兼顾了广度与深度。此外,项目还提供了便捷的脚本工具,支持用户一键下载全部论文原文、提取作者信息或获取参考文献格式文件,极大地提升了文献调研的效率。尽管官方已停止对列表进行日常更新以应对海量新发论文,但它依然是回顾深度学习早期发展历程、理解核心技术演进的最佳入门指南。

使用场景

某高校人工智能实验室的硕士研究生李明,正着手开展关于卷积神经网络优化的课题研究,急需在两周内梳理出该领域的核心理论脉络以确立研究起点。

没有 awesome-deep-learning-papers 时

  • 文献筛选如大海捞针:面对谷歌学术上海量的搜索结果,难以区分哪些是奠基性的经典论文,哪些只是普通的增量研究,耗费大量时间阅读低价值文档。
  • 缺乏权威引用标准:不确定 2012 至 2016 年间哪些论文真正定义了行业标准,担心遗漏关键理论(如 AlexNet、ResNet 的原始提出者),导致开题报告理论基础薄弱。
  • 学习路径混乱无序:网络上各类书单杂乱无章,缺乏经过严格引用数据筛选的“必读”清单,初学者容易陷入细节而忽视领域发展的宏观逻辑。
  • 资料收集效率低下:需要手动逐个查找论文 PDF、整理作者信息和 BibTeX 引用格式,繁琐的准备工作挤占了核心思考时间。

使用 awesome-deep-learning-papers 后

  • 直击领域核心精华:直接获取经严格筛选的“前 100 篇”高引论文列表,迅速锁定 2012-2016 年间最具影响力的奠基之作,瞬间明确研究坐标。
  • 建立扎实理论框架:依据列表中的经典架构(如 VGG、GoogLeNet)按图索骥,快速构建起对深度学习演进史的清晰认知,确保研究方向不偏航。
  • 遵循科学阅读路线:依托这份被社区公认的“必读”清单,制定出从基础原理到前沿突破的高效阅读计划,避免在次要文献上浪费精力。
  • 一键获取科研资源:利用仓库提供的脚本自动批量下载顶会论文 PDF 并生成标准的 BibTeX 文件,将资料准备时间从数天缩短至几分钟。

awesome-deep-learning-papers 通过提供一份经过时间验证的顶级论文清单,帮助研究者从信息过载中解脱,将宝贵精力聚焦于真正的创新思考之上。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目并非可运行的软件工具,而是一个深度学习论文的阅读清单(Awesome List)。它主要包含论文标题、作者和 PDF 下载链接,因此没有操作系统、GPU、内存或 Python 环境等运行需求。README 中提到的 Python 脚本(fetch_papers.py, get_authors.py)仅用于抓取列表中的论文元数据,对运行环境无特殊要求。
python未说明
awesome-deep-learning-papers hero image

快速开始

令人惊叹——引用次数最多的深度学习论文

Awesome

【注】由于自2017年以来每天都有大量深度学习论文发表,本列表已不再维护。

一份精选的、引用次数最多的深度学习论文清单(2012—2016年)

我们认为,存在一些无论应用于哪个领域都值得阅读的“经典”深度学习论文。与其提供数量庞大的论文列表,我们更希望呈现一份精心挑选的、在特定研究领域被视为“必读”的优秀深度学习论文清单。

背景

在此列表之前,已经存在其他“深度学习精彩列表”,例如Deep VisionAwesome Recurrent Neural Networks。此外,在本列表发布之后,又出现了一份面向深度学习初学者的精彩列表,名为Deep Learning Papers Reading Roadmap,深受众多深度学习研究者的喜爱。

尽管“路线图列表”收录了许多重要的深度学习论文,但要全部读完仍让人感到压力巨大。正如我在前言中所提到的,我认为那些开创性的工作无论其应用领域如何,都能为我们带来启发。因此,我在此推荐前100篇深度学习论文,作为概览深度学习研究的良好起点。

如需每日获取最新论文资讯,请关注我的推特脸书主页

精彩列表标准

  1. 建议列出2012年至2016年间发表的前100篇深度学习论文
  2. 若有新论文加入列表,则应移除另一篇论文(通常来自“更多2016年论文”部分),以保持前100篇的规模。(因此,移除论文与添加论文同样重要)
  3. 那些虽重要但未能入选的论文,将被列入“超过前100篇”部分。
  4. 请参阅“新论文”和“旧论文”部分,了解最近6个月内或2012年之前发表的论文。

(引用标准)

  • < 6个月新论文(经讨论决定)
  • 2016年:+60次引用,或归入“更多2016年论文”
  • 2015年:+200次引用
  • 2014年:+400次引用
  • 2013年:+600次引用
  • 2012年:+800次引用
  • ~2012年旧论文(经讨论决定)

请注意,我们更倾向于那些可应用于多种研究领域的开创性深度学习论文,而非专注于特定应用的论文。因此,有些符合标准的论文可能不会被收录,而另一些则可能被接受。这取决于论文的影响、对其他研究的适用性以及该研究领域的稀缺程度等因素。

我们需要您的贡献!

如果您有任何建议(遗漏的论文、新论文、关键研究人员或错别字等),欢迎随时编辑并提交拉取请求。 (请阅读贡献指南以获取更多说明,不过仅仅告知我们论文标题对我们来说也是一项巨大的帮助。)

(更新)您可以使用这个脚本下载所有前100篇论文,并用这个脚本收集所有作者的名字。此外,还提供了包含所有前100篇论文的BibTeX文件。感谢doodhwala、Svengrepinsight

  • 是否有人愿意贡献代码,用于统计前100篇论文的作者信息呢?

目录

(超过前100篇)


理解/泛化/迁移

  • 神经网络中的知识蒸馏(2015年),G. Hinton等[pdf]
  • 深度神经网络极易被欺骗:对无法识别图像的高置信度预测(2015年),A. Nguyen等[pdf]
  • 深度神经网络中的特征有多强的可迁移性?(2014年),J. Yosinski等[pdf]
  • CNN的现成特征:一种惊人的分类基线(2014年),A. Razavian等[pdf]
  • 利用卷积神经网络学习和迁移中级图像表示(2014年),M. Oquab等[pdf]
  • 可视化与理解卷积网络(2014年),M. Zeiler和R. Fergus[pdf]
  • DeCAF:一种用于通用视觉识别的深度卷积激活特征(2014年),J. Donahue等[pdf]

优化/训练技巧

  • 训练非常深的网络(2015),R. 斯里瓦斯塔瓦等 [pdf]
  • 批归一化:通过减少内部协变量偏移加速深度网络训练(2015),S. 洛菲和 C. 谢盖迪 [pdf]
  • 深入研究修正线性单元:在 ImageNet 分类任务上超越人类水平性能(2015),K. 何等 [pdf]
  • Dropout:防止神经网络过拟合的简单方法(2014),N. 斯里瓦斯塔瓦等 [pdf]
  • Adam:一种随机优化方法(2014),D. 金格玛和 J. 巴 [pdf]
  • 通过防止特征检测器的协同适应来改进神经网络(2012),G. 希顿等 [pdf]
  • 超参数优化的随机搜索(2012)J. 伯格斯特拉和 Y. 本吉奥 [pdf]

无监督/生成模型

  • 像素递归神经网络(2016),A. 奥德等 [pdf]
  • GAN 训练技术的改进(2016),T. 萨利曼斯等 [pdf]
  • 使用深度卷积生成对抗网络进行无监督表征学习(2015),A. 拉德福德等 [pdf]
  • DRAW:用于图像生成的循环神经网络(2015),K. 格雷戈尔等 [pdf]
  • 生成对抗网络(2014),I. 古德费洛等 [pdf]
  • 变分自编码器(2013),D. 金格玛和 M. 韦林 [pdf]
  • 利用大规模无监督学习构建高层特征(2013),Q. 乐等 [pdf]

卷积神经网络模型

  • 重新思考计算机视觉中的 Inception 架构(2016),C. 谢盖迪等 [pdf]
  • Inception-v4、Inception-ResNet 以及残差连接对学习的影响(2016),C. 谢盖迪等 [pdf]
  • 深度残差网络中的恒等映射(2016),K. 何等 [pdf]
  • 用于图像识别的深度残差学习(2016),K. 何等 [pdf]
  • 空间变换网络(2015),M. 贾德伯格等,[pdf]
  • 更深的卷积网络(2015),C. 谢盖迪等 [pdf]
  • 用于大规模图像识别的非常深的卷积网络(2014),K. 西蒙尼扬和 A. 赛瑟曼 [pdf]
  • 细节中的魔鬼再现:深入卷积网络(2014),K. 查特菲尔德等 [pdf]
  • OverFeat:使用卷积网络实现集成式识别、定位与检测(2013),P. 塞尔马内等 [pdf]
  • Maxout 网络(2013),I. 古德费洛等 [pdf]
  • 网络中的网络(2013),M. 林等 [pdf]
  • 使用深度卷积神经网络进行 ImageNet 分类(2012),A. 克里泽夫斯基等 [pdf]

图像:分割 / 目标检测

  • You only look once: 统一的实时目标检测(2016),J. Redmon 等人 [pdf]
  • 用于语义分割的全卷积网络(2015),J. Long 等人 [pdf]
  • Faster R-CNN:通过区域提议网络实现实时目标检测(2015),S. Ren 等人 [pdf]
  • Fast R-CNN(2015),R. Girshick [pdf]
  • 用于精确目标检测和语义分割的丰富特征层次结构(2014),R. Girshick 等人 [pdf]
  • 深度卷积网络中的空间金字塔池化用于视觉识别(2014),K. He 等人 [pdf]
  • 基于深度卷积网络和全连接条件随机场的语义图像分割,L. Chen 等人 [pdf]
  • 学习场景标注的层次化特征(2013),C. Farabet 等人 [pdf]

图像 / 视频 / 其他

  • 基于深度卷积网络的图像超分辨率(2016),C. Dong 等人 [pdf]
  • 艺术风格的神经算法(2015),L. Gatys 等人 [pdf]
  • 用于生成图像描述的深度视觉—语义对齐(2015),A. Karpathy 和 L. Fei-Fei [pdf]
  • 展示、关注与讲述:带有视觉注意力的神经图像字幕生成(2015),K. Xu 等人 [pdf]
  • 展示与讲述:一种神经图像字幕生成器(2015),O. Vinyals 等人 [pdf]
  • 用于视觉识别和描述的长期递归卷积网络(2015),J. Donahue 等人 [pdf]
  • VQA:视觉问答(2015),S. Antol 等人 [pdf]
  • DeepFace:在人脸验证中缩小与人类水平性能的差距(2014),Y. Taigman 等人 [pdf]:
  • 基于卷积神经网络的大规模视频分类(2014),A. Karpathy 等人 [pdf]
  • 用于视频中动作识别的双流卷积网络(2014),K. Simonyan 等人 [pdf]
  • 用于人体动作识别的三维卷积神经网络(2013),S. Ji 等人 [pdf]

自然语言处理 / RNN

  • 用于命名实体识别的神经网络架构(2016),G. Lample 等人 [pdf]
  • 探索语言模型的极限(2016),R. Jozefowicz 等人 [pdf]
  • 教机器阅读与理解(2015),K. Hermann 等人 [pdf]
  • 基于注意力机制的有效神经机器翻译方法(2015),M. Luong 等人 [pdf]
  • 条件随机场作为循环神经网络(2015),S. Zheng 和 S. Jayasumana [pdf]
  • 记忆网络(2014),J. Weston 等人 [pdf]
  • 神经图灵机(2014),A. Graves 等人 [pdf]
  • 通过联合学习对齐与翻译实现的神经机器翻译(2014),D. Bahdanau 等人 [pdf]
  • 基于神经网络的序列到序列学习(2014),I. Sutskever 等人 [pdf]
  • 利用 RNN 编码器-解码器学习短语表示以进行统计机器翻译(2014),K. Cho 等人 [pdf]
  • 用于句子建模的卷积神经网络(2014),N. Kalchbrenner 等人 [pdf]
  • 用于句子分类的卷积神经网络(2014),Y. Kim [pdf]
  • GloVe:单词表示的全局向量(2014),J. Pennington 等人 [pdf]
  • 句子和文档的分布式表示(2014),Q. Le 和 T. Mikolov [pdf]
  • 单词和短语的分布式表示及其组合性(2013),T. Mikolov 等人 [pdf]
  • 向量空间中单词表示的有效估计(2013),T. Mikolov 等人 [pdf]
  • 基于递归深度模型的情感树库语义组合性研究(2013),R. Socher 等人 [pdf]
  • 利用循环神经网络生成序列(2013),A. Graves [pdf]

语音 / 其他领域

  • 端到端基于注意力的大词汇量语音识别(2016),D. Bahdanau 等人 [pdf]
  • Deep Speech 2:英语和普通话的端到端语音识别(2015),D. Amodei 等人 [pdf]
  • 基于深度循环神经网络的语音识别(2013),A. Graves [pdf]
  • 用于语音识别声学建模的深度神经网络:四个研究小组的共同见解(2012),G. Hinton 等人 [pdf]
  • 用于大词汇量语音识别的上下文相关预训练深度神经网络(2012)G. Dahl 等人 [pdf]
  • 使用深度信念网络进行声学建模(2012),A. Mohamed 等人 [pdf]

强化学习 / 机器人学

  • 深度视觉-运动策略的端到端训练(2016),S. Levine 等人 [pdf]
  • 利用深度学习和大规模数据收集学习机器人抓取的手眼协调(2016),S. Levine 等人 [pdf]
  • 深度强化学习的异步方法(2016),V. Mnih 等人 [pdf]
  • 采用双 Q 学习的深度强化学习(2016),H. Hasselt 等人 [pdf]
  • 结合深度神经网络与树搜索掌握围棋游戏(2016),D. Silver 等人 [pdf]
  • 深度强化学习的连续控制(2015),T. Lillicrap 等人 [pdf]
  • 通过深度强化学习达到人类水平的控制(2015),V. Mnih 等人 [pdf]
  • 利用深度学习检测机器人抓取动作(2015),I. Lenz 等人 [pdf]
  • 利用深度强化学习玩雅达利游戏(2013),V. Mnih 等人 [pdf])

2016年的更多论文

  • 层归一化(2016),J. Ba 等人 [pdf]
  • 通过梯度下降学习如何进行梯度下降(2016),M. Andrychowicz 等人 [pdf]
  • 神经网络的领域对抗训练(2016),Y. Ganin 等人 [pdf]
  • WaveNet:一种用于原始音频的生成模型(2016),A. Oord 等人 [pdf] [web]
  • 彩色图像着色(2016),R. Zhang 等人 [pdf]
  • 自然图像流形上的生成式视觉操控(2016),J. Zhu 等人 [pdf]
  • 纹理网络:纹理与风格化图像的前馈合成(2016),D Ulyanov 等人 [pdf]
  • SSD:单次多框检测器(2016),W. Liu 等人 [pdf]
  • SqueezeNet:参数量减少50倍、模型大小小于1MB却达到AlexNet级别精度(2016),F. Iandola 等人 [pdf]
  • Eie:压缩深度神经网络上的高效推理引擎(2016),S. Han 等人 [pdf]
  • 二值化神经网络:将权重和激活限制为+1或-1的深度神经网络训练方法(2016),M. Courbariaux 等人 [pdf]
  • 用于视觉和文本问答的动态记忆网络(2016),C. Xiong 等人 [pdf]
  • 用于图像问答的堆叠注意力网络(2016),Z. Yang 等人 [pdf]
  • 使用具有动态外部内存的神经网络的混合计算(2016),A. Graves 等人 [pdf]
  • 谷歌的神经机器翻译系统:弥合人类与机器翻译之间的鸿沟(2016),Y. Wu 等人 [pdf]

新论文

新近发表(< 6个月)且值得一读的论文

  • MobileNets:适用于移动视觉应用的高效卷积神经网络(2017),Andrew G. Howard 等人 [pdf]
  • 卷积序列到序列学习(2017),Jonas Gehring 等人 [pdf]
  • 基于知识的神经对话模型(2017),Marjan Ghazvininejad 等人 [pdf]
  • 高精度大批量SGD:1小时内训练ImageNet(2017),Priya Goyal 等人 [pdf]
  • TACOTRON:迈向端到端语音合成(2017),Y. Wang 等人 [pdf]
  • 深度照片风格迁移(2017),F. Luan 等人 [pdf]
  • 进化策略作为强化学习的可扩展替代方案(2017),T. Salimans 等人 [pdf]
  • 可变形卷积网络(2017),J. Dai 等人 [pdf]
  • Mask R-CNN(2017),K. He 等人 [pdf]
  • 使用生成对抗网络发现跨域关系的学习(2017),T. Kim 等人 [pdf]
  • Deep Voice:实时神经文本转语音(2017),S. Arik 等人,[pdf]
  • PixelNet:由像素、为像素而设计的像素表示(2017),A. Bansal 等人 [pdf]
  • 批量重归一化:朝着降低批量归一化模型对小批量依赖的方向努力(2017),S. Ioffe。[pdf]
  • Wasserstein GAN(2017),M. Arjovsky 等人 [pdf]
  • 理解深度学习需要重新思考泛化问题(2017),C. Zhang 等人 [pdf]
  • 最小二乘生成对抗网络(2016),X. Mao 等人 [pdf]

老文献

2012年之前发表的经典论文

  • 无监督特征学习中的单层网络分析(2011),A. Coates 等人 [pdf]
  • 深度稀疏修正神经网络(2011),X. Glorot 等人 [pdf]
  • 几乎从零开始的自然语言处理(2011),R. Collobert 等人 [pdf]
  • 基于循环神经网络的语言模型(2010),T. Mikolov 等人 [pdf]
  • 堆叠去噪自编码器:在深度网络中通过局部去噪准则学习有用表示(2010),P. Vincent 等人 [pdf]
  • 学习用于识别的中层特征(2010),Y. Boureau [pdf]
  • 训练受限玻尔兹曼机的实用指南(2010),G. Hinton [pdf]
  • 理解训练深度前馈神经网络的困难(2010),X. Glorot 和 Y. Bengio [pdf]
  • 为什么无监督预训练有助于深度学习(2010),D. Erhan 等人 [pdf]
  • 学习面向人工智能的深度架构(2009),Y. Bengio。[pdf]
  • 用于层次化表示可扩展无监督学习的卷积深度信念网络(2009),H. Lee 等人 [pdf]
  • 深度网络的贪婪分层训练(2007),Y. Bengio 等人 [pdf]
  • 使用神经网络降低数据维度,G. Hinton 和 R. Salakhutdinov。[pdf]
  • 深度信念网络的快速学习算法(2006),G. Hinton 等人 [pdf]
  • 基于梯度的学习应用于文档识别(1998),Y. LeCun 等人 [pdf]
  • 长短期记忆(1997),S. Hochreiter 和 J. Schmidhuber。[pdf]

硬件 / 软件 / 数据集

  • SQuAD:用于文本机器理解的10万+个问题(2016),Rajpurkar 等人 [pdf]
  • OpenAI gym(2016),G. Brockman 等人 [pdf]
  • TensorFlow:异构分布式系统上的大规模机器学习(2016),M. Abadi 等人 [pdf]
  • Theano:用于快速计算数学表达式的 Python 框架,R. Al-Rfou 等人。
  • Torch7:用于机器学习的类 MATLAB 环境,R. Collobert 等人 [pdf]
  • MatConvNet:用于 MATLAB 的卷积神经网络(2015),A. Vedaldi 和 K. Lenc [pdf]
  • ImageNet 大规模视觉识别挑战赛(2015),O. Russakovsky 等人 [pdf]
  • Caffe:用于快速特征嵌入的卷积架构(2014),Y. Jia 等人 [pdf]

书籍 / 综述 / 评论

  • 关于深度学习的起源(2017),H. Wang 和 Bhiksha Raj。[pdf]
  • 深度强化学习:概述(2017),Y. Li,[pdf]
  • 神经机器翻译与序列到序列模型(2017):教程,G. Neubig。[pdf]
  • 神经网络与深度学习(书,2017年1月),Michael Nielsen。[html]
  • 深度学习(书,2016),Goodfellow 等人。[html]
  • LSTM:搜索空间的奥德赛(2016),K. Greff 等人 [pdf]
  • 变分自编码器教程(2016),C. Doersch。[pdf]
  • 深度学习(2015),Y. LeCun、Y. Bengio 和 G. Hinton [pdf]
  • 神经网络中的深度学习:概述(2015),J. Schmidhuber [pdf]
  • 表征学习:回顾与新视角(2013),Y. Bengio 等人 [pdf]

视频讲座 / 教程 / 博客

(讲座)

  • CS231n,用于视觉识别的卷积神经网络,斯坦福大学 [web]
  • CS224d,自然语言处理的深度学习,斯坦福大学 [web]
  • 牛津深度 NLP 2017,自然语言处理的深度学习,牛津大学 [web]

(教程)

  • NIPS 2016 教程,长滩 [web]
  • ICML 2016 教程,纽约市 [web]
  • ICLR 2016 视频,圣胡安 [web]
  • 2016 年蒙特利尔深度学习暑期学校 [web]
  • 2016 年湾区深度学习学校,斯坦福 [web]

(博客)

附录:不止于前100篇

(2016)

  • 用于神经机器翻译的无显式分词字符级解码器(2016),J. Chung 等人 [pdf]
  • 基于深度神经网络的皮肤癌分类达到皮肤科医生水平(2017),A. Esteva 等人 [html]
  • 基于多折多实例学习的弱监督目标定位(2017),R. Gokberk 等人 [pdf]
  • 基于深度神经网络的脑肿瘤分割(2017),M. Havaei 等人 [pdf]
  • 教授强制:一种训练循环网络的新算法(2016),A. Lamb 等人 [pdf]
  • 对抗性学习推理(2016),V. Dumoulin 等人 [web][pdf]
  • 理解卷积神经网络(2016),J. Koushik [pdf]
  • 将人类排除在闭环之外:贝叶斯优化综述(2016),B. Shahriari 等人 [pdf]
  • 循环神经网络的自适应计算时间(2016),A. Graves [pdf]
  • 密集连接的卷积网络(2016),G. Huang 等人 [pdf]
  • 基于区域的卷积网络,用于精确的目标检测和分割(2016),R. Girshick 等人
  • 基于模型加速的连续深度Q学习(2016),S. Gu 等人 [pdf]
  • 对CNN/Daily Mail阅读理解任务的深入研究(2016),D. Chen 等人 [pdf]
  • 利用混合词-字符模型实现开放词汇量的神经机器翻译,M. Luong 和 C. Manning。[pdf]
  • 用于自然语言处理的超深卷积网络(2016),A. Conneau 等人 [pdf]
  • 高效文本分类的技巧大全(2016),A. Joulin 等人 [pdf]
  • 语义分割中深度结构化模型的高效分段训练(2016),G. Lin 等人 [pdf]
  • 学习组合神经网络以进行问答(2016),J. Andreas 等人 [pdf]
  • 用于实时风格迁移和超分辨率的感知损失(2016),J. Johnson 等人 [pdf]
  • 使用卷积神经网络在野外读取文本(2016),M. Jaderberg 等人 [pdf]
  • 什么构成了有效的检测建议?(2016),J. Hosang 等人 [pdf]
  • 内外网:利用跳跃池化和循环神经网络在上下文中检测目标(2016),S. Bell 等人 [pdf]
  • 基于多任务网络级联的实例感知语义分割(2016),J. Dai 等人 [pdf]
  • 基于PixelCNN解码器的条件图像生成(2016),A. van den Oord 等人 [pdf]
  • 具有随机深度的深度网络(2016),G. Huang 等人,[pdf]
  • 随机梯度朗之万动力学的一致性与波动性(2016),Yee Whye Teh 等人 [pdf]

(2015)

  • 问问你的神经元:一种基于神经网络的图像问答方法(2015),M. Malinowski 等人 [pdf]
  • 探索图像问答的模型与数据(2015),M. Ren 等人 [pdf]
  • 你在和机器对话吗?多语言图像问答数据集及方法(2015),H. Gao 等人 [pdf]
  • 心灵之眼:用于图像字幕生成的循环视觉表示(2015),X. Chen 和 C. Zitnick [pdf]
  • 从字幕到视觉概念再返回(2015),H. Fang 等人 [pdf]
  • 朝向人工智能完备的问答:一组先决条件玩具任务(2015),J. Weston 等人 [pdf]
  • 随便问吧:用于自然语言处理的动态记忆网络(2015),A. Kumar 等人 [pdf]
  • 使用 LSTM 进行视频表示的无监督学习(2015),N. Srivastava 等人 [pdf]
  • 深度压缩:通过剪枝、训练后量化和霍夫曼编码压缩深度神经网络(2015),S. Han 等人 [pdf]
  • 基于树结构长短期记忆网络的语义表示改进(2015),K. Tai 等人 [pdf]
  • 字符感知的神经语言模型(2015),Y. Kim 等人 [pdf]
  • 文法作为一门外语(2015),O. Vinyals 等人 [pdf]
  • 约束区域策略优化(2015),J. Schulman 等人 [pdf]
  • 不止于短片段:用于视频分类的深度网络(2015)[pdf]
  • 用于语义分割的反卷积网络学习(2015),H. Noh 等人 [pdf]
  • 使用三维卷积网络学习时空特征(2015),D. Tran 等人 [pdf]
  • 通过深度可视化理解神经网络(2015),J. Yosinski 等人 [pdf]
  • 循环网络架构的实证探索(2015),R. Jozefowicz 等人 [pdf]
  • 使用对抗网络拉普拉斯金字塔的深度生成图像模型(2015),E. Denton 等人 [pdf]
  • 门控反馈循环神经网络(2015),J. Chung 等人 [pdf]
  • 基于指数线性单元(ELUs)的快速且精确的深度网络学习(2015),D. Clevert 等人 [pdf]
  • 指针网络(2015),O. Vinyals 等人 [pdf]
  • 可视化与理解循环网络(2015),A. Karpathy 等人 [pdf]
  • 基于注意力机制的语音识别模型(2015),J. Chorowski 等人 [pdf]
  • 端到端记忆网络(2015),S. Sukbaatar 等人 [pdf]
  • 利用时间结构描述视频(2015),L. Yao 等人 [pdf]
  • 一种神经对话模型(2015),O. Vinyals 和 Q. Le [pdf]
  • 借鉴词嵌入经验提升分布相似性,O. Levy 等人 [[pdf]] (https://www.transacl.org/ojs/index.php/tacl/article/download/570/124)
  • 基于堆栈式长短期记忆的依存句法分析(2015),C. Dyer 等人 [pdf]
  • 使用 LSTM 对字符而非单词建模以改进基于转换的句法分析(2015),M. Ballesteros 等人 [pdf]
  • 由形见意:用于开放词汇表征的组合式字符模型(2015),W. Ling 等人 [pdf]

(~2014)

  • DeepPose:基于深度神经网络的人体姿态估计(2014年),A. Toshev 和 C. Szegedy [pdf]
  • 学习用于图像超分辨率的深度卷积网络(2014年,C. Dong 等)[pdf]
  • 视觉注意力的循环模型(2014年),V. Mnih 等 [pdf]
  • 门控循环神经网络在序列建模中的经验评估(2014年),J. Chung 等 [pdf]
  • 解决神经机器翻译中的罕见词问题(2014年),M. Luong 等 [pdf]
  • 关于神经机器翻译的性质:编码器-解码器方法(2014年),K. Cho 等
  • 循环神经网络正则化(2014年),W. Zaremba 等 [pdf]
  • 神经网络的有趣特性(2014年),C. Szegedy 等 [pdf]
  • 基于循环神经网络的端到端语音识别(2014年),A. Graves 和 N. Jaitly。[pdf]
  • 使用深度神经网络的可扩展目标检测(2014年),D. Erhan 等 [pdf]
  • 深度学习中初始化和动量的重要性(2013年),I. Sutskever 等 [pdf]
  • 使用DropConnect对神经网络进行正则化(2013年),L. Wan 等 [pdf]
  • 用于场景标注的层次特征学习(2013年),C. Farabet 等 [pdf]
  • 连续空间词表示中的语言规律性(2013年),T. Mikolov 等 [pdf]
  • 大规模分布式深度网络(2012年),J. Dean 等 [pdf]
  • 使用神经网络的快速且准确的依存句法分析器。Chen 和 Manning。[pdf]

致谢

感谢大家的贡献。请在提交拉取请求之前务必阅读贡献指南

许可证

CC0

在法律允许的最大范围内,Terry T. Um 已放弃本作品的所有版权及相关或邻接权利。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

156k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|4天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|5天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架