deep-learning-roadmap

4.6k 664 非常简单 1 次阅读昨天MIT开发框架

AI 解读由 AI 自动生成，仅供参考

deep-learning-roadmap 是一个专为深度学习爱好者打造的开源资源导航项目，旨在为开发者和研究人员提供一条清晰的学习捷径。面对网络上浩如烟海且分散的深度学习资料，初学者往往难以辨别重点，资深从业者也常耗费大量时间在资源检索上。该项目通过高度结构化的分类体系，将海量的论文、教程和工具整理得井井有条，让用户能根据具体需求快速定位到最相关的核心内容。

即使你对学习路径尚感迷茫，项目中提供的通用基础资源也能帮助你顺利起步。其独特的亮点在于“精准靶向”的资源组织方式，不仅覆盖了从入门到进阶的各类主题，还特别设立了专门的论文章节，方便用户追踪前沿学术动态。此外，项目还关联了免费的机器学习电子书下载及交流社区，进一步丰富了学习生态。无论是想要系统构建知识体系的在校学生，还是希望高效查找特定技术资料的算法工程师，都能在这里找到宝贵的指引，让深度学习之旅变得更加高效和轻松。

使用场景

某初创公司的算法工程师李明接到任务，需在两周内为医疗影像项目搭建一个基于深度学习的原型系统，但他对快速迭代的领域缺乏系统性认知。

没有 deep-learning-roadmap 时

资源检索如大海捞针：在 GitHub 和谷歌上搜索"Deep Learning resources"，返回成千上万个结果，难以分辨哪些是过时教程，哪些是核心论文。
学习路径支离破碎：今天看一篇关于 CNN 的博客，明天找一个 RNN 的视频，知识点零散，无法构建从基础数学到前沿架构的完整知识树。
关键资料遗漏风险高：由于缺乏权威指引，容易错过该领域必读的经典论文（如 ResNet, Transformer）或最新的 SOTA 实现代码。
时间成本高昂：花费了整整一周时间在筛选和验证资料真伪上，导致实际编码和模型调优的时间被严重压缩，项目进度告急。

使用 deep-learning-roadmap 后

目标资源精准直达：利用其高度分类的资源目录，李明直接定位到“计算机视觉”和“医学图像分析”板块，瞬间获取经过社区验证的高质量链接。
结构化学习路线清晰：遵循项目提供的从基础理论到高级应用的路线图，他按部就班地补齐了数学基础，并迅速掌握了当前主流的模型架构。
核心文献一网打尽：通过"Papers"章节，他快速获取了领域内最关键的学术论文列表，确保了技术方案的前沿性和可靠性。
研发效率显著提升：原本用于搜索资料的一周时间被节省下来，全部投入到数据预处理和模型训练中，提前三天完成了高精度原型的交付。

deep-learning-roadmap 通过将海量碎片化信息重构为有序的知识地图，帮助开发者从“盲目搜索”转向“高效执行”，极大缩短了从入门到实战的路径。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目是一个深度学习资源路线图和论文/代码合集，并非一个可直接运行的软件工具或模型库。README 内容主要包含分类整理的学术论文链接、部分项目代码仓库的外部链接以及书籍下载指引。因此，该项目本身没有特定的操作系统、GPU、内存、Python 版本或依赖库的安装需求。用户若需运行其中链接的具体代码示例，需参考各个独立项目仓库的具体要求。

python未说明

快速开始

################################################### 深度学习——你需要知道的一切 ###################################################

.. image:: https://img.shields.io/badge/contributions-welcome-brightgreen.svg?style=flat :target: https://github.com/osforscience/deep-learning-all-you-need/pulls .. image:: https://badges.frapsoft.com/os/v2/open-source.png?v=103 :target: https://github.com/ellerbrock/open-source-badge/ .. image:: https://img.shields.io/pypi/l/ansicolortags.svg :target: https://github.com/osforscience/deep-learning-all-you-need/blob/master/LICENSE .. image:: https://img.shields.io/twitter/follow/machinemindset.svg?label=Follow&style=social :target: https://twitter.com/machinemindset

########################################################################## 赞助 ##########################################################################

为了支持本项目的维护与升级，请您考虑赞助项目开发者 <https://github.com/sponsors/astorfi/dashboard>_。

任何级别的支持都是对本项目的重要贡献 :heart:

.. raw:: html

################################################### 免费下载Python机器学习书籍 ###################################################

.. raw:: html

################################################### Slack社区 ###################################################

.. raw:: html

################## 目录 ################## .. contents:: :local: :depth: 4

.. image:: _img/mainpage/logo.gif

引言

本项目的目的是为开发者和研究人员提供一条捷径，帮助他们快速找到有关深度学习的有用资源。

============ 动机

这个开源项目有多种动机。

.. -------------------- .. 为什么选择深度学习？ .. --------------------

这个开源项目的意义何在？

目前已有许多类似本仓库的资源库，它们内容全面且非常实用。说实话，这些资源库让我一度怀疑是否还有必要创建这样一个仓库！

本仓库的独特之处在于其资源的精准定位。资源的组织方式使得用户能够轻松找到自己所需的内容。我们把资源分成了众多类别，刚开始可能会让人感到有些复杂！然而，一旦明确了目标，就能迅速找到最相关的资源。即使一开始不知道该寻找什么，也可以先从通用资源入手。

.. ================================================ .. 如何充分利用这一努力 .. ================================================

论文

.. image:: _img/mainpage/article.jpeg

本章收录了深度学习领域发表的相关论文。

==================== 模型

卷积神经网络

.. image:: _img/mainpage/convolutional.png

.. 对于连续的线条，必须从同一位置开始。

使用深度卷积神经网络进行ImageNet分类 : [论文 <http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks>][代码 <https://github.com/dontfollowmeimcrazy/imagenet>]

.. image:: _img/mainpage/star_5.png
用于句子分类的卷积神经网络 : [论文 <https://arxiv.org/abs/1408.5882>][代码 <https://github.com/yoonkim/CNN_sentence>]

.. image:: _img/mainpage/star_4.png
大规模视频分类中的卷积神经网络 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Karpathy_Large-scale_Video_Classification_2014_CVPR_paper.html>][项目页面 <https://cs.stanford.edu/people/karpathy/deepvideo/>]

.. image:: _img/mainpage/star_4.png
利用卷积神经网络学习并迁移图像中层特征表示 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Oquab_Learning_and_Transferring_2014_CVPR_paper.html>_]

.. image:: _img/mainpage/star_5.png
深度卷积神经网络在LVCSR中的应用 : [论文 <https://ieeexplore.ieee.org/abstract/document/6639347/&hl=zh-CN&sa=T&oi=gsb&ct=res&cd=0&ei=KknXWYbGFMbFjwSsyICADQ&scisig=AAGBfm2F0Zlu0ciUwadzshNNm80IQQhuhA>_]

.. image:: _img/mainpage/star_3.png
人脸识别：基于卷积神经网络的方法 : [论文 <https://ieeexplore.ieee.org/abstract/document/554195/>_]

.. image:: _img/mainpage/star_5.png

循环神经网络

.. image:: _img/mainpage/Recurrent_neural_network_unfold.svg

.. 对于连续的线条，必须从同一位置开始。

循环神经网络架构的实证探索 : [论文 <http://proceedings.mlr.press/v37/jozefowicz15.pdf?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=revue>][代码 <https://github.com/debajyotidatta/RecurrentArchitectures>]

.. image:: _img/mainpage/star_4.png
LSTM：搜索空间之旅 : [论文 <https://ieeexplore.ieee.org/abstract/document/7508408/>][代码 <https://github.com/fomorians/lstm-odyssey>]

.. image:: _img/mainpage/star_3.png
训练循环神经网络的困难性 : [论文 <http://proceedings.mlr.press/v28/pascanu13.pdf>][代码 <https://github.com/pascanur/trainingRNNs>]

.. image:: _img/mainpage/star_5.png
学会遗忘：使用LSTM进行持续预测 : [论文 <http://digital-library.theiet.org/content/conferences/10.1049/cp_19991218>_]

.. image:: _img/mainpage/star_5.png

自编码器

.. image:: _img/mainpage/Autoencoder_structure.png

使用去噪自编码器提取和组合鲁棒特征： [论文 <https://dl.acm.org/citation.cfm?id=1390294>_]

.. image:: _img/mainpage/star_5.png
堆叠式去噪自编码器：通过局部去噪准则在深度网络中学习有用表示： [论文 <http://www.jmlr.org/papers/v11/vincent10a.html>][代码 <https://github.com/rajarsheem/libsdae-autoencoder-tensorflow>]

.. image:: _img/mainpage/star_5.png
对抗自编码器： [论文 <https://arxiv.org/abs/1511.05644>][代码 <https://github.com/conan7882/adversarial-autoencoders>]

.. image:: _img/mainpage/star_3.png
自编码器、无监督学习与深度架构： [论文 <http://proceedings.mlr.press/v27/baldi12a/baldi12a.pdf>_]

.. image:: _img/mainpage/star_4.png
利用神经网络降低数据维度： [论文 <http://science.sciencemag.org/content/313/5786/504>][代码 <https://github.com/jordn/autoencoder>]

.. image:: _img/mainpage/star_5.png

生成模型

.. image:: _img/mainpage/generative.png

利用生成模型进行判别分类： [论文 <http://papers.nips.cc/paper/1520-exploiting-generative-models-in-discriminative-classifiers.pdf>_]

.. image:: _img/mainpage/star_4.png
基于深度生成模型的半监督学习： [论文 <http://papers.nips.cc/paper/5352-semi-supervised-learning-with-deep-generative-models>][代码 <https://github.com/wohlert/semi-supervised-pytorch>]

.. image:: _img/mainpage/star_4.png
生成对抗网络： [论文 <http://papers.nips.cc/paper/5423-generative-adversarial-nets>][代码 <https://github.com/goodfeli/adversarial>]

.. image:: _img/mainpage/star_5.png
广义去噪自编码器作为生成模型： [论文 <http://papers.nips.cc/paper/5023-generalized-denoising-auto-encoders-as-generative-models>_]

.. image:: _img/mainpage/star_5.png
基于深度卷积生成对抗网络的无监督表征学习： [论文 <https://arxiv.org/abs/1511.06434>][代码 <https://github.com/carpedm20/DCGAN-tensorflow>]

.. image:: _img/mainpage/star_5.png

概率模型

深度生成模型中的随机反向传播与近似推断： [论文 <https://arxiv.org/abs/1401.4082>_]

.. image:: _img/mainpage/star_4.png
认知的概率模型：探索表征与归纳偏置： [论文 <https://www.sciencedirect.com/science/article/pii/S1364661310001129>_]

.. image:: _img/mainpage/star_5.png
关于深度生成模型及其在识别中的应用： [论文 <https://ieeexplore.ieee.org/abstract/document/5995710/>_]

.. image:: _img/mainpage/star_5.png

==================== 核心

优化

.. ################################################################################ .. 对于连续的行，每一行必须从相同的位置开始。

批量归一化：通过减少内部协变量偏移加速深度网络训练： [论文 <https://arxiv.org/abs/1502.03167>_]

.. image:: _img/mainpage/star_5.png
Dropout：防止神经网络过拟合的简单方法： [论文 <http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf?utm_content=buffer79b43&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer>_]

.. image:: _img/mainpage/star_5.png
训练非常深的网络： [论文 <http://papers.nips.cc/paper/5850-training-very-deep-networks>_]

.. image:: _img/mainpage/star_4.png
深入研究ReLU激活函数：在ImageNet分类任务上超越人类水平性能： [论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf>_]

.. image:: _img/mainpage/star_5.png
大规模分布式深度网络： [论文 <http://papers.nips.cc/paper/4687-large-scale-distributed-deep-networks>_]

.. image:: _img/mainpage/star_5.png

表征学习

基于深度卷积生成对抗网络的无监督表征学习： [论文 <https://arxiv.org/abs/1511.06434>][代码 <https://github.com/Newmu/dcgan_code>]

.. image:: _img/mainpage/star_5.png
表征学习：综述与新视角： [论文 <https://ieeexplore.ieee.org/abstract/document/6472238/>_]

.. image:: _img/mainpage/star_4.png
InfoGAN：通过信息最大化生成对抗网络实现可解释的表征学习： [论文 <http://papers.nips.cc/paper/6399-infogan-interpretable-representation>][代码 <https://github.com/openai/InfoGAN>]

.. image:: _img/mainpage/star_3.png

理解与迁移学习

利用卷积神经网络学习并迁移图像中层表征： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Oquab_Learning_and_Transferring_2014_CVPR_paper.html>_]

.. image:: _img/mainpage/star_5.png
知识蒸馏： [论文 <https://arxiv.org/abs/1503.02531>_]

.. image:: _img/mainpage/star_4.png
DeCAF：用于通用视觉识别的深度卷积激活特征： [论文 <http://proceedings.mlr.press/v32/donahue14.pdf>_][

.. image:: _img/mainpage/star_5.png
深度神经网络中的特征有多大的可迁移性？： [论文 <http://papers.nips.cc/paper/5347-how-transferable-are-features-in-deep-n%E2%80%A6>][代码 <https://github.com/yosinski/convnet_transfer>]

.. image:: _img/mainpage/star_5.png

强化学习

通过深度强化学习实现人类水平控制： [论文 <https://www.nature.com/articles/nature14236/>][代码 <https://github.com/devsisters/DQN-tensorflow>]

.. image:: _img/mainpage/star_5.png
用深度强化学习玩Atari游戏： [论文 <https://arxiv.org/abs/1312.5602>][代码 <https://github.com/carpedm20/deep-rl-tensorflow>]

.. image:: _img/mainpage/star_3.png
深度强化学习中的连续控制： [论文 <https://arxiv.org/abs/1509.02971>][代码 <https://github.com/stevenpjg/ddpg-aigym>]

.. image:: _img/mainpage/star_4.png
采用双重Q学习的深度强化学习： [论文 <http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847>][代码 <https://github.com/carpedm20/deep-rl-tensorflow>]

.. image:: _img/mainpage/star_3.png
深度强化学习中的对决网络架构： [论文 <https://arxiv.org/abs/1511.06581>][代码 <https://github.com/yoosan/deeprl>]

.. image:: _img/mainpage/star_3.png

==================== 应用

图像识别

用于图像识别的深度残差学习： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html>][代码 <https://github.com/gcr/torch-residual-networks>]

.. image:: _img/mainpage/star_5.png
用于大规模图像识别的非常深的卷积神经网络： [论文 <https://arxiv.org/abs/1409.1556>_]

.. image:: _img/mainpage/star_5.png
用于图像分类的多列深度神经网络： [论文 <https://arxiv.org/abs/1202.2745>_]

.. image:: _img/mainpage/star_4.png
DeepID3：使用非常深的神经网络进行人脸识别： [论文 <https://arxiv.org/abs/1502.00873>_]

.. image:: _img/mainpage/star_4.png
深入卷积神经网络：可视化图像分类模型与显著性图： [论文 <https://arxiv.org/abs/1312.6034>][代码 <https://github.com/artvandelay/Deep_Inside_Convolutional_Networks>]

.. image:: _img/mainpage/star_3.png
Deep Image：扩展图像识别规模： [论文 <https://arxiv.org/vc/arxiv/papers/1501/1501.02876v1.pdf>_]

.. image:: _img/mainpage/star_4.png
用于视觉识别与描述的长期循环卷积网络： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html>][代码 <https://github.com/JaggerYoung/LRCN-for-Activity-Recognition>]

.. image:: _img/mainpage/star_5.png
用于跨音频-视觉匹配识别的3D卷积神经网络： [论文 <https://ieeexplore.ieee.org/document/8063416>][代码 <https://github.com/astorfi/lip-reading-deeplearning>]

.. image:: _img/mainpage/star_4.png

目标识别

使用深度卷积神经网络进行ImageNet分类： [论文 <http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks>_]

.. image:: _img/mainpage/star_5.png
利用Places数据库学习场景识别的深度特征： [论文 <http://papers.nips.cc/paper/5349-learning-deep-features>_]

.. image:: _img/mainpage/star_3.png
使用深度神经网络进行可扩展的目标检测： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Erhan_Scalable_Object_Detection_2014_CVPR_paper.html>_]

.. image:: _img/mainpage/star_4.png
Faster R-CNN：通过区域提议网络实现实时目标检测： [论文 <http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks>][代码 <https://github.com/rbgirshick/py-faster-rcnn>]

.. image:: _img/mainpage/star_4.png
OverFeat：使用卷积网络实现集成识别、定位与检测： [论文 <https://arxiv.org/abs/1312.6229>][代码 <https://github.com/sermanet/OverFeat>]

.. image:: _img/mainpage/star_5.png
现成的CNN特征：令人惊叹的识别基线： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_workshops_2014/W15/html/Razavian_CNN_Features_Off-the-Shelf_2014_CVPR_paper.html>_]

.. image:: _img/mainpage/star_3.png
用于目标识别的最佳多阶段架构是什么？： [论文 <https://ieeexplore.ieee.org/abstract/document/5459469/>_]

.. image:: _img/mainpage/star_2.png

动作识别

用于视觉识别与描述的长期循环卷积网络： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html>_]

.. image:: _img/mainpage/star_5.png
使用3D卷积网络学习时空特征： [论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Tran_Learning_Spatiotemporal_Features_ICCV_2015_paper.html>][代码 <https://github.com/DavideA/c3d-pytorch>]

.. image:: _img/mainpage/star_5.png
通过利用时间结构描述视频： [论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Yao_Describing_Videos_by_ICCV_2015_paper.html>][代码 <https://github.com/tsenghungchen/SA-tensorflow>]

.. image:: _img/mainpage/star_3.png
用于视频动作识别的卷积双流网络融合： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Feichtenhofer_Convolutional_Two-Stream_Network_CVPR_2016_paper.html>][代码 <https://github.com/feichtenhofer/twostreamfusion>]

.. image:: _img/mainpage/star_4.png
时间片段网络：迈向深度动作识别的良好实践： [论文 <https://link.springer.com/chapter/10.1007/978-3-319-46484-8_2>][代码 <https://github.com/yjxiong/temporal-segment-networks>]

.. image:: _img/mainpage/star_3.png

标题生成

展示、注意与讲述：带有视觉注意力的神经图像标题生成： [论文 <http://proceedings.mlr.press/v37/xuc15.pdf>][代码 <https://github.com/yunjey/show-attend-and-tell>]

.. image:: _img/mainpage/star_5.png
心灵之眼：用于图像标题生成的递归视觉表示： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Chen_Minds_Eye_A_2015_CVPR_paper.html>_]

.. image:: _img/mainpage/star_2.png
生成对抗文本到图像合成： [论文 <http://proceedings.mlr.press/v48/reed16.pdf>][代码 <https://github.com/zsdonghao/text-to-image>]

.. image:: _img/mainpage/star_3.png
用于生成图像描述的深度视觉-语义对齐： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.html>][代码 <https://github.com/jonkuo/Deep-Learning-Image-Captioning>]

.. image:: _img/mainpage/star_4.png
展示与讲述：一种神经图像标题生成器： [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Vinyals_Show_and_Tell_2015_CVPR_paper.html>][代码 <https://github.com/DeepRNN/image_captioning>]

.. image:: _img/mainpage/star_5.png

自然语言处理

词和短语的分布式表示及其组合性： [论文 <http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>][代码 <https://code.google.com/archive/p/word2vec/>]

.. image:: _img/mainpage/star_5.png
向量空间中词表示的有效估计： [论文 <https://arxiv.org/pdf/1301.3781.pdf>][代码 <https://code.google.com/archive/p/word2vec/>]

.. image:: _img/mainpage/star_4.png
基于神经网络的序列到序列学习： [论文 <https://arxiv.org/pdf/1409.3215.pdf>][代码 <https://github.com/farizrahman4u/seq2seq>]

.. image:: _img/mainpage/star_5.png
通过联合学习对齐与翻译实现神经机器翻译： [论文 <https://arxiv.org/pdf/1409.0473.pdf>][代码 <https://github.com/tensorflow/nmt>]

.. image:: _img/mainpage/star_4.png
直奔主题：使用指针生成器网络进行摘要生成： [论文 <https://arxiv.org/abs/1704.04368>][代码 <https://github.com/abisee/pointer-generator>]

.. image:: _img/mainpage/star_3.png
注意力就是一切： [论文 <https://arxiv.org/abs/1706.03762>][代码 <https://github.com/jadore801120/attention-is-all-you-need-pytorch>]

.. image:: _img/mainpage/star_4.png
用于句子分类的卷积神经网络： [论文 <https://arxiv.org/abs/1408.5882>][代码 <https://github.com/yoonkim/CNN_sentence>]

.. image:: _img/mainpage/star_4.png

语音技术

深度神经网络在语音识别声学建模中的应用：四个研究小组的共同见解： [论文 <https://ieeexplore.ieee.org/abstract/document/6296526/>_]

.. image:: _img/mainpage/star_5.png
迈向端到端的循环神经网络语音识别： [论文 <http://proceedings.mlr.press/v32/graves14.pdf>_]

.. image:: _img/mainpage/star_3.png
基于深度循环神经网络的语音识别： [论文 <https://ieeexplore.ieee.org/abstract/document/6638947/>_]

.. image:: _img/mainpage/star_4.png
快速且准确的循环神经网络声学模型用于语音识别： [论文 <https://arxiv.org/abs/1507.06947>_]

.. image:: _img/mainpage/star_3.png
Deep Speech 2：英语和普通话的端到端语音识别： [论文 <http://proceedings.mlr.press/v48/amodei16.html>][代码 <https://github.com/PaddlePaddle/DeepSpeech>]

.. image:: _img/mainpage/star_4.png
一种新颖的基于音素感知深度神经网络的说话人识别方案： [论文 <https://ieeexplore.ieee.org/abstract/document/6853887/>_]

.. image:: _img/mainpage/star_3.png
基于3D卷积神经网络的文本无关说话人验证： [论文 <https://arxiv.org/abs/1705.09422>][代码 <https://github.com/astorfi/3D-convolutional-speaker-recognition>]

.. image:: _img/mainpage/star_4.png

数据集

==================== 图像

通用

MNIST 手写数字数据集： [链接 <http://yann.lecun.com/exdb/mnist/>_]

人脸

人脸识别技术（FERET） FERET计划的目标是开发自动人脸识别能力，以协助安保、情报和执法部门人员履行其职责： [链接 <https://www.nist.gov/programs-projects/face-recognition-technology-feret>_]
卡内基梅隆大学姿态、光照和表情（PIE）人脸数据库 在2000年10月至12月期间，我们收集了68位人士的41,368张图像： [链接 <https://www.ri.cmu.edu/publications/the-cmu-pose-illumination-and-expression-pie-database-of-human-faces/>_]
YouTube Faces DB 该数据集包含来自1595个人的3425个视频。所有视频均从YouTube下载。每个对象平均有2.15个视频可用： [链接 <https://www.cs.tau.ac.il/~wolf/ytfaces/>_]
语法面部表情数据集 为辅助面部表情的自动化分析而开发： [链接 <https://archive.ics.uci.edu/ml/datasets/Grammatical+Facial+Expressions>_]
FaceScrub 包含超过10万张530个人脸图像的数据集： [链接 <http://vintage.winklerbros.net/facescrub.html>_]
IMDB-WIKI 包含50多万张带年龄和性别标签的人脸图像： [链接 <https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/>_]
FDDB 面部检测数据集和基准测试（FDDB）： [链接 <http://vis-www.cs.umass.edu/fddb/>_]

物体识别

COCO Microsoft COCO：上下文中的常见物体： [链接 <http://cocodataset.org/#home>_]
ImageNet 著名的ImageNet数据集： [链接 <http://www.image-net.org/>_]
Open Images Dataset Open Images是一个包含约900万张图片的数据集，这些图片已被标注了图像级别标签和物体边界框： [链接 <https://storage.googleapis.com/openimages/web/index.html>_]
Caltech-256物体类别数据集 一个大型物体分类数据集： [链接 <https://authors.library.caltech.edu/7694/>_]
Pascal VOC数据集 一个用于分类任务的大规模数据集： [链接 <http://host.robots.ox.ac.uk/pascal/VOC/>_]
CIFAR 10 / CIFAR 100 CIFAR-10数据集由10个类别的60000张32x32彩色图像组成。CIFAR-100与CIFAR-10类似，但它有100个类，每个类包含600张图像： [链接 <https://www.cs.toronto.edu/~kriz/cifar.html>_]

动作识别

HMDB 一个大型人体动作数据库： [链接 <http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/>_]
MHAD 伯克利多模态人类动作数据库： [链接 <http://tele-immersion.citris-uc.org/berkeley_mhad>_]
UCF101 - 动作识别数据集 UCF101是一个包含101个动作类别的真实动作视频的动作识别数据集，这些视频均来自YouTube。该数据集是UCF50数据集的扩展，后者只有50个动作类别： [链接 <http://crcv.ucf.edu/data/UCF101.php>_]
THUMOS数据集 一个用于动作分类的大规模数据集： [链接 <http://crcv.ucf.edu/data/THUMOS.php>_]
ActivityNet 一个用于理解人类活动的大规模视频基准测试： [链接 <http://activity-net.org/>_]

====================================== 文本与自然语言处理

通用

10亿词语言模型基准：该项目旨在为语言建模实验提供标准化的训练和测试设置： [链接 <http://www.statmt.org/lm-benchmark/>_]
Common Crawl：Common Crawl语料库包含过去7年间收集的数PB数据，其中包括原始网页数据、提取的元数据以及文本内容： [链接 <http://commoncrawl.org/the-data/get-started/>_]
Yelp开放数据集：Yelp的企业、评论和用户数据的一个子集，可用于个人、教育和学术目的： [链接 <https://www.yelp.com/dataset>_]

文本分类

20 Newsgroups：20 Newsgroups数据集包含约2万篇新闻组文档，几乎平均分布在20个不同的新闻组中： [链接 <http://qwone.com/~jason/20Newsgroups/>_]
广播新闻：1996年广播新闻语音语料库共包含来自ABC、CNN和CSPAN电视台以及NPR和PRI电台的104小时广播节目，并附有相应的文字稿： [链接 <https://catalog.ldc.upenn.edu/LDC97S44>_]
Wikitext长期依赖语言模型数据集：该数据集由维基百科上经过验证的好条目和特色条目中提取的超过1亿个词素组成： [链接 <https://einstein.ai/research/the-wikitext-long-term-dependency-language-modeling-dataset>_]

问答

Deep Mind与牛津大学联合发布的问答语料库，包含来自CNN和Daily Mail网站的大约百万篇新闻文章及其相关问题的两个新语料库： [链接 <https://github.com/deepmind/rc-data>_]
斯坦福问答数据集（SQuAD）：该数据集由众包工作者针对维基百科文章提出的问题组成： [链接 <https://rajpurkar.github.io/SQuAD-explorer/>_]
亚马逊问答数据集：包含来自亚马逊的问答数据，共计约140万个已回答的问题： [链接 <http://jmcauley.ucsd.edu/data/amazon/qa/>_]

情感分析

多领域情感数据集：该数据集包含了从Amazon.com上获取的多种产品类别的商品评论： [链接 <http://www.cs.jhu.edu/~mdredze/datasets/sentiment/>_]
斯坦福情感树库数据集：斯坦福情感树库是首个带有完整标注句法树的语料库，能够对语言中情感成分的组合效应进行全面分析： [链接 <https://nlp.stanford.edu/sentiment/>_]
大型电影评论数据集：这是一个用于二元情感分类的数据集： [链接 <http://ai.stanford.edu/~amaas/data/sentiment/>_]

机器翻译

加拿大第36届议会齐次汉萨德语料库：该语料库包含130万对齐的文本片段： [链接 <https://www.isi.edu/natural-language/download/hansard/>_]
Europarl：统计机器翻译平行语料库：该语料库取自欧洲议会会议记录： [链接 <http://www.statmt.org/europarl/>_]

摘要生成

法律案例报告数据集：这是一个包含4000个法律案例的文本语料库，可用于自动摘要和引文分析： [链接 <https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports>_]

====================================== 语音技术

TIMIT连续语音声学-音系学语料库：TIMIT朗读语音语料库旨在为声学-音系学研究以及自动语音识别系统的开发和评估提供语音数据： [链接 <https://catalog.ldc.upenn.edu/ldc93s1>_]
LibriSpeech：LibriSpeech是一个约1000小时的16kHz英语朗读语音语料库，由Vassil Panayotov在Daniel Povey的协助下整理而成： [链接 <http://www.openslr.org/12/>_]
VoxCeleb：一个大规模的视听数据集： [链接 <http://www.robots.ox.ac.uk/~vgg/data/voxceleb/>_]
NIST说话人识别： [链接 <https://www.nist.gov/itl/iad/mig/speaker-recognition>_]

课程

.. image:: _img/mainpage/online.png

斯坦福大学Coursera平台上的机器学习课程： [链接 <https://www.coursera.org/learn/machine-learning>_]
Coursera平台上的神经网络与深度学习专项课程： [链接 <https://www.coursera.org/learn/neural-networks-deep-learning>_]
Google推出的深度学习入门课程： [链接 <https://www.udacity.com/course/deep-learning--ud730>_]
卡内基梅隆大学的深度学习导论课程： [链接 <http://deeplearning.cs.cmu.edu/>_]
NVIDIA深度学习学院提供的课程： [链接 <https://www.nvidia.com/en-us/deep-learning-ai/education/>_]
斯坦福大学的视觉识别卷积神经网络课程： [链接 <http://cs231n.stanford.edu/>_]
斯坦福大学自然语言处理深度学习课程： [链接 <http://cs224d.stanford.edu/>_]
fast.ai提供的深度学习课程： [链接 <http://www.fast.ai/>_]
印度理工学院Kharagpur分校关于视觉计算深度学习的课程： [链接 <https://www.youtube.com/playlist?list=PLuv3GM6-gsE1Biyakccxb3FAn4wBLyfWf>_]

书籍

.. image:: _img/mainpage/books.jpg

Ian Goodfellow著《深度学习》： [链接 <http://www.deeplearningbook.org/>_]
《神经网络与深度学习》： [链接 <http://neuralnetworksanddeeplearning.com/>_]
《用Python进行深度学习》： [链接 <https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438/ref=as_li_ss_tl?s=books&ie=UTF8&qid=1519989624&sr=1-4&keywords=deep+learning+with+python&linkCode=sl1&tag=trndingcom-20&linkId=ec7663329fdb7ace60f39c762e999683>_]
《动手学机器学习：使用Scikit-Learn和TensorFlow构建智能系统》： [链接 <https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=as_li_ss_tl?ie=UTF8&qid=1519989725&sr=1-2-ent&linkCode=sl1&tag=trndingcom-20&linkId=71938c9398940c7b0a811dc1cfef7cc3>_]

博客

.. image:: _img/mainpage/Blogger_icon.png

Colah的博客： [链接 <http://colah.github.io/>_]
Andrej Karpathy的博客： [链接 <http://karpathy.github.io/>_]
The Spectator Shakir的机器学习博客： [链接 <http://blog.shakirm.com/>_]
WILDML： [链接 <http://www.wildml.com/about/>_]
Distill博客：它更像一本期刊而非博客，因为其采用同行评审机制，只有通过评审的文章才会被发表： [链接 <https://distill.pub/>_]
BAIR伯克利人工智能研究中心： [链接 <http://bair.berkeley.edu/blog/>_]
塞巴斯蒂安·鲁德尔的博客： [链接 <http://ruder.io/>_]
inFERENCe： [链接 <https://www.inference.vc/page/2/>_]
i am trask 机器学习工艺博客： [链接 <http://iamtrask.github.io>_]

教程

.. image:: _img/mainpage/tutorial.png

深度学习教程： [链接 <http://deeplearning.net/tutorial/>_]
PyTorch 官方的 NLP 深度学习教程： [链接 <https://pytorch.org/tutorials/beginner/deep_learning_nlp_tutorial.html>_]
乔恩·克罗恩的自然语言处理深度学习教程（附 Jupyter 笔记本）： [链接 <https://insights.untapt.com/deep-learning-for-natural-language-processing-tutorials-with-jupyter-notebooks-ad67f336ce3f>_]

框架

TensorFlow： [链接 <https://www.tensorflow.org/>_]
PyTorch： [链接 <https://pytorch.org/>_]
CNTK： [链接 <https://docs.microsoft.com/en-us/cognitive-toolkit/>_]
MatConvNet： [链接 <http://www.vlfeat.org/matconvnet/>_]
Keras： [链接 <https://keras.io/>_]
Caffe： [链接 <http://caffe.berkeleyvision.org/>_]
Theano： [链接 <http://www.deeplearning.net/software/theano/>_]
CuDNN： [链接 <https://developer.nvidia.com/cudnn>_]
Torch： [链接 <https://github.com/torch/torch7>_]
Deeplearning4j： [链接 <https://deeplearning4j.org/>_]

贡献说明

对于拼写错误，除非是重大修改，请不要提交拉取请求。请在问题中指出或直接发送邮件给仓库负责人。请注意，我们有一份行为准则，请在与本项目的任何互动中遵守。

======================== 拉取请求流程

为了帮助我们更好地工作，请您考虑以下几点：

拉取请求主要应为链接建议。
请确保您建议的资源未过时或失效。
在构建并提交拉取请求之前，请确保已移除所有安装或构建依赖项。
添加注释，详细说明接口的更改内容，包括新增的环境变量、开放的端口、重要文件路径以及容器参数。
当至少有一位其他开发人员签字确认后，您可以合并拉取请求；如果您没有权限执行此操作，且认为所有检查均已通过，可以请求仓库负责人代为合并。

======================== 最后说明

我们期待您的宝贵反馈。请帮助我们改进这个开源项目，使我们的工作更加出色。如需贡献，请创建一个拉取请求，我们将尽快进行审核。再次感谢您的反馈与支持。

deep-learning-roadmap 快速上手指南

deep-learning-roadmap 并非一个需要安装运行的软件库，而是一个深度学习资源索引与学习路线图。它汇集了经典的论文、代码实现、核心概念（如卷积网络、循环网络、生成模型等）以及优化技巧。

本指南将帮助你快速获取该资源库的内容，并指引你如何利用其中的链接开始学习。

环境准备

由于本项目主要是文档和资源链接集合，无需复杂的系统依赖。你只需要具备以下基础环境即可浏览和访问相关资源：

操作系统：Windows / macOS / Linux
浏览器：推荐 Chrome 或 Firefox，用于访问 GitHub 页面及论文链接。
开发环境（可选）：如果你打算运行资源库中链接的代码示例，建议安装：
- Python 3.8+
- Git (用于克隆仓库)
- 深度学习框架：PyTorch 或 TensorFlow (根据具体论文代码需求)

获取资源

你可以通过以下两种方式获取该路线图内容：

方式一：在线浏览（推荐）

直接访问项目主页，查看分类清晰的资源目录和免费电子书。

项目主页: https://github.com/machinelearningmindset/deep-learning-roadmap
免费电子书: Download Free Python Machine Learning Book

方式二：本地克隆

如果你希望离线查阅或贡献内容，可以使用 Git 克隆仓库。

git clone https://github.com/machinelearningmindset/deep-learning-roadmap.git
cd deep-learning-roadmap

提示：如果在国内访问 GitHub 速度较慢，可以考虑使用国内镜像站（如 Gitee 上的镜像，若有）或配置代理加速。

基本使用

本项目的使用核心在于按需检索。资源已按模型类型和核心主题进行了详细分类。

1. 查找特定模型的论文与代码

假设你想学习 卷积神经网络 (Convolutional Networks) 中的经典论文 Imagenet classification with deep convolutional neural networks：

打开仓库中的 README 文件或在线页面。
定位到 Models -> Convolutional Networks 章节。
点击对应的 Paper 链接阅读原文。
点击对应的 Code 链接查看实现代码。

2. 学习核心优化技巧

若想研究 优化 (Optimization) 相关的技术（如 Batch Normalization, Dropout）：

导航至 Core -> Optimization 章节。
查阅列出的关键论文，例如：
- Batch Normalization: Accelerating Deep Network Training...
- Dropout: A Simple Way to Prevent Neural Networks from Overfitting

3. 加入社区交流

项目提供了 Slack 群组供开发者交流：

访问 Slack Group 加入讨论。

总结：将 deep-learning-roadmap 作为你的深度学习“地图”，遇到不懂的模型或算法时，在此查找对应的经典论文和开源代码实现，是最高效的学习路径。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架