deep-learning-roadmap
deep-learning-roadmap 是一个专为深度学习爱好者打造的开源资源导航项目,旨在为开发者和研究人员提供一条清晰的学习捷径。面对网络上浩如烟海且分散的深度学习资料,初学者往往难以辨别重点,资深从业者也常耗费大量时间在资源检索上。该项目通过高度结构化的分类体系,将海量的论文、教程和工具整理得井井有条,让用户能根据具体需求快速定位到最相关的核心内容。
即使你对学习路径尚感迷茫,项目中提供的通用基础资源也能帮助你顺利起步。其独特的亮点在于“精准靶向”的资源组织方式,不仅覆盖了从入门到进阶的各类主题,还特别设立了专门的论文章节,方便用户追踪前沿学术动态。此外,项目还关联了免费的机器学习电子书下载及交流社区,进一步丰富了学习生态。无论是想要系统构建知识体系的在校学生,还是希望高效查找特定技术资料的算法工程师,都能在这里找到宝贵的指引,让深度学习之旅变得更加高效和轻松。
使用场景
某初创公司的算法工程师李明接到任务,需在两周内为医疗影像项目搭建一个基于深度学习的原型系统,但他对快速迭代的领域缺乏系统性认知。
没有 deep-learning-roadmap 时
- 资源检索如大海捞针:在 GitHub 和谷歌上搜索"Deep Learning resources",返回成千上万个结果,难以分辨哪些是过时教程,哪些是核心论文。
- 学习路径支离破碎:今天看一篇关于 CNN 的博客,明天找一个 RNN 的视频,知识点零散,无法构建从基础数学到前沿架构的完整知识树。
- 关键资料遗漏风险高:由于缺乏权威指引,容易错过该领域必读的经典论文(如 ResNet, Transformer)或最新的 SOTA 实现代码。
- 时间成本高昂:花费了整整一周时间在筛选和验证资料真伪上,导致实际编码和模型调优的时间被严重压缩,项目进度告急。
使用 deep-learning-roadmap 后
- 目标资源精准直达:利用其高度分类的资源目录,李明直接定位到“计算机视觉”和“医学图像分析”板块,瞬间获取经过社区验证的高质量链接。
- 结构化学习路线清晰:遵循项目提供的从基础理论到高级应用的路线图,他按部就班地补齐了数学基础,并迅速掌握了当前主流的模型架构。
- 核心文献一网打尽:通过"Papers"章节,他快速获取了领域内最关键的学术论文列表,确保了技术方案的前沿性和可靠性。
- 研发效率显著提升:原本用于搜索资料的一周时间被节省下来,全部投入到数据预处理和模型训练中,提前三天完成了高精度原型的交付。
deep-learning-roadmap 通过将海量碎片化信息重构为有序的知识地图,帮助开发者从“盲目搜索”转向“高效执行”,极大缩短了从入门到实战的路径。
运行环境要求
未说明
未说明

快速开始
################################################### 深度学习——你需要知道的一切 ###################################################
.. image:: https://img.shields.io/badge/contributions-welcome-brightgreen.svg?style=flat :target: https://github.com/osforscience/deep-learning-all-you-need/pulls .. image:: https://badges.frapsoft.com/os/v2/open-source.png?v=103 :target: https://github.com/ellerbrock/open-source-badge/ .. image:: https://img.shields.io/pypi/l/ansicolortags.svg :target: https://github.com/osforscience/deep-learning-all-you-need/blob/master/LICENSE .. image:: https://img.shields.io/twitter/follow/machinemindset.svg?label=Follow&style=social :target: https://twitter.com/machinemindset
########################################################################## 赞助 ##########################################################################
为了支持本项目的维护与升级,请您考虑赞助项目开发者 <https://github.com/sponsors/astorfi/dashboard>_。
任何级别的支持都是对本项目的重要贡献 :heart:
.. raw:: html
################################################### 免费下载Python机器学习书籍 ###################################################
.. raw:: html
################################################### Slack社区 ###################################################
.. raw:: html
################## 目录 ################## .. contents:: :local: :depth: 4
.. image:: _img/mainpage/logo.gif
引言
本项目的目的是为开发者和研究人员提供一条捷径,帮助他们快速找到有关深度学习的有用资源。
============ 动机
这个开源项目有多种动机。
.. -------------------- .. 为什么选择深度学习? .. --------------------
这个开源项目的意义何在?
目前已有许多类似本仓库的资源库,它们内容全面且非常实用。说实话,这些资源库让我一度怀疑是否还有必要创建这样一个仓库!
本仓库的独特之处在于其资源的精准定位。资源的组织方式使得用户能够轻松找到自己所需的内容。我们把资源分成了众多类别,刚开始可能会让人感到有些复杂!然而,一旦明确了目标,就能迅速找到最相关的资源。即使一开始不知道该寻找什么,也可以先从通用资源入手。
.. ================================================ .. 如何充分利用这一努力 .. ================================================
论文
.. image:: _img/mainpage/article.jpeg
本章收录了深度学习领域发表的相关论文。
==================== 模型
卷积神经网络
.. image:: _img/mainpage/convolutional.png
.. 对于连续的线条,必须从同一位置开始。
使用深度卷积神经网络进行ImageNet分类 : [
论文 <http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks>][代码 <https://github.com/dontfollowmeimcrazy/imagenet>].. image:: _img/mainpage/star_5.png
用于句子分类的卷积神经网络 : [
论文 <https://arxiv.org/abs/1408.5882>][代码 <https://github.com/yoonkim/CNN_sentence>].. image:: _img/mainpage/star_4.png
大规模视频分类中的卷积神经网络 : [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Karpathy_Large-scale_Video_Classification_2014_CVPR_paper.html>][项目页面 <https://cs.stanford.edu/people/karpathy/deepvideo/>].. image:: _img/mainpage/star_4.png
利用卷积神经网络学习并迁移图像中层特征表示 : [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Oquab_Learning_and_Transferring_2014_CVPR_paper.html>_].. image:: _img/mainpage/star_5.png
深度卷积神经网络在LVCSR中的应用 : [
论文 <https://ieeexplore.ieee.org/abstract/document/6639347/&hl=zh-CN&sa=T&oi=gsb&ct=res&cd=0&ei=KknXWYbGFMbFjwSsyICADQ&scisig=AAGBfm2F0Zlu0ciUwadzshNNm80IQQhuhA>_].. image:: _img/mainpage/star_3.png
人脸识别:基于卷积神经网络的方法 : [
论文 <https://ieeexplore.ieee.org/abstract/document/554195/>_].. image:: _img/mainpage/star_5.png
循环神经网络
.. image:: _img/mainpage/Recurrent_neural_network_unfold.svg
.. 对于连续的线条,必须从同一位置开始。
循环神经网络架构的实证探索 : [
论文 <http://proceedings.mlr.press/v37/jozefowicz15.pdf?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=revue>][代码 <https://github.com/debajyotidatta/RecurrentArchitectures>].. image:: _img/mainpage/star_4.png
LSTM:搜索空间之旅 : [
论文 <https://ieeexplore.ieee.org/abstract/document/7508408/>][代码 <https://github.com/fomorians/lstm-odyssey>].. image:: _img/mainpage/star_3.png
训练循环神经网络的困难性 : [
论文 <http://proceedings.mlr.press/v28/pascanu13.pdf>][代码 <https://github.com/pascanur/trainingRNNs>].. image:: _img/mainpage/star_5.png
学会遗忘:使用LSTM进行持续预测 : [
论文 <http://digital-library.theiet.org/content/conferences/10.1049/cp_19991218>_].. image:: _img/mainpage/star_5.png
自编码器
.. image:: _img/mainpage/Autoencoder_structure.png
使用去噪自编码器提取和组合鲁棒特征: [
论文 <https://dl.acm.org/citation.cfm?id=1390294>_].. image:: _img/mainpage/star_5.png
堆叠式去噪自编码器:通过局部去噪准则在深度网络中学习有用表示: [
论文 <http://www.jmlr.org/papers/v11/vincent10a.html>][代码 <https://github.com/rajarsheem/libsdae-autoencoder-tensorflow>].. image:: _img/mainpage/star_5.png
对抗自编码器: [
论文 <https://arxiv.org/abs/1511.05644>][代码 <https://github.com/conan7882/adversarial-autoencoders>].. image:: _img/mainpage/star_3.png
自编码器、无监督学习与深度架构: [
论文 <http://proceedings.mlr.press/v27/baldi12a/baldi12a.pdf>_].. image:: _img/mainpage/star_4.png
利用神经网络降低数据维度: [
论文 <http://science.sciencemag.org/content/313/5786/504>][代码 <https://github.com/jordn/autoencoder>].. image:: _img/mainpage/star_5.png
生成模型
.. image:: _img/mainpage/generative.png
利用生成模型进行判别分类: [
论文 <http://papers.nips.cc/paper/1520-exploiting-generative-models-in-discriminative-classifiers.pdf>_].. image:: _img/mainpage/star_4.png
基于深度生成模型的半监督学习: [
论文 <http://papers.nips.cc/paper/5352-semi-supervised-learning-with-deep-generative-models>][代码 <https://github.com/wohlert/semi-supervised-pytorch>].. image:: _img/mainpage/star_4.png
生成对抗网络: [
论文 <http://papers.nips.cc/paper/5423-generative-adversarial-nets>][代码 <https://github.com/goodfeli/adversarial>].. image:: _img/mainpage/star_5.png
广义去噪自编码器作为生成模型: [
论文 <http://papers.nips.cc/paper/5023-generalized-denoising-auto-encoders-as-generative-models>_].. image:: _img/mainpage/star_5.png
基于深度卷积生成对抗网络的无监督表征学习: [
论文 <https://arxiv.org/abs/1511.06434>][代码 <https://github.com/carpedm20/DCGAN-tensorflow>].. image:: _img/mainpage/star_5.png
概率模型
深度生成模型中的随机反向传播与近似推断: [
论文 <https://arxiv.org/abs/1401.4082>_].. image:: _img/mainpage/star_4.png
认知的概率模型:探索表征与归纳偏置: [
论文 <https://www.sciencedirect.com/science/article/pii/S1364661310001129>_].. image:: _img/mainpage/star_5.png
关于深度生成模型及其在识别中的应用: [
论文 <https://ieeexplore.ieee.org/abstract/document/5995710/>_].. image:: _img/mainpage/star_5.png
==================== 核心
优化
.. ################################################################################ .. 对于连续的行,每一行必须从相同的位置开始。
批量归一化:通过减少内部协变量偏移加速深度网络训练: [
论文 <https://arxiv.org/abs/1502.03167>_].. image:: _img/mainpage/star_5.png
Dropout:防止神经网络过拟合的简单方法: [
论文 <http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf?utm_content=buffer79b43&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer>_].. image:: _img/mainpage/star_5.png
训练非常深的网络: [
论文 <http://papers.nips.cc/paper/5850-training-very-deep-networks>_].. image:: _img/mainpage/star_4.png
深入研究ReLU激活函数:在ImageNet分类任务上超越人类水平性能: [
论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf>_].. image:: _img/mainpage/star_5.png
大规模分布式深度网络: [
论文 <http://papers.nips.cc/paper/4687-large-scale-distributed-deep-networks>_].. image:: _img/mainpage/star_5.png
表征学习
基于深度卷积生成对抗网络的无监督表征学习: [
论文 <https://arxiv.org/abs/1511.06434>][代码 <https://github.com/Newmu/dcgan_code>].. image:: _img/mainpage/star_5.png
表征学习:综述与新视角: [
论文 <https://ieeexplore.ieee.org/abstract/document/6472238/>_].. image:: _img/mainpage/star_4.png
InfoGAN:通过信息最大化生成对抗网络实现可解释的表征学习: [
论文 <http://papers.nips.cc/paper/6399-infogan-interpretable-representation>][代码 <https://github.com/openai/InfoGAN>].. image:: _img/mainpage/star_3.png
理解与迁移学习
利用卷积神经网络学习并迁移图像中层表征: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Oquab_Learning_and_Transferring_2014_CVPR_paper.html>_].. image:: _img/mainpage/star_5.png
知识蒸馏: [
论文 <https://arxiv.org/abs/1503.02531>_].. image:: _img/mainpage/star_4.png
DeCAF:用于通用视觉识别的深度卷积激活特征: [
论文 <http://proceedings.mlr.press/v32/donahue14.pdf>_][.. image:: _img/mainpage/star_5.png
深度神经网络中的特征有多大的可迁移性?: [
论文 <http://papers.nips.cc/paper/5347-how-transferable-are-features-in-deep-n%E2%80%A6>][代码 <https://github.com/yosinski/convnet_transfer>].. image:: _img/mainpage/star_5.png
强化学习
通过深度强化学习实现人类水平控制: [
论文 <https://www.nature.com/articles/nature14236/>][代码 <https://github.com/devsisters/DQN-tensorflow>].. image:: _img/mainpage/star_5.png
用深度强化学习玩Atari游戏: [
论文 <https://arxiv.org/abs/1312.5602>][代码 <https://github.com/carpedm20/deep-rl-tensorflow>].. image:: _img/mainpage/star_3.png
深度强化学习中的连续控制: [
论文 <https://arxiv.org/abs/1509.02971>][代码 <https://github.com/stevenpjg/ddpg-aigym>].. image:: _img/mainpage/star_4.png
采用双重Q学习的深度强化学习: [
论文 <http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847>][代码 <https://github.com/carpedm20/deep-rl-tensorflow>].. image:: _img/mainpage/star_3.png
深度强化学习中的对决网络架构: [
论文 <https://arxiv.org/abs/1511.06581>][代码 <https://github.com/yoosan/deeprl>].. image:: _img/mainpage/star_3.png
==================== 应用
图像识别
用于图像识别的深度残差学习: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html>][代码 <https://github.com/gcr/torch-residual-networks>].. image:: _img/mainpage/star_5.png
用于大规模图像识别的非常深的卷积神经网络: [
论文 <https://arxiv.org/abs/1409.1556>_].. image:: _img/mainpage/star_5.png
用于图像分类的多列深度神经网络: [
论文 <https://arxiv.org/abs/1202.2745>_].. image:: _img/mainpage/star_4.png
DeepID3:使用非常深的神经网络进行人脸识别: [
论文 <https://arxiv.org/abs/1502.00873>_].. image:: _img/mainpage/star_4.png
深入卷积神经网络:可视化图像分类模型与显著性图: [
论文 <https://arxiv.org/abs/1312.6034>][代码 <https://github.com/artvandelay/Deep_Inside_Convolutional_Networks>].. image:: _img/mainpage/star_3.png
Deep Image:扩展图像识别规模: [
论文 <https://arxiv.org/vc/arxiv/papers/1501/1501.02876v1.pdf>_].. image:: _img/mainpage/star_4.png
用于视觉识别与描述的长期循环卷积网络: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html>][代码 <https://github.com/JaggerYoung/LRCN-for-Activity-Recognition>].. image:: _img/mainpage/star_5.png
用于跨音频-视觉匹配识别的3D卷积神经网络: [
论文 <https://ieeexplore.ieee.org/document/8063416>][代码 <https://github.com/astorfi/lip-reading-deeplearning>].. image:: _img/mainpage/star_4.png
目标识别
使用深度卷积神经网络进行ImageNet分类: [
论文 <http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks>_].. image:: _img/mainpage/star_5.png
利用Places数据库学习场景识别的深度特征: [
论文 <http://papers.nips.cc/paper/5349-learning-deep-features>_].. image:: _img/mainpage/star_3.png
使用深度神经网络进行可扩展的目标检测: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Erhan_Scalable_Object_Detection_2014_CVPR_paper.html>_].. image:: _img/mainpage/star_4.png
Faster R-CNN:通过区域提议网络实现实时目标检测: [
论文 <http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks>][代码 <https://github.com/rbgirshick/py-faster-rcnn>].. image:: _img/mainpage/star_4.png
OverFeat:使用卷积网络实现集成识别、定位与检测: [
论文 <https://arxiv.org/abs/1312.6229>][代码 <https://github.com/sermanet/OverFeat>].. image:: _img/mainpage/star_5.png
现成的CNN特征:令人惊叹的识别基线: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_workshops_2014/W15/html/Razavian_CNN_Features_Off-the-Shelf_2014_CVPR_paper.html>_].. image:: _img/mainpage/star_3.png
用于目标识别的最佳多阶段架构是什么?: [
论文 <https://ieeexplore.ieee.org/abstract/document/5459469/>_].. image:: _img/mainpage/star_2.png
动作识别
用于视觉识别与描述的长期循环卷积网络: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html>_].. image:: _img/mainpage/star_5.png
使用3D卷积网络学习时空特征: [
论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Tran_Learning_Spatiotemporal_Features_ICCV_2015_paper.html>][代码 <https://github.com/DavideA/c3d-pytorch>].. image:: _img/mainpage/star_5.png
通过利用时间结构描述视频: [
论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Yao_Describing_Videos_by_ICCV_2015_paper.html>][代码 <https://github.com/tsenghungchen/SA-tensorflow>].. image:: _img/mainpage/star_3.png
用于视频动作识别的卷积双流网络融合: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Feichtenhofer_Convolutional_Two-Stream_Network_CVPR_2016_paper.html>][代码 <https://github.com/feichtenhofer/twostreamfusion>].. image:: _img/mainpage/star_4.png
时间片段网络:迈向深度动作识别的良好实践: [
论文 <https://link.springer.com/chapter/10.1007/978-3-319-46484-8_2>][代码 <https://github.com/yjxiong/temporal-segment-networks>].. image:: _img/mainpage/star_3.png
标题生成
展示、注意与讲述:带有视觉注意力的神经图像标题生成: [
论文 <http://proceedings.mlr.press/v37/xuc15.pdf>][代码 <https://github.com/yunjey/show-attend-and-tell>].. image:: _img/mainpage/star_5.png
心灵之眼:用于图像标题生成的递归视觉表示: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Chen_Minds_Eye_A_2015_CVPR_paper.html>_].. image:: _img/mainpage/star_2.png
生成对抗文本到图像合成: [
论文 <http://proceedings.mlr.press/v48/reed16.pdf>][代码 <https://github.com/zsdonghao/text-to-image>].. image:: _img/mainpage/star_3.png
用于生成图像描述的深度视觉-语义对齐: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.html>][代码 <https://github.com/jonkuo/Deep-Learning-Image-Captioning>].. image:: _img/mainpage/star_4.png
展示与讲述:一种神经图像标题生成器: [
论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Vinyals_Show_and_Tell_2015_CVPR_paper.html>][代码 <https://github.com/DeepRNN/image_captioning>].. image:: _img/mainpage/star_5.png
自然语言处理
词和短语的分布式表示及其组合性: [
论文 <http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>][代码 <https://code.google.com/archive/p/word2vec/>].. image:: _img/mainpage/star_5.png
向量空间中词表示的有效估计: [
论文 <https://arxiv.org/pdf/1301.3781.pdf>][代码 <https://code.google.com/archive/p/word2vec/>].. image:: _img/mainpage/star_4.png
基于神经网络的序列到序列学习: [
论文 <https://arxiv.org/pdf/1409.3215.pdf>][代码 <https://github.com/farizrahman4u/seq2seq>].. image:: _img/mainpage/star_5.png
通过联合学习对齐与翻译实现神经机器翻译: [
论文 <https://arxiv.org/pdf/1409.0473.pdf>][代码 <https://github.com/tensorflow/nmt>].. image:: _img/mainpage/star_4.png
直奔主题:使用指针生成器网络进行摘要生成: [
论文 <https://arxiv.org/abs/1704.04368>][代码 <https://github.com/abisee/pointer-generator>].. image:: _img/mainpage/star_3.png
注意力就是一切: [
论文 <https://arxiv.org/abs/1706.03762>][代码 <https://github.com/jadore801120/attention-is-all-you-need-pytorch>].. image:: _img/mainpage/star_4.png
用于句子分类的卷积神经网络: [
论文 <https://arxiv.org/abs/1408.5882>][代码 <https://github.com/yoonkim/CNN_sentence>].. image:: _img/mainpage/star_4.png
语音技术
深度神经网络在语音识别声学建模中的应用:四个研究小组的共同见解: [
论文 <https://ieeexplore.ieee.org/abstract/document/6296526/>_].. image:: _img/mainpage/star_5.png
迈向端到端的循环神经网络语音识别: [
论文 <http://proceedings.mlr.press/v32/graves14.pdf>_].. image:: _img/mainpage/star_3.png
基于深度循环神经网络的语音识别: [
论文 <https://ieeexplore.ieee.org/abstract/document/6638947/>_].. image:: _img/mainpage/star_4.png
快速且准确的循环神经网络声学模型用于语音识别: [
论文 <https://arxiv.org/abs/1507.06947>_].. image:: _img/mainpage/star_3.png
Deep Speech 2:英语和普通话的端到端语音识别: [
论文 <http://proceedings.mlr.press/v48/amodei16.html>][代码 <https://github.com/PaddlePaddle/DeepSpeech>].. image:: _img/mainpage/star_4.png
一种新颖的基于音素感知深度神经网络的说话人识别方案: [
论文 <https://ieeexplore.ieee.org/abstract/document/6853887/>_].. image:: _img/mainpage/star_3.png
基于3D卷积神经网络的文本无关说话人验证: [
论文 <https://arxiv.org/abs/1705.09422>][代码 <https://github.com/astorfi/3D-convolutional-speaker-recognition>].. image:: _img/mainpage/star_4.png
数据集
==================== 图像
通用
- MNIST 手写数字数据集:
[
链接 <http://yann.lecun.com/exdb/mnist/>_]
人脸
人脸识别技术(FERET) FERET计划的目标是开发自动人脸识别能力,以协助安保、情报和执法部门人员履行其职责: [
链接 <https://www.nist.gov/programs-projects/face-recognition-technology-feret>_]卡内基梅隆大学姿态、光照和表情(PIE)人脸数据库 在2000年10月至12月期间,我们收集了68位人士的41,368张图像: [
链接 <https://www.ri.cmu.edu/publications/the-cmu-pose-illumination-and-expression-pie-database-of-human-faces/>_]YouTube Faces DB 该数据集包含来自1595个人的3425个视频。所有视频均从YouTube下载。每个对象平均有2.15个视频可用: [
链接 <https://www.cs.tau.ac.il/~wolf/ytfaces/>_]语法面部表情数据集 为辅助面部表情的自动化分析而开发: [
链接 <https://archive.ics.uci.edu/ml/datasets/Grammatical+Facial+Expressions>_]FaceScrub 包含超过10万张530个人脸图像的数据集: [
链接 <http://vintage.winklerbros.net/facescrub.html>_]IMDB-WIKI 包含50多万张带年龄和性别标签的人脸图像: [
链接 <https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/>_]FDDB 面部检测数据集和基准测试(FDDB): [
链接 <http://vis-www.cs.umass.edu/fddb/>_]
物体识别
COCO Microsoft COCO:上下文中的常见物体: [
链接 <http://cocodataset.org/#home>_]ImageNet 著名的ImageNet数据集: [
链接 <http://www.image-net.org/>_]Open Images Dataset Open Images是一个包含约900万张图片的数据集,这些图片已被标注了图像级别标签和物体边界框: [
链接 <https://storage.googleapis.com/openimages/web/index.html>_]Caltech-256物体类别数据集 一个大型物体分类数据集: [
链接 <https://authors.library.caltech.edu/7694/>_]Pascal VOC数据集 一个用于分类任务的大规模数据集: [
链接 <http://host.robots.ox.ac.uk/pascal/VOC/>_]CIFAR 10 / CIFAR 100 CIFAR-10数据集由10个类别的60000张32x32彩色图像组成。CIFAR-100与CIFAR-10类似,但它有100个类,每个类包含600张图像: [
链接 <https://www.cs.toronto.edu/~kriz/cifar.html>_]
动作识别
HMDB 一个大型人体动作数据库: [
链接 <http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/>_]MHAD 伯克利多模态人类动作数据库: [
链接 <http://tele-immersion.citris-uc.org/berkeley_mhad>_]UCF101 - 动作识别数据集 UCF101是一个包含101个动作类别的真实动作视频的动作识别数据集,这些视频均来自YouTube。该数据集是UCF50数据集的扩展,后者只有50个动作类别: [
链接 <http://crcv.ucf.edu/data/UCF101.php>_]THUMOS数据集 一个用于动作分类的大规模数据集: [
链接 <http://crcv.ucf.edu/data/THUMOS.php>_]ActivityNet 一个用于理解人类活动的大规模视频基准测试: [
链接 <http://activity-net.org/>_]
====================================== 文本与自然语言处理
通用
10亿词语言模型基准:该项目旨在为语言建模实验提供标准化的训练和测试设置: [
链接 <http://www.statmt.org/lm-benchmark/>_]Common Crawl:Common Crawl语料库包含过去7年间收集的数PB数据,其中包括原始网页数据、提取的元数据以及文本内容: [
链接 <http://commoncrawl.org/the-data/get-started/>_]Yelp开放数据集:Yelp的企业、评论和用户数据的一个子集,可用于个人、教育和学术目的: [
链接 <https://www.yelp.com/dataset>_]
文本分类
20 Newsgroups:20 Newsgroups数据集包含约2万篇新闻组文档,几乎平均分布在20个不同的新闻组中: [
链接 <http://qwone.com/~jason/20Newsgroups/>_]广播新闻:1996年广播新闻语音语料库共包含来自ABC、CNN和CSPAN电视台以及NPR和PRI电台的104小时广播节目,并附有相应的文字稿: [
链接 <https://catalog.ldc.upenn.edu/LDC97S44>_]Wikitext长期依赖语言模型数据集:该数据集由维基百科上经过验证的好条目和特色条目中提取的超过1亿个词素组成: [
链接 <https://einstein.ai/research/the-wikitext-long-term-dependency-language-modeling-dataset>_]
问答
Deep Mind与牛津大学联合发布的问答语料库,包含来自CNN和Daily Mail网站的大约百万篇新闻文章及其相关问题的两个新语料库: [
链接 <https://github.com/deepmind/rc-data>_]斯坦福问答数据集(SQuAD):该数据集由众包工作者针对维基百科文章提出的问题组成: [
链接 <https://rajpurkar.github.io/SQuAD-explorer/>_]亚马逊问答数据集:包含来自亚马逊的问答数据,共计约140万个已回答的问题: [
链接 <http://jmcauley.ucsd.edu/data/amazon/qa/>_]
情感分析
多领域情感数据集:该数据集包含了从Amazon.com上获取的多种产品类别的商品评论: [
链接 <http://www.cs.jhu.edu/~mdredze/datasets/sentiment/>_]斯坦福情感树库数据集:斯坦福情感树库是首个带有完整标注句法树的语料库,能够对语言中情感成分的组合效应进行全面分析: [
链接 <https://nlp.stanford.edu/sentiment/>_]大型电影评论数据集:这是一个用于二元情感分类的数据集: [
链接 <http://ai.stanford.edu/~amaas/data/sentiment/>_]
机器翻译
加拿大第36届议会齐次汉萨德语料库:该语料库包含130万对齐的文本片段: [
链接 <https://www.isi.edu/natural-language/download/hansard/>_]Europarl:统计机器翻译平行语料库:该语料库取自欧洲议会会议记录: [
链接 <http://www.statmt.org/europarl/>_]
摘要生成
- 法律案例报告数据集:这是一个包含4000个法律案例的文本语料库,可用于自动摘要和引文分析:
[
链接 <https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports>_]
====================================== 语音技术
TIMIT连续语音声学-音系学语料库:TIMIT朗读语音语料库旨在为声学-音系学研究以及自动语音识别系统的开发和评估提供语音数据: [
链接 <https://catalog.ldc.upenn.edu/ldc93s1>_]LibriSpeech:LibriSpeech是一个约1000小时的16kHz英语朗读语音语料库,由Vassil Panayotov在Daniel Povey的协助下整理而成: [
链接 <http://www.openslr.org/12/>_]VoxCeleb:一个大规模的视听数据集: [
链接 <http://www.robots.ox.ac.uk/~vgg/data/voxceleb/>_]NIST说话人识别: [
链接 <https://www.nist.gov/itl/iad/mig/speaker-recognition>_]
课程
.. image:: _img/mainpage/online.png
斯坦福大学Coursera平台上的机器学习课程: [
链接 <https://www.coursera.org/learn/machine-learning>_]Coursera平台上的神经网络与深度学习专项课程: [
链接 <https://www.coursera.org/learn/neural-networks-deep-learning>_]Google推出的深度学习入门课程: [
链接 <https://www.udacity.com/course/deep-learning--ud730>_]卡内基梅隆大学的深度学习导论课程: [
链接 <http://deeplearning.cs.cmu.edu/>_]NVIDIA深度学习学院提供的课程: [
链接 <https://www.nvidia.com/en-us/deep-learning-ai/education/>_]斯坦福大学的视觉识别卷积神经网络课程: [
链接 <http://cs231n.stanford.edu/>_]斯坦福大学自然语言处理深度学习课程: [
链接 <http://cs224d.stanford.edu/>_]fast.ai提供的深度学习课程: [
链接 <http://www.fast.ai/>_]印度理工学院Kharagpur分校关于视觉计算深度学习的课程: [
链接 <https://www.youtube.com/playlist?list=PLuv3GM6-gsE1Biyakccxb3FAn4wBLyfWf>_]
书籍
.. image:: _img/mainpage/books.jpg
Ian Goodfellow著《深度学习》: [
链接 <http://www.deeplearningbook.org/>_]《神经网络与深度学习》: [
链接 <http://neuralnetworksanddeeplearning.com/>_]《用Python进行深度学习》: [
链接 <https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438/ref=as_li_ss_tl?s=books&ie=UTF8&qid=1519989624&sr=1-4&keywords=deep+learning+with+python&linkCode=sl1&tag=trndingcom-20&linkId=ec7663329fdb7ace60f39c762e999683>_]《动手学机器学习:使用Scikit-Learn和TensorFlow构建智能系统》: [
链接 <https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=as_li_ss_tl?ie=UTF8&qid=1519989725&sr=1-2-ent&linkCode=sl1&tag=trndingcom-20&linkId=71938c9398940c7b0a811dc1cfef7cc3>_]
博客
.. image:: _img/mainpage/Blogger_icon.png
Colah的博客: [
链接 <http://colah.github.io/>_]Andrej Karpathy的博客: [
链接 <http://karpathy.github.io/>_]The Spectator Shakir的机器学习博客: [
链接 <http://blog.shakirm.com/>_]WILDML: [
链接 <http://www.wildml.com/about/>_]Distill博客:它更像一本期刊而非博客,因为其采用同行评审机制,只有通过评审的文章才会被发表: [
链接 <https://distill.pub/>_]BAIR伯克利人工智能研究中心: [
链接 <http://bair.berkeley.edu/blog/>_]塞巴斯蒂安·鲁德尔的博客: [
链接 <http://ruder.io/>_]inFERENCe: [
链接 <https://www.inference.vc/page/2/>_]i am trask 机器学习工艺博客: [
链接 <http://iamtrask.github.io>_]
教程
.. image:: _img/mainpage/tutorial.png
深度学习教程: [
链接 <http://deeplearning.net/tutorial/>_]PyTorch 官方的 NLP 深度学习教程: [
链接 <https://pytorch.org/tutorials/beginner/deep_learning_nlp_tutorial.html>_]乔恩·克罗恩的自然语言处理深度学习教程(附 Jupyter 笔记本): [
链接 <https://insights.untapt.com/deep-learning-for-natural-language-processing-tutorials-with-jupyter-notebooks-ad67f336ce3f>_]
框架
TensorFlow: [
链接 <https://www.tensorflow.org/>_]PyTorch: [
链接 <https://pytorch.org/>_]CNTK: [
链接 <https://docs.microsoft.com/en-us/cognitive-toolkit/>_]MatConvNet: [
链接 <http://www.vlfeat.org/matconvnet/>_]Keras: [
链接 <https://keras.io/>_]Caffe: [
链接 <http://caffe.berkeleyvision.org/>_]Theano: [
链接 <http://www.deeplearning.net/software/theano/>_]CuDNN: [
链接 <https://developer.nvidia.com/cudnn>_]Torch: [
链接 <https://github.com/torch/torch7>_]Deeplearning4j: [
链接 <https://deeplearning4j.org/>_]
贡献说明
对于拼写错误,除非是重大修改,请不要提交拉取请求。请在问题中指出或直接发送邮件给仓库负责人。请注意,我们有一份行为准则,请在与本项目的任何互动中遵守。
======================== 拉取请求流程
为了帮助我们更好地工作,请您考虑以下几点:
- 拉取请求主要应为链接建议。
- 请确保您建议的资源未过时或失效。
- 在构建并提交拉取请求之前,请确保已移除所有安装或构建依赖项。
- 添加注释,详细说明接口的更改内容,包括新增的环境变量、开放的端口、重要文件路径以及容器参数。
- 当至少有一位其他开发人员签字确认后,您可以合并拉取请求;如果您没有权限执行此操作,且认为所有检查均已通过,可以请求仓库负责人代为合并。
======================== 最后说明
我们期待您的宝贵反馈。请帮助我们改进这个开源项目,使我们的工作更加出色。如需贡献,请创建一个拉取请求,我们将尽快进行审核。再次感谢您的反馈与支持。
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。