Deep-Learning-Roadmap

GitHub
3.2k 313 非常简单 2 次阅读 1周前MIT开发框架
AI 解读 由 AI 自动生成,仅供参考

Deep-Learning-Roadmap 是一个专为深度学习研究者与开发者打造的资源整理项目。面对互联网上庞杂的学习资料,它解决了用户难以快速筛选和定位高质量内容的问题。与其他综合性仓库不同,Deep-Learning-Roadmap 的核心理念在于资源的“针对性”与“结构化”。它将海量资料划分为细致的类别,虽然初期可能显得繁多,但能让用户根据具体需求精准锁定相关论文、代码及模型实现。

项目内容涵盖深度学习领域的核心方向,例如卷积神经网络在图像分类、句子分类及视频分类中的经典论文与对应代码链接。即使是初学者,也能通过提供的通用资源入口顺利入门,避免迷失方向。此外,Deep-Learning-Roadmap 还建立了 Slack 交流群组,促进社区成员间的互动与协作。

无论是希望系统构建知识体系的学生,还是需要查阅特定技术细节的工程师,Deep-Learning-Roadmap 都能提供一条高效的学习捷径。项目基于 Python 生态,采用开源模式,持续欢迎社区贡献,旨在打造一个开放、有序且实用的深度学习知识共享平台,帮助用户在快速发展的技术领域中保持竞争力。

使用场景

某科技公司算法工程师小张,接到任务需在两周内为新的医疗图像识别项目搭建基准模型,急需查找经典的卷积神经网络论文及可靠代码实现,但面对海量信息无从下手。

没有 Deep-Learning-Roadmap 时

  • 在 arXiv 和 Google 大海捞针,筛选海量无关论文耗时极长,项目进度严重滞后。
  • 找到论文后难以匹配对应的开源代码,复现成本高昂且容易因版本问题出错。
  • 缺乏系统分类,不清楚不同模型的具体适用场景,技术选型困难重重。
  • 学习路径混乱,容易陷入细节而偏离项目核心需求,大幅增加试错成本。

使用 Deep-Learning-Roadmap 后

  • 通过 Deep-Learning-Roadmap 的分类目录,直接定位到卷积网络板块,节省大量检索时间。
  • 每个模型条目均提供论文与代码的双向链接,一键获取资源,复现效率倍增。
  • 资源经过针对性整理,快速匹配到适合图像分类的经典模型,技术选型更精准。
  • 结构化的知识体系帮助小张迅速建立技术选型思路,专注核心开发而非资源搜集。

Deep-Learning-Roadmap 将分散的深度学习资源系统化,显著降低了研究人员的信息检索与筛选成本,让开发者能更专注于算法创新与业务落地。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该项目为深度学习资源导航与论文代码汇总清单,并非单一可执行工具,因此无特定运行环境要求。徽章显示项目与 Python 相关,具体依赖需参考链接到的外部仓库(如 TensorFlow、PyTorch 项目)。
python未说明
Deep-Learning-Roadmap hero image

快速开始

.. image:: _img/mainpage/logo.gif

.. figure:: _img/mainpage/subscribe.gif :target: https://machinelearningmindset.com/subscription/

######### Slack 群组 #########

.. raw:: html

.. raw:: html

.. raw:: html

###################### 深度学习 (Deep Learning) 世界 ######################

.. image:: https://img.shields.io/badge/contributions-welcome-brightgreen.svg?style=flat :target: https://github.com/astorfi/Deep-Learning-World/pulls .. image:: https://badges.frapsoft.com/os/v2/open-source.png?v=103 :target: https://github.com/ellerbrock/open-source-badge/ .. image:: https://img.shields.io/badge/Made%20with-Python-1f425f.svg :target: https://www.python.org/ .. image:: https://img.shields.io/pypi/l/ansicolortags.svg :target: https://github.com/astorfi/Deep-Learning-World/blob/master/LICENSE .. image:: https://img.shields.io/github/contributors/Naereen/StrapDown.js.svg :target: https://github.com/astorfi/Deep-Learning-World/graphs/contributors .. image:: https://img.shields.io/twitter/follow/amirsinatorfi.svg?label=Follow&style=social :target: https://twitter.com/amirsinatorfi

目录

.. contents:: :local: :depth: 4


简介


本项目的目的是为开发者和研究人员提供一个捷径,以便查找关于深度学习 (Deep Learning) 的有用资源。

== 动机

这个开源 (Open Source) 项目有不同的动机。

.. -------------------- .. 为什么选择深度学习 (Deep Learning)? .. --------------------


这个开源 (Open Source) 项目的意义是什么?

还有其他类似的仓库 (Repository) 与这个仓库类似,它们非常全面且有用,老实说,它们让我思考是否有必要建立这个仓库!

本仓库的重点在于资源具有针对性。资源的组织方式使用户可以轻松找到他/她正在寻找的内容。我们将资源划分为大量类别,起初可能会让人头疼!!!但是,如果有人知道要找的内容位于何处,就非常容易找到最相关的资源。即使有人起初不知道要找什么,我们也提供了通用资源。

.. ================================================ .. 如何充分利用这一努力 .. ================================================


论文


.. image:: _img/mainpage/article.jpeg

本章与深度学习 (Deep Learning) 领域发表的论文相关。

==== 模型


卷积神经网络 (Convolutional Networks)

.. image:: _img/mainpage/convolutional.png

.. 对于连续的行,行必须从相同的位置开始。

  • Imagenet classification with deep convolutional neural networks : [论文 <http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks>][代码 <https://github.com/dontfollowmeimcrazy/imagenet>]

    .. image:: _img/mainpage/star_5.png

  • Convolutional Neural Networks for Sentence Classification : [论文 <https://arxiv.org/abs/1408.5882>][代码 <https://github.com/yoonkim/CNN_sentence>]

    .. image:: _img/mainpage/star_4.png

  • Large-scale Video Classification with Convolutional Neural Networks : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Karpathy_Large-scale_Video_Classification_2014_CVPR_paper.html>][项目页面 <https://cs.stanford.edu/people/karpathy/deepvideo/>]

    .. image:: _img/mainpage/star_4.png

  • Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Oquab_Learning_and_Transferring_2014_CVPR_paper.html>_]

    .. image:: _img/mainpage/star_5.png

  • Deep convolutional neural networks for LVCSR : [论文 <https://ieeexplore.ieee.org/abstract/document/6639347/&hl=zh-CN&sa=T&oi=gsb&ct=res&cd=0&ei=KknXWYbGFMbFjwSsyICADQ&scisig=AAGBfm2F0Zlu0ciUwadzshNNm80IQQhuhA>_]

    .. image:: _img/mainpage/star_3.png

  • Face recognition: a convolutional neural-network approach : [论文 <https://ieeexplore.ieee.org/abstract/document/554195/>_]

    .. image:: _img/mainpage/star_5.png


循环神经网络 (Recurrent Networks)

.. image:: _img/mainpage/Recurrent_neural_network_unfold.svg

.. 对于连续的行,行必须从相同的位置开始。

  • An empirical exploration of recurrent network architectures : [论文 <http://proceedings.mlr.press/v37/jozefowicz15.pdf?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=revue>][代码 <https://github.com/debajyotidatta/RecurrentArchitectures>]

    .. image:: _img/mainpage/star_4.png

  • LSTM: A search space odyssey : [论文 <https://ieeexplore.ieee.org/abstract/document/7508408/>][代码 <https://github.com/fomorians/lstm-odyssey>]

    .. image:: _img/mainpage/star_3.png

  • On the difficulty of training recurrent neural networks : [论文 <http://proceedings.mlr.press/v28/pascanu13.pdf>][代码 <https://github.com/pascanur/trainingRNNs>]

    .. image:: _img/mainpage/star_5.png

  • Learning to forget: Continual prediction with LSTM : [论文 <http://digital-library.theiet.org/content/conferences/10.1049/cp_19991218>_]

    .. image:: _img/mainpage/star_5.png


自编码器 (Autoencoders)

.. image:: _img/mainpage/Autoencoder_structure.png

  • Extracting and composing robust features with denoising autoencoders : [论文 <https://dl.acm.org/citation.cfm?id=1390294>_]

    .. image:: _img/mainpage/star_5.png

  • Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion : [论文 <http://www.jmlr.org/papers/v11/vincent10a.html>][代码 <https://github.com/rajarsheem/libsdae-autoencoder-tensorflow>]

    .. image:: _img/mainpage/star_5.png

  • Adversarial Autoencoders : [论文 <https://arxiv.org/abs/1511.05644>][代码 <https://github.com/conan7882/adversarial-autoencoders>]

    .. image:: _img/mainpage/star_3.png

  • Autoencoders, Unsupervised Learning, and Deep Architectures : [论文 <http://proceedings.mlr.press/v27/baldi12a/baldi12a.pdf>_]

    .. image:: _img/mainpage/star_4.png

  • 使用神经网络 (Neural Networks) 降低数据维度 : [论文 <http://science.sciencemag.org/content/313/5786/504>][代码 <https://github.com/jordn/autoencoder>]

    .. image:: _img/mainpage/star_5.png


生成模型 (Generative Models)

.. image:: _img/mainpage/generative.png

  • 在判别分类器 (Discriminative Classifiers) 中利用生成模型 : [论文 <http://papers.nips.cc/paper/1520-exploiting-generative-models-in-discriminative-classifiers.pdf>_]

    .. image:: _img/mainpage/star_4.png

  • 基于深度生成模型的半监督学习 (Semi-supervised Learning) : [论文 <http://papers.nips.cc/paper/5352-semi-supervised-learning-with-deep-generative-models>][代码 <https://github.com/wohlert/semi-supervised-pytorch>]

    .. image:: _img/mainpage/star_4.png

  • 生成对抗网络 (Generative Adversarial Nets) : [论文 <http://papers.nips.cc/paper/5423-generative-adversarial-nets>][代码 <https://github.com/goodfeli/adversarial>]

    .. image:: _img/mainpage/star_5.png

  • 作为生成模型的广义去噪自编码器 (Auto-Encoders) : [论文 <http://papers.nips.cc/paper/5023-generalized-denoising-auto-encoders-as-generative-models>_]

    .. image:: _img/mainpage/star_5.png

  • 使用深度卷积 (Convolutional) 生成对抗网络进行无监督表示学习 : [论文 <https://arxiv.org/abs/1511.06434>][代码 <https://github.com/carpedm20/DCGAN-tensorflow>]

    .. image:: _img/mainpage/star_5.png


概率模型 (Probabilistic Models)

  • 深度生成模型中的随机反向传播 (Stochastic Backpropagation) 与近似推断 : [论文 <https://arxiv.org/abs/1401.4082>_]

    .. image:: _img/mainpage/star_4.png

  • 认知的概率模型:探索表示与归纳偏差 : [论文 <https://www.sciencedirect.com/science/article/pii/S1364661310001129>_]

    .. image:: _img/mainpage/star_5.png

  • 关于应用于识别的深度生成模型 : [论文 <https://ieeexplore.ieee.org/abstract/document/5995710/>_]

    .. image:: _img/mainpage/star_5.png

==================== 核心 (Core)


优化 (Optimization)

.. ################################################################################ .. For continuous lines, the lines must be start from the same locations.

  • 批量归一化 (Batch Normalization):通过减少内部协变量偏移 (Internal Covariate Shift) 加速深度网络训练 : [论文 <https://arxiv.org/abs/1502.03167>_]

    .. image:: _img/mainpage/star_5.png

  • Dropout (随机失活):防止神经网络过拟合 (Overfitting) 的一种简单方法 : [论文 <http://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf?utm_content=buffer79b43&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer>_]

    .. image:: _img/mainpage/star_5.png

  • 训练非常深的网络 : [论文 <http://papers.nips.cc/paper/5850-training-very-deep-networks>_]

    .. image:: _img/mainpage/star_4.png

  • 深入探究整流器 (Rectifiers):在 ImageNet 分类上超越人类水平的性能 : [论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf>_]

    .. image:: _img/mainpage/star_5.png

  • 大规模分布式深度网络 : [论文 <http://papers.nips.cc/paper/4687-large-scale-distributed-deep-networks>_]

    .. image:: _img/mainpage/star_5.png


表示学习 (Representation Learning)

  • 使用深度卷积生成对抗网络进行无监督表示学习 : [论文 <https://arxiv.org/abs/1511.06434>][代码 <https://github.com/Newmu/dcgan_code>]

    .. image:: _img/mainpage/star_5.png

  • 表示学习:回顾与新视角 : [论文 <https://ieeexplore.ieee.org/abstract/document/6472238/>_]

    .. image:: _img/mainpage/star_4.png

  • InfoGAN:通过信息最大化生成对抗网络进行可解释表示学习 : [论文 <http://papers.nips.cc/paper/6399-infogan-interpretable-representation>][代码 <https://github.com/openai/InfoGAN>]

    .. image:: _img/mainpage/star_3.png


理解与迁移学习 (Transfer Learning)

  • 使用卷积神经网络 (Convolutional Neural Networks) 学习和迁移中层图像表示 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Oquab_Learning_and_Transferring_2014_CVPR_paper.html>_]

    .. image:: _img/mainpage/star_5.png

  • 蒸馏神经网络中的知识 : [论文 <https://arxiv.org/abs/1503.02531>_]

    .. image:: _img/mainpage/star_4.png

  • DeCAF:用于通用视觉识别的深度卷积激活特征 : [论文 <http://proceedings.mlr.press/v32/donahue14.pdf>_][

    .. image:: _img/mainpage/star_5.png

  • 深度神经网络中的特征具有多大的可迁移性? : [论文 <http://papers.nips.cc/paper/5347-how-transferable-are-features-in-deep-n%E2%80%A6>][代码 <https://github.com/yosinski/convnet_transfer>]

    .. image:: _img/mainpage/star_5.png


强化学习 (Reinforcement Learning)

  • 通过深度强化学习实现人类水平的控制 : [论文 <https://www.nature.com/articles/nature14236/>][代码 <https://github.com/devsisters/DQN-tensorflow>]

    .. image:: _img/mainpage/star_5.png

  • 使用深度强化学习玩 Atari 游戏 : [论文 <https://arxiv.org/abs/1312.5602>][代码 <https://github.com/carpedm20/deep-rl-tensorflow>]

    .. image:: _img/mainpage/star_3.png

  • 使用深度强化学习进行连续控制 : [论文 <https://arxiv.org/abs/1509.02971>][代码 <https://github.com/stevenpjg/ddpg-aigym>]

    .. image:: _img/mainpage/star_4.png

  • 使用双重 Q 学习 (Double Q-Learning) 的深度强化学习 : [论文 <http://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12389/11847>][代码 <https://github.com/carpedm20/deep-rl-tensorflow>]

    .. image:: _img/mainpage/star_3.png

  • 用于深度强化学习的 Dueling 网络架构 : [论文 <https://arxiv.org/abs/1511.06581>][代码 <https://github.com/yoosan/deeprl>]

    .. image:: _img/mainpage/star_3.png

==================== 应用 (Applications)


图像识别 (Image Recognition)

  • 用于图像识别的深度残差学习 (Deep Residual Learning) : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html>][代码 <https://github.com/gcr/torch-residual-networks>]

    .. image:: _img/mainpage/star_5.png

  • 用于大规模图像识别的非常深卷积网络 : [论文 <https://arxiv.org/abs/1409.1556>_]

    .. image:: _img/mainpage/star_5.png

  • 用于图像分类的多列深度神经网络 : [论文 <https://arxiv.org/abs/1202.2745>_]

.. image:: _img/mainpage/star_4.png

  • DeepID3:使用非常深的神经网络 (Neural Networks) 进行人脸识别 : [论文 <https://arxiv.org/abs/1502.00873>_]

    .. image:: _img/mainpage/star_4.png

  • 深入卷积网络 (Convolutional Networks) 内部:可视化图像分类模型和显著图 (Saliency Maps) : [论文 <https://arxiv.org/abs/1312.6034>][代码 <https://github.com/artvandelay/Deep_Inside_Convolutional_Networks>]

    .. image:: _img/mainpage/star_3.png

  • Deep Image:扩展图像识别 (Image Recognition) : [论文 <https://arxiv.org/vc/arxiv/papers/1501/1501.02876v1.pdf>_]

    .. image:: _img/mainpage/star_4.png

  • 用于视觉识别和描述的长期循环 (Recurrent) 卷积网络 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html>][代码 <https://github.com/JaggerYoung/LRCN-for-Activity-Recognition>]

    .. image:: _img/mainpage/star_5.png

  • 用于跨视听匹配识别的 3D 卷积神经网络 (Convolutional Neural Networks) : [论文 <https://ieeexplore.ieee.org/document/8063416>][代码 <https://github.com/astorfi/lip-reading-deeplearning>]

    .. image:: _img/mainpage/star_4.png


物体识别 (Object Recognition)

  • 使用深度卷积神经网络 (Convolutional Neural Networks) 进行 ImageNet 分类 : [论文 <http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks>_]

    .. image:: _img/mainpage/star_5.png

  • 使用 Places 数据库学习场景识别 (Scene Recognition) 的深度特征 : [论文 <http://papers.nips.cc/paper/5349-learning-deep-features>_]

    .. image:: _img/mainpage/star_3.png

  • 使用深度神经网络的可扩展物体检测 (Object Detection) : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/html/Erhan_Scalable_Object_Detection_2014_CVPR_paper.html>_]

    .. image:: _img/mainpage/star_4.png

  • Faster R-CNN:迈向使用区域提议网络 (Region Proposal Networks) 的实时物体检测 : [论文 <http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks>][代码 <https://github.com/rbgirshick/py-faster-rcnn>]

    .. image:: _img/mainpage/star_4.png

  • OverFeat:使用卷积网络集成识别、定位和检测 : [论文 <https://arxiv.org/abs/1312.6229>][代码 <https://github.com/sermanet/OverFeat>]

    .. image:: _img/mainpage/star_5.png

  • 即用型 CNN (Convolutional Neural Networks) 特征:一个惊人的识别基线 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_workshops_2014/W15/html/Razavian_CNN_Features_Off-the-Shelf_2014_CVPR_paper.html>_]

    .. image:: _img/mainpage/star_3.png

  • 什么是物体识别的最佳多阶段架构? : [论文 <https://ieeexplore.ieee.org/abstract/document/5459469/>_]

    .. image:: _img/mainpage/star_2.png


动作识别 (Action Recognition)

  • 用于视觉识别和描述的长期循环卷积网络 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html>_]

    .. image:: _img/mainpage/star_5.png

  • 使用 3D 卷积网络学习时空特征 (Spatiotemporal Features) : [论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Tran_Learning_Spatiotemporal_Features_ICCV_2015_paper.html>][代码 <https://github.com/DavideA/c3d-pytorch>]

    .. image:: _img/mainpage/star_5.png

  • 利用时间结构描述视频 : [论文 <https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Yao_Describing_Videos_by_ICCV_2015_paper.html>][代码 <https://github.com/tsenghungchen/SA-tensorflow>]

    .. image:: _img/mainpage/star_3.png

  • 用于视频动作识别的卷积双流网络融合 (Convolutional Two-Stream Network Fusion) : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Feichtenhofer_Convolutional_Two-Stream_Network_CVPR_2016_paper.html>][代码 <https://github.com/feichtenhofer/twostreamfusion>]

    .. image:: _img/mainpage/star_4.png

  • 时间片段网络 (Temporal Segment Networks):迈向深度动作识别的良好实践 : [论文 <https://link.springer.com/chapter/10.1007/978-3-319-46484-8_2>][代码 <https://github.com/yjxiong/temporal-segment-networks>]

    .. image:: _img/mainpage/star_3.png


字幕生成 (Caption Generation)

  • Show, Attend and Tell:具有视觉注意力 (Visual Attention) 的神经图像字幕生成 : [论文 <http://proceedings.mlr.press/v37/xuc15.pdf>][代码 <https://github.com/yunjey/show-attend-and-tell>]

    .. image:: _img/mainpage/star_5.png

  • Mind's Eye:用于图像字幕生成的循环视觉表示 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Chen_Minds_Eye_A_2015_CVPR_paper.html>_]

    .. image:: _img/mainpage/star_2.png

  • 生成对抗 (Generative Adversarial) 文本到图像合成 : [论文 <http://proceedings.mlr.press/v48/reed16.pdf>][代码 <https://github.com/zsdonghao/text-to-image>]

    .. image:: _img/mainpage/star_3.png

  • 用于生成图像描述的深度视觉 - 语义对齐 (Deep Visual-Semantic Alignments) : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.html>][代码 <https://github.com/jonkuo/Deep-Learning-Image-Captioning>]

    .. image:: _img/mainpage/star_4.png

  • Show and Tell:一个神经图像字幕生成器 : [论文 <https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Vinyals_Show_and_Tell_2015_CVPR_paper.html>][代码 <https://github.com/DeepRNN/image_captioning>]

    .. image:: _img/mainpage/star_5.png


自然语言处理 (Natural Language Processing)

  • 词和短语的分布式表示 (Distributed Representations) 及其组合性 : [论文 <http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>][代码 <https://code.google.com/archive/p/word2vec/>]

    .. image:: _img/mainpage/star_5.png

  • 向量空间 (Vector Space) 中词表示的高效估计 : [论文 <https://arxiv.org/pdf/1301.3781.pdf>][代码 <https://code.google.com/archive/p/word2vec/>]

    .. image:: _img/mainpage/star_4.png

  • 使用神经网络进行序列到序列 (Sequence to Sequence) 学习 : [论文 <https://arxiv.org/pdf/1409.3215.pdf>][代码 <https://github.com/farizrahman4u/seq2seq>]

    .. image:: _img/mainpage/star_5.png

  • 通过对齐和翻译联合学习的神经机器翻译 (Neural Machine Translation) : [论文 <https://arxiv.org/pdf/1409.0473.pdf>][代码 <https://github.com/tensorflow/nmt>]

    .. image:: _img/mainpage/star_4.png

  • Get To The Point:使用指针 - 生成器网络 (Pointer-Generator Networks) 进行摘要 : [论文 <https://arxiv.org/abs/1704.04368>][代码 <https://github.com/abisee/pointer-generator>]

.. image:: _img/mainpage/star_3.png

  • Attention Is All You Need : [Paper <https://arxiv.org/abs/1706.03762>][Code <https://github.com/jadore801120/attention-is-all-you-need-pytorch>]

    .. image:: _img/mainpage/star_4.png

  • Convolutional Neural Networks (卷积神经网络) for Sentence Classification : [Paper <https://arxiv.org/abs/1408.5882>][Code <https://github.com/yoonkim/CNN_sentence>]

    .. image:: _img/mainpage/star_4.png


语音技术 (Speech Technology)

  • Deep Neural Networks (深度神经网络) for Acoustic Modeling (声学建模) in Speech Recognition (语音识别): The Shared Views of Four Research Groups : [Paper <https://ieeexplore.ieee.org/abstract/document/6296526/>_]

    .. image:: _img/mainpage/star_5.png

  • Towards End-to-End (端到端) Speech Recognition with Recurrent Neural Networks (循环神经网络) : [Paper <http://proceedings.mlr.press/v32/graves14.pdf>_]

    .. image:: _img/mainpage/star_3.png

  • Speech recognition with deep recurrent neural networks : [Paper <https://ieeexplore.ieee.org/abstract/document/6638947/>_]

    .. image:: _img/mainpage/star_4.png

  • Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition : [Paper <https://arxiv.org/abs/1507.06947>_]

    .. image:: _img/mainpage/star_3.png

  • Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin : [Paper <http://proceedings.mlr.press/v48/amodei16.html>][Code <https://github.com/PaddlePaddle/DeepSpeech>]

    .. image:: _img/mainpage/star_4.png

  • A novel scheme for speaker recognition using a phonetically-aware deep neural network : [Paper <https://ieeexplore.ieee.org/abstract/document/6853887/>_]

    .. image:: _img/mainpage/star_3.png

  • Text-Independent Speaker Verification (说话人验证) Using 3D Convolutional Neural Networks : [Paper <https://arxiv.org/abs/1705.09422>][Code <https://github.com/astorfi/3D-convolutional-speaker-recognition>]

    .. image:: _img/mainpage/star_4.png


数据集 (Datasets)


==================== 图像 (Image)


通用 (General)

  • MNIST 手写数字: [Link <http://yann.lecun.com/exdb/mnist/>_]

人脸 (Face)

  • Face Recognition (人脸识别) Technology (FERET) FERET 计划的目标是开发自动人脸识别能力,可用于协助安全、情报和执法人员在履行职责: [Link <https://www.nist.gov/programs-projects/face-recognition-technology-feret>_]

  • The CMU Pose, Illumination, and Expression (PIE) Database of Human Faces 2000 年 10 月至 12 月期间,我们收集了一个包含 68 人的 41,368 张图像的数据库: [Link <https://www.ri.cmu.edu/publications/the-cmu-pose-illumination-and-expression-pie-database-of-human-faces/>_]

  • YouTube Faces DB 该数据集包含 1,595 不同人的 3,425 个视频。所有视频均从 YouTube 下载。每个主体平均有 2.15 个视频: [Link <https://www.cs.tau.ac.il/~wolf/ytfaces/>_]

  • Grammatical Facial Expressions Data Set 开发用于协助面部表情的自动化分析: [Link <https://archive.ics.uci.edu/ml/datasets/Grammatical+Facial+Expressions>_]

  • FaceScrub 一个包含 530 人的超过 100,000 张人脸图像的数据集: [Link <http://vintage.winklerbros.net/facescrub.html>_]

  • IMDB-WIKI 500k+ 带有年龄和性别标签的人脸图像: [Link <https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/>_]

  • FDDB 人脸检测数据集和基准 (FDDB): [Link <http://vis-www.cs.umass.edu/fddb/>_]


物体识别 (Object Recognition)

  • COCO Microsoft COCO: Common Objects in Context: [Link <http://cocodataset.org/#home>_]

  • ImageNet 著名的 ImageNet 数据集: [Link <http://www.image-net.org/>_]

  • Open Images Dataset Open Images 是一个包含约 900 万图像的数据集,已标注图像级标签和物体边界框 (object bounding boxes): [Link <https://storage.googleapis.com/openimages/web/index.html>_]

  • Caltech-256 Object Category Dataset 一个大型物体分类数据集: [Link <https://authors.library.caltech.edu/7694/>_]

  • Pascal VOC dataset 一个用于分类任务的大型数据集: [Link <http://host.robots.ox.ac.uk/pascal/VOC/>_]

  • CIFAR 10 / CIFAR 100 CIFAR-10 数据集由 10 个类别中的 60000 张 32x32 彩色图像组成。CIFAR-100 类似于 CIFAR-10,但它包含 100 个类别,每个类别包含 600 张图像: [Link <https://www.cs.toronto.edu/~kriz/cifar.html>_]


动作识别 (Action recognition)

  • HMDB 一个大型人体运动数据库: [Link <http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/>_]

  • MHAD 伯克利多模态人体动作数据库: [Link <http://tele-immersion.citris-uc.org/berkeley_mhad>_]

  • UCF101 - Action Recognition Data Set UCF101 是一个动作识别数据集,包含从 YouTube 收集的真实动作视频,共有 101 个动作类别。该数据集是拥有 50 个动作类别的 UCF50 数据集的扩展: [Link <http://crcv.ucf.edu/data/UCF101.php>_]

  • THUMOS Dataset 一个用于动作分类的大型数据集: [Link <http://crcv.ucf.edu/data/THUMOS.php>_]

  • ActivityNet 一个用于人类活动理解的大规模视频基准: [Link <http://activity-net.org/>_]

====================================== 文本与自然语言处理 (Text and Natural Language Processing)


通用 (General)

  • 1 Billion Word Language Model (语言模型) Benchmark: 该项目的目的是为语言建模实验提供标准的训练和测试设置: [Link <http://www.statmt.org/lm-benchmark/>_]

  • Common Crawl: Common Crawl 语料库 (Corpus) 包含过去 7 年收集的 PB 级数据。它包含原始网页数据、提取的元数据和文本提取内容: [Link <http://commoncrawl.org/the-data/get-started/>_]

  • Yelp Open Dataset: Yelp 业务、评论和用户数据的子集,用于个人、教育和学术目的: [Link <https://www.yelp.com/dataset>_]


文本分类 (Text classification)

  • 20 newsgroups 20 Newsgroups 数据集是一个包含约 20,000 个新闻组文档的集合,(几乎)均匀地分布在 20 个不同的新闻组中: [Link <http://qwone.com/~jason/20Newsgroups/>_]

  • Broadcast News 1996 年广播新闻语音语料库包含来自 ABC、CNN 和 CSPAN 电视网络以及 NPR 和 PRI 广播网络的总共 104 小时广播及其相应转录: [Link <https://catalog.ldc.upenn.edu/LDC97S44>_]

  • The wikitext 长期依赖语言建模数据集 (The wikitext long term dependency language modeling dataset): 从维基百科经过验证的优良和特色条目集合中提取的超过 1 亿个词元 (tokens) 的集合。: [链接 <https://einstein.ai/research/the-wikitext-long-term-dependency-language-modeling-dataset>_]


问答 (Question Answering)

  • Question Answering Corpus (问答语料库) 由 Deep Mind 和牛津大学提供,包含两个新的语料库 (Corpora),约有 100 万篇新闻故事,以及来自 CNN 和 Daily Mail 网站的相关查询。 [链接 <https://github.com/deepmind/rc-data>_]

  • 斯坦福问答数据集 (Stanford Question Answering Dataset, SQuAD) 由众包工作者 (crowdworkers) 在一组维基百科文章上提出的问题组成: [链接 <https://rajpurkar.github.io/SQuAD-explorer/>_]

  • 亚马逊问答数据 (Amazon question/answer data) 包含来自亚马逊的问答数据,总计约 140 万个已回答的问题: [链接 <http://jmcauley.ucsd.edu/data/amazon/qa/>_]


情感分析 (Sentiment Analysis)

  • 多领域情感数据集 (Multi-Domain Sentiment Dataset) 该多领域情感数据集包含来自 Amazon.com 的许多产品类型(领域)的产品评论: [链接 <http://www.cs.jhu.edu/~mdredze/datasets/sentiment/>_]

  • 斯坦福情感树库数据集 (Stanford Sentiment Treebank Dataset) 斯坦福情感树库是第一个具有完全标记解析树 (parse trees) 的语料库,允许对语言中情感的组合效应进行完整分析: [链接 <https://nlp.stanford.edu/sentiment/>_]

  • 大型电影评论数据集 (Large Movie Review Dataset): 这是一个用于二分类情感分类 (binary sentiment classification) 的数据集: [链接 <http://ai.stanford.edu/~amaas/data/sentiment/>_]


机器翻译 (Machine Translation)

  • 加拿大第 36 届议会对齐汉萨德记录 (Aligned Hansards of the 36th Parliament of Canada) 数据集包含 130 万对对齐的文本块: [链接 <https://www.isi.edu/natural-language/download/hansard/>_]

  • Europarl: 统计机器翻译平行语料库 (Europarl: A Parallel Corpus for Statistical Machine Translation) 数据集提取自欧洲议会的会议记录: [链接 <http://www.statmt.org/europarl/>_]


摘要生成 (Summarization)

  • 法律案例报告数据集 (Legal Case Reports Data Set) 作为包含 4000 个法律案例的文本语料库,用于自动摘要和引用分析。: [链接 <https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports>_]

====================================== 语音技术 (Speech Technology)

  • TIMIT 声学 - 语音连续语音语料库 (TIMIT Acoustic-Phonetic Continuous Speech Corpus) TIMIT 朗读语音语料库旨在为声学 - 语音研究 (acoustic-phonetic studies) 以及自动语音识别系统 (automatic speech recognition systems) 的开发和评估提供语音数据: [链接 <https://catalog.ldc.upenn.edu/ldc93s1>_]

  • LibriSpeech LibriSpeech 是一个约 1000 小时的 16kHz 朗读英语语音语料库,由 Vassil Panayotov 准备,Daniel Povey 协助: [链接 <http://www.openslr.org/12/>_]

  • VoxCeleb 一个大规模视听数据集 (audio-visual dataset): [链接 <http://www.robots.ox.ac.uk/~vgg/data/voxceleb/>_]

  • NIST 说话人识别 (NIST Speaker Recognition): [链接 <https://www.nist.gov/itl/iad/mig/speaker-recognition>_]


课程


.. image:: _img/mainpage/online.png

  • 机器学习 (Machine Learning) 由斯坦福大学在 Coursera 上提供 : [链接 <https://www.coursera.org/learn/machine-learning>_]

  • 神经网络与深度学习 (Neural Networks and Deep Learning) 专项课程由 Coursera 提供: [链接 <https://www.coursera.org/learn/neural-networks-deep-learning>_]

  • 深度学习入门 (Intro to Deep Learning) 由 Google 提供: [链接 <https://www.udacity.com/course/deep-learning--ud730>_]

  • 深度学习导论 (Introduction to Deep Learning) 由 CMU 提供: [链接 <http://deeplearning.cs.cmu.edu/>_]

  • NVIDIA 深度学习研究所 (NVIDIA Deep Learning Institute) 由 NVIDIA 提供: [链接 <https://www.nvidia.com/en-us/deep-learning-ai/education/>_]

  • 视觉识别卷积神经网络 (Convolutional Neural Networks for Visual Recognition) 由斯坦福大学提供: [链接 <http://cs231n.stanford.edu/>_]

  • 自然语言处理深度学习 (Deep Learning for Natural Language Processing) 由斯坦福大学提供: [链接 <http://cs224d.stanford.edu/>_]

  • 深度学习 (Deep Learning) 由 fast.ai 提供: [链接 <http://www.fast.ai/>_]

  • 视觉计算深度学习课程 (Course on Deep Learning for Visual Computing) 由 IITKGP 提供: [链接 <https://www.youtube.com/playlist?list=PLuv3GM6-gsE1Biyakccxb3FAn4wBLyfWf>_]


书籍


.. image:: _img/mainpage/books.jpg

  • 深度学习 (Deep Learning) 作者 Ian Goodfellow: [链接 <http://www.deeplearningbook.org/>_]

  • 神经网络与深度学习 (Neural Networks and Deep Learning) : [链接 <http://neuralnetworksanddeeplearning.com/>_]

  • Python 深度学习 (Deep Learning with Python): [链接 <https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438/ref=as_li_ss_tl?s=books&ie=UTF8&qid=1519989624&sr=1-4&keywords=deep+learning+with+python&linkCode=sl1&tag=trndingcom-20&linkId=ec7663329fdb7ace60f39c762e999683>_]

  • 使用 Scikit-Learn 和 TensorFlow 动手实践机器学习:构建智能系统的概念、工具和技术 (Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems): [链接 <https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291/ref=as_li_ss_tl?ie=UTF8&qid=1519989725&sr=1-2-ent&linkCode=sl1&tag=trndingcom-20&linkId=71938c9398940c7b0a811dc1cfef7cc3>_]


博客


.. image:: _img/mainpage/Blogger_icon.png

  • Colah 的博客 (Colah's blog): [链接 <http://colah.github.io/>_]

  • Andrej Karpathy 博客 (Andrej Karpathy blog): [链接 <http://karpathy.github.io/>_]

  • The Spectator Shakir 的机器学习博客: [链接 <http://blog.shakirm.com/>_]

  • WILDML: [链接 <http://www.wildml.com/about/>_]

  • Distill 博客 (Distill blog) 它更像是一本期刊而不是博客,因为它有同行评审流程 (peer review process),只有接受的文章才会发布在上面。: [链接 <https://distill.pub/>_]

  • BAIR 伯克利人工智能研究 (Berkeley Artificial Intelligent Research): [链接 <http://bair.berkeley.edu/blog/>_]

  • Sebastian Ruder 的博客 (Sebastian Ruder's blog): [链接 <http://ruder.io/>_]

  • inFERENCe: [链接 <https://www.inference.vc/page/2/>_]

  • i am trask 一个机器学习工艺博客 (A Machine Learning Craftsmanship Blog): [链接 <http://iamtrask.github.io>_]


教程


.. image:: _img/mainpage/tutorial.png

  • 深度学习教程 (Deep Learning Tutorials): [链接 <http://deeplearning.net/tutorial/>_]

  • 使用 Pytorch 进行自然语言处理深度学习 (Deep Learning for NLP with Pytorch) 由 Pytorch 提供: [链接 <https://pytorch.org/tutorials/beginner/deep_learning_nlp_tutorial.html>_]

  • 自然语言处理深度学习:使用 Jupyter Notebooks 的教程 (Deep Learning for Natural Language Processing: Tutorials with Jupyter Notebooks) 作者 Jon Krohn: [链接 <https://insights.untapt.com/deep-learning-for-natural-language-processing-tutorials-with-jupyter-notebooks-ad67f336ce3f>_]


框架 (Frameworks)


  • Tensorflow: [链接 <https://www.tensorflow.org/>_]

  • Pytorch: [链接 <https://pytorch.org/>_]

  • CNTK: [链接 <https://docs.microsoft.com/en-us/cognitive-toolkit/>_]

  • MatConvNet: [链接 <http://www.vlfeat.org/matconvnet/>_]

  • Keras: [链接 <https://keras.io/>_]

  • Caffe: [链接 <http://caffe.berkeleyvision.org/>_]

  • Theano: [链接 <http://www.deeplearning.net/software/theano/>_]

  • CuDNN: [链接 <https://developer.nvidia.com/cudnn>_]

  • Torch: [链接 <https://github.com/torch/torch7>_]

  • Deeplearning4j: [链接 <https://deeplearning4j.org/>]


贡献


对于拼写错误,除非涉及重大更改,否则请不要创建 Pull Request(拉取请求)。相反,请在 Issues(问题)中声明或通过电子邮件联系 Repository(仓库)所有者。请注意,我们有一份 Code of Conduct(行为准则),请在与项目的所有互动中遵守它。

======================== Pull Request(拉取请求)流程

请考虑以下标准,以便更好地帮助我们:

  1. Pull Request 主要期望是链接建议。
  2. 请确保您建议的资源没有过时或失效。
  3. 在进行构建和创建 Pull Request 时,确保在该层结束前移除任何安装或构建依赖项。
  4. 添加注释详细说明接口的更改,这包括新的 Environment Variables(环境变量)、暴露的 Ports(端口)、有用的文件位置和 Container Parameters(容器参数)。
  5. 一旦获得至少一名其他开发人员的签字确认,您可以合并 Pull Request;如果您没有权限这样做,如果您认为所有检查都已通过,可以请求所有者为您合并。

======================== 最后说明

我们期待您的宝贵反馈。请帮助我们改进这个开源项目,让我们的工作变得更好。 对于贡献,请创建 Pull Request,我们将迅速进行调查。再次感谢您的宝贵反馈和支持。

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架