awesome-deep-learning

27.9k 6.3k 非常简单 1 次阅读今天开发框架图像

AI 解读由 AI 自动生成，仅供参考

awesome-deep-learning 是一份精心整理的深度学习资源清单，旨在为学习者与从业者提供一站式的知识导航。面对深度学习领域海量且分散的教程、论文、框架及数据集，用户往往难以快速筛选出高质量内容，而这份清单有效解决了信息过载与检索困难的问题。

它系统地涵盖了从入门到精通的全方位资料，包括经典书籍（如 Yoshua Bengio 的《Deep Learning》）、名校课程（如吴恩达的机器学习课）、前沿论文、视频教程、主流开发框架以及关键数据集等。其独特亮点在于“精选”机制，由社区共同维护，确保收录内容的权威性与时效性，并细分为书籍、课程、工具、会议等十余个类别，结构清晰，便于按需查找。

无论是刚踏入 AI 领域的学生、需要追踪最新进展的研究人员，还是致力于模型落地的开发者，都能从中找到适合自己的学习路径或参考项目。设计师若希望了解技术边界以辅助创作，亦可在此获取灵感。awesome-deep-learning 不直接提供代码运行环境，而是作为一份可靠的“地图”，帮助用户高效构建知识体系，避免在繁杂的信息海洋中迷失方向，是深度学习爱好者不可或缺的案头指南。

使用场景

某初创公司的算法工程师小李需要在两周内为医疗影像项目搭建原型，但他对深度学习领域尚不熟悉，面临技术选型和资源筛选的巨大压力。

没有 awesome-deep-learning 时

资源检索低效：在谷歌和 GitHub 上盲目搜索"Deep Learning tutorial"，被大量过时教程、营销文章和低星项目淹没，难以辨别质量。
学习路径混乱：面对碎片化的博客和零散视频，无法构建从基础理论（如反向传播）到前沿架构（如 Transformer）的系统化知识体系。
框架选型困难：不清楚 TensorFlow、PyTorch 或 JAX 各自的生态优势及适用场景，容易选错工具导致后期重构成本高昂。
数据获取受阻：花费数天时间寻找合适的医疗影像公开数据集，却因缺乏权威索引而只能找到格式混乱或标注缺失的数据。
社区连接断裂：错过相关的顶级会议（如 CVPR、NeurIPS）和核心研究者动态，导致技术方案闭门造车，缺乏行业视野。

使用 awesome-deep-learning 后

精准获取高质资源：直接访问 curated 列表，一键获取由社区验证的经典书籍（如《Deep Learning》花书）和高星实战项目，节省 80% 的筛选时间。
构建系统学习路线：依据分类清晰的课程和视频板块，快速制定从吴恩达基础课到专项进阶的学习计划，知识吸收效率显著提升。
科学决策技术栈：参考框架与工具章节的详细对比，结合项目需求迅速锁定 PyTorch 作为开发底座，避免了试错成本。
快速定位标准数据：通过数据集专区直接找到经过清洗和标注的医疗影像库，当天即可启动模型训练流程。
同步前沿动态：紧跟列表中推荐的顶尖学者和会议资讯，及时引入最新的正则化技术和优化策略，提升模型竞争力。

awesome-deep-learning 将原本需要数周的信息搜集与甄别工作压缩至几小时，让开发者能专注于核心算法创新而非资源大海捞针。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（awesome-deep-learning）是一个深度学习资源的精选列表（包含书籍、课程、视频、论文等链接），本身不是一个可执行的软件工具或框架，因此没有特定的操作系统、硬件配置、Python 版本或依赖库要求。用户可根据列表中推荐的具体框架（如 TensorFlow, PyTorch 等）单独查阅其运行环境需求。

python未说明

快速开始

# 令人惊叹的深度学习

《深度学习》（Deep Learning）由Yoshua Bengio、Ian Goodfellow和Aaron Courville编写（2015年7月5日）
《神经网络与深度学习》（Neural Networks and Deep Learning）由Michael Nielsen编写（2014年12月）
《深度学习》（Deep Learning）由微软研究院编写（2013年）
《深度学习教程》（Deep Learning Tutorial）由蒙特利尔大学LISA实验室编写（2015年1月6日）
neuraltalk由Andrej Karpathy开发：基于numpy的RNN/LSTM实现
《遗传算法导论》（An introduction to genetic algorithms）（http://www.boente.eti.br/fuzzy/ebook-fuzzy-mitchell.pdf）
《人工智能：一种现代方法》（Artificial Intelligence: A Modern Approach）（http://aima.cs.berkeley.edu/）
《神经网络中的深度学习：概述》（Deep Learning in Neural Networks: An Overview）（http://arxiv.org/pdf/1404.7828v4.pdf）
《人工智能与机器学习：按主题解释》（Artificial intelligence and machine learning: Topic wise explanation）（https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/）
《掌握计算机视觉中的深度学习》（Grokking Deep Learning for Computer Vision）（https://www.manning.com/books/grokking-deep-learning-for-computer-vision）
《深入深度学习》（Dive into Deep Learning）——一本基于numpy的交互式深度学习书籍（https://d2l.ai/）
《面向云、移动和边缘设备的实用深度学习》（Practical Deep Learning for Cloud, Mobile, and Edge）（https://www.oreilly.com/library/view/practical-deep-learning/9781492034858/）——一本关于生产环境中优化技术的书籍。
《深度学习的数学与架构》（Math and Architectures of Deep Learning）由Krishnendu Chaudhury编写（https://www.manning.com/books/math-and-architectures-of-deep-learning）
《TensorFlow 2.0实战》（Tensorflow 2.0 in Action）由Thushan Ganegedara编写（https://www.manning.com/books/tensorflow-in-action）
《自然语言处理中的深度学习》（Deep Learning for Natural Language Processing）由Stephan Raaijmakers编写（https://www.manning.com/books/deep-learning-for-natural-language-processing）
《深度学习模式与实践》（Deep Learning Patterns and Practices）由Andrew Ferlitsch编写（https://www.manning.com/books/deep-learning-patterns-and-practices）
《深度学习内幕》（Inside Deep Learning）由Edward Raff编写（https://www.manning.com/books/inside-deep-learning）
《用Python进行深度学习（第二版）》（Deep Learning with Python, Second Edition）由François Chollet编写（https://www.manning.com/books/deep-learning-with-python-second-edition）
《进化式深度学习》（Evolutionary Deep Learning）由Micheal Lanham编写（https://www.manning.com/books/evolutionary-deep-learning）
《深度学习平台工程》（Engineering Deep Learning Platforms）由Chi Wang和Donald Szeto编写（https://www.manning.com/books/engineering-deep-learning-platforms）
《用R进行深度学习（第二版）》（Deep Learning with R, Second Edition）由François Chollet联合Tomasz Kalinowski和J. J. Allaire编写（https://www.manning.com/books/deep-learning-with-r-second-edition）
《深度学习中的正则化》（Regularization in Deep Learning）由Liu Peng编写（https://www.manning.com/books/regularization-in-deep-learning）
《Jax实战》（Jax in Action）由Grigory Sapunov编写（https://www.manning.com/books/jax-in-action）
《动手学机器学习：使用Scikit-Learn、Keras和TensorFlow》（Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow）由Aurélien Géron编写 | 2019年10月15日

课程

机器学习 - 斯坦福大学安德鲁·吴在Coursera上开设（2010-2014）
机器学习 - 加州理工学院亚塞尔·阿布-穆斯塔法主讲（2012-2014）
机器学习 - 卡内基梅隆大学汤姆·米切尔主讲（2011年春季）
机器学习中的神经网络杰弗里·辛顿在Coursera上开设（2012）
神经网络课程雪尔布鲁克大学的于戈·拉罗谢尔主讲（2013）
深度学习课程纽约大学CILVR实验室开设（2014）
人工智能 - 伯克利大学丹·克莱因和皮特·阿贝尔主讲（2013）
人工智能 - MIT 帕特里克·亨利·温斯顿主讲（2010）
视觉与学习：计算机与大脑施蒙·乌尔曼、托马索·波吉奥、伊森·梅耶斯等在MIT主讲（2013）
用于视觉识别的卷积神经网络 - 斯坦福大学菲菲·李、安德烈·卡帕西主讲（2017）
自然语言处理的深度学习 - 斯坦福大学
神经网络 - 雪尔布鲁克大学
机器学习 - 牛津大学（2014-2015）
深度学习 - NVIDIA （2015）
研究生暑期学校：深度学习、特征学习杰弗里·辛顿、约书亚·本吉奥、扬·勒丘恩、安德鲁·吴、南多·德·弗雷塔斯等在IPAM、UCLA举办（2012）
深度学习 - Udacity/谷歌文森特·范霍克和阿尔潘·查克拉博蒂主讲（2016）
深度学习 - 滑铁卢大学阿里·戈德西教授主讲（2015）
统计机器学习 - 卡内基梅隆大学劳里·瓦瑟曼教授主讲
深度学习课程扬·勒丘恩主讲（2016）
设计、可视化与理解深度神经网络 - 伯克利大学
UVA深度学习课程阿姆斯特丹大学的人工智能硕士课程。
MIT 6.S094：自动驾驶汽车的深度学习
MIT 6.S191：深度学习导论
伯克利CS 294：深度强化学习
Keras in Motion视频课程
面向编码者的实用深度学习杰里米·霍华德 - Fast.ai
深度学习导论比克沙·拉杰教授主讲（2017）
AI for Everyone 安德鲁·吴主讲（2019）
MIT深度学习入门7天训练营 - MIT设计的为期七天的训练营，旨在介绍深度学习的方法和应用（2019）
Deep Blueberry：深度学习 - 一个免费的五周末计划，帮助自学者学习CNN、LSTM、RNN、VAE、GAN、DQN、A3C等深度学习架构的基础知识（2019）
Spinning Up in Deep Reinforcement Learning - OpenAI提供的免费深度强化学习课程（2019）
深度学习专项课程 - Coursera - 由安德鲁·吴提供的最佳课程，助你进入AI领域。
深度学习 - UC伯克利 | STAT-157 由亚历克斯·斯莫拉和穆·李主讲（2019）
面向普通人的机器学习视频课程尼克·切斯主讲
TensorFlow API的机器学习速成课 - Google AI
从基础开始的深度学习杰里米·霍华德 - Fast.ai
深度强化学习（纳米学位） - Udacity 一项持续3至6个月的Udacity纳米学位课程，涵盖多门课程（2018）
深入理解运动中的深度学习由博·卡恩斯主讲（2018）
使用计算机视觉和深度学习进行人脸检测由哈坎·切贝奇主讲
Classpert上的深度学习在线课程列表 Classpert在线课程搜索提供的深度学习在线课程列表（部分免费）
AWS机器学习亚马逊机器学习大学提供的机器学习和深度学习课程
PyTorch深度学习导论 - Udacity和Facebook AI联合推出的优秀深度学习入门课程
Kaggle的深度学习课程 - Kaggle提供的免费深度学习课程
扬·勒丘恩在CDS的深度学习课程 - DS-GA 1008 · 2021年春季
神经网络与深度学习 - COMP9444 19T3
深度学习 A.I.Shelf

视频与讲座

如何创造思维雷·库兹韦尔著
深度学习、自监督学习与无监督特征学习吴恩达著
深度学习的最新进展杰弗里·辛顿著
深度学习的不可思议有效性扬·勒丘恩著
表示的深度学习约书亚·本吉奥著
层次时序记忆的原理杰夫·霍金斯葳
机器学习讨论组——斯坦福人工智能实验室的深度学习亚当·科茨著
用深度学习理解世界亚当·科茨著
揭秘无监督特征学习亚当·科茨著
深度学习与视觉感知扬·勒丘恩著
下一代神经网络杰弗里·辛顿在 GoogleTechTalks 上发表
能够学习的计算机所带来的奇妙而恐怖的影响杰里米·霍华德在 TEDxBrussels 上发表
斯坦福大学的无监督深度学习吴恩达在斯坦福大学（2011年）讲授
自然语言处理克里斯·曼宁在斯坦福大学教授
深度神经网络入门指南娜塔莉·哈梅尔和洛林·尤尔尚斯基著
深度学习：来自大数据的智能史蒂夫·朱维特森（及专家组）在斯坦福大学 VLAB 发表
人工神经网络与深度学习导论利奥·伊西克多甘在摩托罗拉移动总部发表
NIPS 2016 讲座与研讨会视频 — NIPS 2016
深度学习速成班：利奥·伊西克多甘在 YouTube 上推出的一系列迷你讲座（2018年）
深度学习速成班奥利弗·蔡格曼著
R语言中的深度学习实战：这是一门直播课程，教授如何使用强大的 Keras 库及其 R 语言接口，将深度学习应用于文本和图像。
医学影像深度学习教程：本教程以研究生级别的医学影像深度学习讲座形式呈现。内容涵盖胸部 X 光片和组织学等热门医学影像领域的背景知识，以及处理多模态/多视角、分割和计数任务的方法。
DeepMind x UCL 深度学习：2020年版本
DeepMind x UCL 强化学习：深度强化学习
卡内基梅隆大学 11-785 深度学习导论 2020年春季课程：11-785，深度学习导论，由 Bhiksha Raj 主讲
机器学习 CS 229：后半部分聚焦深度学习，由吴恩达主讲
安德鲁·费尔利奇谈神经结构化学习
安德鲁·费尔利奇谈深度学习设计模式
现代 CNN 的架构：基于设计模式的方法，由安德鲁·费尔利奇讲解
安德鲁·费尔利奇谈 CNN 中的超参数
多任务 CNN：安德鲁·费尔利奇提供的一个实际案例
路易斯·塞拉诺对深度强化学习的友好介绍
[什么是 GAN？它们是如何工作的？] 由爱德华·拉夫讲解（https://youtu.be/f6ivp84qFUc）
爱德华·拉夫用 PyTorch 编写一个基础 WGAN
米格尔·莫拉莱斯训练强化学习智能体
了解什么是深度学习

论文

你也可以从这里找到被引用最多的深度学习论文

教程

研究人员

网站

数据集

MNIST 手写数字数据集
Google 房屋号码数据集，来自街景视图
CIFAR-10 和 CIFAR-100
IMAGENET
Tiny Images 8000万张小图像
Flickr 数据 1亿张雅虎数据集
伯克利分割数据集 500
UC Irvine 机器学习仓库
Flickr 8k
Flickr 30k
微软 COCO
VQA
图像问答
AT&T 剑桥实验室人脸数据库
AVHRR Pathfinder
航空货运 - 航空货运数据集是一系列基于纹理特征的真实分割标注的光线追踪图像序列。（455张图像+GT，每张160x120像素）（格式：PNG）
阿姆斯特丹物体图像库 - ALOI 是一个包含一千个小物体的彩色图像集合，专为科学研究目的而采集。为了捕捉物体成像中的感官变化，我们系统地改变了每个物体的视角、光照角度和光照颜色，并额外采集了宽基线立体图像。每个物体记录了超过一百张图像，整个数据集共包含110,250张图像。（格式：png）
带标注的人脸、手部、心脏及肉类图像 - 大多数图像及其标注都通过AAM-API进行了各种ASM/AAM分析补充。（格式：bmp,asf）
图像分析与计算机图形学
布朗大学刺激材料 - 包括几何体、物体和“格里布尔”等多种数据集。非常适合测试识别算法。（格式：pict）
CAVIAR 商场和公共场所行为视频序列 - 90个序列中包含9万个不同人类活动的视频帧，并配有XML格式的检测与行为分类真值标注。（格式：MPEG2 & JPEG）
机器视觉单元
CCITT 传真标准图像 - 8张图像（格式：gif）
CMU CIL 的带有真值的立体数据 - 3组各11张图像，包括带有光谱辐射测量的彩色TIFF图像。（格式：gif, tiff）
CMU PIE 数据库 - 一个包含68人41,368张人脸图像的数据库，涵盖了13种姿态、43种光照条件以及4种不同表情。
CMU VASC 图像数据库 - 图像、序列、立体对（数千张图像）（格式：Sun Rasterimage）
加州理工学院图像数据库 - 约20张图像，多为小型物体和玩具的俯视图。（格式：GIF）
哥伦比亚-乌得勒支反射率和纹理数据库 - 对60多种3D纹理样本进行反射率和纹理测量，观察了200多种不同的视角和光照组合。（格式：bmp）
计算色彩恒常性数据 - 该数据集主要面向计算色彩恒常性研究，但也适用于一般的计算机视觉任务。包含合成数据、相机传感器数据以及700多张图像。（格式：tiff）
计算视觉实验室
基于内容的图像检索数据库 - 11组用于测试基于内容检索算法的彩色图像。大多数数据集附有描述文件，列出每张图像中的对象名称。（格式：jpg）
高效内容检索小组
密集采样的视球 - 密集采样的视球——两个玩具物体的上半球视域，每个包含2500张图像。（格式：tiff）
计算机科学第七系（图形系统）
数字胚胎 - 数字胚胎是可用于开发和测试物体识别系统的新型对象。它们具有有机外观。（格式：可根据需求提供多种格式）
明尼苏达大学视觉实验室
萨尔瓦多胃肠内镜视频图谱 - 来自胃肠内镜检查的图像和视频。（格式：jpg, mpg, gif）
FG-NET 面部老化数据库 - 数据库包含1002张展示受试者不同年龄阶段的脸部图像。（格式：jpg）
FVC2000 指纹数据库 - FVC2000是首次国际指纹验证算法竞赛。四个指纹数据库构成了FVC2000基准测试集（共计3520枚指纹）。
生物识别系统实验室 - 博洛尼亚大学
面部和手势图像及序列 - 几个经过真值标注的面部和手势图像数据集，用于基准测试
德国指拼法数据库 - 该数据库包含35种手势，由1400个图像序列组成，记录了20位不同人士在非均匀日光照明条件下的手势动作。（格式：mpg,jpg）
语言处理与模式识别
格罗宁根自然图像数据库 - 4000多张1536x1024（16位）校准过的户外图像（格式：自制）
ICG 测试台序列 - 两个不同高度的转盘序列，每组36张图像，分辨率为1000x750，彩色（格式：PPM）
计算机图形与视觉研究所
IEN 图像库 - 1000多张图像，多为户外序列（格式：raw, ppm）
INRIA 的 Syntim 图像数据库 - 15张简单物体的彩色图像（格式：gif）
INRIA
INRIA 的 Syntim 立体数据库 - 34对校准过的彩色立体图像（格式：gif）
图像分析实验室 - 从多种成像方式获取的图像——原始CFA图像、距离图像以及大量“医学图像”。（格式：自制）
图像分析实验室
图像数据库 - 一个包含部分纹理的图像数据库
JAFFE 面部表情图像数据库 - JAFFE数据库包含213张日本女性受试者的照片，展示了6种基本面部表情以及中性表情。此外，还免费提供了用于研究的情感形容词评分。（格式：灰度TIFF图像）
ATR 研究所，京都，日本
JISCT 立体评估 - 44对图像。这些数据曾被用于立体分析评估，正如1993年4月ARPA图像理解研讨会论文《JISCT立体评估》中所述，作者为R.C.Bolles、H.H.Baker和M.J.Hannah，第263–274页（格式：SSI）
MIT 视觉纹理 - 图像档案（100多张图像）（格式：ppm）
MIT 人脸图像等 - 数百张图像（格式：自制）
机器视觉 - 来自Jain、Kasturi、Schunck教科书中的图像（20多张图像）（格式：GIF TIFF）
乳腺X线图像数据库 - 100多张带有真值的乳腺X线图像。还可根据请求提供其他图像，并附有多个其他乳腺X线数据库的链接。（格式：自制）
ftp://ftp.cps.msu.edu/pub/prip - 许多图像（格式：未知）
米德尔伯里立体数据集及真值 - 六个包含平面区域的多帧立体数据集。每个数据集包含9张彩色图像以及亚像素精度的真值数据。（格式：ppm）
米德尔伯里立体视觉研究页面 - 米德尔伯里学院
Modis 机载模拟器、画廊和数据集 - 来自世界各地的高空影像，用于支持NASA EOS计划的环境建模（格式：JPG和HDF）
NIST 指纹和手写数据 - 数据集，包含数千张图像（格式：未知）
NIST 指纹数据 - 压缩后的多部分uu编码tar文件
NLM 可视化人体项目 - 彩色、CAT和MRI图像样本——超过30张图像（格式：jpeg）
国家设计资源库 - 超过55,000个以机械/加工工程设计为主的3D CAD和实体模型。（格式：gif,vrml,wrl,stp,sat）
几何与智能计算实验室
OSU (MSU) 3D 物体模型数据库 - 多年来收集的几组3D物体模型，用于物体识别研究（格式：自制、vrml）
OSU (MSU/WSU) 距离图像数据库 - 数百张真实和合成图像（格式：gif、自制）
OSU/SAMPL 数据库：距离图像、3D模型、静止图像和运动序列 - 超过1000张距离图像、3D物体模型、静止图像和运动序列（格式：gif、ppm、vrml、自制）
信号分析和机器感知实验室
奥塔哥光学流评估序列 - 合成和真实的序列，配有机器可读的光学流真值场，以及生成新序列真值的工具。（格式：ppm,tif、自制）
视觉研究小组
ftp://ftp.limsi.fr/pub/quenot/opflow/testdata/piv/ - 用于测试粒子图像测速仪应用的真实和合成图像序列。这些图像也可用于光学流和图像匹配算法的测试。（格式：pgm（原始））
LIMSI-CNRS/CHM/IMM/视觉
LIMSI-CNRS
光度法三维表面纹理数据库 - 这是首个同时提供完整真实表面旋转和注册光度立体数据的三维纹理数据库（30种纹理，1680张图像）。（格式：TIFF）
用于光学流分析的序列（SOFA） - 9个专为测试运动分析应用而设计的合成序列，包含完整的运动和相机参数真值。（格式：gif）
计算机视觉小组
用于基于流重建的序列 - 用于测试基于运动结构算法的合成序列（格式：pgm）
带有真值差异和遮挡信息的立体图像 - 一小批走廊场景的合成图像，添加了不同水平的噪声。使用这些图像来评估你的立体算法。（格式：原始、viff（khoros）或tiff）
斯图加特距离图像数据库 - 一系列从网络上可用的高分辨率多边形模型中提取的合成距离图像（格式：自制）
图像理解部门
AR 人脸数据库 - 包含超过4,000张对应于126个人脸的彩色图像（70名男性和56名女性）。正面视图，伴有不同表情、光照和遮挡情况。（格式：RAW（RGB 24位））
普渡大学机器人视觉实验室
MIT-CSAIL 物体和场景数据库 - 用于测试多类物体检测和场景识别算法的数据库。超过72,000张图像，其中2,873帧已标注。超过50个已标注的对象类别。（格式：jpg）
RVL SPEC-DB（光泽度数据库） - 收集了300多张100个物体在三种不同光照条件下拍摄的真实图像（漫射/环境/定向）。-- 使用这些图像来测试检测和补偿彩色图像中高光效果的算法。（格式：TIFF）
机器人视觉实验室
XM2VTS 数据库 - XM2VTSDB包含四次为期四个月的295人的数字录制。该数据库同时包含面部的图像和视频数据。
视觉、语音和信号处理中心
交通图像序列和‘大理石块’序列 - 数千帧数字化的交通图像序列以及‘大理石块’序列（灰度图像）（格式：GIF）
IAKS/KOGS
伯尔尼大学人脸图像 - 数百张图像（格式：Sun栅格文件）
密歇根大学纹理（格式：压缩的原始数据）
奥卢大学木材和节疤数据库 - 包括分类信息——1000多张彩色图像（格式：ppm）
UCID - 未压缩彩色图像数据库 - 一个用于图像检索的基准数据库，具有预定义的真值。（格式：tiff）
马萨诸塞大学视觉图像档案 - 大型图像数据库，包含航拍、太空、立体、医学等图像。（格式：自制）
UNC 的3D图像数据库 - 许多图像（格式：GIF）
USF 距离图像数据及分割真值 - 80组图像（格式：Sun栅格图像）
奥卢大学基于物理的脸部数据库 - 包含在不同光源和相机校准条件下拍摄的彩色脸部图像，以及每个人的皮肤光谱反射率测量。
机器视觉与媒体处理单元
奥卢大学纹理数据库 - 一个包含320种表面纹理的数据库，每种纹理都在三种光源、六种空间分辨率和九种旋转角度下采集。还提供了一套测试套件，以便以标准化方式测试纹理分割、分类和检索算法。（格式：bmp, ras, xv）
机器视觉小组
Usenix 脸部数据库 - 来自多个不同来源的数千张脸部图像（约994张）
视球数据库 - 8个物体从多个不同视角拍摄的图像。视球采用测地线方法采样，每球172张图像。提供两组用于训练和测试的数据。（格式：ppm）
PRIMA，GRAVIR
Vision-list 图像档案 - 许多图像，多种格式
Wiry 物体识别数据库 - 数千张购物车、梯子、凳子、自行车、椅子以及杂乱场景的图像，附有边缘和区域的真值标签。（格式：jpg）
3D视觉小组
耶鲁人脸数据库 - 165张图像（15位个体），具有不同的光照、表情和遮挡配置。
耶鲁人脸数据库B - 5760张单光源图像，每张图像代表10位受试者，在576种观看条件下拍摄（9种姿势×64种光照条件）。（格式：PGM）
计算视觉与控制中心
DeepMind QA 语料库 - 来自CNN和DailyMail的文本问答语料库。总共超过30万份文档。论文可供参考。
YouTube-8M 数据集 - YouTube-8M是一个大规模的标注视频数据集，包含800万个YouTube视频ID及其关联的标签，涵盖4800种视觉实体的多样化词汇。
Open Images 数据集 - Open Images是一个包含约900万个已标注图像URL的数据集，标签覆盖超过6000个类别。
2012年视觉目标类别挑战赛（VOC2012） - VOC2012数据集包含12,000张图像，标注了20个用于物体检测和分割的类别。
Fashion-MNIST - 类似MNIST的时尚产品数据集，包含60,000个训练样本和10,000个测试样本。每个样本都是28x28的灰度图像，与10个类别的标签相关联。
大规模时尚（DeepFashion）数据库 - 包含超过80万张多样化的时尚图像。该数据集中每张图像都标注了50个类别、1,000个描述性属性、边界框以及服装关键点。
FakeNewsCorpus - 包含约1000万篇新闻文章，按照opensources.co的类型进行分类。
LLVIP - 15,488张可见光-红外配对图像（共30,976张），用于低光视觉研究，项目页面。
MSDA - 超过500万张来自5个不同领域的图像，用于多源OCR/文本识别DA研究，项目页面。
SANAD：用于自动文本分类的单标签阿拉伯语新闻文章数据集 - SANAD数据集是一个大型的阿拉伯语新闻文章集合，可用于多种阿拉伯语NLP任务，如文本分类和词嵌入。这些文章是通过专门编写的Python脚本从三个热门新闻网站——AlKhaleej、AlArabiya和Akhbarona——收集而来的。
Referit3D - 两个大规模且互补的视听语言数据集（即Nr3D和Sr3D），用于在ScanNet场景中识别细粒度的3D物体。Nr3D包含41.5万条自然、自由形式的语句，而Sr3D则包含83.5万条基于模板的语句。
SQuAD - 斯坦福大学发布了约10万对英语问答以及约5万道无法回答的问题。
FQuAD - Illuin Technology发布了约2.5万对法语问答。
GermanQuAD和GermanDPR - deepset发布了约1.4万对德语问答。
SberQuAD - Sberbank发布了约9万对俄语问答。
ArtEmis - 包含45万条情感反应的注释以及针对8万件WikiArt作品的语言解释。

会议

框架

工具

Nebullvm - 易于使用的库，利用多种深度学习编译器加速深度学习推理。
Netron - 深度学习和机器学习模型的可视化工具
Jupyter Notebook - 基于网页的交互式计算笔记本环境
TensorBoard - TensorFlow 的可视化工具包
Visual Studio Tools for AI - 用于开发、调试和部署深度学习及人工智能解决方案
TensorWatch - 针对深度学习的调试与可视化工具
ML Workspace - 面向机器学习和数据科学的一体化Web IDE。
dowel - 一款用于机器学习研究的小型日志记录工具。只需调用一次 logger.log()，即可将任意对象记录到控制台、CSV文件、TensorBoard、文本日志文件等多种输出中。
Neptune - 轻量级的实验跟踪与结果可视化工具。
CatalyzeX - 浏览器扩展程序（适用于Chrome 和 Firefox），可自动查找并链接在线上任何地方（如Google、Twitter、Arxiv、Scholar等）发布的机器学习论文的代码实现。
Determined - 深度学习训练平台，集成支持分布式训练、超参数调优、智能GPU调度、实验跟踪以及模型注册表等功能。
DAGsHub - 开源机器学习社区平台——轻松管理实验、数据与模型，并创建协作式机器学习项目。
hub - activeloop.ai 提供的面向 TensorFlow/PyTorch 的最快非结构化数据集管理工具。支持数据流式传输与版本控制。可在云端将大规模数据转换为类似 NumPy 的单一数组，从而在任何设备上均可访问。
DVC - DVC 的设计目标是使机器学习模型易于共享和复现。它专为处理大型文件、数据集、机器学习模型、指标以及代码而打造。
CML - CML 可帮助您将常用的 DevOps 工具引入机器学习工作流程。
MLEM - MLEM 是一款用于轻松打包、部署和提供机器学习模型服务的工具。它无缝支持实时推理和批量处理等多种场景。
Maxim AI - 用于AI智能体仿真、评估与可观性分析的工具。

杂项

Caffe 网络研讨会
GitHub 上深度学习领域的 100 个最佳资源
Word2Vec
Caffe Dockerfile
TorontoDeepLEarning 卷积神经网络
gfx.js
Torch7 备忘录
麻省理工学院“高级自然语言处理”课程的相关资料
麻省理工学院“机器学习”课程的相关资料
麻省理工学院“用于学习的网络：回归与分类”课程的相关资料
麻省理工学院“神经编码与声音感知”课程的相关资料
在 Spark 上实现分布式深度学习网络
使用深度学习学会下棋的国际象棋 AI
复现 DeepMind 的论文《使用深度强化学习玩 Atari 游戏》的结果
Wiki2Vec。从 Wikipedia 数据库中获取实体和单词的 Word2vec 向量
DeepMind 论文中的原始代码 + 一些改进
Google deepdream - 神经网络艺术
高效的批量 LSTM
设计用于生成古典音乐的循环神经网络
Facebook 的记忆网络实现
使用 Google 的 FaceNet 深度神经网络进行人脸识别
基础数字识别神经网络
微软的情感识别 API 演示
在 TensorFlow 中加载 Caffe 模型的概念验证
YOLO：实时目标检测
YOLO：使用 Python 的实用实现
AlphaGo - 复现 DeepMind 2016 年发表于 Nature 的论文《利用深度神经网络和树搜索掌握围棋》
面向软件工程师的机器学习
机器学习很有趣！
Siraj Raval 的深度学习教程
Dockerface - 在 Docker 容器中轻松安装和使用的深度学习 Faster R-CNN 人脸检测工具，适用于图像和视频。
超赞的深度学习音乐资源 - 精选的关于将深度学习科学研究应用于音乐的文章列表
超赞的图嵌入资源 - 精选的关于在图级别上对图结构数据进行深度学习科学研究的文章列表
超赞的网络嵌入资源 - 精选的关于在节点级别上对图结构数据进行深度学习科学研究的文章列表
微软推荐系统包含构建推荐系统的示例、工具和最佳实践。提供了几种最先进的算法实现，可供自学并在自己的应用中定制。
循环神经网络的不可思议效果 - Andrej Karpathy 关于使用 RNN 生成文本的博客文章
梯子网络 - Keras 实现的半监督学习用梯子网络
toolbox：精选的机器学习库列表
CNN 解释器
人工智能专家路线图 - 成为人工智能专家的路线图
超赞的药物相互作用、协同效应及多药联用预测资源

贡献

您是否想到任何很棒的内容，认为适合加入此列表？欢迎随时提交 pull request。

许可证

在法律允许的最大范围内，Christos Christofidis 已放弃本作品的所有版权及相关或邻接权利。

Awesome Deep Learning 快速上手指南

awesome-deep-learning 并非一个可安装的软件库或框架，而是一个由社区维护的深度学习资源精选列表。它汇集了书籍、课程、论文、教程、数据集和框架等高质量学习材料。因此，本指南旨在指导开发者如何利用该列表构建学习环境并开始学习。

环境准备

由于该列表涵盖多种技术栈（如 TensorFlow, PyTorch, Keras, JAX 等），建议根据你选择的具体学习路径准备基础环境。以下是通用的推荐配置：

操作系统: Windows 10/11, macOS, 或 Linux (Ubuntu 20.04+ 推荐)
编程语言: Python 3.8 - 3.10 (大多数深度学习资源基于此版本)
硬件要求:
- CPU: 多核处理器
- GPU: 推荐使用 NVIDIA GPU (显存 8GB+) 以加速模型训练，需安装对应的 CUDA Toolkit 和 cuDNN。
- 注：入门阶段可使用 Google Colab 或 Kaggle Kernels 免费使用云端 GPU，无需本地硬件。
前置依赖:
- Git (用于克隆仓库或管理代码)
- Package Manager (pip 或 conda)

安装步骤

你不需要“安装”这个列表本身，而是需要获取它并安装列表中推荐的工具。

1. 获取资源列表

通过 Git 克隆仓库到本地，以便随时查阅更新：

git clone https://github.com/ChristosChristofidis/awesome-deep-learning.git
cd awesome-deep-learning

国内加速方案: 如果访问 GitHub 较慢，可使用 Gitee 镜像（如有）或配置代理。

2. 搭建基础深度学习环境

根据列表中热门的框架（如 PyTorch 或 TensorFlow），推荐使用 conda 创建隔离环境。

使用 Conda 创建环境 (推荐):

# 创建名为 dl-env 的环境，指定 Python 版本
conda create -n dl-env python=3.9 -y

# 激活环境
conda activate dl-env

# 安装基础科学计算包
conda install numpy pandas matplotlib jupyter -y

安装主流框架 (二选一):

选项 A: PyTorch (源自 Facebook AI)

# 访问 pytorch.org 获取最新命令，以下为 CPU 版本示例
pip install torch torchvision torchaudio

国内镜像加速:

pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

选项 B: TensorFlow (源自 Google)

pip install tensorflow

国内镜像加速:

pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

awesome-deep-learning 的核心用法是作为导航地图。以下是利用该列表开始第一个深度学习项目的流程：

1. 选择学习路径

打开本地的 README.md 文件或在 GitHub 上浏览，根据需求选择板块：

初学者: 查看 Courses 部分，推荐 Andrew Ng 的 Deep Learning Specialization 或 Fast.ai 的 Practical Deep Learning For Coders。
理论深入: 查看 Books 部分，推荐阅读 Deep Learning (Ian Goodfellow et al.) 或 Dive into Deep Learning (交互式书籍)。
实战项目: 查看 Datasets 和 Tutorials 寻找数据和代码示例。

2. 运行第一个示例 (基于列表中的教程)

假设你选择了列表中提到的 "Dive into Deep Learning" (d2l.ai) 作为起点，该书提供了基于 PyTorch/TensorFlow 的可运行代码。

步骤:

安装 d2l 包：

pip install d2l -i https://pypi.tuna.tsinghua.edu.cn/simple

创建一个 Python 脚本 hello_dl.py，输入以下经典代码（线性回归示例）：

from d2l import torch as d2l
import torch

# 定义数据
true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

# 定义模型
net = d2l.linreg
loss = d2l.squared_loss

# 简单打印验证
print(f"Features shape: {features.shape}")
print(f"Labels shape: {labels.shape}")
print("环境配置成功，已准备好开始深度学习之旅！")

运行脚本：

python hello_dl.py

3. 探索更多资源

回到 awesome-deep-learning 目录，根据你的兴趣领域（如计算机视觉、NLP、强化学习），点击 README 中对应的链接访问原始论文、视频讲座或开源代码库，直接复制其提供的代码片段到你的环境中进行实验。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架