awesome-deep-learning
awesome-deep-learning 是一份精心整理的深度学习资源清单,旨在为学习者与从业者提供一站式的知识导航。面对深度学习领域海量且分散的教程、论文、框架及数据集,用户往往难以快速筛选出高质量内容,而这份清单有效解决了信息过载与检索困难的问题。
它系统地涵盖了从入门到精通的全方位资料,包括经典书籍(如 Yoshua Bengio 的《Deep Learning》)、名校课程(如吴恩达的机器学习课)、前沿论文、视频教程、主流开发框架以及关键数据集等。其独特亮点在于“精选”机制,由社区共同维护,确保收录内容的权威性与时效性,并细分为书籍、课程、工具、会议等十余个类别,结构清晰,便于按需查找。
无论是刚踏入 AI 领域的学生、需要追踪最新进展的研究人员,还是致力于模型落地的开发者,都能从中找到适合自己的学习路径或参考项目。设计师若希望了解技术边界以辅助创作,亦可在此获取灵感。awesome-deep-learning 不直接提供代码运行环境,而是作为一份可靠的“地图”,帮助用户高效构建知识体系,避免在繁杂的信息海洋中迷失方向,是深度学习爱好者不可或缺的案头指南。
使用场景
某初创公司的算法工程师小李需要在两周内为医疗影像项目搭建原型,但他对深度学习领域尚不熟悉,面临技术选型和资源筛选的巨大压力。
没有 awesome-deep-learning 时
- 资源检索低效:在谷歌和 GitHub 上盲目搜索"Deep Learning tutorial",被大量过时教程、营销文章和低星项目淹没,难以辨别质量。
- 学习路径混乱:面对碎片化的博客和零散视频,无法构建从基础理论(如反向传播)到前沿架构(如 Transformer)的系统化知识体系。
- 框架选型困难:不清楚 TensorFlow、PyTorch 或 JAX 各自的生态优势及适用场景,容易选错工具导致后期重构成本高昂。
- 数据获取受阻:花费数天时间寻找合适的医疗影像公开数据集,却因缺乏权威索引而只能找到格式混乱或标注缺失的数据。
- 社区连接断裂:错过相关的顶级会议(如 CVPR、NeurIPS)和核心研究者动态,导致技术方案闭门造车,缺乏行业视野。
使用 awesome-deep-learning 后
- 精准获取高质资源:直接访问 curated 列表,一键获取由社区验证的经典书籍(如《Deep Learning》花书)和高星实战项目,节省 80% 的筛选时间。
- 构建系统学习路线:依据分类清晰的课程和视频板块,快速制定从吴恩达基础课到专项进阶的学习计划,知识吸收效率显著提升。
- 科学决策技术栈:参考框架与工具章节的详细对比,结合项目需求迅速锁定 PyTorch 作为开发底座,避免了试错成本。
- 快速定位标准数据:通过数据集专区直接找到经过清洗和标注的医疗影像库,当天即可启动模型训练流程。
- 同步前沿动态:紧跟列表中推荐的顶尖学者和会议资讯,及时引入最新的正则化技术和优化策略,提升模型竞争力。
awesome-deep-learning 将原本需要数周的信息搜集与甄别工作压缩至几小时,让开发者能专注于核心算法创新而非资源大海捞针。
运行环境要求
未说明
未说明

快速开始
目录
书籍
- 《深度学习》(Deep Learning)由Yoshua Bengio、Ian Goodfellow和Aaron Courville编写(2015年7月5日)
- 《神经网络与深度学习》(Neural Networks and Deep Learning)由Michael Nielsen编写(2014年12月)
- 《深度学习》(Deep Learning)由微软研究院编写(2013年)
- 《深度学习教程》(Deep Learning Tutorial)由蒙特利尔大学LISA实验室编写(2015年1月6日)
- neuraltalk由Andrej Karpathy开发:基于numpy的RNN/LSTM实现
- 《遗传算法导论》(An introduction to genetic algorithms)(http://www.boente.eti.br/fuzzy/ebook-fuzzy-mitchell.pdf)
- 《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)(http://aima.cs.berkeley.edu/)
- 《神经网络中的深度学习:概述》(Deep Learning in Neural Networks: An Overview)(http://arxiv.org/pdf/1404.7828v4.pdf)
- 《人工智能与机器学习:按主题解释》(Artificial intelligence and machine learning: Topic wise explanation)(https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/)
- 《掌握计算机视觉中的深度学习》(Grokking Deep Learning for Computer Vision)(https://www.manning.com/books/grokking-deep-learning-for-computer-vision)
- 《深入深度学习》(Dive into Deep Learning)——一本基于numpy的交互式深度学习书籍(https://d2l.ai/)
- 《面向云、移动和边缘设备的实用深度学习》(Practical Deep Learning for Cloud, Mobile, and Edge)(https://www.oreilly.com/library/view/practical-deep-learning/9781492034858/)——一本关于生产环境中优化技术的书籍。
- 《深度学习的数学与架构》(Math and Architectures of Deep Learning)由Krishnendu Chaudhury编写(https://www.manning.com/books/math-and-architectures-of-deep-learning)
- 《TensorFlow 2.0实战》(Tensorflow 2.0 in Action)由Thushan Ganegedara编写(https://www.manning.com/books/tensorflow-in-action)
- 《自然语言处理中的深度学习》(Deep Learning for Natural Language Processing)由Stephan Raaijmakers编写(https://www.manning.com/books/deep-learning-for-natural-language-processing)
- 《深度学习模式与实践》(Deep Learning Patterns and Practices)由Andrew Ferlitsch编写(https://www.manning.com/books/deep-learning-patterns-and-practices)
- 《深度学习内幕》(Inside Deep Learning)由Edward Raff编写(https://www.manning.com/books/inside-deep-learning)
- 《用Python进行深度学习(第二版)》(Deep Learning with Python, Second Edition)由François Chollet编写(https://www.manning.com/books/deep-learning-with-python-second-edition)
- 《进化式深度学习》(Evolutionary Deep Learning)由Micheal Lanham编写(https://www.manning.com/books/evolutionary-deep-learning)
- 《深度学习平台工程》(Engineering Deep Learning Platforms)由Chi Wang和Donald Szeto编写(https://www.manning.com/books/engineering-deep-learning-platforms)
- 《用R进行深度学习(第二版)》(Deep Learning with R, Second Edition)由François Chollet联合Tomasz Kalinowski和J. J. Allaire编写(https://www.manning.com/books/deep-learning-with-r-second-edition)
- 《深度学习中的正则化》(Regularization in Deep Learning)由Liu Peng编写(https://www.manning.com/books/regularization-in-deep-learning)
- 《Jax实战》(Jax in Action)由Grigory Sapunov编写(https://www.manning.com/books/jax-in-action)
- 《动手学机器学习:使用Scikit-Learn、Keras和TensorFlow》(Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow)由Aurélien Géron编写 | 2019年10月15日
课程
- 机器学习 - 斯坦福大学 安德鲁·吴在Coursera上开设(2010-2014)
- 机器学习 - 加州理工学院 亚塞尔·阿布-穆斯塔法主讲(2012-2014)
- 机器学习 - 卡内基梅隆大学 汤姆·米切尔主讲(2011年春季)
- 机器学习中的神经网络 杰弗里·辛顿在Coursera上开设(2012)
- 神经网络课程 雪尔布鲁克大学的于戈·拉罗谢尔主讲(2013)
- 深度学习课程 纽约大学CILVR实验室开设(2014)
- 人工智能 - 伯克利大学 丹·克莱因和皮特·阿贝尔主讲(2013)
- 人工智能 - MIT 帕特里克·亨利·温斯顿主讲(2010)
- 视觉与学习:计算机与大脑 施蒙·乌尔曼、托马索·波吉奥、伊森·梅耶斯等在MIT主讲(2013)
- 用于视觉识别的卷积神经网络 - 斯坦福大学 菲菲·李、安德烈·卡帕西主讲(2017)
- 自然语言处理的深度学习 - 斯坦福大学
- 神经网络 - 雪尔布鲁克大学
- 机器学习 - 牛津大学 (2014-2015)
- 深度学习 - NVIDIA (2015)
- 研究生暑期学校:深度学习、特征学习 杰弗里·辛顿、约书亚·本吉奥、扬·勒丘恩、安德鲁·吴、南多·德·弗雷塔斯等在IPAM、UCLA举办(2012)
- 深度学习 - Udacity/谷歌 文森特·范霍克和阿尔潘·查克拉博蒂主讲(2016)
- 深度学习 - 滑铁卢大学 阿里·戈德西教授主讲(2015)
- 统计机器学习 - 卡内基梅隆大学 劳里·瓦瑟曼教授主讲
- 深度学习课程 扬·勒丘恩主讲(2016)
- 设计、可视化与理解深度神经网络 - 伯克利大学
- UVA深度学习课程 阿姆斯特丹大学的人工智能硕士课程。
- MIT 6.S094:自动驾驶汽车的深度学习
- MIT 6.S191:深度学习导论
- 伯克利CS 294:深度强化学习
- Keras in Motion视频课程
- 面向编码者的实用深度学习 杰里米·霍华德 - Fast.ai
- 深度学习导论 比克沙·拉杰教授主讲(2017)
- AI for Everyone 安德鲁·吴主讲(2019)
- MIT深度学习入门7天训练营 - MIT设计的为期七天的训练营,旨在介绍深度学习的方法和应用(2019)
- Deep Blueberry:深度学习 - 一个免费的五周末计划,帮助自学者学习CNN、LSTM、RNN、VAE、GAN、DQN、A3C等深度学习架构的基础知识(2019)
- Spinning Up in Deep Reinforcement Learning - OpenAI提供的免费深度强化学习课程(2019)
- 深度学习专项课程 - Coursera - 由安德鲁·吴提供的最佳课程,助你进入AI领域。
- 深度学习 - UC伯克利 | STAT-157 由亚历克斯·斯莫拉和穆·李主讲(2019)
- 面向普通人的机器学习视频课程 尼克·切斯主讲
- TensorFlow API的机器学习速成课 - Google AI
- 从基础开始的深度学习 杰里米·霍华德 - Fast.ai
- 深度强化学习(纳米学位) - Udacity 一项持续3至6个月的Udacity纳米学位课程,涵盖多门课程(2018)
- 深入理解运动中的深度学习 由博·卡恩斯主讲(2018)
- 使用计算机视觉和深度学习进行人脸检测 由哈坎·切贝奇主讲
- Classpert上的深度学习在线课程列表 Classpert在线课程搜索提供的深度学习在线课程列表(部分免费)
- AWS机器学习 亚马逊机器学习大学提供的机器学习和深度学习课程
- PyTorch深度学习导论 - Udacity和Facebook AI联合推出的优秀深度学习入门课程
- Kaggle的深度学习课程 - Kaggle提供的免费深度学习课程
- 扬·勒丘恩在CDS的深度学习课程 - DS-GA 1008 · 2021年春季
- 神经网络与深度学习 - COMP9444 19T3
- 深度学习 A.I.Shelf
视频与讲座
- 如何创造思维 雷·库兹韦尔 著
- 深度学习、自监督学习与无监督特征学习 吴恩达 著
- 深度学习的最新进展 杰弗里·辛顿 著
- 深度学习的不可思议有效性 扬·勒丘恩 著
- 表示的深度学习 约书亚·本吉奥 著
- 层次时序记忆的原理 杰夫·霍金斯 葳
- 机器学习讨论组——斯坦福人工智能实验室的深度学习 亚当·科茨 著
- 用深度学习理解世界 亚当·科茨 著
- 揭秘无监督特征学习 亚当·科茨 著
- 深度学习与视觉感知 扬·勒丘恩 著
- 下一代神经网络 杰弗里·辛顿 在 GoogleTechTalks 上发表
- 能够学习的计算机所带来的奇妙而恐怖的影响 杰里米·霍华德 在 TEDxBrussels 上发表
- 斯坦福大学的无监督深度学习 吴恩达 在斯坦福大学(2011年)讲授
- 自然语言处理 克里斯·曼宁 在斯坦福大学教授
- 深度神经网络入门指南 娜塔莉·哈梅尔和洛林·尤尔尚斯基 著
- 深度学习:来自大数据的智能 史蒂夫·朱维特森(及专家组)在斯坦福大学 VLAB 发表
- 人工神经网络与深度学习导论 利奥·伊西克多甘 在摩托罗拉移动总部发表
- NIPS 2016 讲座与研讨会视频 — NIPS 2016
- 深度学习速成班:利奥·伊西克多甘在 YouTube 上推出的一系列迷你讲座(2018年)
- 深度学习速成班 奥利弗·蔡格曼 著
- R语言中的深度学习实战:这是一门直播课程,教授如何使用强大的 Keras 库及其 R 语言接口,将深度学习应用于文本和图像。
- 医学影像深度学习教程:本教程以研究生级别的医学影像深度学习讲座形式呈现。内容涵盖胸部 X 光片和组织学等热门医学影像领域的背景知识,以及处理多模态/多视角、分割和计数任务的方法。
- DeepMind x UCL 深度学习:2020年版本
- DeepMind x UCL 强化学习:深度强化学习
- 卡内基梅隆大学 11-785 深度学习导论 2020年春季 课程:11-785,深度学习导论,由 Bhiksha Raj 主讲
- 机器学习 CS 229:后半部分聚焦深度学习,由吴恩达主讲
- 安德鲁·费尔利奇谈神经结构化学习
- 安德鲁·费尔利奇谈深度学习设计模式
- 现代 CNN 的架构:基于设计模式的方法,由安德鲁·费尔利奇讲解
- 安德鲁·费尔利奇谈 CNN 中的超参数
- 多任务 CNN:安德鲁·费尔利奇提供的一个实际案例
- 路易斯·塞拉诺对深度强化学习的友好介绍
- [什么是 GAN?它们是如何工作的?] 由爱德华·拉夫讲解(https://youtu.be/f6ivp84qFUc)
- 爱德华·拉夫用 PyTorch 编写一个基础 WGAN
- 米格尔·莫拉莱斯训练强化学习智能体
- 了解什么是深度学习
论文
你也可以从这里找到被引用最多的深度学习论文
- 使用深度卷积神经网络进行ImageNet分类
- 使用超深层自编码器进行基于内容的图像检索
- 为人工智能学习深度架构
- 卡内基梅隆大学的论文列表
- 用于命名实体识别的神经网络 zip
- YB的训练技巧
- 杰夫·辛顿的阅读清单(所有论文)
- 使用循环神经网络进行监督序列标注
- 基于神经网络的统计语言模型
- 训练循环神经网络
- 用于自然语言处理和计算机视觉的递归深度学习
- 双向RNN
- LSTM
- GRU - 门控循环单元
- GFRNN . .
- LSTM:搜索空间奥德赛
- 对用于序列学习的循环神经网络的批判性评论
- 可视化与理解循环网络
- 沃伊切赫·扎伦巴、伊利亚·苏茨克维尔:对循环网络架构的实证探索
- 基于循环神经网络的语言模型
- 循环神经网络语言模型的扩展
- 在会议识别中使用基于循环神经网络的语言建模
- 用于语音识别中声学建模的深度神经网络
- 使用深度循环神经网络进行语音识别
- 强化学习神经图灵机
- 使用RNN编码器-解码器学习短语表示,用于统计机器翻译
- 谷歌——使用神经网络进行序列到序列学习
- 记忆网络
- 针对部分可观测机器人控制的连续记忆状态策略学习
- 微软——联合建模嵌入与翻译以连接视频与语言
- 神经图灵机
- 有问必答:用于自然语言处理的动态记忆网络
- 利用深度神经网络和树搜索掌握围棋游戏
- 批量归一化
- 残差学习
- 使用条件对抗网络进行图像到图像的转换
- 伯克利人工智能研究(BAIR)实验室
- 谷歌的MobileNets
- 利用深度学习在野外进行跨音频-视觉识别
- 胶囊之间的动态路由
- 带有EM路由的矩阵胶囊
- 高效的反向传播
- 生成对抗网络
- Fast R-CNN
- FaceNet:用于人脸识别和聚类的统一嵌入
- 用于一次性图像识别的暹罗神经网络
- 编程语言的无监督翻译
- 用于一次学习的匹配网络
- VOLO:用于视觉识别的视觉展望者
- ViT:一张图片胜过16×16个词——大规模图像识别的Transformer
- 批量归一化:通过减少内部协变量偏移加速深度网络训练
- DeepFaceDrawing:从草图深度生成人脸图像
教程
- UFLDL 教程 1
- UFLDL 教程 2
- 自然语言处理的深度学习(无需魔法)
- 深度学习教程:从感知机到深度网络
- 自底向上的深度学习
- Theano 教程
- Matlab 中的神经网络
- 使用卷积神经网络检测面部关键点教程
- Torch7 教程
- 网络上最好的机器学习教程
- VGG 卷积神经网络实践
- TensorFlow 教程
- 更多 TensorFlow 教程
- TensorFlow Python 笔记本
- Keras 和 Lasagne 深度学习教程
- 在 TensorFlow 中使用 LSTM RNN 对原始时间序列进行分类
- 使用卷积神经网络检测面部关键点教程
- TensorFlow 世界
- 用 Python 进行深度学习
- 深入理解深度学习
- 用于搜索的深度学习
- Keras 教程:基于内容的图像检索,使用卷积去噪自动编码器
- 崔允哲的 PyTorch 教程
- 通过 TensorFlow 和 Keras 的实际案例理解深度卷积神经网络
- 文本分类中传统模型与深度学习模型的概述及基准测试
- 人工智能硬件:理解计算机硬件并自制电脑
- 编程社区精选资源
- 图解自监督学习
- ALBERT(轻量级 BERT)可视化论文摘要
- 使用 GAN 进行黑色素瘤检测的半监督深度学习
- 使用 Reformers 进行命名实体识别
- 莎士比亚作品中的深度 N 元模型
- 宽残差网络
- 使用 Flax 进行时尚 MNIST 分类
- 假新闻分类(含 Streamlit 部署)
- 原发性胆汁性肝硬化回归分析
- 天文目录的交叉匹配方法
- 使用双向 LSTM 进行命名实体识别
- 使用 Tflite 和 Flutter 的图像识别应用
研究人员
- Aaron Courville
- Abdel-rahman Mohamed
- Adam Coates
- Alex Acero
- Alex Krizhevsky
- Alexander Ilin
- Amos Storkey
- Andrej Karpathy
- Andrew M. Saxe
- Andrew Ng
- Andrew W. Senior
- Andriy Mnih
- Ayse Naz Erkan
- Benjamin Schrauwen
- Bernardete Ribeiro
- Bo David Chen
- Boureau Y-Lan
- Brian Kingsbury
- Christopher Manning
- Clement Farabet
- Dan Claudiu Cireșan
- David Reichert
- Derek Rose
- Dong Yu
- Drausin Wulsin
- Erik M. Schmidt
- Eugenio Culurciello
- Frank Seide
- Galen Andrew
- Geoffrey Hinton
- George Dahl
- Graham Taylor
- Grégoire Montavon
- Guido Francisco Montúfar
- Guillaume Desjardins
- Hannes Schulz
- Hélène Paugam-Moisy
- Honglak Lee
- Hugo Larochelle
- Ilya Sutskever
- Itamar Arel
- James Martens
- Jason Morton
- Jason Weston
- Jeff Dean
- Jiquan Mgiam
- Joseph Turian
- Joshua Matthew Susskind
- Jürgen Schmidhuber
- Justin A. Blanco
- Koray Kavukcuoglu
- KyungHyun Cho
- Li Deng
- Lucas Theis
- Ludovic Arnold
- Marc'Aurelio Ranzato
- Martin Längkvist
- Misha Denil
- Mohammad Norouzi
- Nando de Freitas
- Navdeep Jaitly
- Nicolas Le Roux
- Nitish Srivastava
- Noel Lopes
- Oriol Vinyals
- Pascal Vincent
- Patrick Nguyen
- Pedro Domingos
- Peggy Series
- Pierre Sermanet
- Piotr Mirowski
- Quoc V. Le
- Reinhold Scherer
- Richard Socher
- Rob Fergus
- Robert Coop
- Robert Gens
- Roger Grosse
- Ronan Collobert
- Ruslan Salakhutdinov
- Sebastian Gerwinn
- Stéphane Mallat
- Sven Behnke
- Tapani Raiko
- Tara Sainath
- Tijmen Tieleman
- Tom Karnowski
- Tomáš Mikolov
- Ueli Meier
- Vincent Vanhoucke
- Volodymyr Mnih
- Yann LeCun
- Yichuan Tang
- Yoshua Bengio
- Yotaro Kubo
- Youzhi (Will) Zou
- Fei-Fei Li
- Ian Goodfellow
- Robert Laganière
- Merve Ayyüce Kızrak
网站
- deeplearning.net
- deeplearning.stanford.edu
- nlp.stanford.edu
- ai-junkie.com
- cs.brown.edu/research/ai
- eecs.umich.edu/ai
- cs.utexas.edu/users/ai-lab
- cs.washington.edu/research/ai
- aiai.ed.ac.uk
- www-aig.jpl.nasa.gov
- csail.mit.edu
- cgi.cse.unsw.edu.au/~aishare
- cs.rochester.edu/research/ai
- ai.sri.com
- isi.edu/AI/isd.htm
- nrl.navy.mil/itd/aic
- hips.seas.harvard.edu
- AI Weekly
- stat.ucla.edu
- deeplearning.cs.toronto.edu
- jeffdonahue.com/lrcn/
- visualqa.org
- www.mpi-inf.mpg.de/departments/computer-vision...
- Deep Learning News
- 机器学习很有趣!亚当·盖特吉的博客
- 机器学习指南
- 面向初学者的深度学习
- Machine Learning Mastery 博客
- ML Compiled
- 编程社区精选资源
- 理解卷积神经网络的入门指南
- ahmedbesbes.com
- amitness.com
- AI Summer
- AI Hub - 由 AAAI 和 NeurIPS 支持
- CatalyzeX:面向开发者和创客的机器学习中心
- The Epic Code
- all AI news
数据集
- MNIST 手写数字数据集
- Google 房屋号码 数据集,来自街景视图
- CIFAR-10 和 CIFAR-100
- IMAGENET
- Tiny Images 8000万张小图像
- Flickr 数据 1亿张雅虎数据集
- 伯克利分割数据集 500
- UC Irvine 机器学习仓库
- Flickr 8k
- Flickr 30k
- 微软 COCO
- VQA
- 图像问答
- AT&T 剑桥实验室人脸数据库
- AVHRR Pathfinder
- 航空货运 - 航空货运数据集是一系列基于纹理特征的真实分割标注的光线追踪图像序列。(455张图像+GT,每张160x120像素)(格式:PNG)
- 阿姆斯特丹物体图像库 - ALOI 是一个包含一千个小物体的彩色图像集合,专为科学研究目的而采集。为了捕捉物体成像中的感官变化,我们系统地改变了每个物体的视角、光照角度和光照颜色,并额外采集了宽基线立体图像。每个物体记录了超过一百张图像,整个数据集共包含110,250张图像。(格式:png)
- 带标注的人脸、手部、心脏及肉类图像 - 大多数图像及其标注都通过AAM-API进行了各种ASM/AAM分析补充。(格式:bmp,asf)
- 图像分析与计算机图形学
- 布朗大学刺激材料 - 包括几何体、物体和“格里布尔”等多种数据集。非常适合测试识别算法。(格式:pict)
- CAVIAR 商场和公共场所行为视频序列 - 90个序列中包含9万个不同人类活动的视频帧,并配有XML格式的检测与行为分类真值标注。(格式:MPEG2 & JPEG)
- 机器视觉单元
- CCITT 传真标准图像 - 8张图像(格式:gif)
- CMU CIL 的带有真值的立体数据 - 3组各11张图像,包括带有光谱辐射测量的彩色TIFF图像。(格式:gif, tiff)
- CMU PIE 数据库 - 一个包含68人41,368张人脸图像的数据库,涵盖了13种姿态、43种光照条件以及4种不同表情。
- CMU VASC 图像数据库 - 图像、序列、立体对(数千张图像)(格式:Sun Rasterimage)
- 加州理工学院图像数据库 - 约20张图像,多为小型物体和玩具的俯视图。(格式:GIF)
- 哥伦比亚-乌得勒支反射率和纹理数据库 - 对60多种3D纹理样本进行反射率和纹理测量,观察了200多种不同的视角和光照组合。(格式:bmp)
- 计算色彩恒常性数据 - 该数据集主要面向计算色彩恒常性研究,但也适用于一般的计算机视觉任务。包含合成数据、相机传感器数据以及700多张图像。(格式:tiff)
- 计算视觉实验室
- 基于内容的图像检索数据库 - 11组用于测试基于内容检索算法的彩色图像。大多数数据集附有描述文件,列出每张图像中的对象名称。(格式:jpg)
- 高效内容检索小组
- 密集采样的视球 - 密集采样的视球——两个玩具物体的上半球视域,每个包含2500张图像。(格式:tiff)
- 计算机科学第七系(图形系统)
- 数字胚胎 - 数字胚胎是可用于开发和测试物体识别系统的新型对象。它们具有有机外观。(格式:可根据需求提供多种格式)
- 明尼苏达大学视觉实验室
- 萨尔瓦多胃肠内镜视频图谱 - 来自胃肠内镜检查的图像和视频。(格式:jpg, mpg, gif)
- FG-NET 面部老化数据库 - 数据库包含1002张展示受试者不同年龄阶段的脸部图像。(格式:jpg)
- FVC2000 指纹数据库 - FVC2000是首次国际指纹验证算法竞赛。四个指纹数据库构成了FVC2000基准测试集(共计3520枚指纹)。
- 生物识别系统实验室 - 博洛尼亚大学
- 面部和手势图像及序列 - 几个经过真值标注的面部和手势图像数据集,用于基准测试
- 德国指拼法数据库 - 该数据库包含35种手势,由1400个图像序列组成,记录了20位不同人士在非均匀日光照明条件下的手势动作。(格式:mpg,jpg)
- 语言处理与模式识别
- 格罗宁根自然图像数据库 - 4000多张1536x1024(16位)校准过的户外图像(格式:自制)
- ICG 测试台序列 - 两个不同高度的转盘序列,每组36张图像,分辨率为1000x750,彩色(格式:PPM)
- 计算机图形与视觉研究所
- IEN 图像库 - 1000多张图像,多为户外序列(格式:raw, ppm)
- INRIA 的 Syntim 图像数据库 - 15张简单物体的彩色图像(格式:gif)
- INRIA
- INRIA 的 Syntim 立体数据库 - 34对校准过的彩色立体图像(格式:gif)
- 图像分析实验室 - 从多种成像方式获取的图像——原始CFA图像、距离图像以及大量“医学图像”。(格式:自制)
- 图像分析实验室
- 图像数据库 - 一个包含部分纹理的图像数据库
- JAFFE 面部表情图像数据库 - JAFFE数据库包含213张日本女性受试者的照片,展示了6种基本面部表情以及中性表情。此外,还免费提供了用于研究的情感形容词评分。(格式:灰度TIFF图像)
- ATR 研究所,京都,日本
- JISCT 立体评估 - 44对图像。这些数据曾被用于立体分析评估,正如1993年4月ARPA图像理解研讨会论文《JISCT立体评估》中所述,作者为R.C.Bolles、H.H.Baker和M.J.Hannah,第263–274页(格式:SSI)
- MIT 视觉纹理 - 图像档案(100多张图像)(格式:ppm)
- MIT 人脸图像等 - 数百张图像(格式:自制)
- 机器视觉 - 来自Jain、Kasturi、Schunck教科书中的图像(20多张图像)(格式:GIF TIFF)
- 乳腺X线图像数据库 - 100多张带有真值的乳腺X线图像。还可根据请求提供其他图像,并附有多个其他乳腺X线数据库的链接。(格式:自制)
- ftp://ftp.cps.msu.edu/pub/prip - 许多图像(格式:未知)
- 米德尔伯里立体数据集及真值 - 六个包含平面区域的多帧立体数据集。每个数据集包含9张彩色图像以及亚像素精度的真值数据。(格式:ppm)
- 米德尔伯里立体视觉研究页面 - 米德尔伯里学院
- Modis 机载模拟器、画廊和数据集 - 来自世界各地的高空影像,用于支持NASA EOS计划的环境建模(格式:JPG和HDF)
- NIST 指纹和手写数据 - 数据集,包含数千张图像(格式:未知)
- NIST 指纹数据 - 压缩后的多部分uu编码tar文件
- NLM 可视化人体项目 - 彩色、CAT和MRI图像样本——超过30张图像(格式:jpeg)
- 国家设计资源库 - 超过55,000个以机械/加工工程设计为主的3D CAD和实体模型。(格式:gif,vrml,wrl,stp,sat)
- 几何与智能计算实验室
- OSU (MSU) 3D 物体模型数据库 - 多年来收集的几组3D物体模型,用于物体识别研究(格式:自制、vrml)
- OSU (MSU/WSU) 距离图像数据库 - 数百张真实和合成图像(格式:gif、自制)
- OSU/SAMPL 数据库:距离图像、3D模型、静止图像和运动序列 - 超过1000张距离图像、3D物体模型、静止图像和运动序列(格式:gif、ppm、vrml、自制)
- 信号分析和机器感知实验室
- 奥塔哥光学流评估序列 - 合成和真实的序列,配有机器可读的光学流真值场,以及生成新序列真值的工具。(格式:ppm,tif、自制)
- 视觉研究小组
- ftp://ftp.limsi.fr/pub/quenot/opflow/testdata/piv/ - 用于测试粒子图像测速仪应用的真实和合成图像序列。这些图像也可用于光学流和图像匹配算法的测试。(格式:pgm(原始))
- LIMSI-CNRS/CHM/IMM/视觉
- LIMSI-CNRS
- 光度法三维表面纹理数据库 - 这是首个同时提供完整真实表面旋转和注册光度立体数据的三维纹理数据库(30种纹理,1680张图像)。(格式:TIFF)
- 用于光学流分析的序列(SOFA) - 9个专为测试运动分析应用而设计的合成序列,包含完整的运动和相机参数真值。(格式:gif)
- 计算机视觉小组
- 用于基于流重建的序列 - 用于测试基于运动结构算法的合成序列(格式:pgm)
- 带有真值差异和遮挡信息的立体图像 - 一小批走廊场景的合成图像,添加了不同水平的噪声。使用这些图像来评估你的立体算法。(格式:原始、viff(khoros)或tiff)
- 斯图加特距离图像数据库 - 一系列从网络上可用的高分辨率多边形模型中提取的合成距离图像(格式:自制)
- 图像理解部门
- AR 人脸数据库 - 包含超过4,000张对应于126个人脸的彩色图像(70名男性和56名女性)。正面视图,伴有不同表情、光照和遮挡情况。(格式:RAW(RGB 24位))
- 普渡大学机器人视觉实验室
- MIT-CSAIL 物体和场景数据库 - 用于测试多类物体检测和场景识别算法的数据库。超过72,000张图像,其中2,873帧已标注。超过50个已标注的对象类别。(格式:jpg)
- RVL SPEC-DB(光泽度数据库) - 收集了300多张100个物体在三种不同光照条件下拍摄的真实图像(漫射/环境/定向)。-- 使用这些图像来测试检测和补偿彩色图像中高光效果的算法。(格式:TIFF)
- 机器人视觉实验室
- XM2VTS 数据库 - XM2VTSDB包含四次为期四个月的295人的数字录制。该数据库同时包含面部的图像和视频数据。
- 视觉、语音和信号处理中心
- 交通图像序列和‘大理石块’序列 - 数千帧数字化的交通图像序列以及‘大理石块’序列(灰度图像)(格式:GIF)
- IAKS/KOGS
- 伯尔尼大学人脸图像 - 数百张图像(格式:Sun栅格文件)
- 密歇根大学纹理(格式:压缩的原始数据)
- 奥卢大学木材和节疤数据库 - 包括分类信息——1000多张彩色图像(格式:ppm)
- UCID - 未压缩彩色图像数据库 - 一个用于图像检索的基准数据库,具有预定义的真值。(格式:tiff)
- 马萨诸塞大学视觉图像档案 - 大型图像数据库,包含航拍、太空、立体、医学等图像。(格式:自制)
- UNC 的3D图像数据库 - 许多图像(格式:GIF)
- USF 距离图像数据及分割真值 - 80组图像(格式:Sun栅格图像)
- 奥卢大学基于物理的脸部数据库 - 包含在不同光源和相机校准条件下拍摄的彩色脸部图像,以及每个人的皮肤光谱反射率测量。
- 机器视觉与媒体处理单元
- 奥卢大学纹理数据库 - 一个包含320种表面纹理的数据库,每种纹理都在三种光源、六种空间分辨率和九种旋转角度下采集。还提供了一套测试套件,以便以标准化方式测试纹理分割、分类和检索算法。(格式:bmp, ras, xv)
- 机器视觉小组
- Usenix 脸部数据库 - 来自多个不同来源的数千张脸部图像(约994张)
- 视球数据库 - 8个物体从多个不同视角拍摄的图像。视球采用测地线方法采样,每球172张图像。提供两组用于训练和测试的数据。(格式:ppm)
- PRIMA,GRAVIR
- Vision-list 图像档案 - 许多图像,多种格式
- Wiry 物体识别数据库 - 数千张购物车、梯子、凳子、自行车、椅子以及杂乱场景的图像,附有边缘和区域的真值标签。(格式:jpg)
- 3D视觉小组
- 耶鲁人脸数据库 - 165张图像(15位个体),具有不同的光照、表情和遮挡配置。
- 耶鲁人脸数据库B - 5760张单光源图像,每张图像代表10位受试者,在576种观看条件下拍摄(9种姿势×64种光照条件)。(格式:PGM)
- 计算视觉与控制中心
- DeepMind QA 语料库 - 来自CNN和DailyMail的文本问答语料库。总共超过30万份文档。论文可供参考。
- YouTube-8M 数据集 - YouTube-8M是一个大规模的标注视频数据集,包含800万个YouTube视频ID及其关联的标签,涵盖4800种视觉实体的多样化词汇。
- Open Images 数据集 - Open Images是一个包含约900万个已标注图像URL的数据集,标签覆盖超过6000个类别。
- 2012年视觉目标类别挑战赛(VOC2012) - VOC2012数据集包含12,000张图像,标注了20个用于物体检测和分割的类别。
- Fashion-MNIST - 类似MNIST的时尚产品数据集,包含60,000个训练样本和10,000个测试样本。每个样本都是28x28的灰度图像,与10个类别的标签相关联。
- 大规模时尚(DeepFashion)数据库 - 包含超过80万张多样化的时尚图像。该数据集中每张图像都标注了50个类别、1,000个描述性属性、边界框以及服装关键点。
- FakeNewsCorpus - 包含约1000万篇新闻文章,按照opensources.co的类型进行分类。
- LLVIP - 15,488张可见光-红外配对图像(共30,976张),用于低光视觉研究,项目页面。
- MSDA - 超过500万张来自5个不同领域的图像,用于多源OCR/文本识别DA研究,项目页面。
- SANAD:用于自动文本分类的单标签阿拉伯语新闻文章数据集 - SANAD数据集是一个大型的阿拉伯语新闻文章集合,可用于多种阿拉伯语NLP任务,如文本分类和词嵌入。这些文章是通过专门编写的Python脚本从三个热门新闻网站——AlKhaleej、AlArabiya和Akhbarona——收集而来的。
- Referit3D - 两个大规模且互补的视听语言数据集(即Nr3D和Sr3D),用于在ScanNet场景中识别细粒度的3D物体。Nr3D包含41.5万条自然、自由形式的语句,而Sr3D则包含83.5万条基于模板的语句。
- SQuAD - 斯坦福大学发布了约10万对英语问答以及约5万道无法回答的问题。
- FQuAD - Illuin Technology发布了约2.5万对法语问答。
- GermanQuAD和GermanDPR - deepset发布了约1.4万对德语问答。
- SberQuAD - Sberbank发布了约9万对俄语问答。
- ArtEmis - 包含45万条情感反应的注释以及针对8万件WikiArt作品的语言解释。
会议
- CVPR - IEEE计算机视觉与模式识别会议
- AAMAS - 自主代理与多智能体系统国际联合会议
- IJCAI - 人工智能国际联合会议
- ICML - 机器学习国际会议
- ECML - 欧洲机器学习会议
- KDD - 知识发现与数据挖掘
- NIPS - 神经信息处理系统大会
- O'Reilly AI会议 - O'Reilly人工智能会议
- ICDM - 数据挖掘国际会议
- ICCV - 计算机视觉国际会议
- AAAI - 人工智能促进协会
- MAIS - 蒙特利尔人工智能研讨会
框架
- Caffe
- Torch7
- Theano
- cuda-convnet
- convetjs
- Ccv
- NuPIC
- DeepLearning4J
- Brain
- DeepLearnToolbox
- Deepnet
- Deeppy
- JavaNN
- hebel
- Mocha.jl
- OpenDL
- cuDNN
- MGL
- Knet.jl
- Nvidia DIGITS - 基于 Caffe 的 Web 应用程序
- Neon - 基于 Python 的深度学习框架
- Keras - 基于 Theano 的深度学习库
- Chainer - 用于深度学习的灵活神经网络框架
- RNNLM Toolkit
- RNNLIB - 循环神经网络库
- char-rnn
- MatConvNet: 用于 MATLAB 的 CNN
- Minerva - 一种快速且灵活的多 GPU 深度学习工具
- Brainstorm - 快速、灵活且有趣的神经网络。
- Tensorflow - 使用数据流图进行数值计算的开源软件库
- DMTK - 微软分布式机器学习工具包
- Scikit Flow - TensorFlow 的简化接口(模仿 Scikit Learn)
- MXnet - 轻量级、可移植、灵活的分布式/移动深度学习框架
- Veles - 三星分布式机器学习平台
- Marvin - 一个极简的仅 GPU 的 N 维卷积神经网络框架
- Apache SINGA - 通用分布式深度学习平台
- DSSTNE - 亚马逊用于构建深度学习模型的库
- SyntaxNet - 谷歌句法分析器 - 一个依赖 TensorFlow 的库
- mlpack - 一个可扩展的机器学习库
- Torchnet - 基于 Torch 的深度学习库
- Paddle - 百度的并行分布式深度学习框架
- NeuPy - 基于 Theano 的用于人工神经网络和深度学习的 Python 库
- Lasagne - 一个轻量级库,用于在 Theano 中构建和训练神经网络
- nolearn - 现有神经网络库的封装和抽象,尤其是 Lasagne
- Sonnet - 谷歌 DeepMind 开发的用于构建神经网络的库
- PyTorch - 在 Python 中使用张量和动态神经网络,并具有强大的 GPU 加速功能
- CNTK - 微软认知工具包
- Serpent.AI - 游戏智能体框架:将任何视频游戏用作深度学习的沙盒
- Caffe2 - 一个新的轻量级、模块化且可扩展的深度学习框架
- deeplearn.js - 用于 Web 的硬件加速深度学习和线性代数(NumPy)库
- TVM - 面向 CPU、GPU 和专用加速器的端到端深度学习编译器栈
- Coach - 英特尔® AI 实验室的强化学习教练
- albumentations - 一个快速且与框架无关的图像增强库
- Neuraxle - 一个通用的 ML 管道框架
- Catalyst:用于 PyTorch DL 和 RL 研究的高级工具。它专注于可重复性、快速实验以及代码/想法的复用
- garage - 一个用于可重复强化学习研究的工具包
- Detecto - 用 5-10 行代码训练和运行目标检测模型
- Karate Club - 一个用于图结构数据的无监督机器学习库
- Synapses - 一个轻量级的神经网络库,可在任何地方运行
- TensorForce - 一个用于应用强化学习的 TensorFlow 库
- Hopsworks - 一个面向 ML 和数据密集型 AI 的特征存储
- Feast - 由 Gojek/Google 为 GCP 提供的 ML 特征存储
- PyTorch Geometric Temporal - 动态图上的表示学习
- lightly - 一个用于自监督学习的计算机视觉框架
- Trax — 清晰代码与速度兼备的深度学习
- Flax - 一个专为 JAX 设计的灵活神经网络生态系统
- QuickVision
- Colossal-AI - 一个集成的大规模模型训练系统,配备高效的并行化技术
- haystack:一个开源的神经搜索框架
- Maze - 一个面向应用的深度强化学习框架,解决现实世界的决策问题。
- InsNet - 一个用于构建实例相关 NLP 模型的神经网络库,支持无填充的动态批处理
工具
- Nebullvm - 易于使用的库,利用多种深度学习编译器加速深度学习推理。
- Netron - 深度学习和机器学习模型的可视化工具
- Jupyter Notebook - 基于网页的交互式计算笔记本环境
- TensorBoard - TensorFlow 的可视化工具包
- Visual Studio Tools for AI - 用于开发、调试和部署深度学习及人工智能解决方案
- TensorWatch - 针对深度学习的调试与可视化工具
- ML Workspace - 面向机器学习和数据科学的一体化Web IDE。
- dowel - 一款用于机器学习研究的小型日志记录工具。只需调用一次
logger.log(),即可将任意对象记录到控制台、CSV文件、TensorBoard、文本日志文件等多种输出中。 - Neptune - 轻量级的实验跟踪与结果可视化工具。
- CatalyzeX - 浏览器扩展程序(适用于Chrome 和 Firefox),可自动查找并链接在线上任何地方(如Google、Twitter、Arxiv、Scholar等)发布的机器学习论文的代码实现。
- Determined - 深度学习训练平台,集成支持分布式训练、超参数调优、智能GPU调度、实验跟踪以及模型注册表等功能。
- DAGsHub - 开源机器学习社区平台——轻松管理实验、数据与模型,并创建协作式机器学习项目。
- hub - activeloop.ai 提供的面向 TensorFlow/PyTorch 的最快非结构化数据集管理工具。支持数据流式传输与版本控制。可在云端将大规模数据转换为类似 NumPy 的单一数组,从而在任何设备上均可访问。
- DVC - DVC 的设计目标是使机器学习模型易于共享和复现。它专为处理大型文件、数据集、机器学习模型、指标以及代码而打造。
- CML - CML 可帮助您将常用的 DevOps 工具引入机器学习工作流程。
- MLEM - MLEM 是一款用于轻松打包、部署和提供机器学习模型服务的工具。它无缝支持实时推理和批量处理等多种场景。
- Maxim AI - 用于AI智能体仿真、评估与可观性分析的工具。
杂项
- Caffe 网络研讨会
- GitHub 上深度学习领域的 100 个最佳资源
- Word2Vec
- Caffe Dockerfile
- TorontoDeepLEarning 卷积神经网络
- gfx.js
- Torch7 备忘录
- 麻省理工学院“高级自然语言处理”课程的相关资料
- 麻省理工学院“机器学习”课程的相关资料
- 麻省理工学院“用于学习的网络:回归与分类”课程的相关资料
- 麻省理工学院“神经编码与声音感知”课程的相关资料
- 在 Spark 上实现分布式深度学习网络
- 使用深度学习学会下棋的国际象棋 AI
- 复现 DeepMind 的论文《使用深度强化学习玩 Atari 游戏》的结果
- Wiki2Vec。从 Wikipedia 数据库中获取实体和单词的 Word2vec 向量
- DeepMind 论文中的原始代码 + 一些改进
- Google deepdream - 神经网络艺术
- 高效的批量 LSTM
- 设计用于生成古典音乐的循环神经网络
- Facebook 的记忆网络实现
- 使用 Google 的 FaceNet 深度神经网络进行人脸识别
- 基础数字识别神经网络
- 微软的情感识别 API 演示
- 在 TensorFlow 中加载 Caffe 模型的概念验证
- YOLO:实时目标检测
- YOLO:使用 Python 的实用实现
- AlphaGo - 复现 DeepMind 2016 年发表于 Nature 的论文《利用深度神经网络和树搜索掌握围棋》
- 面向软件工程师的机器学习
- 机器学习很有趣!
- Siraj Raval 的深度学习教程
- Dockerface - 在 Docker 容器中轻松安装和使用的深度学习 Faster R-CNN 人脸检测工具,适用于图像和视频。
- 超赞的深度学习音乐资源 - 精选的关于将深度学习科学研究应用于音乐的文章列表
- 超赞的图嵌入资源 - 精选的关于在图级别上对图结构数据进行深度学习科学研究的文章列表
- 超赞的网络嵌入资源 - 精选的关于在节点级别上对图结构数据进行深度学习科学研究的文章列表
- 微软推荐系统 包含构建推荐系统的示例、工具和最佳实践。提供了几种最先进的算法实现,可供自学并在自己的应用中定制。
- 循环神经网络的不可思议效果 - Andrej Karpathy 关于使用 RNN 生成文本的博客文章
- 梯子网络 - Keras 实现的半监督学习用梯子网络
- toolbox:精选的机器学习库列表
- CNN 解释器
- 人工智能专家路线图 - 成为人工智能专家的路线图
- 超赞的药物相互作用、协同效应及多药联用预测资源
贡献
您是否想到任何很棒的内容,认为适合加入此列表?欢迎随时提交 pull request。
许可证
在法律允许的最大范围内,Christos Christofidis 已放弃本作品的所有版权及相关或邻接权利。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
