Practical-Deep-Learning-Book

796 339 简单 1 次阅读 5天前MIT数据工具图像开发框架

AI 解读由 AI 自动生成，仅供参考

Practical-Deep-Learning-Book 是 O'Reilly 畅销书《Practical Deep Learning for Cloud, Mobile & Edge》的官方代码仓库，由 Anirudh Koul 等三位资深专家编写。它不仅仅是一本理论教材，更是一套手把手的实战指南，旨在解决开发者将深度学习模型从概念转化为云端、移动端及边缘设备实际应用的难题。

无论是渴望进入 AI 领域的软件工程师、经验丰富的数据科学家，还是想打造创新 AI 应用的爱好者，都能从中受益。内容涵盖使用 Keras、TensorFlow、Core ML 和 TensorFlow Lite 训练与部署计算机视觉模型，并支持在 Raspberry Pi、Jetson Nano 和 Google Coral 等多种硬件上运行。

其独特亮点在于极强的实用性：书中包含了从硅谷热门应用"Not Hotdog"到自动驾驶模拟等 40 多个行业案例，教授如何利用迁移学习在几分钟内完成模型训练，并分享了 50 多条关于提升模型精度、调试及大规模扩展的宝贵技巧。作为被 Keras 官网推荐的学习资源，Practical-Deep-Learning-Book 帮助读者跨越理论与实践的鸿沟，轻松构建出真正可用的深度学习产品。

使用场景

一家初创团队希望快速将“识别宠物品种”的 AI 功能集成到他们的移动端 App 中，但团队成员多为传统后端工程师，缺乏深度学习落地经验。

没有 Practical-Deep-Learning-Book 时

入门门槛高：面对复杂的理论公式和碎片化的网络教程，团队难以理清从模型训练到部署的完整链路，迟迟无法动手。
部署困难重重：虽然能在电脑上跑通模型，但不知道如何将其压缩并适配到 iOS (Core ML) 或 Android (TensorFlow Lite) 等移动端环境。
性能优化无门：模型在手机上运行缓慢且耗电，团队缺乏针对边缘设备（如 Raspberry Pi 或手机）进行加速和调试的实用技巧。
试错成本高昂：需要自行摸索数据增强、迁移学习等策略，导致开发周期被无限拉长，错失市场窗口。

使用 Practical-Deep-Learning-Book 后

路径清晰明确：跟随书中“猫狗分类”等实战章节，团队仅用 30 行代码便基于 Keras 完成了迁移学习，迅速构建了高精度原型。
全平台无缝部署：利用书中提供的云、移动端及边缘设备部署指南，成功将模型转换为 Core ML 和 TensorFlow Lite 格式，直接嵌入 App。
性能显著提升：应用书中关于模型剪枝、量化及 50+ 条实战技巧，使模型在移动端的推理速度提升数倍，同时降低了功耗。
高效复用案例：参考书中硅谷"Not Hotdog"等 40+ 个行业案例，团队避开了常见坑点，将原本数月的研发周期缩短至两周。

Practical-Deep-Learning-Book 通过手把手的工业级实战指南，帮助开发者跨越了从算法理论到多端落地的巨大鸿沟，实现了 AI 应用的快速交付。

运行环境要求

操作系统

未说明 (涵盖 Cloud
Mobile (iOS/Android)
Edge (Raspberry Pi
Jetson Nano)
Browser)

GPU

未说明 (书中涉及云端训练及边缘设备推理，具体取决于章节使用的平台如 Google Colab, Jetson Nano 等)

内存

未说明

依赖

notes本项目是 O'Reilly 书籍《Practical Deep Learning for Cloud, Mobile, and Edge》的配套代码库。环境需求因章节而异：涵盖云端 (Google/AWS/Azure)、移动端 (iOS Core ML, Android TensorFlow Lite)、浏览器 (TensorFlow.js) 及边缘设备 (Raspberry Pi, Jetson Nano, Google Coral)。不同章节需安装特定的框架和工具链，建议参考各章节子目录下的具体说明进行环境配置。

python未说明

Keras

TensorFlow

TensorFlow Lite

Core ML

TensorFlow.js

ml5.js

TensorFlow Serving

KubeFlow

AutoKeras

TensorBoard

快速开始

云端、移动和边缘设备上的实用深度学习

这是 O'Reilly 出版社官方代码仓库，对应书籍《云端、移动和边缘设备上的实用深度学习》（Practical Deep Learning for Cloud, Mobile, and Edge）作者：Anirudh Koul、Siddha Ganju 和 Meher Kasam。被选为官方 Keras 网站的学习资源

[在 Safari 上阅读] | [在亚马逊购买] | [在 Google 图书上阅读] | [书籍官网] | [Slideshare 演示文稿]

无论您是渴望进入深度学习领域的软件工程师、经验丰富的数据科学家，还是怀揣打造下一款爆款 AI 应用梦想的业余爱好者，您可能都曾困惑：我该从哪里开始？本书以循序渐进的方式，通过动手实践指导您构建适用于云端、移动设备、浏览器以及边缘设备的实用深度学习应用。

凭借多年将深度学习研究转化为屡获殊荣应用的行业经验，Anirudh Koul、Siddha Ganju 和 Meher Kasam 带您一步步将想法转化为现实世界中可实际使用的成果。

使用 Keras、TensorFlow、Core ML 和 TensorFlow Lite 训练、调优并部署计算机视觉模型
针对树莓派、Jetson Nano 和 Google Coral 等多种设备开发 AI 应用
探索趣味项目，从硅谷的“不是热狗”应用到 40 多个行业案例
在视频游戏环境中模拟自动驾驶汽车，并利用强化学习搭建微型版本
通过迁移学习在几分钟内训练出模型
发现 50 多条实用技巧，帮助您最大化模型精度与速度、调试问题并将应用扩展至数百万用户

章节列表

第 1 章 - 探索人工智能领域全景 | 在线阅读 | 插图

我们将纵览这一不断演化的领域，从 20 世纪 50 年代至今，剖析构成完美深度学习方案的关键要素，熟悉常见的人工智能术语与数据集，并一窥负责任的人工智能世界。

第 2 章 - 图片里有什么：使用 Keras 进行图像分类 | 在线阅读 | 插图

我们仅用五行 Keras 代码便深入图像分类的世界。随后，通过在视频上叠加热力图，了解神经网络在做出预测时关注的内容。额外惊喜：我们将聆听 Keras 的创始人 François Chollet 的励志个人经历，体会单个人也能产生的巨大影响。

第 3 章 - 猫 vs. 狗：使用 Keras 在 30 行代码中实现迁移学习 | 在线阅读 | 插图

我们利用迁移学习，将先前训练好的网络复用于新的自定义分类任务，在短短几分钟内获得接近最先进水平的准确率。接着，我们对结果进行细致分析，以评估分类效果。在此过程中，我们建立了一个贯穿全书的通用机器学习流水线。额外福利：我们将听取 fast.ai 联合创始人 Jeremy Howard 的分享，了解数十万学员如何借助迁移学习开启他们的 AI 之旅。

第 4 章 - 构建反向图像搜索引擎：理解嵌入表示 | 在线阅读 | 插图

仿照 Google 反向图像搜索，我们探索如何利用嵌入——一种图像的上下文表示——在不到十行代码中找到相似图片。随后，乐趣来了！我们将尝试不同的策略和算法，以在大规模场景下加速这一过程，从数千张图片扩展到数百万张，并实现在微秒级内完成搜索。

第 5 章 - 从新手到预测大师：提升卷积神经网络的准确率 | 在线阅读 | 插图

借助 TensorBoard、What-If Tool、tf-explain、TensorFlow Datasets、AutoKeras 和 AutoAugment 等工具，我们探讨如何最大限度地提高分类器的准确率。在此过程中，我们还会进行一系列实验，帮助您直观地理解哪些参数可能适合或不适合您的 AI 任务。

第 6 章 - 提升 TensorFlow 的速度与性能：实用清单 | 在线阅读 | 插图

我们通过一份包含 30 条技巧的清单，彻底优化训练与推理的速度，尽可能减少各种低效因素，从而最大化现有硬件的价值。

第 7 章 - 实用工具、技巧与窍门 | 在线阅读 | 插图

我们在多个主题和工具上培养多样化的实践技能，涵盖安装、数据收集、实验管理、可视化、跟踪研究前沿进展，以及探索构建深度学习理论基础的进一步途径。

第8章 - 用于计算机视觉的云API：15分钟内快速上手 | 在线阅读 | 图表

聪明地工作，而不是辛苦地工作。我们利用Google、Microsoft、Amazon、IBM和Clarifai的云端AI平台，在不到15分钟内完成部署。对于现有API无法解决的任务，我们则使用自定义分类服务，在无需编码的情况下训练分类器。随后，我们将这些模型放在一个开放的基准测试中进行对比，结果可能会让你大吃一惊。

第9章 - 使用TensorFlow Serving和KubeFlow在云端实现可扩展的推理服务 | 在线阅读 | 图表

我们将自定义训练好的模型部署到云端或本地环境中，以支持从数十次到数百万次请求的可扩展服务。我们探讨了Flask、Google Cloud ML Engine、TensorFlow Serving和KubeFlow等技术，展示了各自的投入、适用场景以及成本效益分析。

第10章 - 使用TensorFlow.js和ml5.js在浏览器中实现AI | 在线阅读 | 图表

每位使用电脑或智能手机的人都可以无差别地访问一种软件——他们的浏览器。通过基于浏览器的深度学习库，如TensorFlow.js和ml5.js，我们可以触达所有这些用户。特邀作者Zaid Alyafeai为我们介绍了人体姿态估计、生成对抗网络（GAN）、Pix2Pix图像到图像转换等技术和任务，这些操作并非在服务器上运行，而是在浏览器本身中完成。额外福利：聆听TensorFlow.js和ml5.js团队分享项目孵化过程中的经验。

第11章 - 使用Core ML在iOS上进行实时目标分类 | 在线阅读 | 图表

我们深入探索移动端深度学习领域，重点关注Apple生态系统中的Core ML。我们对不同型号的iPhone上的模型进行基准测试，研究减少应用体积和能耗影响的策略、动态模型部署、设备端训练，以及专业级应用的开发方法。

第12章 - 使用Core ML和Create ML在iOS上实现“不是热狗”功能 | 在线阅读 | 图表

硅谷的“不是热狗”应用（来自HBO）被视为移动AI领域的“Hello World”，因此我们以三种不同的方式构建其实时版本，向其致敬。

第13章 - 食物版的Shazam：使用TensorFlow Lite和ML Kit开发Android应用 | 在线阅读 | 图表

借助TensorFlow Lite，我们将AI引入Android系统。随后，我们使用基于TensorFlow Lite构建的ML Kit和Fritz工具，探索端到端的应用开发生命周期，以打造一款能够自我改进的AI应用。在此过程中，我们还将讨论模型版本控制、A/B测试、效果评估、动态更新、模型优化等话题。额外惊喜：我们有幸听取Mobile and Embedded TensorFlow的技术负责人Pete Warden分享将AI引入边缘设备的丰富经验。

第14章 - 使用TensorFlow对象检测API构建完美的猫咪定位应用 | 在线阅读 | 图表

我们探讨了四种不同的方法来定位图像中的物体位置。同时，我们回顾了对象检测技术多年来的演进历程，并分析了速度与精度之间的权衡。这为人群计数、人脸检测以及自动驾驶汽车等案例研究奠定了基础。

第15章 - 成为创客：探索边缘端的嵌入式AI | 在线阅读 | 图表

特邀作者Sam Sterckval将深度学习引入低功耗设备，他展示了多种具备AI能力的边缘设备，这些设备具有不同的计算能力和价格，包括Raspberry Pi、NVIDIA Jetson Nano、Google Coral、Intel Movidius、PYNQ-Z2 FPGA等，为机器人和创客项目打开了大门。额外福利：聆听NVIDIA Jetson Nano团队分享如何根据其开源配方快速构建创意机器人。

第16章 - 使用Keras通过端到端深度学习模拟自动驾驶汽车 | 在线阅读 | 图表

借助Microsoft AirSim的逼真仿真环境，特邀作者Aditya Sharma和Mitchell Spryn指导我们训练一辆虚拟汽车：先在仿真环境中驾驶它，再教会AI模型模仿其行为。在此过程中，本章还涵盖了多项适用于自动驾驶行业的概念。

第17章 - 一小时内构建自动驾驶汽车：使用AWS DeepRacer进行强化学习 | 在线阅读 | 图表

从虚拟世界走向现实世界，特邀作者Sunil Mallya展示了如何在不到一小时内组装、训练并驾驶AWS DeepRacer这款微型赛车。借助强化学习技术，这辆车能够自主学习驾驶，通过惩罚错误并最大化成功来不断提升性能。我们还将了解到如何将这些知识应用到各类赛事中，例如AI自动驾驶奥运会和RoboRace（使用全尺寸自动驾驶汽车）。额外福利：聆听**Anima Anandkumar（NVIDIA）和Chris Anderson（DIY Robocars创始人）**分享关于自动驾驶汽车行业未来发展方向的观点。

如何使用本仓库

首先，欢迎！我们很高兴您选择本书及其代码来深入学习深度学习。祝您学习之旅一切顺利。在使用本仓库时，请注意以下几点。

每章的代码都位于code文件夹中。
每章都有相应的README文件，其中提供了该章节的具体操作说明以及需要下载的数据信息。

请按照这些步骤，在Google Colab上加载GitHub仓库。请注意，您需要访问自己的Google Drive，因为我们将使用本地系统中的数据。

环境

本书将全程使用名为practicaldl的virtualenv环境。该环境的requirements.txt文件位于根目录下。有关安装virtualenv的帮助和说明，请参阅FAQ文档中的安装部分。

错误报告

请根据CONTRIBUTING提交问题，我们将进行调查。

关于作者

@AnirudhKoul 是一位知名的人工智能专家、联合国及TEDx演讲者，曾任微软人工智能与研究部门科学家，并在那里创立了Seeing AI，该产品常被认为是继iPhone之后盲人群体中最常用的技术之一。目前，Anirudh担任Aira公司的人工智能与研究负责人，该公司曾被《时代》杂志评为2018年最佳发明之一。他拥有超过十年的大规模生产型应用研究经验，处理过PB级别的数据集。他一直致力于利用人工智能技术开发增强现实、机器人、语音、生产力以及辅助功能等领域的解决方案。他在“AI向善”领域的工作被IEEE称为“改变生活的”，并获得了CES、FCC、麻省理工学院、戛纳狮子奖、美国盲人协会等多项大奖，相关成果还在联合国、世界经济论坛、白宫、英国上议院、Netflix、国家地理等重要场合展出，同时受到贾斯汀·特鲁多和特雷莎·梅等全球领导人的高度赞誉。

@SiddhaGanju，一位曾入选福布斯30岁以下精英榜的人工智能研究员，现为NVIDIA的自动驾驶架构师。作为NASA FDL的人工智能顾问，她协助构建了NASA CAMS项目的自动化流星探测流水线，最终促成了新彗星的发现。此前在Deep Vision工作期间，她曾为资源受限的边缘设备开发深度学习模型。她的研究涵盖视觉问答、生成对抗网络等多个方向，并从欧洲核子研究中心的PB级数据中提取洞见，相关成果多次发表于CVPR和NeurIPS等顶级会议。她还曾担任CES等多个国际科技竞赛的评委。作为一名倡导科技领域多元化与包容性的积极人士，她在学校和大学中发表演讲，激励来自不同背景的新一代科技人才成长。

@MeherKasam 是一位经验丰富的软件开发人员，其开发的应用每天服务数千万用户。目前他在Square公司担任iOS开发工程师，此前曾在微软和亚马逊工作，参与开发了包括Square POS系统和Bing iPhone应用在内的多项功能。他曾就职于微软，担任Seeing AI应用的移动开发负责人，该应用曾荣获移动世界大会、CES、美国盲人协会等诸多奖项和广泛认可。他天生是一名黑客，擅长快速原型设计，曾多次赢得黑客马拉松比赛，并将这些创意转化为实际产品中的功能。此外，他还担任Global Mobile Awards和Edison Awards等国际竞赛的评委。

引用

如果您使用我们的代码，请引用我们：

@book{Koul2019PracticalDLBook,
  title={云端、移动端与边缘端实用深度学习：基于Python、Keras和TensorFlow的现实世界AI与计算机视觉项目},
  author={Koul, A. and Ganju, S. and Kasam, M.},
  isbn={9781492034865},
  url={https://www.oreilly.com/library/view/practical-deep-learning/9781492034858/},
  year={2019},
  publisher={O'Reilly Media, Incorporated}
}

Practical-Deep-Learning-Book 快速上手指南

本指南基于 O'Reilly 出版物《Practical Deep Learning for Cloud, Mobile, and Edge》的官方代码仓库，旨在帮助开发者快速搭建环境并运行书中的深度学习实战项目。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux (推荐 Ubuntu 18.04+), macOS, 或 Windows (需使用 WSL2)。
Python 版本：Python 3.6 - 3.9 (推荐 Python 3.8)。
硬件要求：
- 基础章节：任意现代 CPU。
- 加速训练/推理章节：建议配备 NVIDIA GPU (需安装 CUDA 和 cuDNN)。
- 移动端/边缘端章节：如需实践 iOS/Android 或 Raspberry Pi 章节，需准备相应设备。
前置依赖：
- git：用于克隆代码仓库。
- pip 或 conda：用于管理 Python 包。

国内加速建议：推荐使用国内镜像源加速 Python 包下载（如清华源、阿里源），并在克隆仓库时使用 Gitee 镜像（如有）或配置 Git 代理。

安装步骤

1. 克隆代码仓库

git clone https://github.com/practicaldl/Practical-Deep-Learning-Book.git
cd Practical-Deep-Learning-Book

2. 创建虚拟环境

建议使用 conda 或 venv 隔离环境，避免依赖冲突。

使用 Conda (推荐):

conda create -n practical-dl python=3.8
conda activate practical-dl

使用 venv:

python3 -m venv venv
source venv/bin/activate  # Linux/macOS
# venv\Scripts\activate   # Windows

3. 安装依赖库

书中不同章节可能依赖不同的库（如 TensorFlow, PyTorch, CoreMLTools 等）。为了快速开始，建议先安装核心通用依赖。

使用 pip 安装（配置国内镜像）：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注：如果根目录没有统一的 requirements.txt，请进入具体章节目录（例如 code/chapter-2）安装该章特定的依赖：

cd code/chapter-2
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

提示：部分章节涉及特定平台工具（如 tensorflow-lite, coremltools, flask 等），请根据您想学习的章节进入对应文件夹安装依赖。

基本使用

本书以“动手实践”为核心，每个章节都是一个独立的教程。以下以 第二章：使用 Keras 进行图像分类 为例，演示如何运行最简单的示例。

1. 进入章节目录

cd code/chapter-2

2. 查看示例代码结构

该目录通常包含 Jupyter Notebook (.ipynb) 文件或 Python 脚本 (.py)。

Notebook 用户：直接启动 Jupyter Lab。
脚本用户：运行对应的 .py 文件。

3. 运行第一个示例 (图像分类)

方式 A：使用 Jupyter Notebook (推荐，便于交互学习)

jupyter lab

在浏览器中打开 chapter-2.ipynb (或类似名称的文件)，按顺序执行单元格。代码将自动下载示例数据集（如花卉图片），构建 Keras 模型并进行训练。

方式 B：直接运行 Python 脚本 如果目录下有独立的脚本文件（例如 image_classification.py）：

python image_classification.py

4. 预期输出

成功运行后，您将看到：

模型训练过程中的损失值 (loss) 和准确率 (accuracy) 日志。
生成的预测结果或可视化热力图（展示神经网络关注的图像区域）。
保存的模型文件（通常为 .h5 或 .keras 格式）。

下一步：完成基础章节后，您可以根据兴趣探索其他场景：

移动端部署：前往 code/chapter-11 (iOS/Core ML) 或 code/chapter-13 (Android/TFLite)。
云端服务：前往 code/chapter-9 学习如何使用 TensorFlow Serving 部署模型。
边缘计算：前往 code/chapter-15 探索 Raspberry Pi 或 Jetson Nano 上的 AI 应用。

常见问题

如何在 Caltech101/256 数据集上进行微调（Finetuning）和特征提取？

目标检测模型训练后推理效果差（无预测框或只有低阈值才有误报），该怎么办？

运行代码时遇到 'Invalid Argument Error' 或与 Keras generators 相关的报错如何解决？

如何为多标签（multi-label）数据集创建 TFRecords？

导入 tf_explain 库（如 GradCAM）时出现 AttributeError 错误怎么办？

如何使用 Flask 构建基于深度学习的图像搜索引擎？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

使用场景

没有 Practical-Deep-Learning-Book 时

使用 Practical-Deep-Learning-Book 后

运行环境要求

快速开始

云端、移动和边缘设备上的实用深度学习

目录

书籍简介

章节列表

如何使用本仓库

环境

错误报告

关于作者

引用

Practical-Deep-Learning-Book 快速上手指南

环境准备

安装步骤

1. 克隆代码仓库

2. 创建虚拟环境

3. 安装依赖库

基本使用

1. 进入章节目录

2. 查看示例代码结构

3. 运行第一个示例 (图像分类)

4. 预期输出

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

LLMs-from-scratch

Deep-Live-Cam