Advanced-Deep-Learning-with-Keras

2k 1k 中等 1 次阅读昨天MIT图像开发框架

AI 解读由 AI 自动生成，仅供参考

Advanced-Deep-Learning-with-Keras 是 Packt 出版社畅销书《Advanced Deep Learning with TensorFlow 2 and Keras》的配套开源代码库，旨在帮助开发者掌握前沿的深度学习技术。该项目完全基于 TensorFlow 2.0 和 Keras API 重构，提供了一套从基础到进阶的完整实战方案。

它主要解决了学习者在从理论迈向复杂 AI 应用时的代码实现难题。内容不仅涵盖多层感知机、卷积神经网络（CNN）和循环神经网络（RNN）等基础架构，更深入探讨了 ResNet、DenseNet 等深层网络设计。其独特的技术亮点在于包含了无监督学习、目标检测（SSD）、语义分割（FCN/PSPNet）等实用章节，并详细演示了生成对抗网络（GAN）、变分自编码器（VAE）的数据合成能力，以及深度强化学习（如 Deep Q-Learning）的核心算法实现。

这套资源非常适合具备一定 Python 基础的 AI 开发者、数据科学家及研究人员使用。通过书中提供的动手项目，用户可以在配备 NVIDIA GPU 的环境中，快速复现并理解如何构建具有生成能力和决策能力的先进 AI 系统，从而高效地将其应用于自己的创新项目中。

使用场景

某医疗影像初创公司的算法团队正致力于开发一套能自动识别皮肤病变并生成合成数据以扩充训练集的智能诊断系统。

没有 Advanced-Deep-Learning-with-Keras 时

团队需从零摸索变分自编码器（VAE）和生成对抗网络（GAN）的复杂架构，常因代码调试困难导致生成的合成病灶图像失真，无法用于实际训练。
在尝试引入语义分割技术（如 FCN）精准勾勒肿瘤边缘时，缺乏现成的最佳实践参考，导致模型收敛极慢且分割精度长期停滞不前。
面对深度强化学习（DRL）在动态诊疗路径规划中的应用需求，团队成员需自行推导策略梯度算法公式，研发周期被大幅拉长。
现有开源代码多基于过时的 TensorFlow 1.x 版本，迁移至 TensorFlow 2.0 Keras API 时频繁遭遇兼容性报错，严重拖慢项目进度。

使用 Advanced-Deep-Learning-with-Keras 后

直接复用书中经过验证的 VAE 与 GAN 实战项目，快速生成了高保真度的皮肤病变合成数据，显著提升了小样本场景下的模型泛化能力。
借助书中关于 FCN 和 PSPNet 的完整章节指导，迅速搭建起高精度的语义分割流水线，实现了对病灶区域的像素级精准定位。
利用书中提供的 Deep Q-Learning 和策略梯度方法代码模板，高效完成了智能诊疗决策模块的原型开发，将算法落地时间缩短了一半。
所有示例代码均已原生适配 TensorFlow 2.x Keras API，团队无需处理繁琐的版本迁移问题，直接在 GPU 环境中跑通了从 MLP 到 ResNet 的全套流程。

Advanced-Deep-Learning-with-Keras 通过提供前沿且可落地的代码实战方案，帮助团队跨越了从理论算法到高性能 AI 产品的鸿沟。

运行环境要求

操作系统

Linux

GPU

必需
至少需要 1 块 NVIDIA GPU（GTX 1060 或更高型号）
测试环境包括 GTX 1060, 1080Ti, RTX 2080Ti, V100, RTX Quadro 8000
配套 CUDA 版本为 10.2，NVIDIA 驱动版本 440.64

内存

未说明

依赖

notes1. 强烈建议使用 Conda 管理运行环境。2. 代码示例已更新仅支持 TensorFlow 2.0 Keras API。3. 若遇到 CUDA 库加载问题（如找不到 libcudart.so），可通过 conda 统一安装 tensorflow-gpu 以解决依赖冲突。4. 需要安装 graphviz 相关包 (python-pydot) 用于模型可视化。5. 需要安装 ffmpeg 用于处理视频或生成 GIF 动图。

python未说明 (通过 conda 环境安装)

tensorflow-gpu

keras

python-pydot

ffmpeg

numpy

scipy

matplotlib

pillow

h5py

Advanced-Deep-Learning-with-Keras hero image

快速开始

使用 TensorFlow 2 和 Keras 的高级深度学习（已更新至第二版）

这是使用 TensorFlow 2 和 Keras 的高级深度学习一书的代码仓库，由 Packt 出版。其中包含了从头到尾完成本书所需的所有支持项目文件。

请注意，代码示例已更新为仅支持 TensorFlow 2.0 的 Keras API。

关于本书

《使用 TensorFlow 2 和 Keras 的高级深度学习》第二版是对当前最畅销的高级深度学习技术指南的全面更新版本。针对 TensorFlow 2.x 进行了修订，本版通过新增关于利用互信息进行无监督学习、目标检测（SSD）以及语义分割（FCN 和 PSPNet）的章节，向读者介绍了深度学习的实践应用，帮助您创建属于自己的前沿人工智能项目。

本书以开源深度学习库 Keras 为基础，提供了大量动手实践项目，展示如何运用最新技术构建更高效的人工智能系统。

从多层感知机（MLP）、卷积神经网络（CNN）和循环神经网络（RNN）的概述开始，本书随后介绍了更为前沿的技术，包括 ResNet 和 DenseNet 等深度神经网络架构，以及自编码器的构建方法。接下来，您将学习生成对抗网络（GAN），了解其如何提升人工智能性能至全新水平。

随后，您将探索变分自编码器（VAE）的实现方式，并理解 GAN 和 VAE 如何具备生成能力，能够合成对人类极具说服力的数据。此外，您还将学习实现深度强化学习，例如深度 Q 学习和策略梯度方法，这些技术是现代人工智能领域诸多突破性成果的关键所在。

安装说明

建议在 conda 环境中运行。请从以下链接下载 Anaconda：Anaconda。安装 Anaconda 的命令如下：

sh <name-of-downloaded-Anaconda3-installer>

需要至少配备一块 NVIDIA GPU（1060 或更高型号）的机器。代码示例已在 Ubuntu 18.04 LTS 上的 1060、1080Ti、RTX 2080Ti、V100 和 RTX Quadro 8000 上进行了测试。以下是安装 NVIDIA 驱动程序和 CuDNN 以启用 GPU 支持的大致步骤：

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo ubuntu-drivers autoinstall
sudo reboot
nvidia-smi

截至撰写本文时，nvidia-smi 显示 NVIDIA 驱动程序版本为 440.64，CUDA 版本为 10.2。

我们已经接近完成。最后还需要安装以下软件包，部分步骤可能需要 sudo 权限：

conda create --name packt
conda activate packt
cd <github-dir>
git clone https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras
cd Advanced-Deep-Learning-with-Keras
pip install -r requirements.txt
sudo apt-get install python-pydot
sudo apt-get install ffmpeg

测试是否可以成功训练一个简单模型：

cd chapter1-keras-quick-tour
python3 mlp-mnist-1.3.2.py

最终输出显示，该模型在 MNIST 测试集上的准确率约为 98.2%。

TensorFlow 的替代安装方法

如果您在使用 CUDA 库时遇到问题（例如 tf 无法加载或找不到 libcudart.so.10.X），可以通过 conda 一起安装 TensorFlow 和 CUDA 库：

pip uninstall tensorflow-gpu
conda install -c anaconda tensorflow-gpu

《使用 TensorFlow 2 和 Keras 的高级深度学习》（亚马逊链接：https://amzn.to/2wotTnN）一书中使用的代码示例。

第 1 章 - 简介

第 2 章 - 深度网络

第 3 章 - 自编码器

去噪自编码器

随机数字的示例输出：

随机数字

色彩化自编码器

随机 CIFAR10 图像的示例输出：

色彩化图像

第 4 章 - 生成对抗网络（GAN）

深度卷积生成对抗网络（DCGAN）

Radford, Alec, Luke Metz 和 Soumith Chintala. “使用深度卷积生成对抗网络进行无监督表征学习。” arXiv 预印本 arXiv:1511.06434 (2015)。

随机数字的示例输出：

随机数字

条件生成对抗网络（CGAN）

Mirza, Mehdi 和 Simon Osindero. “条件生成对抗网络。” arXiv 预印本 arXiv:1411.1784 (2014)。

数字 0 至 9 的示例输出：

零到九

第5章 - 改进的GAN

Wasserstein GAN (WGAN)

Arjovsky, Martin, Soumith Chintala, and Léon Bottou. "Wasserstein GAN." arXiv预印本 arXiv:1701.07875 (2017)。

随机数字的示例输出：

随机数字

最小二乘GAN (LSGAN)

Mao, Xudong, 等. "最小二乘生成对抗网络." 2017 IEEE国际计算机视觉会议（ICCV）。IEEE，2017年。

随机数字的示例输出：

随机数字

辅助分类器GAN (ACGAN)

Odena, Augustus, Christopher Olah, 和 Jonathon Shlens. "条件图像生成与辅助分类器GAN。第34届国际机器学习大会论文集，澳大利亚悉尼，PMLR 70，2017年。"

数字0到9的示例输出：

零到九

第6章 - 具有解耦潜在表示的GAN

信息最大化GAN (InfoGAN)

Chen, Xi, 等. "InfoGAN：通过信息最大化生成对抗网络实现可解释的表征学习。" 神经信息处理系统进展。2016年。

数字0到9的示例输出：

零到九

堆叠GAN

Huang, Xun, 等. "堆叠式生成对抗网络." IEEE计算机视觉与模式识别会议（CVPR）。第2卷，2017年。

数字0到9的示例输出：

零到九

第7章 - 跨域GAN

CycleGAN

Zhu, Jun-Yan, 等. "使用循环一致性对抗网络进行无配对图像到图像的转换." 2017 IEEE国际计算机视觉会议（ICCV）。IEEE，2017年。

随机cifar10图像的示例输出：

上色图像

MNIST到SVHN的示例输出：

MNIST2SVHN

第8章 - 变分自编码器（VAE）

Kingma, Diederik P., 和 Max Welling. "自动编码变分贝叶斯." arXiv预印本 arXiv:1312.6114 (2013)。

Sohn, Kihyuk, Honglak Lee, 和 Xinchen Yan. "利用深度条件生成模型学习结构化输出表示." 神经信息处理系统进展。2015年。

I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, 和 A. Lerchner. β-VAE：使用约束变分框架学习基本视觉概念。ICLR，2017年。

通过导航潜在空间生成的MNIST：

MNIST

第9章 - 深度强化学习

Mnih, Volodymyr, 等. "通过深度强化学习实现人类水平控制." Nature 518.7540 (2015): 529

Cartpole环境下的DQN：

Cartpole

第10章 - 策略梯度方法

REINFORCE、带基线的REINFORCE、Actor-Critic、A2C

Sutton和Barto，《强化学习：导论》

Mnih, Volodymyr, 等. "深度强化学习的异步方法." 国际机器学习会议，2016年。

MountainCar连续环境下的策略梯度：

Car

第11章 - 目标检测

单次检测

对3个目标的单次检测 SSD

第12章 - 语义分割

FCN
PSPNet

语义分割

第13章 - 基于互信息的无监督学习

MINE MINE

引用

如果您觉得这项工作有用，请引用：

@book{atienza2020advanced,
  title={使用TensorFlow 2和Keras的高级深度学习：应用深度学习、GAN、VAE、深度强化学习、无监督学习、目标检测和分割等},
  author={Atienza, Rowel},
  year={2020},
  publisher={Packt Publishing Ltd}
}

Advanced-Deep-Learning-with-Keras 快速上手指南

本指南基于《Advanced Deep Learning with TensorFlow 2 and Keras (2nd Edition)》配套代码库，帮助开发者快速搭建环境并运行示例。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: 推荐 Ubuntu 18.04 LTS 或更高版本（Linux 环境对 GPU 支持最友好）。
硬件要求:
- 至少配备 1 块 NVIDIA GPU（推荐 GTX 1060 或更高型号，如 1080Ti, RTX 2080Ti, V100 等）。
- 若仅使用 CPU 运行，速度将显著降低且部分大型模型可能无法训练。
软件依赖:
- Anaconda: 用于管理 Python 环境和依赖包。
- NVIDIA Driver & CUDA: 需安装匹配的显卡驱动和 CUDA 工具包（原文测试环境为 Driver 440.64 + CUDA 10.2）。
- 系统工具: python-pydot, ffmpeg (用于生成动图演示)。

国内加速建议：

下载 Anaconda 可使用清华镜像源：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

安装 Python 包时，建议临时切换至国内 pip 源（如阿里云或清华源）以加快下载速度。

安装步骤

以下步骤将创建一个独立的 Conda 环境并安装所有必要依赖。

1. 安装 Anaconda

下载并运行安装脚本（以 Linux 为例）：

sh <name-of-downloaded-Anaconda3-installer>

2. 配置 NVIDIA 驱动与 CUDA (Linux)

如果您尚未安装驱动，可参考以下命令自动安装（需 sudo 权限）：

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo ubuntu-drivers autoinstall
sudo reboot

重启后验证驱动状态：

nvidia-smi

3. 创建 Conda 环境并克隆代码

# 创建名为 packt 的新环境
conda create --name packt

# 激活环境
conda activate packt

# 进入目标目录并克隆仓库
cd <github-dir>
git clone https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras
cd Advanced-Deep-Learning-with-Keras

4. 安装项目依赖

# 安装 requirements.txt 中的依赖
# 提示：若下载缓慢，可添加 -i https://pypi.tuna.tsinghua.edu.cn/simple 参数
pip install -r requirements.txt

# 安装系统级辅助工具
sudo apt-get install python-pydot
sudo apt-get install ffmpeg

5. 备选方案：解决 CUDA 库问题

如果在运行时遇到 libcudart.so 找不到或 TensorFlow 无法加载 GPU 的错误，建议使用 Conda 统一安装 TensorFlow-GPU：

pip uninstall tensorflow-gpu
conda install -c anaconda tensorflow-gpu

基本使用

安装完成后，可以通过运行第一章的简单示例来验证环境是否配置成功。该示例将在 MNIST 数据集上训练一个多层感知机（MLP）。

运行第一个示例

cd chapter1-keras-quick-tour
python3 mlp-mnist-1.3.2.py

预期结果

程序将开始训练模型。训练完成后，终端应输出类似以下信息，显示模型在 MNIST 测试集上的准确率约为 98.2%：

...
Test accuracy: 0.982

探索更多示例

本项目按书籍章节组织了丰富的深度学习案例，您可以直接运行对应章节的脚本：

CNN/RNN: chapter1-keras-quick-tour/cnn-mnist-1.4.1.py
ResNet/DenseNet: chapter2-deep-networks/resnet-cifar10-2.2.1.py
GAN (生成对抗网络): chapter4-gan/dcgan-mnist-4.2.1.py
VAE (变分自编码器): chapter8-vae/vae-mlp-mnist-8.1.1.py
强化学习 (DQN): chapter9-drl/dqn-cartpole-9.6.1.py

所有生成的图像结果（如去噪图片、生成的人脸、游戏演示 GIF）通常保存在各章节下的 saved_images 或 images 文件夹中。

常见问题

在自定义数据集上运行图像分割训练时遇到 OOM（显存溢出）错误或类别数量不匹配怎么办？

CVAE 模型训练后，测试集上的 z_mean 编码值全部相同且不符合正态分布，这是为什么？

SSD 模型中 `get_n_boxes` 函数计算锚框数量的公式 `np.prod(shape) // self.n_anchors` 是否正确？是否应该乘以锚框数？

运行 DCGAN 代码时报错 'You must feed a value for placeholder tensor discriminator_input' 如何解决？

在 Windows 系统上运行 DCGAN、CGAN 或 WGAN 模型时出现 InvalidArgumentError 怎么办？

修改 SSD 模型的锚框纵横比（aspect ratio）后，检测框数量计算出错的原因是什么？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 155.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 Advanced-Deep-Learning-with-Keras 时

使用 Advanced-Deep-Learning-with-Keras 后

运行环境要求

快速开始

使用 TensorFlow 2 和 Keras 的高级深度学习（已更新至第二版）

关于本书

相关产品

安装说明

TensorFlow 的替代安装方法

《使用 TensorFlow 2 和 Keras 的高级深度学习》（亚马逊链接：https://amzn.to/2wotTnN）一书中使用的代码示例。

引用

Advanced-Deep-Learning-with-Keras 快速上手指南

环境准备

安装步骤

1. 安装 Anaconda

2. 配置 NVIDIA 驱动与 CUDA (Linux)

3. 创建 Conda 环境并克隆代码

4. 安装项目依赖

5. 备选方案：解决 CUDA 库问题

基本使用

运行第一个示例

预期结果

探索更多示例

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown