Deep-Reinforcement-Learning-Hands-On-Second-Edition

1.3k 571 中等 1 次阅读 3天前MIT其他

AI 解读由 AI 自动生成，仅供参考

Deep-Reinforcement-Learning-Hands-On-Second-Edition 是 Packt 出版的《深度强化学习实战》第二版配套开源代码库，旨在帮助读者通过动手实践掌握深度强化学习（DRL）的核心算法与应用。它解决了理论学习中“只懂原理难以上手”的痛点，提供了大量可运行的代码示例，覆盖从基础概念到复杂场景的完整学习路径。

该项目特别适合人工智能开发者、研究人员以及希望深入理解 DRL 技术的学生使用。无论是想复现经典论文算法，还是构建自己的智能体模型，都能从中获得直接支持。其独特亮点在于针对不同版本的 PyTorch 维护了多个代码分支（如 master、torch-1.3-book 等），有效解决了因框架升级导致的代码兼容性问题，确保示例能在指定环境下稳定运行。此外，项目详细提供了基于 Anaconda 的环境配置指南，帮助用户快速搭建包含 Python 3.7 和特定 CUDA 版本的开发环境，大幅降低了入门门槛。如果你希望在真实的代码环境中探索强化学习的奥秘，这是一个值得信赖的起点。

使用场景

某自动驾驶初创公司的算法工程师团队正试图从零构建一个基于深度强化学习的车辆变道决策模型，以应对复杂的城市交通流。

没有 Deep-Reinforcement-Learning-Hands-On-Second-Edition 时

环境配置耗时极长：团队成员需手动排查 PyTorch、CUDA 与各类强化学习库的版本兼容性，往往花费数天时间解决依赖冲突，导致项目启动严重滞后。
理论落地困难：工程师虽熟悉 DQN、PPO 等算法原理，但缺乏经过验证的参考代码，自行实现的模型常因细微的逻辑错误导致无法收敛，调试成本高昂。
复现基准缺失：由于缺乏统一的标准实现，不同成员编写的代码结构差异巨大，难以进行公平的性能对比和实验复现，阻碍了技术迭代。
版本迁移风险高：当尝试将旧代码迁移到新版 PyTorch 时，常因 API 变更引发未知报错，且无官方指导，极易陷入“改一个错出两个新错”的困境。

使用 Deep-Reinforcement-Learning-Hands-On-Second-Edition 后

一键搭建开发环境：利用其提供的 Conda 分支（如 torch-1.7），团队可在半小时内完成包含特定 PyTorch 版本的隔离环境部署，立即投入核心算法研发。
拥有高质量代码基准：直接复用书中经过严格测试的完整案例代码，快速理解从状态空间定义到奖励函数设计的工程细节，大幅缩短模型原型开发周期。
实验标准化与可复现：基于统一的代码库开展实验，确保了不同策略之间的对比公平性，团队成员能高效协作并快速验证新的改进思路。
平滑的版本升级路径：借助仓库中明确划分的代码分支（如 master 与 torch-1.3-book），团队能清晰掌握不同框架版本下的代码差异，安全地将实验成果迁移至最新生产环境。

Deep-Reinforcement-Learning-Hands-On-Second-Edition 通过提供经实战验证的代码骨架和清晰的环境管理方案，将团队从繁琐的基础设施搭建中解放出来，使其能专注于解决自动驾驶决策的核心难题。

运行环境要求

操作系统

未说明

GPU

非必需（取决于具体示例），需根据系统配置调整 CUDA 版本，示例命令中指定了 cudatoolkit=10.2

内存

未说明

依赖

notes推荐使用 Anaconda 创建虚拟环境。代码库包含多个分支以对应不同的 PyTorch 版本（如 master 分支对应 PyTorch 1.7，torch-1.3-book 分支对应书中印刷代码）。由于组件不兼容，书中印刷的代码可能与仓库中的代码存在差异。暂未测试 Python 3.7 以上的版本。

python3.7

pytorch==1.7

torchvision

torchaudio

cudatoolkit=10.2

Deep-Reinforcement-Learning-Hands-On-Second-Edition hero image

快速开始

深度强化学习实战（第二版）

深度强化学习实战（第二版），由Packt出版社出版

代码分支

该仓库会持续维护，以确保依赖版本保持最新。然而，在新版本上测试所有示例需要投入大量精力和时间，请耐心等待。

其逻辑如下：仓库中有多个代码分支，分别对应于经过测试的主要 PyTorch 版本。由于 PyTorch 及其他组件之间的兼容性问题，印刷版书籍中的代码可能与仓库中的代码有所不同。

目前，仓库提供以下分支：

master：包含使用最新测试过的 PyTorch 版本的代码。当前为 PyTorch 1.7。
torch-1.3-book：书籍中印刷的代码，并进行了少量错误修复。使用 PyTorch 1.3，该版本仅在 Conda 仓库中可用。
torch-1.7：PyTorch 1.7。此分支已测试完毕并合并到 master 分支。

所有分支均使用 Python 3.7，较新版本尚未进行测试。

依赖安装

建议使用 Anaconda 创建虚拟环境。安装完成后，按照以下步骤即可完成所有依赖的安装：

切换到本书仓库目录：cd Deep-Reinforcement-Learning-Hands-On-Second-Edition
使用 conda create -n rlbook python=3.7 创建虚拟环境
激活虚拟环境：conda activate rlbook
安装 PyTorch（请根据您的 CUDA 版本更新 CUDA 版本）：conda install pytorch==1.7 torchvision torchaudio cudatoolkit=10.2 -c pytorch
安装其余依赖：pip install requirements.txt

现在您已经准备好运行并尝试这些示例了！

Deep-Reinforcement-Learning-Hands-On-Second-Edition 快速上手指南

本指南基于《Deep Reinforcement Learning Hands-On (Second Edition)》官方代码库整理，旨在帮助开发者快速搭建深度强化学习环境并运行示例。

环境准备

操作系统：Linux / macOS / Windows (推荐 Linux)
Python 版本：严格限制为 Python 3.7（更高版本未经过测试，可能存在兼容性问题）
包管理工具：推荐使用 Anaconda 或 Miniconda 进行虚拟环境管理
深度学习框架：PyTorch 1.7 (主分支) 或 PyTorch 1.3 (书中原版代码)
GPU 支持：可选。若需使用 GPU 加速，请确保已安装对应的 NVIDIA 驱动和 CUDA Toolkit (示例中默认 CUDA 10.2)

注意：由于 PyTorch 版本迭代导致的 API 不兼容，书本印刷版中的代码可能与仓库中的最新代码存在差异。本指南以仓库最新测试通过的 master 分支（PyTorch 1.7）为准。

安装步骤

以下命令假设您已安装 Anaconda。为确保下载速度和稳定性，国内用户建议在配置 conda 和 pip 时使用国内镜像源（如清华源或阿里源）。

克隆仓库并进入目录

git clone https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition.git
cd Deep-Reinforcement-Learning-Hands-On-Second-Edition

创建虚拟环境 指定 Python 版本为 3.7：
```
conda create -n rlbook python=3.7
```
激活环境
```
conda activate rlbook
```

安装 PyTorch 方案 A：官方源（需根据本地 CUDA 版本调整 cudatoolkit 参数，若无 GPU 可去掉 cudatoolkit）

conda install pytorch==1.7 torchvision torchaudio cudatoolkit=10.2 -c pytorch

方案 B：国内镜像加速（推荐，以清华源为例，适配 CUDA 10.2）

conda install pytorch==1.7 torchvision torchaudio cudatoolkit=10.2 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

安装其他依赖 建议使用 pip 国内镜像加速安装：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

环境搭建完成后，您可以直接运行仓库中的示例脚本。代码库按章节组织，每个章节对应书中的不同强化学习算法。

最简单的运行示例：

假设您想运行第 5 章关于 DQN 的简单示例（具体文件名请以仓库实际目录结构为准，通常位于 Chapter05_... 目录下）：

# 进入对应章节目录，例如
cd Chapter05_DQN_Atari

# 运行训练脚本 (示例命令，具体参数视脚本而定)
python train_dqn.py --env PongNoFrameskip-v4

分支选择说明：

若希望体验最新修复和 PyTorch 1.7 特性，请保持在 master 分支（默认）。

若需严格复现书中印刷代码，可切换至 torch-1.3-book 分支：

git checkout torch-1.3-book
# 注意：切换分支后需重新安装对应版本的 PyTorch (1.3)

现在，您可以开始探索各个章节的强化学习实验了！

常见问题

运行第 8 章代码时遇到 'TypeError: Value at 0 of event_names should be a str or EventEnum' 错误怎么办？

安装 PTAN 时提示找不到 torch==1.3.0 版本怎么办？

运行 baseline.py 时遇到 'ValueError: Argument `epoch_length` should be defined if `data` is an iterator' 错误？

加载模型运行时出现 'Input type should be the same' 错误或维度不匹配错误？

这本书的第二版与第一版相比有哪些主要更新和新章节？

为什么本书使用 ptan 库而不是其他流行的强化学习库？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|1周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.8k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|1周前

开发框架其他