easy-rl

14k 2.2k 非常简单 1 次阅读今天NOASSERTION其他

AI 解读由 AI 自动生成，仅供参考

easy-rl（又称“蘑菇书”）是一套专为中文学习者打造的强化学习开源教程。它旨在解决强化学习理论晦涩难懂、优质中文资料分散的痛点，帮助初学者轻松跨越入门门槛。

该教程以李宏毅教授幽默风趣的《深度强化学习》视频为核心骨架，巧妙融合了周博磊老师的理论纲要与李科浇老师的实战指南，构建了从基础概念到算法落地的完整知识体系。其独特亮点在于“理论 + 习题 + 代码”三位一体的学习模式：不仅章节内容循序渐进，还配备了精心设计的习题与可运行的算法实战代码，让读者能像马里奥吃蘑菇一样，在趣味探索中不断变强，真正掌握 Atari 游戏等经典案例背后的算法逻辑。

easy-rl 非常适合人工智能领域的初学者、高校学生以及希望系统补充强化学习知识的开发者与研究人員。无论你是想从零开始理解强化学习原理，还是寻找配套的中文教学资料进行实践，这套由上海交通大学、牛津大学等名校博士生联合打磨的教程，都能为你提供专业且友好的指引。目前，该项目支持在线阅读、PDF 下载及纸质书购买，是中文社区公认的强化学习入门首选资源。

使用场景

某高校人工智能实验室的硕士研究生李明，正试图复现一篇关于游戏 AI 的顶会论文，却因强化学习理论晦涩难懂而陷入停滞。

没有 easy-rl 时

理论门槛高：直接阅读英文原版教材或纯数学推导论文，难以理解马尔可夫决策过程等核心概念，常常看了三页就不知所云。
代码与理论脱节：网上找到的开源代码缺乏详细注释和原理对应，不知道每一行代码背后对应的算法逻辑是什么，调试无从下手。
学习资源碎片化：需要在多个视频网站、博客和论坛间跳跃查找资料，缺乏系统性的中文知识体系，浪费大量时间在筛选信息上。
实战反馈缺失：缺乏配套的习题和分步实战指导，无法验证自己是否真正掌握了算法，导致“眼睛学会了，手还没会”。

使用 easy-rl 后

通俗原理解析：借助李宏毅老师幽默风趣的视频讲解配合“蘑菇书”图文，通过玩 Atari 游戏等生动案例，轻松理解了复杂的强化学习理论。
理论与代码对齐：利用教程中提供的配套代码和详细注释，清晰地看到了算法公式如何转化为具体的 Python 实现，实现了从理论到实践的无缝衔接。
系统化学习路径：跟随整理好的《强化学习纲要》及经典资料章节，拥有了结构完整的中文学习地图，不再需要四处拼凑碎片化知识。
闭环实战演练：通过书中设计的专属习题和从零实践的指导，能够即时动手编写并调试算法，快速确认掌握程度并修正错误。

easy-rl 将晦涩的强化学习理论转化为生动易懂的中文实战指南，帮助学习者像马里奥吃下蘑菇一样快速成长，高效跨越从入门到精通的鸿沟。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesREADME 主要提供强化学习教程文档、PDF 下载及算法实战代码链接（如 Q-learning, PPO, DQN 等），未明确列出具体的运行环境配置、依赖库版本或硬件需求。建议参考 notebooks 文件夹中的具体代码文件以获取实际运行所需的依赖信息。

python未说明

快速开始

Downloads

蘑菇书EasyRL

李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂，他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外，为了教程的完整性，我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

本教程也称为“蘑菇书”，寓意是希望此书能够为读者注入活力，让读者“吃”下这本蘑菇之后，能够饶有兴致地探索强化学习，像马里奥那样愈加强大，继而在人工智能领域觅得意外的收获。

贡献者

Qi Wang

教程设计(第1~12章)
上海交通大学博士生
中国科学院大学硕士

Yiyuan Yang

习题设计&第13章
牛津大学博士生
清华大学硕士

John Jim

算法实战
北京大学硕士

使用说明

第 4 章到第 11 章为李宏毅《深度强化学习》的部分；
第 1 章和第 2 章根据《强化学习纲要》整理而来；
第 3 章和第 12 章根据《世界冠军带你从零实践强化学习》整理而来。

纸质版

推荐购买链接：京东 | 当当

推荐京东扫码购买

当当扫码购买

豆瓣评分：https://book.douban.com/subject/35781275/

[!IMPORTANT] 勘误修订表：https://datawhalechina.github.io/easy-rl/#/errata

在线阅读(内容实时更新)

地址：https://datawhalechina.github.io/easy-rl/

纸质版和PDF版的区别

PDF版本是全书初稿，人民邮电出版社的编辑老师们对初稿进行了反复修缮，最终诞生了纸质书籍，在此向人民邮电出版社的编辑老师的认真严谨表示衷心的感谢！（附：校对样稿）

内容导航

章节	习题	相关项目	配套代码
第一章强化学习基础	第一章习题
第二章马尔可夫决策过程 (MDP)	第二章习题		值迭代算法
第三章表格型方法	第三章习题	Q-learning算法实战	Q-learning，Sarsa，蒙特卡洛
第四章策略梯度	第四章习题		策略梯度
第五章近端策略优化 (PPO) 算法	第五章习题		PPO
第六章 DQN (基本概念)	第六章习题		DQN
第七章 DQN (进阶技巧)	第七章习题	DQN算法实战	Double DQN，Dueling DQN，PER DQN，Noisy DQN
第八章 DQN (连续动作)	第八章习题
第九章演员-评论员算法	第九章习题		A2C
第十章稀疏奖励	第十章习题
第十一章模仿学习	第十一章习题
第十二章深度确定性策略梯度 (DDPG) 算法	第十二章习题	DDPG算法实战	DDPG
第十三章 AlphaStar 论文解读
ICLR'25 Oral 强化学习玩MineCraft
视觉强化学习论文清单（Awesome Visual RL）
世界模型的本质

算法实战

算法实战部分包括附书代码和JoyRL代码：

经典强化学习论文解读

点击或者网页点击papers文件夹进入经典强化学习论文解读

扩展资源

对强化学习玩我的世界（Minecraft）游戏感兴趣的读者，可阅读 LS-Imagine
对视觉强化学习感兴趣的读者，可阅读Awesome Visual RL
对深度学习感兴趣的读者，可阅读李宏毅深度学习教程LeeDL-Tutorial

引用信息

王琦，杨毅远，江季，Easy RL：强化学习教程，人民邮电出版社，https://github.com/datawhalechina/easy-rl, 2022.
Qi Wang, Yiyuan Yang, Ji Jiang，Easy RL: Reinforcement Learning Tutorial，Posts & Telecom Press，https://github.com/datawhalechina/easy-rl, 2022。

@book{wang2022easyrl,
title = {Easy RL：强化学习教程},
publisher = {人民邮电出版社},
year = {2022},
author = {王琦，杨毅远，江季},
address = {北京},
isbn = {9787115584700},
url = {https://github.com/datawhalechina/easy-rl}
}

@book{wang2022easyrl,
title = {Easy RL: Reinforcement Learning Tutorial},
publisher = {Posts & Telecom Press},
year = {2022},
author = {Qi Wang, Yiyuan Yang, Ji Jiang},
address = {Beijing},
isbn = {9787115584700},
url = {https://github.com/datawhalechina/easy-rl}
}

如果您需要转载该教程的内容，请注明出处：https://github.com/datawhalechina/easy-rl。

致谢

特别感谢 @Sm1les、@LSGOMYP 对本项目的帮助与支持。

另外，十分感谢大家对于Easy-RL的关注。

关注我们

扫描下方二维码关注公众号：Datawhale，回复关键词“Easy-RL”，即可加入“Easy-RL读者交流群”

LICENSE

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

Star History

Easy-RL (蘑菇书) 快速上手指南

Easy-RL（又称“蘑菇书”）是一本由 Datawhale 团队开源的强化学习中文教程，结合了李宏毅老师的深度强化学习视频、周博磊老师的强化学习纲要等经典资料。本指南将帮助你快速获取教程内容并运行配套代码。

环境准备

本教程主要包含在线阅读文档、PDF 书籍以及配套的 Jupyter Notebook 算法实战代码。运行代码示例需满足以下要求：

操作系统：Windows / macOS / Linux
Python 版本：推荐 Python 3.7 - 3.9
核心依赖：
- jupyter 或 jupyterlab (用于查看和运行笔记)
- numpy, matplotlib
- gym 或 gymnasium (强化学习环境)
- torch (PyTorch，大部分深度学习算法基于此)

安装步骤

1. 获取项目代码

推荐使用 Git 克隆项目仓库，以便获取最新的 Notebook 代码和资源。国内用户可使用 Gitee 镜像（如有）或配置 Git 加速，此处以官方 GitHub 为例：

git clone https://github.com/datawhalechina/easy-rl.git
cd easy-rl

2. 安装依赖环境

建议创建虚拟环境以避免依赖冲突。

# 创建虚拟环境 (可选)
python -m venv rl_env
# Windows 激活
rl_env\Scripts\activate
# macOS/Linux 激活
source rl_env/bin/activate

# 安装基础依赖
pip install jupyter numpy matplotlib gym torch

提示：如果下载 torch 或 gym 速度较慢，推荐使用国内镜像源：
pip install jupyter numpy matplotlib gym torch -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

方式一：在线阅读与 PDF 下载（理论学习）

如果你仅需阅读教程内容，无需运行代码：

在线阅读：访问 https://datawhalechina.github.io/easy-rl/ (内容实时更新)
PDF 下载：前往 GitHub Releases 或百度网盘下载最新版纸质书对应 PDF。

方式二：运行算法实战代码（实践操作）

项目中的 notebooks 文件夹包含了各章节对应的算法实现（如 Q-learning, DQN, PPO 等）。

启动 Jupyter Notebook 在项目根目录下执行：
```
jupyter notebook
```
浏览器将自动打开界面。
选择章节笔记 进入 notebooks 目录，根据学习进度选择对应的 .ipynb 文件。例如，学习第三章表格型方法时，可打开：
- Q-learning.ipynb
- Sarsa.ipynb
- MonteCarlo.ipynb

运行示例 以 notebooks/Q-learning/Q-learning.ipynb 为例：

按顺序点击单元格旁的 "Run" 按钮（或按 Shift + Enter）。
代码会自动初始化 Gym 环境（如 CartPole-v1 或 CliffWalking-v0），训练智能体并绘制奖励曲线。

简单代码逻辑预览：

# 伪代码示例，具体请运行 Notebook 内单元格
import gym
from q_learning import QLearningAgent # 导入教程实现的算法

env = gym.make('CliffWalking-v0')
agent = QLearningAgent(...)

# 开始训练
for episode in range(500):
    state = env.reset()
    while True:
        action = agent.sample_action(state)
        next_state, reward, done, _ = env.step(action)
        agent.learn(state, action, reward, next_state, done)
        state = next_state
        if done:
            break

进阶实战：JoyRL

如果需要更完整的工程化项目体验，可参考教程中提到的 JoyRL 框架：

git clone https://github.com/datawhalechina/joyrl.git
cd joyrl
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
python train.py --algorithm DQN --env CartPole-v1

版本历史

v1.0.62023/07/25

v1.0.52023/07/15

v1.0.42022/07/15

v.1.0.32022/03/01

v1.0.22021/09/25

v1.0.12021/08/03

v1.0.02021/05/16

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|2天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2周前

开发框架其他