[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-datawhalechina--easy-rl":3,"tool-datawhalechina--easy-rl":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,2,"2026-04-18T11:00:28",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[19,14,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[18,13,14,20],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75940,"2026-04-19T21:42:30",[19,13,20,18],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":29,"last_commit_at":63,"category_tags":64,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,"2026-04-03T21:50:24",[20,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":29,"env_os":96,"env_gpu":97,"env_ram":97,"env_deps":98,"category_tags":101,"github_topics":102,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":116,"updated_at":117,"faqs":118,"releases":119},9967,"datawhalechina\u002Feasy-rl","easy-rl","强化学习中文教程（蘑菇书🍄），在线阅读地址：https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F","easy-rl（又称“蘑菇书”）是一套专为中文学习者打造的强化学习开源教程。它旨在解决强化学习理论晦涩难懂、优质中文资料分散的痛点，帮助初学者轻松跨越入门门槛。\n\n该教程以李宏毅教授幽默风趣的《深度强化学习》视频为核心骨架，巧妙融合了周博磊老师的理论纲要与李科浇老师的实战指南，构建了从基础概念到算法落地的完整知识体系。其独特亮点在于“理论 + 习题 + 代码”三位一体的学习模式：不仅章节内容循序渐进，还配备了精心设计的习题与可运行的算法实战代码，让读者能像马里奥吃蘑菇一样，在趣味探索中不断变强，真正掌握 Atari 游戏等经典案例背后的算法逻辑。\n\neasy-rl 非常适合人工智能领域的初学者、高校学生以及希望系统补充强化学习知识的开发者与研究人員。无论你是想从零开始理解强化学习原理，还是寻找配套的中文教学资料进行实践，这套由上海交通大学、牛津大学等名校博士生联合打磨的教程，都能为你提供专业且友好的指引。目前，该项目支持在线阅读、PDF 下载及纸质书购买，是中文社区公认的强化学习入门首选资源。","[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fissues) [![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fstargazers) [![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fnetwork) ![Downloads](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Fdatawhalechina\u002Feasy-rl\u002Ftotal)\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可协议\" style=\"border-width:0\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC%20BY--NC--SA%204.0-lightgrey\" \u002F>\u003C\u002Fa>\n\n\n# 蘑菇书EasyRL\n\n李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂，他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外，为了教程的完整性，我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。\n\n本教程也称为“蘑菇书”，寓意是希望此书能够为读者注入活力，让读者“吃”下这本蘑菇之后，能够饶有兴致地探索强化学习，像马里奥那样愈加强大，继而在人工智能领域觅得意外的收获。\n\n## 贡献者\n\n\u003Ctable border=\"0\">\n  \u003Ctbody>\n    \u003Ctr align=\"center\" >\n      \u003Ctd>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fqiwang067\">\u003Cimg width=\"70\" height=\"70\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_9879df051f28.png\" alt=\"pic\">\u003C\u002Fa>\u003Cbr>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fqiwang067\">Qi Wang\u003C\u002Fa> \n        \u003Cp>教程设计(第1~12章)\u003Cbr> 上海交通大学博士生\u003Cbr> 中国科学院大学硕士\u003C\u002Fp>\n      \u003C\u002Ftd>\n      \u003Ctd>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyyysjz1997\">\u003Cimg width=\"70\" height=\"70\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_729c1e452c7c.png\" alt=\"pic\">\u003C\u002Fa>\u003Cbr>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyyysjz1997\">Yiyuan Yang\u003C\u002Fa> \n        \u003Cp>习题设计&第13章 \u003Cbr> 牛津大学博士生\u003Cbr> 清华大学硕士\u003C\u002Fp>\n      \u003C\u002Ftd>\n      \u003Ctd>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FJohnJim0816\">\u003Cimg width=\"70\" height=\"70\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_a5b53f3ddcae.png\" alt=\"pic\">\u003C\u002Fa>\u003Cbr>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FJohnJim0816\">John Jim\u003C\u002Fa>\n         \u003Cp>算法实战\u003Cbr> 北京大学硕士\u003C\u002Fp>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n## 使用说明\n\n* 第 4 章到第 11 章为[李宏毅《深度强化学习》](http:\u002F\u002Fspeech.ee.ntu.edu.tw\u002F~tlkagk\u002Fcourses_MLDS18.html)的部分；\n* 第 1 章和第 2 章根据[《强化学习纲要》](https:\u002F\u002Fgithub.com\u002Fzhoubolei\u002FintroRL)整理而来；\n* 第 3 章和第 12 章根据[《世界冠军带你从零实践强化学习》](https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Feducation\u002Fgroup\u002Finfo\u002F1335) 整理而来。\n\n## 纸质版\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_083e8e2fad67.png\" width=\"300\">\n\n推荐购买链接：[京东](https:\u002F\u002Fitem.jd.com\u002F13075567.html) | [当当](http:\u002F\u002Fproduct.dangdang.com\u002F29374163.html) \n\n\u003Ctable border=\"0\">\n  \u003Ctbody>\n    \u003Ctr align=\"center\" >\n      \u003Ctd>\n         \u003Cimg width=\"120\" height=\"120\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_b7e1939578e0.jpg\" alt=\"pic\">\n        \u003Cbr>\n        \u003Cp>推荐京东扫码购买\u003C\u002Fp>\n              \u003C\u002Ftd>\n    \u003Ctd>\n    \u003Cimg width=\"120\" height=\"120\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_b5e8a37d38e7.png\" alt=\"pic\">\u003Cbr>\n    \u003Cp>当当扫码购买\u003C\u002Fp>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n豆瓣评分：https:\u002F\u002Fbook.douban.com\u002Fsubject\u002F35781275\u002F\n\n> [!IMPORTANT]\n**勘误修订表**：https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Ferrata\n\n## 在线阅读(内容实时更新)\n\n地址：https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F\n\n## 最新版PDF下载\n\n地址：https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Freleases\n\n国内地址：链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a\n\n压缩版(推荐网速较差的读者使用，文件小，图片分辨率较低)：链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1mUECyMKDZp-z4-CGjFhdAw 提取码: tzds \n\n## 纸质版和PDF版的区别\n\nPDF版本是全书初稿，人民邮电出版社的编辑老师们对初稿进行了反复修缮，最终诞生了纸质书籍，在此向人民邮电出版社的编辑老师的认真严谨表示衷心的感谢！（附：校对样稿）\n\n\u003Ccenter class=\"half\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_fdfdcd0da608.png\" width=\"680\">\u003C\u002Fcenter>\n\n## 内容导航\n\n| 章节                                                         | 习题                                                         | 相关项目                                                     | 配套代码                                                     |\n| ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |\n| [第一章 强化学习基础](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter1\u002Fchapter1) | [第一章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter1\u002Fchapter1_questions&keywords) |                                                              |                                                              |\n| [第二章 马尔可夫决策过程 (MDP)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter2\u002Fchapter2) | [第二章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter2\u002Fchapter2_questions&keywords) |                                                              | [值迭代算法](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FValue%20Iteration\u002Fvalue_iteration.ipynb) |\n| [第三章 表格型方法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter3\u002Fchapter3) | [第三章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter3\u002Fchapter3_questions&keywords) | [Q-learning算法实战](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter3\u002Fproject1) | [Q-learning](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Ftree\u002Fmaster\u002Fnotebooks\u002FQ-learning)，[Sarsa](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FSarsa.ipynb)，[蒙特卡洛](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FMonteCarlo.ipynb) |\n| [第四章 策略梯度](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter4\u002Fchapter4) | [第四章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter4\u002Fchapter4_questions&keywords) |                                                              | [策略梯度](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FPolicyGradient.ipynb) |\n| [第五章 近端策略优化 (PPO) 算法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter5\u002Fchapter5) | [第五章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter5\u002Fchapter5_questions&keywords) |                                                              | [PPO](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FPPO.ipynb) |\n| [第六章 DQN (基本概念)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter6\u002Fchapter6) | [第六章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter6\u002Fchapter6_questions&keywords) |                                                              | [DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDQN.ipynb) |\n| [第七章 DQN (进阶技巧)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter7\u002Fchapter7) | [第七章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter7\u002Fchapter7_questions&keywords) | [DQN算法实战](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter7\u002Fproject2) | [Double DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDoubleDQN.ipynb)，[Dueling DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDuelingDQN.ipynb)，[PER DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FPER_DQN.ipynb)，[Noisy DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FNoisyDQN.ipynb) |\n| [第八章 DQN (连续动作)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter8\u002Fchapter8) | [第八章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter8\u002Fchapter8_questions&keywords) |                                                              |                                                              |\n| [第九章 演员-评论员算法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter9\u002Fchapter9) | [第九章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter9\u002Fchapter9_questions&keywords) |                                                              | [A2C](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FA2C.ipynb) |\n| [第十章 稀疏奖励](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter10\u002Fchapter10) | [第十章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter10\u002Fchapter10_questions&keywords) |                                                              |                                                              |\n| [第十一章 模仿学习](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter11\u002Fchapter11) | [第十一章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter11\u002Fchapter11_questions&keywords) |                                                              |                                                              |\n| [第十二章 深度确定性策略梯度 (DDPG) 算法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter12\u002Fchapter12) | [第十二章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter12\u002Fchapter12_questions&keywords) | [DDPG算法实战](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter12\u002Fproject3) | [DDPG](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDDPG.ipynb) |\n| [第十三章 AlphaStar 论文解读](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter13\u002Fchapter13) |                                                              |                                                              |                                                              |\n| [ICLR'25 Oral 强化学习玩MineCraft](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter14\u002Fls-imagine) |                                                              |                                                              |                                                              |\n| [视觉强化学习论文清单（Awesome Visual RL）](https:\u002F\u002Fgithub.com\u002Fqiwang067\u002Fawesome-visual-rl) |                                                              |                                                              |                                                              |\n| [世界模型的本质](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter16\u002Fchapter16) |                                                              |                                                              |                                                              |\n## 算法实战\n\n算法实战部分包括附书代码和JoyRL代码：\n\n* [蘑菇书附书代码](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Ftree\u002Fmaster\u002Fnotebooks)\n* [JoyRL离线版](https:\u002F\u002Fgithub.com\u002Fjohnjim0816\u002Frl-tutorials\u002Ftree\u002Fmaster\u002Fjoyrl)\n* [JoyRL上线版](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fjoyrl)\n\n## 经典强化学习论文解读\n\n[点击](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Ftree\u002Fmaster\u002Fpapers)或者网页点击```papers```文件夹进入经典强化学习论文解读\n\n## 扩展资源\n- 对**强化学习玩我的世界（Minecraft）游戏**感兴趣的读者，可阅读 [LS-Imagine](https:\u002F\u002Fgithub.com\u002Fqiwang067\u002FLS-Imagine)\n- 对**视觉强化学习**感兴趣的读者，可阅读[Awesome Visual RL](https:\u002F\u002Fgithub.com\u002Fqiwang067\u002Fawesome-visual-rl)\n- 对**深度学习**感兴趣的读者，可阅读[李宏毅深度学习教程LeeDL-Tutorial](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fleedl-tutorial)\n\n## 相关视频内容\n\n* [《Datawhale强化学习教程》出版](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1rb4y1x7Zd\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n* [蘑菇书起源与RL入门指南](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1HZ4y1v7eX\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n* [蘑菇书开源组队学习活动](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Ha41197Pg\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n* [蘑菇书开源学习与成长](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1xW4y1B72o\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n\n\n## 引用信息\n\n```\n王琦，杨毅远，江季，Easy RL：强化学习教程，人民邮电出版社，https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl, 2022.\nQi Wang, Yiyuan Yang, Ji Jiang，Easy RL: Reinforcement Learning Tutorial，Posts & Telecom Press，https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl, 2022.\n```\n\n```bibtex\n@book{wang2022easyrl,\ntitle = {Easy RL：强化学习教程},\npublisher = {人民邮电出版社},\nyear = {2022},\nauthor = {王琦，杨毅远，江季},\naddress = {北京},\nisbn = {9787115584700},\nurl = {https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl}\n}\n```\n\n```bibtex\n@book{wang2022easyrl,\ntitle = {Easy RL: Reinforcement Learning Tutorial},\npublisher = {Posts & Telecom Press},\nyear = {2022},\nauthor = {Qi Wang, Yiyuan Yang, Ji Jiang},\naddress = {Beijing},\nisbn = {9787115584700},\nurl = {https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl}\n}\n```\n\n如果您需要转载该教程的内容，请注明出处：[https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl)。\n\n## 致谢\n\n特别感谢 [@Sm1les](https:\u002F\u002Fgithub.com\u002FSm1les)、[@LSGOMYP](https:\u002F\u002Fgithub.com\u002FLSGOMYP) 对本项目的帮助与支持。\n\n另外，十分感谢大家对于Easy-RL的关注。\n[![Stargazers repo roster for @datawhalechina\u002Feasy-rl](https:\u002F\u002Freporoster.com\u002Fstars\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fstargazers)\n[![Forkers repo roster for @datawhalechina\u002Feasy-rl](https:\u002F\u002Freporoster.com\u002Fforks\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fnetwork\u002Fmembers)\n\n## 关注我们\n扫描下方二维码关注公众号：Datawhale，回复关键词“Easy-RL”，即可加入“Easy-RL读者交流群”\n\u003Cdiv align=center>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_303cd5dfe9c5.jpeg\" width = \"250\" height = \"270\" alt=\"Datawhale是一个专注AI领域的开源组织，以“for the learner，和学习者一起成长”为愿景，构建对学习者最有价值的开源学习社区。关注我们，一起学习成长。\">\u003C\u002Fdiv>\n\n## LICENSE\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可协议\" style=\"border-width:0\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC%20BY--NC--SA%204.0-lightgrey\" \u002F>\u003C\u002Fa>\u003Cbr \u002F>本作品采用\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议\u003C\u002Fa>进行许可。\n\n## Star History\n[![Star History](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_cddd6a664975.png)](https:\u002F\u002Fstar-history.com\u002F#datawhalechina\u002Feasy-rl&Date)\n","[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fissues) [![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fstargazers) [![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fnetwork) ![Downloads](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Fdatawhalechina\u002Feasy-rl\u002Ftotal)\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可协议\" style=\"border-width:0\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC%20BY--NC--SA%204.0-lightgrey\" \u002F>\u003C\u002Fa>\n\n\n# 蘑菇书EasyRL\n\n李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂，他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外，为了教程的完整性，我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《世界冠军带你从零实践强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。\n\n本教程也称为“蘑菇书”，寓意是希望此书能够为读者注入活力，让读者“吃”下这本蘑菇之后，能够饶有兴致地探索强化学习，像马里奥那样愈加强大，继而在人工智能领域觅得意外的收获。\n\n## 贡献者\n\n\u003Ctable border=\"0\">\n  \u003Ctbody>\n    \u003Ctr align=\"center\" >\n      \u003Ctd>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fqiwang067\">\u003Cimg width=\"70\" height=\"70\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_9879df051f28.png\" alt=\"pic\">\u003C\u002Fa>\u003Cbr>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fqiwang067\">Qi Wang\u003C\u002Fa> \n        \u003Cp>教程设计(第1~12章)\u003Cbr> 上海交通大学博士生\u003Cbr> 中国科学院大学硕士\u003C\u002Fp>\n      \u003C\u002Ftd>\n      \u003Ctd>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyyysjz1997\">\u003Cimg width=\"70\" height=\"70\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_729c1e452c7c.png\" alt=\"pic\">\u003C\u002Fa>\u003Cbr>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyyysjz1997\">Yiyuan Yang\u003C\u002Fa> \n        \u003Cp>习题设计&第13章 \u003Cbr> 牛津大学博士生\u003Cbr> 清华大学硕士\u003C\u002Fp>\n      \u003C\u002Ftd>\n      \u003Ctd>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FJohnJim0816\">\u003Cimg width=\"70\" height=\"70\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_a5b53f3ddcae.png\" alt=\"pic\">\u003C\u002Fa>\u003Cbr>\n         \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FJohnJim0816\">John Jim\u003C\u002Fa>\n         \u003Cp>算法实战\u003Cbr> 北京大学硕士\u003C\u002Fp>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n## 使用说明\n\n* 第 4 章到第 11 章为[李宏毅《深度强化学习》](http:\u002F\u002Fspeech.ee.ntu.edu.tw\u002F~tlkagk\u002Fcourses_MLDS18.html)的部分；\n* 第 1 章和第 2 章根据[《强化学习纲要》](https:\u002F\u002Fgithub.com\u002Fzhoubolei\u002FintroRL)整理而来；\n* 第 3 章和第 12 章根据[《世界冠军带你从零实践强化学习》](https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Feducation\u002Fgroup\u002Finfo\u002F1335) 整理而来。\n\n## 纸质版\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_083e8e2fad67.png\" width=\"300\">\n\n推荐购买链接：[京东](https:\u002F\u002Fitem.jd.com\u002F13075567.html) | [当当](http:\u002F\u002Fproduct.dangdang.com\u002F29374163.html) \n\n\u003Ctable border=\"0\">\n  \u003Ctbody>\n    \u003Ctr align=\"center\" >\n      \u003Ctd>\n         \u003Cimg width=\"120\" height=\"120\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_b7e1939578e0.jpg\" alt=\"pic\">\n        \u003Cbr>\n        \u003Cp>推荐京东扫码购买\u003C\u002Fp>\n              \u003C\u002Ftd>\n    \u003Ctd>\n    \u003Cimg width=\"120\" height=\"120\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_b5e8a37d38e7.png\" alt=\"pic\">\u003Cbr>\n    \u003Cp>当当扫码购买\u003C\u002Fp>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n豆瓣评分：https:\u002F\u002Fbook.douban.com\u002Fsubject\u002F35781275\u002F\n\n> [!IMPORTANT]\n**勘误修订表**：https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Ferrata\n\n## 在线阅读(内容实时更新)\n\n地址：https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F\n\n## 最新版PDF下载\n\n地址：https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Freleases\n\n国内地址：链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a\n\n压缩版(推荐网速较差的读者使用，文件小，图片分辨率较低)：链接: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1mUECyMKDZp-z4-CGjFhdAw 提取码: tzds \n\n## 纸质版和PDF版的区别\n\nPDF版本是全书初稿，人民邮电出版社的编辑老师们对初稿进行了反复修缮，最终诞生了纸质书籍，在此向人民邮电出版社的编辑老师的认真严谨表示衷心的感谢！（附：校对样稿）\n\n\u003Ccenter class=\"half\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_fdfdcd0da608.png\" width=\"680\">\u003C\u002Fcenter>\n\n## 内容导航\n\n| 章节                                                         | 习题                                                         | 相关项目                                                     | 配套代码                                                     |\n| ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |\n| [第一章 强化学习基础](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter1\u002Fchapter1) | [第一章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter1\u002Fchapter1_questions&keywords) |                                                              |                                                              |\n| [第二章 马尔可夫决策过程 (MDP)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter2\u002Fchapter2) | [第二章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter2\u002Fchapter2_questions&keywords) |                                                              | [值迭代算法](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FValue%20Iteration\u002Fvalue_iteration.ipynb) |\n| [第三章 表格型方法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter3\u002Fchapter3) | [第三章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter3\u002Fchapter3_questions&keywords) | [Q-learning算法实战](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter3\u002Fproject1) | [Q-learning](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Ftree\u002Fmaster\u002Fnotebooks\u002FQ-learning)，[Sarsa](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FSarsa.ipynb)，[蒙特卡洛](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FMonteCarlo.ipynb) |\n| [第四章 策略梯度](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter4\u002Fchapter4) | [第四章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter4\u002Fchapter4_questions&keywords) |                                                              | [策略梯度](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FPolicyGradient.ipynb) |\n| [第五章 近端策略优化 (PPO) 算法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter5\u002Fchapter5) | [第五章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter5\u002Fchapter5_questions&keywords) |                                                              | [PPO](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FPPO.ipynb) |\n| [第六章 DQN (基本概念)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter6\u002Fchapter6) | [第六章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter6\u002Fchapter6_questions&keywords) |                                                              | [DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDQN.ipynb) |\n| [第七章 DQN (进阶技巧)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter7\u002Fchapter7) | [第七章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter7\u002Fchapter7_questions&keywords) | [DQN算法实战](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter7\u002Fproject2) | [Double DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDoubleDQN.ipynb)，[Dueling DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDuelingDQN.ipynb)，[PER DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FPER_DQN.ipynb)，[Noisy DQN](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FNoisyDQN.ipynb) |\n| [第八章 DQN (连续动作)](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter8\u002Fchapter8) | [第八章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter8\u002Fchapter8_questions&keywords) |                                                              |                                                              |\n| [第九章 演员-评论员算法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter9\u002Fchapter9) | [第九章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter9\u002Fchapter9_questions&keywords) |                                                              | [A2C](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FA2C.ipynb) |\n| [第十章 稀疏奖励](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter10\u002Fchapter10) | [第十章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter10\u002Fchapter10_questions&keywords) |                                                              |                                                              |\n| [第十一章 模仿学习](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter11\u002Fchapter11) | [第十一章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter11\u002Fchapter11_questions&keywords) |                                                              |                                                              |\n| [第十二章 深度确定性策略梯度 (DDPG) 算法](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter12\u002Fchapter12) | [第十二章 习题](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter12\u002Fchapter12_questions&keywords) | [DDPG算法实战](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter12\u002Fproject3) | [DDPG](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fblob\u002Fmaster\u002Fnotebooks\u002FDDPG.ipynb) |\n| [第十三章 AlphaStar 论文解读](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter13\u002Fchapter13) |                                                              |                                                              |                                                              |\n| [ICLR'25 Oral 强化学习玩MineCraft](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter14\u002Fls-imagine) |                                                              |                                                              |                                                              |\n| [视觉强化学习论文清单（Awesome Visual RL）](https:\u002F\u002Fgithub.com\u002Fqiwang067\u002Fawesome-visual-rl) |                                                              |                                                              |                                                              |\n| [世界模型的本质](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F#\u002Fchapter16\u002Fchapter16) |                                                              |                                                              |                                                              |\n## 算法实战\n\n算法实战部分包括附书代码和JoyRL代码：\n\n* [蘑菇书附书代码](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Ftree\u002Fmaster\u002Fnotebooks)\n* [JoyRL离线版](https:\u002F\u002Fgithub.com\u002Fjohnjim0816\u002Frl-tutorials\u002Ftree\u002Fmaster\u002Fjoyrl)\n* [JoyRL上线版](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fjoyrl)\n\n## 经典强化学习论文解读\n\n[点击](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Ftree\u002Fmaster\u002Fpapers)或者网页点击```papers```文件夹进入经典强化学习论文解读\n\n## 扩展资源\n- 对**强化学习玩我的世界（Minecraft）游戏**感兴趣的读者，可阅读 [LS-Imagine](https:\u002F\u002Fgithub.com\u002Fqiwang067\u002FLS-Imagine)\n- 对**视觉强化学习**感兴趣的读者，可阅读[Awesome Visual RL](https:\u002F\u002Fgithub.com\u002Fqiwang067\u002Fawesome-visual-rl)\n- 对**深度学习**感兴趣的读者，可阅读[李宏毅深度学习教程LeeDL-Tutorial](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fleedl-tutorial)\n\n## 相关视频内容\n\n* [《Datawhale强化学习教程》出版](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1rb4y1x7Zd\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n* [蘑菇书起源与RL入门指南](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1HZ4y1v7eX\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n* [蘑菇书开源组队学习活动](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Ha41197Pg\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n* [蘑菇书开源学习与成长](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1xW4y1B72o\u002F?spm_id_from=333.999.0.0&vd_source=642fa389e9e78cff4881c038963ac312)\n\n\n## 引用信息\n\n```\n王琦，杨毅远，江季，Easy RL：强化学习教程，人民邮电出版社，https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl, 2022.\nQi Wang, Yiyuan Yang, Ji Jiang，Easy RL: Reinforcement Learning Tutorial，Posts & Telecom Press，https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl, 2022。\n```\n\n```bibtex\n@book{wang2022easyrl,\ntitle = {Easy RL：强化学习教程},\npublisher = {人民邮电出版社},\nyear = {2022},\nauthor = {王琦，杨毅远，江季},\naddress = {北京},\nisbn = {9787115584700},\nurl = {https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl}\n}\n```\n\n```bibtex\n@book{wang2022easyrl,\ntitle = {Easy RL: Reinforcement Learning Tutorial},\npublisher = {Posts & Telecom Press},\nyear = {2022},\nauthor = {Qi Wang, Yiyuan Yang, Ji Jiang},\naddress = {Beijing},\nisbn = {9787115584700},\nurl = {https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl}\n}\n```\n\n如果您需要转载该教程的内容，请注明出处：[https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl)。\n\n## 致谢\n\n特别感谢 [@Sm1les](https:\u002F\u002Fgithub.com\u002FSm1les)、[@LSGOMYP](https:\u002F\u002Fgithub.com\u002FLSGOMYP) 对本项目的帮助与支持。\n\n另外，十分感谢大家对于Easy-RL的关注。\n[![Stargazers repo roster for @datawhalechina\u002Feasy-rl](https:\u002F\u002Freporoster.com\u002Fstars\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fstargazers)\n[![Forkers repo roster for @datawhalechina\u002Feasy-rl](https:\u002F\u002Freporoster.com\u002Fforks\u002Fdatawhalechina\u002Feasy-rl)](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Fnetwork\u002Fmembers)\n\n## 关注我们\n扫描下方二维码关注公众号：Datawhale，回复关键词“Easy-RL”，即可加入“Easy-RL读者交流群”\n\u003Cdiv align=center>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_303cd5dfe9c5.jpeg\" width = \"250\" height = \"270\" alt=\"Datawhale是一个专注AI领域的开源组织，以“for the learner，和学习者一起成长”为愿景，构建对学习者最有价值的开源学习社区。关注我们，一起学习成长。\">\u003C\u002Fdiv>\n\n## LICENSE\n\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">\u003Cimg alt=\"知识共享许可协议\" style=\"border-width:0\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-CC%20BY--NC--SA%204.0-lightgrey\" \u002F>\u003C\u002Fa>\u003Cbr \u002F>本作品采用\u003Ca rel=\"license\" href=\"http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F\">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议\u003C\u002Fa>进行许可。\n\n## Star History\n[![Star History](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_readme_cddd6a664975.png)](https:\u002F\u002Fstar-history.com\u002F#datawhalechina\u002Feasy-rl&Date)","# Easy-RL (蘑菇书) 快速上手指南\n\nEasy-RL（又称“蘑菇书”）是一本由 Datawhale 团队开源的强化学习中文教程，结合了李宏毅老师的深度强化学习视频、周博磊老师的强化学习纲要等经典资料。本指南将帮助你快速获取教程内容并运行配套代码。\n\n## 环境准备\n\n本教程主要包含在线阅读文档、PDF 书籍以及配套的 Jupyter Notebook 算法实战代码。运行代码示例需满足以下要求：\n\n*   **操作系统**：Windows \u002F macOS \u002F Linux\n*   **Python 版本**：推荐 Python 3.7 - 3.9\n*   **核心依赖**：\n    *   `jupyter` 或 `jupyterlab` (用于查看和运行笔记)\n    *   `numpy`, `matplotlib`\n    *   `gym` 或 `gymnasium` (强化学习环境)\n    *   `torch` (PyTorch，大部分深度学习算法基于此)\n\n## 安装步骤\n\n### 1. 获取项目代码\n推荐使用 Git 克隆项目仓库，以便获取最新的 Notebook 代码和资源。国内用户可使用 Gitee 镜像（如有）或配置 Git 加速，此处以官方 GitHub 为例：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl.git\ncd easy-rl\n```\n\n### 2. 安装依赖环境\n建议创建虚拟环境以避免依赖冲突。\n\n```bash\n# 创建虚拟环境 (可选)\npython -m venv rl_env\n# Windows 激活\nrl_env\\Scripts\\activate\n# macOS\u002FLinux 激活\nsource rl_env\u002Fbin\u002Factivate\n\n# 安装基础依赖\npip install jupyter numpy matplotlib gym torch\n```\n\n> **提示**：如果下载 `torch` 或 `gym` 速度较慢，推荐使用国内镜像源：\n> ```bash\n> pip install jupyter numpy matplotlib gym torch -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 基本使用\n\n### 方式一：在线阅读与 PDF 下载（理论学习）\n如果你仅需阅读教程内容，无需运行代码：\n*   **在线阅读**：访问 [https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F](https:\u002F\u002Fdatawhalechina.github.io\u002Feasy-rl\u002F) (内容实时更新)\n*   **PDF 下载**：前往 [GitHub Releases](https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Feasy-rl\u002Freleases) 或百度网盘下载最新版纸质书对应 PDF。\n\n### 方式二：运行算法实战代码（实践操作）\n项目中的 `notebooks` 文件夹包含了各章节对应的算法实现（如 Q-learning, DQN, PPO 等）。\n\n1.  **启动 Jupyter Notebook**\n    在项目根目录下执行：\n    ```bash\n    jupyter notebook\n    ```\n    浏览器将自动打开界面。\n\n2.  **选择章节笔记**\n    进入 `notebooks` 目录，根据学习进度选择对应的 `.ipynb` 文件。例如，学习第三章表格型方法时，可打开：\n    *   `Q-learning.ipynb`\n    *   `Sarsa.ipynb`\n    *   `MonteCarlo.ipynb`\n\n3.  **运行示例**\n    以 `notebooks\u002FQ-learning\u002FQ-learning.ipynb` 为例：\n    *   按顺序点击单元格旁的 \"Run\" 按钮（或按 `Shift + Enter`）。\n    *   代码会自动初始化 Gym 环境（如 `CartPole-v1` 或 `CliffWalking-v0`），训练智能体并绘制奖励曲线。\n\n    **简单代码逻辑预览**：\n    ```python\n    # 伪代码示例，具体请运行 Notebook 内单元格\n    import gym\n    from q_learning import QLearningAgent # 导入教程实现的算法\n\n    env = gym.make('CliffWalking-v0')\n    agent = QLearningAgent(...)\n\n    # 开始训练\n    for episode in range(500):\n        state = env.reset()\n        while True:\n            action = agent.sample_action(state)\n            next_state, reward, done, _ = env.step(action)\n            agent.learn(state, action, reward, next_state, done)\n            state = next_state\n            if done:\n                break\n    ```\n\n### 进阶实战：JoyRL\n如果需要更完整的工程化项目体验，可参考教程中提到的 JoyRL 框架：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdatawhalechina\u002Fjoyrl.git\ncd joyrl\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npython train.py --algorithm DQN --env CartPole-v1\n```","某高校人工智能实验室的硕士研究生李明，正试图复现一篇关于游戏 AI 的顶会论文，却因强化学习理论晦涩难懂而陷入停滞。\n\n### 没有 easy-rl 时\n- **理论门槛高**：直接阅读英文原版教材或纯数学推导论文，难以理解马尔可夫决策过程等核心概念，常常看了三页就不知所云。\n- **代码与理论脱节**：网上找到的开源代码缺乏详细注释和原理对应，不知道每一行代码背后对应的算法逻辑是什么，调试无从下手。\n- **学习资源碎片化**：需要在多个视频网站、博客和论坛间跳跃查找资料，缺乏系统性的中文知识体系，浪费大量时间在筛选信息上。\n- **实战反馈缺失**：缺乏配套的习题和分步实战指导，无法验证自己是否真正掌握了算法，导致“眼睛学会了，手还没会”。\n\n### 使用 easy-rl 后\n- **通俗原理解析**：借助李宏毅老师幽默风趣的视频讲解配合“蘑菇书”图文，通过玩 Atari 游戏等生动案例，轻松理解了复杂的强化学习理论。\n- **理论与代码对齐**：利用教程中提供的配套代码和详细注释，清晰地看到了算法公式如何转化为具体的 Python 实现，实现了从理论到实践的无缝衔接。\n- **系统化学习路径**：跟随整理好的《强化学习纲要》及经典资料章节，拥有了结构完整的中文学习地图，不再需要四处拼凑碎片化知识。\n- **闭环实战演练**：通过书中设计的专属习题和从零实践的指导，能够即时动手编写并调试算法，快速确认掌握程度并修正错误。\n\neasy-rl 将晦涩的强化学习理论转化为生动易懂的中文实战指南，帮助学习者像马里奥吃下蘑菇一样快速成长，高效跨越从入门到精通的鸿沟。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdatawhalechina_easy-rl_d3773b84.png","datawhalechina","Datawhale","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdatawhalechina_f57a6118.png","for the learner，和学习者一起成长",null,"https:\u002F\u002Fdatawhale.cn","https:\u002F\u002Fgithub.com\u002Fdatawhalechina",[84,88],{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",99.3,{"name":89,"color":90,"percentage":91},"Python","#3572A5",0.7,14034,2245,"2026-04-19T16:15:09","NOASSERTION","","未说明",{"notes":99,"python":97,"dependencies":100},"README 主要提供强化学习教程文档、PDF 下载及算法实战代码链接（如 Q-learning, PPO, DQN 等），未明确列出具体的运行环境配置、依赖库版本或硬件需求。建议参考 notebooks 文件夹中的具体代码文件以获取实际运行所需的依赖信息。",[],[18],[103,104,105,106,107,108,109,110,111,112,68,113,114,115],"deep-reinforcement-learning","reinforcement-learning","dqn","ppo","a3c","q-learning","sarsa","imitation-learning","policy-gradient","ddpg","double-dqn","dueling-dqn","td3","2026-03-27T02:49:30.150509","2026-04-20T12:55:29.879178",[],[120,125,129,134,139,144,149],{"id":121,"version":122,"summary_zh":123,"released_at":124},352247,"v1.0.6","修正若干错误 ^v^","2023-07-25T10:17:52",{"id":126,"version":127,"summary_zh":123,"released_at":128},352248,"v1.0.5","2023-07-15T14:55:48",{"id":130,"version":131,"summary_zh":132,"released_at":133},352249,"v1.0.4","修正若干错误 :)","2022-07-15T04:30:23",{"id":135,"version":136,"summary_zh":137,"released_at":138},352250,"v.1.0.3","更新若干内容 & 添加硬广","2022-03-01T08:17:02",{"id":140,"version":141,"summary_zh":142,"released_at":143},352251,"v1.0.2","EasyRL 全面翻译（包括图片）& 修正错误 & 优化排版","2021-09-25T10:20:02",{"id":145,"version":146,"summary_zh":147,"released_at":148},352252,"v1.0.1","Easy-RL 中的术语初步翻译 & 修正一些错误","2021-08-03T14:39:07",{"id":150,"version":151,"summary_zh":152,"released_at":153},352253,"v1.0.0","Easy-RL 第一版发布","2021-05-16T08:03:08"]