[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-dennybritz--reinforcement-learning":3,"tool-dennybritz--reinforcement-learning":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,2,"2026-04-12T11:33:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":76,"owner_location":77,"owner_email":76,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":80,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":32,"env_os":92,"env_gpu":93,"env_ram":94,"env_deps":95,"category_tags":101,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":103,"updated_at":104,"faqs":105,"releases":106},6873,"dennybritz\u002Freinforcement-learning","reinforcement-learning","Implementation of Reinforcement Learning Algorithms. Python, OpenAI Gym, Tensorflow. Exercises and Solutions to accompany Sutton's Book and David Silver's course.","reinforcement-learning 是一个专为强化学习爱好者打造的开源代码库，旨在通过实战练习帮助开发者深入理解这一前沿领域。它完整实现了从基础动态规划、蒙特卡洛方法到时序差分学习（如 SARSA、Q-Learning），再到深度强化学习（如 DQN、A3C）等经典算法，有效解决了理论学习中“只懂公式难以上手”的痛点。\n\n该项目紧密配合理查德·萨顿的经典教材《强化学习导论》及大卫·席尔瓦的著名课程，将每个章节的理论知识转化为可运行的 Python 代码。用户不仅能获取算法的标准实现，还能通过配套的习题与解答、学习目标梳理及概念总结，系统地掌握从马尔可夫决策过程到策略梯度方法的完整知识体系。\n\n技术层面，reinforcement-learning 基于 OpenAI Gym 构建标准化训练环境，并利用 TensorFlow 实现复杂的神经网络架构，确保了代码的规范性与扩展性。无论是希望夯实理论基础的学生、从事算法研究的研究人员，还是想要快速原型验证的 AI 开发者，都能从中获得极大的助益。如果你正打算踏入强化学习的大门，或寻求一份高质量的算法参考实现，这将是你不可或缺的学习伴","reinforcement-learning 是一个专为强化学习爱好者打造的开源代码库，旨在通过实战练习帮助开发者深入理解这一前沿领域。它完整实现了从基础动态规划、蒙特卡洛方法到时序差分学习（如 SARSA、Q-Learning），再到深度强化学习（如 DQN、A3C）等经典算法，有效解决了理论学习中“只懂公式难以上手”的痛点。\n\n该项目紧密配合理查德·萨顿的经典教材《强化学习导论》及大卫·席尔瓦的著名课程，将每个章节的理论知识转化为可运行的 Python 代码。用户不仅能获取算法的标准实现，还能通过配套的习题与解答、学习目标梳理及概念总结，系统地掌握从马尔可夫决策过程到策略梯度方法的完整知识体系。\n\n技术层面，reinforcement-learning 基于 OpenAI Gym 构建标准化训练环境，并利用 TensorFlow 实现复杂的神经网络架构，确保了代码的规范性与扩展性。无论是希望夯实理论基础的学生、从事算法研究的研究人员，还是想要快速原型验证的 AI 开发者，都能从中获得极大的助益。如果你正打算踏入强化学习的大门，或寻求一份高质量的算法参考实现，这将是你不可或缺的学习伴侣。","### Overview\n\nThis repository provides code, exercises and solutions for popular Reinforcement Learning algorithms. These are meant to serve as a learning tool to complement the theoretical materials from\n\n- [Reinforcement Learning: An Introduction (2nd Edition)](http:\u002F\u002Fincompleteideas.net\u002Fbook\u002FRLbook2018.pdf)\n- [David Silver's Reinforcement Learning Course](http:\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FTeaching.html)\n\nEach folder in corresponds to one or more chapters of the above textbook and\u002For course. In addition to exercises and solution, each folder also contains a list of learning goals, a brief concept summary, and links to the relevant readings.\n\nAll code is written in Python 3 and uses RL environments from [OpenAI Gym](https:\u002F\u002Fgym.openai.com\u002F). Advanced techniques use [Tensorflow](https:\u002F\u002Fwww.tensorflow.org\u002F) for neural network implementations.\n\n\n### Table of Contents\n\n- [Introduction to RL problems & OpenAI Gym](Introduction\u002F)\n- [MDPs and Bellman Equations](MDP\u002F)\n- [Dynamic Programming: Model-Based RL, Policy Iteration and Value Iteration](DP\u002F)\n- [Monte Carlo Model-Free Prediction & Control](MC\u002F)\n- [Temporal Difference Model-Free Prediction & Control](TD\u002F)\n- [Function Approximation](FA\u002F)\n- [Deep Q Learning](DQN\u002F) (WIP)\n- [Policy Gradient Methods](PolicyGradient\u002F) (WIP)\n- Learning and Planning (WIP)\n- Exploration and Exploitation (WIP)\n\n\n### List of Implemented Algorithms\n\n- [Dynamic Programming Policy Evaluation](DP\u002FPolicy%20Evaluation%20Solution.ipynb)\n- [Dynamic Programming Policy Iteration](DP\u002FPolicy%20Iteration%20Solution.ipynb)\n- [Dynamic Programming Value Iteration](DP\u002FValue%20Iteration%20Solution.ipynb)\n- [Monte Carlo Prediction](MC\u002FMC%20Prediction%20Solution.ipynb)\n- [Monte Carlo Control with Epsilon-Greedy Policies](MC\u002FMC%20Control%20with%20Epsilon-Greedy%20Policies%20Solution.ipynb)\n- [Monte Carlo Off-Policy Control with Importance Sampling](MC\u002FOff-Policy%20MC%20Control%20with%20Weighted%20Importance%20Sampling%20Solution.ipynb)\n- [SARSA (On Policy TD Learning)](TD\u002FSARSA%20Solution.ipynb)\n- [Q-Learning (Off Policy TD Learning)](TD\u002FQ-Learning%20Solution.ipynb)\n- [Q-Learning with Linear Function Approximation](FA\u002FQ-Learning%20with%20Value%20Function%20Approximation%20Solution.ipynb)\n- [Deep Q-Learning for Atari Games](DQN\u002FDeep%20Q%20Learning%20Solution.ipynb)\n- [Double Deep-Q Learning for Atari Games](DQN\u002FDouble%20DQN%20Solution.ipynb)\n- Deep Q-Learning with Prioritized Experience Replay (WIP)\n- [Policy Gradient: REINFORCE with Baseline](PolicyGradient\u002FCliffWalk%20REINFORCE%20with%20Baseline%20Solution.ipynb)\n- [Policy Gradient: Actor Critic with Baseline](PolicyGradient\u002FCliffWalk%20Actor%20Critic%20Solution.ipynb)\n- [Policy Gradient: Actor Critic with Baseline for Continuous Action Spaces](PolicyGradient\u002FContinuous%20MountainCar%20Actor%20Critic%20Solution.ipynb)\n- Deterministic Policy Gradients for Continuous Action Spaces (WIP)\n- Deep Deterministic Policy Gradients (DDPG) (WIP)\n- [Asynchronous Advantage Actor Critic (A3C)](PolicyGradient\u002Fa3c)\n\n\n### Resources\n\nTextbooks:\n\n- [Reinforcement Learning: An Introduction (2nd Edition)](http:\u002F\u002Fincompleteideas.net\u002Fbook\u002FRLbook2018.pdf)\n\nClasses:\n\n- [David Silver's Reinforcement Learning Course (UCL, 2015)](http:\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FTeaching.html)\n- [CS294 - Deep Reinforcement Learning (Berkeley, Fall 2015)](http:\u002F\u002Frll.berkeley.edu\u002Fdeeprlcourse\u002F)\n- [CS 8803 - Reinforcement Learning (Georgia Tech)](https:\u002F\u002Fwww.udacity.com\u002Fcourse\u002Freinforcement-learning--ud600)\n- [CS885 - Reinforcement Learning (UWaterloo), Spring 2018](https:\u002F\u002Fcs.uwaterloo.ca\u002F~ppoupart\u002Fteaching\u002Fcs885-spring18\u002F)\n- [CS294-112 - Deep Reinforcement Learning (UC Berkeley)](http:\u002F\u002Frail.eecs.berkeley.edu\u002Fdeeprlcourse\u002F)\n\nTalks\u002FTutorials:\n\n- [Introduction to Reinforcement Learning (Joelle Pineau @ Deep Learning Summer School 2016)](http:\u002F\u002Fvideolectures.net\u002Fdeeplearning2016_pineau_reinforcement_learning\u002F)\n- [Deep Reinforcement Learning (Pieter Abbeel @ Deep Learning Summer School 2016)](http:\u002F\u002Fvideolectures.net\u002Fdeeplearning2016_abbeel_deep_reinforcement\u002F)\n- [Deep Reinforcement Learning ICML 2016 Tutorial (David Silver)](http:\u002F\u002Ftechtalks.tv\u002Ftalks\u002Fdeep-reinforcement-learning\u002F62360\u002F)\n- [Tutorial: Introduction to Reinforcement Learning with Function Approximation](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ggqnxyjaKe4)\n- [John Schulman - Deep Reinforcement Learning (4 Lectures)](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLjKEIQlKCTZYN3CYBlj8r58SbNorobqcp)\n- [Deep Reinforcement Learning Slides @ NIPS 2016](http:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pabbeel\u002Fnips-tutorial-policy-optimization-Schulman-Abbeel.pdf)\n- [OpenAI Spinning Up](https:\u002F\u002Fspinningup.openai.com\u002Fen\u002Flatest\u002Fuser\u002Fintroduction.html)\n- [Advanced Deep Learning & Reinforcement Learning (UCL 2018, DeepMind)](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs)\n-[Deep RL Bootcamp](https:\u002F\u002Fsites.google.com\u002Fview\u002Fdeep-rl-bootcamp\u002Flectures)\n\nOther Projects:\n\n- [carpedm20\u002Fdeep-rl-tensorflow](https:\u002F\u002Fgithub.com\u002Fcarpedm20\u002Fdeep-rl-tensorflow)\n- [matthiasplappert\u002Fkeras-rl](https:\u002F\u002Fgithub.com\u002Fmatthiasplappert\u002Fkeras-rl)\n\nSelected Papers:\n\n- [Human-Level Control through Deep Reinforcement Learning (2015-02)](http:\u002F\u002Fwww.readcube.com\u002Farticles\u002F10.1038\u002Fnature14236)\n- [Deep Reinforcement Learning with Double Q-learning (2015-09)](http:\u002F\u002Farxiv.org\u002Fabs\u002F1509.06461)\n- [Continuous control with deep reinforcement learning (2015-09)](https:\u002F\u002Farxiv.org\u002Fabs\u002F1509.02971)\n- [Prioritized Experience Replay (2015-11)](http:\u002F\u002Farxiv.org\u002Fabs\u002F1511.05952)\n- [Dueling Network Architectures for Deep Reinforcement Learning (2015-11)](http:\u002F\u002Farxiv.org\u002Fabs\u002F1511.06581)\n- [Asynchronous Methods for Deep Reinforcement Learning (2016-02)](http:\u002F\u002Farxiv.org\u002Fabs\u002F1602.01783)\n- [Deep Reinforcement Learning from Self-Play in Imperfect-Information Games (2016-03)](http:\u002F\u002Farxiv.org\u002Fabs\u002F1603.01121)\n- [Mastering the game of Go with deep neural networks and tree search](https:\u002F\u002Fgogameguru.com\u002Fi\u002F2016\u002F03\u002Fdeepmind-mastering-go.pdf)\n","### 概述\n\n本仓库提供了常用强化学习算法的代码、练习题及解答。这些内容旨在作为学习工具，补充以下理论资料：\n\n- 《强化学习导论》（第二版）（[http:\u002F\u002Fincompleteideas.net\u002Fbook\u002FRLbook2018.pdf](http:\u002F\u002Fincompleteideas.net\u002Fbook\u002FRLbook2018.pdf)）\n- 戴维·西尔弗的强化学习课程（[http:\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FTeaching.html](http:\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FTeaching.html)）\n\n每个文件夹对应上述教材和\u002F或课程中的一章或多章。除了练习题和解答外，每个文件夹还包含学习目标列表、简要的概念总结以及相关阅读材料的链接。\n\n所有代码均使用 Python 3 编写，并利用 [OpenAI Gym](https:\u002F\u002Fgym.openai.com\u002F) 提供的强化学习环境。对于高级技术，则使用 [TensorFlow](https:\u002F\u002Fwww.tensorflow.org\u002F) 实现神经网络。\n\n### 目录\n\n- 强化学习问题简介与 OpenAI Gym（Introduction\u002F）\n- 马尔可夫决策过程与贝尔曼方程（MDP\u002F）\n- 动态规划：基于模型的强化学习、策略迭代与值迭代（DP\u002F）\n- 蒙特卡洛方法：无模型预测与控制（MC\u002F）\n- 时序差分方法：无模型预测与控制（TD\u002F）\n- 函数逼近（FA\u002F）\n- 深度 Q 学习（DQN\u002F）（开发中）\n- 策略梯度方法（PolicyGradient\u002F）（开发中）\n- 学习与规划（开发中）\n- 探索与利用（开发中）\n\n### 已实现算法列表\n\n- 动态规划策略评估（DP\u002FPolicy%20Evaluation%20Solution.ipynb）\n- 动态规划策略迭代（DP\u002FPolicy%20Iteration%20Solution.ipynb）\n- 动态规划值迭代（DP\u002FValue%20Iteration%20Solution.ipynb）\n- 蒙特卡洛预测（MC\u002FMC%20Prediction%20Solution.ipynb）\n- 带 ε-贪婪策略的蒙特卡洛控制（MC\u002FMC%20Control%20with%20Epsilon-Greedy%20Policies%20Solution.ipynb）\n- 基于重要性采样的离策略蒙特卡洛控制（MC\u002FOff-Policy%20MC%20Control%20with%20Weighted%20Importance%20Sampling%20Solution.ipynb）\n- SARSA（在线策略时序差分学习）（TD\u002FSARSA%20Solution.ipynb）\n- Q 学习（离策略时序差分学习）（TD\u002FQ-Learning%20Solution.ipynb）\n- 带线性函数逼近的 Q 学习（FA\u002FQ-Learning%20with%20Value%20Function%20Approximation%20Solution.ipynb）\n- 用于 Atari 游戏的深度 Q 学习（DQN\u002FDeep%20Q%20Learning%20Solution.ipynb）\n- 用于 Atari 游戏的双深度 Q 学习（DQN\u002FDouble%20DQN%20Solution.ipynb）\n- 带优先经验回放的深度 Q 学习（开发中）\n- 策略梯度：带基线的 REINFORCE 算法（PolicyGradient\u002FCliffWalk%20REINFORCE%20with%20Baseline%20Solution.ipynb）\n- 策略梯度：带基线的演员-评论家算法（PolicyGradient\u002FCliffWalk%20Actor%20Critic%20Solution.ipynb）\n- 策略梯度：适用于连续动作空间的带基线演员-评论家算法（PolicyGradient\u002FContinuous%20MountainCar%20Actor%20Critic%20Solution.ipynb）\n- 连续动作空间下的确定性策略梯度（开发中）\n- 深度确定性策略梯度（DDPG）（开发中）\n- 异步优势演员-评论家算法（A3C）（PolicyGradient\u002Fa3c）\n\n### 资源\n\n**教材：**\n\n- 《强化学习导论》（第二版）（[http:\u002F\u002Fincompleteideas.net\u002Fbook\u002FRLbook2018.pdf](http:\u002F\u002Fincompleteideas.net\u002Fbook\u002FRLbook2018.pdf)）\n\n**课程：**\n\n- 戴维·西尔弗的强化学习课程（UCL，2015 年）（[http:\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FTeaching.html](http:\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FTeaching.html)）\n- CS294 - 深度强化学习（伯克利大学，2015 年秋季）（[http:\u002F\u002Frll.berkeley.edu\u002Fdeeprlcourse\u002F](http:\u002F\u002Frll.berkeley.edu\u002Fdeeprlcourse\u002F)）\n- CS 8803 - 强化学习（佐治亚理工学院）（[https:\u002F\u002Fwww.udacity.com\u002Fcourse\u002Freinforcement-learning--ud600](https:\u002F\u002Fwww.udacity.com\u002Fcourse\u002Freinforcement-learning--ud600)）\n- CS885 - 强化学习（滑铁卢大学），2018 年春季（[https:\u002F\u002Fcs.uwaterloo.ca\u002F~ppoupart\u002Fteaching\u002Fcs885-spring18\u002F](https:\u002F\u002Fcs.uwaterloo.ca\u002F~ppoupart\u002Fteaching\u002Fcs885-spring18\u002F)）\n- CS294-112 - 深度强化学习（加州大学伯克利分校）（[http:\u002F\u002Frail.eecs.berkeley.edu\u002Fdeeprlcourse\u002F](http:\u002F\u002Frail.eecs.berkeley.edu\u002Fdeeprlcourse\u002F)）\n\n**讲座\u002F教程：**\n\n- 强化学习入门（乔埃尔·派诺 @ 2016 年深度学习暑期学校）（[http:\u002F\u002Fvideolectures.net\u002Fdeeplearning2016_pineau_reinforcement_learning\u002F](http:\u002F\u002Fvideolectures.net\u002Fdeeplearning2016_pineau_reinforcement_learning\u002F)）\n- 深度强化学习（皮特·阿贝尔 @ 2016 年深度学习暑期学校）（[http:\u002F\u002Fvideolectures.net\u002Fdeeplearning2016_abbeel_deep_reinforcement\u002F](http:\u002F\u002Fvideolectures.net\u002Fdeeplearning2016_abbeel_deep_reinforcement\u002F)）\n- ICML 2016 深度强化学习教程（戴维·西尔弗）（[http:\u002F\u002Ftechtalks.tv\u002Ftalks\u002Fdeep-reinforcement-learning\u002F62360\u002F](http:\u002F\u002Ftechtalks.tv\u002Ftalks\u002Fdeep-reinforcement-learning\u002F62360\u002F)）\n- 教程：带函数逼近的强化学习入门（[https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ggqnxyjaKe4](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ggqnxyjaKe4)）\n- 约翰·舒尔曼 - 深度强化学习（4 讲）（[https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLjKEIQlKCTZYN3CYBlj8r58SbNorobqcp](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLjKEIQlKCTZYN3CYBlj8r58SbNorobqcp)）\n- NIPS 2016 深度强化学习幻灯片（[http:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pabbeel\u002Fnips-tutorial-policy-optimization-Schulman-Abbeel.pdf](http:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~pabbeel\u002Fnips-tutorial-policy-optimization-Schulman-Abbeel.pdf)）\n- OpenAI Spinning Up（[https:\u002F\u002Fspinningup.openai.com\u002Fen\u002Flatest\u002Fuser\u002Fintroduction.html](https:\u002F\u002Fspinningup.openai.com\u002Fen\u002Flatest\u002Fuser\u002Fintroduction.html)）\n- 高级深度学习与强化学习（UCL 2018，DeepMind）（[https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs](https:\u002F\u002Fwww.youtube.com\u002Fplaylist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs)）\n- 深度 RL 训练营（[https:\u002F\u002Fsites.google.com\u002Fview\u002Fdeep-rl-bootcamp\u002Flectures](https:\u002F\u002Fsites.google.com\u002Fview\u002Fdeep-rl-bootcamp\u002Flectures)）\n\n**其他项目：**\n\n- carpedm20\u002Fdeep-rl-tensorflow（[https:\u002F\u002Fgithub.com\u002Fcarpedm20\u002Fdeep-rl-tensorflow](https:\u002F\u002Fgithub.com\u002Fcarpedm20\u002Fdeep-rl-tensorflow)）\n- matthiasplappert\u002Fkeras-rl（[https:\u002F\u002Fgithub.com\u002Fmatthiasplappert\u002Fkeras-rl](https:\u002F\u002Fgithub.com\u002Fmatthiasplappert\u002Fkeras-rl)）\n\n**精选论文：**\n\n- 通过深度强化学习实现人类水平控制（2015 年 2 月）（[http:\u002F\u002Fwww.readcube.com\u002Farticles\u002F10.1038\u002Fnature14236](http:\u002F\u002Fwww.readcube.com\u002Farticles\u002F10.1038\u002Fnature14236)）\n- 带双 Q 学习的深度强化学习（2015 年 9 月）（[http:\u002F\u002Farxiv.org\u002Fabs\u002F1509.06461](http:\u002F\u002Farxiv.org\u002Fabs\u002F1509.06461)）\n- 带深度强化学习的连续控制（2015 年 9 月）（[https:\u002F\u002Farxiv.org\u002Fabs\u002F1509.02971](https:\u002F\u002Farxiv.org\u002Fabs\u002F1509.02971)）\n- 带优先经验回放的深度强化学习（2015 年 11 月）（[http:\u002F\u002Farxiv.org\u002Fabs\u002F1511.05952](http:\u002F\u002Farxiv.org\u002Fabs\u002F1511.05952)）\n- 用于深度强化学习的决斗网络架构（2015 年 11 月）（[http:\u002F\u002Farxiv.org\u002Fabs\u002F1511.06581](http:\u002F\u002Farxiv.org\u002Fabs\u002F1511.06581)）\n- 深度强化学习的异步方法（2016 年 2 月）（[http:\u002F\u002Farxiv.org\u002Fabs\u002F1602.01783](http:\u002F\u002Farxiv.org\u002Fabs\u002F1602.01783)）\n- 基于自我对弈的不完美信息博弈中的深度强化学习（2016 年 3 月）（[http:\u002F\u002Farxiv.org\u002Fabs\u002F1603.01121](http:\u002F\u002Farxiv.org\u002Fabs\u002F1603.01121)）\n- 使用深度神经网络和树搜索掌握围棋游戏（[https:\u002F\u002Fgogameguru.com\u002Fi\u002F2016\u002F03\u002Fdeepmind-mastering-go.pdf](https:\u002F\u002Fgogameguru.com\u002Fi\u002F2016\u002F03\u002Fdeepmind-mastering-go.pdf)）","# Reinforcement Learning 快速上手指南\n\n本仓库提供了流行强化学习（RL）算法的代码、练习和解决方案，旨在配合经典教材《Reinforcement Learning: An Introduction (2nd Edition)》及 David Silver 的课程作为学习工具。所有代码基于 Python 3，使用 OpenAI Gym 环境，高级算法采用 TensorFlow 实现。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows (推荐 Linux 以获得最佳兼容性)\n*   **Python 版本**: Python 3.6+\n*   **核心依赖**:\n    *   `numpy`: 数值计算\n    *   `gym`: OpenAI 强化学习环境\n    *   `tensorflow`: 用于深度强化学习算法 (如 DQN, A3C)\n    *   `jupyter`: 用于运行提供的 `.ipynb` 笔记文件\n\n> **国内加速建议**：\n> 安装依赖时，推荐使用清华或阿里镜像源以提升下载速度。\n> 例如：`pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n## 安装步骤\n\n1.  **克隆仓库**\n    将项目代码下载到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fdennybritz\u002Freinforcement-learning.git\n    cd reinforcement-learning\n    ```\n\n2.  **安装基础依赖**\n    建议使用虚拟环境（如 `venv` 或 `conda`）以避免污染全局环境。\n    \n    创建并激活虚拟环境（可选但推荐）：\n    ```bash\n    python3 -m venv venv\n    source venv\u002Fbin\u002Factivate  # Windows 用户请使用: venv\\Scripts\\activate\n    ```\n\n    安装必要的 Python 包（使用国内镜像加速）：\n    ```bash\n    pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple numpy gym tensorflow jupyter matplotlib\n    ```\n    *注：部分复杂环境（如 Atari 游戏）可能需要额外安装 `gym[atari]`，若遇到相关报错请按需安装。*\n\n## 基本使用\n\n本项目主要通过 Jupyter Notebook 提供算法的实现与演示。每个文件夹对应特定的算法章节（如动态规划、蒙特卡洛、Q-Learning 等）。\n\n### 1. 启动 Jupyter Notebook\n在项目根目录下运行以下命令启动服务：\n```bash\njupyter notebook\n```\n浏览器会自动打开界面，显示项目目录结构。\n\n### 2. 运行示例：Q-Learning\n以最经典的 **Q-Learning** 算法为例：\n\n1.  在 Jupyter 界面中，进入 `TD\u002F` 文件夹。\n2.  打开 `Q-Learning Solution.ipynb` 文件。\n3.  该笔记包含了算法的理论简述、代码实现以及在 `CliffWalking-v0` 环境中的训练过程。\n4.  依次点击单元格运行代码（按 `Shift + Enter`），即可观察智能体（Agent）如何通过试错学习最优路径。\n\n### 3. 运行示例：Deep Q-Learning (DQN)\n对于深度学习相关的算法（如玩 Atari 游戏）：\n\n1.  进入 `DQN\u002F` 文件夹。\n2.  打开 `Deep Q Learning Solution.ipynb`。\n3.  运行单元格将初始化神经网络，并在 Atari 环境中进行训练。\n    *注意：首次运行可能会自动下载游戏 ROM 文件，请保持网络连接畅通。*\n\n### 4. 探索其他算法\n您可以按照 `Table of Contents` 指引，依次学习以下内容：\n*   **DP\u002F**: 动态规划（策略迭代、价值迭代）\n*   **MC\u002F**: 蒙特卡洛方法\n*   **FA\u002F**: 函数近似\n*   **PolicyGradient\u002F**: 策略梯度方法 (REINFORCE, Actor-Critic, A3C)\n\n每个 Notebook 均列出了学习目标、概念总结及相关阅读材料链接，适合边学边练。","某高校人工智能实验室的研究生团队正在复现经典强化学习论文，并尝试将 Q-Learning 和深度 Q 网络（DQN）应用于自定义的机器人控制任务中。\n\n### 没有 reinforcement-learning 时\n- **理论落地困难**：学生在阅读 Sutton 教材或 David Silver 课程时，难以将抽象的贝尔曼方程、时序差分等数学公式转化为可运行的代码，导致“懂原理但写不出”。\n- **重复造轮子耗时**：团队成员需从零搭建 OpenAI Gym 环境接口、手动实现状态转移逻辑及神经网络结构，大量时间浪费在基础架构而非算法调优上。\n- **缺乏标准参照**：由于没有官方认可的基准代码（Baseline），调试策略梯度或重要性采样等复杂算法时，无法判断是代码逻辑错误还是超参数设置不当，排查效率极低。\n- **学习路径割裂**：练习题、概念总结与代码实现分散在不同资料中，初学者需要在教科书、视频课和零散的 GitHub 片段间反复跳转，知识体系难以闭环。\n\n### 使用 reinforcement-learning 后\n- **代码即教材**：直接调用库中对应章节的 Jupyter Notebook 解决方案（如 MC 控制或 A3C 实现），学生可逐行对照理论公式与 Python 代码，迅速打通从数学推导到工程实现的最后一公里。\n- **开箱即用环境**：利用已封装好的动态规划、蒙特卡洛及 DQN 等模块，团队只需关注自定义奖励函数设计，将原本数周的环境搭建工作缩短至几天。\n- **精准调试对标**：以库中经过验证的算法实现为“黄金标准”，快速定位自定义模型中的偏差，显著降低了策略不收敛或训练崩溃时的试错成本。\n- **体系化学习流**：每个算法文件夹内集成的学习目标、概念摘要及关联阅读链接，让团队成员能在统一框架下系统性掌握从基础 MDP 到连续动作空间控制的完整知识链。\n\nreinforcement-learning 通过将经典理论与工业级代码深度融合，极大地降低了强化学习算法的学习门槛与研发周期，让开发者能专注于核心策略的创新而非基础实现的重复劳动。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdennybritz_reinforcement-learning_5ab878fc.png","dennybritz","Denny Britz","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdennybritz_a0c7fe5c.jpg",null,"Tokyo, Japan","https:\u002F\u002Fdennybritz.com","https:\u002F\u002Fgithub.com\u002Fdennybritz",[81,85],{"name":82,"color":83,"percentage":84},"Jupyter Notebook","#DA5B0B",97,{"name":86,"color":87,"percentage":10},"Python","#3572A5",21947,6156,"2026-04-12T09:50:44","MIT","","未说明（高级技术使用 Tensorflow 进行神经网络实现，通常建议配备 NVIDIA GPU 以加速训练，但 README 未明确具体型号或显存要求）","未说明",{"notes":96,"python":97,"dependencies":98},"该仓库主要作为学习工具，代码基于 Python 3 编写。基础算法依赖 OpenAI Gym 环境，而深度强化学习部分（如 DQN、A3C 等）依赖 Tensorflow 进行神经网络实现。README 中未提供具体的操作系统、GPU 型号、显存大小、CUDA 版本或内存需求的明确指标。部分高级算法标记为'WIP'（进行中），可能功能尚不完整。","3",[99,100],"OpenAI Gym","Tensorflow",[14,102],"其他","2026-03-27T02:49:30.150509","2026-04-13T00:24:14.913125",[],[]]