[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-tigerneil--awesome-deep-rl":3,"tool-tigerneil--awesome-deep-rl":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":91,"env_os":92,"env_gpu":93,"env_ram":93,"env_deps":94,"category_tags":97,"github_topics":99,"view_count":32,"oss_zip_url":120,"oss_zip_packed_at":120,"status":17,"created_at":121,"updated_at":122,"faqs":123,"releases":129},4370,"tigerneil\u002Fawesome-deep-rl","awesome-deep-rl","For deep RL and the future of AI. ","awesome-deep-rl 是一个专注于深度强化学习（Deep RL）领域的开源知识合集，旨在为构建通用人工智能（AGI）提供核心框架与资源指引。面对该领域算法迭代快、分支繁杂且理论深奥的痛点，它系统性地梳理了从基础理论到前沿应用的完整图谱，帮助从业者高效定位关键论文、基准测试框架及代码实现。\n\n该项目特别适合 AI 研究人员、算法工程师以及对强化学习感兴趣的学生使用。无论是需要查阅最新学术进展的研究者，还是寻求落地解决方案的开发者，都能从中获得极具价值的参考。其独特亮点在于覆盖范围极广，不仅包含传统的价值基于、策略梯度及 Actor-Critic 方法，还深入探讨了无监督学习、离线强化学习、多智能体协作、分层强化学习以及结合自然语言处理等前沿方向。此外，项目持续更新，及时收录如 HILP 等 2024 年的最新研究成果，并提供了详尽的学习路径指导和综述文章链接，是进入和深耕深度强化学习领域不可或缺的导航工具。","# Awesome Deep Reinforcement Learning\n\n> **Mar 1 2024 update: HILP added**\n> \n> **July 2022 update: EDDICT added**\n> \n> **Mar 2022 update: a few papers released in early 2022**\n> \n> **Dec 2021 update: Unsupervised RL**\n\n## Introduction to awesome drl\nReinforcement learning is the fundamental framework for building AGI. Therefore we share important contributions within this awesome drl project. \n\n## Landscape of Deep RL\n\n![updated Landscape of **DRL**](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_fc6e0f2be7bc.png)\n\n## Content\n- [Awesome Deep Reinforcement Learning](#awesome-deep-reinforcement-learning)\n  - [Introduction to awesome drl](#introduction-to-awesome-drl)\n  - [Landscape of Deep RL](#landscape-of-deep-rl)\n  - [Content](#content)\n  - [General guidances](#general-guidances)\n  - [2022](#2022)\n  - [Foundations and theory](#foundations-and-theory)\n  - [General benchmark frameworks](#general-benchmark-frameworks)\n  - [Unsupervised](#unsupervised)\n  - [Offline](#offline)\n  - [Value based](#value-based)\n  - [Policy gradient](#policy-gradient)\n  - [Explorations](#explorations)\n  - [Actor-Critic](#actor-critic)\n  - [Model-based](#model-based)\n  - [Model-free + Model-based](#model-free--model-based)\n  - [Hierarchical](#hierarchical)\n  - [Option](#option)\n  - [Connection with other methods](#connection-with-other-methods)\n  - [Connecting value and policy methods](#connecting-value-and-policy-methods)\n  - [Reward design](#reward-design)\n  - [Unifying](#unifying)\n  - [Faster DRL](#faster-drl)\n  - [Multi-agent](#multi-agent)\n  - [New design](#new-design)\n  - [Multitask](#multitask)\n  - [Observational Learning](#observational-learning)\n  - [Meta Learning](#meta-learning)\n  - [Distributional](#distributional)\n  - [Planning](#planning)\n  - [Safety](#safety)\n  - [Inverse RL](#inverse-rl)\n  - [No reward RL](#no-reward-rl)\n  - [Time](#time)\n  - [Adversarial learning](#adversarial-learning)\n  - [Use Natural Language](#use-natural-language)\n  - [Generative and contrastive representation learning](#generative-and-contrastive-representation-learning)\n  - [Belief](#belief)\n  - [PAC](#pac)\n  - [Applications](#applications)\n\nIllustrations:\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_63f348eac4ef.png)\n\n**Recommendations and suggestions are welcome**. \n## General guidances\n* [Awesome Offline RL](https:\u002F\u002Fgithub.com\u002Fhanjuku-kaso\u002Fawesome-offline-rl)\n* [Reinforcement Learning Today](http:\u002F\u002Freinforcementlearning.today\u002F)\n* [Multiagent Reinforcement Learning by Marc Lanctot RLSS @ Lille](http:\u002F\u002Fmlanctot.info\u002Ffiles\u002Fpapers\u002FLanctot_MARL_RLSS2019_Lille.pdf) 11 July 2019\n* [RLDM 2019 Notes by David Abel](https:\u002F\u002Fdavid-abel.github.io\u002Fnotes\u002Frldm_2019.pdf) 11 July 2019\n* [A Survey of Reinforcement Learning Informed by Natural Language](RLNL.md) 10 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.03926.pdf)\n* [Challenges of Real-World Reinforcement Learning](ChallengesRealWorldRL.md) 29 Apr 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.12901.pdf)\n* [Ray Interference: a Source of Plateaus in Deep Reinforcement Learning](RayInterference.md) 25 Apr 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.11455.pdf)\n* [Principles of Deep RL by David Silver](p10.md)\n* [University AI's General introduction to deep rl (in Chinese)](https:\u002F\u002Fwww.jianshu.com\u002Fp\u002Fdfd987aa765a)\n* [OpenAI's spinningup](https:\u002F\u002Fspinningup.openai.com\u002Fen\u002Flatest\u002F)\n* [The Promise of Hierarchical Reinforcement Learning](https:\u002F\u002Fthegradient.pub\u002Fthe-promise-of-hierarchical-reinforcement-learning\u002F) 9 Mar 2019\n* [Deep Reinforcement Learning that Matters](reproducing.md) 30 Jan 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1709.06560.pdf)\n\n## 2024\n* [Foundation Policies with Hilbert Representations](HILP.md) [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15567) [repo](https:\u002F\u002Fgithub.com\u002Fseohongpark\u002FHILP) 23 Feb 2024\n\n## 2022\n* Reinforcement Learning with Action-Free Pre-Training from Videos [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13880) [repo](https:\u002F\u002Fgithub.com\u002Fyounggyoseo\u002Fapv)\n\n## Generalist policies\n* [Foundation Policies with Hilbert Representations](HILP.md) [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15567) [repo](https:\u002F\u002Fgithub.com\u002Fseohongpark\u002FHILP) 23 Feb 2024\n\n## Foundations and theory\n\n* [General non-linear Bellman equations](GNLBE.md) 9 July 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.07331.pdf)\n* [Monte Carlo Gradient Estimation in Machine Learning](MCGE.md) 25 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.10652.pdf)\n\n## General benchmark frameworks\n\n* [Brax](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fbrax\u002F) \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_1d39ebc3113f.gif\" width=\"336\" height=\"80\" alt=\"BRAX\"\u002F>\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_28075619bd5c.gif)\n* [Android-Env](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fandroid_env) \n  * ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_e210e5b628bf.gif)\n* [MuJoCo](http:\u002F\u002Fmujoco.org\u002F) | [MuJoCo Chinese version](https:\u002F\u002Fgithub.com\u002Ftigerneil\u002Fmujoco-zh)\n* [Unsupervised RL Benchmark](https:\u002F\u002Fgithub.com\u002Frll-research\u002Furl_benchmark)\n* [Dataset for Offline RL](https:\u002F\u002Fgithub.com\u002Frail-berkeley\u002Fd4rl)\n* [Spriteworld: a flexible, configurable python-based reinforcement learning environment](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fspriteworld)\n* [Chainerrl Visualizer](https:\u002F\u002Fgithub.com\u002Fchainer\u002Fchainerrl-visualizer)\n* [Behaviour Suite for Reinforcement Learning](BSRL.md) 13 Aug 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.03568.pdf) | [code](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fbsuite)\n* [Quantifying Generalization in Reinforcement Learning](Coinrun.md) 20 Dec 2018 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.02341.pdf)\n* [S-RL Toolbox: Environments, Datasets and Evaluation Metrics for State Representation Learning](SRL.md) 25 Sept 2018\n* [dopamine](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fdopamine)\n* [StarCraft II](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fpysc2)\n* [tfrl](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Ftrfl)\n* [chainerrl](https:\u002F\u002Fgithub.com\u002Fchainer\u002Fchainerrl)\n* [PARL](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPARL) \n* [DI-engine: a generalized decision intelligence engine. It supports various Deep RL algorithms](https:\u002F\u002Fgithub.com\u002Fopendilab\u002FDI-engine)\n* [PPO x Family: Course in Chinese for Deep RL](https:\u002F\u002Fgithub.com\u002Fopendilab\u002FPPOxFamily)\n\n## Unsupervised\n\n* [URLB: Unsupervised Reinforcement Learning Benchmark](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.15191) 28 Oct 2021\n* [APS: Active Pretraining with Successor Feature](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.13956) 31 Aug 2021\n* [Behavior From the Void: Unsupervised Active Pre-Training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.04551) 8 Mar 2021\n* [Reinforcement Learning with Prototypical Representations](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.11271) 22 Feb 2021\n* [Efficient Exploration via State Marginal Matching](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.05274) 12 Jun 2019\n* [Self-Supervised Exploration via Disagreement](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.04161) 10 Jun 2019\n* [Exploration by Random Network Distillation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.12894) 30 Oct 2018\n* [Diversity is All You Need: Learning Skills without a Reward Function](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.06070) 16 Feb 2018\n* [Curiosity-driven Exploration by Self-supervised Prediction](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.05363) 15 May 2017 \n\n## Offline\n* [PerSim: Data-efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.06961) 10 Nov 2021\n* [A General Offline Reinforcement Learning Framework for Interactive Recommendation]() AAAI 2021\n\n\n## Value based\n\n* [Harnessing Structures for Value-Based Planning and Reinforcement Learning](SVRL.md) 5 Feb 2020 [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.12255) | [code](https:\u002F\u002Fgithub.com\u002FYyzHarry\u002FSV-RL)\n* [Recurrent Value Functions](RVF.md) 23 May 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.09562.pdf)\n* [Stochastic Lipschitz Q-Learning](LipschitzQ.md) 24 Apr 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.10653.pdf)\n* [TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1710.11417) 8 Mar 2018\n* [DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.00933.pdf) 2 Mar 2018\n* [Rainbow: Combining Improvements in Deep Reinforcement Learning](Rainbow.md) 6 Oct 2017\n* [Learning from Demonstrations for Real World Reinforcement Learning](DQfD.md) 12 Apr 2017\n* [Dueling Network Architecture](Dueling.md)\n* [Double DQN](DDQN.md)\n* [Prioritized Experience](PER.md)\n* [Deep Q-Networks](DQN.md)\n\n## Policy gradient\n\n* [Phasic Policy Gradient](PPG.md) 9 Sep 2020 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2009.04416.pdf) [code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fphasic-policy-gradient)\n* [An operator view of policy gradient methods](OVPG.md) 22 Jun 2020 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2006.11266.pdf)\n* [Direct Policy Gradients: Direct Optimization of Policies in Discrete Action Spaces](DirPG.md) 14 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.06062.pdf)\n* [Policy Gradient Search: Online Planning and Expert Iteration without Search Trees](PGS.md) 7 Apr 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.03646.pdf)\n* [SUPERVISED POLICY UPDATE FOR DEEP REINFORCEMENT LEARNING](SPU.md) 24 Dec 2018 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.11706v4.pdf)\n* [PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation](PPO-CMA.md) 5 Oct 2018 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.02541v6.pdf)\n* [Clipped Action Policy Gradient](CAPG.md) 22 June 2018\n* [Expected Policy Gradients for Reinforcement Learning](EPG.md) 10 Jan 2018\n* [Proximal Policy Optimization Algorithms](PPO.md) 20 July 2017\n* [Emergence of Locomotion Behaviours in Rich Environments](DPPO.md) 7 July 2017\n* [Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning](IPG.md) 1 Jun 2017\n* [Equivalence Between Policy Gradients and Soft Q-Learning](PGSQL.md)\n* [Trust Region Policy Optimization](TRPO.md)\n* [Reinforcement Learning with Deep Energy-Based Policies](DEBP.md)\n* [Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC](QPROP.md)\n\n## Explorations\n\n* [Entropic Desired Dynamics for Intrinsic Control](EDDICT.md) 2021 [openreview](https:\u002F\u002Fopenreview.net\u002Fpdf?id=lBSSxTgXmiK)\n* [Self-Supervised Exploration via Disagreement](Disagreement.md) 10 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.04161.pdf)\n* [Approximate Exploration through State Abstraction](MBIE-EB.md) 24 Jan 2019\n* [The Uncertainty Bellman Equation and Exploration](UBE.md) 15 Sep 2017\n* [Noisy Networks for Exploration](NoisyNet.md) 30 Jun 2017 [implementation](https:\u002F\u002Fgithub.com\u002FKaixhin\u002FNoisyNet-A3C)\n* [Count-Based Exploration in Feature Space for Reinforcement Learning](PhiEB.md) 25 Jun 2017\n* [Count-Based Exploration with Neural Density Models](NDM.md) 14 Jun 2017\n* [UCB and InfoGain Exploration via Q-Ensembles](QEnsemble.md) 11 Jun 2017\n* [Minimax Regret Bounds for Reinforcement Learning](MMRB.md) 16 Mar 2017\n* [Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models](incentivizing.md)\n* [EX2: Exploration with Exemplar Models for Deep Reinforcement Learning](EX2.md)\n\n## Actor-Critic\n\n* [Generalized Off-Policy Actor-Critic](Geoff-PAC.md) 27 Mar 2019\n* [Soft Actor-Critic Algorithms and Applications](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.05905.pdf) 29 Jan 2019\n* [The Reactor: A Sample-Efficient Actor-Critic Architecture](REACTOR.md) 15 Apr 2017\n* [SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY](ACER.md)\n* [REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS](UNREAL.md)\n* [Continuous control with deep reinforcement learning](DDPG.md)\n\n## Model-based\n \n* [Self-Consistent Models and Values](sc.md) 25 Oct 2021 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.12840.pdf)\n* [When to use parametric models in reinforcement learning?](parametric.md) 12 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05243.pdf)\n* [Model Based Reinforcement Learning for Atari](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.00374.pdf) 5 Mar 2019\n* [Model-Based Stabilisation of Deep Reinforcement Learning](MBDQN.md) 6 Sep 2018\n* [Learning model-based planning from scratch](IBP.md) 19 July 2017\n\n## Model-free + Model-based\n\n* [Imagination-Augmented Agents for Deep Reinforcement Learning](I2As.md) 19 July 2017\n\n## Hierarchical\n\n* [WHY DOES HIERARCHY (SOMETIMES) WORK SO WELL IN REINFORCEMENT LEARNING?](HIRO.md) 23 Sep 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.10618.pdf) \n* [Language as an Abstraction for Hierarchical Deep Reinforcement Learning](HAL.md) 18 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07343.pdf)\n\n## Option\n\n* [Variational Option Discovery Algorithms](VALOR.md) 26 July 2018\n* [A Laplacian Framework for Option Discovery in Reinforcement Learning](LFOD.md) 16 Jun 2017\n\n## Connection with other methods\n\n* [Robust Imitation of Diverse Behaviors](GVG.md)\n* [Learning human behaviors from motion capture by adversarial imitation](GAIL.md)\n* [Connecting Generative Adversarial Networks and Actor-Critic Methods](GANAC.md)\n\n## Connecting value and policy methods\n\n* [Bridging the Gap Between Value and Policy Based Reinforcement Learning](PCL.md)\n* [Policy gradient and Q-learning](PGQ.md)\n\n## Reward design\n\n* [End-to-End Robotic Reinforcement Learning without Reward Engineering](VICE.md) 16 Apr 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.07854.pdf)\n* [Reinforcement Learning with Corrupted Reward Channel](RLCRC.md) 23 May 2017\n\n## Unifying\n\n* [Multi-step Reinforcement Learning: A Unifying Algorithm](MSRL.md)\n\n## Faster DRL\n\n* [Neural Episodic Control](NEC.md)\n\n## Multi-agent\n\n* [No Press Diplomacy: Modeling Multi-Agent Gameplay](Dip.md) 4 Sep 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.02128.pdf)\n* [Options as responses: Grounding behavioural hierarchies in multi-agent RL](OPRE) 6 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.01470.pdf)\n* [Evolutionary Reinforcement Learning for Sample-Efficient Multiagent Coordination](MERL.md) 18 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07315.pdf)\n* [A Regularized Opponent Model with Maximum Entropy Objective](ROMMEO.md) 17 May 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.08087.pdf)\n* [Deep Q-Learning for Nash Equilibria: Nash-DQN](NashDQN.md) 23 Apr 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.10554.pdf)\n* [Malthusian Reinforcement Learning](MRL.md) 3 Mar 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.07019.pdf)\n* [Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning](bad.md) 4 Nov 2018\n* [INTRINSIC SOCIAL MOTIVATION VIA CAUSAL INFLUENCE IN MULTI-AGENT RL](ISMCI.md) 19 Oct 2018\n* [QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning](http:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fshimon.whiteson\u002Fpubs\u002Frashidicml18.pdf) 30 Mar 2018\n* [Modeling Others using Oneself in Multi-Agent Reinforcement Learning](SOM.md) 26 Feb 2018\n* [The Mechanics of n-Player Differentiable Games](SGA.md) 15 Feb 2018 \n* [Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments](RoboSumo.md) 10 Oct 2017\n* [Learning with Opponent-Learning Awareness](LOLA.md) 13 Sep 2017\n* [Counterfactual Multi-Agent Policy Gradients](COMA.md) \n* [Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments](MADDPG.md) 7 Jun 2017\n* [Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games](BiCNet.md) 29 Mar 2017\n\n## New design\n\n* [IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.01561.pdf) 9 Feb 2018\n* [Reverse Curriculum Generation for Reinforcement Learning](RECUR.md)\n* [Trial without Error: Towards Safe Reinforcement Learning via Human Intervention](HIRL.md)\n* [Learning to Design Games: Strategic Environments in Deep Reinforcement Learning](DualMDP.md) 5 July 2017\n\n## Multitask\n\n* [Kickstarting Deep Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.03835.pdf) 10 Mar 2018\n* [Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning](ZSTG.md) 7 Nov 2017\n* [Distral: Robust Multitask Reinforcement Learning](Distral.md) 13 July 2017\n\n## Observational Learning\n\n* [Observational Learning by Reinforcement Learning](OLRL.md) 20 Jun 2017\n\n## Meta Learning\n\n* [Discovery of Useful Questions as Auxiliary Tasks](GVF.md) 10 Sep 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04607.pdf)\n* [Meta-learning of Sequential Strategies](MetaSS.md) 8 May 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.03030.pdf)\n* [Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables](PEARL.md) 19 Mar 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.08254.pdf)\n* [Some Considerations on Learning to Explore via Meta-Reinforcement Learning](E2.md) 11 Jan 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.01118.pdf)\n* [Meta-Gradient Reinforcement Learning](MGRL.md) 24 May 2018 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.09801.pdf)\n* [ProMP: Proximal Meta-Policy Search](ProMP.md) 16 Oct 2018 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.06784)\n* [Unsupervised Meta-Learning for Reinforcement Learning](UML.md) 12 Jun 2018\n\n## Distributional\n\n* [GAN Q-learning](GANQL.md) 20 July 2018\n* [Implicit Quantile Networks for Distributional Reinforcement Learning](IQN.md) 14 Jun 2018\n* [Nonlinear Distributional Gradient Temporal-Difference Learning](GTD.md) 20 May 2018\n* [DISTRIBUTED DISTRIBUTIONAL DETERMINISTIC POLICY GRADIENTS](D4PG.md) 23 Apr 2018\n* [An Analysis of Categorical Distributional Reinforcement Learning](C51-analysis.md) 22 Feb 2018\n* [Distributional Reinforcement Learning with Quantile Regression](QR-DQN.md) 27 Oct 2017\n* [A Distributional Perspective on Reinforcement Learning](C51.md) 21 July 2017\n\n## Planning\n\n* [Search on the Replay Buffer: Bridging Planning and Reinforcement Learning](SoRB.md) 12 June 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05253.pdf)\n\n## Safety\n\n* [Robust Reinforcement Learning for Continuous Control with Model Misspecification](MPO.md) 18 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07516.pdf)\n* [Verifiable Reinforcement Learning via Policy Extraction](Viper.md) 22 May 2018 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.08328.pdf)\n\n## Inverse RL\n\n* [ADDRESSING SAMPLE INEFFICIENCY AND REWARD BIAS IN INVERSE REINFORCEMENT LEARNING](OP-GAIL.md) 9 Sep 2018\n\n## No reward RL\n\n* [Fast Task Inference with Variational Intrinsic Successor Features](VISR.md) 2 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05030.pdf)\n* [Curiosity-driven Exploration by Self-supervised Prediction](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.05363) 15 May 2017 \n\n## Time\n\n* [Interval timing in deep reinforcement learning agents](Intervaltime.md) 31 May 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.13469.pdf)\n* [Time Limits in Reinforcement Learning](PEB.md)\n\n## Adversarial learning\n\n* [Sample-efficient Adversarial Imitation Learning from Observation](LQR+GAIfO.md) 18 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07374.pdf) \n\n## Use Natural Language\n\n* [Using Natural Language for Reward Shaping in Reinforcement Learning](LEARN.md) 31 May 2019 [arxiv](https:\u002F\u002Fwww.cs.utexas.edu\u002F~ai-lab\u002FdownloadPublication.php?filename=http:\u002F\u002Fwww.cs.utexas.edu\u002Fusers\u002Fml\u002Fpapers\u002Fgoyal.ijcai19.pdf&pubid=127757)\n\n## Generative and contrastive representation learning\n\n* [Unsupervised State Representation Learning in Atari](ST-DIM.md) 19 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08226.pdf)\n\n## Belief\n\n* [Shaping Belief States with Generative Environment Models for RL](GenerativeBelief.md) 24 Jun 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.09237v2.pdf)\n\n## PAC\n* [Provably Convergent Off-Policy Actor-Critic with Function Approximation](COF-PAC.md) 11 Nov 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1911.04384.pdf)\n\n\n## Applications\n* [Benchmarks for Deep Off-Policy Evaluation](bdope.md) 30 Mar 2021 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.16596.pdf)\n* [Learning Reciprocity in Complex Sequential Social Dilemmas](Reciprocity.md) 19 Mar 2019 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.08082.pdf)\n* [DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills](dmimic.md) 9 Apr 2018\n* [TUNING RECURRENT NEURAL NETWORKS WITH REINFORCEMENT LEARNING](RLTUNER.md)\n","# 令人惊叹的深度强化学习\n\n> **2024年3月1日更新：新增HILP**\n> \n> **2022年7月更新：新增EDDICT**\n> \n> **2022年3月更新：2022年初发布了几篇论文**\n> \n> **2021年12月更新：无监督强化学习**\n\n## 关于awesome drl的介绍\n强化学习是构建通用人工智能（AGI）的基础框架。因此，我们在这个awesome drl项目中分享了该领域的重要贡献。\n\n## 深度强化学习全景图\n\n![更新后的深度强化学习全景图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_fc6e0f2be7bc.png)\n\n## 目录\n- [令人惊叹的深度强化学习](#令人惊叹的深度强化学习)\n  - [关于awesome drl的介绍](#关于awesome-drl的介绍)\n  - [深度强化学习全景图](#深度强化学习全景图)\n  - [目录](#目录)\n  - [通用指南](#通用指南)\n  - [2022年](#2022年)\n  - [基础与理论](#基础与理论)\n  - [通用基准框架](#通用基准框架)\n  - [无监督](#无监督)\n  - [离线](#离线)\n  - [基于价值的方法](#基于价值的方法)\n  - [策略梯度](#策略梯度)\n  - [探索](#探索)\n  - [Actor-Critic](#Actor-Critic)\n  - [基于模型的方法](#基于模型的方法)\n  - [无模型+基于模型](#无模型+基于模型)\n  - [层次化](#层次化)\n  - [选项](#选项)\n  - [与其他方法的联系](#与其他方法的联系)\n  - [连接价值与策略方法](#连接价值与策略方法)\n  - [奖励设计](#奖励设计)\n  - [统一](#统一)\n  - [更快的深度强化学习](#更快的深度强化学习)\n  - [多智能体](#多智能体)\n  - [新设计](#新设计)\n  - [多任务](#多任务)\n  - [观察学习](#观察学习)\n  - [元学习](#元学习)\n  - [分布式](#分布式)\n  - [规划](#规划)\n  - [安全性](#安全性)\n  - [逆向强化学习](#逆向强化学习)\n  - [无奖励强化学习](#无奖励强化学习)\n  - [时间](#时间)\n  - [对抗性学习](#对抗性学习)\n  - [使用自然语言](#使用自然语言)\n  - [生成式与对比表征学习](#生成式与对比表征学习)\n  - [信念](#信念)\n  - [PAC](#PAC)\n  - [应用](#应用)\n\n插图：\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_63f348eac4ef.png)\n\n**欢迎提出建议和意见**。  \n## 通用指南\n* [Awesome Offline RL](https:\u002F\u002Fgithub.com\u002Fhanjuku-kaso\u002Fawesome-offline-rl)\n* [Reinforcement Learning Today](http:\u002F\u002Freinforcementlearning.today\u002F)\n* [Marc Lanctot的多智能体强化学习RLSS @ Lille](http:\u002F\u002Fmlanctot.info\u002Ffiles\u002Fpapers\u002FLanctot_MARL_RLSS2019_Lille.pdf) 2019年7月11日\n* [David Abel的RLDM 2019笔记](https:\u002F\u002Fdavid-abel.github.io\u002Fnotes\u002Frldm_2019.pdf) 2019年7月11日\n* [受自然语言启发的强化学习综述](RLNL.md) 2019年6月10日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.03926.pdf)\n* [现实世界强化学习的挑战](ChallengesRealWorldRL.md) 2019年4月29日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.12901.pdf)\n* [光线干扰：深度强化学习中的 plateau 问题来源](RayInterference.md) 2019年4月25日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.11455.pdf)\n* [David Silver的深度强化学习原则](p10.md)\n* [University AI的深度强化学习中文简介](https:\u002F\u002Fwww.jianshu.com\u002Fp\u002Fdfd987aa765a)\n* [OpenAI的spinningup](https:\u002F\u002Fspinningup.openai.com\u002Fen\u002Flatest\u002F)\n* [层次化强化学习的前景](https:\u002F\u002Fthegradient.pub\u002Fthe-promise-of-hierarchical-reinforcement-learning\u002F) 2019年3月9日\n* [有意义的深度强化学习](reproducing.md) 2019年1月30日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1709.06560.pdf)\n\n## 2024年\n* [基于希尔伯特表示的基础策略](HILP.md) [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15567) [repo](https:\u002F\u002Fgithub.com\u002Fseohongpark\u002FHILP) 2024年2月23日\n\n## 2022年\n* 基于视频进行无动作预训练的强化学习 [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.13880) [repo](https:\u002F\u002Fgithub.com\u002Fyounggyoseo\u002Fapv)\n\n## 通用策略\n* [基于希尔伯特表示的基础策略](HILP.md) [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15567) [repo](https:\u002F\u002Fgithub.com\u002Fseohongpark\u002FHILP) 2024年2月23日\n\n## 基础与理论\n\n* [一般非线性贝尔曼方程](GNLBE.md) 2019年7月9日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.07331.pdf)\n* [机器学习中的蒙特卡洛梯度估计](MCGE.md) 2019年6月25日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.10652.pdf)\n\n## 通用基准框架\n\n* [Brax](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fbrax\u002F) \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_1d39ebc3113f.gif\" width=\"336\" height=\"80\" alt=\"BRAX\"\u002F>\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_28075619bd5c.gif)\n* [Android-Env](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fandroid_env) \n  * ![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_readme_e210e5b628bf.gif)\n* [MuJoCo](http:\u002F\u002Fmujoco.org\u002F) | [MuJoCo中文版](https:\u002F\u002Fgithub.com\u002Ftigerneil\u002Fmujoco-zh)\n* [无监督强化学习基准](https:\u002F\u002Fgithub.com\u002Frll-research\u002Furl_benchmark)\n* [用于离线强化学习的数据集](https:\u002F\u002Fgithub.com\u002Frail-berkeley\u002Fd4rl)\n* [Spriteworld：一个灵活、可配置的基于Python的强化学习环境](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fspriteworld)\n* [Chainerrl可视化工具](https:\u002F\u002Fgithub.com\u002Fchainer\u002Fchainerrl-visualizer)\n* [强化学习行为套件](BSRL.md) 2019年8月13日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.03568.pdf) | [代码](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fbsuite)\n* [量化强化学习中的泛化能力](Coinrun.md) 2018年12月20日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.02341.pdf)\n* [S-RL工具箱：用于状态表征学习的环境、数据集和评估指标](SRL.md) 2018年9月25日\n* [dopamine](https:\u002F\u002Fgithub.com\u002Fgoogle\u002Fdopamine)\n* [星际争霸II](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Fpysc2)\n* [tfrl](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002Ftrfl)\n* [chainerrl](https:\u002F\u002Fgithub.com\u002Fchainer\u002Fchainerrl)\n* [PARL](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPARL) \n* [DI-engine：一个通用的决策智能引擎，支持多种深度强化学习算法](https:\u002F\u002Fgithub.com\u002Fopendilab\u002FDI-engine)\n* [PPO x Family：深度强化学习中文课程](https:\u002F\u002Fgithub.com\u002Fopendilab\u002FPPOxFamily)\n\n## 无监督\n\n* [URLB：无监督强化学习基准](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.15191) 2021年10月28日\n* [APS：基于后继特征的主动预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.13956) 2021年8月31日\n* [来自虚无的行为：无监督主动预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.04551) 2021年3月8日\n* [基于原型表征的强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.11271) 2021年2月22日\n* [通过状态边际匹配实现高效探索](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.05274) 2019年6月12日\n* [通过分歧进行自监督探索](https:\u002F\u002Farxiv.org\u002Fabs\u002F1906.04161) 2019年6月10日\n* [通过随机网络蒸馏进行探索](https:\u002F\u002Farxiv.org\u002Fabs\u002F1810.12894) 2018年10月30日\n* [多样性就是一切：无需奖励函数即可学习技能](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.06070) 2018年2月16日\n* [基于自监督预测的好奇心驱动探索](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.05363) 2017年5月15日\n\n## 离线\n\n* [PerSim：通过个性化模拟器实现异构智能体的数据高效离线强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2102.06961) 2021年11月10日\n* [交互式推荐的通用离线强化学习框架]() AAAI 2021\n\n\n## 基于价值的方法\n\n* [利用结构进行基于价值的规划与强化学习](SVRL.md) 2020年2月5日 [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1909.12255) | [代码](https:\u002F\u002Fgithub.com\u002FYyzHarry\u002FSV-RL)\n* [循环价值函数](RVF.md) 2019年5月23日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.09562.pdf)\n* [随机Lipschitz Q学习](LipschitzQ.md) 2019年4月24日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.10653.pdf)\n* [TreeQN和ATreeC：用于深度强化学习的可微分树状模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1710.11417) 2018年3月8日\n* [分布式优先经验回放](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.00933.pdf) 2018年3月2日\n* [Rainbow：结合深度强化学习中的多项改进](Rainbow.md) 2017年10月6日\n* [从示范中学习以应用于现实世界的强化学习](DQfD.md) 2017年4月12日\n* [双网络架构](Dueling.md)\n* [双DQN](DDQN.md)\n* [优先经验回放](PER.md)\n* [深度Q网络](DQN.md)\n\n## 策略梯度方法\n\n* [阶段性策略梯度](PPG.md) 2020年9月9日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2009.04416.pdf) [代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fphasic-policy-gradient)\n* [策略梯度方法的算子视角](OVPG.md) 2020年6月22日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2006.11266.pdf)\n* [直接策略梯度：在离散动作空间中直接优化策略](DirPG.md) 2019年6月14日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.06062.pdf)\n* [策略梯度搜索：无需搜索树的在线规划与专家迭代](PGS.md) 2019年4月7日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.03646.pdf)\n* [深度强化学习的监督策略更新](SPU.md) 2018年12月24日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.11706v4.pdf)\n* [PPO-CMA：协方差矩阵自适应的近端策略优化](PPO-CMA.md) 2018年10月5日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.02541v6.pdf)\n* [截断动作策略梯度](CAPG.md) 2018年6月22日\n* [强化学习中的期望策略梯度](EPG.md) 2018年1月10日\n* [近端策略优化算法](PPO.md) 2017年7月20日\n* [丰富环境中运动行为的涌现](DPPO.md) 2017年7月7日\n* [插值策略梯度：融合在线与离线策略梯度估计以用于深度强化学习](IPG.md) 2017年6月1日\n* [策略梯度与软Q学习之间的等价性](PGSQL.md)\n* [信任区域策略优化](TRPO.md)\n* [基于深度能量函数的策略强化学习](DEBP.md)\n* [Q-PROP：带有离线评论家的样本高效策略梯度](QPROP.md)\n\n## 探索方法\n\n* [内在控制中的熵驱动期望动力学](EDDICT.md) 2021年 [openreview](https:\u002F\u002Fopenreview.net\u002Fpdf?id=lBSSxTgXmiK)\n* [通过分歧进行自监督探索](Disagreement.md) 2019年6月10日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.04161.pdf)\n* [通过状态抽象进行近似探索](MBIE-EB.md) 2019年1月24日\n* [不确定性贝尔曼方程与探索](UBE.md) 2017年9月15日\n* [用于探索的噪声网络](NoisyNet.md) 2017年6月30日 [实现](https:\u002F\u002Fgithub.com\u002FKaixhin\u002FNoisyNet-A3C)\n* [强化学习中基于特征空间计数的探索](PhiEB.md) 2017年6月25日\n* [基于神经密度模型的计数探索](NDM.md) 2017年6月14日\n* [基于Q集合的UCB和InfoGain探索](QEnsemble.md) 2017年6月11日\n* [强化学习的极小化极大后悔界](MMRB.md) 2017年3月16日\n* [利用深度预测模型激励强化学习中的探索](incentivizing.md)\n* [EX2：用于深度强化学习的示例模型探索](EX2.md)\n\n## 演员-评论家方法\n\n* [广义的离线演员-评论家](Geoff-PAC.md) 2019年3月27日\n* [软演员-评论家算法及其应用](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.05905.pdf) 2019年1月29日\n* [反应堆：一种样本高效的演员-评论家架构](REACTOR.md) 2017年4月15日\n* [具有经验回放的样本高效演员-评论家](ACER.md)\n* [无监督辅助任务下的强化学习](UNREAL.md)\n* [深度强化学习中的连续控制](DDPG.md)\n\n## 基于模型的方法\n\n* [自洽模型与价值](sc.md) 2021年10月25日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.12840.pdf)\n* [何时在强化学习中使用参数化模型？](parametric.md) 2019年6月12日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05243.pdf)\n* [Atari游戏中的基于模型的强化学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.00374.pdf) 2019年3月5日\n* [基于模型的深度强化学习稳定化](MBDQN.md) 2018年9月6日\n* [从零开始学习基于模型的规划](IBP.md) 2017年7月19日\n\n## 无模型+基于模型的方法\n\n* [想象增强型智能体用于深度强化学习](I2As.md) 2017年7月19日\n\n## 分层方法\n\n* [为什么分层方法有时在强化学习中如此有效？](HIRO.md) 2019年9月23日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.10618.pdf)\n* [语言作为分层深度强化学习的抽象](HAL.md) 2019年6月18日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07343.pdf)\n\n## 选项方法\n\n* [变分选项发现算法](VALOR.md) 2018年7月26日\n* [强化学习中选项发现的拉普拉斯框架](LFOD.md) 2017年6月16日\n\n## 与其他方法的联系\n\n* [多样化行为的鲁棒模仿](GVG.md)\n* [通过对抗性模仿从动作捕捉中学习人类行为](GAIL.md)\n* [生成对抗网络与演员-评论家方法的连接](GANAC.md)\n\n## 连接价值与策略方法\n\n* [弥合基于价值与基于策略的强化学习之间的差距](PCL.md)\n* [策略梯度与Q学习](PGQ.md)\n\n## 奖励设计\n\n* [无需奖励工程的端到端机器人强化学习](VICE.md) 2019年4月16日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.07854.pdf)\n* [具有损坏奖励通道的强化学习](RLCRC.md) 2017年5月23日\n\n## 统一方法\n\n* [多步强化学习：一种统一算法](MSRL.md)\n\n## 加速DRL\n\n* [神经情景控制](NEC.md)\n\n## 多智能体\n\n* [无压外交：多智能体游戏建模](Dip.md) 2019年9月4日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.02128.pdf)\n* [选项作为回应：在多智能体强化学习中将行为层次结构具体化](OPRE) 2019年6月6日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.01470.pdf)\n* [用于样本高效多智能体协作的进化强化学习](MERL.md) 2019年6月18日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07315.pdf)\n* [具有最大熵目标的正则化对手模型](ROMMEO.md) 2019年5月17日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.08087.pdf)\n* [用于纳什均衡的深度Q学习：Nash-DQN](NashDQN.md) 2019年4月23日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.10554.pdf)\n* [马尔萨斯强化学习](MRL.md) 2019年3月3日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.07019.pdf)\n* [深度多智能体强化学习中的贝叶斯动作解码器](bad.md) 2018年11月4日\n* [通过因果影响实现多智能体强化学习中的内在社会动机](ISMCI.md) 2018年10月19日\n* [QMIX：用于深度多智能体强化学习的单调值函数分解](http:\u002F\u002Fwww.cs.ox.ac.uk\u002Fpeople\u002Fshimon.whiteson\u002Fpubs\u002Frashidicml18.pdf) 2018年3月30日\n* [在多智能体强化学习中使用自身来建模他人](SOM.md) 2018年2月26日\n* [n人可微分博弈的机制](SGA.md) 2018年2月15日\n* [在非平稳和竞争性环境中通过元学习进行连续适应](RoboSumo.md) 2017年10月10日\n* [带有对手学习意识的学习](LOLA.md) 2017年9月13日\n* [反事实多智能体策略梯度](COMA.md)\n* [用于混合合作-竞争环境的多智能体演员-评论家](MADDPG.md) 2017年6月7日\n* [用于学习玩《星际争霸》战斗游戏的多智能体双向协调网络](BiCNet.md) 2017年3月29日\n\n## 新设计\n\n* [IMPALA：基于重要性加权演员-学习者架构的可扩展分布式深度强化学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.01561.pdf) 2018年2月9日\n* [强化学习中的逆向课程生成](RECUR.md)\n* [无需试错：通过人类干预迈向安全强化学习](HIRL.md)\n* [学习设计游戏：深度强化学习中的战略环境](DualMDP.md) 2017年7月5日\n\n## 多任务\n\n* [启动深度强化学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.03835.pdf) 2018年3月10日\n* [通过多任务深度强化学习实现零样本任务泛化](ZSTG.md) 2017年11月7日\n* [Distral：鲁棒的多任务强化学习](Distral.md) 2017年7月13日\n\n## 观察学习\n\n* [通过强化学习进行观察学习](OLRL.md) 2017年6月20日\n\n## 元学习\n\n* [发现有用的辅助任务问题](GVF.md) 2019年9月10日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04607.pdf)\n* [序列策略的元学习](MetaSS.md) 2019年5月8日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.03030.pdf)\n* [通过概率上下文变量实现高效的离策略元强化学习](PEARL.md) 2019年3月19日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.08254.pdf)\n* [关于通过元强化学习学习探索的一些思考](E2.md) 2019年1月11日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.01118.pdf)\n* [元梯度强化学习](MGRL.md) 2018年5月24日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.09801.pdf)\n* [ProMP：近端元策略搜索](ProMP.md) 2018年10月16日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.06784.pdf)\n* [强化学习的无监督元学习](UML.md) 2018年6月12日\n\n## 分布式\n\n* [GAN Q学习](GANQL.md) 2018年7月20日\n* [用于分布强化学习的隐式分位数网络](IQN.md) 2018年6月14日\n* [非线性分布梯度时序差分学习](GTD.md) 2018年5月20日\n* [分布式分布确定性策略梯度](D4PG.md) 2018年4月23日\n* [对分类分布强化学习的分析](C51-analysis.md) 2018年2月22日\n* [基于分位数回归的分布强化学习](QR-DQN.md) 2017年10月27日\n* [强化学习的分布视角](C51.md) 2017年7月21日\n\n## 计划\n\n* [在重放缓冲区上搜索：连接计划与强化学习](SoRB.md) 2019年6月12日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05253.pdf)\n\n## 安全\n\n* [针对模型误设的连续控制鲁棒强化学习](MPO.md) 2019年6月18日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07516.pdf)\n* [通过策略提取实现可验证的强化学习](Viper.md) 2018年5月22日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.08328.pdf)\n\n## 逆向RL\n\n* [解决逆向强化学习中的样本低效和奖励偏差问题](OP-GAIL.md) 2018年9月9日\n\n## 无奖励RL\n\n* [利用变分内在成功特征快速推断任务](VISR.md) 2019年6月2日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05030.pdf)\n* [由自监督预测驱动的好奇心探索](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.05363) 2017年5月15日\n\n## 时间\n\n* [深度强化学习智能体中的间隔计时](Intervaltime.md) 2019年5月31日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.13469.pdf)\n* [强化学习中的时间限制](PEB.md)\n\n## 对抗学习\n\n* [从观察中进行的样本高效对抗模仿学习](LQR+GAIfO.md) 2019年6月18日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07374.pdf)\n\n## 使用自然语言\n\n* [在强化学习中使用自然语言进行奖励塑造](LEARN.md) 2019年5月31日 [arxiv](https:\u002F\u002Fwww.cs.utexas.edu\u002F~ai-lab\u002FdownloadPublication.php?filename=http:\u002F\u002Fwww.cs.utexas.edu\u002Fusers\u002Fml\u002Fpapers\u002Fgoyal.ijcai19.pdf&pubid=127757)\n\n## 生成式和对比表征学习\n\n* [Atari中的无监督状态表征学习](ST-DIM.md) 2019年6月19日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08226.pdf)\n\n## 信念\n\n* [利用生成式环境模型为RL塑造信念状态](GenerativeBelief.md) 2019年6月24日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.09237v2.pdf)\n\n## PAC\n* [具有函数逼近的可证明收敛的离策略演员-评论家](COF-PAC.md) 2019年11月11日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1911.04384.pdf)\n\n\n## 应用\n\n* [深度离策略评估的基准](bdope.md) 2021年3月30日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.16596.pdf)\n* [在复杂顺序社会困境中学习互惠](Reciprocity.md) 2019年3月19日 [arxiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.08082.pdf)\n* [DeepMimic：基于示例引导的物理角色技能深度强化学习](dmimic.md) 2018年4月9日\n* [用强化学习调优循环神经网络](RLTUNER.md)","# awesome-deep-rl 快速上手指南\n\n`awesome-deep-rl` 并非一个可直接安装的单一软件库，而是一个**深度强化学习（Deep RL）领域的精选资源列表**。它汇集了该领域重要的论文、开源代码库、基准测试框架和学习指南。\n\n本指南将帮助中国开发者如何利用该列表快速搭建开发环境、获取核心算法代码并开始实验。\n\n## 环境准备\n\n由于列表中包含了大量基于 Python 的深度学习框架（如 PyTorch, TensorFlow, JAX）和强化学习环境，建议按以下标准准备开发环境：\n\n*   **操作系统**: Linux (Ubuntu 20.04\u002F22.04 推荐) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python 版本**: 3.8 - 3.10 (兼容性最佳)。\n*   **硬件要求**: \n    *   强烈建议配备 NVIDIA GPU (显存 8GB 以上为佳) 以加速训练。\n    *   若仅阅读论文或运行小型 Demo，CPU 亦可。\n*   **前置依赖**:\n    *   Git\n    *   CUDA Toolkit (根据显卡驱动版本安装)\n    *   cuDNN\n\n## 安装步骤\n\n由于这是一个资源索引项目，\"安装\"实际上是指克隆仓库并配置通用的强化学习开发环境。\n\n### 1. 克隆项目仓库\n使用 Git 获取最新资源列表（推荐使用国内镜像加速）：\n\n```bash\n# 使用 Gitee 镜像（如果可用）或 GitHub 官方源\ngit clone https:\u002F\u002Fgithub.com\u002Fhanjuku-kaso\u002Fawesome-deep-rl.git\n# 或者\ngit clone https:\u002F\u002Fgitee.com\u002Fmirrors\u002Fawesome-deep-rl.git\ncd awesome-deep-rl\n```\n\n### 2. 创建虚拟环境\n建议使用 `conda` 或 `venv` 隔离环境，避免依赖冲突。\n\n```bash\n# 使用 conda 创建环境\nconda create -n drl_env python=3.9\nconda activate drl_env\n```\n\n### 3. 安装通用深度学习依赖\n列表中的项目大多依赖主流框架。你可以根据想复现的具体算法选择安装 PyTorch 或 TensorFlow。以下是基于 **PyTorch** 的通用安装方案（使用清华源加速）：\n\n```bash\n# 安装 PyTorch (CUDA 11.8 版本示例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装强化学习常用基础库\npip install gymnasium mujoco pygame matplotlib tqdm --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> **注意**: 列表中提到的具体算法（如 `HILP`, `Brax`, `DI-engine` 等）需要进入其对应的子链接仓库单独安装。例如，若想使用百度开源的 `DI-engine`，需执行：\n> ```bash\n> pip install ding --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 基本使用\n\n`awesome-deep-rl` 的核心用法是**查阅目录**找到你需要的算法或工具，然后跳转到对应仓库进行实践。\n\n### 场景一：查找特定算法的代码实现\n假设你想学习最新的 **HILP (Foundation Policies with Hilbert Representations)** 算法：\n\n1.  在本地打开 `awesome-deep-rl` 目录下的 `README.md` 或在 GitHub 页面浏览。\n2.  定位到 **2024** 或 **Generalist policies** 章节。\n3.  找到条目：`[Foundation Policies with Hilbert Representations](HILP.md) [repo](https:\u002F\u002Fgithub.com\u002Fseohongpark\u002FHILP)`。\n4.  点击 repo 链接或直接克隆该算法仓库：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fseohongpark\u002FHILP.git\ncd HILP\npip install -r requirements.txt\n```\n\n5.  运行该仓库提供的示例脚本（具体命令参考该子项目的 README）：\n```bash\npython train.py --config configs\u002Fhilp_default.yaml\n```\n\n### 场景二：使用统一的基准测试框架\n如果你想在一个统一的环境中对比多种算法，可以使用列表中推荐的 **DI-engine** 或 **Stable Baselines3** (虽未直接列出但兼容) 等框架。以列表中提到的 **DI-engine** 为例：\n\n1.  **安装**:\n    ```bash\n    pip install ding\n    ```\n2.  **运行一个简单的 DQN 示例** (在 CartPole 环境中):\n    ```python\n    from ding.policy import DQNPolicy\n    from ding.envs import DingEnvWrapper\n    import gymnasium as gym\n\n    # 创建环境\n    env = gym.make(\"CartPole-v1\")\n    env = DingEnvWrapper(env)\n\n    # 初始化策略 (伪代码示例，具体请参考 DI-engine 文档)\n    policy = DQNPolicy()\n    \n    # 开始训练循环\n    # policy.learn(...) \n    ```\n\n### 场景三：查阅中文学习资料\n对于初学者，列表中特别收录了中文入门资源：\n*   在 **General guidances** 章节找到：`University AI's General introduction to deep rl (in Chinese)`。\n*   访问链接阅读系统性的中文教程，建立理论基础后再动手复现代码。\n\n---\n**提示**: 该列表更新频繁（最近更新于 2024 年 3 月），请定期 `git pull` 获取最新的论文和开源项目信息。","某自动驾驶初创公司的算法团队正致力于开发能在复杂城市路况中自主决策的智能驾驶系统，急需引入先进的深度强化学习（DRL）技术来优化车辆的控制策略。\n\n### 没有 awesome-deep-rl 时\n- **文献检索如大海捞针**：研究人员需花费数周时间在 arXiv 和各类会议论文中手动筛选，难以区分哪些是理论突破，哪些已具备工程落地价值。\n- **技术选型盲目低效**：面对值迭代、策略梯度、分层强化学习等众多流派，团队缺乏全景视野，常因选错基线模型导致项目前期方向性错误。\n- **复现成本极高**：找不到经过验证的代码仓库或标准基准框架，工程师需从零复现论文算法，常因细节缺失导致结果无法对齐，浪费大量算力资源。\n- **前沿动态滞后**：难以及时获取如“无监督 RL\"或“基于视频的无动作预训练”等最新进展，导致技术方案在研发周期内就已过时。\n\n### 使用 awesome-deep-rl 后\n- **一站式资源导航**：团队直接利用其分类清晰的目录（如 Model-based、Multi-agent），几分钟内即可锁定与自动驾驶决策最相关的顶会论文与核心贡献。\n- **精准技术匹配**：通过查看\"Landscape of Deep RL\"全景图及细分领域推荐，迅速确定采用分层强化学习处理长序列决策，大幅缩短技术调研周期。\n- **高效代码复用**：直接获取关联的高质量开源仓库（如 HILP 或 APV），基于成熟框架进行微调，将算法验证时间从数月压缩至数周。\n- **紧跟前沿迭代**：依托持续的月度更新机制，团队能立即整合 2024 年最新的 Foundation Policies 等技术，保持算法架构的行业领先性。\n\nawesome-deep-rl 将原本分散杂乱的深度强化学习生态整合为结构化知识图谱，帮助研发团队从繁琐的文献挖掘中解放出来，专注于核心算法的创新与落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftigerneil_awesome-deep-rl_516d16e7.png","tigerneil","Xiaohu Zhu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ftigerneil_1a485335.png","Strong, but safe. ","Center for Safe AGI","Earth","xhzhu.nju@gmail.com","neil_csagi","xiaohuzhu.xyz","https:\u002F\u002Fgithub.com\u002Ftigerneil",[83],{"name":84,"color":85,"percentage":86},"HTML","#e34c26",100,1508,222,"2026-04-03T09:50:13","MIT",1,"","未说明",{"notes":95,"python":93,"dependencies":96},"该仓库（awesome-deep-rl）是一个深度强化学习论文、资源和代码库的精选列表（Awesome List），本身不是一个可直接运行的单一软件工具。因此，README 中未包含具体的操作系统、硬件配置或依赖库版本要求。具体的环境需求取决于用户选择运行的列表中提到的某个特定算法或框架（如 Brax, MuJoCo, Dopamine, PARL 等），需参考各子项目的独立文档。",[],[98,13],"其他",[100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119],"deep-reinforcement-learning","reinforcement-learning","game","reward","artificial-general-intelligence","exploration-exploitation","hierarchical-reinforcement-learning","distributional","multiagent-reinforcement-learning","planning","theoretical-computer-science","inverse-rl","icml","aamas","ijcai","aaai","aistats","uai","agi","iclr",null,"2026-03-27T02:49:30.150509","2026-04-06T20:03:43.039937",[124],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},19873,"在多智能体设置中，如何同时定义多个策略和奖励函数？","为了简化问题，通常建议获取同一类型或同一函数族（如分布强化学习 Distributional RL）的策略或奖励函数。虽然可以考虑组合或插值不同类型的函数，但这非常困难，因为需要保证解的收敛性。\n\n另一种方法是减少奖励的来源问题。可以参考 Christian R. Shelton 的论文：《Balancing Multiple Sources of Reward in Reinforcement Learning》（在强化学习中平衡多种奖励来源），该论文提供了相关思路。","https:\u002F\u002Fgithub.com\u002Ftigerneil\u002Fawesome-deep-rl\u002Fissues\u002F4",[130],{"id":131,"version":132,"summary_zh":120,"released_at":133},117913,"v1.0.0","2022-07-20T02:21:37"]