[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-p-christ--Deep-Reinforcement-Learning-Algorithms-with-PyTorch":3,"tool-p-christ--Deep-Reinforcement-Learning-Algorithms-with-PyTorch":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",148568,2,"2026-04-09T23:34:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":32,"env_os":88,"env_gpu":88,"env_ram":88,"env_deps":89,"category_tags":95,"github_topics":77,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":96,"updated_at":97,"faqs":98,"releases":128},6166,"p-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch","Deep-Reinforcement-Learning-Algorithms-with-PyTorch","PyTorch implementations of deep reinforcement learning algorithms and environments","Deep-Reinforcement-Learning-Algorithms-with-PyTorch 是一个基于 PyTorch 框架构建的开源项目，旨在提供主流深度强化学习算法的高质量代码实现与环境模拟。它有效解决了研究人员和开发者在复现经典论文算法时面临的代码缺失、环境配置复杂以及基准测试不统一等痛点。\n\n该项目非常适合人工智能领域的研究人员、算法工程师以及希望深入理解强化学习机制的学生使用。无论是需要快速验证新想法的科研人员，还是希望通过实战代码学习算法细节的开发者，都能从中获益。\n\n其核心亮点在于覆盖面极广，不仅包含了 DQN 系列（如 Double DQN、Dueling DQN）、策略梯度方法（如 PPO、A3C、SAC、TD3）等经典算法，还前瞻性地集成了分层强化学习（Hierarchical RL）及带有事后经验回放（HER）的高级变体。此外，项目内置了比特翻转（Bit Flipping）、四房间游戏（Four Rooms）等多种专用测试环境，所有算法均经过验证，能够快速在 Cart Pole 或 Mountain Car 等标准任务中收敛。代码结构清晰且易于扩展，是","Deep-Reinforcement-Learning-Algorithms-with-PyTorch 是一个基于 PyTorch 框架构建的开源项目，旨在提供主流深度强化学习算法的高质量代码实现与环境模拟。它有效解决了研究人员和开发者在复现经典论文算法时面临的代码缺失、环境配置复杂以及基准测试不统一等痛点。\n\n该项目非常适合人工智能领域的研究人员、算法工程师以及希望深入理解强化学习机制的学生使用。无论是需要快速验证新想法的科研人员，还是希望通过实战代码学习算法细节的开发者，都能从中获益。\n\n其核心亮点在于覆盖面极广，不仅包含了 DQN 系列（如 Double DQN、Dueling DQN）、策略梯度方法（如 PPO、A3C、SAC、TD3）等经典算法，还前瞻性地集成了分层强化学习（Hierarchical RL）及带有事后经验回放（HER）的高级变体。此外，项目内置了比特翻转（Bit Flipping）、四房间游戏（Four Rooms）等多种专用测试环境，所有算法均经过验证，能够快速在 Cart Pole 或 Mountain Car 等标准任务中收敛。代码结构清晰且易于扩展，是探索深度强化学习前沿技术的理想起点。","# Deep Reinforcement Learning Algorithms with PyTorch\n\n![Travis CI](https:\u002F\u002Ftravis-ci.org\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch.svg?branch=master)\n[![contributions welcome](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcontributions-welcome-brightgreen.svg?style=flat)](https:\u002F\u002Fgithub.com\u002Fdwyl\u002Festa\u002Fissues)\n\n\n\n![RL](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_90c5e38dfd3c.jpeg)   ![PyTorch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_1f0797661c91.jpg)\n\nThis repository contains PyTorch implementations of deep reinforcement learning algorithms and environments. \n\n(To help you remember things you learn about machine learning in general write them in [Gizmo](https:\u002F\u002Fgizmo.ai))\n## **Algorithms Implemented**  \n\n1. *Deep Q Learning (DQN)* \u003Csub>\u003Csup> ([Mnih et al. 2013](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1312.5602.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>  \n1. *DQN with Fixed Q Targets* \u003Csub>\u003Csup> ([Mnih et al. 2013](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1312.5602.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Double DQN (DDQN)* \u003Csub>\u003Csup> ([Hado van Hasselt et al. 2015](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1509.06461.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *DDQN with Prioritised Experience Replay* \u003Csub>\u003Csup> ([Schaul et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1511.05952.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Dueling DDQN* \u003Csub>\u003Csup> ([Wang et al. 2016](http:\u002F\u002Fproceedings.mlr.press\u002Fv48\u002Fwangf16.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *REINFORCE* \u003Csub>\u003Csup> ([Williams et al. 1992](http:\u002F\u002Fwww-anw.cs.umass.edu\u002F~barto\u002Fcourses\u002Fcs687\u002Fwilliams92simple.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Deep Deterministic Policy Gradients (DDPG)* \u003Csub>\u003Csup> ([Lillicrap et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1509.02971.pdf) ) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Twin Delayed Deep Deterministic Policy Gradients (TD3)* \u003Csub>\u003Csup> ([Fujimoto et al. 2018](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.09477)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Soft Actor-Critic (SAC)* \u003Csub>\u003Csup> ([Haarnoja et al. 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.05905.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Soft Actor-Critic for Discrete Actions (SAC-Discrete)* \u003Csub>\u003Csup> ([Christodoulou 2019](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07207)) \u003C\u002Fsup>\u003C\u002Fsub> \n1. *Asynchronous Advantage Actor Critic (A3C)* \u003Csub>\u003Csup> ([Mnih et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1602.01783.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Syncrhonous Advantage Actor Critic (A2C)*\n1. *Proximal Policy Optimisation (PPO)* \u003Csub>\u003Csup> ([Schulman et al. 2017](https:\u002F\u002Fopenai-public.s3-us-west-2.amazonaws.com\u002Fblog\u002F2017-07\u002Fppo\u002Fppo-arxiv.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *DQN with Hindsight Experience Replay (DQN-HER)* \u003Csub>\u003Csup> ([Andrychowicz et al. 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *DDPG with Hindsight Experience Replay (DDPG-HER)* \u003Csub>\u003Csup> ([Andrychowicz et al. 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf) ) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Hierarchical-DQN (h-DQN)* \u003Csub>\u003Csup> ([Kulkarni et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Stochastic NNs for Hierarchical Reinforcement Learning (SNN-HRL)* \u003Csub>\u003Csup> ([Florensa et al. 2017](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.03012.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Diversity Is All You Need (DIAYN)* \u003Csub>\u003Csup> ([Eyensbach et al. 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.06070.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n\nAll implementations are able to quickly solve Cart Pole (discrete actions), Mountain Car Continuous (continuous actions), \nBit Flipping (discrete actions with dynamic goals) or Fetch Reach (continuous actions with dynamic goals). I plan to add more hierarchical RL algorithms soon.\n\n## **Environments Implemented**\n\n1. *Bit Flipping Game* \u003Csub>\u003Csup> (as described in [Andrychowicz et al. 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Four Rooms Game* \u003Csub>\u003Csup> (as described in [Sutton et al. 1998](http:\u002F\u002Fwww-anw.cs.umass.edu\u002F~barto\u002Fcourses\u002Fcs687\u002FSutton-Precup-Singh-AIJ99.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Long Corridor Game* \u003Csub>\u003Csup> (as described in [Kulkarni et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Ant-{Maze, Push, Fall}* \u003Csub>\u003Csup> (as desribed in [Nachum et al. 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.08296.pdf) and their accompanying [code](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Ftree\u002Fmaster\u002Fresearch\u002Fefficient-hrl)) \u003C\u002Fsup>\u003C\u002Fsub>\n\n## **Results**\n\n#### 1. Cart Pole and Mountain Car\n\nBelow shows various RL algorithms successfully learning discrete action game [Cart Pole](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgym\u002Fwiki\u002FCartPole-v0)\n or continuous action game [Mountain Car](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgym\u002Fwiki\u002FMountainCarContinuous-v0). The mean result from running the algorithms \n with 3 random seeds is shown with the shaded area representing plus and minus 1 standard deviation. Hyperparameters\n used can be found in files `results\u002FCart_Pole.py` and `results\u002FMountain_Car.py`. \n \n![Cart Pole and Mountain Car Results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_cbea4c4bb138.png) \n\n\n#### 2. Hindsight Experience Replay (HER) Experiements\n\nBelow shows the performance of DQN and DDPG with and without Hindsight Experience Replay (HER) in the Bit Flipping (14 bits) \nand Fetch Reach environments described in the papers [Hindsight Experience Replay 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf) \nand [Multi-Goal Reinforcement Learning 2018](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.09464). The results replicate the results found in \nthe papers and show how adding HER can allow an agent to solve problems that it otherwise would not be able to solve at all. Note that the same hyperparameters were used within each pair of agents and so the only difference \nbetween them was whether hindsight was used or not. \n\n![HER Experiment Results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_035d163f0d46.png)\n\n#### 3. Hierarchical Reinforcement Learning Experiments\n\nThe results on the left below show the performance of DQN and the algorithm hierarchical-DQN from [Kulkarni et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf)\non the Long Corridor environment also explained in [Kulkarni et al. 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf). The environment\nrequires the agent to go to the end of a corridor before coming back in order to receive a larger reward. This delayed \ngratification and the aliasing of states makes it a somewhat impossible game for DQN to learn but if we introduce a \nmeta-controller (as in h-DQN) which directs a lower-level controller how to behave we are able to make more progress. This \naligns with the results found in the paper. \n\nThe results on the right show the performance of DDQN and algorithm Stochastic NNs for Hierarchical Reinforcement Learning \n(SNN-HRL) from [Florensa et al. 2017](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.03012.pdf). DDQN is used as the comparison because\nthe implementation of SSN-HRL uses 2 DDQN algorithms within it. Note that the first 300 episodes of training\nfor SNN-HRL were used for pre-training which is why there is no reward for those episodes. \n \n![Long Corridor and Four Rooms](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_1f106a4a1ea3.png)\n     \n\n### Usage ###\n\nThe repository's high-level structure is:\n \n    ├── agents                    \n        ├── actor_critic_agents   \n        ├── DQN_agents         \n        ├── policy_gradient_agents\n        └── stochastic_policy_search_agents \n    ├── environments   \n    ├── results             \n        └── data_and_graphs        \n    ├── tests\n    ├── utilities             \n        └── data structures            \n   \n\n#### i) To watch the agents learn the above games  \n\nTo watch all the different agents learn Cart Pole follow these steps:\n\n```commandline\ngit clone https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep_RL_Implementations.git\ncd Deep_RL_Implementations\n\nconda create --name myenvname\ny\nconda activate myenvname\n\npip3 install -r requirements.txt\n\npython results\u002FCart_Pole.py\n``` \n\nFor other games change the last line to one of the other files in the Results folder. \n\n#### ii) To train the agents on another game  \n\nMost Open AI gym environments should work. All you would need to do is change the config.environment field (look at `Results\u002FCart_Pole.py`  for an example of this). \n\nYou can also play with your own custom game if you create a separate class that inherits from gym.Env. See `Environments\u002FFour_Rooms_Environment.py`\nfor an example of a custom environment and then see the script `Results\u002FFour_Rooms.py` to see how to have agents play the environment.\n","# 使用 PyTorch 的深度强化学习算法\n\n![Travis CI](https:\u002F\u002Ftravis-ci.org\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch.svg?branch=master)\n[![欢迎贡献](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcontributions-welcome-brightgreen.svg?style=flat)](https:\u002F\u002Fgithub.com\u002Fdwyl\u002Festa\u002Fissues)\n\n\n\n![RL](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_90c5e38dfd3c.jpeg)   ![PyTorch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_1f0797661c91.jpg)\n\n此仓库包含深度强化学习算法和环境的 PyTorch 实现。\n\n（为了帮助你记住所学的机器学习知识，可以将其记录在 [Gizmo](https:\u002F\u002Fgizmo.ai) 中）\n## **已实现的算法**  \n\n1. *深度 Q 学习 (DQN)* \u003Csub>\u003Csup> ([Mnih 等人, 2013](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1312.5602.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>  \n1. *带有固定 Q 目标的 DQN* \u003Csub>\u003Csup> ([Mnih 等人, 2013](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1312.5602.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *双 DQN (DDQN)* \u003Csub>\u003Csup> ([Hado van Hasselt 等人, 2015](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1509.06461.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *带有优先级经验回放的 DDQN* \u003Csub>\u003Csup> ([Schaul 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1511.05952.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *决斗式 DDQN* \u003Csub>\u003Csup> ([Wang 等人, 2016](http:\u002F\u002Fproceedings.mlr.press\u002Fv48\u002Fwangf16.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *REINFORCE* \u003Csub>\u003Csup> ([Williams 等人, 1992](http:\u002F\u002Fwww-anw.cs.umass.edu\u002F~barto\u002Fcourses\u002Fcs687\u002Fwilliams92simple.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *深度确定性策略梯度 (DDPG)* \u003Csub>\u003Csup> ([Lillicrap 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1509.02971.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *孪生延迟深度确定性策略梯度 (TD3)* \u003Csub>\u003Csup> ([Fujimoto 等人, 2018](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.09477)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *软演员-评论家 (SAC)* \u003Csub>\u003Csup> ([Haarnoja 等人, 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.05905.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *用于离散动作的软演员-评论家 (SAC-Discrete)* \u003Csub>\u003Csup> ([Christodoulou, 2019](https:\u002F\u002Farxiv.org\u002Fabs\u002F1910.07207)) \u003C\u002Fsup>\u003C\u002Fsub> \n1. *异步优势演员-评论家 (A3C)* \u003Csub>\u003Csup> ([Mnih 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1602.01783.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *同步优势演员-评论家 (A2C)*\n1. *近端策略优化 (PPO)* \u003Csub>\u003Csup> ([Schulman 等人, 2017](https:\u002F\u002Fopenai-public.s3-us-west-2.amazonaws.com\u002Fblog\u002F2017-07\u002Fppo\u002Fppo-arxiv.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *带有事后经验回放的 DQN (DQN-HER)* \u003Csub>\u003Csup> ([Andrychowicz 等人, 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *带有事后经验回放的 DDPG (DDPG-HER)* \u003Csub>\u003Csup> ([Andrychowicz 等人, 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *层次化 DQN (h-DQN)* \u003Csub>\u003Csup> ([Kulkarni 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *用于层次化强化学习的随机神经网络 (SNN-HRL)* \u003Csub>\u003Csup> ([Florensa 等人, 2017](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.03012.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n1. *多样性就是一切 (DIAYN)* \u003Csub>\u003Csup> ([Eyensbach 等人, 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.06070.pdf)) \u003C\u002Fsup>\u003C\u002Fsub>\n\n所有实现都能快速解决 Cart Pole（离散动作）、Mountain Car Continuous（连续动作）、Bit Flipping（具有动态目标的离散动作）或 Fetch Reach（具有动态目标的连续动作）。我计划很快添加更多层次化强化学习算法。\n\n## **已实现的环境**\n\n1. *位翻转游戏* \u003Csub>\u003Csup> （如 [Andrychowicz 等人, 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf) 所述） \u003C\u002Fsup>\u003C\u002Fsub>\n1. *四房间游戏* \u003Csub>\u003Csup> （如 [Sutton 等人, 1998](http:\u002F\u002Fwww-anw.cs.umass.edu\u002F~barto\u002Fcourses\u002Fcs687\u002FSutton-Precup-Singh-AIJ99.pdf) 所述） \u003C\u002Fsup>\u003C\u002Fsub>\n1. *长走廊游戏* \u003Csub>\u003Csup> （如 [Kulkarni 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf) 所述） \u003C\u002Fsup>\u003C\u002Fsub>\n1. *Ant-{迷宫、推、摔}* \u003Csub>\u003Csup> （如 [Nachum 等人, 2018](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.08296.pdf) 及其配套 [代码](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Fmodels\u002Ftree\u002Fmaster\u002Fresearch\u002Fefficient-hrl) 所述） \u003C\u002Fsup>\u003C\u002Fsub>\n\n## **结果**\n\n#### 1. Cart Pole 和 Mountain Car\n\n下图展示了各种强化学习算法成功学习离散动作游戏 [Cart Pole](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgym\u002Fwiki\u002FCartPole-v0) 或连续动作游戏 [Mountain Car](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgym\u002Fwiki\u002FMountainCarContinuous-v0)。运行这些算法时使用了 3 个随机种子，图中阴影区域表示正负 1 个标准差。所使用的超参数可在 `results\u002FCart_Pole.py` 和 `results\u002FMountain_Car.py` 文件中找到。 \n \n![Cart Pole 和 Mountain Car 结果](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_cbea4c4bb138.png) \n\n\n#### 2. 事后经验回放 (HER) 实验\n\n下图展示了 DQN 和 DDPG 在带有和不带事后经验回放 (HER) 的 Bit Flipping（14 位）和 Fetch Reach 环境中的表现。这些环境分别在 [2018 年事后经验回放论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.01495.pdf) 和 [2018 年多目标强化学习论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1802.09464) 中有所描述。实验结果与论文中的发现一致，表明引入 HER 可以使智能体解决原本无法解决的问题。请注意，每对智能体使用了相同的超参数，唯一的区别在于是否使用了事后经验回放。 \n\n![HER 实验结果](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_035d163f0d46.png)\n\n#### 3. 层次化强化学习实验\n\n左侧的结果展示了 DQN 和来自 [Kulkarni 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf) 的层次化 DQN 算法在同样由 [Kulkarni 等人, 2016](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06057.pdf) 解释的长走廊环境中表现。该环境要求智能体先到达走廊尽头再返回才能获得更大的奖励。这种延迟满足感和状态的混淆使得 DQN 很难学会这一任务。然而，如果我们引入一个元控制器（如 h-DQN 中所示），指导低层控制器的行为，就能取得更好的进展。这与论文中的结果相符。 \n\n右侧的结果展示了 DDQN 和来自 [Florensa 等人, 2017](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.03012.pdf) 的用于层次化强化学习的随机神经网络 (SNN-HRL) 算法的表现。选择 DDQN 作为对比是因为 SNN-HRL 的实现内部使用了两个 DDQN 算法。需要注意的是，SNN-HRL 前 300 轮训练用于预训练，因此在这期间没有奖励。 \n \n![长走廊和四房间](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_readme_1f106a4a1ea3.png)\n\n### 使用方法 ###\n\n仓库的高层次结构如下：\n\n    ├── agents                    \n        ├── actor_critic_agents   \n        ├── DQN_agents         \n        ├── policy_gradient_agents\n        └── stochastic_policy_search_agents \n    ├── environments   \n    ├── results             \n        └── data_and_graphs        \n    ├── tests\n    ├── utilities             \n        └── data structures            \n\n#### i) 观看智能体学习上述游戏  \n\n要观看所有不同智能体学习 Cart Pole 任务，请按照以下步骤操作：\n\n```commandline\ngit clone https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep_RL_Implementations.git\ncd Deep_RL_Implementations\n\nconda create --name myenvname\ny\nconda activate myenvname\n\npip3 install -r requirements.txt\n\npython results\u002FCart_Pole.py\n``` \n\n对于其他游戏，只需将最后一行代码改为 Results 文件夹中的其他文件即可。\n\n#### ii) 在其他环境中训练智能体  \n\n大多数 OpenAI Gym 环境都适用。你只需要修改 `config.environment` 字段（可参考 `Results\u002FCart_Pole.py` 中的示例）。  \n\n此外，如果你创建了一个继承自 `gym.Env` 的自定义环境类，也可以使用自己的自定义游戏。请参阅 `Environments\u002FFour_Rooms_Environment.py` 中的自定义环境示例，并查看脚本 `Results\u002FFour_Rooms.py` 以了解如何让智能体在该环境中进行训练和测试。","# Deep-Reinforcement-Learning-Algorithms-with-PyTorch 快速上手指南\n\n本指南旨在帮助开发者快速搭建基于 PyTorch 的深度强化学习算法库，涵盖从环境配置到运行示例的全过程。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux, macOS 或 Windows (推荐 Linux)\n*   **Python 版本**：Python 3.6+\n*   **包管理工具**：Conda (推荐) 或 pip\n*   **前置依赖**：\n    *   PyTorch (框架核心)\n    *   OpenAI Gym (仿真环境)\n    *   NumPy, Matplotlib 等科学计算库\n\n> **国内加速建议**：\n> 在使用 `pip` 安装依赖时，建议指定清华或阿里镜像源以提升下载速度：\n> `pip3 install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 安装步骤\n\n请按照以下步骤克隆仓库并配置运行环境：\n\n1.  **克隆项目代码**\n    ```commandline\n    git clone https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep_RL_Implementations.git\n    cd Deep_RL_Implementations\n    ```\n\n2.  **创建并激活 Conda 虚拟环境**\n    ```commandline\n    conda create --name myenvname python=3.8\n    # 输入 y 确认安装\n    conda activate myenvname\n    ```\n\n3.  **安装项目依赖**\n    ```commandline\n    pip3 install -r requirements.txt\n    ```\n    *(若需使用国内镜像，请参考上方“环境准备”中的加速建议)*\n\n## 基本使用\n\n项目内置了多种经典算法（如 DQN, PPO, SAC, A3C 等）和环境。以下是运行最基础的 **Cart Pole**（倒立摆）训练示例的步骤：\n\n### 1. 运行默认示例 (Cart Pole)\n\n执行以下命令启动训练，系统将展示智能体如何学习平衡杆子：\n\n```commandline\npython results\u002FCart_Pole.py\n```\n\n运行后，您将看到训练过程中的奖励曲线图表，展示算法的收敛情况。\n\n### 2. 运行其他内置游戏\n\n若要尝试其他环境（如连续动作空间的 **Mountain Car**），只需更改执行的脚本文件：\n\n```commandline\npython results\u002FMountain_Car.py\n```\n\n可用的结果脚本位于 `results\u002F` 目录下，对应不同的算法与环境组合。\n\n### 3. 自定义环境与算法\n\n本项目支持大多数 OpenAI Gym 环境。若要修改配置以运行其他游戏：\n\n1.  打开对应的脚本文件（例如 `results\u002FCart_Pole.py`）。\n2.  修改配置文件中的 `config.environment` 字段，填入目标 Gym 环境名称（如 `\"LunarLander-v2\"`）。\n3.  运行该脚本即可。\n\n若需使用完全自定义的环境，可参考 `environments\u002FFour_Rooms_Environment.py` 创建一个继承自 `gym.Env` 的类，并在新的结果脚本中调用它。","某自动驾驶初创公司的算法工程师团队，正致力于开发一套能在复杂动态环境中自主导航的机械臂控制系统。\n\n### 没有 Deep-Reinforcement-Learning-Algorithms-with-PyTorch 时\n- **重复造轮子耗时严重**：团队需从零编写 DDPG、TD3 或 SAC 等复杂算法的底层代码，仅调试神经网络架构和奖励函数逻辑就耗费了数周时间。\n- **难以复现前沿成果**：面对论文中提到的“事后经验回放（HER）”或“分层强化学习”等技术，缺乏标准参考实现，导致实验结果不稳定且难以对齐理论性能。\n- **环境适配成本高**：针对连续动作空间（如机械臂抓取）和动态目标场景，自行构建测试环境极易出错，导致训练初期模型无法收敛。\n- **算法选型试错困难**：由于缺乏统一的对比框架，团队难以快速验证哪种算法（如 PPO 还是 A3C）更适合当前特定的控制任务。\n\n### 使用 Deep-Reinforcement-Learning-Algorithms-with-PyTorch 后\n- **即插即用加速研发**：直接调用库中已优化的 TD3 和 SAC 实现，将核心算法部署时间从数周缩短至几天，让团队能专注于上层策略设计。\n- **精准复现高级特性**：利用内置的 DDPG-HER 和分层 DQN 模块，轻松实现了动态目标下的稀疏奖励学习，迅速达到了论文级别的收敛效果。\n- **标准化环境验证**：直接使用库中集成的 Ant-Maze 或 Fetch Reach 等高质量仿真环境，确保了连续控制任务在训练初期的稳定性和可复现性。\n- **高效算法横向评测**：在同一框架下快速切换并对比 PPO、A2C 及 Double DQN 等多种算法表现，迅速锁定了最适合机械臂控制的最优模型。\n\nDeep-Reinforcement-Learning-Algorithms-with-PyTorch 通过提供生产级的算法实现与标准环境，将团队从繁琐的底层编码中解放出来，使其能专注于解决真实的机器人控制难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fp-christ_Deep-Reinforcement-Learning-Algorithms-with-PyTorch_1f079766.jpg","p-christ","Petros Christodoulou","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fp-christ_5fe5bd18.png","p.christodoulou2@gmail.com",null,"https:\u002F\u002Fgithub.com\u002Fp-christ",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,5927,1212,"2026-04-02T23:23:53","MIT","未说明",{"notes":90,"python":91,"dependencies":92},"项目基于 PyTorch 实现深度强化学习算法。安装步骤建议使用 conda 创建虚拟环境，并通过 'pip3 install -r requirements.txt' 安装依赖。支持多种 OpenAI Gym 环境（如 Cart Pole, Mountain Car）及自定义环境。具体硬件需求未在文档中明确列出，取决于所运行的具体算法和环境复杂度。","未说明 (需使用 conda 创建环境)",[93,94],"torch","gym",[14],"2026-03-27T02:49:30.150509","2026-04-10T15:43:11.424869",[99,104,109,113,118,123],{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},27921,"运行 SAC Discrete 时遇到 PyTorch AddmmBackward 错误怎么办？","该问题通常由 PyTorch 版本过高（大于 1.4.0）引起。解决方法有两种：\n1. 降级 PyTorch 版本：执行命令 `pip install torch==1.3.1`。\n2. 使用修复后的分支代码：克隆作者提供的修复分支。\n此外，也有用户建议在计算 actor loss 时，对 critic 的前向传播添加 `with torch.no_grad():` 上下文，以避免梯度传播冲突。","https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch\u002Fissues\u002F56",{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},27922,"SAC Discrete 训练过程中 alpha 值发散或变得非常大如何解决？","Alpha 值发散通常与 `target_entropy`（目标熵）的设置不当有关。如果设置得过高（例如接近最大熵值），alpha 可能会发散到几千。建议尝试降低 `target_entropy` 的值（例如设置为最大熵的 0.7 或 0.8 倍）。作为临时变通方案，可以在更新 alpha 后强制限制其范围，例如使用代码：`self.alpha = torch.clamp(self.alpha, min=0.0, max=1)`。","https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch\u002Fissues\u002F54",{"id":110,"question_zh":111,"answer_zh":112,"source_url":108},27923,"SAC Discrete 代码中计算期望 Q 值时使用 mean 还是 sum？","在计算概率加权的 Q 值期望时，既然权重已经由 `action_probabilities` 提供，理论上应该使用 `.sum(dim=1)` 而不是 `.mean(dim=1)` 来获得正确的下一状态 Q 值期望。原始代码中的 `.mean()` 可能导致计算偏差，建议检查并修改为求和操作以确保符合数学定义。",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},27924,"SAC 算法中调整熵的损失函数应该使用 alpha 还是 log_alpha？","虽然原始 SAC 论文和部分实现中使用的是 `alpha`，但该仓库中使用 `log_alpha` 进行计算也是可行的。经测试对比，在离散 SAC 设置下，使用 `alpha` 或 `log_alpha` 对代理的最终性能没有显著影响。使用 `log_alpha` 主要是为了优化过程中的数值稳定性，并不会损害模型表现。","https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch\u002Fissues\u002F65",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},27925,"PPO 算法为什么没有使用经验回放缓冲区（Replay Buffer）？","PPO 算法通常不需要传统的经验回放缓冲区。在 PPO 中，智能体收集一批经验数据后，会立即用于多次迭代更新策略，一旦更新完成，这批数据就会被丢弃，不再重复使用。因此，不需要像 DQN 那样将数据存储在缓冲区中以供后续随机采样使用。文档中提到的 \"buffer size\" 通常指的是每次更新前需要收集的经验步数，而非存储历史数据的容量。","https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch\u002Fissues\u002F3",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},27926,"在 Mountain Car Discrete 环境中如何调整参数以获得更好的结果？","Mountain Car 环境通常需要更强的探索能力。建议调整探索率相关的参数，例如增大 `epsilon_decay_rate_denominator` 以减缓 epsilon 的衰减速度，从而增加探索时间。如果默认参数效果不佳，可以参考仓库中 `results\u002Fcart_pole.py` 文件里的参数配置作为基准进行调整，因为不同环境的最佳参数差异较大，可能需要手动微调。","https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch\u002Fissues\u002F39",[]]