[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-dgriff777--rl_a3c_pytorch":3,"tool-dgriff777--rl_a3c_pytorch":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":90,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":101,"github_topics":102,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":114,"updated_at":115,"faqs":116,"releases":152},3568,"dgriff777\u002Frl_a3c_pytorch","rl_a3c_pytorch","A3C LSTM  Atari with Pytorch plus A3G design","rl_a3c_pytorch 是一个基于 PyTorch 框架实现的强化学习开源项目，核心在于运行结合了 LSTM（长短期记忆网络）的 A3C（异步优势演员 - 评论家）算法，专门用于攻克 Atari 2600 游戏环境。\n\n传统 A3C 算法在利用 GPU 加速时往往面临架构瓶颈，导致训练耗时漫长。rl_a3c_pytorch 通过独创的\"A3G\"架构巧妙解决了这一痛点：它将共享模型保留在 CPU 上，而让每个智能体在 GPU 上维护独立网络，利用无锁的\"Hogwild\"训练机制异步更新参数。这种设计大幅提升了训练效率，将原本需要数天的训练过程压缩至 10 分钟左右，例如在 Pong 游戏中仅需 10 分钟即可达到求解水平，在 Breakout 中也能快速获得高分。\n\n该项目不仅提供了针对 SpaceInvaders、MsPacman 等多款经典游戏的预训练模型和优异的性能基准，还集成了 TensorBoard 支持，方便用户实时监控训练曲线、模型结构及权重分布。此外，它提供了共享统计信息的优化器选项，以适应更复杂的 Gym 环境设置。\n\nrl_a3c_pytorch 非常适合人工智","rl_a3c_pytorch 是一个基于 PyTorch 框架实现的强化学习开源项目，核心在于运行结合了 LSTM（长短期记忆网络）的 A3C（异步优势演员 - 评论家）算法，专门用于攻克 Atari 2600 游戏环境。\n\n传统 A3C 算法在利用 GPU 加速时往往面临架构瓶颈，导致训练耗时漫长。rl_a3c_pytorch 通过独创的\"A3G\"架构巧妙解决了这一痛点：它将共享模型保留在 CPU 上，而让每个智能体在 GPU 上维护独立网络，利用无锁的\"Hogwild\"训练机制异步更新参数。这种设计大幅提升了训练效率，将原本需要数天的训练过程压缩至 10 分钟左右，例如在 Pong 游戏中仅需 10 分钟即可达到求解水平，在 Breakout 中也能快速获得高分。\n\n该项目不仅提供了针对 SpaceInvaders、MsPacman 等多款经典游戏的预训练模型和优异的性能基准，还集成了 TensorBoard 支持，方便用户实时监控训练曲线、模型结构及权重分布。此外，它提供了共享统计信息的优化器选项，以适应更复杂的 Gym 环境设置。\n\nrl_a3c_pytorch 非常适合人工智能研究人员、强化学习开发者以及希望深入理解异步深度学习算法的学生使用。无论是想要复现前沿论文成果，还是寻求高效的游戏 AI 训练基线，它都是一个极具参考价值的实用工具。","\n*Update: Minor updates to code. Added distributed step size training functionality. Added integration to tensorboard so you can can log and create graphs of training, see graph of model, and visualize your weights and biases distributions as they update during training.\n\n# A3G A GPU\u002FCPU ARCHITECTURE OF A3C FOR SUBSTANTIALLY ACCELERATED TRAINING\n\n\n# RL A3C Pytorch\n\n![A3C LSTM playing Breakout-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_79a74f2450ba.gif) ![A3C LSTM playing SpaceInvadersDeterministic-v3](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_10fa54f76ac0.gif) ![A3C LSTM playing MsPacman-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_da8411367182.gif) ![A3C LSTM\\\n playing BeamRider-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_61420ecbb63b.gif) ![A3C LSTM playing Seaquest-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_f3ec57653338.gif)\n\n# A3G\nImplementation of A3C that utilizes GPU for speed increase in training. Which we can call **A3G**. A3G as opposed to other versions that try to utilize GPU with A3C algorithm, with A3G each agent has its own network maintained on GPU but shared model is on CPU and agent models are quickly converted to CPU to update shared model which allows updates to be frequent and fast by utilizing Hogwild Training and make updates to shared model asynchronously and without locks. This new method greatly increase training speed and models that use to take days to train can be trained in as fast as 10minutes for some Atari games! 10-15minutes for Breakout to start to score over 400! And 10mins to solve Pong!\n\nThis repository includes my implementation with reinforcement learning using Asynchronous Advantage Actor-Critic (A3C) in Pytorch an algorithm from Google Deep Mind's paper \"Asynchronous Methods for Deep Reinforcement Learning.\"\n\n*See [a3c_continuous][23] a newly added repo of my A3C LSTM implementation for continuous action spaces which was able to solve BipedWalkerHardcore-v3 environment (average 300+ for 100 consecutive episodes)*\n\n\n### A3C LSTM\n\nI implemented an A3C LSTM model and trained it in the atari 2600 environments provided in the Openai Gym. So far model currently has shown the best prerfomance I have seen for atari game environments.  Included in repo are trained models for SpaceInvaders-v0, MsPacman-v0, Breakout-v0, BeamRider-v0, Pong-v0, Seaquest-v0 and Asteroids-v0 which have had very good performance and currently hold the best scores on openai gym leaderboard for each of those games(No plans on training model for any more atari games right now...). Saved models in trained_models folder. *Removed trained models to reduce the size of repo\n\nHave optimizers using shared statistics for RMSProp and Adam available for use in training as well option to use non shared optimizer.\n\nGym atari settings are more difficult to train than traditional ALE atari settings as Gym uses stochastic frame skipping and has higher number of discrete actions. Such as Breakout-v0 has 6 discrete actions in Gym but ALE is set to only 4 discrete actions. Also in GYM atari they randomly repeat the previous action with probability 0.25 and there is time\u002Fstep limit that limits performance.\n\nlink to the Gym environment evaluations below\n\n\n| Tables                                | Best 100 episode Avg  | Best Score  |\n| ------------------------------------- |:---------------------:| -----------:|\n| [SpaceInvaders-v0][1]                 | 5808.45 ± 337.28      |   13380.0   |\n| [SpaceInvaders-v3][2]                 | 6944.85 ± 409.60      |   20440.0   |\n| [SpaceInvadersDeterministic-v3][3]    | 79060.10 ± 5826.59    |  167330.0   | \n| [Breakout-v0][4]                      | 739.30 ± 18.43        |     864.0   |\n| [Breakout-v3][5]                      | 859.57 ± 1.97         |     864.0   |\n| [Pong-v0][6]                          | 20.96 ± 0.02          |      21.0   |\n| [PongDeterministic-v3][7]             | 21.00 ± 0.00          |      21.0   |\n| [BeamRider-v0][8]                     | 8441.22 ± 221.24      |   13130.0   |\n| [MsPacman-v0][9]                      | 6323.01 ± 116.91      |   10181.0   |\n| [Seaquest-v0][10]                     | 54203.50 ± 1509.85    |   88840.0   |\n\n\n[1]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_K69ZjwAnSdOzN7lnUblqA#reproducibility\n[2]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_uutLMdoQ9qvlnlM01Ptkg#reproducibility\n[3]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_rZMtqVVuRe28zDIQDYGKSw#reproducibility\n[4]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_CyVPHgs0S22DiZsWXoPFw#reproducibility\n[5]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_X3ywdh8pTmWFw51ISjZvvQ#reproducibility\n[6]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_gquejvZS4m7pKYXCPbW3A\n[7]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_tM4E3BiQUOI14yMMa602A#reproducibility\n[8]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_pl5bvWR8Somu8PfFJzTryA#reproducibility\n[9]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_8Wwndzd8R62np8CxVQWEeg#reproducibility\n[10]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_uxYSMnhuTpCNLoPZ7DkxKQ\n\n**The 167,330 Space Invaders score is World Record Space Invaders score and game ended only due to GYM timestep limit and not from loss of life. When I increased the GYM timestep limit to a million its reached a score on Space Invaders of approximately 2,300,000 and still ended due to timestep limit. Most likely due to game getting fairly redundent after a while**\n\n**Due to gym version Seaquest-v0 timestep limit agent scores lower but on Seaquest-v4 with higher timestep limit agent beats game (see gif above) with max possible score 999,999!!**\n\n## Requirements\n\n- Python 2.7+\n- Openai Gym and Universe\n- Pytorch (Pytorch 2.0 has a bug where it incorrectly occupies GPU memory on all GPUs being used when backward() is called on training processes. This does not slow down training but it does unnecesarily take up a lot of gpu memory. If this is problem for you and running out of gpu memory downgrade pytorch)\n\n## Training\n*When training model it is important to limit number of worker processes to number of cpu cores available as too many processes (e.g. more than one process per cpu core available) will actually be detrimental in training speed and effectiveness*\n\nTo train agent in PongNoFrameskip-v4 environment with 32 different worker processes:\n\n```\npython main.py --env PongNoFrameskip-v4 --workers 32\n```\n#A3G-Training\n*training using machine with 4 V100 GPUs and 20core CPU for PongNoFrameskip-v4 took 10 minutes to converge*\n\nTo train agent in PongNoFrameskip-v4 environment with 32 different worker processes on 4 GPUs with new A3G:\n\n```\npython main.py --env PongNoFrameskip-v4 --workers 32 --gpu-ids 0 1 2 3 --amsgrad\n```\n\n\nHit Ctrl C to end training session properly\n\n![A3C LSTM playing Pong-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_465f01dfaed0.gif)\n\n## Evaluation\nTo run a 100 episode gym evaluation with trained model\n```\npython gym_eval.py --env PongNoFrameskip-v4 --num-episodes 100 --new-gym-eval\n```\n\n## Distributed Step Size training\nExample of use to train an agent using different step sizes across training processes from provided list of step sizes\n```\npython main.py --env PongNoFrameskip-v4 --workers 18 --gpu-ids 0 1 2 --amsgrad --distributed-step-size 16 32 64 --tau 0.92 --tensorboard-logger\n```\nBelow a graph showing of running the distributed step size training command above\n![PongNoFrameskip DSS Training](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_1224601ae5fd.png)\n\n\n*Notice BeamRiderNoFrameskip-v4 reaches scores over 50,000 in less than 2hrs of training compared to the gym v0 version this shows the difficulty of those versions but also the timelimit being a major factor in score level*\n\n*These training charts were done on a DGX Station using 4GPUs and 20core Cpu. I used 36 worker agents and a tau of 0.92 which is the lambda in Generalized Advantage Estimation equation to introduce more variance due to the more deterministic nature of using just a 4 frame skip environment and a 0-30 NoOp start*\n![BeamRider Training](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_bbb0065ec6dc.png)\n![Boxing training](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_6e03f0209e85.png)\n![Pong Training](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_cf80f03ed6a9.png)\n![SpaceInvaders Training](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_e5df6b098ed5.png)\n![Qbert training](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_3a004100be85.png)\n## Project Reference\n\n- https:\u002F\u002Fgithub.com\u002Fikostrikov\u002Fpytorch-a3c\n","*更新：对代码进行了小幅更新。新增了分布式步长训练功能。集成了TensorBoard，以便您可以记录和创建训练过程的图表、查看模型结构图，并可视化权重和偏置在训练过程中的分布情况。\n\n# A3G 一种用于显著加速训练的A3C GPU\u002FCPU架构\n\n\n# RL A3C Pytorch\n\n![A3C LSTM 玩 Breakout-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_79a74f2450ba.gif) ![A3C LSTM 玩 SpaceInvadersDeterministic-v3](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_10fa54f76ac0.gif) ![A3C LSTM 玩 MsPacman-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_da8411367182.gif) ![A3C LSTM\\\n玩 BeamRider-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_61420ecbb63b.gif) ![A3C LSTM 玩 Seaquest-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_f3ec57653338.gif)\n\n# A3G\n一种利用GPU加速训练的A3C实现，我们称之为**A3G**。与尝试在A3C算法中使用GPU的其他版本不同，A3G的每个智能体都有自己的网络，这些网络保存在GPU上，而共享模型则位于CPU上。智能体的模型会快速转换到CPU以更新共享模型，从而通过Hogwild Training实现频繁且快速的更新，并以异步方式无锁地完成共享模型的更新。这种新方法极大地提高了训练速度，原本需要数天才能训练完成的模型，在某些Atari游戏中仅需10分钟即可完成训练！例如，Breakout只需10-15分钟就能开始获得400分以上的成绩；而Pong则仅需10分钟就能解决！\n\n该仓库包含了我在PyTorch中使用异步优势演员-评论家（A3C）算法实现的强化学习代码，该算法源自Google DeepMind的论文“深度强化学习的异步方法”。\n\n*请参阅 [a3c_continuous][23]，这是我新添加的用于连续动作空间的A3C LSTM实现仓库，该模型已成功解决了BipedWalkerHardcore-v3环境问题（连续100局平均得分超过300分）*\n\n\n### A3C LSTM\n\n我实现了一个A3C LSTM模型，并在OpenAI Gym提供的Atari 2600环境中进行了训练。迄今为止，该模型在Atari游戏环境中表现出我所见过的最佳性能。仓库中包含了SpaceInvaders-v0、MsPacman-v0、Breakout-v0、BeamRider-v0、Pong-v0、Seaquest-v0和Asteroids-v0的训练模型，这些模型表现非常出色，目前在OpenAI Gym排行榜上分别保持着各自游戏的最佳分数（目前暂无计划再训练其他Atari游戏的模型……）。已训练好的模型保存在trained_models文件夹中。*为减小仓库体积，已移除部分已训练好的模型*\n\n此外，还提供了使用共享统计信息的RMSProp和Adam优化器，同时也支持不使用共享优化器的选项。\n\n与传统的ALE Atari设置相比，Gym的Atari设置更难训练，因为Gym采用了随机帧跳过机制，且离散动作的数量更多。例如，Breakout-v0在Gym中有6个离散动作，而在ALE中则只有4个。此外，在Gym的Atari游戏中，有25%的概率会随机重复上一步动作，并且存在时间\u002F步数限制，这都会影响表现。\n\n以下是Gym环境评估的链接：\n\n\n| 表格                                | 最佳100局平均分  | 最佳分数  |\n| ------------------------------------- |:---------------------:| -----------:|\n| [SpaceInvaders-v0][1]                 | 5808.45 ± 337.28      |   13380.0   |\n| [SpaceInvaders-v3][2]                 | 6944.85 ± 409.60      |   20440.0   |\n| [SpaceInvadersDeterministic-v3][3]    | 79060.10 ± 5826.59    |  167330.0   | \n| [Breakout-v0][4]                      | 739.30 ± 18.43        |     864.0   |\n| [Breakout-v3][5]                      | 859.57 ± 1.97         |     864.0   |\n| [Pong-v0][6]                          | 20.96 ± 0.02          |      21.0   |\n| [PongDeterministic-v3][7]             | 21.00 ± 0.00          |      21.0   |\n| [BeamRider-v0][8]                     | 8441.22 ± 221.24      |   13130.0   |\n| [MsPacman-v0][9]                      | 6323.01 ± 116.91      |   10181.0   |\n| [Seaquest-v0][10]                     | 54203.50 ± 1509.85    |   88840.0   |\n\n\n[1]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_K69ZjwAnSdOzN7lnUblqA#reproducibility\n[2]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_uutLMdoQ9qvlnlM01Ptkg#reproducibility\n[3]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_rZMtqVVuRe28zDIQDYGKSw#reproducibility\n[4]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_CyVPHgs0S22DiZsWXoPFw#reproducibility\n[5]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_X3ywdh8pTmWFw51ISjZvvQ#reproducibility\n[6]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_gquejvZS4m7pKYXCPbW3A\n[7]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_tM4E3BiQUOI14yMMa602A#reproducibility\n[8]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_pl5bvWR8Somu8PfFJzTryA#reproducibility\n[9]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_8Wwndzd8R62np8CxVQWEeg#reproducibility\n[10]: https:\u002F\u002Fgym.openai.com\u002Fevaluations\u002Feval_uxYSMnhuTpCNLoPZ7DkxKQ\n\n**167,330分的Space Invaders成绩是世界纪录，游戏结束仅仅是因为GYM的时间步限制，而非生命耗尽。当我将GYM的时间步限制提高到一百万时，Space Invaders的得分达到了约230万分，但仍然因时间步限制而结束。很可能是因为游戏进行一段时间后变得相当重复。**\n\n**由于Gym版本的Seaquest-v0存在时间步限制，智能体的得分较低；但在时间步限制更高的Seaquest-v4中，智能体却以最高分999,999击败了游戏！！**\n\n## 需求\n\n- Python 2.7+\n- OpenAI Gym 和 Universe\n- PyTorch（PyTorch 2.0存在一个bug，即在训练过程中调用backward()时，会错误地占用所有正在使用的GPU显存。这并不会降低训练速度，但会不必要地占用大量显存。如果您遇到此问题并面临显存不足的情况，请降级PyTorch版本）\n\n## 训练\n*在训练模型时，务必将工作进程数限制为可用的CPU核心数，因为过多的进程（例如超过每个可用CPU核心一个进程）反而会降低训练速度和效果*\n\n要在PongNoFrameskip-v4环境中使用32个不同的工作进程训练智能体：\n\n```\npython main.py --env PongNoFrameskip-v4 --workers 32\n```\n#A3G-训练\n*使用配备4块V100 GPU和20核CPU的机器对PongNoFrameskip-v4进行训练，仅需10分钟即可收敛*\n\n要在4块GPU上使用新的A3G训练PongNoFrameskip-v4环境中的智能体，同时指定32个工作进程：\n\n```\npython main.py --env PongNoFrameskip-v4 --workers 32 --gpu-ids 0 1 2 3 --amsgrad\n```\n\n\n按下Ctrl+C可正常结束训练\n\n![A3C LSTM 玩 Pong-v0](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_465f01dfaed0.gif)\n\n## 评估\n要使用训练好的模型运行100集的Gym环境评估：\n```\npython gym_eval.py --env PongNoFrameskip-v4 --num-episodes 100 --new-gym-eval\n```\n\n## 分布式步长训练\n以下示例展示了如何在多个训练进程中使用提供的步长列表来训练智能体：\n```\npython main.py --env PongNoFrameskip-v4 --workers 18 --gpu-ids 0 1 2 --amsgrad --distributed-step-size 16 32 64 --tau 0.92 --tensorboard-logger\n```\n下方是一张图表，展示了上述分布式步长训练命令的运行情况：\n![PongNoFrameskip DSS 训练](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_1224601ae5fd.png)\n\n\n*请注意，BeamRiderNoFrameskip-v4 在不到2小时的训练时间内就达到了50,000以上的分数，而Gym v0版本则需要更长时间。这不仅体现了这些版本的难度，也说明了时间限制是影响得分水平的一个重要因素。*\n\n*这些训练图表是在一台配备4块GPU和20核CPU的DGX Station上完成的。我使用了36个工作者代理，并将tau设置为0.92，即广义优势估计公式中的λ值，以引入更多方差。这是因为仅采用4帧跳过且初始状态为0-30次无操作的环境具有较高的确定性。*\n![BeamRider 训练](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_bbb0065ec6dc.png)\n![拳击训练](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_6e03f0209e85.png)\n![乒乓球训练](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_cf80f03ed6a9.png)\n![太空侵略者训练](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_e5df6b098ed5.png)\n![Qbert 训练](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_readme_3a004100be85.png)\n## 项目参考\n\n- https:\u002F\u002Fgithub.com\u002Fikostrikov\u002Fpytorch-a3c","# rl_a3c_pytorch 快速上手指南\n\n本指南帮助开发者快速部署并使用基于 PyTorch 的 A3C（异步优势演员 - 评论家）强化学习框架。该框架支持 GPU 加速训练（称为 **A3G** 架构），能显著缩短 Atari 游戏的训练时间。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python 版本**: Python 2.7+ (建议使用 Python 3.6+ 以获得更好的兼容性)\n*   **核心依赖**:\n    *   **PyTorch**: 深度学习框架。\n        *   *注意*: PyTorch 2.0 存在一个已知问题，即在多进程训练调用 `backward()` 时可能会不必要地占用所有 GPU 的显存。如果遇到显存不足，建议降级 PyTorch 版本。\n    *   **OpenAI Gym**: 强化学习环境库。\n    *   **Universe**: (可选) OpenAI 的多环境平台。\n*   **硬件建议**:\n    *   **CPU**: 多核处理器（工作进程数建议等于 CPU 核心数）。\n    *   **GPU**: 支持 CUDA 的 NVIDIA GPU（用于 A3G 加速模式，多卡效果更佳）。\n\n### 依赖安装命令\n\n建议使用国内镜像源加速安装：\n\n```bash\n# 安装 PyTorch (根据具体 CUDA 版本选择，此处为通用示例)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装 OpenAI Gym 及相关依赖\npip install gym[atari] gym[accept-rom-license]\n\n# 安装其他必要库 (如 tensorboard, numpy 等)\npip install tensorboard numpy scipy\n```\n\n## 安装步骤\n\n克隆项目仓库并进入目录：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch.git\ncd rl_a3c_pytorch\n```\n\n*注：项目中预训练的模型文件已被移除以减小仓库体积，如需使用需自行训练。*\n\n## 基本使用\n\n### 1. 基础训练 (CPU\u002FGPU 混合)\n\n启动训练最简单的方式是运行 `main.py`。以下示例在 `PongNoFrameskip-v4` 环境中使用 32 个工作进程进行训练。\n\n**重要提示**：工作进程数量 (`--workers`) 不应超过可用的 CPU 核心数，否则会降低训练效率。\n\n```bash\npython main.py --env PongNoFrameskip-v4 --workers 32\n```\n\n按 `Ctrl + C` 可正常结束训练会话。\n\n### 2. A3G 加速训练 (多 GPU 模式)\n\n如果您拥有多张 GPU，可以使用 `--gpu-ids` 参数启用 A3G 架构，利用 Hogwild 训练机制异步更新共享模型，大幅提升速度。\n\n以下示例使用 4 张 GPU (ID 0-3) 和 32 个工作进程训练 Pong：\n\n```bash\npython main.py --env PongNoFrameskip-v4 --workers 32 --gpu-ids 0 1 2 3 --amsgrad\n```\n\n*   `--amsgrad`: 启用 Adam 优化器的 AMSGrad 变体。\n*   在此配置下（4x V100 GPU + 20 核 CPU），Pong 环境通常在约 10 分钟内收敛。\n\n### 3. 分布式步长训练 (高级功能)\n\n最新版本支持在不同训练进程中使用不同的步长大小，并结合 TensorBoard 进行可视化监控。\n\n```bash\npython main.py --env PongNoFrameskip-v4 --workers 18 --gpu-ids 0 1 2 --amsgrad --distributed-step-size 16 32 64 --tau 0.92 --tensorboard-logger\n```\n\n*   `--tensorboard-logger`: 启用 TensorBoard 日志记录，可查看训练曲线、模型结构及权重分布。\n*   启动后可在终端运行 `tensorboard --logdir=runs` 查看可视化图表。\n\n### 4. 模型评估\n\n训练完成后，使用 `gym_eval.py` 对模型进行评估。以下命令运行 100 个回合的测试：\n\n```bash\npython gym_eval.py --env PongNoFrameskip-v4 --num-episodes 100 --new-gym-eval\n```","某游戏 AI 研发团队正致力于为经典街机游戏（如《打砖块》和《太空侵略者》）训练高性能自主代理，以验证新算法在复杂随机环境中的决策能力。\n\n### 没有 rl_a3c_pytorch 时\n- **训练周期漫长**：传统 CPU 架构的 A3C 实现效率低下，训练一个能通关《Pong》的模型往往需要数天时间，严重拖慢实验迭代节奏。\n- **硬件资源闲置**：无法有效利用实验室现有的 GPU 集群进行并行加速，导致昂贵的算力资源在训练过程中处于空闲或低负载状态。\n- **调优过程盲目**：缺乏可视化的监控手段，开发者难以实时观察权重分布变化或模型结构，只能依靠最终得分猜测训练是否收敛。\n- **环境适配困难**：面对 OpenAI Gym 中带有随机帧跳过和高维动作空间的严苛设置，普通模型难以稳定学习，得分远低于理论上限。\n\n### 使用 rl_a3c_pytorch 后\n- **训练速度飞跃**：借助其独特的 A3G 架构（GPU 代理 +CPU 共享模型），《Pong》仅需 10 分钟即可求解，《打砖块》15 分钟内得分突破 400，将数天的工作量压缩至分钟级。\n- **算力充分释放**：每个智能体在 GPU 上独立运行网络，通过无锁异步更新机制（Hogwild Training）频繁同步参数，最大化了并行计算效率。\n- **监控透明直观**：集成 TensorBoard 后，团队可实时绘制训练曲线、查看模型图谱及权重偏差分布，让调参过程从“黑盒”变为“白盒”。\n- **性能表现卓越**：针对 Gym 的高难度设定进行了专门优化，在《太空侵略者》等游戏中刷新了排行榜最佳平均分，证明了其在随机环境下的鲁棒性。\n\nrl_a3c_pytorch 通过创新的异构计算架构与可视化生态，将深度强化学习的训练效率提升了数个数量级，让快速验证高阶 AI 策略成为现实。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdgriff777_rl_a3c_pytorch_152890f7.png","dgriff777","David Griffis","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdgriff777_4c6dcfb5.png",null,"https:\u002F\u002Fgithub.com\u002Fdgriff777",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,568,115,"2026-04-02T12:52:04","Apache-2.0",4,"","非必需（支持 CPU），但推荐使用 NVIDIA GPU 以加速训练。文中提到在 4 块 V100 GPU 上测试过。注意：PyTorch 2.0 存在 Bug，会在所有使用的 GPU 上错误地占用显存，若显存不足建议降级 PyTorch 版本。","未说明",{"notes":95,"python":96,"dependencies":97},"1. 训练时工作进程数（workers）应限制为可用的 CPU 核心数，过多进程会降低训练速度和效果。\n2. 该项目实现了 A3G 架构，利用 GPU 加速多智能体训练，共享模型在 CPU 上进行异步更新。\n3. 支持分布式步长训练和 TensorBoard 日志可视化。\n4. 针对 Atari 游戏环境进行了优化，部分游戏得分创下记录。","2.7+",[98,99,100],"pytorch","gym","universe",[13],[103,98,104,105,106,107,108,109,110,111,112,113],"python","pytorch-a3c","reinforcement-learning","atari","openai-gym","a3c","deep-reinforcement-learning","actor-critic","asynchronous-advantage-actor-critic","a3c-gpu","a3g","2026-03-27T02:49:30.150509","2026-04-06T07:12:56.453009",[117,122,127,132,137,142,147],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},16334,"如何加载和保存预训练模型？","保存模型：在训练命令中指定保存目录，例如 `python main.py --env Pong-v0 --workers 32 --save-dir 'example_folder\u002F'`。当奖励总和超过设定阈值时会自动保存。\n加载模型：使用 `--load True` 和 `--load-dir` 参数，例如 `python main.py --env Pong-v0 --workers 32 --load-dir 'example_folder\u002F' --load True`。\n代码逻辑位于 `main.py` (加载)、`test.py` (保存) 和 `gym_eval.py` (评估加载) 中。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F5",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},16335,"为什么在训练 Breakout-v0 时奖励始终为 0 或训练非常慢？","这通常是因为使用的 worker 数量太少。A3C 算法如果只有少量 worker（如 3 个），不仅训练速度极慢，而且会严重损害整体性能，导致无法获得有效奖励。\n建议：增加 worker 数量（例如 32 个）。如果硬件限制只能使用少量 worker，建议改用其他更适合的算法，而不是强行使用 A3C。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F10",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},16336,"代码中为什么要设置“失去生命即结束回合”（count_lives）？这对所有游戏都有用吗？","这是遵循 DeepMind 的 Alewrap 实现标准。该设置对某些游戏（如 SpaceInvaders 和 BeamRider）非常有帮助，能提升表现。\n但是，对于需要智能体学习“失去生命后重新开始游戏”机制的游戏，强制结束回合是有害的（detrimental），因为它阻止了智能体学习恢复过程。请根据具体游戏环境决定是否启用此功能。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F1",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},16337,"如何调整超参数以优化训练效果（如 tau, gamma）？","维护者通常将 GAE 中的 lambda (tau) 设置为 0.92，这有助于智能体在探索中保持方差，更容易发现稀疏奖励。\n关于其他参数：\n1. 减小 gamma 参数：智能体会尝试更快地得分。\n2. 在更确定性的环境中减小 tau 参数：会引入更多方差。\n注意：不要随意替换梯度计算中的变量（如直接用 advantage 替换 gae），这会破坏梯度分配。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F23",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},16338,"推荐的 PyTorch 版本是什么？遇到多 GPU 或兼容性报错怎么办？","代码仅在 PyTorch 0.3 版本上经过充分测试。更高版本（如 0.4+）可能存在许多 Bug 且没有性能提升，不建议升级。\n如果遇到多 GPU 报错（如张量位于不同 GPU）或其他兼容性问题，强烈建议降级到 PyTorch 0.3 稳定版再试。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F24",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},16339,"训练 Atari 游戏（如 Breakout, Pong）通常需要多长时间？","训练时间取决于环境和目标分数。例如在 Breakout-v0 上，使用 32 个线程可能在 4-5 小时内得分超过 400 分；而在 Pong-v0 上可能需要约 8 小时才能得到预期结果。\n如果使用优化的 A3C-GPU 版本（A3G），利用 GPU 和 CPU 协同加速，训练速度可比传统方法快得多，甚至能在单机上达到类似数百个 CPU 的训练效率。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F18",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},16340,"与 ikostrikov\u002Fpytorch-a3c 相比，这个项目的代码有什么不同或优势？","主要区别在于模型超参数的设置不同。\n在性能表现上，该项目在 Breakout-v0 环境中表现优异，能在 4-5 小时内得分超过 400 分，比其他模型在 32 线程下的速度更快。","https:\u002F\u002Fgithub.com\u002Fdgriff777\u002Frl_a3c_pytorch\u002Fissues\u002F2",[]]