[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-rll--rllab":3,"tool-rll--rllab":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":116,"forks":117,"last_commit_at":118,"license":119,"difficulty_score":120,"env_os":121,"env_gpu":122,"env_ram":123,"env_deps":124,"category_tags":131,"github_topics":78,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":132,"updated_at":133,"faqs":134,"releases":170},4045,"rll\u002Frllab","rllab","rllab is a framework for developing and evaluating reinforcement learning algorithms, fully compatible with OpenAI Gym.","rllab 是一个专为强化学习算法开发与评估设计的开源框架，能够与 OpenAI Gym 无缝兼容。它主要解决了研究人员在复现经典算法、统一实验环境以及管理复杂训练任务时面临的痛点，提供了一套标准化的工具链。\n\n这款工具非常适合从事强化学习研究的学者、算法工程师以及相关领域的开发者使用。rllab 内置了丰富的连续控制任务场景，并预实现了多种主流算法，包括 TRPO（信任区域策略优化）、DDPG（深度确定性策略梯度）、REINFORCE 以及进化策略等，让用户能快速搭建实验原型。其技术亮点在于底层基于 Theano 构建，同时在沙盒环境中提供了对 TensorFlow 的支持，具备高度的灵活性。此外，rllab 还集成了在 EC2 集群上分布式运行实验的功能，并配套了结果可视化工具，极大提升了大规模实验的效率。\n\n值得注意的是，rllab 目前已停止主动更新，其核心功能已由社区继承并升级为名为\"garage\"的新项目。对于计划开展新工作的用户，建议直接采用 garage 以获取对现代深度学习框架的更好支持及持续维护，但理解 rllab 仍有助于掌握强化学习工程化的基础脉络。","rllab is no longer under active development, but an [alliance of researchers](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002F) from several universities has adopted it, and now maintains it under the name [**garage**](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage).\n\nWe recommend you develop new projects, and rebase old ones, onto the actively-maintained [garage](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage) codebase, to promote reproducibility and code-sharing in RL research. The new codebase shares almost all of its code with rllab, so most conversions only need to edit package import paths and perhaps update some renamed functions. \n\n[garage](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage) is always looking for new users and contributors, so please consider contributing your rllab-based projects and improvements to the new codebase! Recent improvements include first-class support for TensorFlow, TensorBoard integration, new algorithms including PPO and DDPG, updated Docker images, new environment wrappers, many updated dependencies, and stability improvements.\n\n[![Docs](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frll_rllab_readme_13d664e1afd7.png)](http:\u002F\u002Frllab.readthedocs.org\u002Fen\u002Flatest\u002F)\n[![Circle CI](https:\u002F\u002Fcircleci.com\u002Fgh\u002Frllab\u002Frllab.svg?style=shield)](https:\u002F\u002Fcircleci.com\u002Fgh\u002Frllab\u002Frllab)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002FLICENSE)\n[![Join the chat at https:\u002F\u002Fgitter.im\u002Frllab\u002Frllab](https:\u002F\u002Fbadges.gitter.im\u002Frllab\u002Frllab.svg)](https:\u002F\u002Fgitter.im\u002Frllab\u002Frllab?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge&utm_content=badge)\n\n# rllab\n\nrllab is a framework for developing and evaluating reinforcement learning algorithms. It includes a wide range of continuous control tasks plus implementations of the following algorithms:\n\n\n- [REINFORCE](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fvpg.py)\n- [Truncated Natural Policy Gradient](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Ftnpg.py)\n- [Reward-Weighted Regression](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Ferwr.py)\n- [Relative Entropy Policy Search](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Freps.py)\n- [Trust Region Policy Optimization](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Ftrpo.py)\n- [Cross Entropy Method](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fcem.py)\n- [Covariance Matrix Adaption Evolution Strategy](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fcma_es.py)\n- [Deep Deterministic Policy Gradient](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fddpg.py)\n\nrllab is fully compatible with [OpenAI Gym](https:\u002F\u002Fgym.openai.com\u002F). See [here](http:\u002F\u002Frllab.readthedocs.io\u002Fen\u002Flatest\u002Fuser\u002Fgym_integration.html) for instructions and examples.\n\nrllab only officially supports Python 3.5+. For an older snapshot of rllab sitting on Python 2, please use the [py2 branch](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Ftree\u002Fpy2).\n\nrllab comes with support for running reinforcement learning experiments on an EC2 cluster, and tools for visualizing the results. See the [documentation](https:\u002F\u002Frllab.readthedocs.io\u002Fen\u002Flatest\u002Fuser\u002Fcluster.html) for details.\n\nThe main modules use [Theano](http:\u002F\u002Fdeeplearning.net\u002Fsoftware\u002Ftheano\u002F) as the underlying framework, and we have support for TensorFlow under [sandbox\u002Frocky\u002Ftf](https:\u002F\u002Fgithub.com\u002Fopenai\u002Frllab\u002Ftree\u002Fmaster\u002Fsandbox\u002Frocky\u002Ftf).\n\n# Documentation\n\nDocumentation is available online: [https:\u002F\u002Frllab.readthedocs.org\u002Fen\u002Flatest\u002F](https:\u002F\u002Frllab.readthedocs.org\u002Fen\u002Flatest\u002F).\n\n# Citing rllab\n\nIf you use rllab for academic research, you are highly encouraged to cite the following paper:\n\n- Yan Duan, Xi Chen, Rein Houthooft, John Schulman, Pieter Abbeel. \"[Benchmarking Deep Reinforcement Learning for Continuous Control](http:\u002F\u002Farxiv.org\u002Fabs\u002F1604.06778)\". _Proceedings of the 33rd International Conference on Machine Learning (ICML), 2016._\n\n# Credits\n\nrllab was originally developed by Rocky Duan (UC Berkeley \u002F OpenAI), Peter Chen (UC Berkeley), Rein Houthooft (UC Berkeley \u002F OpenAI), John Schulman (UC Berkeley \u002F OpenAI), and Pieter Abbeel (UC Berkeley \u002F OpenAI). The library is continued to be jointly developed by people at OpenAI and UC Berkeley.\n\n# Slides\n\nSlides presented at ICML 2016: https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Frqtpp1jv2jtzxeg\u002FICML2016_benchmarking_slides.pdf?dl=0\n","rllab 已不再处于积极开发状态，但来自多所高校的研究人员组成的[联盟](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002F)已接管该项目，并以[**garage**](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage)之名进行维护。\n\n我们建议您将新项目以及旧项目基于活跃维护的[garage](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage)代码库进行开发和重构，以促进强化学习研究中的可重复性和代码共享。新的代码库几乎与 rllab 共享所有代码，因此大多数迁移只需修改包导入路径，并可能更新一些重命名的函数即可。\n\n[garage](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage) 一直欢迎新用户和贡献者，请考虑将您基于 rllab 的项目及改进贡献到新的代码库中！近期的改进包括对 TensorFlow 的原生支持、TensorBoard 集成、新增 PPO 和 DDPG 等算法、更新的 Docker 镜像、新的环境封装器、大量依赖库的更新以及稳定性提升等。\n\n[![文档](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frll_rllab_readme_13d664e1afd7.png)](http:\u002F\u002Frllab.readthedocs.org\u002Fen\u002Flatest\u002F)\n[![Circle CI](https:\u002F\u002Fcircleci.com\u002Fgh\u002Frllab\u002Frllab.svg?style=shield)](https:\u002F\u002Fcircleci.com\u002Fgh\u002Frllab\u002Frllab)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002FLICENSE)\n[![加入聊天 https:\u002F\u002Fgitter.im\u002Frllab\u002Frllab](https:\u002F\u002Fbadges.gitter.im\u002Frllab\u002Frllab.svg)](https:\u002F\u002Fgitter.im\u002Frllab\u002Frllab?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge&utm_content=badge)\n\n# rllab\n\nrllab 是一个用于开发和评估强化学习算法的框架。它包含广泛的连续控制任务，以及以下算法的实现：\n\n- [REINFORCE](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fvpg.py)\n- [截断自然策略梯度](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Ftnpg.py)\n- [奖励加权回归](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Ferwr.py)\n- [相对熵策略搜索](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Freps.py)\n- [信任域策略优化](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Ftrpo.py)\n- [交叉熵方法](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fcem.py)\n- [协方差矩阵自适应进化策略](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fcma_es.py)\n- [深度确定性策略梯度](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Fblob\u002Fmaster\u002Frllab\u002Falgos\u002Fddpg.py)\n\nrllab 与 [OpenAI Gym](https:\u002F\u002Fgym.openai.com\u002F) 完全兼容。有关说明和示例，请参阅[此处](http:\u002F\u002Frllab.readthedocs.io\u002Fen\u002Flatest\u002Fuser\u002Fgym_integration.html)。\n\nrllab 官方仅支持 Python 3.5 及以上版本。如果您需要基于 Python 2 的 rllab 历史快照，请使用 [py2 分支](https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab\u002Ftree\u002Fpy2)。\n\nrllab 提供在 EC2 集群上运行强化学习实验的支持，并配有结果可视化工具。详细信息请参阅[文档](https:\u002F\u002Frllab.readthedocs.io\u002Fen\u002Flatest\u002Fuser\u002Fcluster.html)。\n\n主要模块使用 [Theano](http:\u002F\u002Fdeeplearning.net\u002Fsoftware\u002Ftheano\u002F) 作为底层框架，同时我们在 [sandbox\u002Frocky\u002Ftf](https:\u002F\u002Fgithub.com\u002Fopenai\u002Frllab\u002Ftree\u002Fmaster\u002Fsandbox\u002Frocky\u002Ftf) 中提供了对 TensorFlow 的支持。\n\n# 文档\n\n文档可在在线查阅：[https:\u002F\u002Frllab.readthedocs.org\u002Fen\u002Flatest\u002F](https:\u002F\u002Frllab.readthedocs.org\u002Fen\u002Flatest\u002F)。\n\n# 引用 rllab\n\n如果您在学术研究中使用 rllab，强烈建议引用以下论文：\n\n- Yan Duan, Xi Chen, Rein Houthooft, John Schulman, Pieter Abbeel. “[连续控制领域的深度强化学习基准测试](http:\u002F\u002Farxiv.org\u002Fabs\u002F1604.06778)”。 _第 33 届国际机器学习大会（ICML），2016 年。_\n\n# 致谢\n\nrllab 最初由 Rocky Duan（加州大学伯克利分校 \u002F OpenAI）、Peter Chen（加州大学伯克利分校）、Rein Houthooft（加州大学伯克利分校 \u002F OpenAI）、John Schulman（加州大学伯克利分校 \u002F OpenAI）以及 Pieter Abbeel（加州大学伯克利分校 \u002F OpenAI）共同开发。该库目前仍由 OpenAI 和加州大学伯克利分校的团队联合维护。\n\n# 幻灯片\n\n2016 年 ICML 大会上展示的幻灯片：https:\u002F\u002Fwww.dropbox.com\u002Fs\u002Frqtpp1jv2jtzxeg\u002FICML2016_benchmarking_slides.pdf?dl=0","# rllab 快速上手指南\n\n> **⚠️ 重要提示**：`rllab` 已停止活跃开发。原开发团队及多所高校研究人员已将其重构并更名为 **[garage](https:\u002F\u002Fgithub.com\u002Frlworkgroup\u002Fgarage)** 进行维护。\n>\n> **强烈建议**新项目进行开发，或将旧项目迁移至 `garage`。`garage` 保留了 `rllab` 的大部分代码逻辑，仅需调整导入路径即可，且增加了对 TensorFlow 的原生支持、PPO\u002FDDPG 等新算法以及更好的稳定性。本指南仅供了解 `rllab` 历史用法或维护遗留代码参考。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux (推荐 Ubuntu) 或 macOS。Windows 支持有限，建议使用 WSL 或 Docker。\n*   **Python 版本**：官方仅支持 **Python 3.5+**。\n    *   *注：如需 Python 2 环境，请使用 `py2` 分支，但已不再推荐。*\n*   **核心依赖**：\n    *   [Theano](http:\u002F\u002Fdeeplearning.net\u002Fsoftware\u002Ftheano\u002F)：主要后端框架。\n    *   [OpenAI Gym](https:\u002F\u002Fgym.openai.com\u002F)：强化学习环境接口。\n    *   `lasagne`, `joblib`, `mako` 等科学计算库。\n\n## 安装步骤\n\n### 1. 克隆代码库\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Frllab\u002Frllab.git\ncd rllab\n```\n\n### 2. 创建虚拟环境（推荐）\n\n使用 `venv` 或 `conda` 隔离环境，避免依赖冲突。\n\n```bash\npython3 -m venv env\nsource env\u002Fbin\u002Factivate\n```\n\n### 3. 安装依赖\n\n由于 `rllab` 停止更新，部分依赖可能需要手动指定版本。首先升级 pip，然后安装核心包。\n\n**国内加速建议**：使用清华或阿里镜像源加速 PyPI 下载。\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple --upgrade pip setuptools wheel\n\n# 安装 rllab 及其依赖\npip install -i https:\u002F\u002Fpypi.tuna.tsuna.tsinghua.edu.cn\u002Fsimple -e .\n```\n\n*如果上述命令报错，可能需要先手动安装 Theano 和 Lasagne：*\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple theano==1.0.4 lasagne\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple gym\n```\n\n### 4. 验证安装\n\n运行一个简单的脚本来检查环境是否正常：\n\n```bash\npython scripts\u002Frun_experiment.py --args_file \u002Fdev\u002Fnull --args_data '{\"exp_name\": \"test\", \"algo\": {\"_type\": \"rllab.algos.vpg.VPG\"}, \"env\": {\"_type\": \"rllab.envs.box2d.lunar_lander.LunarLanderEnv\"}}'\n```\n*(注：若只需测试导入，可运行 `python -c \"import rllab; print(rllab.__version__)\"`)*\n\n## 基本使用\n\n`rllab` 的核心工作流是定义**算法 (Algo)**、**环境 (Env)** 和 **策略 (Policy)**，然后运行实验。以下是一个使用 VPG (REINFORCE) 算法在 CartPole 环境中训练的最简示例。\n\n创建文件 `train_cartpole.py`：\n\n```python\nfrom rllab.algos.vpg import VPG\nfrom rllab.envs.box2d.cartpole_env import CartpoleEnv\nfrom rllab.envs.normalized_env import normalize\nfrom rllab.policies.gaussian_mlp_policy import GaussianMLPPolicy\nfrom rllab.baselines.linear_feature_baseline import LinearFeatureBaseline\nfrom rllab.sampler.utils import rollout\n\n# 1. 初始化环境 (推荐使用 normalize 包装器)\nenv = normalize(CartpoleEnv())\n\n# 2. 定义策略网络 (MLP)\npolicy = GaussianMLPPolicy(\n    env_spec=env.spec,\n    # 隐藏层结构\n    hidden_sizes=(32, 32), \n)\n\n# 3. 定义基线 (用于减少方差)\nbaseline = LinearFeatureBaseline(env_spec=env.spec)\n\n# 4. 初始化算法\nalgo = VPG(\n    env=env,\n    policy=policy,\n    baseline=baseline,\n    batch_size=4000,\n    max_path_length=100,\n    n_itr=40,\n    discount=0.99,\n    step_size=0.01,\n    plot=True,  # 训练结束后绘制结果\n)\n\n# 5. 开始训练\nalgo.train()\n```\n\n运行脚本：\n\n```bash\npython train_cartpole.py\n```\n\n### 使用 OpenAI Gym 环境\n\n`rllab` 完全兼容 OpenAI Gym。若要使用 Gym 中的环境（如 `Pendulum-v0`），代码如下：\n\n```python\nfrom rllab.algos.trpo import TRPO\nfrom rllab.envs.gym_env import GymEnv\nfrom rllab.policies.gaussian_mlp_policy import GaussianMLPPolicy\nfrom rllab.baselines.linear_feature_baseline import LinearFeatureBaseline\n\n# 包装 Gym 环境\nenv = GymEnv(\"Pendulum-v0\")\n\npolicy = GaussianMLPPolicy(env_spec=env.spec, hidden_sizes=(64, 64))\nbaseline = LinearFeatureBaseline(env_spec=env.spec)\n\nalgo = TRPO(\n    env=env,\n    policy=policy,\n    baseline=baseline,\n    max_path_length=500,\n    n_itr=100,\n    batch_size=50000,\n    step_size=0.01,\n)\n\nalgo.train()\n```\n\n训练完成后，`rllab` 会自动生成数据日志并在本地浏览器中展示学习曲线（如果设置了 `plot=True`）。","某高校机器人实验室的研究团队正致力于开发一种能让机械臂在复杂环境中自主抓取物体的强化学习算法，急需验证多种策略梯度方法的有效性。\n\n### 没有 rllab 时\n- 研究人员需从零搭建实验框架，花费数周时间编写与环境交互、数据收集及日志记录的基础代码，严重挤占核心算法研究时间。\n- 尝试对比 TRPO、DDPG 等不同算法时，因缺乏统一接口，每次切换算法都需重构大量训练逻辑，导致实验迭代周期长达数周。\n- 难以复现论文结果，由于缺少标准化的基准任务和预置算法实现，团队常在调试环境差异和超参数设置上陷入泥潭。\n- 分布式训练配置极其繁琐，若想利用 EC2 集群加速实验，需手动编写复杂的脚本进行资源调度和任务分发。\n\n### 使用 rllab 后\n- 直接调用 rllab 内置的成熟框架，几分钟内即可启动基于 OpenAI Gym 的机械臂控制实验，让团队迅速聚焦于策略优化本身。\n- 借助 rllab 预实现的 TRPO、DDPG 等先进算法，研究人员仅需修改几行配置即可在同一环境下公平对比不同模型性能，将迭代速度提升十倍。\n- 利用其标准化的基准测试套件和可视化工具，团队能快速复现顶级会议论文结果，并直观分析学习曲线以调整超参数。\n- 通过集成的 EC2 集群支持，一键部署大规模并行实验，显著缩短了从算法构思到验证结论的时间成本。\n\nrllab 通过提供标准化、模块化且功能完备的开发底座，将强化学习研究从繁琐的工程实现中解放出来，极大加速了算法创新与落地的进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frll_rllab_98c2cff6.png","rll","Berkeley RLL","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Frll_477813ea.png",null,"https:\u002F\u002Fgithub.com\u002Frll",[81,85,89,93,97,101,105,109,112],{"name":82,"color":83,"percentage":84},"Python","#3572A5",88.1,{"name":86,"color":87,"percentage":88},"Jupyter Notebook","#DA5B0B",8,{"name":90,"color":91,"percentage":92},"JavaScript","#f1e05a",1.5,{"name":94,"color":95,"percentage":96},"HTML","#e34c26",0.8,{"name":98,"color":99,"percentage":100},"Ruby","#701516",0.6,{"name":102,"color":103,"percentage":104},"CSS","#663399",0.4,{"name":106,"color":107,"percentage":108},"Shell","#89e051",0.2,{"name":110,"color":111,"percentage":108},"Mako","#7e858d",{"name":113,"color":114,"percentage":115},"Dockerfile","#384d54",0.1,3054,801,"2026-04-01T08:27:33","NOASSERTION",4,"Linux, macOS","未说明（支持 CPU 运行，Theano\u002FTensorFlow 后端通常可选配 GPU）","未说明",{"notes":125,"python":126,"dependencies":127},"该项目已停止活跃开发，官方建议迁移至其继任项目 'garage'。主要深度学习后端为 Theano，同时在 sandbox 目录下提供 TensorFlow 支持。支持在 EC2 集群上运行实验。Python 2 版本需使用 py2 分支。","3.5+",[128,129,130],"Theano","TensorFlow","OpenAI Gym",[13,54],"2026-03-27T02:49:30.150509","2026-04-06T09:24:05.432854",[135,140,145,150,155,160,165],{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},18413,"运行 scripts\u002Fsubmit_gym.py 时提示没有记录到训练数据（You didn't have any recorded training data）怎么办？","这通常是因为训练的迭代次数（n_itr）太少，导致在监控开始记录之前没有产生足够的滚动数据（rollouts）。解决方法是增加 `n_itr` 的值（例如尝试设置为 10 或 50），确保在 `env.monitor.start()` 之后实际运行了足够的步数。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F11",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},18414,"为什么使用 TensorFlow 实现的策略（如 GaussianLSTMPolicy）在并行滚动（parallel rollouts）时会出现问题或反序列化失败？","这是一个已知问题，主要与 TensorFlow 的实现有关，而非 rllab 通用逻辑。相比之下，Theano 实现的策略（如 `rllab.policies.gaussian_gru_policy`）在并行滚动时表现正常，能够充分利用指定的 CPU 核心。如果遇到此类问题，建议检查是否使用了 TensorFlow 后端，或考虑暂时切换到 Theano 实现。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F132",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},18415,"运行 trpo_cartpole_stub.py 时程序长时间运行后内存溢出（Out of Memory）且卡在 pickle 加载处，如何解决？","这通常是由于本地代码版本过旧或缺少关键的提交更新导致的。维护者确认该问题已在主分支（master）中修复。请尝试从仓库重新拉取最新代码（`git pull origin master`），确保所有文件更新已应用，问题即可解决。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F7",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},18416,"如何正确配置和使用 Gym 环境进行向量化采样（Vectorized Sampling）？","推荐通过 `GymEnv` 包装器来使用 Gym 环境。对于需要自定义向量化执行的情况，可以使用 `VecEnvExecutor`。示例代码如下：\n```python\nimport gym\nfrom sandbox.rocky.tf.envs.base import TfEnv\nfrom sandbox.rocky.tf.envs.vec_env_executor import VecEnvExecutor\n\nenv = gym.make(\"Copy-v0\")\nenv = TfEnv(env)\n\nconfig = {\"max_seq_len\": 10, \"batch_size\": 128}\nn_envs = max(1, min(int(config[\"batch_size\"] \u002F config[\"max_seq_len\"]), 100))\nenvs = [env for _ in range(n_envs)]\nvec_env = VecEnvExecutor(envs=envs, max_path_length=config[\"max_seq_len\"])\n```\n注意：`CategoricalGRUPolicy` 可能无法直接处理某些复杂的动作空间，可能需要自定义输出的非线性激活函数。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F59",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},18417,"继承 `Parameterized` 类时出现 `AttributeError: object has no attribute '_Serializable__args'` 错误怎么办？","`Parameterized` 类依赖于 `Serializable` 类的属性来进行状态序列化。如果自定义类只继承了 `Parameterized` 而未继承 `Serializable`，就会报此错。解决方案是让该类同时继承 `Serializable`，或者确保 `Parameterized` 本身子类化 `Serializable`。维护者确认 `Parameterized` 应当扩展 `Serializable`。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F113",{"id":161,"question_zh":162,"answer_zh":163,"source_url":164},18418,"使用 TRPO 或 TNPG 算法训练时，共轭梯度优化器（Conjugate Gradient Optimizer）偶尔失败并产生 NaN 参数，原因是什么？","这是因为在某些情况下，计算初始步长时的项 `descent_direction.dot(Hx(descent_direction))` 变成了负数，导致对其开平方（np.sqrt）时产生 NaN。理论上该项应为半正定（基于海森矩阵的内积），但在数值不稳定时可能出现负值。这通常意味着优化过程发散，可能需要调整学习率、约束范围或检查奖励函数的缩放。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F24",{"id":166,"question_zh":167,"answer_zh":168,"source_url":169},18419,"在 DDPG 算法中设置了 `plot=True` 但每次迭代后没有出现评估绘图，是怎么回事？","这通常不是代码错误，而是环境或显示后端配置问题。确保你的运行环境支持图形界面显示（如配置了正确的 DISPLAY 变量或在本地终端运行）。如果是在无头服务器（headless server）上运行，需要配置虚拟显示或使用非交互式后端。维护者确认在正确配置环境下该功能可正常工作。","https:\u002F\u002Fgithub.com\u002Frll\u002Frllab\u002Fissues\u002F13",[]]