[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Toni-SM--skrl":3,"tool-Toni-SM--skrl":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",148568,2,"2026-04-09T23:34:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":74,"owner_company":74,"owner_location":74,"owner_email":74,"owner_twitter":74,"owner_website":74,"owner_url":76,"languages":77,"stars":82,"forks":83,"last_commit_at":84,"license":85,"difficulty_score":32,"env_os":86,"env_gpu":87,"env_ram":86,"env_deps":88,"category_tags":99,"github_topics":101,"view_count":32,"oss_zip_url":74,"oss_zip_packed_at":74,"status":17,"created_at":116,"updated_at":117,"faqs":118,"releases":148},6193,"Toni-SM\u002Fskrl","skrl","Modular Reinforcement Learning (RL) library (implemented in PyTorch, JAX, and NVIDIA Warp) with support for Gymnasium\u002FGym, NVIDIA Isaac Lab, MuJoCo Playground and other environments","skrl 是一个专为强化学习打造的开源模块化库，旨在让算法的实现过程更加清晰、灵活且易于理解。它基于 Python 构建，并创新性地同时支持 PyTorch、JAX 和 NVIDIA Warp 三大主流深度学习框架，打破了单一框架的限制。\n\n在科研与开发中，研究者常面临环境接口繁杂、多框架切换困难以及大规模并行训练配置复杂等痛点。skrl 通过高度模块化的设计解决了这些问题，它不仅完美兼容 Gymnasium、Gym、PettingZoo 及 ManiSkill 等标准环境，还能直接加载并配置 NVIDIA Isaac Lab 和 MuJoCo Playground 等高级仿真平台。其独特的技术亮点在于支持“按范围训练”，允许用户在一次运行中，将不同的环境子集分配给不同的计算资源进行同步训练，极大提升了实验效率与资源利用率。\n\n这款工具非常适合从事强化学习算法研究的科研人员、需要快速验证想法的 AI 开发者，以及专注于机器人仿真与控制领域的工程师。无论是希望深入理解算法底层逻辑，还是寻求高效的多环境并行训练方案，skrl 都能提供简洁透明的代码结构与强大的功能支持，助力用户更专注于核心","skrl 是一个专为强化学习打造的开源模块化库，旨在让算法的实现过程更加清晰、灵活且易于理解。它基于 Python 构建，并创新性地同时支持 PyTorch、JAX 和 NVIDIA Warp 三大主流深度学习框架，打破了单一框架的限制。\n\n在科研与开发中，研究者常面临环境接口繁杂、多框架切换困难以及大规模并行训练配置复杂等痛点。skrl 通过高度模块化的设计解决了这些问题，它不仅完美兼容 Gymnasium、Gym、PettingZoo 及 ManiSkill 等标准环境，还能直接加载并配置 NVIDIA Isaac Lab 和 MuJoCo Playground 等高级仿真平台。其独特的技术亮点在于支持“按范围训练”，允许用户在一次运行中，将不同的环境子集分配给不同的计算资源进行同步训练，极大提升了实验效率与资源利用率。\n\n这款工具非常适合从事强化学习算法研究的科研人员、需要快速验证想法的 AI 开发者，以及专注于机器人仿真与控制领域的工程师。无论是希望深入理解算法底层逻辑，还是寻求高效的多环境并行训练方案，skrl 都能提供简洁透明的代码结构与强大的功能支持，助力用户更专注于核心策略的创新而非繁琐的工程适配。","[![pypi](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fskrl)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fskrl)\n[\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20models-hugging%20face-F8D521\">](https:\u002F\u002Fhuggingface.co\u002Fskrl)\n![discussions](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdiscussions\u002FToni-SM\u002Fskrl)\n\u003Cbr>\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FToni-SM\u002Fskrl)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl)\n\u003Cspan>&nbsp;&nbsp;&nbsp;&nbsp;\u003C\u002Fspan>\n[![docs](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FToni-SM_skrl_readme_13d664e1afd7.png)](https:\u002F\u002Fskrl.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n[![pre-commit](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Fpre-commit.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Fpre-commit.yml)\n[![pytest-torch](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-torch.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-torch.yml)\n[![pytest-jax](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-jax.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-jax.yml)\n[![pytest-warp](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-warp.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-warp.yml)\n\n\u003Cbr>\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fskrl.readthedocs.io\">\n  \u003Cimg width=\"300rem\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FToni-SM_skrl_readme_b30c56cda8f1.png\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\u003Ch2 align=\"center\" style=\"border-bottom: 0 !important;\">SKRL - Reinforcement Learning library\u003C\u002Fh2>\n\u003Cbr>\n\n**Documentation:** \u003Cstrong>https:\u002F\u002Fskrl.readthedocs.io\u003C\u002Fstrong>\n\n**Description**: ``skrl`` is an open-source modular library for Reinforcement Learning written in Python\n(implemented in [PyTorch](https:\u002F\u002Fpytorch.org\u002F), [JAX](https:\u002F\u002Fjax.readthedocs.io) and [NVIDIA Warp](https:\u002F\u002Fnvidia.github.io\u002Fwarp\u002F))\nand designed with a focus on modularity, readability, simplicity, and transparency of algorithm implementation.\nIn addition to supporting\nOpenAI [Gym](https:\u002F\u002Fwww.gymlibrary.dev),\nFarama [Gymnasium](https:\u002F\u002Fgymnasium.farama.org) and [PettingZoo](https:\u002F\u002Fpettingzoo.farama.org),\n[ManiSkill](https:\u002F\u002Fmaniskill.readthedocs.io\u002Fen\u002Flatest\u002Findex.html),\namong other environment interfaces, it allows loading and configuring\nNVIDIA [Isaac Lab](https:\u002F\u002Fisaac-sim.github.io\u002FIsaacLab\u002Findex.html) and\n[MuJoCo Playground](https:\u002F\u002Fplayground.mujoco.org\u002F)\nenvironments, enabling agents' simultaneous training by scopes (subsets of environments among all available environments),\nwhich may or may not share resources, in the same run.\n\n\u003Cbr>\n\n### Refer to the documentation for details and examples: https:\u002F\u002Fskrl.readthedocs.io\n\n\u003Cbr>\n\n> **Note:** This project is under **active continuous development**. Please make sure you always have the latest version. Visit the [develop](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Ftree\u002Fdevelop) branch or its [documentation](https:\u002F\u002Fskrl.readthedocs.io\u002Fen\u002Fdevelop) to access the latest updates to be released.\n\n\u003Cbr>\n\n### Citing this library\n\nTo cite this library in publications, please use the following reference:\n\n```bibtex\n@article{serrano2023skrl,\n  author  = {Antonio Serrano-Muñoz and Dimitrios Chrysostomou and Simon Bøgh and Nestor Arana-Arexolaleiba},\n  title   = {skrl: Modular and Flexible Library for Reinforcement Learning},\n  journal = {Journal of Machine Learning Research},\n  year    = {2023},\n  volume  = {24},\n  number  = {254},\n  pages   = {1--9},\n  url     = {http:\u002F\u002Fjmlr.org\u002Fpapers\u002Fv24\u002F23-0112.html}\n}\n```\n","[![pypi](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fskrl)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fskrl)\n[\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20models-hugging%20face-F8D521\">](https:\u002F\u002Fhuggingface.co\u002Fskrl)\n![discussions](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdiscussions\u002FToni-SM\u002Fskrl)\n\u003Cbr>\n[![license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FToni-SM\u002Fskrl)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl)\n\u003Cspan>&nbsp;&nbsp;&nbsp;&nbsp;\u003C\u002Fspan>\n[![docs](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FToni-SM_skrl_readme_13d664e1afd7.png)](https:\u002F\u002Fskrl.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n[![pre-commit](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Fpre-commit.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Fpre-commit.yml)\n[![pytest-torch](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-torch.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-torch.yml)\n[![pytest-jax](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-jax.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-jax.yml)\n[![pytest-warp](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-warp.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Factions\u002Fworkflows\u002Ftests-warp.yml)\n\n\u003Cbr>\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fskrl.readthedocs.io\">\n  \u003Cimg width=\"300rem\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FToni-SM_skrl_readme_b30c56cda8f1.png\">\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\u003Ch2 align=\"center\" style=\"border-bottom: 0 !important;\">SKRL - 强化学习库\u003C\u002Fh2>\n\u003Cbr>\n\n**文档**: \u003Cstrong>https:\u002F\u002Fskrl.readthedocs.io\u003C\u002Fstrong>\n\n**简介**: ``skrl`` 是一个用 Python 编写的开源模块化强化学习库\n（基于 [PyTorch](https:\u002F\u002Fpytorch.org\u002F)、[JAX](https:\u002F\u002Fjax.readthedocs.io) 和 [NVIDIA Warp](https:\u002F\u002Fnvidia.github.io\u002Fwarp\u002F) 实现），\n其设计重点在于算法实现的模块化、可读性、简洁性和透明度。除了支持 OpenAI 的 [Gym](https:\u002F\u002Fwww.gymlibrary.dev)、\nFarama 的 [Gymnasium](https:\u002F\u002Fgymnasium.farama.org) 和 [PettingZoo](https:\u002F\u002Fpettingzoo.farama.org)、\n[ManiSkill](https:\u002F\u002Fmaniskill.readthedocs.io\u002Fen\u002Flatest\u002Findex.html) 等环境接口外，\n它还允许加载和配置 NVIDIA 的 [Isaac Lab](https:\u002F\u002Fisaac-sim.github.io\u002FIsaacLab\u002Findex.html) 和\n[MuJoCo Playground](https:\u002F\u002Fplayground.mujoco.org\u002F) 环境，\n从而在一次运行中实现智能体按范围（即所有可用环境中的一部分子集）同时训练，\n这些范围可以共享资源，也可以不共享资源。\n\n\u003Cbr>\n\n### 详情与示例请参阅文档：https:\u002F\u002Fskrl.readthedocs.io\n\n\u003Cbr>\n\n> **注意**: 本项目处于 **积极持续开发中**。请确保始终使用最新版本。访问 [develop](https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Ftree\u002Fdevelop) 分支或其 [文档](https:\u002F\u002Fskrl.readthedocs.io\u002Fen\u002Fdevelop) 可获取即将发布的最新更新。\n\n\u003Cbr>\n\n### 引用本库\n\n如需在出版物中引用本库，请使用以下参考文献：\n\n```bibtex\n@article{serrano2023skrl,\n  author  = {Antonio Serrano-Muñoz and Dimitrios Chrysostomou and Simon Bøgh and Nestor Arana-Arexolaleiba},\n  title   = {skrl: Modular and Flexible Library for Reinforcement Learning},\n  journal = {Journal of Machine Learning Research},\n  year    = {2023},\n  volume  = {24},\n  number  = {254},\n  pages   = {1--9},\n  url     = {http:\u002F\u002Fjmlr.org\u002Fpapers\u002Fv24\u002F23-0112.html}\n}\n```","# skrl 快速上手指南\n\nskrl 是一个用 Python 编写的开源模块化强化学习库，支持 PyTorch、JAX 和 NVIDIA Warp 后端。它专注于算法实现的模块化、可读性、简洁性和透明性，并兼容 Gym、Gymnasium、PettingZoo、ManiSkill、NVIDIA Isaac Lab 及 MuJoCo Playground 等多种环境接口。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS。Windows 支持取决于具体后端（如 PyTorch）的兼容性。\n*   **Python 版本**: Python 3.8 或更高版本。\n*   **前置依赖**:\n    *   **深度学习框架**: 根据需求选择安装 **PyTorch**、**JAX** 或 **NVIDIA Warp**。\n        *   若使用 GPU 加速，请确保已安装对应的 NVIDIA 驱动和 CUDA 工具包。\n    *   **环境接口**: 根据任务需要安装 `gymnasium`、`pettingzoo` 或特定仿真器（如 `isaac-lab`）。\n\n> **提示**：国内开发者建议使用清华源或阿里源加速 Python 包的安装。\n\n## 安装步骤\n\n### 1. 安装基础库\n通过 pip 安装 skrl 最新稳定版：\n\n```bash\npip install skrl -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 2. 安装特定后端（可选）\nskrl 核心库不强制绑定特定深度学习框架，您需根据需求单独安装后端依赖。\n\n*   **PyTorch 版本** (推荐):\n    ```bash\n    pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    ```\n    *(注：请将 `cu118` 替换为您实际的 CUDA 版本，或使用 CPU 版本)*\n\n*   **JAX 版本**:\n    ```bash\n    pip install \"jax[cuda11_pip]\" -f https:\u002F\u002Fstorage.googleapis.com\u002Fjax-releases\u002Fjax_cuda_releases.html\n    ```\n\n*   **NVIDIA Warp 版本**:\n    请参考 NVIDIA Warp 官方文档进行安装。\n\n### 3. 安装额外环境支持（可选）\n如果您需要使用特定的仿真环境，请安装相应依赖：\n\n```bash\n# 示例：安装 Gymnasium 和 PettingZoo 支持\npip install gymnasium pettingzoo -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\nskrl 的设计哲学是配置驱动。以下是一个基于 PyTorch 和 Gymnasium 的最简训练示例，展示如何启动一个 PPO 代理。\n\n### 代码示例\n\n创建一个名为 `train_ppo.py` 的文件：\n\n```python\nfrom skrl.agents.ppo.torch import PPOAgent, PPO_DEFAULT_CONFIG\nfrom skrl.envs.wrappers.torch import wrap_env\nimport gymnasium as gym\n\n# 1. 实例化环境\nenv = gym.make(\"CartPole-v1\")\nenv = wrap_env(env)\n\n# 2. 配置代理 (使用默认配置或自定义字典)\n# PPO_DEFAULT_CONFIG 包含了算法所需的超参数\nagent_cfg = PPO_DEFAULT_CONFIG.copy()\nagent_cfg[\"experiment\"][\"checkpoints_path\"] = \".\u002Fcheckpoints\"\n\n# 3. 创建代理实例\nagent = PPOAgent(models=None, memory=None, cfg=agent_cfg, observation_space=env.observation_space, action_space=env.action_space)\n\n# 4. 开始训练\n# train() 方法将自动处理交互、更新和日志记录\nagent.train(env, n_timesteps=100000)\n```\n\n### 运行训练\n\n在终端执行脚本：\n\n```bash\npython train_ppo.py\n```\n\n训练过程中，skrl 会自动保存检查点到 `.\u002Fcheckpoints` 目录，并输出实时训练日志。您可以加载这些检查点进行推理或继续训练。\n\n> **注意**：本项目处于活跃开发中，建议定期更新以获取最新功能：\n> ```bash\n> pip install -U skrl -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```","某机器人研发团队正致力于在 NVIDIA Isaac Lab 仿真环境中，训练一个能够适应不同地形和负载变化的四足机器人行走策略。\n\n### 没有 skrl 时\n- **框架切换成本高昂**：团队若想对比 PyTorch 与 JAX 的实现效果，必须重写大量底层代码，因为现有库通常绑定单一后端，导致算法验证周期长达数周。\n- **多环境并行困难**：无法在同一运行进程中高效地按“子集范围”同时训练多个差异化的仿真场景（如草地、沙地、楼梯），只能串行执行或手动管理复杂的资源分配。\n- **算法透明度低**：引用的黑盒库难以修改内部逻辑，当需要针对机器人特有的动力学约束调整强化学习算法细节时，往往陷入调试泥潭。\n- **接口适配繁琐**：每次接入新的仿真器版本或自定义环境（如 MuJoCo Playground），都需要编写大量胶水代码来对齐数据格式。\n\n### 使用 skrl 后\n- **后端灵活切换**：借助 skrl 的模块化设计，团队仅需修改配置文件即可在 PyTorch、JAX 或 NVIDIA Warp 后端间无缝切换，算法对比实验缩短至几小时。\n- **高效范围训练**：利用 skrl 独有的“按范围同时训练”特性，成功在单次运行中并行调度不同地形子集的环境，显著提升了 GPU 利用率和样本收集效率。\n- **代码清晰可控**：skrl 强调实现的透明性与可读性，研究人员能快速定位并定制核心算法模块，轻松融入特定的机器人控制约束。\n- **原生环境支持**：直接加载并配置 Isaac Lab 和 Gymnasium 环境，无需额外适配层，实现了从仿真设置到模型训练的流畅流水线。\n\nskrl 通过其高度的模块化与多后端支持，将机器人强化学习的迭代效率提升了数倍，让团队能专注于策略创新而非工程琐事。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FToni-SM_skrl_b30c56cd.png","Toni-SM",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FToni-SM_4f04dcae.png","https:\u002F\u002Fgithub.com\u002FToni-SM",[78],{"name":79,"color":80,"percentage":81},"Python","#3572A5",100,1024,137,"2026-04-09T18:54:06","MIT","未说明","可选但推荐（支持 NVIDIA GPU 用于 PyTorch 和 Warp 后端），具体型号、显存及 CUDA 版本未在 README 中明确说明",{"notes":89,"python":86,"dependencies":90},"该库是一个模块化强化学习库，支持多种后端（PyTorch, JAX, NVIDIA Warp）和环境接口。项目处于活跃开发中，建议始终使用最新版本或关注 develop 分支。具体环境配置（如 Python 版本、CUDA 版本等）需参考官方文档 https:\u002F\u002Fskrl.readthedocs.io。",[91,92,93,94,95,96,97,98],"PyTorch","JAX","NVIDIA Warp","gymnasium","pettingzoo","mani-skill","isaac-lab","mujoco-playground",[13,100,14],"其他",[102,103,104,105,94,106,107,108,109,110,111,112,113,114,115],"reinforcement-learning","python","deep-learning","gym","machine-learning","robotics","jax","isaaclab","brax","flax","isaacsim","multi-agent","torch","warp","2026-03-27T02:49:30.150509","2026-04-10T18:55:34.946652",[119,124,129,134,139,144],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},28053,"使用 Isaac Gym 时遇到 Normal 分布参数为 NaN 的错误，如何解决？","这通常是因为内存（Memory）配置的大小（size）设置不当导致的。请检查文档中关于 'memories' 的部分，确保 `size` 参数设置正确（例如设置为 1000）。错误的内存大小会导致训练过程中出现 NaN 值。参考文档：https:\u002F\u002Fskrl.readthedocs.io\u002Fen\u002Flatest\u002Fintro\u002Fgetting_started.html#memories","https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Fissues\u002F227",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},28054,"是否支持多输入观测空间（例如同时包含图像和向量）？","目前可以通过安装开发分支 `toni\u002Fspace_tensor_conversion` 来支持不同的观测空间转换。请使用以下命令安装：\n`.\u002Fisaaclab.sh -p -m pip install git+https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl.git@toni\u002Fspace_tensor_conversion`\n注意：Isaac Lab 目前仅原生支持 `Box` 空间，自动转换功能正在该分支中进行开发和测试。","https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Fissues\u002F39",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},28055,"运行示例代码时遇到 'keep_dimensions=True cannot be used with Dict spaces' 错误怎么办？","该问题已在版本 1.4.0 中修复，或者您可以直接使用 `develop` 分支。在 `develop` 分支中，`keep_dimensions` 的默认行为已回滚，并且添加了新的空间工具（spaces utilities）以更好地处理复合空间（如 `Dict` 和 `Tuple`）。\n建议暂时使用 develop 分支：\n`pip install git+https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl.git@develop`","https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Fissues\u002F219",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},28056,"如何在训练完成后加载检查点并进行确定性评估（Evaluation）？","建议在实例化 Trainer 之后、调用 `eval()` 之前加载检查点，以确保 Agent 初始化完成。示例代码如下：\n```python\nagent_ppo = PPO(models=models_ppo, memory=None, cfg=cfg_ppo, observation_space=env.observation_space, action_space=env.action_space, device=device)\n\n# 配置并实例化训练器\ncfg_trainer = {\"timesteps\": 1000, \"headless\": True, \"disable_progressbar\": True}\ntrainer = SequentialTrainer(cfg=cfg_trainer, env=env, agents=agent_ppo)\n\n# 加载检查点\nagent_ppo.load(\".\u002Frl-ckpt\u002F...\u002Fagent_100000.pt\")\n\n# 开始评估\ntrainer.eval()\n```\n如果在评估时看到关于 Value、optimizer 或 preprocessors 的警告，可以忽略，因为这些组件仅在训练时需要。","https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Fissues\u002F80",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},28057,"在多环境（num_envs > 1）运行时，如果其中一个环境终止（terminated），是所有环境都重置还是仅重置终止的那个？","对于 NVIDIA Isaac 系列环境和向量化的 gym\u002Fgymnasium 环境（当 `num_envs > 1` 时），底层实现通常要求批量操作。当一个子环境终止时，框架会处理重置逻辑。在 skrl 的 Trainer 实现中，如果检测到任何环境终止（`terminated.any()`），会调用 `self.env.reset()`。具体的重置行为（是全部重置还是部分重置）取决于底层环境包装器（Wrapper）的实现。Isaac Gym 的包装器通常会处理这种并行重置，确保只有需要重置的环境状态被更新，或者利用 GPU 并行性高效地重置所有环境以保持同步。","https:\u002F\u002Fgithub.com\u002FToni-SM\u002Fskrl\u002Fissues\u002F73",{"id":145,"question_zh":146,"answer_zh":147,"source_url":138},28058,"如何使用 skrl 实现离散动作空间（Discrete Action Space）的 PPO 算法？","可以使用 `CategoricalMixin` 来构建策略模型以支持离散动作。定义模型时继承 `Model` 和 `CategoricalMixin`，并在计算输出时返回 logits。示例结构如下：\n```python\nfrom skrl.models.torch import Model, CategoricalMixin\nimport torch.nn as nn\nimport torch.nn.functional as F\n\nclass Policy(CategoricalMixin, Model):\n    def __init__(self, observation_space, action_space, device, unnormalized_log_prob=True):\n        Model.__init__(self, observation_space, action_space, device)\n        CategoricalMixin.__init__(self, unnormalized_log_prob)\n        \n        self.linear_layer_1 = nn.Linear(self.num_observations, 64)\n        self.linear_layer_2 = nn.Linear(64, 64)\n        self.output_layer = nn.Linear(64, self.num_actions)\n\n    def compute(self, inputs, role):\n        x = F.relu(self.linear_layer_1(inputs[\"states\"]))\n        x = F.relu(self.linear_layer_2(x))\n        return self.output_layer(x)\n```\n然后将其传递给 PPO Agent 即可。",[149,154,159,164,169,174,179,184,189,194,199,204,209,214,219,224,229,234],{"id":150,"version":151,"summary_zh":152,"released_at":153},188937,"2.0.0","## [2.0.0] - 2026-04-08\n\n最相关功能概览：\n- 在 NVIDIA Warp 中实现强化学习算法\n- 区分环境观测与状态（也称为特权观测）\n- 支持 MuJoCo Playground 和 ManiSkill 环境\n\n### 新增\n- 在 NVIDIA Warp 中实现强化学习算法\n- 添加 MuJoCo Playground 环境的加载器和封装器\n- 添加 ManiSkill 环境的封装器\n- 添加表格型模型实例化器（ε-贪心变体）\n- 为高斯和多元高斯模型添加 `clip_mean_actions` 参数\n- 为训练器添加 `render_interval` 选项，用于指定环境渲染间隔\n- 添加 `compute_space_limits` 空间工具函数，用于获取 Gymnasium 空间范围的上下界\n- 添加 `ScopedTimer` 工具类，用于测量代码执行时间\n- 实现 `SummaryWriter`，无需依赖第三方库即可将数据记录到 TensorBoard\n- 将智能体推理、算法更新以及环境步进时间记录到 TensorBoard\n\n### 变更\n- 将最低支持的 Python 版本更新为 3.10\n- 放弃对 PyTorch 1.11 之前版本的支持（此前支持的最低版本为 1.10）\n- 在训练过程中计算动作时，仅调用一次观测\u002F状态预处理函数\n\n### 重大变更\n- 重构库结构，以区分环境观测与状态（即特权观测）\n- 使用 Python 数据类实现智能体\u002F多智能体及训练器配置\n  - 统一不同学习率设置于 `learning_rate` 配置下\n  - 将 `lambda` 重命名为 `gae_lambda`\n  - 通过检查 `value_clip > 0` 来移除冗余的 `clip_predicted_values` 配置\n  - 移除特定的探索噪声设置（`initial_scale`、`final_scale` 和 `timesteps`），转而使用通用调度函数\n- 更新表格型模型定义，使其可在任意数量的并行环境中运行\n- 重构多智能体环境封装器，以支持同质和异质的状态空间\n\n### 修复\n- 在 JAX 中为基于策略的智能体\u002F多智能体在策略算法的策略损失中加入熵项\n- 修复终止和截断信号的时间限制处理问题\n- 通过在初始化后（首次重置时）正确设置随机种子，修复环境的随机性问题\n\n### 移除\n- 移除 JAX 实现中的 NumPy 后端\n- 移除从其他强化学习库迁移检查点和模型的功能\n- 移除对 Isaac Gym 和 Omniverse Isaac Gym 环境的支持（已弃用，推荐使用 Isaac Lab）\n- 移除对 Brax 和 DeepMind 环境的支持（推荐使用 MuJoCo Playground 环境）\n- 移除对 Bi-DexHands 和 robosuite 环境的支持\n- 移除 Isaac Gym（Web 查看器、逆运动学）和 Omniverse Isaac Gym（本地环境实例、逆运动学）相关工具","2026-04-08T20:45:45",{"id":155,"version":156,"summary_zh":157,"released_at":158},188938,"1.4.3","## [1.4.3] - 2025-03-29\n### 变更\n- 更新用于测试和覆盖率的 GitHub Actions 工作流\n- 将支持的最低 Python 版本更新为 3.8，并更新依赖库的最低版本\n\n### 修复\n- 修复环境包装器中与空格相关工具函数的关键字仅限参数问题（该问题在上一版本中引入）\n- 修复运行器实现中的噪声设备定义","2025-03-30T01:34:29",{"id":160,"version":161,"summary_zh":162,"released_at":163},188939,"1.4.2","## [1.4.2] - 2025-03-18\n### 新增\n- 添加多类别模型实例化器\n- 在模型实例化器中添加 `one_hot_encoding` 函数，用于对 `Discrete` 和 `MultiDiscrete` 张量化空间进行独热编码\n- 允许在空间工具中使用 `None` 类型的空间以及样本\u002F值\n\n### 修复\n- 在 PyTorch 中将模型实例化器的 `initial_log_std` 参数强制转换为 `float` 类型\n- 修复由不同混合类型组成的共享模型中常见属性被覆盖的问题（例如 `clip_actions`）","2025-03-18T20:54:43",{"id":165,"version":166,"summary_zh":167,"released_at":168},188940,"1.4.1","## [1.4.1] - 2025-01-27\n### 修复\n- 在 JAX 的分布式运行中，强制使用本地设备进行计算\n- 更新运行器实现，以解析离策略智能体的噪声定义","2025-01-28T01:12:14",{"id":170,"version":171,"summary_zh":172,"released_at":173},188941,"1.4.0","## [1.4.0] - 2025-01-16\n### 新增\n- 用于操作 Gymnasium 空间（`Box`、`Discrete`、`MultiDiscrete`、`Tuple` 和 `Dict`）的工具函数\n- ML 框架配置中的 `parse_device` 静态方法（用于库组件中设备的设置）\n- PyTorch 中对不同共享模型结构的支持的模型实例化器\n- PyTorch 自动混合精度训练支持\n- PyTorch 中用于初始化模型懒加载模块的 `init_state_dict` 方法\n- 模型实例化器新增 `fixed_log_std` 参数，用于定义不可变的对数标准差\n- 定义 `stochastic_evaluation` 训练器配置，允许在评估过程中直接使用智能体模型返回的动作，而非确定性动作（例如基于高斯分布模型的均值动作）。默认行为仍为返回确定性动作。\n\n### 变更\n- 在评估过程中调用智能体的 `pre_interaction` 方法\n- 所有库组件均使用空间工具函数处理状态、观测和动作\n- 更新模型实例化器的定义，以支持处理基础及复合 Gymnasium 空间\n- 将内存中张量的展平存储设为默认选项（撤销 1.3.0 版本中的变更）\n- 放弃对 PyTorch 1.10 以下版本的支持（此前支持的最低版本为 1.9）\n- 更新 KL 自适应学习率调度器的实现，使其与 JAX 中 Optax 的行为一致\n- 更新 AMP 智能体，使其使用环境的终止和截断信息，并集成 KL 自适应学习率调度器\n- 更新运行器实现，支持任意智能体及其模型的定义\n- 加速 PyTorch 实现：\n  - 实例化分布时禁用参数检查\n  - 从内存中采样数据时，将 PyTorch 的 `BatchSampler` 替换为 Python 切片\n\n### 变更（破坏性更改：代码风格）\n- 使用 Black 代码格式化工具对代码进行格式化（虽然看起来不太美观，但确实有效）\n\n### 修复\n- 将 DQN、DDQN、DDPG（RNN）、TD3（RNN）、SAC 和 SAC（RNN）的批量采样移至梯度更新循环内部\n- 修复 JAX 中复合 Gymnasium 空间的模型状态字典初始化问题\n- 为高斯模型实例化器添加缺失的 `reduction` 参数\n- 在 JAX 实现中集成 Optax 学习率调度器\n- 修复 Isaac Lab 包装器在 gymnasium 1.0 下多智能体状态获取的问题\n- 在计算“完成”信号（环境重置）时正确处理截断信号\n\n### 移除\n- 从依赖项和源代码中移除 OpenAI Gym (`gym`)。**skrl** 仍将继续支持 gym 环境，只是不再将其作为库的一部分自动安装。若需使用，需手动安装。任何基于 gym 的环境包装器都必须使用 `convert_gym_space` 空间工具函数来进行操作。","2025-01-16T23:23:15",{"id":175,"version":176,"summary_zh":177,"released_at":178},188942,"1.3.0","## [1.3.0] - 2024-09-11\n### 新增\n- 分布式多GPU和多节点训练（JAX实现）\n- 用于在单次程序调用中启动多个进程以进行分布式训练的实用工具（基于JAX）\n- 模型实例化器新增 `return_source` 参数，可获取用于实例化模型的源代码类定义\n- 提供 `Runner` 工具，只需几行代码即可运行训练\u002F评估工作流\n- Isaac Lab 多智能体环境的封装器\n- Google Brax 环境的封装器\n\n### 变更\n- 将KL散度的归约逻辑从PyTorch的 `KLAdaptiveLR` 类中移至每个在分布式运行中使用它的智能体\n- 将PyTorch分布式初始化逻辑从智能体基类中移至机器学习框架配置中\n- 升级模型实例化器实现，支持卷积神经网络层及复杂网络结构，并采用Python动态执行方式实现\n- 更新Isaac Lab环境加载器的参数解析选项，使其与Isaac Lab版本保持一致\n- 允许以原始维度存储张量\u002F数组于内存中，并将其设为默认选项\n\n### 变更（破坏性变更）\n- 在单智能体和多智能体环境封装器中解耦观测空间和状态空间，并新增 `state` 方法用于获取环境状态\n- 简化多智能体环境封装器API，移除共享空间相关的属性和方法\n\n### 修复\n- 在 `TensorboardFileIterator` 后处理工具中捕获TensorBoard摘要迭代器异常\n- 修复上一版本引入的Isaac Gym（预览版）、DeepMind及向量化Gymnasium环境的自动封装检测问题\n- 修复向量化\u002F并行环境在多次调用 `reset` 方法时返回值不正确的问题\n- 修复启用JAX-NumPy后端时IPPO和MAPPO的 `act` 方法返回值错误的问题","2024-09-11T18:32:01",{"id":180,"version":181,"summary_zh":182,"released_at":183},188943,"1.2.0","## [1.2.0] - 2024-06-23\n### 新增\n- 定义 `environment_info` 训练器配置，用于记录环境信息（PyTorch 实现）\n- 添加自动计算写日志和检查点间隔的支持，并将其设为默认选项\n- 共享模型中的单次前向传播\n- 分布式多 GPU 和多节点训练（PyTorch 实现）\n\n### 变更\n- 更新与 Orbit 相关的源代码和文档，以适配 Isaac Lab\n\n### 修复\n- 将 DDPG 和 TD3 的批量采样逻辑移至梯度更新循环内部\n- 在指定设备上执行 JAX 计算","2024-06-24T03:39:44",{"id":185,"version":186,"summary_zh":187,"released_at":188},188944,"1.1.0","## [1.1.0] - 2024-02-12\r\n### 新增\r\n- MultiCategorical 混入类，用于操作 MultiDiscrete 动作空间\r\n\r\n### 变更（破坏性变更）\r\n- 将 `ManualTrainer` 重命名为 `StepTrainer`\r\n- 将训练\u002F评估进度消息输出到系统的 stdout\r\n- 为向量化环境获取单个观测\u002F动作空间\r\n- 更新 Isaac Orbit 环境包装器","2024-02-13T04:21:41",{"id":190,"version":191,"summary_zh":192,"released_at":193},188945,"1.0.0","## [1.0.0] - 2023-08-16\n\n从预发布版本（`1.0.0-rc.1` 和 `1.0.0-rc.2`）过渡到稳定版本。\n\n本次发布还宣布了 **skrl** 论文已在《机器学习研究期刊》（JMLR）上发表： \u003Cbr> https:\u002F\u002Fwww.jmlr.org\u002Fpapers\u002Fv24\u002F23-0112.html\n\n最相关功能概览：\n- JAX 支持\n- 新的文档主题和结构\n- 多智能体强化学习（MARL）","2023-08-16T13:01:23",{"id":195,"version":196,"summary_zh":197,"released_at":198},188946,"1.0.0-rc.2","## [1.0.0-rc.2] - 2023-08-11\r\n### 新增\r\n- 从 Isaac Gym、Isaac Orbit 和 Omniverse Isaac Gym 环境的 `time_outs` 信息中获取截断标志\r\n- 在策略梯度演员-评论家算法中实现时限（截断）bootstrapping\r\n- 为模型实例化器添加 `initial_log_std` 参数，用于设置对数标准差的初始值\r\n\r\n### 变更\r\n- 统一环境加载器和包装器文件的目录结构 [**破坏性变更**]\r\n- 停止支持 PyTorch 1.9 之前的版本（1.8.0 和 1.8.1）","2023-08-11T17:00:59",{"id":200,"version":201,"summary_zh":202,"released_at":203},188947,"1.0.0-rc.1","## [1.0.0-rc.1] - 2023-07-25\r\n### Added\r\n- JAX support (with Flax and Optax)\r\n- RPO agent\r\n- IPPO and MAPPO multi-agent\r\n- Multi-agent base class\r\n- Bi-DexHands environment loader\r\n- Wrapper for PettingZoo and Bi-DexHands environments\r\n- Parameters `num_envs`, `headless` and `cli_args` for configuring Isaac Gym, Isaac Orbit\r\nand Omniverse Isaac Gym environments when they are loaded\r\n\r\n### Changed\r\n- Migrate to `pyproject.toml` Python package development\r\n- Define ML framework dependencies as optional dependencies in the library installer\r\n- Move agent implementations with recurrent models to a separate file\r\n- Allow closing the environment at the end of execution instead of after training\u002Fevaluation\r\n- Documentation theme from *sphinx_rtd_theme* to *furo*\r\n- Update documentation structure and examples\r\n\r\n### Fixed\r\n- Compatibility for Isaac Sim or OmniIsaacGymEnvs (2022.2.0 or earlier)\r\n- Disable PyTorch gradient computation during the environment stepping\r\n- Get categorical models' entropy\r\n- Typo in `KLAdaptiveLR` learning rate scheduler\r\n  (keep the old name for compatibility with the examples of previous versions.\r\n  The old name will be removed in future releases)","2023-07-25T10:13:26",{"id":205,"version":206,"summary_zh":207,"released_at":208},188948,"0.10.2","## [0.10.2] - 2023-03-23\r\n### Changed\r\n- Update loader and utils for OmniIsaacGymEnvs 2022.2.1.0\r\n- Update Omniverse Isaac Gym real-world examples","2023-03-23T22:12:17",{"id":210,"version":211,"summary_zh":212,"released_at":213},188949,"0.10.1","## [0.10.1] - 2023-01-26\r\n### Fixed\r\n- Tensorboard writer instantiation when `write_interval` is zero","2023-01-30T10:14:51",{"id":215,"version":216,"summary_zh":217,"released_at":218},188950,"0.10.0","## [0.10.0] - 2023-01-22\r\n### Added\r\n- Isaac Orbit environment loader\r\n- Wrap an Isaac Orbit environment\r\n- Gaussian-Deterministic shared model instantiator","2023-01-22T15:33:44",{"id":220,"version":221,"summary_zh":222,"released_at":223},188951,"0.9.1","## [0.9.1] - 2023-01-17\r\n### Added\r\n- Utility for downloading models from Hugging Face Hub\r\n\r\n### Fixed\r\n- Initialization of agent components if they have not been defined\r\n- Manual trainer `train`\u002F`eval` method default arguments","2023-01-17T14:09:30",{"id":225,"version":226,"summary_zh":227,"released_at":228},188952,"0.9.0","## [0.9.0] - 2023-01-13\r\n### Added\r\n- Support for Farama Gymnasium interface\r\n- Wrapper for robosuite environments\r\n- Weights & Biases integration (by @juhannc)\r\n- Set the running mode (training or evaluation) of the agents\r\n- Allow clipping the gradient norm for DDPG, TD3 and SAC agents\r\n- Initialize model biases\r\n- Add RNN (RNN, LSTM, GRU and any other variant) support for A2C, DDPG, PPO, SAC, TD3 and TRPO agents\r\n- Allow disabling training\u002Fevaluation progressbar\r\n- Farama Shimmy and robosuite examples\r\n- KUKA LBR iiwa real-world example\r\n\r\n### Changed\r\n- Forward model inputs as a Python dictionary [**breaking change**]\r\n- Returns a Python dictionary with extra output values in model calls [**breaking change**]\r\n- Adopt the implementation of `terminated` and `truncated` over `done` for all environments\r\n\r\n### Fixed\r\n- Omniverse Isaac Gym simulation speed for the Franka Emika real-world example\r\n- Call agents' method `record_transition` instead of parent method\r\nto allow storing samples in memories during evaluation\r\n- Move TRPO policy optimization out of the value optimization loop\r\n- Access to the categorical model distribution\r\n- Call reset only once for Gym\u002FGymnasium vectorized environments\r\n\r\n### Removed\r\n- Deprecated method `start` in trainers","2023-01-13T18:00:08",{"id":230,"version":231,"summary_zh":232,"released_at":233},188953,"0.8.0","## [0.8.0] - 2022-10-03\r\n### Added\r\n- AMP agent for physics-based character animation\r\n- Manual trainer\r\n- Gaussian model mixin\r\n- Support for creating shared models\r\n- Parameter `role` to model methods\r\n- Wrapper compatibility with the new OpenAI Gym environment API (by @JohannLange)\r\n- Internal library colored logger\r\n- Migrate checkpoints\u002Fmodels from other RL libraries to skrl models\u002Fagents\r\n- Configuration parameter `store_separately` to agent configuration dict\r\n- Save\u002Fload agent modules (models, optimizers, preprocessors)\r\n- Set random seed and configure deterministic behavior for reproducibility\r\n- Benchmark results for Isaac Gym and Omniverse Isaac Gym on the GitHub discussion page\r\n- Franka Emika real-world example\r\n\r\n### Changed\r\n- Models implementation as Python mixin [**breaking change**]\r\n- Multivariate Gaussian model (`GaussianModel` until 0.7.0) to `MultivariateGaussianMixin`\r\n- Trainer's `cfg` parameter position and default values\r\n- Show training\u002Fevaluation display progress using `tqdm` (by @JohannLange)\r\n- Update Isaac Gym and Omniverse Isaac Gym examples\r\n\r\n### Fixed\r\n- Missing recursive arguments during model weights initialization\r\n- Tensor dimension when computing preprocessor parallel variance\r\n- Models' clip tensors dtype to `float32`\r\n\r\n### Removed\r\n- Parameter `inference` from model methods\r\n- Configuration parameter `checkpoint_policy_only` from agent configuration dict","2022-10-03T10:26:09",{"id":235,"version":236,"summary_zh":237,"released_at":238},188954,"0.7.0","## [0.7.0] - 2022-07-11\r\n### Added\r\n- A2C agent\r\n- Isaac Gym (preview 4) environment loader\r\n- Wrap an Isaac Gym (preview 4) environment\r\n- Support for OpenAI Gym vectorized environments\r\n- Running standard scaler for input preprocessing\r\n- Installation from PyPI (`pip install skrl`)","2022-07-11T22:05:11"]