[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-agi-brain--xuance":3,"tool-agi-brain--xuance":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":77,"languages":78,"stars":83,"forks":84,"last_commit_at":85,"license":86,"difficulty_score":32,"env_os":87,"env_gpu":88,"env_ram":89,"env_deps":90,"category_tags":101,"github_topics":103,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":123,"updated_at":124,"faqs":125,"releases":160},6281,"agi-brain\u002Fxuance","xuance","XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library","XuanCe（玄策）是一个全面且统一的深度强化学习开源库，旨在提供高质量、易理解的算法实现。其名字寓意深刻：“玄”代表强化学习中因超参数敏感和训练不稳定而显得神秘莫测的特性，“策”则指代智能策略。XuanCe 致力于揭开这些“魔法”，帮助开发者更轻松地掌握强化学习核心原理。\n\n该工具主要解决了深度强化学习算法复现难、调参复杂以及不同框架间兼容性差的问题。它支持 PyTorch、TensorFlow 和 MindSpore 三大主流深度学习后端，并兼容 CPU 与多 GPU 分布式训练，打破了框架壁垒。此外，XuanCe 不仅涵盖丰富的单智能体（DRL）算法，还支持多智能体（MARL）任务，内置并行环境加速与自动超参数调优功能，显著提升了训练效率与稳定性。\n\nXuanCe 非常适合人工智能研究人员、算法工程师及高校师生使用。无论是希望快速验证新想法的研究者，还是想要系统学习强化学习的开发者，都能通过其高度模块化的设计和详尽的文档轻松上手。凭借灵活的模型组合能力与跨平台特性，XuanCe 正逐渐成为一个算法丰富、生态开放的强化学习“动物园”，助力用户高效探索智能决策的前沿技术。","\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_428c5b3d910e.png\" width=\"400\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n# XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library\n\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fxuance)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fxuance\u002F)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_13d664e1afd7.png)](https:\u002F\u002Fxuance.readthedocs.io)\n[![GitHub](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fagi-brain\u002Fxuance)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fblob\u002Fmaster\u002FLICENSE.txt)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_e47afd5f2578.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fxuance)\n[![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fagi-brain\u002Fxuance?style=social)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fstargazers)\n[![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fagi-brain\u002Fxuance?style=social)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fforks)\n[![GitHub watchers](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fwatchers\u002Fagi-brain\u002Fxuance?style=social)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fwatchers)\n\n[![PyTorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-%3E%3D1.13.0-red)](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n[![TensorFlow](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTensorFlow-%3E%3D2.6.0-orange)](https:\u002F\u002Fwww.tensorflow.org\u002Finstall)\n[![MindSpore](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMindSpore-%3E%3D1.10.1-blue)](https:\u002F\u002Fwww.mindspore.cn\u002Finstall\u002Fen)\n[![gymnasium](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fgymnasium-%3E%3D0.28.1-blue)](https:\u002F\u002Fwww.gymlibrary.dev\u002F)\n[![pettingzoo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPettingZoo-%3E%3D1.23.0-blue)](https:\u002F\u002Fpettingzoo.farama.org\u002F)\n![PyPI - Python Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Fxuance)\n\n[![Benchmarks](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBenchmarks-Results-blue)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance-benchmarks.git)\n\n**[Full Documentation](https:\u002F\u002Fxuance.org)**\n| **[中文文档](https:\u002F\u002Fcn.xuance.org)**\n| **[README_CN.md](README_CN.md)**\n\n**XuanCe** is an open-source ensemble of Deep Reinforcement Learning (DRL) algorithm implementations.\n\nWe call it as **Xuan-Ce (玄策)** in Chinese.\n\"**Xuan (玄)**\" means incredible and magic box, \"**Ce (策)**\" means policy.\n\nDRL algorithms are sensitive to hyper-parameters tuning, varying in performance with different tricks,\nand suffering from unstable training processes, therefore, sometimes DRL algorithms seems elusive and \"Xuan\".\nThis project gives a thorough, high-quality and easy-to-understand implementation of DRL algorithms,\nand hope this implementation can give a hint on the magics of reinforcement learning.\n\nWe expect it to be compatible with multiple deep learning backends(\n**[PyTorch](https:\u002F\u002Fpytorch.org\u002F)**,\n**[TensorFlow](https:\u002F\u002Fwww.tensorflow.org\u002F)**, and\n**[MindSpore](https:\u002F\u002Fwww.mindspore.cn\u002Fen)**),\nand hope it can really become a zoo full of DRL algorithms.\n\n**Paper link**: [**https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.16248.pdf**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.16248.pdf)\n\n## Table of Contents:\n\n- [**Features**](#features)\n- [**Algorithms**](#algorithms)\n- [**Environments**](#environments)\n- [**Installation**](#point_right-installation)\n- [**Quickly Start**](#point_right-quickly-start)\n- [**Community**](#community)\n- [**Citation**](#citations)\n\n## Features\n\n- :school_satchel: Highly modularized.\n- :thumbsup: Easy to [learn](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002F), easy for [installation](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fusage\u002Finstallation.html), and easy for [usage](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fusage\u002Fbasic_usage.html).\n- :twisted_rightwards_arrows: Flexible for model combination.\n- :tada: Abundant [algorithms](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002F#list-of-algorithms) with various tasks.\n- :couple: Supports both DRL and MARL tasks.\n- :key: High compatibility for different users. (PyTorch, TensorFlow2, MindSpore, CPU, GPU, Linux, Windows, MacOS, etc.)\n- :zap: Fast running speed with parallel environments.\n- :computer: Distributed training with multi-GPUs.\n- 🎛️ Support automatically hyperparameters tuning.\n- :chart_with_upwards_trend: Good visualization effect with [tensorboard](https:\u002F\u002Fwww.tensorflow.org\u002Ftensorboard) or [wandb](https:\u002F\u002Fwandb.ai\u002Fsite) tool.\n\n## Algorithms\n\n### :point_right: DRL\n\n- **DQN**: Deep Q Network [[Paper](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fnature14236)]\n- **Double DQN**: DQN with Double Q-learning [[Paper](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F10295)]\n- **Dueling DQN**: DQN with Dueling Network [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv48\u002Fwangf16.pdf)]\n- **PER**: DQN with Prioritized Experience Replay [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1511.05952.pdf)]\n- **NoisyDQN**: DQN with Parameter Space Noise for Exploration [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.01905.pdf)]\n- **DRQN**: Deep Recurrent Q-Network [[Paper](https:\u002F\u002Fcdn.aaai.org\u002Focs\u002F11673\u002F11673-51288-1-PB.pdf)]\n- **QRDQN**: DQN with Quantile Regression [[Paper](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F11791)]\n- **C51**: Distributional Reinforcement Learning [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv70\u002Fbellemare17a\u002Fbellemare17a.pdf)]\n- **PG**: Vanilla Policy Gradient [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F1999\u002Ffile\u002F464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf)]\n- **NPG**: Natural Policy Gradient [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2001\u002Ffile\u002F4b86abe48d358ecf194c56c69108433e-Paper.pdf)]\n- **PPG**: Phasic Policy Gradient [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv139\u002Fcobbe21a\u002Fcobbe21a.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fphasic-policy-gradient)]\n- **A2C**: Advantage Actor Critic [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv48\u002Fmniha16.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fbaselines\u002Ftree\u002Fmaster\u002Fbaselines\u002Fa2c)]\n- **SAC**: Soft Actor-Critic [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fhaarnoja18b\u002Fhaarnoja18b.pdf)] [[Code](http:\u002F\u002Fgithub.com\u002Fhaarnoja\u002Fsac)]\n- **SAC-Discrete**: Soft Actor-Critic for Discrete Actions [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.07207.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch)]\n- **PPO-Clip**: Proximal Policy Optimization with Clipped Objective [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.06347.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fberkeleydeeprlcourse\u002Fhomework\u002Ftree\u002Fmaster\u002Fhw4)]\n- **PPO-KL**: Proximal Policy Optimization with KL Divergence [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.06347.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fberkeleydeeprlcourse\u002Fhomework\u002Ftree\u002Fmaster\u002Fhw4)]\n- **DDPG**: Deep Deterministic Policy Gradient [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1509.02971.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fbaselines\u002Ftree\u002Fmaster\u002Fbaselines\u002Fddpg)]\n- **TD3**: Twin Delayed Deep Deterministic Policy Gradient [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Ffujimoto18a\u002Ffujimoto18a.pdf)][[Code](https:\u002F\u002Fgithub.com\u002Fsfujim\u002FTD3)]\n- **P-DQN**: Parameterised Deep Q-Network [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.06394.pdf)]\n- **MP-DQN**: Multi-pass Parameterised Deep Q-network [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.04388.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fcycraig\u002FMP-DQN)]\n- **SP-DQN**: Split Parameterised Deep Q-Network [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.06394.pdf)]\n\n### :point_right: Model-Based Reinforcement Learning (MBRL)\n\n- **DreamerV2** [[Paper](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0oabwyZbOu)] [[Code](https:\u002F\u002Fgithub.com\u002Fdanijar\u002Fdreamerv2.git)]\n- **DreamerV3** [[Paper](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-025-08744-2.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fdanijar\u002Fdreamerv3.git)]\n- **HarmonyDream** [[Paper](https:\u002F\u002Fproceedings.mlr.press\u002Fv235\u002Fma24o.html)] [[Code](https:\u002F\u002Fgithub.com\u002Fthuml\u002FHarmonyDream.git)]\n\n### :point_right: Multi-Agent Reinforcement Learning (MARL)\n\n- **IQL**: Independent Q-learning [[Paper](https:\u002F\u002Fhal.science\u002Ffile\u002Findex\u002Fdocid\u002F720669\u002Ffilename\u002FMatignon2012independent.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **VDN**: Value Decomposition Networks [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.05296.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **QMIX**: Q-mixing networks [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Frashid18a\u002Frashid18a.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **WQMIX**: Weighted Q-mixing networks [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Ffile\u002F73a427badebe0e32caa2e1fc7530b7f3-Paper.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fwqmix)]\n- **QTRAN**: Q-transformation [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv97\u002Fson19a\u002Fson19a.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002FSonkyunghwan\u002FQTRAN)]\n- **DCG**: Deep Coordination Graphs [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv119\u002Fboehmer20a\u002Fboehmer20a.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fwendelinboehmer\u002Fdcg)]\n- **IDDPG**: Independent Deep Deterministic Policy Gradient [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2017\u002Ffile\u002F68a9750337a418a86fe06c1991a1d64c-Paper.pdf)]\n- **MADDPG**: Multi-agent Deep Deterministic Policy Gradient [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2017\u002Ffile\u002F68a9750337a418a86fe06c1991a1d64c-Paper.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmaddpg)]\n- **IAC**: Independent Actor-Critic [[Paper](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F11794)] [[Code](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **COMA**: Counterfactual Multi-agent Policy Gradient [[Paper](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F11794)] [[Code](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **VDAC**: Value-Decomposition Actor-Critic [[Paper](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F17353)] [[Code](https:\u002F\u002Fgithub.com\u002Fhahayonghuming\u002FVDACs.git)]\n- **IPPO**: Independent Proximal Policy Optimization [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2022\u002Ffile\u002F9c1535a02f0ce079433344e14d910597-Paper-Datasets_and_Benchmarks.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fmarlbenchmark\u002Fon-policy)]\n- **MAPPO**: Multi-agent Proximal Policy Optimization [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2022\u002Ffile\u002F9c1535a02f0ce079433344e14d910597-Paper-Datasets_and_Benchmarks.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fmarlbenchmark\u002Fon-policy)]\n- **MFQ**: Mean-Field Q-learning [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fyang18d\u002Fyang18d.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fmlii\u002Fmfrl)]\n- **MFAC**: Mean-Field Actor-Critic [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fyang18d\u002Fyang18d.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002Fmlii\u002Fmfrl)]\n- **ISAC**: Independent Soft Actor-Critic\n- **MASAC**: Multi-agent Soft Actor-Critic [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.06655.pdf)]\n- **MATD3**: Multi-agent Twin Delayed Deep Deterministic Policy Gradient [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.01465.pdf)]\n- **IC3Net**: Individualized Controlled Continuous Communication Model [[Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.09755)] [[Code](https:\u002F\u002Fgithub.com\u002FIC3Net\u002FIC3Net.git)]\n- **CommNet**: Communication Neural Net [[Paper](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2016\u002Ffile\u002F55b1927fdafef39c48e5b73b5d61ea60-Paper.pdf)][[Code](https:\u002F\u002Fgithub.com\u002Fcts198859\u002Fdeeprl_network.git)]\n\n### :point_right: Contrastive Reinforcement Learning (CRL)\n\n- **CURL**: Contrastive Unsupervised Representation Learning for Sample-Efficient Reinforcement Learning [[Paper](http:\u002F\u002Fproceedings.mlr.press\u002Fv119\u002Flaskin20a\u002Flaskin20a.pdf)] [[Code](https:\u002F\u002Fgithub.com\u002FMishaLaskin\u002Fcurl\u002Fblob\u002Fmaster\u002Fcurl_sac.py)]\n- **SPR**: Data-Efficient Reinforcement Learning with Self-Predictive Representations [[Paper]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.05929) [[Code]](https:\u002F\u002Fgithub.com\u002Fmila-iqia\u002Fspr)\n- **DrQ**: Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels [[Paper]](https:\u002F\u002Fopenreview.net\u002Fforum?id=GY6-6sTvGaf) [[Code]](https:\u002F\u002Fsites.google.com\u002Fview\u002Fdata-regularized-q)\n\n## Environments\n\n### [Classic Control](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#classic-control)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b5754c09c054.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Cart Pole\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_faf640593805.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Pendulum\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b9ca34ae76c8.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Acrobot\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_76a6f32351fc.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">MountainCar\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftable>\n\n### [Box2D](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#box2d)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_3832e5f5562f.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Bipedal Walker\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_035a0fb10c48.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Car Racing\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b75abeb433d3.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Lunar Lander\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [MuJoCo Environments](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#mujoco)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_6da20a115450.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Ant\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_5df0c5fade14.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">HalfCheetah\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_c8d0a93ba08d.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Hopper\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_581060550e00.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">HumanoidStandup\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_8d2547932367.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Humanoid\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_283111dde5cc.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">InvertedPendulum\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [Atari Environments](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#atari)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_774df2cc9193.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Adventure\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_567b8fd5bcc0.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Air Raid\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_7c6b57c787e3.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Alien\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_5d675a288d57.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Amidar\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_52ae0244f99f.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Assault\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_0d0e7781126d.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Asterix\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_2a2e7c232e15.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Asteroids\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [Minigrid Environments](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fminigrid.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_86ffacf0bce0.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">GoToDoorEnv\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_ecc1e29bf5d0.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">LockedRoomEnv\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_a04cf12f541f.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">MemoryEnv\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_bc0d3db36b41.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">PlaygroundEnv\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [Drones Environments](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Fdrones.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_0804407648d0.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Helix\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_d857c8e7ec7b.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Single-Agent Hover\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_a2263905dca6.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Multi-Agent Hover\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [MetaDrive](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fmetadrive.html)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_653c7a68dcc9.gif\" width=\"auto\" height=\"120\" align=center \u002F>\n\u003C\u002Fdiv>\n\n### [MPE Environments](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Fmpe.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_7e82b6c86fbb.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Simple Push\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_d19cb00e36db.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Simple Reference\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b5ae00e38469.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Simple Spread\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b0284afd7c94.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Simple Adversary\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [Robotic Warehouse](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Frobotic_warehouse.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_17a4247c2d64.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Example 1\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_12e361845913.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Example 2\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b2ced859b1b1.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Example 3\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_2f068dc8ee33.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Example 4\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [SMAC](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Fsmac.html)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_342de77b56ef.png\" width=\"715\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n### [Google Research Football](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Ffootball.html)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_3e2f7047f039.png\" width=\"720\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n## :point_right: Installation\n\n:computer: XuanCe can run at Linux, Windows, MacOS, and EulerOS, etc.\n\n**Step 1**: Set up a Python environment\n\nWe recommend installing [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload) to manage your Python environment.\n(You can also download a specific Anaconda installer from [**here**](https:\u002F\u002Frepo.anaconda.com\u002Farchive\u002F).)\n\nThen open a terminal and create\u002Factivate a new conda environment (Python >= 3.8 is recommended):\n\n```bash\nconda create -n xuance_env python=3.8 && conda activate xuance_env\n```\n\n**Step 2**: Install XuanCe\n\n```bash\npip install xuance\n```\n\nThis command does not include the dependencies of deep learning backends. To install the **XuanCe** with\ndeep learning tools, you can type `pip install xuance[torch]` for [PyTorch](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F),\n`pip install xuance[tensorflow]` for [TensorFlow2](https:\u002F\u002Fwww.tensorflow.org\u002Finstall),\n`pip install xuance[mindspore]` for [MindSpore](https:\u002F\u002Fwww.mindspore.cn\u002Finstall\u002Fen),\nand `pip install xuance[all]` for all dependencies.\n\nNote: Some extra packages should be installed manually for further usage.\nClick [**here**](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fusage\u002Finstallation.html) to see more details for installation.\n\n## :point_right: Quickly Start\n\n### Train a Model\n\n```python\nimport xuance\n\nrunner = xuance.get_runner(algo='ppo',\n                           env='classic_control',\n                           env_id='CartPole-v1')\nrunner.run(mode='train')\n```\n\n### Test the Model\n\n```python\nimport xuance\n\nrunner = xuance.get_runner(algo='ppo',\n                           env='classic_control',\n                           env_id='CartPole-v1')\nrunner.run(mode='test')\n```\n\n### Visualize the results\n\n#### Tensorboard\n\nYou can use tensorboard to visualize what happened in the training process. After training, the log file will be\nautomatically generated in the directory \".results\u002F\" and you should be able to see some training data after running the\ncommand.\n\n```\n$ tensorboard --logdir .\u002Flogs\u002Fdqn\u002Ftorch\u002FCartPole-v0\n```\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_db7db993ad94.png\" width=\"700\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n#### Weights & Biases (wandb)\n\nXuanCe also supports Weights & Biases (wandb) tools for users to visualize the results of the running implementation.\n\nHow to use wandb online? :arrow_right: [https:\u002F\u002Fgithub.com\u002Fwandb\u002Fwandb.git\u002F](https:\u002F\u002Fgithub.com\u002Fwandb\u002Fwandb.git\u002F)\n\nHow to use wandb offline? :arrow_right: [https:\u002F\u002Fgithub.com\u002Fwandb\u002Fserver.git\u002F](https:\u002F\u002Fgithub.com\u002Fwandb\u002Fserver.git\u002F)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_d8fceb0a0610.png\" width=\"700\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n\u003C!-- If everything going well, you should get a similar display like below. \n\n![Tensorboard](docs\u002Fsource\u002Ffigures\u002Fdebug.png) -->\n\n## Benchmarks\n\nXuanCe provides an official benchmark pipeline for evaluating DRL and MARL algorithms.\n\nTo avoid increasing the size of the main repository,\n**official benchmark results (including evaluation curves, summary tables, and pretrained models)**\nare maintained in a separate repository:\n\n👉 **https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance-benchmarks**\n\nUsers can either:\n\n- Run benchmarks locally using the provided pipeline, or\n- Directly inspect and reuse the official benchmark results without rerunning experiments.\n\n## Community\n\n- GitHub issues: [https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues)\n- Github discussions: [https:\u002F\u002Fgithub.com\u002Forgs\u002Fagi-brain\u002Fdiscussions](https:\u002F\u002Fgithub.com\u002Forgs\u002Fagi-brain\u002Fdiscussions)\n- Discord invite link: [https:\u002F\u002Fdiscord.gg\u002FHJn2TBQS7y](https:\u002F\u002Fdiscord.gg\u002FHJn2TBQS7y)\n- Slack invite link: [https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fxuancerllib\u002F](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fxuancerllib\u002Fshared_invite\u002Fzt-2x2r98msi-iMX6mSVcgWwXYj95abcXIw)\n- QQ App's group number: 552432695, 153966755\n- WeChat account: \"玄策 RLlib\"\n\n(Note: You can also post your questions on [Stack Overflow](https:\u002F\u002Fstackoverflow.com\u002F).)\n\n\u003Cdetails open>\n\u003Csummary>(QR code for QQ group and WeChat official account)\u003C\u002Fsummary>\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_2086e1187ec7.jpg\" width=\"150\" height=\"auto\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">QQ group 1\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_7c4389ce2c4b.jpg\" width=\"150\" height=\"auto\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">QQ group 2\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_66547e6360a7.jpg\" width=\"150\" height=\"auto\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Official account (WeChat)\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n## Citations\n\nIf you use XuanCe in your research or development, please cite the paper:\n\n```\n@article{liu2023xuance,\n  title={XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library},\n  author={Liu, Wenzhang and Cai, Wenzhe and Jiang, Kun and Cheng, Guangran and Wang, Yuanda and Wang, Jiawei and Cao, Jingyu and Xu, Lele and Mu, Chaoxu and Sun, Changyin},\n  journal={arXiv preprint arXiv:2312.16248},\n  year={2023}\n}\n```\n","\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_428c5b3d910e.png\" width=\"400\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n# XuanCe：全面且统一的深度强化学习库\n\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fxuance)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fxuance\u002F)\n[![文档状态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_13d664e1afd7.png)](https:\u002F\u002Fxuance.readthedocs.io)\n[![GitHub](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fagi-brain\u002Fxuance)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fblob\u002Fmaster\u002FLICENSE.txt)\n[![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_e47afd5f2578.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fxuance)\n[![GitHub 项目星标数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fagi-brain\u002Fxuance?style=social)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fstargazers)\n[![GitHub 分支数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fagi-brain\u002Fxuance?style=social)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fforks)\n[![GitHub 监视者数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fwatchers\u002Fagi-brain\u002Fxuance?style=social)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fwatchers)\n\n[![PyTorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-%3E%3D1.13.0-red)](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n[![TensorFlow](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTensorFlow-%3E%3D2.6.0-orange)](https:\u002F\u002Fwww.tensorflow.org\u002Finstall)\n[![MindSpore](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMindSpore-%3E%3D1.10.1-blue)](https:\u002F\u002Fwww.mindspore.cn\u002Finstall\u002Fen)\n[![gymnasium](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fgymnasium-%3E%3D0.28.1-blue)](https:\u002F\u002Fwww.gymlibrary.dev\u002F)\n[![pettingzoo](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPettingZoo-%3E%3D1.23.0-blue)](https:\u002F\u002Fpettingzoo.farama.org\u002F)\n![PyPI - Python 版本](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Fxuance)\n\n[![基准测试](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBenchmarks-Results-blue)](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance-benchmarks.git)\n\n**[完整文档](https:\u002F\u002Fxuance.org)**\n| **[中文文档](https:\u002F\u002Fcn.xuance.org)**\n| **[README_CN.md](README_CN.md)**\n\n**XuanCe** 是一个开源的深度强化学习（DRL）算法集合。\n\n我们将其命名为中文名“玄策”。“玄”意为不可思议、神奇之盒，“策”意为策略。\n\nDRL 算法对超参数调优非常敏感，不同的技巧会带来性能差异，且训练过程往往不稳定。因此，DRL 算法有时显得难以捉摸，仿佛充满“玄机”。本项目提供了全面、高质量且易于理解的 DRL 算法实现，希望能为读者揭示强化学习的奥秘。\n\n我们期望该库能够兼容多种深度学习后端（**PyTorch**、**TensorFlow** 和 **MindSpore**），并真正成为一个丰富的 DRL 算法库。\n\n**论文链接**: [**https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.16248.pdf**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.16248.pdf)\n\n## 目录：\n\n- [**特性**](#features)\n- [**算法**](#algorithms)\n- [**环境**](#environments)\n- [**安装**](#point_right-installation)\n- [**快速开始**](#point_right-quickly-start)\n- [**社区**](#community)\n- [**引用**](#citations)\n\n## 特性\n\n- :school_satchel: 高度模块化。\n- :thumbsup: 易于[学习](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002F)、[安装](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fusage\u002Finstallation.html)和[使用](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fusage\u002Fbasic_usage.html)。\n- :twisted_rightwards_arrows: 模型组合灵活。\n- :tada: 丰富的[算法](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002F#list-of-algorithms)，涵盖多种任务。\n- :couple: 同时支持单智能体和多智能体强化学习任务。\n- :key: 对不同用户具有高度兼容性。（PyTorch、TensorFlow2、MindSpore、CPU、GPU、Linux、Windows、MacOS 等）\n- :zap: 利用并行环境实现快速运行。\n- :computer: 支持多 GPU 分布式训练。\n- 🎛️ 支持自动超参数调优。\n- :chart_with_upwards_trend: 可与 [tensorboard](https:\u002F\u002Fwww.tensorflow.org\u002Ftensorboard) 或 [wandb](https:\u002F\u002Fwandb.ai\u002Fsite) 工具结合，提供良好的可视化效果。\n\n## 算法\n\n### :point_right: 单智能体强化学习\n\n- **DQN**: 深度 Q 网络 [[论文](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fnature14236)]\n- **Double DQN**: 带双 Q 学习的 DQN [[论文](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F10295)]\n- **Dueling DQN**: 带决斗网络的 DQN [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv48\u002Fwangf16.pdf)]\n- **PER**: 带优先经验回放的 DQN [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1511.05952.pdf)]\n- **NoisyDQN**: 带参数空间噪声以促进探索的 DQN [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.01905.pdf)]\n- **DRQN**: 深度循环 Q 网络 [[论文](https:\u002F\u002Fcdn.aaai.org\u002Focs\u002F11673\u002F11673-51288-1-PB.pdf)]\n- **QRDQN**: 带分位数回归的 DQN [[论文](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F11791)]\n- **C51**: 分布式强化学习 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv70\u002Fbellemare17a\u002Fbellemare17a.pdf)]\n- **PG**: 原始策略梯度 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F1999\u002Ffile\u002F464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf)]\n- **NPG**: 自然策略梯度 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2001\u002Ffile\u002F4b86abe48d358ecf194c56c69108433e-Paper.pdf)]\n- **PPG**: 瞬态策略梯度 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv139\u002Fcobbe21a\u002Fcobbe21a.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fphasic-policy-gradient)]\n- **A2C**: 优势演员评论家 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv48\u002Fmniha16.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fbaselines\u002Ftree\u002Fmaster\u002Fbaselines\u002Fa2c)]\n- **SAC**: 软演员评论家 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fhaarnoja18b\u002Fhaarnoja18b.pdf)] [[代码](http:\u002F\u002Fgithub.com\u002Fhaarnoja\u002Fsac)]\n- **SAC-Discrete**: 适用于离散动作的软演员评论家 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.07207.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fp-christ\u002FDeep-Reinforcement-Learning-Algorithms-with-PyTorch)]\n- **PPO-Clip**: 带截断目标的近端策略优化 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.06347.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fberkeleydeeprlcourse\u002Fhomework\u002Ftree\u002Fmaster\u002Fhw4)]\n- **PPO-KL**: 带 KL 散度的近端策略优化 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1707.06347.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fberkeleydeeprlcourse\u002Fhomework\u002Ftree\u002Fmaster\u002Fhw4)]\n- **DDPG**: 深度确定性策略梯度 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1509.02971.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fbaselines\u002Ftree\u002Fmaster\u002Fbaselines\u002Fddpg)]\n- **TD3**: 双延迟深度确定性策略梯度 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Ffujimoto18a\u002Ffujimoto18a.pdf)][[代码](https:\u002F\u002Fgithub.com\u002Fsfujim\u002FTD3)]\n- **P-DQN**: 参数化的深度 Q 网络 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.06394.pdf)]\n- **MP-DQN**: 多通道参数化的深度 Q 网络 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.04388.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fcycraig\u002FMP-DQN)]\n- **SP-DQN**: 分割式参数化的深度 Q 网络 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.06394.pdf)]\n\n### :point_right: 基于模型的强化学习 (MBRL)\n\n- **DreamerV2** [[论文](https:\u002F\u002Fopenreview.net\u002Fpdf?id=0oabwyZbOu)] [[代码](https:\u002F\u002Fgithub.com\u002Fdanijar\u002Fdreamerv2.git)]\n- **DreamerV3** [[论文](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-025-08744-2.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fdanijar\u002Fdreamerv3.git)]\n- **HarmonyDream** [[论文](https:\u002F\u002Fproceedings.mlr.press\u002Fv235\u002Fma24o.html)] [[代码](https:\u002F\u002Fgithub.com\u002Fthuml\u002FHarmonyDream.git)]\n\n### :point_right: 多智能体强化学习 (MARL)\n\n- **IQL**: 独立Q学习 [[论文](https:\u002F\u002Fhal.science\u002Ffile\u002Findex\u002Fdocid\u002F720669\u002Ffilename\u002FMatignon2012independent.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **VDN**: 值分解网络 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.05296.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **QMIX**: Q混合网络 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Frashid18a\u002Frashid18a.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **WQMIX**: 加权Q混合网络 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Ffile\u002F73a427badebe0e32caa2e1fc7530b7f3-Paper.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fwqmix)]\n- **QTRAN**: Q变换 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv97\u002Fson19a\u002Fson19a.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FSonkyunghwan\u002FQTRAN)]\n- **DCG**: 深度协调图 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv119\u002Fboehmer20a\u002Fboehmer20a.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fwendelinboehmer\u002Fdcg)]\n- **IDDPG**: 独立深度确定性策略梯度 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2017\u002Ffile\u002F68a9750337a418a86fe06c1991a1d64c-Paper.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmaddpg)]\n- **MADDPG**: 多智能体深度确定性策略梯度 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2017\u002Ffile\u002F68a9750337a418a86fe06c1991a1d64c-Paper.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fmaddpg)]\n- **IAC**: 独立演员-评论家 [[论文](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F11794)] [[代码](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **COMA**: 反事实多智能体策略梯度 [[论文](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F11794)] [[代码](https:\u002F\u002Fgithub.com\u002Foxwhirl\u002Fpymarl)]\n- **VDAC**: 值分解演员-评论家 [[论文](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F17353)] [[代码](https:\u002F\u002Fgithub.com\u002Fhahayonghuming\u002FVDACs.git)]\n- **IPPO**: 独立近端策略优化 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2022\u002Ffile\u002F9c1535a02f0ce079433344e14d910597-Paper-Datasets_and_Benchmarks.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fmarlbenchmark\u002Fon-policy)]\n- **MAPPO**: 多智能体近端策略优化 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2022\u002Ffile\u002F9c1535a02f0ce079433344e14d910597-Paper-Datasets_and_Benchmarks.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fmarlbenchmark\u002Fon-policy)]\n- **MFQ**: 平均场Q学习 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fyang18d\u002Fyang18d.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fmlii\u002Fmfrl)]\n- **MFAC**: 平均场演员-评论家 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv80\u002Fyang18d\u002Fyang18d.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fmlii\u002Fmfrl)]\n- **ISAC**: 独立软演员-评论家\n- **MASAC**: 多智能体软演员-评论家 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.06655.pdf)]\n- **MATD3**: 多智能体双延迟深度确定性策略梯度 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.01465.pdf)]\n- **IC3Net**: 个体化控制连续通信模型 [[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.09755.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FIC3Net\u002FIC3Net.git)]\n- **CommNet**: 通信神经网络 [[论文](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2016\u002Ffile\u002F55b1927fdafef39c48e5b73b5d61ea60-Paper.pdf)][[代码](https:\u002F\u002Fgithub.com\u002Fcts198859\u002Fdeeprl_network.git)]\n\n### :point_right: 对比强化学习 (CRL)\n\n- **CURL**: 用于高效样本强化学习的对比无监督表征学习 [[论文](http:\u002F\u002Fproceedings.mlr.press\u002Fv119\u002Flaskin20a\u002Flaskin20a.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FMishaLaskin\u002Fcurl\u002Fblob\u002Fmaster\u002Fcurl_sac.py)]\n- **SPR**: 基于自我预测表征的数据高效强化学习 [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.05929)] [[代码](https:\u002F\u002Fgithub.com\u002Fmila-iqia\u002Fspr)]\n- **DrQ**: 图像增强就够了：从像素中正则化深度强化学习 [[论文](https:\u002F\u002Fopenreview.net\u002Fforum?id=GY6-6sTvGaf)] [[代码](https:\u002F\u002Fsites.google.com\u002Fview\u002Fdata-regularized-q)]\n\n## 环境\n\n### [经典控制](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#classic-control)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b5754c09c054.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">小车倒立摆\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_faf640593805.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">单摆\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b9ca34ae76c8.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">双臂机器人\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_76a6f32351fc.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">爬山车\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftable>\n\n### [Box2D](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#box2d)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_3832e5f5562f.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">双足行走者\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_035a0fb10c48.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">赛车\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b75abeb433d3.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">月球着陆器\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [MuJoCo环境](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#mujoco)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_6da20a115450.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">蚂蚁\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_5df0c5fade14.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">半条猎豹\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_c8d0a93ba08d.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">跳跃者\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_581060550e00.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">人形站立\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_8d2547932367.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">人形\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_283111dde5cc.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">倒立摆\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [Atari 环境](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fgym.html#atari)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_774df2cc9193.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Adventure\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_567b8fd5bcc0.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Air Raid\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_7c6b57c787e3.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Alien\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_5d675a288d57.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Amidar\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_52ae0244f99f.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Assault\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_0d0e7781126d.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Asterix\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_2a2e7c232e15.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Asteroids\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [Minigrid 环境](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fminigrid.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_86ffacf0bce0.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">GoToDoorEnv\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_ecc1e29bf5d0.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">LockedRoomEnv\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_a04cf12f541f.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">MemoryEnv\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_bc0d3db36b41.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">PlaygroundEnv\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [无人机环境](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Fdrones.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_0804407648d0.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Helix\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_d857c8e7ec7b.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">单智能体悬停\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_a2263905dca6.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">多智能体悬停\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [MetaDrive](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fsingle_agent_env\u002Fmetadrive.html)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_653c7a68dcc9.gif\" width=\"auto\" height=\"120\" align=center \u002F>\n\u003C\u002Fdiv>\n\n### [MPE 环境](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Fmpe.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_7e82b6c86fbb.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">Simple Push\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_d19cb00e36db.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Simple Reference\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b5ae00e38469.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Simple Spread\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b0284afd7c94.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">Simple Adversary\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [机器人仓库](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Frobotic_warehouse.html)\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_17a4247c2d64.gif\" height=100\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">示例1\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_12e361845913.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">示例2\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_b2ced859b1b1.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">示例3\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_2f068dc8ee33.gif\" height=100\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">示例4\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">...\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### [SMAC](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Fsmac.html)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_342de77b56ef.png\" width=\"715\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n### [Google Research 足球](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fapi\u002Fenvironments\u002Fmulti_agent_env\u002Ffootball.html)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_3e2f7047f039.png\" width=\"720\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n## :point_right: 安装\n\n:computer: XuanCe 可以在 Linux、Windows、MacOS 以及 EulerOS 等操作系统上运行。\n\n**步骤 1**：设置 Python 环境\n\n我们建议安装 [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload) 来管理你的 Python 环境。\n（你也可以从[**这里**](https:\u002F\u002Frepo.anaconda.com\u002Farchive\u002F)下载特定的 Anaconda 安装程序。）\n\n然后打开终端，创建或激活一个新的 conda 环境（推荐使用 Python >= 3.8）：\n\n```bash\nconda create -n xuance_env python=3.8 && conda activate xuance_env\n```\n\n**步骤 2**：安装 XuanCe\n\n```bash\npip install xuance\n```\n\n此命令不包含深度学习后端的依赖项。若要安装带有深度学习工具的 **XuanCe**，可以输入 `pip install xuance[torch]` 用于 [PyTorch](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)，\n`pip install xuance[tensorflow]` 用于 [TensorFlow2](https:\u002F\u002Fwww.tensorflow.org\u002Finstall)，\n`pip install xuance[mindspore]` 用于 [MindSpore](https:\u002F\u002Fwww.mindspore.cn\u002Finstall\u002Fen)，\n而 `pip install xuance[all]` 则会安装所有依赖项。\n\n注意：某些额外的包需要手动安装才能进一步使用。\n点击[**这里**](https:\u002F\u002Fxuance.readthedocs.io\u002Fen\u002Flatest\u002Fdocuments\u002Fusage\u002Finstallation.html)查看更详细的安装说明。\n\n## :point_right: 快速入门\n\n### 训练一个模型\n\n```python\nimport xuance\n\nrunner = xuance.get_runner(algo='ppo',\n                           env='classic_control',\n                           env_id='CartPole-v1')\nrunner.run(mode='train')\n```\n\n### 测试模型\n\n```python\nimport xuance\n\nrunner = xuance.get_runner(algo='ppo',\n                           env='classic_control',\n                           env_id='CartPole-v1')\nrunner.run(mode='test')\n```\n\n### 可视化结果\n\n#### TensorBoard\n\n你可以使用 TensorBoard 来可视化训练过程中的各项指标。训练完成后，日志文件会自动保存在 `.results\u002F` 目录下，运行以下命令后即可查看训练数据。\n\n```\n$ tensorboard --logdir .\u002Flogs\u002Fdqn\u002Ftorch\u002FCartPole-v0\n```\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_db7db993ad94.png\" width=\"700\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n#### Weights & Biases (wandb)\n\nXuanCe 还支持 Weights & Biases（wandb）工具，方便用户可视化运行结果。\n\n如何在线使用 wandb？ :arrow_right: [https:\u002F\u002Fgithub.com\u002Fwandb\u002Fwandb.git\u002F](https:\u002F\u002Fgithub.com\u002Fwandb\u002Fwandb.git\u002F)\n\n如何离线使用 wandb？ :arrow_right: [https:\u002F\u002Fgithub.com\u002Fwandb\u002Fserver.git\u002F](https:\u002F\u002Fgithub.com\u002Fwandb\u002Fserver.git\u002F)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_d8fceb0a0610.png\" width=\"700\" height=\"auto\" align=center \u002F>\n\u003C\u002Fdiv>\n\n\u003C!-- 如果一切顺利，你应该会看到类似下面的显示效果。 \n\n![Tensorboard](docs\u002Fsource\u002Ffigures\u002Fdebug.png) -->\n\n## 基准测试\n\nXuanCe 提供了官方的基准测试流程，用于评估深度强化学习和多智能体强化学习算法。\n\n为了避免主仓库体积过大，\n**官方基准测试结果（包括评估曲线、汇总表格以及预训练模型）**\n被维护在一个独立的仓库中：\n\n👉 **https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance-benchmarks**\n\n用户可以选择：\n\n- 使用提供的流程在本地运行基准测试；或\n- 直接查看并复用官方基准测试结果，无需重新进行实验。\n\n## 社区\n\n- GitHub 问题：[https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues](https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues)\n- GitHub 讨论：[https:\u002F\u002Fgithub.com\u002Forgs\u002Fagi-brain\u002Fdiscussions](https:\u002F\u002Fgithub.com\u002Forgs\u002Fagi-brain\u002Fdiscussions)\n- Discord 邀请链接：[https:\u002F\u002Fdiscord.gg\u002FHJn2TBQS7y](https:\u002F\u002Fdiscord.gg\u002FHJn2TBQS7y)\n- Slack 邀请链接：[https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fxuancerllib\u002F](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fxuancerllib\u002Fshared_invite\u002Fzt-2x2r98msi-iMX6mSVcgWwXYj95abcXIw)\n- QQ 应用群号：552432695、153966755\n- 微信公众号：“玄策 RLlib”\n\n（注：你也可以在 [Stack Overflow](https:\u002F\u002Fstackoverflow.com\u002F) 上提问。）\n\n\u003Cdetails open>\n\u003Csummary>(QQ 群和微信公众号的二维码)\u003C\u002Fsummary>\n\n\u003Ctable rules=\"none\" align=\"center\">\u003Ctr>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_2086e1187ec7.jpg\" width=\"150\" height=\"auto\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">QQ 群 1\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_7c4389ce2c4b.jpg\" width=\"150\" height=\"auto\" \u002F>\u003Cbr\u002F>\u003Cfont color=\"AAAAAA\">QQ 群 2\u003C\u002Ffont>\n\u003C\u002Fcenter>\u003C\u002Ftd>\n\u003Ctd> \u003Ccenter>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_readme_66547e6360a7.jpg\" width=\"150\" height=\"auto\" \u002F> \u003Cbr\u002F> \u003Cfont color=\"AAAAAA\">官方微信公众号\u003C\u002Ffont>\n\u003C\u002Fcenter> \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n## 引用\n\n如果你在研究或开发中使用了 XuanCe，请引用以下论文：\n\n```\n@article{liu2023xuance,\n  title={XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library},\n  author={Liu, Wenzhang and Cai, Wenzhe and Jiang, Kun and Cheng, Guangran and Wang, Yuanda and Wang, Jiawei and Cao, Jingyu and Xu, Lele and Mu, Chaoxu and Sun, Changyin},\n  journal={arXiv preprint arXiv:2312.16248},\n  year={2023}\n}\n```","# XuanCe (玄策) 快速上手指南\n\nXuanCe 是一个全面且统一的深度强化学习（DRL）开源库，支持 PyTorch、TensorFlow 和 MindSpore 多种后端，涵盖单智能体（DRL）、多智能体（MARL）及基于模型的强化学习（MBRL）等多种算法。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux, Windows, 或 MacOS\n*   **Python 版本**: 3.8 - 3.10 (推荐 3.9)\n*   **深度学习框架** (任选其一):\n    *   PyTorch >= 1.13.0\n    *   TensorFlow >= 2.6.0\n    *   MindSpore >= 1.10.1\n*   **环境交互库**:\n    *   Gymnasium >= 0.28.1\n    *   PettingZoo >= 1.23.0 (用于多智能体任务)\n\n> **提示**: 建议先安装好对应的深度学习框架（如 `pip install torch`），XuanCe 会自动检测并适配后端。国内用户可使用清华源或阿里源加速依赖下载。\n\n## 2. 安装步骤\n\n### 方式一：通过 PyPI 安装（推荐）\n\n使用 pip 直接安装最新稳定版：\n\n```bash\npip install xuance\n```\n\n**国内加速安装**（使用清华镜像源）：\n\n```bash\npip install xuance -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 方式二：从源码安装\n\n如果您需要最新开发版功能，可以从 GitHub 克隆源码安装：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance.git\ncd xuance\npip install -e .\n```\n\n## 3. 基本使用\n\nXuanCe 的设计高度模块化，使用流程通常分为：**配置参数** -> **初始化环境** -> **初始化算法** -> **运行训练**。\n\n以下是一个使用 **PPO-Clip** 算法在 **CartPole** 环境中进行训练的最简示例（基于 PyTorch 后端）：\n\n### 代码示例\n\n```python\nimport xuance as xc\nfrom xuance.environment import make_envs\nfrom xuance.agents import PPO_Clip\n\n# 1. 设置超参数 (可以使用字典或加载配置文件)\nargs = {\n    'algorithm': 'PPO-Clip',\n    'env_name': 'CartPole-v1',\n    'n_envs': 8,              # 并行环境数量\n    'batch_size': 64,\n    'n_steps': 2048,          # 每个环境采集步数\n    'gamma': 0.99,\n    'lr': 3e-4,\n    'device': 'cuda:0' if xc.torch.cuda.is_available() else 'cpu',\n    # ... 其他默认参数可参考文档\n}\n\n# 2. 初始化环境\n# make_envs 自动处理 Gymnasium\u002FPettingZoo 接口\nenvs = make_envs(\n    env_name=args['env_name'],\n    n_envs=args['n_envs'],\n    device=args['device']\n)\n\n# 3. 初始化算法模型\nagent = PPO_Clip(\n    args=args,\n    env_info=envs.env_info,\n    policy=None # 若无预训练策略可设为 None\n)\n\n# 4. 开始训练\nprint(\"Start training...\")\nagent.run(envs=envs, total_steps=100000)\n\n# 5. 关闭环境\nenvs.close()\n```\n\n### 运行说明\n\n1.  将上述代码保存为 `train_ppo.py`。\n2.  确保已安装 `gymnasium[classic-control]` 以支持 CartPole 环境：\n    ```bash\n    pip install \"gymnasium[classic-control]\"\n    ```\n3.  运行脚本：\n    ```bash\n    python train_ppo.py\n    ```\n\n训练过程中，XuanCe 默认会输出日志，并支持通过 TensorBoard 或 WandB 可视化训练曲线（需在 `args` 中配置相应参数）。\n\n---\n更多详细算法列表、高级配置及 API 文档，请访问 [官方文档](https:\u002F\u002Fxuance.org) 或 [中文文档](https:\u002F\u002Fcn.xuance.org)。","某自动驾驶初创公司的算法团队正在研发多智能体协同决策系统，需要在复杂的城市交通仿真环境中训练车队进行无信号灯路口的通行策略。\n\n### 没有 xuance 时\n- **框架迁移成本极高**：团队内部既有 PyTorch 原型又有 TensorFlow 遗留代码，复现论文算法时需反复重写底层逻辑，耗时且易出错。\n- **多智能体调试困难**：面对 PettingZoo 环境，缺乏统一的 MARL（多智能体强化学习）接口，各智能体数据交互混乱，训练过程极不稳定。\n- **超参数调优靠“玄学”**：由于 DRL 对参数极度敏感，工程师只能手动盲目试错，缺乏自动化工具支持，导致实验周期长达数周。\n- **并行效率低下**：单 GPU 训练速度缓慢，自行搭建多卡分布式训练环境复杂度太高，严重拖慢了模型迭代节奏。\n\n### 使用 xuance 后\n- **统一架构无缝切换**：xuance 提供高度模块化设计，同一套算法代码可灵活适配 PyTorch、TensorFlow 或 MindSpore 后端，彻底消除框架壁垒。\n- **原生支持多智能体任务**：内置标准的 MARL 算法库与 PettingZoo 完美对接，清晰管理多智能体观测与奖励，训练收敛性显著提升。\n- **自动化超参搜索**：利用内置的自动调参功能，系统能快速锁定最优配置，将原本数周的调优工作压缩至几天内完成。\n- **高效分布式训练**：开箱即用的多 GPU 并行与环境并行机制，大幅缩短单次实验耗时，让团队能每天验证更多创新想法。\n\nxuance 通过统一的多后端支持与自动化流程，将研究人员从繁琐的工程基建中解放出来，使其能专注于核心策略的创新与突破。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fagi-brain_xuance_0f178bf1.png","agi-brain","AGI-Brain Group","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fagi-brain_0d683513.png","Artificial General Intelligent Brain Group",null,"https:\u002F\u002Fgithub.com\u002Fagi-brain",[79],{"name":80,"color":81,"percentage":82},"Python","#3572A5",100,1058,155,"2026-04-07T07:08:26","MIT","Linux, Windows, macOS","可选（支持 CPU\u002FGPU），若使用 GPU 需兼容 PyTorch\u002FTensorFlow\u002FMindSpore 的 NVIDIA 显卡，具体显存和 CUDA 版本取决于所选后端及模型规模，文中未明确指定最低要求","未说明",{"notes":91,"python":92,"dependencies":93},"该库具有高度兼容性，支持多种深度学习后端（PyTorch, TensorFlow2, MindSpore）及硬件环境（CPU, GPU）。支持分布式多 GPU 训练和并行环境加速。用户可根据需求选择安装特定的深度学习框架，无需全部安装。","3.8+",[94,95,96,97,98,99,100],"PyTorch>=1.13.0","TensorFlow>=2.6.0","MindSpore>=1.10.1","gymnasium>=0.28.1","PettingZoo>=1.23.0","tensorboard","wandb",[13,14,102],"其他",[104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122],"multi-agent-reinforcement-learning","reinforcement-learning","reinforcement-learning-library","mindspore","pytorch","tensorflow2","atari","mujoco","mpe","a2c","ddpg","dqn","maddpg","starcraft2","magent","google-research-football","mappo","qmix","ppo","2026-03-27T02:49:30.150509","2026-04-10T22:20:33.033893",[126,131,136,141,146,151,155],{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},28422,"在 Windows 系统上运行代码时遇到 \"ImportError: DLL load failed: 找不到指定的模块\" (通常涉及 mpi4py) 该如何解决？","这是因为您的电脑缺少 MPI 软件。对于 Windows 系统，请从微软官网下载并安装 \"Microsoft MPI\" (msmpisetup.exe)。安装完成后即可解决该导入错误。下载地址：https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fdownload\u002Fdetails.aspx?id=57467","https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues\u002F3",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},28423,"在 Windows 系统上保存模型时报错 \"RuntimeError: Parent directory ... does not exist\" 是什么原因？","这通常是由于早期版本在 Windows 和 Linux 下路径处理方式不一致导致的 Bug。建议将 XuanCe 框架更新至最新版本（如 1.2.4 或更高），该问题已在后续版本中修复。如果仍存在问题，请检查配置中的模型保存路径是否正确且父目录存在。","https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues\u002F26",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},28424,"XuanCe 框架是否支持 MultiBinary 和 MultiDiscrete 动作空间？","目前版本暂不支持 MultiBinary 和 MultiDiscrete 动作空间。当前主要支持 Box (连续空间) 和 Discrete (离散空间)。如果在配置中使用这些不支持的空间，可能需要修改框架源码或调整神经网络结构来适配，或者等待官方后续更新支持。","https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues\u002F54",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},28425,"在 MASAC 算法中使用 RNN 时，当环境终止 (terminated) 或截断 (truncated) 后，状态是如何处理的？","在 XuanCe 中，当环境达到终止或截断状态时，会自动重置环境。重置后的观测数据可以通过 `info[i][\"reset_obs\"]` 获取。代码逻辑会在环境终止时复用初始状态作为动作选择网络的输入，而无需手动调用 reset()。相关逻辑可参考 `xuance\u002Fenvironment\u002Fvector_envs\u002Fdummy\u002Fdummy_vec_maenv.py` 第 163 行。","https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues\u002F74",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},28426,"在 Windows 上使用 magent2 环境报错或缺少动态链接库 (.dll) 怎么办？","该错误是因为某些版本未充分考虑 Windows 下的动态链接库文件。首先尝试运行 `pip install magent2` 安装依赖。如果仍然报错（如缺少 ale_c.dll 或 magent.dll），可能需要手动下载对应的 .dll 文件并复制到 Python 环境目录或系统路径中。此外，建议关注官方后续对该问题的修补更新。","https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues\u002F16",{"id":152,"question_zh":153,"answer_zh":154,"source_url":140},28427,"自定义环境的观察空间 (Observation Space) 为 2D 形状时，PPO 算法能否直接支持？","文档示例通常使用 1D 观察空间。如果使用 2D 空间（例如 shape=(num_ed, 6)），可能需要检查框架是否自动展平。若开启参数共享 (`use_parameter_sharing=True`)，观察形状通常会被处理为一维向量 (dim_obs + n_agents)。如果遇到维度不匹配错误，建议在策略代码（如 `categorical_marl.py`）中设置断点，打印 `observation[key].shape` 和网络输入形状进行调试，确认是否需要手动展平输入。",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},28428,"当智能体提前死亡或完成任务导致单回合格数不确定时，进度条和训练步数统计会有影响吗？","进度条显示的是总训练步数 (`running_steps`)，而不是单个回合的步数。即使智能体提前结束回合，计数器也会继续累加直到达到配置的总步数。这不会影响训练逻辑，因为框架内部会正确处理截断 (truncation) 和终止 (termination) 状态。如果您希望按回合数而非总步数控制训练，可以调整配置文件中的相关设置。","https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fissues\u002F109",[161,166,171,176,181,186,191,196,201,206,211,216,221,226,231,236,241,246,251],{"id":162,"version":163,"summary_zh":164,"released_at":165},189381,"1.4.1","## 变更内容\n- **更新**：将部分 Box2D 场景升级至最新版本。\n- **改进**：进一步优化了基准测试管道\u002F工作流。\n- **优化**：改进并测试了 MARL 算法的图像输入支持。\n- **更新**：完善了配置系统，简化参数设置流程并提高可读性。\n- **重构**：将 Runner 移至与后端无关的层。\n- **重命名**：dl_toolbox → dl_backend。\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.4.0...1.4.1","2026-02-25T14:12:41",{"id":167,"version":168,"summary_zh":169,"released_at":170},189382,"1.4.0","# 新增内容\n1. 修复：通过移除对 mpi4py 的硬依赖，解决了安装问题，显著简化了安装流程。\n2. 变更：将 set_seed 功能从 Runner 模块移至 Agent 模块，以实现更清晰的职责分离。\n3. 优化：优化了 test_envs 的设计，减少了评估过程中不必要的资源消耗。\n4. 优化：重构了 Runner 模块，以更好地管理 Agent、环境和实验生命周期，从而为训练、测试和基准测试提供更清晰、更一致的工作流。\n5. 优化：进一步标准化了基准测试流程，使用户能够更轻松地快速运行自己的基准测试，并获得更加全面的基准测试结果（正在进行中）。\n6. 重构：更新了 Agent 类，支持元数据持久化，并修订了其初始化接口。\n7. 重命名：将 Runner 的参数方法重命名为 algo，以使语义更加明确。\n8. 修复：修复了其他各类 bug，并提升了系统稳定性。","2026-01-12T15:27:51",{"id":172,"version":173,"summary_zh":174,"released_at":175},189383,"1.3.3","## 变更内容\n* 文档：更新了文档（感谢 @S444H、@1otuses、@jiaweiLu04、@YeFanRepo、@Gaoshen-worker、@GUOZI-fruit、@zhanshuxie）。\n* 回调函数：改进了多智能体强化学习及其他人工智能工具箱中的回调函数。\n* 模型：在多智能体强化学习算法中增加了对基于卷积神经网络的表示的支持。\n* 环境：为多智能体强化学习新增了Atari环境。\n* 基准测试：为XuanCe新增并标准化了基准测试部分。\n* 算法：在多智能体强化学习中增加了对独立TD3（ITD3）的支持。\n\n## 新贡献者\n* @S444H 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F159 中完成了首次贡献。\n* @jiaweiLu04 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F164 中完成了首次贡献。\n* @YeFanRepo 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F165 中完成了首次贡献。\n* @Gaoshen-worker 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F170 中完成了首次贡献。\n* @GUOZI-fruit 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F182 中完成了首次贡献。\n* @zhanshuxie 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F183 中完成了首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.3.2...1.3.3","2025-12-31T15:50:31",{"id":177,"version":178,"summary_zh":179,"released_at":180},189384,"1.3.2","## 变更内容\n* 由 @wenzhangliu 同步更新 TensorFlow 和 MindSpore 框架的版本\n* 由 @wenzhangliu 增加对 Colab 的支持\n* 由 @wenzhangliu 修复学习率衰减步数的问题（默认不衰减）\n* 文档（curl_agent.md、drq_agent.md、spr_agent.md）：新增文档，由 @wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F155 中完成\n* MADDPG 对抗环境中的可配置参数共享功能（新增示例），由 @josh1147 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F156 中实现\n* 新增自定义 MARL 策略实现示例，由 @josh1147 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F157 中完成\n* 更新 drqn_agent.py 文件，由 @1otuses 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F158 中完成\n* 修复其他 bug。\n\n## 新贡献者\n* @josh1147 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F156 中完成了首次贡献\n* @1otuses 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F158 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.3.1...1.3.2","2025-10-02T16:51:03",{"id":182,"version":183,"summary_zh":184,"released_at":185},189385,"1.3.1","## 变更内容\n* 完成了对 Python 3.8、3.9、3.10、3.11 和 3.12 的全面测试。@wenzhangliu\n* 停止对 Python 3.6 和 3.7 的官方支持。@wenzhangliu\n* 调整了常用包（如 numpy、torch、gymnasium 等）的版本要求。@wenzhangliu\n* 由 @TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F150 中更新了多智能体强化学习通信算法。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.3.0...1.3.1","2025-07-02T10:06:08",{"id":187,"version":188,"summary_zh":189,"released_at":190},189386,"1.3.0","## 变更内容\n* 回调：@wenzhangliu 支持回调函数，允许用户插入新的代码块\n* 修复：@yuzh2001 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F111 中修复了 marl 设置中的测试结果计算错误\n* 文档：@guspan-tanadi 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F114 中修复了近期章节的链接问题\n* 示例中添加 dreamerv3 实现：@LKP1111 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F125 中完成\n* 添加 TD3_BC 算法：@XiangDuojie 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F129 中完成\n* 添加 ic3net：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F130 中完成\n* harmonydream：@LKP1111 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F131 中完成\n* 修复 ic3net 测试：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F132 中完成\n* 添加 dreamerv2：@LKP1111 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F133 中完成\n* 修复 ic3net 的 bug：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F134 中完成\n* Basic_ViT 层：@wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F139 中完成\n* 调整部分与 vit 相关的文件：@wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F140 中完成\n* 添加注释并更新 ic3net：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F142 中完成\n* 修正一处拼写错误：@guspan-tanadi 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F143 中完成\n* 添加对比强化学习：@wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F144 中完成\n* 添加 CRL（基于自预测表征的数据高效强化学习）算法：@wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F145 中完成\n* 添加 TarMAC：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F146 中完成\n* 添加 dgn 新算法：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F147 中完成\n* 功能（drq_agent、drq_learner、drq_atari）：添加 DrQ 算法。@wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F148 中完成\n* 更新 CommNet 和 IC3Net：@TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F149 中完成\n* 修复 Atari 环境包装器（新增 XuanCeAtariEnvWrapper），并修复原 AtariEnvWrapper 中的隐藏 bug：@wenzhangliu 完成\n* 移除 gym：@wenzhangliu 现已使用最新版本的 gymnasium（v1.1.1）\n* 修复并更新平均场强化学习算法：MFQ 和 MFAC：@wenzhangliu 完成\n\n## 新贡献者\n* @yuzh2001 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F111 中完成了首次贡献\n* @LKP1111 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F125 中完成了首次贡献\n* @wenboli-ai 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F139 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.2.6...1.3.0","2025-06-17T13:45:47",{"id":192,"version":193,"summary_zh":194,"released_at":195},189387,"1.2.6","## 变更内容\n* 集成了 Optuna 工具，由 @wenzhangliu 实现，支持自动超参数调优。\n* @XiangDuojie 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F102 中添加了 NPG 智体和 NPG 学习器。\n* @wenzhangliu 针对 SMAC 上的任务优化了 COMA 算法。\n* @wenzhangliu 为 LearnerMAS 类添加了 ``get_joint_input`` 方法，修复了当智体数量为 1 时数据读取失败的问题。\n* 其他错误修复。\n\n## 新贡献者\n* @TangY1fan 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F80 中完成了首次贡献。\n* @xiaoyangquan2002 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F81 中完成了首次贡献。\n* @XiangDuojie 在 https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fpull\u002F93 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.2.5...1.2.6","2025-02-08T11:22:43",{"id":197,"version":198,"summary_zh":199,"released_at":200},189388,"1.2.5","- 更新并优化了 API 文档。\n- 更新了 Atari 环境。\n- 修正了 `Agent` 类的 `env` 参数类型，将其改为 `envs: Union[DummyVecEnv, SubprocVecEnv]`。\n- 更新了 MASAC 中的 RNN 支持。\n- 部分 gym 环境已修改为通过 gymnasium 接口访问。\n- 调整了 XuanCe 安装过程中的依赖包版本，并增加了对特定环境的安装支持。\n- 其他错误修复。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002F1.0.0...1.2.5","2025-01-05T13:28:44",{"id":202,"version":203,"summary_zh":204,"released_at":205},189389,"1.2.4","- 同步更新至基于 MindSpore 的 1.2.3 版本。\n\n- 新增对多 GPU 分布式训练的支持。\n\n- 针对 1.2.x 版本，更新了 VDAC、COMA、MFQ、MFAC、DCG、QTRAN 等算法。\n\n- 新增 IAC 多智能体强化学习基准算法。\n\n- 改进了多智能体对抗任务的训练机制。\n\n- 进一步标准化和优化了底层 API。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002Fv1.0.11...v1.2.4","2024-12-11T12:43:02",{"id":207,"version":208,"summary_zh":209,"released_at":210},189390,"1.2.3","- 基于1.2.2版本同步更新MindSpore版本。\n\n- 进一步标准化和优化了底层API。","2024-12-11T12:42:17",{"id":212,"version":213,"summary_zh":214,"released_at":215},189391,"1.2.2","- Synchronized updates to the TensorFlow 2 version based on version 1.2.1.\r\n\r\n- Refactored the Agent module, distinguishing between on-policy and off-policy algorithms.\r\n\r\n- Further standardized and optimized the underlying APIs.","2024-12-11T12:41:33",{"id":217,"version":218,"summary_zh":219,"released_at":220},189392,"1.2.1","- Update the MARL algorithms based on version 1.2.0.\r\n\r\n- Add support for non-parameter-sharing in multi-agent systems, with individual agent models indexed by name.\r\n\r\n- Improve the algorithms like MADDPG and MASAC with support for RNNs.\r\n\r\n","2024-12-11T12:35:10",{"id":222,"version":223,"summary_zh":224,"released_at":225},189393,"1.2.0","- Modified the environment wrapper program to facilitate adding new environments.\r\n\r\n- Standardized the wrapping of existing single-agent and multi-agent environments.\r\n\r\n- Organized commonly used APIs into a unified structure.\r\n\r\n- Integrated the creation of representation, policy, and optimizer into each agent’s initialization method.\r\n\r\n- Added support for non-parameter-sharing in MARL algorithms.\r\n\r\n- Standardized the naming of parameters in config files.","2024-12-11T12:33:31",{"id":227,"version":228,"summary_zh":229,"released_at":230},189394,"1.1.1","- Improve some algorithms, such as SAC, MASAC, DDPG, and TD3, etc.\r\n- Add multi-robot warehouse (RWARE) environment.\r\n- n_size -> buffer_size;\r\n- The saving and loading of observation status;\r\n- Unify the names of attributes for both single-agent and multi-agent DRL.\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fagi-brain\u002Fxuance\u002Fcompare\u002Fv.1.2.0...v1.1.1","2024-05-12T09:40:29",{"id":232,"version":233,"summary_zh":234,"released_at":235},189395,"1.0.11","Updates for XuanCe v1.0.11:\r\n\r\n1. Support and finish test for gym-pybullet-drones environments;\r\n2. Fix some issues for installation of xuance. Now it is more easy to install and use;\r\n3. Improve the compatibility for MacOS with Apple's M chips;\r\n4. Fix some other bugs.\r\n\r\nWelcome to install and try it!","2024-04-11T10:28:34",{"id":237,"version":238,"summary_zh":239,"released_at":240},189396,"1.0.10","Updates for XuanCe v1.0.10:\r\n1. Fix some bugs for MARL;\r\n2. Support Minigrid and gym-pybullet-drones environments;\r\n3. Provide examples of customized environments for MARL;\r\n4. Some other issues are solved.\r\n\r\nWelcome to install and try it!","2024-03-05T13:30:50",{"id":242,"version":243,"summary_zh":244,"released_at":245},189397,"1.0.6","A stable version of XuanCe.","2023-12-25T10:23:19",{"id":247,"version":248,"summary_zh":249,"released_at":250},189398,"1.0.1","Beta version for MARL with SMAC and GFootball.","2023-11-27T02:23:53",{"id":252,"version":253,"summary_zh":254,"released_at":255},189399,"1.0.0","The first version of XuanCe.\r\n","2023-10-21T10:35:11"]