AI-Optimizer
AI-Optimizer 是一款新一代深度强化学习工具套件,旨在为从单智能体到多智能体、从无模型到基于模型的各类算法提供全面支持。它内置了丰富的算法库,涵盖多智能体协作、自监督表示学习、离线强化学习以及迁移学习等前沿领域,并配备了灵活高效的分布式训练框架,帮助用户轻松完成策略训练。
针对现实世界中如无人驾驶、即时战略游戏及机器人控制等复杂场景,传统方法常面临维度灾难、环境非平稳性、探索与利用难以平衡及信用分配困难等挑战。AI-Optimizer 通过设计具备排列不变性的可扩展神经网络,有效压缩搜索空间;同时引入渐进式互信息协作机制,显著提升了多智能体间的合作探索效率,致力于推动强化学习理论在实际应用中的落地。
这款工具特别适合人工智能研究人员、算法工程师及开发者使用。无论是希望复现顶尖实验室(如 TJU-DRL-LAB)研究成果的学者,还是需要将强化学习技术应用于复杂决策系统的开发团队,AI-Optimizer 都能提供坚实的底层支持与丰富的代码实现,助力用户高效开展创新研究与应用开发。
使用场景
某物流科技公司正在研发一套由上百台自动导引车(AGV)组成的智能仓储调度系统,旨在实现货物搬运的全自动化协同。
没有 AI-Optimizer 时
- 扩展性瓶颈:随着 AGV 数量增加,状态空间呈指数级爆炸,传统单智能体算法无法处理高维数据,导致训练难以收敛。
- 环境非平稳性:每辆车的策略都在实时变化,其他车辆对个体而言如同“移动的目标”,导致学习过程极不稳定,策略频繁失效。
- 协作奖励分配难:当团队整体完成搬运任务时,难以精准量化每辆车的贡献(信用分配问题),导致部分车辆“搭便车”或学习方向错误。
- 探索效率低下:在复杂的动态避障场景中,算法难以平衡“尝试新路径”与“利用已知最优解”,常陷入局部最优或发生碰撞。
- 训练资源浪费:缺乏高效的分布式训练框架,多车协同策略的训练周期长达数周,严重拖慢项目迭代速度。
使用 AI-Optimizer 后
- 突破维度诅咒:利用其内置的可扩展多智能体神经网络,通过排列不变性特性有效压缩搜索空间,轻松支撑百车规模的协同训练。
- 稳定动态学习:采用先进的多智能体强化学习(MARL)算法,专门针对非平稳环境设计,确保在同伴策略变化时仍能稳定优化。
- 精准信用分配:内置的多智能体信用分配机制能精确拆解团队奖励,让每辆 AGV 都明确自身动作价值,显著提升协作默契。
- 高效协同探索:借助渐进式互信息协作机制,智能体间能主动共享探索信息,快速找到全局最优的避障与路径规划策略。
- 加速策略落地:依托灵活的分布式训练框架,将原本数周的训练时间缩短至数天,大幅加快从仿真到真实仓库部署的进程。
AI-Optimizer 通过解决多智能体协作中的核心理论难题,将复杂的群智调度从“不可训”变为“高效落地”,真正释放了群体智能的商业价值。
运行环境要求
未说明
未说明

快速开始
AI-Optimizer
AI-Optimizer 是一款新一代深度强化学习套件,提供了从无模型到基于模型的强化学习算法,以及从单智能体到多智能体算法的丰富算法库。此外,AI-Optimizer 还包含一个灵活且易于使用的分布式训练框架,用于高效地训练策略。

AI-Optimizer 目前提供了以下内置库,更多库和实现即将推出。
多智能体强化学习 (MARL)
多智能体 RL 仓库包含了 TJU-RL 实验室在多智能体强化学习 (MARL) 方面具有代表性的研究成果代码。
❓ 待解决的问题

多智能体强化学习 (MARL) 已成功解决了许多复杂的现实世界问题,例如下围棋(AlphaGo,AlphaGo Zero)、玩即时战略多人游戏(星际争霸 II,Dota 2,王者荣耀)、玩纸牌游戏(扑克,无限注扑克)、机器人控制([arXiv.org/abs/1709.06011])以及自动驾驶(Smarts)。然而,除了单智能体 RL 中存在的挑战之外,MARL 在理论分析方面还面临诸多难题。我们总结了在发展 MARL 理论时认为至关重要的几个挑战:
- 维度灾难(可扩展性)问题
- 非平稳性
- 学习目标不唯一
- 探索与利用之间的权衡
- 多智能体信用分配问题
- 部分可观测性
- 混合动作
我们的目标是设计
MARL 算法,以解决或缓解上述问题,并推动 MARL 在更多实际应用中的部署和落地。
⭐️ 核心方向
我们根据上述挑战开展研究。为了解决维度灾难问题,我们设计了一系列可扩展的多智能体神经网络,这些网络能够通过利用 排列不变性和排列等变性特性,明确考虑 动作语义,从而有效地缩小搜索空间。为了更好地平衡探索与利用之间的权衡,我们提出了渐进式互信息协作,以实现更高效的协作式探索……以下是所提出方法的整体概览。

💦 贡献
本仓库的主要贡献在于:
对于对 MARL 感兴趣的 初学者,我们的 easy-marl 代码库以及知乎专栏:MARL 和 基于通信的 MARL 可以作为初步教程。
对于 研究人员,我们从不同角度系统地概述了 MARL 中典型的挑战,每一个挑战都是极具价值的研究方向,并且都包含一系列近期的研究成果。我们希望通过我们的研究工作及相应的开源代码,能够帮助研究人员更轻松地设计新算法。
- 例如,鉴于近年来设计新型 MARL 架构的兴趣日益浓厚,可扩展的多智能体网络 这一研究方向无疑引起了 MARL 社区的广泛关注。最近,在 MARL 智能体设计中,“排列不变性”和“排列等变性”的概念受到的关注相对较少,因此我们在 API 论文 中提出的观点非常有趣,也与 MARL 研究人员密切相关。
对于 从业者,我们发布了一系列 高效、可扩展、性能优异且 易于使用的 MARL 算法,这些算法在 MARL 研究社区的典型基准测试中表现出色。
- 例如,我们在论文《API:通过智能体排列不变网络提升多智能体强化学习》中提出的 API-QMIX、API-VDN、API-MAPPO 和 API-MADDPG 算法,在 星际争霸多智能体挑战 (SMAC) 和 多智能体粒子环境 的基准测试中均取得了最先进的性能,其中在几乎所有的 SMAC 困难和超困难场景中实现了 100% 的胜率(这是前所未有的成绩)。
- 我们 强烈建议从业者在解决实际的 MARL 问题时,首先尝试并使用我们的 API 网络解决方案(因为它非常容易使用且效果非常好)。我们希望我们的工作能够促进 MARL 在更多现实世界应用中的部署和落地。
更多信息请参见 此处。
离线强化学习算法 (Offrl)
❓ 待解决的问题
当前的深度强化学习方法通常仍依赖于主动的数据收集才能取得成功,这在数据收集危险或昂贵的情况下,极大地限制了其在现实世界中的应用。离线强化学习(也称为批处理强化学习)是一种数据驱动的强化学习范式,专注于仅从先前收集的静态数据集中进行学习。在这种设置中,行为策略与环境交互以收集一组经验,这些经验随后可用于在无需进一步交互的情况下学习策略。这一范式在在线交互不切实际的场景中具有极高的价值。然而,现有的离线强化学习方法主要受限于以下三个挑战:
- 算法上限较低:离线数据的质量决定了离线强化学习算法的性能。如何在不进行额外交互的情况下扩展低质量的离线数据,从而提高离线强化学习算法的学习上限?
- 算法效果不佳:现有的离线/非策略算法是在离线数据分布上进行训练的。当与环境交互时,访问的状态-动作分布可能会相对于离线数据发生改变(分布偏移)。在这种情况下,<状态, 动作>对的Q值容易被高估,从而影响整体性能。如何表征离线数据分布之外的数据(Out Of Distribution, OOD),以避免过估计问题?
- 算法应用困难:由于数据集质量有限,所学策略无法直接部署到生产环境中,还需要进一步的在线学习。如何设计在线训练阶段的数据采样策略,以避免因分布变化产生的冗余数据导致策略初始性能骤降,并在有限的交互次数内快速收敛到最优解?
💦 贡献
本仓库包含了离线强化学习领域中具有代表性的基准和算法代码。该仓库基于d3rlpy(https://github.com/takuseno/d3rlpy)开发,遵循MIT许可证,旨在为上述三个挑战的研究提供参考。在继承其优势的基础上,新增功能包括(或即将加入):
- 统一的算法框架,支持不同算法之间丰富且公平的对比:
- REDQ
- UWAC
- BRED
- …
- 丰富且贴近真实世界的数据集:
- 工业级真实世界数据集
- 多模态数据集
- 增强型数据集(及相应方法)
- 通过表示学习获得的数据集(及相应方法)
- 更易用的日志系统支持:
- Wandb

自监督强化学习(SSRL)
SSRL仓库包含了天津大学强化学习实验室在自监督表示学习用于强化学习领域的代表性研究成果代码。
据我们所知,这是首个按照系统的研究分类体系和统一的算法框架建立的SSRL代码仓库。
❓ 待解决的问题
由于强化学习智能体在学习过程中始终负责接收、处理和传递各类数据(即典型的智能体-环境接口),因此如何**恰当地表示这些“数据”**自然成为决定强化学习有效性和效率的关键所在。
在本分支中,我们重点关注以下三个关键问题:
- 什么样的表示才适合强化学习?(理论)
- 如何获取或实现这样的良好表示?(方法论)
- 如何利用良好的表示来提升强化学习的效果?(下游学习任务与应用)
⭐️ 核心思想
我们以自监督学习(SSL)作为表示学习的主要范式,从四个角度展开研究:
- 状态表示
- 动作表示
- 策略表示
- 环境(及任务)表示
这四个视角是强化学习中通用的“智能体-环境接口”所涉及的主要要素。它们在强化学习过程中分别扮演着输入、优化目标等角色。这些要素的表示方式对强化学习的样本效率、收敛最优性以及跨环境泛化能力有着重要影响。
本仓库的核心贡献在于SSRL算法的统一算法框架(实现设计)。该框架能够统一解释目前几乎所有现有的SSRL算法,同时也可以作为我们设计新方法时的范式参考。
我们的最终目标是推动SSRL生态系统的建立,具体如下所示。
为了解决强化学习中的关键问题,我们从四种表示入手研究SSRL。针对这四个视角的研究,都以统一的算法与实现框架作为基础支撑。不同视角下研究得到的表示进一步促进了各种下游强化学习任务的开展,最终推动强化学习在实际应用中的部署与落地。

更多信息请参见此处。
💦 贡献
借助本仓库及我们的研究成果,我们希望引起强化学习社区对自监督表示学习的关注。
- 对于对强化学习感兴趣的人士,本仓库的介绍以及我们的博客文章可以作为初步的入门教程。
- 对于前沿的强化学习研究人员,我们认为我们的研究思路和提出的SSRL框架具有启发性和洞察力,能够为未来更高级的强化学习研究开辟新的方向。
- 对于强化学习的实践者(尤其是相关领域的从业者),我们提供了在在线强化学习中表现优异的先进算法(例如:PPO-PeVFA)、混合动作决策算法(例如:HyAR)以及基于离线经验的策略适应算法(例如:PAnDR)等,这些算法可以直接应用于或进一步开发于相关的学术和工业问题中。
我们也期待收到任何形式的反馈,以促进更深入的研究。
迁移与多任务强化学习
近年来,深度强化学习(DRL)在诸多人类水平的控制问题上取得了显著成果,例如视频游戏、机器人控制、自动驾驶汽车、智能电网等。然而,DRL仍然面临样本效率低下问题,尤其是在状态-动作空间变得庞大时,这使得从零开始学习变得十分困难。这意味着智能体需要使用大量的样本才能学习到一个良好的策略。此外,在多智能体强化学习(MARL)中,由于状态-动作空间呈指数级增长,样本效率低下的问题更加严重。
❓ 待解决的问题
样本效率低下问题:迁移与多任务强化学习旨在解决的主要挑战就是样本效率低下问题。这一问题迫使智能体收集海量的训练数据才能学习到最优策略。例如,Rainbow DQN大约需要1800万帧的训练数据才能超越人类玩家的平均水平,这相当于人类玩家连续游玩60小时的游戏内容。然而,人类玩家通常只需几分钟就能学会一款Atari游戏,并在经过一小时的训练后达到该游戏玩家的平均水平。
⭐️ 核心思想
迁移强化学习通过利用先前相关任务中的先验知识来加速强化学习过程,已成为显著提升DRL样本效率的热门研究方向之一。
多任务强化学习则采用单个网络同时学习多个任务的策略,凭借其推理速度快、性能优异的特点,也逐渐成为另一条极具前景的研究路径。
💦 贡献
本仓库包含了TJU-RL-Lab在迁移与多任务强化学习领域发布的代表性基准和算法代码,涵盖单智能体和多智能体场景,以不同方式应对样本效率低下的问题。

在本仓库中,我们提供了实验室的具体解决方案,包括:
PTF通过提出一种新颖的策略迁移框架(PTF),有效解决了DRL中的样本效率低下问题。
MAPTF则针对深度多智能体强化学习中的样本效率低下问题,提出了多智能体策略迁移框架(MAPTF)。
KTM-DRL(复现版):基于知识迁移的连续控制多任务深度强化学习框架(KTM-DRL)。我们在MuJoCo连续控制任务集中复现了相关结果,更多详情请参见此处。
更多内容请访问此处。
基于模型的强化学习(MBRL)
基于模型的强化学习(MBRL)被广泛认为具有比无模型强化学习更高的样本效率潜力。通过学习环境模型,基于模型的方法能够以更低的样本复杂度进行学习。环境模型是一种包含关于环境或任务明确知识的表示模型,通常包括两类:转移模型(动力学模型)和奖励模型。一旦构建出这样的模型,便可以将其有效地融入与环境的交互以及策略的学习过程中。
❓待解决的问题
当前主流的基于模型强化学习算法分类方式较为多样化,这意味着某些算法可以根据不同的视角被归入不同的类别。在本分支中,我们重点关注两个核心问题:如何学习模型和如何利用模型。
如何学习模型主要关注如何构建环境模型。如何利用模型则关注如何有效利用已学习到的模型。
⭐️ 核心方向
尽管具体方法存在差异,但MBRL算法的目的可以更细致地划分为以下四个方向:降低模型误差、加快规划速度、提高对模型误差的容忍度、扩展至更复杂问题的能力。对于如何学习模型这一问题,我们可以研究如何减少模型误差以学习更精确的世界模型,或者如何构建对模型误差具有更高容忍度的世界模型。而对于如何利用模型这一问题,我们可以探索如何利用已学习的模型实现更快的规划,或者如何将已学习的模型扩展应用于更复杂的任务。

💦 贡献
为什么选择 MBRL?
基于模型的强化学习(MBRL)通过学习环境动态的模型,具备数据高效性和规划能力等优势。环境模型是一种表征模型,显式地包含关于环境或任务的知识,通常包括两类:转移模型(或称动力学模型)和奖励模型。一旦构建了这样的模型,就可以将其有效地融入与环境的交互以及策略的学习过程中。
为什么需要我们的库?
通过这个仓库及我们的研究工作,我们希望引起强化学习社区对基于模型的强化学习领域的关注。
对于对基于模型的强化学习感兴趣的研究者,本仓库中的介绍以及我们的知乎专栏系列可以作为入门教程。
对于从事基于模型的强化学习的研究人员,我们整理了多个独立的研究方向,其中一些可能是闭源的或难以复现的,并在代码层面进行了优化,以便更便捷地找到可比较的基准方法,而无需四处寻找实现细节。
我们期望,我们的研究思路和针对 MBRL 领域提出的研究方向能够为未来更高级的强化学习研究开辟新的视角。此外,我们希望尽可能覆盖更多有趣的新方向,并将其归类到上述主题中,以激发您的研究灵感和创意。 目前,基于模型的强化学习研究尚未形成非常标准化的体系。研究者常常会使用自行设计的环境进行实验,且存在多条独立的研究路线,其中部分工作可能是闭源的或难以复现。为此,我们收集了一些主流的 MBRL 算法,并在代码层面进行了优化。将这些算法整合到统一的框架中,可以帮助研究人员节省寻找对比基准的时间,而无需再费力搜索不同的实现。目前,我们已实现了 Dreamer、MBPO、BMPO、MuZero、PlaNet、SampledMuZero 和 CaDM 等算法,并计划在未来继续扩充这一列表。我们将持续更新本仓库,纳入 TJU-DRL-Lab 的最新研究成果,以确保内容的全面性和可靠性。我们也欢迎任何形式的反馈,以推动更深入的研究。更多信息请参见 这里。
贡献
AI-Optimizer 仍处于开发阶段。未来还将添加更多算法和功能,我们始终欢迎各方贡献,共同使 AI-Optimizer 更加完善。欢迎您随时参与贡献。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。