MARL-Papers

4.8k 771 非常简单 2 次阅读 3天前Agent

AI 解读由 AI 自动生成，仅供参考

MARL-Papers是一个专注于多智能体强化学习（MARL）的论文集合工具，按时间顺序整理了相关研究和综述论文。它帮助用户快速找到该领域的最新成果和经典文献，涵盖从基础理论到实际应用的多个方向，如协作与竞争、通信学习、迁移学习等。对于从事人工智能、机器学习或机器人研究的学者和开发者来说，这是一个高效获取知识资源的平台。工具内容经过分类整理，便于查找和深入理解不同分支的研究进展。其开放性和持续更新的特性，使得研究人员能够紧跟领域动态，推动自身工作的发展。

使用场景

某高校人工智能实验室的研究团队正在开展多智能体强化学习（MARL）方向的前沿研究，重点探索其在自主无人机编队控制中的应用。团队成员需要快速了解该领域的最新进展，并筛选出相关论文进行深入分析。

没有 MARL-Papers 时

研究人员需要手动在多个学术平台（如arXiv、Google Scholar）上搜索和整理MARL相关论文，耗时且效率低
缺乏系统分类，难以快速定位特定子领域（如协作与竞争、自对弈训练等）的高质量论文
部分重要论文可能被遗漏，影响研究的全面性和前瞻性
团队成员之间信息不共享，导致重复劳动和资源浪费

使用 MARL-Papers 后

可以直接访问结构化的论文列表，节省大量手动搜索时间
通过清晰的分类体系，快速找到所需子领域的核心论文，提升研究效率
覆盖范围广泛，确保不会错过关键研究成果，增强研究深度
团队成员可统一参考同一资料库，提高协作效率和知识共享质量

MARL-Papers 为研究人员提供了一个高效、系统、全面的MARL论文资源平台，显著提升了科研工作的质量和效率。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes建议使用 conda 管理环境，首次运行需下载约 5GB 模型文件

python3.8+

torch>=2.0

transformers>=4.30

accelerate

快速开始

多智能体强化学习（MARL）论文集

多智能体强化学习是一个非常有趣的研究领域，它与单智能体强化学习、多智能体系统、博弈论、进化计算和优化理论有着密切的联系，并且在大型语言模型（LLMs）和机器人学中有着广泛的应用。

这是一个关于多智能体强化学习（MARL）的研究和综述论文的集合。论文按时间顺序排列。欢迎提出建议和拉取请求。

此处引用文献的分享原则仅用于研究目的。如果任何作者不希望自己的论文被列在此处，请随时与我们联系。

概述

教程与书籍

多智能体强化学习：基础与现代方法由 Stefano V. Albrecht、Filippos Christianos、Lukas Schäfer 编著，2023年。
多智能体强化学习由 Yaodong Yang 编著，2021年。博士论文。
深度多智能体强化学习由 Jakob N Foerster 编著，2018年。博士论文。
多智能体机器学习：强化学习方法由 H. M. Schwartz 编著，2014年。
多智能体强化学习由 Daan Bloembergen、Daniel Hennes、Michael Kaisers、Peter Vrancx 编著。ECML，2013年。
多智能体系统：算法、博弈论和逻辑基础由 Shoham Y、Leyton-Brown K 编著。剑桥大学出版社，2008年。

综述论文

LLMs中代理强化学习的现状：综述由 Guibin Zhang、Hejia Geng、Xiaohang Yu、Zhenfei Yin、Zaibin Zhang、Zelin Tan、Heng Zhou、Zhongzhi Li、Xiangyuan Xue、Yijiang Li、Yifan Zhou、Yang Chen、Chen Zhang、Yutao Fan、Zihu Wang、Songtao Huang、Yue Liao、Hongru Wang、Mengyue Yang、Heng Ji、Michael Littman、Jun Wang、Shuicheng Yan、Philip Torr 和 Lei Bai 共同撰写。2025年。[GitHub]
基于模型的多智能体强化学习：最新进展与展望由 Xihuai Wang、Zhicheng Zhang 和 Weinan Zhang 共同撰写。2022年。
从博弈论视角看多智能体强化学习概述由 Yaodong Yang 和 Jun Wang 共同撰写。2020年。
多智能体深度强化学习的综述与评论由 Pablo Hernandez-Leal、Bilal Kartal 和 Matthew E. Taylor 共同撰写。2019年。
多智能体强化学习：理论与算法的精选概述由 Kaiqing Zhang、Zhuoran Yang 和 Tamer Başar 共同撰写。2019年。
多智能体强化学习系统中迁移学习的综述由 Silva、Felipe Leno da；Costa、Anna Helena Reali 共同撰写。JAIR，2019年。
多智能体强化学习中知识的自主复用由 Silva、Felipe Leno da；Taylor、Matthew E.；Costa、Anna Helena Reali 共同撰写。IJCAI，2018年。
多智能体学习算法的深度强化学习变体由 Castaneda A O 共同撰写。2016年。
多智能体学习的演化动力学：综述由 Bloembergen、Daan 等人共同撰写。JAIR，2015年。
博弈论与多智能体强化学习由 Nowé A、Vrancx P、De Hauwere Y M 共同撰写。强化学习。施普林格柏林海德堡，2012年。
多智能体强化学习概述由 Buşoniu L、Babuška R、De Schutter B 共同撰写。多智能体系统及应用创新-1。施普林格柏林海德堡，2010年。
多智能体强化学习的全面综述由 Busoniu L、Babuska R、De Schutter B 共同撰写。IEEE系统、人机与网络学杂志C部分：应用与评论，2008年。
如果多智能体学习是答案，那么问题是什么？由 Shoham Y、Powers R、Grenager T 共同撰写。人工智能，2007年。
从单智能体到多智能体强化学习：基础概念和方法由 Neto G 共同撰写。学习理论课程，2005年。
进化博弈论与多智能体强化学习由 Tuyls K、Nowé A 共同撰写。知识工程评论，2005年。
合作与竞争性多智能体学习概述由 Pieter Jan ’t Hoen、Karl Tuyls、Liviu Panait、Sean Luke、J. A. La Poutré 共同撰写。AAMAS的工作坊LAMAS，2005年。
合作性多智能体学习：现状由 Liviu Panait 和 Sean Luke 共同撰写，2005年。

研究论文

LLM中的MARL

CoMAS：通过交互奖励实现多智能体系统的协同进化作者：薛向远、周一帆、张贵斌、张再彬、李义江、张晨、尹振飞、菲利普·托尔、欧阳万利和白磊。2025年。
人机协作中的互为主观理论：基于LLM驱动的AI代理在实时共享工作空间任务中的实证研究作者：张绍*、王希怀*、张文浩、陈永山、高兰迪、王大阔、张伟楠、王新兵和温颖。2024年。
基于大型语言模型的多智能体系统：进展与挑战综述作者：郭泰成、陈秀英、王雅琪、常瑞迪、裴世超、尼特什·V·乔拉、奥拉夫·维斯特和张祥亮。2024年。
利用大型语言模型优化文本型多智能体强化学习中的协调作者：斯拉姆伯斯、奥利弗、大卫·亨利·姆古尼、邵坤和王军。2024年。
通过大型语言模型实现多智能体协作的理论思维作者：李华欧、仇宇权、西蒙·施特普蒂斯、约瑟夫·坎贝尔、达娜·休斯、迈克尔·刘易斯和卡蒂娅·西卡拉。2023年。

框架

自动驾驶中的双层优化安全多智能体强化学习作者：郑志和顾尚定，2024年。
多智能体约束策略优化作者：顾尚定、雅库布·格鲁津·库巴、温慕宁、陈瑞清、王子渊、田正、王军、阿洛伊斯·克诺尔和杨耀东，2021年。
解决多智能体策略梯度的方差问题作者：库巴·雅库布、温慕宁、孟令辉、顾尚定、张海峰、大卫·姆古尼、王军和杨耀东，NIPS 2021。
QMIX：用于深度多智能体强化学习的单调值函数分解作者：塔比什·拉希德、米卡耶尔·萨姆韦良、克里斯蒂安·施罗德·德·维特、格雷戈里·法夸尔、雅各布·福斯特、西蒙·怀特森。ICML 2018。
平均场多智能体强化学习作者：杨耀东、罗睿、李敏、周明、张伟楠和王军。ICML 2018。
混合合作-竞争环境下的多智能体演员-评论家算法作者：Lowe R、Wu Y、Tamar A等。arXiv，2017年。
部分可观测条件下的深度去中心化多任务多智能体强化学习作者：Omidshafiei S、Pazis J、Amato C等。arXiv，2017年。
用于学习玩《星际争霸》战斗游戏的多智能体双向协调网络作者：彭鹏、袁强、文勇等。arXiv，2017年。
鲁棒对抗性强化学习作者：莱瑞尔·平托、詹姆斯·戴维森、拉胡尔·苏克坦卡尔和阿比纳夫·古普塔。arXiv，2017年。
稳定深度多智能体强化学习的经验回放作者：福斯特 J、纳尔德利 N、法夸尔 G等。arXiv，2017年。
通过协商和知识转移实现稀疏交互的多智能体强化学习作者：周立、杨鹏、陈超等。IEEE控制论汇刊，2016年。
面向动态不确定环境的去中心化多智能体强化学习作者：马林斯库 A、杜斯帕里奇 I、泰勒 A等。arXiv，2014年。
清理奖励：通过反事实行动去除多智能体学习中的探索性动作噪声作者：霍姆斯帕克 C、泰勒 M E、阿戈吉诺 A等。AAMAS，2014年。
具有状态不确定性多智能体系统的贝叶斯强化学习作者：阿马托 C、奥利霍克 F A。MSDM研讨会，2013年。
多智能体学习：基础、挑战与展望作者：图尔斯·卡尔和格哈德·魏斯。人工智能杂志，2012年。
具有epsilon-greedy探索的多智能体q-learning动力学类别作者：温德 M、利特曼 M L、巴贝斯 M。ICML，2010年。
用于多智能体强化学习的条件随机场作者：张晓、阿伯丁 D、维什瓦纳坦 S V N。ICML，2007年。
使用策略和投票进行多智能体强化学习作者：帕塔拉斯、伊奥annis·费内里斯和伊奥annis·弗拉哈瓦斯。ICTAI，2007年。
部分可观测多智能体游戏的强化学习方案作者：石井 S、藤田 H、光武 M等。机器学习，2005年。
非对称多智能体强化学习作者：科农恩 V。网络智能与智能体系统，2004年。
多智能体学习中的适应性策略梯度作者：班纳吉 B、彭 J。AAMAS，2003年。
为团队马尔可夫游戏中博弈最优纳什均衡而设计的强化学习作者：王旭和桑德霍姆 T。NIPS，2002年。
使用可变学习率的多智能体学习作者：迈克尔·鲍林和曼努埃拉·维洛索，2002年。
马尔可夫游戏中基于价值函数的强化学习作者：利特曼 M L。认知系统研究，2001年。
层次化多智能体强化学习作者：马卡尔、拉杰巴拉、斯里达尔·马哈德万和穆罕默德·加瓦姆扎德赫。第五届自主智能体国际会议，2001年。
多智能体强化学习的随机博弈理论分析作者：迈克尔·鲍林和曼努埃拉·维洛索，2000年。

联合行动学习

AWESOME：一种在自我对弈中收敛且能针对静态对手学习最佳应对策略的通用多智能体学习算法，作者：Conitzer V、Sandholm T。机器学习，2007年。
将Q学习扩展到通用自适应多智能体系统，作者：Tesauro, Gerald。NIPS，2003年。
多智能体强化学习：理论框架与算法，作者：Hu, Junling 和 Michael P. Wellman。ICML，1998年。
合作型多智能体系统中强化学习的动力学，作者：Claus C、Boutilier C。AAAI，1998年。
马尔可夫博弈作为多智能体强化学习的框架，作者：Littman, Michael L。ICML，1994年。

合作与竞争

顺序很重要：基于智能体的策略优化，作者：Xihuai Wang、Zheng Tian、Ziyu Wan、Ying Wen、Jun Wang、Weinan Zhang，ICLR 2023。
多智能体强化学习中的交互模式解耦，作者：Shunyu Liu、Jie Song、Yihe Zhou、Na Yu、Kaixuan Chen、Zunlei Feng、Mingli Song。TPAMI，2024年。
面向多智能体价值分解的对比式身份感知学习，作者：Shunyu Liu、Yihe Zhou、Jie Song、Tongya Zheng、Kaixuan Chen、Tongtian Zhu、Zunlei Feng、Mingli Song。AAAI，2023年。
集中训练与分散执行框架对于MARL来说是否足够集中？，作者：Yihe Zhou、Shunyu Liu、Yunpeng Qing、Kaixuan Chen、Tongya Zheng、Yanhao Huang、Jie Song、Mingli Song。2023年。
多智能体强化学习是一个序列建模问题，作者：Wen、Muning、Jakub Grudzien Kuba、Runji Lin、Weinan Zhang、Ying Wen、Jun Wang 和 Yaodong Yang，2022年。
随机博弈中马尔可夫均衡的复杂性，作者：Daskalakis, Constantinos、Noah Golowich 和 Kaiqing Zhang，2022年。
多智能体强化学习中的信任域策略优化，作者：Kuba、Jakub Grudzien、Ruiqing Chen、Munning Wen、Ying Wen、Fanglei Sun、Jun Wang 和 Yaodong Yang，ICLR 2022。
基于模型的多智能体策略优化与自适应对手模拟滚动，作者：Weinan Zhang、Xihuai Wang、Jian Shen 和 Ming Zhou。IJCAI 2021。
PPO在合作型多智能体游戏中的惊人效果，作者：Chao Yu、Akash Velu、Eugene Vinitsky、Yu Wang、Alexandre Bayen、Yi Wu，2021年。
基于群体的强化学习在3D多人游戏中达到人类水平表现，作者：Max Jaderberg、Wojciech M. Czarnecki、Iain Dunning 等。Science 364.6443: 859-865，2019年。
通过多智能体竞争涌现的复杂性，作者：Trapit Bansal、Jakub Pachocki、Szymon Sidor、Ilya Sutskever、Igor Mordatch，2018年。
具有对手学习意识的学习，作者：Jakob Foerster、Richard Y. Chen2、Maruan Al-Shedivat、Shimon Whiteson、Pieter Abbeel、Igor Mordatch，2018年。
顺序型社会困境中的多智能体强化学习，作者：Leibo J Z、Zambaldi V、Lanctot M 等。arXiv，2017年。[文章]
使用深度强化学习进行合作型多智能体控制，作者：Gupta, J. K.、Egorov, M. 和 Kochenderfer, M。AAMAS 2017。
部分可观测多智能体环境中的强化学习：具有PAC界值的蒙特卡洛探索策略，作者：Roi Ceren、Prashant Doshi 和 Bikramjit Banerjee，页码530–538，AAMAS 2016。
深度强化学习中的对手建模，作者：He H、Boyd-Graber J、Kwok K 等。ICML 2016。
深度强化学习下的多智能体合作与竞争，作者：Tampuu A、Matiisen T、Kodelja D 等。arXiv，2015年。
社会困境中的情感型多智能体强化学习，作者：Yu C、Zhang M、Ren F。国际多智能体系统原理与实践会议，2013年。
共同利益与固定总和随机博弈中的多智能体强化学习：一项实验研究，作者：Bab, Avraham 和 Ronen I. Brafman。机器学习研究期刊，2008年。
在多智能体合作中结合策略搜索与规划，作者：Ma J、Cameron S。机器人足球世界杯，2008年。
通过收益传播实现协作型多智能体强化学习，作者：Kok J R、Vlassis N。JMLR，2006年。
在多智能体社会困境中学习合作，作者：de Cote E M、Lazaric A、Restelli M。AAMAS，2006年。
在重复的非零和博弈中学习竞争、妥协与合作，作者：Crandall J W、Goodrich M A。ICML，2005年。
稀疏合作型Q学习，作者：Kok J R、Vlassis N。ICML，2004年。
马尔可夫势博弈中多智能体策略梯度的全局收敛，作者：Leonardos, Stefanos、Will Overman、Ioannis Panageas 和 Georgios Piliouras。2021年。
马尔可夫α-势博弈：均衡近似与后悔分析，作者：Xin G 等，2023年。
零和马尔可夫博弈的自然演员-评论家框架，作者：Ahmet A. 等，ICML，2022年。

协作

ZSC-Eval：多智能体零样本协作的评估工具包和基准作者：王希怀、张绍、张文浩、董文涛、陈静晓、温颖、张伟楠。NeurIPS 2024。
无需人类数据即可与人类协作作者：DJ Strouse、Kevin R. McKee、Matt Botvinick、Edward Hughes、Richard Everett。NeurIPS 2021。
协调式多智能体模仿学习作者：Le H M、Yue Y、Carr P。arXiv，2017年。
网络化合作式多智能体系统中协作的强化社会学习作者：Hao J、Huang D、Cai Y 等。AAAI研讨会，2014年。
有限通信下的多智能体强化学习协作作者：Zhang, Chongjie 和 Victor Lesser。AAMAS，2013年。
协作引导的强化学习作者：Lau Q P、Lee M L、Hsu W。AAMAS，2012年。
多智能体强化学习中的协作：贝叶斯方法作者：Chalkiadakis G、Boutilier C。AAMAS，2003年。
协调式强化学习作者：Guestrin C、Lagoudakis M、Parr R。ICML，2002年。
合作式多智能体系统中协作的强化学习作者：Kapetanakis S、Kudenko D。AAAI/IAAI，2002年。

安全

马尔可夫安全博弈：空间安全问题中的学习作者：Klima R、Tuyls K、Oliehoek F。NIPS 多智能体系统的学习、推理与控制会议，2016年。
基于强化学习的多智能体合作捕获：应用于安全巡逻系统作者：Yasuyuki S、Hirofumi O、Tadashi M 等。控制会议（ASCC），2015年。
利用信息不对称提升安全博弈中的学习与适应能力作者：He X、Dai H、Ning P。INFOCOM，2015年。

自对弈

广义框架下自对弈算法的比较作者：Daniel Hernandez、Kevin Denamganai、Sam Devlin 等。IEEE 游戏事务期刊，2021年。
多智能体强化学习的统一博弈论方法作者：Marc Lanctot、Vinicius Zambaldi、Audrunas Gruslys、Angeliki Lazaridou、Karl Tuyls、Julien Perolat、David Silver。NIPS 2017。
不完美信息博弈中的深度自对弈强化学习作者：Heinrich Johannes、David Silver。arXiv，2016年。
扩展形式博弈中的虚构自对弈作者：Heinrich Johannes、Marc Lanctot、David Silver。ICML，2015年。

学习沟通

[Hammer：通过学习的消息传递实现强化学习智能体的多级协作] 作者：Nikunj Gupta、G. Srinivasaraghavan、Swarup Mohalik、Nishant Kumar 和 Matthew E. Taylor，《神经计算与应用》，2023年。
使用自编码器学习多智能体通信的语义基础作者：Lin Toru、Jacob Huh、Christopher Stauffer、Ser Nam Lim 和 Phillip Isola。2021年。
通过谈判产生的新兴通信作者：Kris Cao、Angeliki Lazaridou、Marc Lanctot、Joel Z Leibo、Karl Tuyls、Stephen Clark。2018年。
符号与像素输入参考游戏中的语言交流涌现作者：Angeliki Lazaridou、Karl Moritz Hermann、Karl Tuyls、Stephen Clark。ICLR 2018。
多智能体游戏中语言的涌现：学习用符号序列进行沟通作者：Serhii Havrylov、Ivan Titov。ICLR 研讨会，2017年。
使用深度强化学习学习合作性视觉对话智能体作者：Abhishek Das、Satwik Kottur 等。arXiv，2017年。
多智能体群体中具身组合语言的涌现作者：Igor Mordatch、Pieter Abbeel。arXiv，2017年。[帖子]
多智能体深度强化学习中的合作与沟通作者：Hausknecht M J。2017年。
多智能体合作与（自然）语言的涌现作者：Lazaridou A、Peysakhovich A、Baroni M。arXiv，2016年。
使用深度分布式循环Q网络学习沟通以解决谜题作者：Foerster J N、Assael Y M、de Freitas N 等。arXiv，2016年。
使用深度多智能体强化学习学习沟通作者：Foerster J、Assael Y M、de Freitas N 等。NIPS，2016年。
通过反向传播学习多智能体通信作者：Sukhbaatar S、Fergus R。NIPS，2016年。
通过协商实现高效的分布式强化学习作者：Varshavskaya P、Kaelbling L P、Rus D。分布式自主机器人系统，2009年。

迁移学习

在多智能体强化学习中同时学习与指导作者：Silva, Felipe Leno da；Glatt, Ruben；以及 Costa, Anna Helena Reali。AAMAS，2017年。
通过迁移学习加速多智能体强化学习作者：Silva, Felipe Leno da；以及 Costa, Anna Helena Reali。AAAI，2017年。
通过动态协同学习加速多智能体强化学习作者：Garant D、da Silva B C、Lesser V 等。技术报告，2015年。
通过并行迁移在多智能体系统中进行迁移学习作者：Taylor, Adam 等。ICML，2013年。
多智能体强化学习领域的迁移学习作者：Boutsioukis, Georgios、Ioannis Partalas 和 Ioannis Vlahavas。欧洲强化学习研讨会，2011年。
用于多智能体协作的迁移学习作者：Vrancx, Peter、Yann-Michaël De Hauwere 和 Ann Nowé。ICAART，2011年。

模仿学习与逆强化学习

关于为人类-AI协作学习人类行为的效用作者：Micah Carroll、Rohin Shah、Mark K. Ho、Thomas L. Griffiths、Sanjit A. Seshia、Pieter Abbeel、Anca Dragan。NeurIPS 2019。
多智能体对抗性逆强化学习作者：Lantao Yu、Jiaming Song、Stefano Ermon。ICML 2019。
多智能体生成式对抗模仿学习作者：Jiaming Song、Hongyu Ren、Dorsa Sadigh、Stefano Ermon。NeurIPS 2018。
合作式逆强化学习作者：Hadfield-Menell D、Russell S J、Abbeel P 等。NIPS，2016年。
在模拟足球场景中比较多智能体与单智能体逆向学习作者：Lin X、Beling P A、Cogill R。arXiv，2014年。
零和博弈中的多智能体逆强化学习作者：Lin X、Beling P A、Cogill R。arXiv，2014年。
考虑交互作用的遮挡条件下多机器人逆强化学习作者：Bogert K、Doshi P。AAMAS，2014年。
多智能体逆强化学习作者：Natarajan S、Kunapuli G、Judah K 等。ICMLA，2010年。

元学习

非平稳且竞争性环境下的元学习连续适应作者：l-Shedivat, M。2018年。

应用

基于可用性奖励模型和多智能体强化学习的移动用户界面自适应作者：Vidmanov Dmitry、Alfimtsev Alexander。多模态技术与交互，2024年。
真实机器人控制中采用软约束策略优化的安全多智能体学习作者：Shangding Gu、Dianye Huang、Muning Wen、Guang Chen、Alois Knoll。IEEE TII，2024年。
MuZero结合自我竞争用于VP9视频压缩中的速率控制作者：Amol Mandhane、Anton Zhernov、Maribeth Rauh、Chenjie Gu 等。arXiv，2022年。
MAgent：面向人工群体智能的多智能体强化学习平台作者：Zheng L 等。NIPS 2017 & AAAI 2018演示。（Github页面）
用于联合目标搜索的协作式深度强化学习作者：Kong X、Xin B、Wang Y 等。arXiv，2017年。
建筑模拟中的人群多智能体随机仿真作者：Chapman J、Siebers P、Darren R。建筑模拟，2017年。
扩展No-MASS：用于住宅电器需求响应的多智能体随机仿真作者：Sancho-Tomás A、Chapman J、Sumner M、Darren R。建筑模拟，2017年。
用于自动驾驶的安全多智能体强化学习作者：Shalev-Shwartz S、Shammah S、Shashua A。arXiv，2016年。
将多智能体强化学习应用于流域管理作者：Mason、Karl 等。AAMAS自适应与学习代理研讨会论文集，2016年。
通过多智能体强化学习进行人群仿真作者：Torrey L。AAAI，2010年。
多智能体强化学习系统控制交通信号灯作者：Bakker、Bram 等。交互式协作信息系统，2010年。
利用协调图进行城市交通控制的多智能体强化学习作者：Kuyer、Lior 等。欧洲机器学习与数据库知识发现联合会议，2008年。
用于优化股票交易系统的多智能体Q学习框架作者：Lee J W、Jangmin O。DEXA，2002年。
用于交通信号灯控制的多智能体强化学习作者：Wiering、Marco。ICML，2000年。

网络化MARL

QD-Learning：一种通过共识创新实现多智能体强化学习的协同分布式策略作者：Kar、Soummya 和 Moura、José M. F. 以及 Poor、H. Vincent。IEEE信号处理汇刊，2013年。
具有网络化智能体的完全去中心化多智能体强化学习作者：Kaiqing Zhang、Zhuoran Yang、Han Liu、Tong Zhang、Tamer Basar。ICML 2018。
用于去中心化网络化深度多智能体强化学习的价值传播作者：Chao Qu、Shie Mannor、Huan Xu、Yuan Qi、Le Song、Junwu Xiong。NIPS 2019。
用于网络化系统控制的多智能体强化学习作者：Tianshu Chu、Sandeep Chinchali、Sachin Katti。ICLR 2020。
F2A2：用于合作式多智能体强化学习的灵活全去中心化近似演员-评论家算法作者：Wenhao Li、Bo Jin、Xiangfeng Wang、Junchi Yan、Hongyuan Zha。arXiv，2020年。
多智能体网络化系统局部策略的可扩展强化学习作者：Guannan Qu、Adam Wierman、Na Li。L4DC 2020。
具有网络化智能体的去中心化批量多智能体强化学习的有限样本分析作者：Zhang、Kaiqing 和 Yang、Zhuoran 以及 Liu、Han 和 Zhang、Tong 和 Başar、Tamer。TAC 2021。

常见问题

如何添加新的 MARL 相关主题？

是否有新的 MARL 书籍推荐？

该分类是否会持续更新？

如何处理缺失的高被引论文？

如何修复失效的链接？

如何解决无法访问的文献链接？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架