LLM-Agent-Paper-List

8.1k 492 非常简单 1 次阅读今天开发框架Agent语言模型

AI 解读由 AI 自动生成，仅供参考

LLM-Agent-Paper-List 是一个专注于大语言模型（LLM）智能体领域的学术资源库，旨在系统整理和追踪该方向的前沿研究论文。它源于团队发表在《中国科学：信息科学》封面的综述文章《基于大语言模型的智能体的崛起与潜力》，核心目标是解决研究人员在面对海量文献时难以快速定位高质量、必读论文的痛点。

该资源库不仅提供了一份精心筛选的论文清单，还构建了涵盖智能体“大脑、感知、行动”三大核心组件的概念框架，并深入探讨了单体、多体及人机协作等多种应用场景与社会化行为。除了静态的文献列表，项目还持续更新相关技术动态，例如配套推出的 AgentGym 平台及其强化学习版本 AgentGym-RL，支持开发者在自定义环境中训练智能体进行长程决策，并提供可视化工具以复现和分析智能体的决策轨迹。

LLM-Agent-Paper-List 特别适合人工智能领域的研究人员、高校师生以及希望深入了解 LLM 智能体架构的开发者使用。无论是想要快速把握领域发展脉络，还是寻找具体的算法实现与数据集，这里都能提供极具价值的指引，是探索通用人工智能（AGI）路径的重要参考站。

使用场景

某高校人工智能实验室的博士生正在撰写关于“大语言模型智能体强化学习”的综述论文，急需梳理该领域的最新进展与核心文献。

没有 LLM-Agent-Paper-List 时

文献检索如大海捞针：需要在 arXiv、Google Scholar 等多个平台反复搜索关键词，难以区分哪些是真正具有里程碑意义的必读论文，效率极低。
知识体系支离破碎：收集到的论文杂乱无章，缺乏统一的框架（如大脑、感知、行动）进行归类，难以构建系统的理论认知。
错过关键前沿动态：容易遗漏像 AgentGym-RL 这样刚刚发布、支持多轮强化学习的最新成果，导致研究内容滞后于社区发展。
复现与环境搭建困难：找到论文后，往往需要花费大量时间单独寻找对应的代码库、数据集或交互式前端，甚至发现资源已失效。

使用 LLM-Agent-Paper-List 后

一站式获取权威书单：直接基于 86 页 SCIS 封面综述论文整理的清单，快速锁定涵盖单智能体、多智能体及社会行为等方向的必读文献。
结构化掌握技术脉络：依托工具提供的“大脑 - 感知 - 行动”概念框架，将零散论文有序归档，迅速理清技术演进路线。
实时同步最新突破：通过新闻板块即时捕捉到 2025 年 9 月发布的 AgentGym-RL 框架及其教程，确保研究紧跟最前沿的长程决策训练方法。
资源链接直达可用：每篇重要论文均附带项目主页、GitHub 代码库及 HuggingFace 数据集链接，甚至包含可可视化的交互前端，大幅缩短复现路径。

LLM-Agent-Paper-List 将原本数周的文献调研工作压缩至数小时，让研究者能从繁琐的信息搜集转向深度的创新思考。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（LLM-Agent-Paper-List）主要是一个关于基于大语言模型（LLM）的智能体（Agents）的论文列表和综述资源，并非一个可直接运行的软件工具或框架，因此 README 中未提供具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。文中提到的相关代码实现（如 AgentGym, R3 等）位于独立的外部仓库链接中，需参考那些具体项目的文档以获取环境配置信息。

python未说明

快速开始

基于大型语言模型的智能体的兴起与潜力：综述

🔥 基于LLM的智能体必读论文。

🏃 即将推出：为每篇论文添加一句话简介。

🔔 新闻

🎉 [2025-09-10] 注意！您可以在AgentGym中开发自定义环境，并在其上进行强化学习！教程请见这里。
🍺 [2025-09-10] arXiv上新论文发布：AgentGym-RL：通过多轮强化学习训练LLM智能体进行长 horizon 决策。
🚀 [2025-09-10] AgentGym-RL框架发布！我们推出了AgentGym的强化学习（RL）版本，使智能体能够直接从交互式环境中学习：AgentGym-RL。
👀 [2025/09/03] AgentGym现提供交互式前端用于可视化。研究人员可以回放和检查完整的轨迹、逐步查看智能体的决策过程，并更方便地分析模型行为。
☄️ [2024/06/07] AgentGym已发布，用于在多样化环境中开发和演化基于LLM的智能体！
- 论文：AgentGym。
- 项目页面：https://agentgym.github.io/。
- 代码：平台与实现。
- Huggingface资源：AgentTraj-L、AgentEval、AgentEvol-7B。
🎉 [2024/05/02] R3（通过逆向课程强化学习训练大型语言模型进行推理）已被ICML 2024接受！
💫 [2024/02/08] 关于LLM智能体推理的强化学习新论文R3已发布！论文：通过逆向课程强化学习训练大型语言模型进行推理。代码：LLM-Reverse-Curriculum-RL。
🥳 [2023/09/20] 本项目已被列入Github Trendings! 这是一项巨大的荣誉！
💥 [2023/09/15] 我们的综述已发布！论文详见基于大型语言模型的智能体的兴起与潜力：综述！
✨ [2023/09/14] 我们创建了这个仓库，用于维护关于基于LLM的智能体的论文列表。更多论文即将发布！

🌟 引言

长期以来，人类一直在追求达到或超越人类水平的人工智能（AI），而AI智能体被视为实现这一目标的有力工具。AI智能体是能够感知环境、做出决策并采取行动的人工实体。

由于其多功能性和卓越的能力，大型语言模型（LLMs）被认为是通用人工智能（AGI）的潜在火花，为构建通用AI智能体带来了希望。许多研究工作已经以LLMs为基础来构建AI智能体，并取得了显著进展。

在本仓库中，我们提供了关于基于LLM的智能体的系统性综合综述，并列出了几篇必读论文。

具体而言，我们首先介绍基于LLM的智能体的一般概念框架：该框架由大脑、感知和行动三个主要组件构成，并可根据不同应用进行定制。随后，我们探讨了基于LLM的智能体在三个方面的大规模应用：单智能体场景、多智能体场景以及人机协作。接着，我们深入研究智能体社会，探索基于LLM的智能体的行为与个性、它们形成社会时出现的社会现象，以及这些现象对人类社会的启示。最后，我们讨论了该领域内的一系列关键议题和开放问题。

我们非常感谢通过PR、Issue、邮件或其他方式提出的任何贡献。

目录 (ToC)

基于大型语言模型的智能体的兴起与潜力：综述

1. 智能体的诞生：基于LLM的智能体构建

1.1 大脑：主要由LLM构成

1.1.1 自然语言交互

高质量生成

[2023年10月] 通过多模态大型语言模型实现端到端具身决策：与GPT4-Vision及其他模型的探索 陈亮等人 arXiv. [论文] [代码]
- 该研究提出了PCA-EVAL，从感知、认知和行动三个层面，对基于MLLM的端到端方法以及基于LLM的工具使用方法进行具身决策的基准测试。
[2023年8月] ChatGPT在推理、幻觉和交互性方面的多任务、多语言、多模态评估。 Yejin Bang等人 arXiv. [论文]
- 该研究使用涵盖8种常见NLP应用任务的21个数据集，评估了ChatGPT的多任务、多语言和多模态特性。
[2023年6月] LLM-Eval：针对大型语言模型开放域对话的统一多维度自动评估。 林延婷等人 arXiv. [论文]
- LLM-Eval方法评估了内容、语法、相关性及恰当性等多个维度。
[2023年4月] ChatGPT是否为高度流畅的语法错误修正系统？一项全面评估。 方涛等人 arXiv. [论文]
- 评估结果显示，ChatGPT具有出色的错误检测能力，并且能够自由地纠正错误，使修正后的句子非常流畅。此外，其在非英语和低资源环境中的表现也凸显了它在多语言语法错误修正任务中的潜力。

深度理解

[2023/06] 聪明汉斯还是神经心智理论？大型语言模型中的社交推理压力测试。 Natalie Shapira 等人，arXiv。 [论文]
- LLMs 展现出一定的心智理论能力，但这种行为远未达到稳健水平。
[2022/08] 从上下文中通过语言推断奖励。 Jessy Lin 等人，ACL。 [论文]
- 该研究提出了一种能够从语言中推断奖励并在未见环境中预测最优动作的模型。
[2021/10] 基于心智理论的复杂人机协作辅助沟通。 Moritz C. Buehler 等人，arXiv。 [论文]
- 该研究设计了一个在交互过程中理解人类意图的智能体 Sushi。

1.1.2 知识

预训练模型

[2023/04] 从未标注数据中学习句子的分布式表示。 Felix Hill（剑桥大学）等，arXiv。 [论文]
[2020/02] 语言模型的参数中能容纳多少知识？ Adam Roberts（谷歌）等，arXiv。 [论文]
[2020/01] 神经语言模型的规模法则。 Jared Kaplan（约翰霍普金斯大学）等，arXiv。 [论文]
[2017/12] 机器智能中的常识知识。 Niket Tandon（艾伦人工智能研究所）等，SIGMOD。 [论文]
[2011/03] 从零开始的自然语言处理（几乎）。 Ronan Collobert（普林斯顿大学）等，arXiv。 [论文]

语言学知识

[2023/02] ChatGPT 在推理、幻觉和交互性方面的多任务、多语言、多模态评估。 Yejin Bang 等，arXiv。 [论文]
[2021/06] 探测预训练语言模型中的语义属性及其取值。 Meriem Beloucif 等，EMNLP。 [论文]
[2020/10] 探测预训练语言模型中的词汇语义。 Ivan Vulić 等，arXiv。 [论文]
[2019/04] 一种用于在词表示中寻找句法结构的结构性探测方法。 John Hewitt 等，ACL。 [论文]
[2016/04] 在获得更多语义知识的情况下改进自动关键词提取。 H Leung。高级应用系统。 [论文]

常识知识

[2022/10] 代码语言模型是少样本的常识学习者。 Aman Madaan 等，arXiv。 [论文]
[2021/04] 上下文语言模型中的关系型世界知识表示：综述。 Tara Safavi 等，arXiv。 [论文]
[2019/11] 我们如何知道语言模型掌握了什么知识？ Zhengbao Jiang 等，arXiv。 [论文]

可操作知识

[2023/07] 大型语言模型在医学领域的应用。 Arun James Thirunavukarasu 等，Nature。 [论文]
[2023/06] DS-1000：一个自然且可靠的用于数据科学代码生成的基准测试。 Yuhang Lai 等，ICML。 [论文]
[2022/10] 代码语言模型是少样本的常识学习者。 Aman Madaan 等，arXiv。 [论文]
[2022/02] 对大型代码语言模型的系统性评估。 Frank F. Xu 等，arXiv。 [论文]
[2021/10] 训练验证器解决数学文字题。 Karl Cobbe 等，arXiv。 [论文]

知识的潜在问题

[2023/10] FreshLLMs：利用搜索引擎增强刷新大型语言模型。 Tu Vu（谷歌）等，arXiv。 [论文] [代码]
[2023/05] 编辑大型语言模型：问题、方法与机遇。 Yunzhi Yao 等，arXiv。 [论文]
[2023/05] Self-Checker：用于大型语言模型事实核查的即插即用模块。 Miaoran Li 等，arXiv。 [论文]
[2023/05] CRITIC：大型语言模型可通过工具交互式批评实现自我修正。 Zhibin Gou 等，arXiv。 [论文]
[2023/04] 使用基础模型进行工具学习。 Yujia Qin 等，arXiv。 [论文]
[2023/03] SelfCheckGPT：针对生成式大型语言模型的零资源黑盒幻觉检测。 Potsawee Manakul 等，arXiv。 [论文]
[2022/06] 大规模基于记忆的模型编辑。 Eric Mitchell 等，arXiv。 [论文]
[2022/04] 关于语言模型作为知识库的综述。 Badr AlKhamissi 等，arXiv。 [论文]
[2021/04] 编辑语言模型中的事实性知识。 Nicola De Cao 等，arXiv。 [论文]
[2017/08] 衡量神经网络中的灾难性遗忘现象。 Ronald Kemker 等，arXiv。 [论文]

1.1.3 记忆

记忆能力

提升 Transformer 的序列长度限制

[2023/10] MemGPT：迈向将大语言模型作为操作系统。 查尔斯·帕克（加州大学伯克利分校）等，arXiv预印本。 [论文] [项目页面] [代码] [数据集]
[2023/05] 随机位置编码提升Transformer模型的长度泛化能力。 安尼安·鲁奥斯（DeepMind）等，arXiv预印本。 [论文] [代码]
[2023年3月] CoLT5：基于条件计算的更快速长距离Transformer模型。 乔舒亚·艾恩斯利（谷歌研究院）等，arXiv预印本。 [论文]
[2022/03] 利用Transformer高效分类长文档。 玄智海莉·朴（伊利诺伊大学）等，arXiv预印本。 [论文] [代码]
[2021/12] LongT5：用于长序列的高效文本到文本Transformer模型。 曼迪·郭（谷歌研究院）等，arXiv预印本。 [论文] [代码]
[2019/10] BART：面向自然语言生成、翻译和理解的去噪序列到序列预训练模型。 迈克尔·刘易斯（Facebook AI）等，arXiv预印本。 [论文] [代码]

总结记忆

[2023/10] 穿越记忆迷宫：通过交互式阅读突破上下文限制 霍华德·陈（普林斯顿大学）等，arXiv预印本。 [论文]
[2023/09] 通过大型语言模型链式调用赋能私人辅导 陈宇林（清华大学）等，arXiv预印本。 [论文]
[2023/08] ExpeL：LLM代理是体验式学习者。 赵安德（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/08] ChatEval：通过多智能体辩论打造更优秀的基于LLM的评估工具。 陈志敏（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/05] MemoryBank：用长期记忆增强大型语言模型。 钟万军（哈尔滨工业大学）等，arXiv预印本。 [论文] [代码]
[2023/04] 生成式代理：人类行为的交互式模拟体。 朴俊成（斯坦福大学）等，arXiv预印本。 [论文] [代码]
[2023/04] 自控记忆系统释放大规模语言模型的无限输入容量。 梁新念（北京航空航天大学）等，arXiv预印本。 [论文] [代码]
[2023/03] Reflexion：具备言语强化学习能力的语言代理。 诺亚·辛恩（东北大学）等，arXiv预印本。 [论文] [代码]
[2023/05] RecurrentGPT：交互式生成任意长度文本。 周旺春树（AIWaves）等，arXiv预印本。 [论文] [代码]

用向量或数据结构压缩记忆

[2023/07] 用于软件开发的沟通型智能体。 钱晨（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/06] ChatDB：以数据库作为符号化记忆增强LLM。 胡晨旭（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/05] Minecraft中的幽灵：基于文本知识与记忆的大语言模型在开放世界环境中的通用智能体。 朱锡洲（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/05] RET-LLM：迈向大型语言模型的通用读写记忆。 阿里·莫达雷西（慕尼黑大学）等，arXiv预印本。 [论文] [代码]
[2023/05] RecurrentGPT：交互式生成任意长度文本。 周旺春树（AIWaves）等，arXiv预印本。 [论文] [代码]

内存检索

[2023/08] 内存沙盒：对话型智能体的透明且交互式内存管理。 黄子恒（加州大学圣地亚哥分校）等，arXiv预印本。 [论文]
[2023/08] AgentSims：一个用于大型语言模型评估的开源沙盒。 林家驹（PTA Studio）等，arXiv预印本。 [论文] [项目页面] [代码]
[2023/06] ChatDB：以数据库作为符号化记忆增强LLM。 胡晨旭（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/05] MemoryBank：用长期记忆增强大型语言模型。 钟万军（哈尔滨工业大学）等，arXiv预印本。 [论文] [代码]
[2023/04] 生成式代理：人类行为的交互式模拟体。 朴俊成（斯坦福大学）等，arXiv预印本。 [论文] [代码]
[2023/05] RecurrentGPT：交互式生成任意长度文本。 周旺春树（AIWaves）等，arXiv预印本。 [论文] [代码]

1.1.4 推理与规划

推理

[2024/02] 通过逆序课程强化学习训练大型语言模型进行推理。 奚志恒（复旦大学）等，arXiv预印本。 [论文] [代码]
[2023/09] ReConcile：圆桌会议通过多元LLM间的共识提升推理能力。 陈志尧（北卡罗来纳大学教堂山分校）等，arXiv预印本。 [论文] [代码]
[2023/05] Self-Polish：通过问题精炼提升大语言模型的推理能力。 Zhiheng Xi（复旦大学）等，arXiv。 [论文] [代码]
[2023-03] 大语言模型是零样本推理者。 Takeshi Kojima（东京大学）等，arXiv。 [论文] [代码]
[2023/03] Self-Refine：基于自我反馈的迭代精炼。 Aman Madaan（卡内基梅隆大学）等，arXiv。 [论文] [代码]
[2022/05] 选择—推理：利用大语言模型实现可解释的逻辑推理。 Antonia Creswell（DeepMind）等，arXiv。 [论文]
[2022/03] 自一致性改进了语言模型中的思维链推理。 Xuezhi Wang（谷歌研究院）等，arXiv。 [论文] [代码]
[2023/02] 语言模型中的多模态思维链推理。 Zhuosheng Zhang（上海交通大学）等，arXiv。 [论文] [代码]
[2022/01] 思维链提示在大语言模型中激发推理能力。 Jason Wei（谷歌研究院）等，arXiv。 [论文]

规划

计划制定

[2023/11] JARVIS-1：基于记忆增强型多模态语言模型的开放世界多任务智能体。 ZiHao Wang（北京大学）等，arXiv。 [论文] [代码]
[2023/10] 语言智能体树搜索统一了语言模型中的推理、行动与规划。 Andy Zhou（伊利诺伊大学厄巴纳-香槟分校）等，arXiv。 [论文] [项目页面] [代码]
[2023/05] 思维之树：利用大语言模型进行审慎的问题解决。 Shunyu Yao（普林斯顿大学）等，arXiv。 [论文] [代码]
[2023/05] 计划、排除与追踪——语言模型是具身智能体的好老师。 Yue Wu（卡内基梅隆大学）等，arXiv。 [论文]
[2023/05] 利用语言模型进行推理即是在使用世界模型进行规划。 Shibo Hao（加州大学圣地亚哥分校）等，arXiv。 [论文] [代码]
[2023/05] SwiftSage：一种具备快慢思维的生成式智能体，适用于复杂交互任务。 Bill Yuchen Lin（艾伦人工智能研究所）等，arXiv。 [论文] [代码]
[2023/04] LLM+P：用最优规划能力赋能大语言模型。 Bo Liu（德克萨斯大学奥斯汀分校）等，arXiv。 [论文] [代码]
[2023/03] HuggingGPT：借助ChatGPT及其在Hugging Face中的伙伴解决AI任务。 Yongliang Shen（微软亚洲研究院）等，arXiv。 [论文] [代码]
[2023/02] 描述、解释、计划与选择：基于大语言模型的交互式规划使开放世界多任务智能体成为可能。 ZiHao Wang（北京大学）等，arXiv。 [论文] [代码]
[2022/05] 从最简到最繁提示法使大语言模型能够进行复杂推理。 Denny Zhou（谷歌研究院）等，arXiv。 [论文]
[2022/05] MRKL系统：一种模块化、神经符号架构，结合了大语言模型、外部知识源和离散推理。 Ehud Karpas（AI21 Labs）等，arXiv。 [论文]
[2022/04] 照我所做，而非照我说：将语言与机器人操作可能性相结合。 Michael Ahn（谷歌机器人团队）等，arXiv。 [论文]
[2023/05] Agents：一个用于自主语言智能体的开源框架。 Wangchunshu Zhou（AIWaves）等，arXiv。 [论文] [代码]
[2022/12] 不要生成，要判别：一种将语言模型接地于真实世界环境的方案。 Yu Gu（俄亥俄州立大学）等，ACL。 [论文] [代码]

计划反思

[2024/02] Agent-Pro：通过策略级反思与优化实现自我进化 张文琪（浙江大学）等，arXiv. [论文] [代码]
[2024/01] 自对比：通过不一致的求解视角实现更优的反思 张文琪（浙江大学）等，arXiv. [论文]
[2023/11] JARVIS-1：基于记忆增强型多模态语言模型的开放世界多任务智能体。 王子豪（北京大学）等，arXiv. [论文] [代码]
[2023/10] 验证链可降低大型语言模型的幻觉现象。 谢赫扎德·杜利亚瓦拉（Meta AI & ETH苏黎世）等，arXiv. [论文]
[2023/10] FireAct：迈向语言智能体的微调。 陈百安（System2 Research）等，arXiv. [论文] [项目页面] [代码] [数据集]
[2023/08] SelfCheck：利用大语言模型对自身逐步推理进行零样本校验。 苗宁（牛津大学）等，arXiv. [论文] [代码]
[2023/05] ChatCoT：基于对话式大型语言模型的工具增强型思维链推理。 陈志鹏（中国人民大学）等，arXiv. [论文] [代码]
[2023/05] Voyager：基于大型语言模型的开放式具身智能体。 王冠智（NVIDIA）等，arXiv. [论文] [项目页面] [代码]
[2023/03] 与环境对话：利用大型语言模型实现交互式多模态感知。 赵旭峰（汉堡大学）等，arXiv. [论文] [代码]
[2022/12] LLM-Planner：基于大型语言模型的具身智能体少样本接地规划。 宋灿熙（俄亥俄州立大学）等，arXiv. [论文] [代码]
[2022/10] ReAct：在语言模型中协同推理与行动。 姚顺宇（普林斯顿大学）等，arXiv. [论文] [代码]
[2022/07] 内心独白：通过语言模型规划实现具身推理。 黄文龙（谷歌机器人团队）等，arXiv. [论文] [代码]
[2021/10] AI链条：通过串联大型语言模型提示实现透明且可控的人机交互。 吴彤爽（华盛顿大学）等，arXiv. [论文]

1.1.5 可迁移性与泛化能力

未见任务的泛化

[2024/06] AgentGym：跨多样化环境演化基于大型语言模型的智能体。 奚志恒（复旦大学）等，arXiv. [论文] [项目页面] [代码与平台] [数据集] [基准测试] [模型]。
[2023/10] AgentTuning：为大型语言模型赋予通用智能体能力。 曾傲寒（清华大学）等，arXiv. [论文] [项目页面] [代码] [数据集]
[2023/10] Lemur：为语言智能体协调自然语言与代码 许一恒（香港大学）等，arXiv. [论文] [代码]
[2023/05] 通过人类反馈训练语言模型以遵循指令。 欧阳龙等，NeurIPS. [论文]
- InstructGPT：通过人类反馈微调，使语言模型在广泛的任务上与用户意图保持一致。
[2023/01] 多任务提示训练可实现零样本任务泛化。 维克托·桑等人，ICLR. [论文] [代码]
- T0：T0是一种编码器-解码器模型，它接收文本输入并生成目标响应。该模型是在按不同任务划分的多任务NLP数据集混合物上训练而成。
[2022/10] 指令微调语言模型的扩展性研究。 郑炯元等人，arXiv. [论文] [代码]
- 该研究探讨了指令微调，特别关注任务数量和模型规模的扩展，这有助于提升多种模型类别、提示设置及评估基准上的性能。
[2022/08] 微调后的语言模型具备零样本学习能力。 杰森·魏等人，ICLR. [论文]
- FLAN：指令微调显著提升了在未见过任务上的零样本性能。

上下文学习

[2023/08] 图像用图像说话：用于上下文视觉学习的通用画家模型。 王新龙等人，IEEE. [论文] [代码]
- Painter：这项工作提出了一种以“图像”为中心的解决方案，用于上下文视觉学习的通用模型。
[2023/08] 神经编解码语言模型是零样本文本到语音合成器。 王成义等人，arXiv. [论文] [代码]
- VALL-E：这项研究训练了一个神经编解码语言模型，使其具备上下文学习的能力。
[2023/07] 关于上下文学习的综述。 董庆秀等人，arXiv. [论文]
- 该综述总结了上下文学习（ICL）的进展与挑战。
[2023/05] 语言模型是少样本学习者。 汤姆·B·布朗（OpenAI）等，NeurIPS. [论文]
- GPT-3：大规模扩展语言模型显著提升了其任务无关的少样本性能，有时甚至可以与先前最先进的微调方法相媲美。

持续学习

[2023/11] JARVIS-1：基于记忆增强型多模态语言模型的开放世界多任务智能体。 ZiHao Wang（北京大学）等，arXiv预印本。 [论文] [代码]
[2023/07] 渐进式提示：面向语言模型的持续学习。 Razdaibiedina 等，arXiv预印本。 [论文]
- 该工作提出了渐进式提示方法，能够在不依赖数据重放或大量任务特定参数的情况下实现正向迁移并抵抗灾难性遗忘。
[2023/05] Voyager：基于大型语言模型的开放式具身智能体。 Guanzhi Wang（NVIDIA）等，arXiv预印本。 [论文] [项目页面] [代码]
- Voyager：这是一个由 LLM 驱动的 Minecraft 中具身终身学习智能体示例，它无需人类干预即可持续探索世界、习得多样技能并进行新发现。
[2023/01] 持续学习的综合综述：理论、方法与应用。 Liyuan Wang 等，arXiv预印本。 [论文]
- 该综述全面回顾了持续学习领域，旨在打通基础设定、理论基础、代表性方法及实际应用之间的联系。
[2022/11] 自然语言处理任务中的持续学习：综述。 Zixuan Ke 等，arXiv预印本。 [论文]
- 该综述对 NLP 领域中持续学习的最新进展进行了全面回顾与分析。

1.2 感知：用于 LLM 基础智能体的多模态输入

1.2.1 视觉

[2024/01] Agent ai：多模态交互的前沿探索。 Zane Durante 等，arXiv预印本。 [论文]
[2023/10] 通过多模态大型语言模型实现端到端具身决策：基于 GPT4-Vision 及其扩展的探索。 Liang Chen 等，arXiv预印本。 [论文] [代码]
[2023/05] 语言并非万能：将感知与语言模型对齐。 Shaohan Huang 等，arXiv预印本。 [论文]
[2023/05] InstructBLIP：通过指令微调迈向通用视觉—语言模型。 Wenliang Dai 等，arXiv预印本。 [论文]
[2023/05] MultiModal-GPT：用于与人类对话的视觉—语言模型。 Tao Gong 等，arXiv预印本。 [论文]
[2023/05] PandaGPT：一个模型搞定所有指令遵循任务。 Yixuan Su 等，arXiv预印本。 [论文]
[2023/04] 视觉指令微调。 Haotian Liu 等，arXiv预印本。 [论文]
[2023/04] MiniGPT-4：利用先进大型语言模型提升视觉—语言理解能力。 Deyao Zhu，arXiv预印本。 [论文]
[2023/01] BLIP-2：基于冻结图像编码器和大型语言模型的自监督语言—图像预训练。 Junnan Li 等，arXiv预印本。 [论文]
[2022/04] Flamingo：用于少样本学习的视觉—语言模型。 Jean-Baptiste Alayrac 等，arXiv预印本。 [论文]
[2021/10] MobileViT：轻量级、通用且适合移动端的视觉 Transformer。 Sachin Mehta 等，arXiv预印本。 [论文]
[2021/05] MLP-Mixer：面向视觉的全 MLP 架构。 Ilya Tolstikhin 等，arXiv预印本。 [论文]
[2020/10] 一张图胜过 16×16 个词：用于大规模图像识别的 Transformer。 Alexey Dosovitskiy 等，arXiv预印本。 [论文]
[2017/11] 神经离散表征学习。 Aaron van den Oord 等，arXiv预印本。 [论文]

1.2.2 音频

[2023/06] Video-LLaMA：面向视频理解的指令微调音频—视觉语言模型。 Hang Zhang 等，arXiv预印本。 [论文]
[2023/05] X-LLM：将多模态视为外语来构建先进大型语言模型。 Feilong Chen 等，arXiv预印本。 [论文]
[2023/05] InternGPT：通过超越语言的方式与 ChatGPT 交互解决以视觉为中心的任务。 Zhaoyang Liu 等，arXiv预印本。 [论文]
[2023/04] AudioGPT：理解与生成语音、音乐、声音及说话头像。 Rongjie Huang 等，arXiv预印本。 [论文]
[2023/03] HuggingGPT：借助 ChatGPT 及其在 Hugging Face 中的伙伴解决 AI 任务。 Yongliang Shen 等，arXiv预印本。 [论文]
[2021/06] HuBERT：通过掩码预测隐藏单元实现自监督语音表征学习。 Wei-Ning Hsu 等，arXiv预印本。 [论文]
[2021/04] AST：音频谱图 Transformer。 Yuan Gong 等，arXiv预印本。 [论文]

1.3 行动：扩展 LLM 基础智能体的动作空间

1.3.1 工具使用

[2024/02] 迈向不确定性感知的语言智能体。 韩九州（莫纳什大学）等，arXiv。 [论文] [项目页面] [代码]
[2023/10] OpenAgents：面向真实场景的语言智能体开放平台。 XLang实验室（香港大学），arXiv。 [论文] [项目页面] [代码] [演示]
[2023/10] Lemur：为语言智能体协调自然语言与代码 许一恒（香港大学）等，arXiv。 [论文] [代码]
[2023/10] 基于多模态大语言模型的端到端具身决策：GPT4-Vision及更进一步的探索 陈亮（北京大学）等，arXiv。 [论文] [代码]
- HOLMES是一个多智能体协作框架，允许LLM利用MLLM和API收集多模态信息，以支持明智的决策。
[2023/07] ToolLLM：助力大语言模型掌握16000+真实世界API。 秦宇佳（清华大学）等，arXiv。 [论文] [代码] [数据集]
- ToolLLM是一个通用的工具使用框架，涵盖数据构建、模型训练和评估。
[2023/05] 大语言模型作为工具制造者。 蔡天乐（普林斯顿大学）等，arXiv。 [论文] [代码]
- LATM是一个闭环框架，迈出了消除对现有工具依赖的第一步。
[2023/05] CREATOR：通过工具创建解耦大语言模型的抽象与具体推理。 钱诚（清华大学）等，arXiv。 [论文]
- CREATOR是一个创新框架，使LLM能够通过文档和代码实现自主创建工具。
[2023/04] 基于基础模型的工具学习。 秦宇佳（清华大学）等，arXiv。 [论文] [代码]
- 该综述主要介绍了一种名为“基于基础模型的工具学习”的新范式，它结合了专用工具和基础模型的优势，在解决问题时实现了更高的精度、效率和自动化。
[2023/04] ChemCrow：用化学工具增强大语言模型。 安德烈斯·M·布兰（EPFL ISIC人工化学智能实验室）等，arXiv。 [论文] [代码]
- ChemCrow是一个LLM化学智能体，集成了13个专家设计的工具，增强了LLM在化学领域的表现，并催生了新的能力。
[2023/04] GeneGPT：用领域工具增强大语言模型，以提升生物医学信息的获取能力。 金桥（美国国立卫生研究院）、杨一帆、陈清宇、陆志勇，arXiv。 [论文] [代码]
- GeneGPT是一种回答基因组学问题的模型。它提出了一种新颖的方法来应对幻觉问题，即教会LLM使用Web API。
[2023/04] OpenAGI：当LLM遇见领域专家。 葛英强（罗格斯大学）等，arXiv。 [论文] [代码]
- OpenAGI是一个开源的AGI研究平台。它引入了LLM运行各种专家模型以解决复杂任务的范式，并提出了RLTF机制来提升LLM的任务解决能力。
[2023/03] HuggingGPT：用ChatGPT及其在Hugging Face中的伙伴解决AI任务。 沈永亮（浙江大学）等，arXiv。 [论文] [代码]
- HuggingGPT是一个系统，利用LLM连接机器学习社区中的各种多模态AI模型，以解决AI任务。
[2023/03] Visual ChatGPT：与视觉基础模型对话、绘图和编辑。 吴晨飞（微软亚洲研究院）等，arXiv。 [论文] [代码]
- Visual ChatGPT是一个系统，借助视觉基础模型打开了探索ChatGPT视觉角色的大门。
[2023/02] 增强型语言模型：综述。 格雷瓜尔·米亚隆（Meta AI）等，TMLR。 [论文]
- 该综述回顾了将工具使用能力赋予语言模型的相关工作。增强后的语言模型可以利用外部模块扩展其上下文处理能力。
[2023/02] Toolformer：语言模型可自我教授如何使用工具。 蒂莫·希克（Meta AI）等，arXiv。 [论文]
- Toolformer表明，LLM仅需针对每个API提供少量示范，即可学会使用外部工具。
[2022/05] TALM：工具增强型语言模型。 亚伦·帕里西（谷歌）等，arXiv。 [论文]
- TALM提出了一种将不可微分工具与语言模型相结合的方法，使模型能够访问实时或私有数据。
[2022/05] MRKL系统：一种模块化、神经符号架构，结合大语言模型、外部知识源和离散推理。 埃胡德·卡帕斯（AI21 Labs）等，arXiv。 [论文]
- MRKL系统通过一套易于扩展的外部知识和推理模块来增强LLM。
[2022/04] 照我做，别照我说：将语言 grounding 到机器人 affordances 上。 迈克尔·安（谷歌）等，CoRL。 [论文]
- SayCan通过将LLM的高级语义知识与预训练技能的价值函数相结合，将LLM应用于现实世界的机器人任务。
[2021/12] WebGPT：浏览器辅助问答，结合人类反馈。 中野玲一郎（OpenAI）等，arXiv。 [论文]
- WebGPT利用网页浏览环境回答问题。它在训练过程中采用模仿学习，随后通过人类反馈优化答案质量。
[2021/07] 评估基于代码训练的大语言模型。 马克·陈（OpenAI）等，arXiv。 [论文] [代码]
- Codex能够根据docstring合成程序，即基于文档创建工具。

1.3.2 具身行动

[2023/12] 迈向具身导航通用模型的学习。 郑铎（香港中文大学）等，arXiv。 [论文] [代码]
[2023/11] 三维世界中的具身通用智能体。 黄江勇（BIGAI & 北京大学）等，arXiv。 [论文] [项目页面]
[2023/11] JARVIS-1：基于记忆增强型多模态语言模型的开放世界多任务智能体。 王子豪（北京大学）等，arXiv。 [论文] [代码]
[2023/10] Lemur：为语言智能体协调自然语言与代码 许一恒（香港大学）等，arXiv。 [论文] [代码]
[2023/10] 通过多模态大型语言模型实现端到端的具身决策：基于GPT4-Vision及其他模型的探索 陈亮等，arXiv。 [论文] [代码]
[2023/07] 交互式语言：与机器人实时对话。 科里·林奇等，IEEE (RAL)。 [论文]
[2023/05] Voyager：基于大型语言模型的开放式具身智能体。 王冠志（NVIDIA）等，arXiv。 [论文] [项目页面] [代码]
[2023/05] AVLEN：三维环境中的视听语言具身导航。 苏迪普塔·保罗等，NeurIPS。 [论文]
[2023/05] EmbodiedGPT：通过具身思维链进行视觉—语言预训练。 穆瑶等，Arxiv。 [论文] [代码]
[2023/05] NavGPT：利用大型语言模型在视觉—语言导航中进行显式推理。 周耿泽等，Arxiv。 [论文]
[2023/05] AlphaBlock：面向机器人操作中视觉—语言推理的具身微调。 金楚浩等，Arxiv。 [论文]
[2023/03] PaLM-E：一种具身多模态语言模型。 丹尼·德里斯等，Arxiv。 [论文]
[2023/03] Reflexion：具有口头强化学习的语言智能体。 诺亚·辛恩等，Arxiv。 [论文] [代码]
[2023/02] 与语言模型协作进行具身推理。 伊希塔·达斯古普塔等，Arxiv。 [论文]
[2023/02] 代码即策略：用于具身控制的语言模型程序。 梁杰克等，IEEE (ICRA)。 [论文]
[2022/10] ReAct：在语言模型中协同推理与行动。 姚顺宇等，Arxiv。 [论文] [代码]
[2022/10] 基于多模态Transformer的指令遵循智能体。 刘浩等，CVPR。 [论文] [代码]
[2022/07] 内心独白：通过规划与语言模型实现具身推理。 黄文龙等，Arxiv。 [论文]
[2022/07] LM-Nav：利用大规模预训练的语言、视觉和动作模型进行机器人导航。 德鲁夫·沙赫等，CoRL。 [论文] [代码]
[2022/04] 按我能做的做，而非我所说的做：将语言 grounding 到机器人的可操作性上。 迈克尔·安等，Arxiv。 [论文]
[2022/01] 具身人工智能综述：从模拟器到研究任务。 段佳飞等，IEEE (TETCI)。 [论文]
[2022/01] 语言模型作为零样本规划者：为具身智能体提取可执行知识。 黄文龙等，Arxiv。 [论文] [代码]
[2020/04] 经验赋予语言意义。 约纳坦·比斯克等，EMNLP。 [论文]
[2019/03] 机器人操作中深度强化学习综述。 海·阮等，IEEE (IRC)。 [论文]
[2005/01] 具身认知的发展：来自婴儿的六堂课。 琳达·史密斯等，Artificial Life。 [论文]

2. 实践中的智能体：基于LLM的智能体应用

2.1 单一智能体的通用能力

2.1.1 任务导向型部署

在网页场景中

[2023/10] OpenAgents：面向真实世界的语言代理开放平台。 XLang实验室（香港大学）arXiv预印本。 [论文] [项目页面] [代码] [演示]
[2023/07] WebArena：用于构建自主代理的真实网络环境。 周书言（卡内基梅隆大学）等，arXiv预印本。 [论文] [代码]
[2023/07] 具备规划、长上下文理解与程序合成能力的真实世界WebAgent。 伊泽丁·古尔（DeepMind）等，arXiv预印本。 [论文]
[2023/06] SYNAPSE：利用少量示例实现人类级别的计算机操控。 郑龙涛（南洋理工大学）等，arXiv预印本。 [论文] [代码]
[2023/06] Mind2Web：迈向通用的网络代理。 邓翔（俄亥俄州立大学）等，arXiv预印本。 [论文] [代码]
[2023/05] 基于指令微调的基础模型的多模态网页导航。 古田浩树（东京大学）等，arXiv预印本。 [论文]
[2023/03] 语言模型可以解决计算机任务。 金根宇（加州大学）等，arXiv预印本。 [论文] [代码]
[2022/07] WebShop：通过具身语言代理实现可扩展的真实世界网络交互。 姚顺宇（普林斯顿大学）等，arXiv预印本。 [论文] [代码]
[2021/12] WebGPT：结合浏览器辅助问答与人类反馈。 中野玲一郎（OpenAI）等，arXiv预印本。 [论文]
[2023/05] Agents：面向自主语言代理的开源框架。 周旺春树（AIWaves）等，arXiv预印本。 [论文] [代码]
[2024/04] OSWorld：在真实计算机环境中对多模态代理进行开放式任务基准测试。 XLang实验室（香港大学）arXiv预印本。 [论文] [项目页面] [代码] [数据查看器]

在生活中场景中

[2023/10] OpenAgents：面向真实世界的语言代理开放平台。 XLang实验室（香港大学）arXiv预印本。 [论文] [项目页面] [代码] [演示]
[2023/08] InterAct：探索ChatGPT作为协作代理的潜力。 陈柏霖等，arXiv预印本。 [论文]
[2023/05] 计划、消除与追踪——语言模型是具身代理的好老师。 吴岳（卡内基梅隆大学）等，arXiv预印本。 [论文]
[2023/05] 用大型语言模型增强自目的性代理。 塞德里克·科拉斯（麻省理工学院）等，arXiv预印本。 [论文]
[2023/03] 通过纠正式重提示使用大型语言模型进行规划。 斯雷亚斯·桑达拉·拉曼（布朗大学）等，arXiv预印本。 [论文]
[2022/10] 利用环境感知语言模型生成可执行行动计划。 迈特雷·格拉莫帕迪耶（北卡罗来纳大学教堂山分校）等，arXiv预印本。 [论文] [代码]
[2022/01] 语言模型作为零样本规划者：为具身代理提取可操作知识。 黄文龙（加州大学伯克利分校）等，arXiv预印本。 [论文] [代码]

2.1.2 创新导向型部署

[2023/10] OpenAgents：面向真实世界的语言代理开放平台。 XLang实验室（香港大学）arXiv预印本。 [论文] [项目页面] [代码] [演示]
[2023/08] 程序分析指南：与大型语言模型同行的旅程。 李浩楠（加州大学河滨分校）等，arXiv预印本。 [论文]
[2023/08] ChatMOF：用于预测和生成金属有机框架的自主人工智能系统。 姜永勋（韩国先进科学技术研究院）等，arXiv预印本。 [论文]
[2023/07] 数学代理：计算基础设施、数学嵌入与基因组学。 梅拉妮·斯旺（伦敦大学学院）等，arXiv预印本。 [论文]
[2023/06] 通过对话式大型语言模型迈向自主测试代理。 罗伯特·费尔特（查尔姆斯理工大学）等，arXiv预印本。 [论文]
[2023/04] 大型语言模型涌现的自主科学研究能力。 丹尼尔·A·博伊科（卡内基梅隆大学）等，arXiv预印本。 [论文]
[2023/04] ChemCrow：用化学工具增强大型语言模型。 安德烈斯·M·布兰（EPFL ISIC人工化学智能实验室）等，arXiv预印本。 [论文] [代码]
[2022/03] ScienceWorld：你的代理比五年级学生更聪明吗？ 王若瑶（亚利桑那大学）等，arXiv预印本。 [论文] [代码]

2.1.3 生命周期导向的部署

[2023/05] Voyager：基于大型语言模型的开放式具身智能体。 Guanzhi Wang（NVIDIA）等，arXiv预印本。 [论文] [项目页面] [代码]
[2023/05] Minecraft中的幽灵：利用基于文本的知识与记忆的大型语言模型构建适用于开放世界环境的通用智能体。 Xizhou Zhu（清华大学）等，arXiv预印本。 [论文] [代码]
[2023/03] Plan4MC：面向开放世界Minecraft任务的技能强化学习与规划。 Haoqi Yuan（北京大学）等，arXiv预印本。 [论文] [项目页面]
[2023/02] 描述、解释、规划与选择：结合大型语言模型的交互式规划赋能开放世界多任务智能体。 Zihao Wang（北京大学）等，arXiv预印本。 [论文] [代码]
[2023/01] 具身智能体会梦见像素化的绵羊吗？基于语言引导的世界建模的具身决策。 Kolby Nottingham（加州大学欧文分校）等，arXiv预印本。 [论文] [代码]

2.2 多智能体的协同潜力

2.2.1 基于互补性的合作交互

无序合作

[2023/07] 释放大语言模型中的认知协同效应：通过多角色自我协作的任务求解智能体。 王振海龙（伊利诺伊大学厄巴纳-香槟分校）等，arXiv。 [论文] [代码]
[2023/07] RoCo：基于大语言模型的辩证式多机器人协作。 赵曼迪、Shreeya Jain、宋舒然（哥伦比亚大学）等，arXiv。 [论文] [代码]
[2023/04] ChatLLM网络：更多大脑，更强大智能。 郝锐（北京邮电大学）等，arXiv。 [论文]
[2023/01] 盲人裁判：基于GPT的代理制最高法院建模。 西尔·汉密尔顿（麦吉尔大学），arXiv。 [论文]
[2023/05] Agents：一个用于自主语言智能体的开源框架。 周旺春树（AIWaves）等，arXiv。 [论文] [代码]

有序合作

[2023/10] AutoAgents：自动智能体生成框架。 陈光耀（北京大学）等，arXiv。 [论文] [代码]
[2023/09] MindAgent：新兴的游戏交互方式。 龚然（UCLA）等，arXiv。 [论文] [代码]
[2023/08] CGMI：可配置的通用多智能体交互框架。 史金鑫（华东师范大学）等，arXiv。 [论文]
[2023/08] ProAgent：利用大语言模型构建主动协作型AI。 张策尧（香港中文大学深圳校区）等，arXiv。 [论文] [代码]
[2023/08] AgentVerse：促进多智能体协作并探索智能体的涌现行为。 陈伟泽（清华大学）等，arXiv。 [论文] [代码]
[2023/08] AutoGen：通过多智能体对话框架实现下一代LLM应用。 吴庆云（宾夕法尼亚州立大学）等，arXiv。 [论文] [代码]
[2023/08] MetaGPT：面向多智能体协作框架的元编程。 洪思睿（DeepWisdom）等，arXiv。 [论文] [代码]
[2023/07] 用于软件开发的沟通型智能体。 陈谦（清华大学）等，arXiv。 [论文] [代码]
[2023/06] 多智能体协作：释放智能LLM智能体的力量。 雅沙尔·塔莱比拉（阿尔伯塔大学）等，arXiv。 [论文]
[2023/05] 在模拟人类社会中训练社会对齐的语言模型。 刘瑞博（达特茅斯学院）等，arXiv。 [论文] [代码]
[2023/05] SwiftSage：一种具备快慢思维的生成式智能体，适用于复杂交互任务。 林宇辰（艾伦人工智能研究所）等，arXiv。 [论文] [代码]
[2023/05] ChatGPT作为您的私人数据科学家。 Md Mahadi Hassan（奥本大学）等，arXiv。 [论文]
[2023/03] CAMEL：用于探索大规模语言模型社会“心智”的沟通型智能体。 李国豪（阿卜杜拉国王科技大学）等，arXiv。 [论文] [代码]
[2023/03] DERA：通过支持对话的解析型智能体提升大语言模型的补全能力。 瓦伦·奈尔（Curai Health）等，arXiv。 [论文] [代码]
[2023/04] 通过ChatGPT实现自我协作式代码生成。 董一弘（北京大学）等，arXiv。 [论文]

2.2.2 基于对抗的交互以推动进步

[2023/08] ChatEval：通过多智能体辩论打造更优秀的LLM评估器。 陈志敏（清华大学）等，arXiv。 [论文] [代码]
[2023/05] 通过多智能体辩论提升语言模型的事实性和推理能力。 杜逸伦（MIT CSAIL）等，arXiv。 [论文] [代码]
[2023/05] 利用自我博弈和来自AI反馈的上下文学习改进语言模型谈判能力。 傅瑶（爱丁堡大学）等，arXiv。 [论文] [代码]
[2023/05] 考察大语言模型的一致性：通过辩论进行深入分析。 熊凯（哈尔滨工业大学）等，arXiv。 [论文]
[2023/05] 通过多智能体辩论激发大语言模型的发散思维。 梁天（清华大学）等，arXiv。 [论文] [代码]

2.3 人与智能体的交互式协作

2.3.1 教师—执行者范式

教育

[2023/07] 数学智能体：计算基础设施、数学嵌入与基因组学。 梅拉妮·斯旺（UCL）等，arXiv。 [论文]
- 与人类沟通，帮助其理解并运用数学知识。
[2023/03] 嘿，多娜！你能帮我处理学生的课程注册吗？ 维谢什·卡尔瓦库尔蒂（MSU）等，arXiv。 [论文]
- 这是一款名为“Dona”的应用，提供学生课程注册的虚拟语音助手服务，由人类下达指令。

健康

[2023/08] 中经：通过专家反馈和真实世界多轮对话提升大语言模型的中医能力。 杨松华（ZZU）等，arXiv。 [论文] [代码]
[2023/05] 华佗GPT：让语言模型成为医生的探索。 张洪波（CUHK-SZ）等，arXiv。 [论文] [代码] [演示]
[2023/05] 帮助帮助者：利用AI赋能的实践与反馈支持同伴咨询师。 许尚凌（Gatech）等，arXiv。 [论文]
[2020/10] 针对自闭症谱系障碍青少年的虚拟对话智能体：实验结果与设计启示。 穆罕默德·拉法耶特·阿里（U of R）等，IVA '20。 [论文]

其他应用

[2023/08] RecMind：基于大语言模型的推荐智能体。 王延成（ASU、Amazon）等，arXiv。 [论文]
[2023/08] 多轮对话智能体作为电话营销中的销售助理。 高婉婷（JNU）等，IEEE。 [论文]
[2023/07] PEER：一种协作式语言模型。 蒂莫·希克（Meta AI）等，arXiv。 [论文]
[2023/07] DIALGEN：用于增进对人类间对话理解的协作式人—语言模型生成对话。 卢博儒（UW）等，arXiv。 [论文]
[2023/08] LLM作为数据库管理员[愿景]。 周轩赫（清华）等，arXiv。 [论文]
[2023/06] AssistGPT：一款能够规划、执行、检查并学习的通用多模态助手。 高迪菲（NUS）等，arXiv。 [论文]
[2023/05] Agents：一个用于自主语言智能体的开源框架。 周旺春树（AIWaves）等，arXiv。 [论文] [代码]
[2023/12] D-Bot：基于大语言模型的数据库诊断系统。 周轩赫（清华）等，arXiv。 [论文] [代码]

2.3.2 平等伙伴关系范式

共情沟通者

[2023/08] SAPIEN：由大语言模型驱动的情感虚拟智能体。 马苏姆·哈桑等，arXiv。 [论文] [项目页面]
[2023/05] 帮助帮助者：利用AI赋能的实践与反馈支持同伴咨询师。 许尚凌（Gatech）等，arXiv。 [论文]
[2022/07] 营销互动中的人工共情：弥合情感与社交客户体验中的人工智能鸿沟。 刘玉萍—汤普金斯等。 [论文]

人类水平参与者

[2023/08] 量化大语言模型对群体意见动态的影响。 李超等，CoRR。 [论文]
[2023/06] 通过人类规整的强化学习与规划掌握无压力外交游戏。 安东·巴赫京等，ICLR。 [论文]
[2023/06] 面向决策的人—AI协作对话。 林杰西等，CoRR。 [论文]
[2022/11] 结合语言模型与战略推理实现外交游戏中的人类水平博弈。 FAIR等，Science。 [论文]

3. 智能体社会：从个体性到社会性

3.1 基于LLM的智能体行为与人格

3.1.1 社会行为

个体行为

[2023/10] Lyfe Agents：用于低成本实时社交互动的生成式智能体。 赵凯雅（MIT）等，arXiv。 [论文]
[2023/05] Voyager：一款具有大语言模型的开放式具身智能体。 王冠志（NVIDIA）等，arXiv。 [论文] [代码] [项目页面]
[2023/04] LLM+P：赋予大语言模型最优规划能力。 刘博（德克萨斯大学）等，arXiv。 [论文] [代码]
[2023/03] Reflexion：具备言语强化学习能力的语言智能体。 诺亚·辛恩（东北大学）等，arXiv。 [论文] [代码]
[2023/03] PaLM-E：一款具身多模态语言模型。 丹尼·德里斯（Google）等，ICML。 [论文] [项目页面]
[2023/03] ReAct：在语言模型中协同推理与行动。 姚顺宇（普林斯顿大学）等，ICLR。 [论文] [项目页面]
[2022/01] 思维链提示可激发大语言模型的推理能力。 贾森·魏（Google）等，NeurIPS。 [论文]

团体行为

[2023/10] 探索LLM智能体的协作机制：社会心理学视角。 张金天（浙江大学）等，arXiv。 [论文] [代码]
[2023/09] MindAgent：新兴的游戏交互方式。 龚然（UCLA）等，arXiv。 [论文] [代码]
[2023/09] 探索大型语言模型在交流类游戏中的应用：基于狼人杀的实证研究。 徐宇壮（清华大学）等，arXiv。 [论文]
[2023/09] 怀疑者智能体：利用具备心智理论意识的GPT-4玩不完全信息博弈 顾家贤等，arXiv。 [论文]
[2023/08] AgentVerse：促进多智能体协作并探索智能体的涌现行为。 陈伟泽（清华大学）等，arXiv。 [论文] [代码]
[2023/08] AutoGen：通过多智能体对话框架实现下一代LLM应用。 吴庆云（宾夕法尼亚州立大学）等，arXiv。 [论文] [代码]
[2023/08] ChatEval：通过多智能体辩论提升基于LLM的评估器性能。 陈志敏（清华大学）等，arXiv。 [论文] [代码]
[2023/07] 面向软件开发的沟通型智能体。 钱晨（清华大学）等，arXiv。 [论文] [代码]
[2023/07] RoCo：基于大型语言模型的辩证式多机器人协作。 赵曼迪、Shreeya Jain、宋舒然（哥伦比亚大学）等，arXiv。 [论文] [代码]
[2023/08] ProAgent：利用大型语言模型构建主动协作型AI。 张策尧（香港中文大学深圳分校）等，arXiv。 [论文] [代码]
[2023/06] 大型语言模型驱动的智能体人工社交网络中的同质性现象。 詹姆斯·K·何（剑桥大学）等，PsyArXiv。 [论文]

3.1.2 人格

认知

[2023/09] 怀疑者智能体：利用具备心智理论意识的GPT-4玩不完全信息博弈 顾家贤等，arXiv。 [论文]
[2023/03] 机器心理学：运用心理学方法探究大型语言模型的涌现能力与行为。 蒂洛·哈根多夫（斯图加特大学）等，arXiv。 [论文]
[2023/03] 心灵与机器相遇：解析GPT-4的认知心理学特征。 西法特考尔·丁格拉（Nowrosjee Wadia College）等，arXiv。 [论文]
[2022/07] 语言模型在推理中表现出类似人类的内容效应。 伊希塔·达斯古普塔（DeepMind）等，arXiv。 [论文]
[2022/06] 用认知心理学理解GPT-3。 马塞尔·宾茨等，arXiv。 [论文]

情感

[2023/07] 大型语言模型的情感智力。 王雪娜（清华大学）等，arXiv。 [论文]
[2023/05] ChatGPT在情感觉察评估中优于人类。 佐哈尔·埃利奥塞夫等，Frontiers in Psychology。 [论文]
[2023/02] 用于增强游戏韧性的共情型AI。 雷扎·哈比比（加州大学）等，arXiv。 [论文]
[2022/12] 计算机说“不”：反对共情型对话式AI的理由。 阿尔巴·柯里（利兹大学）等，ACL。 [论文]

性格

[2024/05] TimeChara：评估角色扮演型大型语言模型的时点性格幻觉。 安在宇（首尔国立大学）等，arXiv。 [论文] [代码]
[2023/10] Character-LLM：一种可训练的角色扮演智能体。 邵云帆（复旦大学）等，arXiv。 [论文] [代码]
[2023/07] LLM是否具有人格？将MBTI测试作为评估大型语言模型的绝佳工具。 潘科宇（字节跳动）等，arXiv。 [论文] [代码]
[2023/07] 大型语言模型中的人格特质。 穆斯塔法·萨夫达里（DeepMind）等，arXiv。 [论文] [代码]
[2022/12] GPT-3是否表现出精神病态？从心理学角度评估大型语言模型。 李星轩（阿里巴巴）等，arXiv。 [论文]
[2022/12] 识别和操纵语言模型的人格特质。 格雷厄姆·卡隆等，arXiv。 [论文]

3.2 智能体社会的环境

3.2.1 文本型环境

[2023/08] Hoodwinked: 面向语言模型的文本游戏中的欺骗与合作。 Aidan O’Gara（南加州大学）等，arXiv。 [论文] [代码]
[2023/03] CAMEL：用于大规模语言模型社会“心智”探索的沟通型智能体。 Guohao Li（阿卜杜拉国王科技大学）等，arXiv。 [论文] [代码]
[2020/12] 运用常识玩文本游戏。 Sahith Dambekodi（佐治亚理工学院）等，arXiv。 [论文]
[2019/09] 互动式小说游戏：一场浩大的冒险。 Matthew Hausknecht（微软研究院）等，AAAI。 [论文] [代码]
[2019/03] 在奇幻文本冒险游戏中学习说话与行动。 Jack Urbanek（Facebook）等，ACL。 [论文] [代码]
[2018/06] TextWorld：一个面向文本游戏的学习环境。 Marc-Alexandre Côté（微软研究院）等，IJCAI。 [论文] [代码]

3.2.2 虚拟沙盒环境

[2023/11] JARVIS-1：基于记忆增强型多模态语言模型的开放世界多任务智能体。 ZiHao Wang（北京大学）等，arXiv。 [论文] [代码]
[2023/10] Humanoid Agents：模拟类人生成式智能体的平台。 Zhilin Wang（华盛顿大学和NVIDIA）等，arXiv。 [论文] [代码] [演示]
[2023/08] AgentSims：一个用于大型语言模型评估的开源沙盒。 Jiaju Lin（PTA Studio）等，arXiv。 [论文] [项目页面] [代码]
[2023/05] 在模拟人类社会中训练社会对齐的语言模型。 Ruibo Liu（达特茅斯学院）等，arXiv。 [论文] [代码]
[2023/05] Voyager：一个基于大型语言模型的开放式具身智能体。 Guanzhi Wang（NVIDIA）等，arXiv。 [论文] [项目页面] [代码]
[2023/04] 生成式智能体：人类行为的交互式模拟物。 Joon Sung Park（斯坦福大学）等，arXiv。 [论文] [代码]
[2023/03] Plan4MC：面向开放世界Minecraft任务的技能强化学习与规划。 Haoqi Yuan（北大）等，arXiv。 [论文] [项目页面]
[2022/06] MineDojo：利用互联网规模知识构建开放式具身智能体。 Linxi Fan（NVIDIA）等，NeurIPS。 [论文] [项目页面]

3.2.3 物理环境

[2023/11] 3D世界中的具身通用智能体。 Jiangyong Huang（BIGAI和北京大学）等，arXiv。 [论文] [项目页面]
[2023/09] RoboAgent：通过语义增强和动作分块实现机器人操作中的泛化与效率。 Homanga Bharadhwaj（卡内基梅隆大学）等，arXiv。 [论文] [项目页面]
[2023/05] AVLEN：3D环境中基于音频-视觉-语言的具身导航。 Sudipta Paul等人，NeurIPS。 [论文]
[2023/03] PaLM-E：一个具身多模态语言模型。 Danny Driess（谷歌）等，ICML。 [论文] [项目页面]
[2022/10] 交互式语言：与机器人实时对话。 Corey Lynch（谷歌）等，arXiv。 [论文] [代码]

3.3 基于LLM的智能体社会仿真

[2024/03] 大型语言模型驱动的智能体社会中社会规范的涌现。 Siyue Ren等人，arXiv。 [论文] [代码]
[2023/08] AgentSims：一个用于大型语言模型评估的开源沙盒。 Jiaju Lin（PTA Studio）等，arXiv。 [论文] [项目页面] [代码]
[2023/07] S³：基于大型语言模型赋能智能体的社会网络仿真系统。 Chen Gao（清华大学）等，arXiv。 [论文]
[2023/07] 利用生成式智能体进行流行病建模。 Ross Williams（弗吉尼亚理工大学）等，arXiv。 [论文] [代码]
[2023/06] RecAgent：推荐系统的一种新型仿真范式。 Lei Wang（中国人民大学）等，arXiv。 [论文]
[2023/05] 在模拟人类社会中训练社会对齐的语言模型。 Ruibo Liu（达特茅斯学院）等，arXiv。 [论文] [代码]
[2023/04] 生成式智能体：人类行为的交互式模拟物。 Joon Sung Park（斯坦福大学）等，arXiv。 [论文] [代码]
[2022/08] 社会模拟物：为社交计算系统创建有人群的原型。 Joon Sung Park（斯坦福大学）等，UIST。 [论文]

4. 其他主题

4.1 基于LLM的智能体基准测试

[2023/11] “MAgIC：大型语言模型驱动的多智能体在认知、适应性、理性与协作方面的研究” 林旭等（新加坡国立大学、字节跳动、斯坦福大学及加州大学伯克利分校）arXiv。[论文] [项目页面] [代码]
- 该工作提出了一套用于评估多智能体场景下LLM的基准测试框架，表明使用概率图模型可实现平均50%的性能提升。
[2023/10] “将大型语言模型作为人工智能研究智能体进行基准测试” 黄谦（斯坦福大学）等 arXiv。[论文] [代码]
[2023/08] “AgentBench：评估LLM作为智能体” 刘晓等（清华大学）arXiv。[论文] [代码] [项目页面]
- AGENTBENCH是一个用于评估LLM作为智能体的基准测试，结果显示顶尖商业模型与开源模型之间存在性能差距。
[2023/10] “SmartPlay：面向LLM作为智能体的基准测试” 吴岳（卡内基梅隆大学和微软）等 arXiv。[论文] [代码]
- SmartPlay是一套用于评估LLM作为智能体的基准测试与方法论，包含六种不同游戏以评估关键能力，并为识别当前方法中的不足提供了路线图。
[2024/04] “OSWorld：在真实计算机环境中针对开放式任务的多模态智能体基准测试” *XLang实验室（香港大学）arXiv。[论文] [项目页面] [代码] [数据查看器]
- OSWorld🖥️是一个统一的真实计算机环境，供多模态智能体在Ubuntu、Windows和macOS上对任意应用和界面的开放式计算机任务进行基准测试。

4.2 基于LLM的智能体训练与优化

[2024/06] AgentGym：跨多样化环境进化基于大型语言模型的智能体 奚志恒（复旦大学）等 arXiv。[论文] [项目页面] [代码与平台] [数据集] [基准测试] [模型]。
[2023/10] FireAct：迈向语言智能体的微调 陈百安（System2 Research）等 arXiv。[论文] [项目页面] [代码] [数据集]
[2023/10] AgentTuning：为LLM赋能通用智能体能力 曾傲寒（清华大学）等 arXiv。[论文] [项目页面] [代码] [数据集]
[2023/10] Lemur：为语言智能体协调自然语言与代码 许一恒（香港大学）等 arXiv。[论文] [代码]

引用

如果您觉得本仓库有用，请引用我们的论文：

@misc{xi2023rise,
      title={大型语言模型驱动智能体的兴起与潜力：综述}, 
      author={奚志恒、陈文翔、郭昕、何为、丁怡文、洪博杨、张明、王浚哲、金森杰、周恩宇、郑睿、范晓然、王骁、熊立茂、周宇豪、王伟然、蒋昌浩、邹义成、刘向阳、尹章越、窦世涵、翁荣祥、程文森、张琪、秦文娟、郑永燕、邱锡鹏、黄轩静、桂涛},
      year={2023},
      eprint={2309.07864},
      archivePrefix={arXiv},
      primaryClass={cs.AI}
}

项目维护者与贡献者

奚志恒（奚志恒, @WooooDyy）
陈文翔（陈文翔, @chenwxOggai）
郭昕（郭昕, @XinGuo2002）
何为（何为, @hewei2001）
丁怡文（丁怡文, @Yiwen-Ding）
洪博杨（洪博杨, @HongBoYang）
张明（张明, @KongLongGeFDU）
王浚哲（王浚哲, @zsxmwjz）
金森杰（金森杰, @Leonnnnnn929）

联系方式

奚志恒：zhxi22@m.fudan.edu.cn

星标历史

LLM-Agent-Paper-List 快速上手指南

LLM-Agent-Paper-List 是一个专注于大语言模型（LLM）智能体领域的开源论文清单与综述项目。它系统性地整理了基于 LLM 的智能体构建、应用、社会模拟等方向的核心文献，是研究人员和开发者追踪该领域前沿进展的必备资源库。

本项目主要为论文列表与知识库，无需复杂的运行时环境即可浏览内容。若需复现列表中提到的具体算法（如 AgentGym），请参考对应论文的独立仓库。

环境准备

由于本项目本质为文档与资源索引，对系统要求极低：

操作系统：Windows / macOS / Linux 均可
前置依赖：
- Git（用于克隆仓库）
- 现代浏览器（用于查看渲染后的 Markdown 或访问链接）
- （可选）Python 3.x（仅当你需要运行列表中某些论文提供的配套代码时）

注意：本仓库本身不包含需要安装的 Python 包。如需体验项目中提到的 AgentGym 框架，请访问其独立仓库 AgentGym。

安装步骤

通过 Git 克隆项目到本地，即可随时查阅最新的论文列表。

# 1. 克隆仓库
git clone https://github.com/WooooDyy/LLM-Agent-Paper-List.git

# 2. 进入项目目录
cd LLM-Agent-Paper-List

# 3. (可选) 拉取最新更新，保持论文列表同步
git pull origin main

国内加速建议：如果直接克隆速度较慢，可使用 Gitee 镜像（如有）或通过以下命令配置代理加速：
# 示例：使用国内镜像源克隆 (若存在官方同步镜像)
# 或者使用 git 代理设置
export GIT_PROXY_COMMAND="connect-proxy" 
注：该项目主要托管于 GitHub，建议确保网络通畅或使用合法的加速工具。

基本使用

1. 浏览论文清单

克隆完成后，你可以直接在本地使用 Markdown 阅读器（如 VS Code、Typora）打开 README.md 文件，或者直接在 GitHub 网页上浏览。

项目内容按以下逻辑分类，你可以根据需求快速定位：

1. 智能体的诞生 (Construction)：涵盖大脑（LLM 核心）、感知（多模态输入）和行动（工具使用/具身行动）三大组件的相关论文。
2. 实践应用 (Applications)：包含单智能体任务、多智能体协作以及人机交互场景的研究。
3. 智能体社会 (Agent Society)：探讨智能体的行为、性格及社会模拟实验。
4. 其他主题：包括基准测试 (Benchmarks) 和训练优化方法。

2. 查找特定论文

在 README.md 中，每篇论文都标注了：

📅 发布日期
📝 标题与作者
🔗 [paper]：指向 arXiv 或会议论文的链接
💻 [code]：指向官方代码仓库的链接（如有）

使用示例：假设你想研究“多智能体协作”，直接在文件中搜索 2.2 Coordinating Potential of Multiple Agents，即可找到相关论文列表，点击 [paper] 链接阅读原文，点击 [code] 链接获取实现代码。

3. 贡献与更新

该项目社区活跃，鼓励提交 PR 补充新论文。

查看最新新闻：关注 News 章节，了解如 AgentGym-RL 等新框架的发布。
提交新论文：通过 GitHub Issues 或 Pull Requests 向仓库添加遗漏的重要文献。

提示：本指南仅针对论文列表仓库。若要动手开发智能体，请根据列表中推荐的论文（如 AgentGym），跳转至对应的代码仓库进行环境配置与模型训练。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像