LLMAgentPapers
LLMAgentPapers 是一个专注于大语言模型(LLM)智能体领域的精选论文知识库。随着 LLM 从单纯的对话工具演变为能自主规划、使用工具并协同工作的智能体,相关研究呈现爆发式增长,导致从业者难以快速追踪核心进展。LLMAgentPapers 正是为了解决这一信息过载问题而生,它系统性地梳理并分类了该领域的必读文献。
该资源库不仅收录了关于智能体概述的权威综述,还细致地将论文划分为人格塑造、记忆机制、任务规划、工具调用、强化学习训练以及多智能体协作等多个关键技术维度。此外,它还涵盖了多模态交互应用、主流框架对比及相关基准测试资源。其独特的亮点在于持续更新的动态维护机制,确保用户能第一时间获取如"KnowAgent"等最新前沿成果,同时提供了关联的知识编辑与推理提示词等姊妹篇资源列表,构建了完整的知识探索路径。
LLMAgentPapers 特别适合人工智能研究人员、算法工程师及希望深入理解 Agent 技术架构的开发者使用。无论是为了寻找科研灵感、撰写文献综述,还是为了在项目中落地先进的智能体方案,这里都能提供高效、精准的学术指引,帮助用户在纷繁复杂的技术浪潮中把握核心脉络。
使用场景
某高校人工智能实验室的研究生团队正致力于开发一个具备复杂规划能力的多智能体协作系统,急需掌握 LLM Agent 领域的最新前沿技术以确立研究路线。
没有 LLMAgentPapers 时
- 文献检索如大海捞针:研究人员需在 arXiv、Google Scholar 等多个平台反复搜索"LLM Agent"、"Planning"等关键词,耗时数天仍难以覆盖核心论文,极易遗漏关键成果。
- 知识体系支离破碎:找到的论文分散在记忆机制、工具使用、强化学习训练等不同细分方向,缺乏系统分类,难以快速构建完整的领域知识图谱。
- 前沿动态滞后:由于缺乏持续更新的追踪渠道,团队往往在实验中期才发现已有更先进的“知识增强规划”方法发布,导致前期工作推倒重来。
- 复现资源难寻:即便找到了理论论文,也常因缺少配套的代码库、基准测试(Benchmarks)或工具列表链接,使得算法验证和对比实验举步维艰。
使用 LLMAgentPapers 后
- 一站式获取必读清单:团队直接访问 LLMAgentPapers,利用其按“规划”、“记忆”、“多智能体交互”等维度精细分类的目录,半天内即可锁定该方向最核心的 20 篇综述与实证论文。
- 结构化梳理研究脉络:借助清晰的层级结构,研究人员迅速理清了从单智能体人格设定到多智能体对抗交互的技术演进路线,高效制定了实验方案。
- 实时同步最新突破:通过关注仓库的"News"栏目,团队第一时间发现了 2024 年 3 月发布的"KnowAgent"新论文,及时将知识增强策略融入现有架构,提升了系统性能。
- 资源链接直达:论文条目下直接附带了相关的 Benchmark 和工具类型列表,团队成员能快速找到开源实现进行复现与微调,大幅缩短了研发周期。
LLMAgentPapers 通过将散乱的学术成果转化为结构化的知识导航,帮助研发团队从繁琐的文献筛选中解放出来,专注于核心算法的创新与落地。
运行环境要求
未说明
未说明

快速开始
大型語言模型代理論文清單
關於大型語言模型代理的必讀論文。
「這裡有一些你可能會感興趣的其他論文清單:
💡 Prompt4ReasoningPapers: 利用語言模型提示進行推理的論文。
🔬 KnowledgeEditingPapers: 大型語言模型知識編輯的必讀論文。
我們誠摯邀請您深入這些論文與資源合集,每一項都將帶給您獨特的探索與發現之旅。 :partying_face:」
🔔 新聞
- [2024-03] 我們發表了一篇新論文:「KnowAgent:基於大語言模型代理的知識增強規劃」(https://arxiv.org/abs/2403.03101)。
- [2023-06] 我們創建了這個倉庫,用來維護關於多智能體的論文清單。
📜內容
🌄 論文
概述
互動式自然語言處理
王澤坤、張戈、楊克鑫、史寧、周旺春樹、郝紹春、熊廣正、李一志、沈蒙元、陳秀英、朱青青、楊振竹、亞當·尼克、劉琦、林成華、王世、劉瑞波、陳文虎、徐科、劉大亨、郭義克、傅傑。 [摘要], 2023年5月
基於大型語言模型的自主代理綜述
王磊、馬晨、馮雪陽、張澤宇、楊浩、張景森、陳志遠、唐嘉凱、陳旭、林彥凱、趙煒欣、韋哲偉、溫繼榮。 [摘要], 2023年8月
基於大型語言模型代理的興起與潛力:綜述
習志恒、陳文祥、郭鑫、何偉、丁毅文、洪博揚、張明、王俊哲、金森傑、周恩宇、鄭睿、范曉然、王小、熊利茂、周宇豪、王偉然、蔣昌浩、鄒義成、劉向陽、尹章悅、杜詩涵、翁榮翔、程文森、張琪、秦文娟、鄭永彥、邱希鵬、黃宣靜、桂濤。 [摘要], 2023年9月
若LLM是巫師,那麼程式碼就是魔杖:程式碼如何賦能大型語言模型成為智能代理的綜述
楊科、劉家騰、吳約翰、楊超奇、馮怡然、李莎、黃子軒、曹旭、王星耀、王以泉、季衡、翟成祥。 [摘要], 2024年1月
代理AI:多模態交互的視野探討
杜蘭特·贊恩、黃秋元、和木直樹、龔冉、朴在成、薩卡爾·比迪普塔、陶里·羅漢、野田雄介、特佐波洛斯·德米特里、崔藝珍、池內勝司、武井穂、李飛飛、高健峰。 [摘要], 2024年1月
個人化LLM代理:能力、效率與安全性的洞察與綜述
李元春、溫浩、王偉軍、李向宇、袁一真、劉國宏、劉嘉誠、許文星、王翔、孫毅、孔睿、王一樂、耿漢飛、呂健、金學峰、葉子龍、熊冠晶、張帆、李翔、許孟偉、李志軍、李鵬、劉洋、張雅琴、劉雲馨。 [摘要], 2024年1月
神經程式碼智能綜述:範式、進展與未來
孫秋實、陳志睿、許方志、程侃智、馬昌、尹章悅、王佳寧、韓成城、朱仁宇、袁帥、郭啟鵬、邱希鵬、殷彭成、李小麗、袁菲、孔令朋、李翔、吳志勇。 [摘要], 2024年3月
基於大型語言模型的人機系統綜述
鄒亨利、黃偉杰、吳堯祖、陳彥凱、苗春宇、阮煌、周悅、張偉志、方連成、何朗州、李陽寧、曹宇威、李東元、江仁和、余錫平。 [摘要], 2025年5月
LLM的代理式強化學習現狀:綜述
張貴斌、耿海嘉、于曉航、殷振飛、張再彬、譚澤林、周恆、李中志、薛向遠、李義江、周逸凡、陳陽、張晨、范宇濤、王子湖、黃松濤、廖悅、王宏儒、楊夢月、季衡、米歇爾·利特曼、王俊、嚴水成、托爾·菲利普、白雷。 [摘要] [代碼], 2025年9月
🤖 代理
個性。 🧛🧙
心智理論可能已在大型語言模型中自發出現
米夏爾·科辛斯基。 [摘要], 2023年2月
ChatGPT中的毒性:分析由角色設定的語言模型
阿米特·德什潘德、維什瓦克·穆拉哈里、坦邁·拉吉普羅希特、阿什溫·卡利安、卡爾蒂克·納拉斯曼。 [摘要], 2023年4月
與大型語言模型進行重複博弈
埃莉夫·阿卡塔、萊昂·舒爾茨、朱利安·科達-福爾諾、吳成俊、馬蒂亞斯·貝特格、埃里克·舒爾茨。 [摘要], 2023年5月
專家提示:指導大型語言模型成為卓越專家
徐本豐、楊安、林俊陽、王全、周昌、張永東、毛振東。 [摘要], 2023年5月
與大型語言模型的角色扮演
默里·沙納漢、凱爾·麥克唐奈爾、拉里亞·雷諾茲。 [摘要], 2023年5月
TidyBot:利用大型語言模型提供個性化機器人協助
吳吉米、安東諾娃·麗卡、坎·亞當、勒佩爾特·瑪麗昂、曾安迪、宋淑然、博格·珍妮特、魯辛基維奇·西蒙、馮豪瑟·托馬斯。 [摘要], 2023年5月
大型語言模型中的人格特質
穆斯塔法·萨夫达里、格雷格·塞拉皮奥-加西亚、克莱芒·克雷皮、斯蒂芬·菲茨、彼得·罗梅罗、陆宁·孙、马尔瓦·阿卜杜勒海、亚历山德拉·福斯特、玛雅·马塔里奇。 [摘要],2023年7月
大型语言模型是否具有人格?将MBTI性格测试用作评估大型语言模型的绝佳工具
潘凯宇、曾耀文。 [摘要],2023年7月
人工智能中的意识:来自意识科学的洞见
帕特里克·巴特林、罗伯特·朗、埃里克·埃尔莫兹尼诺、约书亚·本吉奥、乔纳森·伯奇、阿克塞尔·康斯坦特、乔治·迪恩、斯蒂芬·M·弗莱明、克里斯·弗里斯、徐继、梁内良太、科林·克莱因、格蕾丝·林赛、马蒂亚斯·米歇尔、利亚德·穆德里克、梅根·A·K·彼得斯、埃里克·施维茨盖贝尔、乔纳森·西蒙、鲁芬·范鲁伦。 [摘要],2023年8月
脱离语境:关于衡量大型语言模型的情境意识
卢卡斯·贝格伦德、阿萨·库珀·斯蒂克兰、米基塔·巴列斯尼、马克·考夫曼、梅格·通、托马什·科尔巴克、丹尼尔·科科塔伊洛、欧文·埃文斯。 [摘要],2023年9月
大型语言模型代理能否模拟人类的信任行为?
谢成星、陈灿宇、贾飞然、叶子宇、舒凯、阿德尔·比比、胡子牛、菲利普·托尔、伯纳德·加内姆、李国豪。 [摘要],2024年2月
高风险人群仿真中语言代理的隐式行为对齐
王云哲、盖尔·卢卡斯、布尔琴·贝切里克-格尔伯、沃尔坎·乌斯顿 [摘要],2025年10月
作为可编程主体的LLM代理:针对代理行为与对齐的检测方法及基准测试
高拉夫·科雷、阿迪提亚·提鲁文加达姆 [摘要],2025年10月
记忆。💭💫
CoLT5:基于条件计算的更快速长距离Transformer模型
乔舒亚·艾恩斯利、雷涛、米希尔·德容、圣地亚哥·翁塔农、西达尔塔·布拉马、尤里·泽姆良斯基、大卫·乌瑟斯、曼迪·郭、詹姆斯·李索思、易泰、孙韵轩、苏米特·桑盖。 [摘要],2023年3月
大型语言模型中的涌现与可预测的记忆现象
斯特拉·比德曼、USVSN 赛·普拉尚特、林唐·苏塔维卡、海莉·舍尔科普夫、昆汀·安东尼、希万舒·普罗希特、爱德华·拉夫。 [摘要],2023年4月
利用自控记忆系统释放大规模语言模型的无限长度输入能力
梁新念、王兵、黄辉、吴双志、吴培浩、陆璐、马泽俊、李周军。 [摘要],2023年4月
ChatLog:跨时间记录与分析ChatGPT
涂尚清、李春阳、于继凡、王晓智、侯磊、李娟子。 [摘要],2023年4月
通过自我笔记学习推理与记忆
杰克·朗尚坦、舒巴姆·托什尼瓦尔、杰森·韦斯顿、阿瑟·斯拉姆、赛恩巴亚尔·苏赫巴托尔。 [摘要],2023年5月
Unlimiformer:具备无限长度输入能力的长距离Transformer模型
阿曼达·伯奇、乌里·阿隆、格雷厄姆·纽比格、马修·R·戈姆利。 [摘要],2023年5月
小型模型是大型语言模型的宝贵插件
许灿文、许一冲、王硕航、刘洋、朱晨光、朱利安·麦考利。 [摘要],2023年5月
MemoryBank:用长期记忆增强大型语言模型
钟万军、郭良洪、高琪琪、叶禾、王艳琳。 [摘要],2023年5月
ToolkenGPT:通过工具嵌入为冻结语言模型添加海量工具
郝世博、刘天阳、王振、胡志婷。 [摘要],2023年5月
RecurrentGPT:交互式生成(任意)长文本
周旺春树、江雨辰·埃莉诺、崔鹏、王天南、肖振鑫、侯义凡、瑞安·科特雷尔、姆林玛雅·萨昌。 [摘要],2023年5月
RET-LLM:迈向大型语言模型的通用读写内存
阿里·莫达雷西、阿尤布·伊马尼、莫赫森·法亚兹、欣里希·舒策。 [摘要],2023年5月
使语言模型适应上下文压缩
阿莱克西斯·谢瓦利耶、亚历山大·韦蒂格、阿尼鲁德·阿吉特、陈丹琪。 [摘要],2023年5月
重新审视并行上下文窗口:一种令人沮丧的简单替代方案与思维链退化问题
杨克俊、刘晓、门凯文、曾傲寒、董宇霄、唐杰。 [摘要],2023年5月
地标注意力:为Transformer提供随机访问的无限上下文长度
阿米尔凯万·莫塔沙米、马丁·贾吉。 [摘要],2023年5月
随机位置编码提升Transformer的长度泛化能力
阿尼安·鲁奥斯、格雷果瓦·德莱唐、蒂姆·格内温、若尔迪·格劳-莫亚、罗伯特·乔尔达斯、梅迪·本纳尼、谢恩·莱格、乔尔·维内斯。 [摘要],2023年5月
单调位置注意力用于长度泛化
吉什努·雷·乔杜里、科妮莉亚·卡拉吉亚。 [摘要],2023年5月
ChatDB:以数据库作为符号记忆增强LLM
胡晨旭、傅杰、杜晨庄、罗思敏、赵俊波、赵航。 [摘要],2023年6月
语言代理的认知架构
西奥多·萨默斯、姚顺宇、卡尔蒂克·纳拉西曼、托马斯·L·格里菲斯。 [摘要],2023年9月
JARVIS-1:具有记忆增强型多模态语言模型的开放世界多任务代理
王子豪、蔡绍飞、刘安吉、金永刚、侯金炳、张博伟、林浩伟、何兆峰、郑子龙、杨耀东、马晓健、梁义涛。 [摘要],2023年11月
基于大型语言模型的代理记忆机制综述
张泽宇、薄晓河、马晨、李锐、陈旭、戴全宇、朱继明、董振华、温继荣。 [摘要],2024年4月
HippoRAG:受神经生物学启发的大型语言模型长期记忆
贝尔纳尔·希门尼斯·古铁雷斯、舒一恒、顾宇、安永道、苏宇。 [摘要],2024年5月
思想缓冲区:利用大型语言模型进行思想增强型推理
杨玲、于兆臣、张天俊、曹士毅、徐民凯、张文韬、约瑟夫·E·冈萨雷斯、崔斌。 [摘要],2024年6月
规划。🧩♟️
语言模型作为零样本规划者:为具身智能体提取可操作知识
黄文龙、皮特·阿贝尔、迪帕克·帕塔克、伊戈尔·莫达奇。 [摘要],2022年1月
内心独白:通过语言模型规划实现具身推理
黄文龙、夏飞、肖天、陈浩思、梁杰克、皮特·弗洛伦斯、曾安迪、汤普森·乔纳森、莫达奇·伊戈尔、切博塔尔·叶夫根、塞尔马内·皮埃尔、布朗·诺亚、杰克逊·托马斯、刘琳达、列维涅·谢尔盖、豪斯曼·卡罗尔、伊希特·布莱恩。[摘要],2022年7月
ReAct:在语言模型中协同推理与行动
姚顺宇、赵杰弗里、于典、杜楠、沙弗兰·伊扎克、纳拉西曼·卡尔蒂克、曹源。[摘要],2022年10月
心灵之眼:通过仿真实现 grounded 语言模型推理
刘瑞波、魏贾森、顾世翔·谢恩、吴德言、沃索吉·索鲁什、崔克莱尔、周登尼、戴安德鲁·M。[摘要],2022年10月
LLM-Planner:基于大型语言模型的具身智能体少样本 grounded 规划
宋灿熙、吴嘉满、华盛顿·克莱顿、萨德勒·布赖恩·M、赵伟伦、苏宇。[摘要],2022年12月
不要生成,要判别:将语言模型 grounding 到现实世界环境的方案
顾宇、邓翔、苏宇。[摘要],2022年12月
具身智能体会梦见像素化的羊吗?:利用语言引导的世界建模进行具身决策
诺廷汉·科尔比、阿曼纳布罗卢·普里特维拉吉、苏尔·安妮、崔艺珍、哈吉希尔齐·汉娜内、辛格·萨米尔、福克斯·罗伊。[摘要],2023年1月
描述、解释、规划与选择:大型语言模型驱动的交互式规划使能开放世界多任务智能体
王子浩、蔡绍飞、刘安吉、马晓健、梁义涛。[摘要],2023年2月
PaLM-E:一种具身多模态语言模型
德里斯·丹尼、夏飞、萨贾迪·梅赫迪·S·M、林奇·科里、乔德里·阿坎克莎、伊希特·布莱恩、瓦希德·艾赞、汤普森·乔纳森、武权、余天和、黄文龙、切博塔尔·叶夫根、塞尔马内·皮埃尔、达克沃斯·丹尼尔、列维涅·谢尔盖、范霍克·文森特、豪斯曼·卡罗尔、图桑特·马克、格雷夫·克劳斯、曾安迪、莫达奇·伊戈尔、弗洛伦斯·皮特。[摘要],2023年3月
Reflexion:具有言语强化学习的语言智能体
申恩·诺亚、卡萨诺·费德里科、拉巴什·贝克、戈皮纳特·阿什温、纳拉西曼·卡尔蒂克、姚顺宇。[摘要],2023年3月
与环境对话:利用大型语言模型的交互式多模态感知
赵旭峰、李梦迪、韦伯·科尼利厄斯、哈菲兹·穆罕默德·布尔汉、维尔姆特·斯特凡。[摘要],2023年3月
Plan4MC:面向开放世界 Minecraft 任务的技能强化学习与规划
袁浩琪、张驰、王洪成、谢飞阳、蔡鹏林、董浩、陆宗庆。[摘要],2023年3月
Self-Refine:基于自我反馈的迭代优化
马丹·阿曼、坦东·尼凯特、古普塔·普拉卡哈尔、哈利南·斯凯勒、高璐瑜、维格雷夫·萨拉、阿隆·乌里、季里·努哈、普拉布莫耶·施里迈、杨一鸣、古普塔·沙尚克、马朱姆德尔·博迪萨特瓦·普拉萨德、赫尔曼·凯瑟琳、韦莱克·肖恩、亚兹丹巴赫什·阿米尔、克拉克·彼得。[摘要],2023年3月
教导大型语言模型进行自我调试
陈欣云、林麦克斯韦尔、舍尔利·纳撒尼尔、周登尼。[摘要],2023年4月
WizardLM:赋能大型语言模型执行复杂指令
许灿、孙庆丰、郑凯、耿修博、赵璞、冯家展、陶崇阳、江大新。[摘要],2023年4月
FrugalGPT:如何在降低成本并提升性能的同时使用大型语言模型
陈凌娇、扎哈里亚·马泰、周詹姆斯。[摘要],2023年5月
思维之树:利用大型语言模型进行深思熟虑的问题解决
姚顺宇、于典、赵杰弗里、沙弗兰·伊扎克、格里菲斯·托马斯·L、曹源、纳拉西曼·卡尔蒂克。[摘要],2023年5月
规划、消除与追踪——语言模型是具身智能体的好老师
吴悦、闵素妍、比斯克·约纳坦、萨拉胡丁诺夫·鲁斯兰、阿扎里亚·阿莫斯、李元志、米切尔·汤姆、普拉布莫耶·施里迈。[摘要],2023年5月
用于交互式文字游戏的知识增强型智能体
奇卡拉·普拉提克、张佳睿、伊利耶夫斯基·菲利普、弗朗西斯·乔纳森、马凯欣。[摘要],2023年5月
Voyager:一个基于大型语言模型的开放式具身智能体
王冠智、谢雨琪、蒋云帆、曼德尔卡尔·阿贾伊、肖超伟、朱宇科、范林溪、安南德库马尔·阿尼玛。[摘要],2023年5月
SwiftSage:具备快慢思维的生成式智能体,适用于复杂交互任务
林毕·尤臣、傅亦诚、杨卡丽娜、阿曼纳布罗卢·普里特维拉吉、布拉赫曼·法泽、黄诗雨、巴加瓦图拉·钱德拉、崔艺珍、任翔。[摘要],2023年5月
语言模型与世界模型相遇:具身经验增强语言模型
项建南、陶天华、顾毅、舒天敏、王紫瑞、杨子超、胡志亭。[摘要],2023年5月
Minecraft 中的幽灵:通过基于文本的知识与记忆的大型语言模型,在开放世界环境中实现通用能力的智能体
朱锡洲、陈云涛、田浩、陶晨鑫、苏伟杰、杨晨宇、黄高、李斌、陆乐威、王小刚、乔宇、张兆祥、戴继峰。[摘要],2023年5月
AdaPlanner:基于语言模型反馈的适应性规划
孙浩天、庄宇辰、孔令凯、戴博、张超。[摘要],2023年5月
用语言模型进行推理即是在用世界模型进行规划
郝世博、顾毅、马浩迪、洪家华·乔舒亚、王振、王哲黛西、胡志亭。[摘要],2023年5月
计划-求解提示:改进大型语言模型的零样本链式思维推理
王磊、徐万宇、蓝义怀、胡志强、蓝云石、李国伟·罗伊、林义鹏·Ee。[摘要],2023年5月
使智能体与 LLM 之间实现智能交互:一种强化学习方法
胡彬、赵晨阳、张朴、周子浩、杨远航、徐增林、刘斌。[摘要],2023年6月
RecAgent:推荐系统的一种新型仿真范式
王磊、张景森、陈旭、林彦凯、宋瑞华、赵伟恩·韦恩、文纪荣。[摘要],2023年6月
迈向统一的基于基础模型的智能体
迪帕洛·诺曼、拜拉万·阿伦库马尔、哈森克莱弗·莱昂纳德、伍尔夫迈尔·马库斯、希斯·尼古拉斯、里德米勒·马丁。[摘要],2023年7月
PanGu-Coder2:通过排序反馈提升代码大语言模型
沈博、张佳鑫、陈泰宏、赞道光、耿冰、傅安、曾慕涵、于艾伦、季继川、赵景阳、郭元楠、王千翔。 [摘要],2023年7月
具备规划、长上下文理解与程序合成能力的真实世界WebAgent
伊泽丁·古尔、古田弘树、奥斯汀·黄、穆斯塔法·萨夫达里、松尾丰、道格拉斯·埃克、亚历山德拉·福斯特。 [摘要],2023年7月
Retroformer:基于策略梯度优化的回顾性大型语言模型代理
姚伟然、谢尔比·海内克、胡安·卡洛斯·尼布尔斯、刘志伟、冯一浩、薛乐、里特什·穆尔蒂、陈泽远、张建国、阿普特·德万尚、徐然、菲利普·缪伊、王欢、熊才明、西尔维奥·萨瓦雷斯。 [摘要],2023年8月
SelfCheck:利用LLM零样本检查自身逐步推理过程
苗宁、叶伟·提、汤姆·雷因福思。 [摘要],2023年8月
ExpeL:LLM代理是经验型学习者
安德鲁·赵、丹尼尔·黄、昆廷·许、马蒂厄·林、刘永进、黄高。 [摘要],2023年8月
自驱动对齐:具备自动语言对齐技能学习的大语言模型代理
彭绍辉、胡星、易奇、张锐、郭嘉铭、黄迪、田子康、陈睿智、杜子东、郭琪、陈云基、李玲。 [摘要],2023年9月
JARVIS-1:具有记忆增强型多模态语言模型的开放世界多任务代理
王子豪、蔡绍飞、刘安吉、金勇刚、侯锦兵、张博文、林浩伟、何兆峰、郑子龙、杨耀东、马晓健、梁义涛。 [摘要],2023年11月
LEO:在3D世界中的具身通用代理
黄江勇、雍思龙、马晓健、凌湖雄坤、李普浩、王燕、李青、朱松纯、贾宝雄、黄思源。 [摘要],2023年11月
代码链:结合语言模型增强的代码模拟器进行推理
李成书、梁杰克、曾安迪、陈欣韵、卡罗尔·豪斯曼、多尔萨·萨迪格、谢尔盖·列文、李飞飞、夏飞、布莱恩·伊希特。 [摘要],2023年12月
ReST遇见ReAct:多步推理LLM代理的自我改进
雷纳特·阿克西托夫、索班·米里尤塞菲、李宗林、李大亮、谢拉·巴巴扬、卡维娅·科帕拉普、扎卡里·费舍尔、郭瑞琪、苏尚特·普拉卡什、普拉内什·斯里尼瓦桑、曼齐尔·扎希尔、费利克斯·余、桑吉夫·库马尔。 [摘要],2023年12月
自我对比:通过不一致的解题视角实现更好的反思
张文琦、申永亮、吴琳娟、彭秋英、王军、庄宇婷、陆伟明。 [摘要],2024年1月
AutoAct:通过自我规划从零开始自动学习代理
乔硕飞、张宁宇、方润楠、罗雨洁、周旺春树、蒋悦辰·埃莉诺、吕成飞、陈华俊。 [摘要],2024年1月
TravelPlanner:面向真实世界规划的语言代理基准测试
谢坚、张凯、陈江杰、朱廷辉、楼仁泽、田元东、肖洋华、苏宇。 [摘要],2024年2月
Agent-Pro:通过策略层面的反思与优化实现进化式学习
张文琦、唐科、吴海、王梦娜、申永亮、侯贵阳、谭泽奇、李鹏、庄宇婷、陆伟明。 [摘要],2024年2月
KnowAgent:面向LLM基础代理的知识增强型规划
朱宇奇、乔硕飞、欧毅新、邓淑敏、张宁宇、吕世伟、沈岳、梁磊、顾金杰、陈华俊。 [摘要],2024年3月
SOTOPIA-π:社交智能语言代理的交互式学习
王睿怡、俞浩飞、张文欣、齐正阳、马尔滕·萨普、格雷厄姆·纽比格、约纳坦·比斯克、朱浩。 [摘要],2024年3月
AutoGuide:为大语言模型代理自动生成并选择状态感知指南
傅尧、金东基、金载谦、孙成律、拉贾努根·洛格斯瓦兰、裴庆勋、李洪洛克。 [摘要],2024年3月
通过行动学习赋能大语言模型代理
赵海腾、马昌、王国银、苏静、孔令鹏、徐晶晶、邓志宏、杨红霞。 [摘要],2024年2月
魔鬼代言人:面向LLM代理的预见性反思
王浩宇、李涛、邓志伟、丹·罗斯、李阳。 [摘要],2024年5月
基于世界知识模型的代理规划
乔硕飞、方润楠、张宁宇、朱宇奇、陈翔、邓淑敏、姜勇、谢鹏君、黄飞、陈华俊。 [摘要],2024年5月
智能Go-Explore:站在巨人的肩膀上
卢聪、胡圣然、杰夫·克鲁恩。 [摘要],2024年5月
忠实的逻辑推理:基于符号思维链的方法
徐俊东、费浩、潘良明、刘倩、李孟立、许温妮。 [摘要],2024年5月
爱丽丝梦游仙境:简单任务揭示最先进大语言模型中的完全推理崩溃
玛丽安娜·涅茹丽娜、露西亚·奇波利纳-昆、梅迪·切尔蒂、珍妮娅·吉采夫。 [摘要],2024年6月
TextGrad:通过文本实现自动“微分”
梅尔特·于克塞贡乌尔、费德里科·比安奇、约瑟夫·博恩、刘盛、黄志、卡洛斯·格斯特林、詹姆斯·邹。 [摘要],2024年6月
符号学习使代理能够自我进化
周旺春树、欧毅新、丁盛伟、李龙、吴家隆、王天南、陈佳敏、王帅、徐晓华、张宁宇、陈华俊、蒋悦辰·埃莉诺。 [摘要],2024年6月
OS-Copilot:迈向具备自我改进能力的通用计算机代理
吴志勇、韩成成、丁子晨、翁振民、刘周面泽、姚顺宇、于涛、孔令鹏。 [摘要],2024年2月
SeeClick:利用GUI对齐技术打造先进的视觉GUI代理
程侃之、孙秋实、楚友刚、徐方志、李彦涛、张建兵、吴志勇。 [摘要],2024年1月
图学习能否改善LLM基础代理的规划?
吴熙熙、申艺飞、单彩华、宋凯涛、王思伟、张博航、冯嘉睿、程鸿、陈伟、熊云、李东升。 [摘要],2024年5月
E2CL:基于探索的错误纠正学习用于具身智能体
王翰林、梁卓涛、王健、李文杰 [摘要], 2024年11月
STeCa:面向LLM智能体学习的步骤级轨迹校准
王翰林、王健、梁卓涛、李文杰 [摘要], 2025年5月
超越静态测试平台:面向动态推荐系统的交互中心型智能体仿真平台
金松、张俊田、刘宇涵、张勋、张宇飞、尹国军、蒋飞、林伟、闫锐 [摘要], 2025年5月
AlignUSER:通过世界模型实现人类对齐的LLM智能体,用于推荐系统评估
尼古拉斯·布吉、吉安·玛丽亚·马尔科尼、托尼·叶普、渡边成正。 [摘要], 2026年1月
工具使用。👩🔧🔧。
WebGPT:结合浏览器与人类反馈的问答系统
中野玲一郎、雅各布·希尔顿、苏奇尔·巴拉吉、杰夫·吴、龙·欧阳、克里斯蒂娜·金、克里斯托弗·赫塞、桑塔努·贾因、维尼特·科萨拉朱、威廉·桑德斯、江旭、卡尔·科布、蒂娜·埃隆杜、格雷琴·克鲁格、凯文·巴顿、马修·奈特、本杰明·切斯、约翰·舒尔曼。 [摘要], 2021年12月
Toolformer:语言模型可自我学习使用工具
蒂莫·希克、简·德维迪-尤、罗伯托·德西、罗伯塔·赖莱阿努、玛丽亚·洛梅利、卢克·泽特勒莫耶、尼古拉·坎切达、托马斯·西亚洛姆。 [摘要], 2023年2月
MM-REACT:通过提示引导ChatGPT进行多模态推理与行动
杨正元、李林杰、王建峰、林凯文、埃赫桑·阿扎尔纳斯布、费萨尔·艾哈迈德、刘子程、刘策、张迈克尔、王丽娟。 [摘要], 2023年3月
HuggingGPT:利用ChatGPT及其在Hugging Face中的伙伴解决AI任务
沈永亮、宋凯涛、谭旭、李东升、陆伟明、庄玉婷。 [摘要], 2023年3月
Visual ChatGPT:与视觉基础模型对话、绘图和编辑
吴晨菲、尹圣明、戚伟珍、王晓东、唐泽成、段楠。 [摘要], 2023年3月
ART:大型语言模型的自动多步推理与工具使用
巴尔加维·帕兰贾佩、斯科特·伦德伯格、萨米尔·辛格、汉纳内·哈吉希尔齐、卢克·泽特勒莫耶、马尔科·图利奥·里贝罗。 [摘要], 2023年3月
TaskMatrix.AI:通过连接基础模型与数百万个API完成任务
梁耀波、吴晨菲、宋婷、吴文山、夏燕、刘宇、欧阳、陆帅、季磊、毛绍光、王云、寿林军、龚明、段楠。 [摘要], 2023年3月
Chameleon:大型语言模型的即插即用式组合推理
陆攀、彭宝林、程浩、米歇尔·加利、张凯威、吴英年、朱松纯、高建峰。 [摘要], 2023年4月
ChemCrow:用化学工具增强大型语言模型
安德烈斯·M·布兰、萨姆·考克斯、安德鲁·D·怀特、菲利普·施瓦勒。 [摘要], 2023年4月
TALM:工具增强型语言模型
亚伦·帕里西、赵瑶、诺亚·菲德尔。 [摘要], 2022年5月
CRITIC:大型语言模型可通过工具交互式批评实现自我修正
利用执行反馈使语言模型成为更好的工具学习者
乔硕飞、桂洪浩、陈华军、张宁宇。 [摘要], 2023年5月
ChatCoT:基于聊天的大语言模型上的工具增强型思维链推理
陈志鹏、周坤、张培臣、龚政、韦恩·辛·赵、温继荣。 [摘要], 2023年5月
Gorilla:连接海量API的大语言模型
帕蒂尔·希希尔·G、张天俊、王欣、约瑟夫·E·冈萨雷斯。 [摘要], 2023年5月
ToolLLM:助力大型语言模型掌握超过16000个真实世界API
秦宇佳、梁世豪、叶依宁、朱昆仑、严兰、陆雅茜、林彦凯、丛鑫、唐向儒、钱比尔、赵思涵、田润初、谢若冰、周杰、马克·格斯坦、李大海、刘志远、孙茂松。 [摘要], 2023年7月
GEAR:以通用且高效的工具解析能力增强语言模型
陆依宁、于浩平、丹尼尔·卡沙比。 [摘要], 2023年7月
Gentopia:工具增强型LLM的协作平台
徐彬峰、刘旭坤、沈华、韩泽宇、李宇涵、岳牧荣、彭志远、刘宇辰、姚子宇、徐东宽。 [摘要], 2023年8月
利用LM模拟沙盒识别LM智能体的风险
阮洋俊、董红华、王安德鲁、皮蒂斯·西尔维乌、周永超、鲍伊·吉米、杜布瓦·扬、麦迪逊·克里斯·J、桥本达津则。 [摘要], 2023年9月
利用预训练大型语言模型构建并运用世界模型进行基于模型的任务规划
关林、卡尔蒂克·瓦尔米卡姆、萨拉特·斯里达尔、坎巴帕蒂·苏巴拉奥。 [摘要], 2023年5月
Data-Copilot:以自主工作流连接数十亿数据与人类
张文琪、沈永亮、陆伟明、庄玉婷。 [摘要], 2023年6月
CLOVA:闭环视觉助手,具备工具使用与更新功能
高智、杜云涛、张新彤、马晓健、韩文娟、朱松纯、李青。 [摘要], 2023年12月
GitAgent:通过工具扩展助力GitHub上的自主代理
吕博涵、丛鑫、于海阳、杨潘、秦宇佳、叶依宁、陆雅茜、张忠、颜玉坤、林彦凯、刘志远、孙茂松。 [摘要], 2023年12月
EASYTOOL:以简洁的工具指令提升基于LLM的智能体性能
袁思宇、宋凯涛、陈江杰、谭旭、沈永亮、任侃、李东升、杨德庆。 [摘要], 2024年1月
Symbol-LLM:迈向以符号为中心的基础性大型语言模型接口
许方志、吴志勇、孙秋实、任思宇、袁飞、袁帅、林其卡、乔宇、刘俊。 [摘要], 2023年11月
郁金香智能体——让基于LLM的智能体能够利用庞大的工具库解决问题
费利克斯·奥克尔、丹尼尔·坦内贝格、朱利安·埃格特、迈克尔·金格。 [摘要], 2024年7月
OneGen:面向大语言模型的高效单遍统一生成与检索
张金田、彭成、孙梦舒、陈翔、梁磊、张志强、周俊、陈华军、张宁宇. [摘要], 2024年9月
强化学习训练。🧠📈
用于大语言模型智能体训练的组内策略优化
基于反事实软强化学习的视觉-语言模型智能体高效在线调优
面向长时程交互式大语言模型智能体的强化学习
凯文·陈、马可·库苏马诺-陶纳、布罗迪·胡瓦尔、阿列克谢·彼特伦科、杰克逊·汉堡格、弗拉德伦·科尔顿、菲利普·克雷亨布尔 [摘要], 2025年5月
SPA-RL:通过逐步进展归因强化大语言模型智能体
面向有效规划与工具使用的流式智能体系统优化
李卓峰、张浩翔、韩承柱、刘胜、谢建文、张宇、崔艺珍、周詹姆斯、陆攀 [摘要], 2025年10月
🤖💬🤖 多智能体
任务导向型通信
协作交流 👨💻👩💻
语言模型级联
大卫·多翰、温妮·许、艾托尔·莱夫科维奇、雅各布·奥斯汀、大卫·比伯、拉斐尔·贡蒂若·洛佩斯、吴宇怀、亨里克·米哈莱夫斯基、里夫·A·索罗斯、贾莎·索尔-迪克斯坦、凯文·墨菲、查尔斯·萨顿. [摘要], 2022年7月
与语言模型协作进行具身推理
伊希塔·达斯古普塔、克里斯汀·凯瑟-陈、肯尼思·马里诺、阿伦·阿胡贾、谢拉·巴巴扬、费利克斯·希尔、罗布·费格斯. [摘要], 2023年2月
CAMEL:用于大规模语言模型社会“心智”探索的沟通型智能体
李国豪、哈桑·阿贝德·阿尔·卡德尔·哈穆德、哈尼·伊塔尼、德米特里·希兹布林、伯纳德·加内姆. [摘要], 2023年3月
多方聊天:在群体场景中与人类和模型进行对话的智能体
吉米·魏、库尔特·舒斯特、阿瑟·斯拉姆、杰森·韦斯顿、杰克·乌尔巴内克、莫杰塔巴·科梅伊利. [摘要], 2023年4月
ChatLLM网络:更多大脑,更聪明
郝睿、胡琳梅、齐伟健、吴庆柳、张一瑞、聂立强. [摘要], 2023年4月
通过ChatGPT实现自我协作代码生成
董义宏、江雪、金志、李戈. [摘要], 2023年4月
大型语言模型涌现的自主科学研究能力
丹尼尔·A·博伊科、罗伯特·麦克奈特、盖布·戈梅斯. [摘要], 2023年4月
ChatGPT/GPT-4用于知识图谱构建与推理:最新能力及未来机遇
朱宇奇、王晓涵、陈静、乔硕飞、欧一欣、姚云芝、邓淑敏、陈华军、张宁宇. [摘要], 2023年5月
大型语言模型作为工具制造者
蔡天乐、王学智、马腾宇、陈鑫云、周登尼. [摘要], 2023年5月
从行动和指令推断沟通型智能体的目标
兰斯·英、谭志轩、维卡什·曼辛卡、约书亚·B·特南鲍姆. [摘要], 2023年6月
无线多智能体生成式AI:从互联智能到集体智能
邹航、赵启阳、巴拉赫·莉娜、本尼斯·梅赫迪、德巴·梅鲁安. [摘要], 2023年7月
RoCo:与大型语言模型进行辩证式多机器人协作
赵曼迪、施丽娅·贾因、宋舒然. [摘要], 2023年7月
释放大型语言模型的认知协同效应:通过多人格自我协作解决任务的智能体
王振海龙、毛绍光、吴文山、葛涛、魏福如、季恒. [摘要], 2023年7月
用于软件开发的沟通型智能体
钱晨、丛欣、杨诚、陈伟泽、苏宇生、徐居远、刘志远、孙茂松. [摘要], 2023年7月
向无限延伸:SHOW-1与Showrunner智能体在多智能体模拟中的应用
菲利普·马斯、弗兰克·凯里、克里斯·惠勒、爱德华·萨奇、皮特·比灵顿、杰西卡·亚法·沙马什. [摘要], 2023年7月
MetaGPT:面向多智能体协作框架的元编程
洪思睿、郑夏武、乔纳森·陈、程宇恒、张策耀、王子力、尤伟强、林子娟、周立洋、冉晨宇、肖凌峰、吴成林. [摘要], 2023年8月
利用自我博弈和来自AI反馈的上下文学习改进语言模型谈判
傅瑶、彭浩、图沙尔·科特、米雷拉·拉帕塔. [摘要], 2023年5月
多智能体协作:释放智能LLM智能体的力量
雅沙尔·塔莱比拉德、阿米尔侯赛因·纳迪里. [摘要], 2023年6月
RestGPT:通过RESTful API将大型语言模型与现实世界应用连接起来
宋一凡、熊伟民、朱大伟、李成、王科、田叶、李素坚. [摘要], 2023年6月
用大型语言模型模块化构建合作性具身智能体
张洪鑫、杜卫华、单佳明、周钦鸿、杜一伦、约书亚·B·特南鲍姆、舒天敏、甘创. [摘要], 2023年7月
InterAct:探索ChatGPT作为合作型智能体的潜力
陈柏霖、张承尚. [摘要], 2023年8月
AutoGen:通过多智能体对话框架赋能下一代LLM应用
吴清云、班萨尔·加甘、张洁宇、吴怡然、张绍坤、朱尔康、李贝彬、江丽、张晓云、王驰. [摘要], 2023年8月
通过提示工程探索大型语言模型与基于智能体建模的交叉点
爱德华·君普隆格. [摘要], 2023年8月
用于嵌套式多智能体推理的神经网络摊销推理
库纳尔·贾、黎端英、金传阳、郭燕玲、约书亚·B·特南鲍姆、舒天敏. [摘要], 2023年8月
GPT在环:多智能体系统的自适应决策
娜塔莉娅·纳西门托、保罗·阿伦卡尔、唐纳德·科万. [摘要], 2023年8月
ProAgent:利用大型语言模型构建主动协作型AI
张策尧、杨凯杰、胡思怡、王子豪、李光和、孙一航、张成、张兆伟、刘安吉、朱松纯、常晓军、张俊格、尹峰、梁义涛、杨耀东. [摘要], 2023年8月
MindAgent:涌现的游戏交互
龚然、黄秋源、马晓健、霍伊·沃、赞恩·杜兰特、野田雄介、郑子龙、朱松纯、德米特里·特尔佐波洛斯、李飞飞、高剑锋. [摘要], 2023年9月
GenoMAS:基于代码驱动的基因表达分析的科学发现多智能体框架
分布式多智能体系统的阿喀琉斯之踵
张艺婷、李毅江、赵天威、朱凯杰、王浩翰、努诺·瓦斯科塞洛斯. [摘要], 2025年4月
CoMAS:通过交互奖励实现多智能体的协同进化
薛向远、周逸凡、张贵斌、张再彬、李毅江、张晨、殷振飞、菲利普·托尔、欧阳万里、白磊. [摘要], 2025年10月
从社会心理学视角探索LLM智能体的合作机制
张金田、许欣、邓淑敏. [摘要], 2023年10月
Lumos:基于统一数据、模块化设计和开源LLM的学习型智能体
殷达、法泽·布拉曼、阿比拉莎·拉维昌德尔、卡亚蒂·钱杜、张凯伟、崔艺珍、林宇辰. [摘要], 2023年11月
AutoAct:通过自我规划从零开始自动学习智能体
乔硕飞、张宁宇、方润楠、罗宇杰、周旺春树、蒋宇辰·埃莉诺、吕成飞、陈华君. [摘要], 2024年1月
Corex:通过多模型协作推动复杂推理的边界
孙秋实、尹章悦、李翔、吴志勇、邱锡鹏、孔令鹏. [摘要], 2023年10月
CoMM:用于解决复杂问题的协作式多智能体、多推理路径提示方法
陈沛、韩博然、张帅. [摘要], 2024年4月
进入未知的未知领域:通过参与语言模型智能体对话促进人类学习
蒋宇成、邵一佳、马德坤、西娜·J·塞姆纳尼、莫妮卡·S·拉姆. [摘要], 2024年8月
LLM协作中多智能体强化学习的上下文反事实信用分配
对抗性交互 👨🏻🦳🗣
通过多智能体辩论激发大型语言模型的发散思维
梁天、何志伟、焦文祥、王星、王燕、王睿、杨宇久、涂兆鹏、史书铭. [摘要], 2023年5月
通过多智能体辩论提升语言模型的事实性和推理能力
杜一伦、李爽、安东尼奥·托拉尔巴、约书亚·B·特南鲍姆、伊戈尔·莫达奇. [摘要], 2023年5月
利用自我博弈和基于AI反馈的上下文学习改进语言模型谈判
傅瑶、彭浩、库什·科特、米雷拉·拉帕塔. [摘要], 2023年5月
ChatEval:通过多智能体辩论打造更优秀的基于LLM的评估工具
陈志敏、陈伟泽、苏宇生、于建轩、薛伟、张尚航、付杰、刘志远. [摘要], 2023年8月
LLM对逻辑谬误有多敏感?
阿米尔雷扎·帕扬德、丹·普鲁斯、乔丹·霍希尔、肖雪苏、维杰·K·古尔巴尼. [摘要], 2023年8月
利用LM模拟沙盒识别LM智能体的风险
阮阳军、董红花、王安德鲁、皮蒂斯·西尔维乌、周永超、贝吉·吉米、杜布瓦·扬、麦迪逊·克里斯·J、桥本达则. [摘要], 2023年9月
从社会心理学视角探索LLM智能体的合作机制
张金田、许欣、邓淑敏. [摘要], 2023年10月
CoMet:基于隐喻的多智能体语言游戏中隐蔽通信
徐书航、钟方伟. [摘要], 2025年5月
日常/开放对话 👥💬
生成式智能体:人类行为的互动模拟物
朴俊成、约瑟夫·C·奥布莱恩、蔡嘉丽、梅雷迪思·林格尔·莫里斯、李珀西、迈克尔·S·伯恩斯坦. [摘要], 2023年4月
在模拟人类社会中训练社交对齐的语言模型。
刘瑞波、杨瑞欣、贾晨燕、张戈、周登尼、戴安德鲁·M、杨迪伊、沃索吉·索鲁什. [摘要], 2023年5月
总结在生成式智能体中的作用:初步探讨
冯夏冲、冯晓成、秦冰. [摘要], 2023年5月
利用生成式智能体进行流行病建模。
罗斯·威廉姆斯、尼尤莎·侯赛尼奇梅赫、阿里特拉·马朱姆达尔、纳维德·加法尔扎德甘. [摘要], 2023年7月
S^3:由大型语言模型赋能的智能体支持的社会网络模拟系统
高晨、兰晓冲、卢志宏、毛金柱、朴京华、王焕东、金德鹏、李勇. [摘要], 2023年7月
AgentSims:大型语言模型评估的开源沙盒
林家驹、赵浩然、张傲驰、吴怡婷、平胡秋月、陈琴. [摘要], 2023年8月
CGMI:可配置的通用多智能体交互框架
靳鑫、贾宝昭、王一磊、吴兴交、李嘉文、何亮. [摘要], 2023年8月
SALM:基于语言模型驱动的社会网络模拟多智能体框架
高拉夫·科莱 [摘要], 2025年5月
🪐 应用
EduChat:基于大规模语言模型的智能教育聊天机器人系统
单宇豪、雷志凯、顾一阳、李勇、尹江浩、林家驹、叶林浩、铁志彦、周友根、王一磊、周爱民、周泽、陈琴、周杰、何亮、邱锡鹏。 [摘要],2023年8月
SuperAgent:面向电商网站的客服聊天机器人
崔磊、黄绍涵、魏福如、谭传奇、段超群、周明。 [论文],2017年
WebArena:用于构建自主智能体的真实网络环境
周书言、Frank F. Xu、朱浩、周旭辉、Robert Lo、Abishek Sridhar、程先毅、Yonatan Bisk、Daniel Fried、Uri Alon、Graham Neubig。 [摘要],2023年7月
LLM作为数据库管理员
周玄鹤、李国梁、刘知远。 [摘要],2023年8月
RoboAgent:通过语义增强与动作分块实现机器人操作中的泛化与效率
Homanga Bharadhwaj、Jay Vakil、Mohit Sharma、Abhinav Gupta、Shubham Tulsiani、Vikash Kumar。 [论文],2023年
基于大语言模型的智能体是否存在社会原则?
白继涛、张思淼、陈中昊。 [摘要],2023年8月
ToRA:用于数学问题求解的工具集成推理智能体
智能体技能发现
利用大型语言模型从零开始协助撰写维基百科式文章
邵益佳、蒋宇成、Theodore A. Kanell、Peter Xu、Omar Khattab、Monica S. Lam。 [摘要],[代码],2024年4月
CitySim:基于大规模语言模型驱动的智能体模拟的城市行为与城市动态建模
Nicolas Bougie和Narimasa Watanabe。 [摘要],2025年6月
aiXiv:由AI科学家生成的下一代开放获取科学发现生态系统
张鹏松、胡翔、黄国威、齐洋、张恒、李秀旭、宋嘉兴、罗嘉彬、李亦江、尹硕、戴成晓、江汉臣、周小燕、殷振飞、袁博钦、董静、苏桂南、乔冠仁、唐海明、杜安洪、潘丽丽、兰振中、刘新宇。 [摘要] [代码],2025年8月
🖼️ 框架
Agents:开源的自主语言智能体框架
周旺春树、江悦儿辰、李龙、吴嘉隆、王天楠、邱诗、张金田、陈静、吴瑞普、王帅、朱世鼎、陈继宇、张文韬、张宁宇、陈华军、崔鹏、Mrinmaya Sachan。 [摘要],2023年9月
动态LLM-智能体网络:具有智能体团队优化功能的LLM-智能体协作框架
刘子俊、张延哲、李鹏、刘洋、杨迪伊。 [摘要],2023年10月
OpenAgents:面向野外语言智能体的开放平台
谢天宝、周凡、程周俊、石鹏、翁洛轩、刘逸涛、托赫京华、赵俊宁、刘倩、刘彻、刘子乐、许一恒、苏洪进、申东灿、熊才明、于涛。 [摘要],2023年10月
AutoAct:通过自我规划从零开始自动学习智能体
乔硕飞、张宁宇、方润楠、罗宇杰、周旺春树、江悦儿辰、吕承飞、陈华军。 [摘要],2024年1月
交互式智能体基础模型
Zane Durante、Bidipta Sarkar、龚然、Rohan Taori、野田佑介、Paul Tang、Ehsan Adeli、Shrinidhi Kowshika Lakshmikanth、Kevin Schulman、Arnold Milstein、Demetri Terzopoulos、Ade Famoti、久野信夫、Ashley Llorens、Hoi Vo、池内胜、李飞飞、高剑锋、Wake Naoki、黄秋源。 [摘要],2024年2月
生成式智能体社会中的社会规范涌现:原则与架构
任思越、崔志耀、宋睿琪、王震、胡淑玥。 [摘要],2024年3月
交互式进化:面向大型语言模型的神经符号自训练框架
徐方志、孙秋实、程侃之、刘俊、乔宇、吴志勇。 [摘要],2024年6月
AgentSquare:在模块化设计空间中自动搜索LLM智能体
尚宇、李宇、赵可宇、马立凯、刘家禾、徐凤利、李勇 [摘要],2024年10月
🔖 其他
提升对基于LLM的AI自动化智能体的信任:新思考与未来挑战
Sivan Schwartz、Avi Yaeli、Segev Shlomov。 [摘要],2023年8月
🧰 资源
基准测试
Mind2Web:迈向通用型网络智能体
邓翔、顾宇、郑博远、陈世杰、塞缪尔·史蒂文斯、王博石、孙欢、苏宇。 [摘要],2023年6月
通氏测试:通过动态具身物理与社会交互评估通用人工智能
彭宇佳、韩家恒、张振亮、范立峰、刘腾宇、齐思源、冯雪、马宇曦、王一舟、朱松纯。 [摘要],2023年7月
AgentBench:评估大语言模型作为智能体的能力
刘晓、于浩、张瀚辰、徐一凡、雷宣宇、赖涵宇、顾宇、丁航亮、门凯文、杨可俊、张淑丹、邓翔、曾傲寒、杜正啸、张晨辉、沈晟、张天俊、苏宇、孙欢、黄敏列、董宇霄、唐杰。 [摘要],2023年8月
BOLAA:基准测试与编排LLM增强的自主智能体。
刘志伟、姚维然、张建国、薛乐、谢尔比·海涅克、里特什·穆尔蒂、冯毅豪、陈泽元、胡安·卡洛斯·尼布尔斯、德万什·阿尔皮特、许冉、菲尔·穆伊、王欢、熊才明、西尔维奥·萨瓦雷斯。 [摘要],2023年8月
利用LM模拟沙盒识别LM智能体的风险
阮阳军、董洪华、安德鲁·王、西尔维乌·皮蒂斯、周永超、吉米·巴、扬·杜波依斯、克里斯·J·麦迪逊、桥本达则。 [摘要],2023年9月
T-Eval:逐步评估大型语言模型的工具使用能力
陈泽辉、杜伟华、张文伟、刘奎坤、刘江宁、郑淼、卓景明、张宋洋、林大华、陈凯、赵峰。 [摘要],2023年12月
TravelPlanner:基于语言智能体的真实世界规划基准测试
谢健、张凯、陈江杰、朱廷辉、楼仁泽、田元东、肖阳华、苏宇。 [摘要],2024年2月
AgentBoard:多轮LLM智能体的分析性评估平台
马畅、张俊磊、朱志浩、杨成、杨有久、金耀辉、兰振中、孔令鹏、何俊贤。 [摘要],2024年1月
OSWorld:在真实计算机环境中对开放式任务的多模态智能体进行基准测试
谢天宝、张丹阳、陈继轩、李晓川、赵思恒、曹瑞生、托赫·京华、程周俊、申东灿、雷方宇、刘义涛、徐一恒、周书燕、西尔维奥·萨瓦雷斯、熊才明、钟维克、余涛。 [摘要],2024年4月
TimeChara:评估角色扮演型大型语言模型的时间点角色幻觉
安在宇、李泰贤、林俊英、金镇和、尹尚斗、李花兰、金根熙。 [摘要],2024年5月
AppWorld:用于基准测试交互式编码智能体的可控应用与人物世界
哈什·特里维迪、图沙尔·科特、马莱克·哈特曼、拉斯金·曼库、文蒂·东、爱德华·李、沙尚克·古普塔、阿希什·萨巴瓦尔、尼兰詹·巴拉苏布拉马尼安。 [摘要],2024年7月
智能体工作流生成的基准测试
乔硕飞、方润楠、邱志松、王小斌、张宁宇、蒋勇、谢鹏俊、黄飞、陈华军。 [摘要],2024年10月
GenoTEX:用于自动化基因表达数据分析的LLM智能体基准测试
工具类型
📜 工具列表
Auto-GPT。 一个实验性的开源项目,旨在使 GPT-4 完全自主运行。
LangChain。 通过可组合性构建基于大语言模型的应用程序。
CAMEL。 用于探索大规模语言模型社会“心智”的沟通型智能体。
GPTeam。 GPTeam:一个开源的多智能体仿真平台。
Transformer Agents。 简而言之,它在 Transformer 模型之上提供了一个自然语言 API:我们定义了一组精选工具,并设计一个智能体来理解自然语言并使用这些工具。
AgentVerse。 多大语言模型环境仿真的框架。
AutoAgents。 具备增强推理和信息检索能力的大语言模型复杂问题解答系统。
GPT Engineer。 指定你想要构建的内容,AI 会请求澄清细节,然后完成构建。
MetaGPT。 多智能体框架:只需一行需求描述,即可输出 PRD、设计文档、任务清单和代码仓库。
WorkGPT。 用于调用 API 的 GPT 智能体框架。
AutoChain。 构建轻量级、可扩展且易于测试的大语言模型智能体。
Langroid。 通过多智能体编程充分利用大语言模型。
SocraticAI。 通过让多个 AI 智能体与用户及其他智能体对话来解决问题。
WebArena。 用于构建自主智能体的真实网络环境。
GPT Researcher。 基于 GPT 的自主智能体,能够对任何给定主题进行在线综合研究。
BMTools。 面向大模型的工具学习,ChatGPT 插件的开源解决方案。
ToolBench。 一个用于训练、部署和评估大语言模型工具学习能力的开放平台。
AgentGPT。 在浏览器中组装、配置并部署自主 AI 智能体。
xlang。 一个开源框架,通过可执行的语言接地来构建和评估语言模型智能体。
Agently。 快速构建基于大语言模型的智能体应用 🤵 一个轻量级框架,帮助开发者创建出色的大语言模型应用。
Lagent。 一个轻量级框架,用于构建基于大语言模型的智能体。
ToolEmu。 一个基于大语言模型的仿真框架,用于测试和识别基于大语言模型智能体的风险。
storm。 一种知识型智能体,能够研究特定主题并生成带有引用的完整报告。
Comet Opik。 使用全面的追踪功能、自动化评估以及生产就绪的仪表板,调试、评估和监控你的智能体工作流。
🎉 贡献
参与本论文列表的贡献
⭐“加入我们,一起完善这个仓库吧! 如果你知道我们遗漏了哪些重要工作,请随时贡献。你的努力对我们来说非常宝贵!”
贡献者
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备