[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-zjunlp--LLMAgentPapers":3,"similar-zjunlp--LLMAgentPapers":61},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":19,"owner_email":20,"owner_twitter":21,"owner_website":22,"owner_url":23,"languages":19,"stars":24,"forks":25,"last_commit_at":26,"license":19,"difficulty_score":27,"env_os":28,"env_gpu":29,"env_ram":29,"env_deps":30,"category_tags":33,"github_topics":37,"view_count":55,"oss_zip_url":19,"oss_zip_packed_at":19,"status":56,"created_at":57,"updated_at":58,"faqs":59,"releases":60},4860,"zjunlp\u002FLLMAgentPapers","LLMAgentPapers","Must-read Papers on LLM Agents.","LLMAgentPapers 是一个专注于大语言模型（LLM）智能体领域的精选论文知识库。随着 LLM 从单纯的对话工具演变为能自主规划、使用工具并协同工作的智能体，相关研究呈现爆发式增长，导致从业者难以快速追踪核心进展。LLMAgentPapers 正是为了解决这一信息过载问题而生，它系统性地梳理并分类了该领域的必读文献。\n\n该资源库不仅收录了关于智能体概述的权威综述，还细致地将论文划分为人格塑造、记忆机制、任务规划、工具调用、强化学习训练以及多智能体协作等多个关键技术维度。此外，它还涵盖了多模态交互应用、主流框架对比及相关基准测试资源。其独特的亮点在于持续更新的动态维护机制，确保用户能第一时间获取如\"KnowAgent\"等最新前沿成果，同时提供了关联的知识编辑与推理提示词等姊妹篇资源列表，构建了完整的知识探索路径。\n\nLLMAgentPapers 特别适合人工智能研究人员、算法工程师及希望深入理解 Agent 技术架构的开发者使用。无论是为了寻找科研灵感、撰写文献综述，还是为了在项目中落地先进的智能体方案，这里都能提供高效、精准的学术指引，帮助用户在纷繁复杂的技术浪潮中把握核心脉络","LLMAgentPapers 是一个专注于大语言模型（LLM）智能体领域的精选论文知识库。随着 LLM 从单纯的对话工具演变为能自主规划、使用工具并协同工作的智能体，相关研究呈现爆发式增长，导致从业者难以快速追踪核心进展。LLMAgentPapers 正是为了解决这一信息过载问题而生，它系统性地梳理并分类了该领域的必读文献。\n\n该资源库不仅收录了关于智能体概述的权威综述，还细致地将论文划分为人格塑造、记忆机制、任务规划、工具调用、强化学习训练以及多智能体协作等多个关键技术维度。此外，它还涵盖了多模态交互应用、主流框架对比及相关基准测试资源。其独特的亮点在于持续更新的动态维护机制，确保用户能第一时间获取如\"KnowAgent\"等最新前沿成果，同时提供了关联的知识编辑与推理提示词等姊妹篇资源列表，构建了完整的知识探索路径。\n\nLLMAgentPapers 特别适合人工智能研究人员、算法工程师及希望深入理解 Agent 技术架构的开发者使用。无论是为了寻找科研灵感、撰写文献综述，还是为了在项目中落地先进的智能体方案，这里都能提供高效、精准的学术指引，帮助用户在纷繁复杂的技术浪潮中把握核心脉络。","# LLM Agents Papers\n\n[![Awesome](https:\u002F\u002Fawesome.re\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FLLMAgentPapers) \n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fzjunlp\u002FLLMAgentPapers?color=green) \n\nMust-read Papers on Large Language Model Agents.\n\n---\n\n*\"Here are some other paper lists you might be interested in:*\n\n💡 **[Prompt4ReasoningPapers](https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FPrompt4ReasoningPapers):** Reasoning with Language Model Prompting Papers.\n\n🔬 **[KnowledgeEditingPapers](https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FKnowledgeEditingPapers):**  Must-read papers on knowledge editing for large language models.\n\n*We sincerely invite you to dive into these collections of papers and resources, each offering a distinct journey of exploration and discovery.*  :partying_face:”\n\n\n\n## 🔔 News\n\n- **[2024-03]** We release a new paper: \"[KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03101)\".\n- **[2023-06]** We create this repository to maintain a paper list on *Multi-agents*.\n\n\n\n## 📜Content\n\n- [LLM Agents Papers](#llm-agents-papers)\n  - [🔔 News](#-news)\n  - [📜Content](#content)\n  - [🌄 Papers](#-papers)\n    - [Overview](#overview)\n    - [🤖 Agent](#-agent)\n      - [Personality. 🧛🧙](#personality-)\n      - [Memory. 💭💫](#memory-)\n      - [Planning. 🧩♟️](#planning-️)\n      - [Tool use. 👩‍🔧🔧](#tool-use-)\n      - [RL training. 🧠📈](#rl-training-)\n    - [🤖💬🤖 Multiple Agents](#-multiple-agents)\n      - [Task-Oriented Communication](#task-oriented-communication)\n        - [Collaborative Exchanges 👨‍💻👩‍💻](#collaborative-exchanges-)\n        - [Adversarial Interactions 👨🏻‍🦳🗣](#adversarial-interactions-)\n      - [Casual\u002FOpen Conversations 👥💬](#casualopen-conversations-)\n    - [🪐 Application](#-application)\n    - [🖼️ Framework](#️-framework)\n    - [🔖 Others](#-others)\n  - [🧰 Resources](#-resources)\n    - [Benchmarks](#benchmarks)\n    - [Types of Tools](#types-of-tools)\n    - [📜 Tool List](#-tool-list)\n  - [🎉 Contribution](#-contribution)\n    - [Contributing to this paper list](#contributing-to-this-paper-list)\n    - [Contributors](#contributors)\n\n\n\n---\n\n## 🌄 Papers\n\n### Overview\n\n1. **Interactive Natural Language Processing**\n\n   *Zekun Wang, Ge Zhang, Kexin Yang, Ning Shi, Wangchunshu Zhou, Shaochun Hao, Guangzheng Xiong, Yizhi Li, Mong Yuan Sim, Xiuying Chen, Qingqing Zhu, Zhenzhu Yang, Adam Nik, Qi Liu, Chenghua Lin, Shi Wang, Ruibo Liu, Wenhu Chen, Ke Xu, Dayiheng Liu, Yike Guo, Jie Fu.* [[abs]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13246), 2023.5\n\n2. **A Survey on Large Language Model based Autonomous Agents**\n\n   *Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11432)], 2023.8\n\n3. **The Rise and Potential of Large Language Model Based Agents: A Survey**\n\n   *Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huang, Tao Gui.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.07864)], 2023.9\n\n4. **If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents**\n\n    *Ke Yang, Jiateng Liu, John Wu, Chaoqi Yang, Yi R. Fung, Sha Li, Zixuan Huang, Xu Cao, Xingyao Wang, Yiquan Wang, Heng Ji, Chengxiang Zhai.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.00812)], 2024.1\n\n5. **Agent AI: Surveying the Horizons of Multimodal Interaction**\n\n   *Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.03568.pdf)], 2024.1\n\n6. **Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security**\n\n   *Yuanchun Li, Hao Wen, Weijun Wang, Xiangyu Li, Yizhen Yuan, Guohong Liu, Jiacheng Liu, Wenxing Xu, Xiang Wang, Yi Sun, Rui Kong, Yile Wang, Hanfei Geng, Jian Luan, Xuefeng Jin, Zilong Ye, Guanjing Xiong, Fan Zhang, Xiang Li, Mengwei Xu, Zhijun Li, Peng Li, Yang Liu, Ya-Qin Zhang, Yunxin Liu.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.05459.pdf)], 2024.1\n\n7. **A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond**\n\n   *Qiushi Sun, Zhirui Chen, Fangzhi Xu, Kanzhi Cheng, Chang Ma, Zhangyue Yin, Jianing Wang, Chengcheng Han, Renyu Zhu, Shuai Yuan, Qipeng Guo, Xipeng Qiu, Pengcheng Yin, Xiaoli Li, Fei Yuan, Lingpeng Kong, Xiang Li, Zhiyong Wu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.14734)], 2024.3\n\n8. **A Survey on Large Language Model based Human-Agent Systems**\n\n   *Henry Peng Zou, Wei-Chieh Huang, Yaozu Wu, Yankai Chen, Chunyu Miao, Hoang Nguyen, Yue Zhou, Weizhi Zhang, Liancheng Fang, Langzhou He, Yangning Li, Yuwei Cao, Dongyuan Li, Renhe Jiang, Philip S. Yu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.00753)], 2025.5\n\n9. **The Landscape of Agentic Reinforcement Learning for LLMs: A Survey**\n\n   *Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.02547)] [[code](https:\u002F\u002Fgithub.com\u002Fxhyumiracle\u002FAwesome-AgenticLLM-RL-Papers)], 2025.9\n   \n---\n\n### 🤖 Agent\n\n#### Personality. 🧛🧙\n\n1. **Theory of Mind May Have Spontaneously Emerged in Large Language Models**\n\n   *Michal Kosinski.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02083)], 2023.2\n\n2. **Toxicity in ChatGPT: Analyzing Persona-assigned Language Models**\n\n   *Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05335)], 2023.4\n\n3. **Playing repeated games with Large Language Models**\n\n   *Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias Bethge, Eric Schulz.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16867)], 2023.5\n\n4. **ExpertPrompting: Instructing Large Language Models to be Distinguished Experts**\n\n   *Benfeng Xu, An Yang, Junyang Lin, Quan Wang, Chang Zhou, Yongdong Zhang, Zhendong Mao.*  [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14688)], 2023.5\n\n5. **Role-Play with Large Language Models**\n\n   *Murray Shanahan, Kyle McDonell, Laria Reynolds.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16367)], 2023.5\n\n6. **TidyBot: Personalized Robot Assistance with Large Language Models**\n\n   *Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05658)], 2023.5\n\n7. **Personality Traits in Large Language Models**\n\n   *Mustafa Safdari, Greg Serapio-García, Clément Crepy, Stephen Fitz, Peter Romero, Luning Sun, Marwa Abdulhai, Aleksandra Faust, Maja Matarić.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.00184)], 2023.7\n\n8. **Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models**\n\n   *Keyu Pan, Yawen Zeng.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16180)], 2023.7\n\n9. **Consciousness in Artificial Intelligence: Insights from the Science of Consciousness**\n\n   *Patrick Butlin, Robert Long, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, Axel Constant, George Deane, Stephen M. Fleming, Chris Frith, Xu Ji, Ryota Kanai, Colin Klein, Grace Lindsay, Matthias Michel, Liad Mudrik, Megan A. K. Peters, Eric Schwitzgebel, Jonathan Simon, Rufin VanRullen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08708)], 2023.8\n\n10. **Taken out of context: On measuring situational awareness in LLMs**\n\n    *Lukas Berglund, Asa Cooper Stickland, Mikita Balesni, Max Kaufmann, Meg Tong, Tomasz Korbak, Daniel Kokotajlo, Owain Evans.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00667)], 2023.9\n\n11. **Can Large Language Model Agents Simulate Human Trust Behaviors?**\n\n    *Chengxing Xie, Canyu Chen, Feiran Jia, Ziyu Ye, Kai Shu, Adel Bibi, Ziniu Hu, Philip Torr, Bernard Ghanem, Guohao Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.04559)], 2024.02\n\n12. **Implicit Behavioral Alignment of Language Agents in High-Stakes Crowd Simulations**\n\n    *Yunzhe Wang, Gale Lucas, Burcin Becerik-Gerber, Volkan Ustun* [[abs](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.1562.pdf)], 2025.10\n\n13. **LLM Agents as Programmable Subjects: Assays and Benchmarks for Agentic Behavior and Alignment**\n\n    *Gaurav Koley, Aditya Thiruvengadam* [[abs](https:\u002F\u002Fwww.preprints.org\u002Fmanuscript\u002F202510.0476)], 2025.10\n    \n#### Memory. 💭💫\n\n1. **CoLT5: Faster Long-Range Transformers with Conditional Computation**\n\n   *Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09752)], 2023.3\n\n2. **Emergent and Predictable Memorization in Large Language Models**\n\n   *Stella Biderman, USVSN Sai Prashanth, Lintang Sutawika, Hailey Schoelkopf, Quentin Anthony, Shivanshu Purohit, Edward Raff.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11158)], 2023.4\n\n3. **Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System**\n\n   *Xinnian Liang, Bing Wang, Hui Huang, Shuangzhi Wu, Peihao Wu, Lu Lu, Zejun Ma, Zhoujun Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13343)], 2023.4\n\n4. **ChatLog: Recording and Analyzing ChatGPT Across Time**\n\n   *Shangqing Tu, Chunyang Li, Jifan Yu, Xiaozhi Wang, Lei Hou, Juanzi Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14106)], 2023.4\n\n5. **Learning to Reason and Memorize with Self-Notes**\n\n   *Jack Lanchantin, Shubham Toshniwal, Jason Weston, Arthur Szlam, Sainbayar Sukhbaatar.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.00833)], 2023.5\n\n6. **Unlimiformer: Long-Range Transformers with Unlimited Length Input**\n\n   *Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01625)], 2023.5\n\n7. **Small Models are Valuable Plug-ins for Large Language Models**\n\n   *Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08848)], 2023.5\n\n8. **MemoryBank: Enhancing Large Language Models with Long-Term Memory**\n\n   *Wanjun Zhong, Lianghong Guo, Qiqi Gao, He Ye, Yanlin Wang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10250)], 2023.5\n\n9. **ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings**\n\n   *Shibo Hao, Tianyang Liu, Zhen Wang, Zhiting Hu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11554)], 2023.5\n\n10. **RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text**\n\n    *Wangchunshu Zhou, Yuchen Eleanor Jiang, Peng Cui, Tiannan Wang, Zhenxin Xiao, Yifan Hou, Ryan Cotterell, Mrinmaya Sachan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13304)], 2023.5\n\n11. **RET-LLM: Towards a General Read-Write Memory for Large Language Models**\n\n    *Ali Modarressi, Ayyoob Imani, Mohsen Fayyaz, Hinrich Schütze.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14322)], 2023.5\n\n12. **Adapting Language Models to Compress Contexts**\n\n    *Alexis Chevalier, Alexander Wettig, Anirudh Ajith, Danqi Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14788)], 2023.5 \n\n13. **Revisiting Parallel Context Windows: A Frustratingly Simple Alternative and Chain-of-Thought Deterioration**\n\n    *Kejuan Yang, Xiao Liu, Kaiwen Men, Aohan Zeng, Yuxiao Dong, Jie Tang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15262)], 2023.5\n\n14. **Landmark Attention: Random-Access Infinite Context Length for Transformers**\n\n    *Amirkeivan Mohtashami, Martin Jaggi.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16300)], 2023.5\n\n15. **Randomized Positional Encodings Boost Length Generalization of Transformers**\n\n    *Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás, Mehdi Bennani, Shane Legg, Joel Veness.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16843)], 2023.5\n\n16. **Monotonic Location Attention for Length Generalization**\n\n    *Jishnu Ray Chowdhury, Cornelia Caragea.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.20019)], 2023.5\n\n17. **ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory**\n\n    *Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao, Hang Zhao.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03901)], 2023.6\n\n18. **Cognitive Architectures for Language Agents**\n\n    *Theodore Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.02427)], 2023.9\n\n19. **JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models**\n\n    *Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05997)], 2023.11\n\n20. **A Survey on the Memory Mechanism of Large Language Model based Agents**\n\n    *Zeyu Zhang, Xiaohe Bo, Chen Ma, Rui Li, Xu Chen, Quanyu Dai, Jieming Zhu, Zhenhua Dong, Ji-Rong Wen*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13501)], 2024.4\n\n21. **HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models**\n\n    *Bernal Jiménez Gutiérrez, Yiheng Shu, Yu Gu, Michihiro Yasunaga, Yu Su.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14831)], 2024.5\n    \n23. **Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models**\n\n    *Ling Yang, Zhaochen Yu, Tianjun Zhang, Shiyi Cao, Minkai Xu, Wentao Zhang, Joseph E. Gonzalez, Bin Cui.*  [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04271)],2024,6\n\n\n#### Planning. 🧩♟️\n\n1. **Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents**\n\n   *Wenlong Huang, Pieter Abbeel, Deepak Pathak, Igor Mordatch*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.07207)], 2022.1\n\n2. **Inner Monologue: Embodied Reasoning through Planning with Language Models**\n\n   *Wenlong Huang , Fei Xia , Ted Xiao , Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, Pierre Sermanet, Noah Brown, Tomas Jackson, Linda Luu, Sergey Levine, Karol Hausman, Brian Ichter*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05608)], 2022.7\n\n3. **ReAct: Synergizing Reasoning and Acting in Language Models**\n\n   *Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629)], 2022.10\n\n4. **Mind's Eye: Grounded Language Model Reasoning through Simulation**\n\n   *Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.05359)], 2022.10\n\n5. **LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models**\n\n   *Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04088)], 2022.12\n\n6. **Don’t Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments**\n\n   *Yu Gu, Xiang Deng, Yu Su.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09736)], 2022.12\n\n7. **Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling**\n\n   *Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, Roy Fox*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12050)], 2023.1\n\n8. **Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents**\n\n   *Zihao Wang, Shaofei Cai, Anji Liu, Xiaojian Ma, Yitao Liang*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560)], 2023.2\n\n9. **PaLM-E: An embodied multimodal language model**\n\n   *Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03378)], 2023.3\n\n10. **Reflexion: Language Agents with Verbal Reinforcement Learning**\n\n    *Noah Shinn, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366)], 2023.3\n\n11. **Chat with the Environment: Interactive Multimodal Perception using Large Language Models**\n\n    *Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, Stefan Wermter*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08268)], 2023.3\n\n12. **Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks**\n\n    *Haoqi Yuan, Chi Zhang, Hongcheng Wang, Feiyang Xie, Penglin Cai, Hao Dong, Zongqing Lu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16563)], 2023.3\n\n13. **Self-Refine: Iterative Refinement with Self-Feedback**\n\n    *Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, Amir Yazdanbakhsh, Peter Clark.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651)], 2023.3\n\n14. **Teaching Large Language Models to Self-Debug**\n\n    *Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05128)], 2023.4\n\n15. **WizardLM: Empowering Large Language Models to Follow Complex Instructions**\n\n    *Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12244)], 2023.4\n\n16. **FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance**\n\n    *Lingjiao Chen, Matei Zaharia, James Zou.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05176)], 2023.5\n\n17. **Tree of Thoughts: Deliberate Problem Solving with Large Language Models**\n\n    *Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)], 2023.5\n\n18. **Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents**\n\n    *Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02412)], 2023.5\n\n19. **Knowledge-enhanced Agents for Interactive Text Games**\n\n    *Prateek Chhikara, Jiarui Zhang, Filip Ilievski, Jonathan Francis, Kaixin Ma.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05091)], 2023.5 \n\n20. **Voyager: An Open-Ended Embodied Agent with Large Language Models**\n\n    *Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291)], 2023.5\n\n21. **SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks**\n\n    *Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17390)], 2023.5\n\n22. **Language Models Meet World Models: Embodied Experiences Enhance Language Models**\n\n    *Jiannan Xiang, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, Zhiting Hu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10626)], 2023.5\n\n23. **Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory**\n\n    *Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17144)], 2023.5\n\n24. **AdaPlanner: Adaptive Planning from Feedback with Language Models**\n\n    *Haotian Sun, Yuchen Zhuang, Lingkai Kong, Bo Dai, Chao Zhang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16653)], 2023.5 \n\n25. **Reasoning with Language Model is Planning with World Model**\n\n    *Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992)], 2023.5\n\n26. **Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models**\n\n    *Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04091)], 2023.5\n\n27. **Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach**\n\n    *Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03604)], 2023.6\n\n28. **RecAgent: A Novel Simulation Paradigm for Recommender Systems**\n\n    *Lei Wang, Jingsen Zhang, Xu Chen, Yankai Lin, Ruihua Song, Wayne Xin Zhao, Ji-Rong Wen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.02552)], 2023.6\n\n29. **Towards A Unified Agent with Foundation Models.**\n\n    *Norman Di Palo, Arunkumar Byravan, Leonard Hasenclever, Markus Wulfmeier, Nicolas Heess, Martin Riedmiller.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.09668)], 2023.7\n\n30. **PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback**\n\n    *Bo Shen, Jiaxin Zhang, Taihong Chen, Daoguang Zan, Bing Geng, An Fu, Muhan Zeng, Ailun Yu, Jichuan Ji, Jingyang Zhao, Yuenan Guo, Qianxiang Wang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.14936)], 2023.7\n\n31. **A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis**\n\n    *Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.12856)], 2023.7\n\n32. **Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization**\n\n    *Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02151)], 2023.8\n\n33. **SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning**\n\n    *Ning Miao, Yee Whye Teh, Tom Rainforth.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00436)], 2023.8\n\n34. **ExpeL: LLM Agents Are Experiential Learners**\n\n    *Andrew Zhao, Daniel Huang, Quentin Xu, Matthieu Lin, Yong-Jin Liu, Gao Huang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.10144)], 2023.8\n\n35. **Self-driven Grounding: Large Language Model Agents with Automatical Language-aligned Skill Learning**\n\n    *Shaohui Peng, Xing Hu, Qi Yi, Rui Zhang, Jiaming Guo, Di Huang, Zikang Tian, Ruizhi Chen, Zidong Du, Qi Guo, Yunji Chen, Ling Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.01352)], 2023.9\n\n36. **JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models**\n\n    *Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05997)], 2023.11\n\n37. **LEO: An Embodied Generalist Agent in 3D World**\n\n    *Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu*, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12871)], 2023.11\n\n38. **Chain of Code: Reasoning with a Language Model-Augmented Code Emulator**\n\n    *Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04474)], 2023.12\n\n39. **ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent**\n\n    *Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10003)], 2023.12\n\n40. **Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives**\n\n    *Wenqi Zhang, Yongliang Shen, Linjuan Wu, Qiuying Peng, Jun Wang, Yueting Zhuang, Weiming Lu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.02009)], 2024.01\n\n41. **AutoAct: Automatic Agent Learning from Scratch via Self-Planning**\n\n    *Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.05268)], 2024.01\n\n42. **TravelPlanner: A Benchmark for Real-World Planning with Language Agents**\n   \n    *Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.01622.pdf)],2024.02\n\n43. **Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization**\n    \n    *Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, Weiming Lu.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.17574)],2024.02\n\n44. **KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents**\n\n    *Yuqi Zhu, Shuofei Qiao, Yixin Ou, Shumin Deng, Ningyu Zhang, Shiwei Lyu, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03101)], 2024.03\n\n45. **SOTOPIA-π: Interactive Learning of Socially Intelligent Language Agents**\n\n    *Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08715)], 2024.03\n\n46. **AutoGuide: Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents**\n\n    *Yao Fu, Dong-Ki Kim, Jaekyeom Kim, Sungryull Sohn, Lajanugen Logeswaran, Kyunghoon Bae, Honglak Lee.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08978)], 2024.03\n\n47. **Empowering Large Language Model Agents through Action Learning**\n\n    *Haiteng Zhao, Chang Ma, Guoyin Wang, Jing Su, Lingpeng Kong, Jingjing Xu, Zhi-Hong Deng, Hongxia Yang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15809)], 2024.02\n\n48. **Devil’s Advocate: Anticipatory Reflection for LLM Agents**\n\n    *Haoyu Wang, Tao Li, Zhiwei Deng, Dan Roth, Yang Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.16334v3)], 2024.05\n    \n49. **Agent Planning with World Knowledge Model**\n\n    *Shuofei Qiao, Runnan Fang, Ningyu Zhang, Yuqi Zhu, Xiang Chen, Shumin Deng, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14205)], 2024.05\n\n50. **Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models**\n\n    *Cong Lu, Shengran Hu, Jeff Clune.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15143)], 2024.05\n\n51. **Faithful Logical Reasoning via Symbolic Chain-of-Thought**\n\n    *Jundong Xu, Hao Fei, Liangming Pan, Qian Liu, Mong-Li Lee, Wynne Hsu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.18357)], 2024.05\n\n52. **Alice in Wonderland：Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models**\n\n    *Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.02061)], 2024.06\n    \n53. **TextGrad: Automatic “Differentiation” via Text**\n\n    *Mert Yuksekgonul, Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang, Carlos Guestrin, James Zou.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07496)], 2024.06\n\n54. **Symbolic Learning Enables Self-Evolving Agents**\n\n    *Wangchunshu Zhou, Yixin Ou, Shengwei Ding, Long Li, Jialong Wu, Tiannan Wang, Jiamin Chen, Shuai Wang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.18532v1)], 2024.06\n\n55. **OS-Copilot: Towards Generalist Computer Agents with Self-Improvement**\n\n    *Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07456)], 2024.02\n\n56. **SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents**\n\n    *Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Yantao Li, Jianbing Zhang, Zhiyong Wu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10935)], 2024.01\n\n57. **Can Graph Learning Improve Planning in LLM-based Agents?**\n\n    *Xixi Wu, Yifei Shen, Caihua Shan, Kaitao Song, Siwei Wang, Bohang Zhang, Jiarui Feng, Hong Cheng, Wei Chen, Yun Xiong, Dongsheng Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19119)], 2024.05\n\n58. **E2CL: Exploration-based Error Correction Learning for Embodied Agents**\n\n    *Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li* [[abs](https:\u002F\u002Faclanthology.org\u002F2024.findings-emnlp.448\u002F)], 2024.11\n\n59. **STeCa: Step-level Trajectory Calibration for LLM Agent Learning**\n    \n    *Hanlin Wang, Jian Wang, Chak Tou Leong, Wenjie Li* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14276)], 2025.5\n\n60. **Beyond Static Testbeds: An Interaction-Centric Agent Simulation Platform for Dynamic Recommender Systems**\n    \n    *Song Jin, Juntian Zhang, Yuhan Liu, Xun Zhang, Yufei Zhang, Guojun Yin, Fei Jiang, Wei Lin, Rui Yan* [[abs](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.956\u002F)], 2025.5\n\n61. **AlignUSER: Human-Aligned LLM Agents via World Models for Recommender System Evaluation**\n\n    *Nicolas Bougie, Gian Maria Marconi, Tony Yip, Narimasa Watanabe.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.00930)], 2026.1\n\n\n    \n#### Tool use. 👩‍🔧🔧\n\n1. **WebGPT: Browser-assisted question-answering with human feedback**\n\n   *Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332)], 2021.12\n\n2. **Toolformer: Language Models Can Teach Themselves to Use Tools**\n\n   *Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)], 2023.2\n\n3. **MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action**\n\n   *Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11381)], 2023.3\n\n4. **HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face**\n\n   *Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580)], 2023.3\n\n5. **Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models**\n\n   *Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04671)], 2023.3\n\n6. **ART: Automatic multi-step reasoning and tool-use for large language models**\n\n   *Bhargavi Paranjape, Scott Lundberg, Sameer Singh, Hannaneh Hajishirzi, Luke Zettlemoyer, Marco Tulio Ribeiro.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09014)], 2023.3\n\n7. **TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs**\n\n   *Yaobo Liang, Chenfei Wu, Ting Song, Wenshan Wu, Yan Xia, Yu Liu, Yang Ou, Shuai Lu, Lei Ji, Shaoguang Mao, Yun Wang, Linjun Shou, Ming Gong, Nan Duan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16434)], 2023.3\n\n8. **Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models**\n\n   *Pan Lu, Baolin Peng, Hao Cheng, Michel Galley, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Jianfeng Gao.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.09842)], 2023.4\n\n9. **ChemCrow: Augmenting large-language models with chemistry tools**\n\n   *Andres M Bran, Sam Cox, Andrew D White, Philippe Schwaller.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05376)], 2023.4\n\n10. **TALM: Tool Augmented Language Models**\n\n    *Aaron Parisi, Yao Zhao, Noah Fiedel.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12255)], 2022.5\n\n11. **CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing**\n\n    *Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen.*  [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.11738.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FProphetNet\u002Ftree\u002Fmaster\u002FCRITIC)], 2023.5\n\n12. **Making Language Models Better Tool Learners with Execution Feedback**\n\n    *Shuofei Qiao, Honghao Gui, Huajun Chen, Ningyu Zhang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13068)],2023.5\n\n13. **ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models**\n\n    *Zhipeng Chen, Kun Zhou, Beichen Zhang, Zheng Gong, Wayne Xin Zhao, Ji-Rong Wen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14323)], 2023.5\n\n14. **Gorilla: Large Language Model Connected with Massive APIs**\n\n    *Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15334)], 2023.5\n\n15. **ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs**\n\n    *Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789)], 2023.7\n\n16. **GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution**\n\n    *Yining Lu, Haoping Yu, Daniel Khashabi.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.08775)], 2023.7  \n\n17. **Gentopia: A Collaborative Platform for Tool-Augmented LLMs**\n\n    *Binfeng Xu, Xukun Liu, Hua Shen, Zeyu Han, Yuhan Li, Murong Yue, Zhiyuan Peng, Yuchen Liu, Ziyu Yao, Dongkuan Xu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.04030)], 2023.8\n\n18. **Identifying the Risks of LM Agents with an LM-Emulated Sandbox**\n\n    *Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15817)], 2023.9\n\n19. **Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning**\n\n    *Lin Guan, Karthik Valmeekam, Sarath Sreedharan, Subbarao Kambhampati* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14909)], 2023.5\n\n20. **Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow**\n\n    *Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07209)], 2023.6\n\n21. **CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update**\n\n    *Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han, Song-Chun Zhu, Qing Li* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10908)], 2023.12\n\n22. **GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension**\n\n    *Bohan Lyu, Xin Cong, Heyang Yu, Pan Yang, Yujia Qin, Yining Ye, Yaxi Lu, Zhong Zhang, Yukun Yan, Yankai Lin, Zhiyuan Liu, Maosong Sun.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.17294.pdf)], 2023.12\n\n23. **EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction**\n\n    *Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Yongliang Shen, Kan Ren, Dongsheng Li, Deqing Yang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06201)], 2024.1\n\n24. **Symbol-LLM: Towards Foundational Symbol-centric Interface For Large Language Models**\n\n    *Fangzhi Xu, Zhiyong Wu, Qiushi Sun, Siyu Ren, Fei Yuan, Shuai Yuan, Qika Lin, Yu Qiao, Jun Liu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.09278)], 2023.11\n\n25. **Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries**\n\n    *Felix Ocker, Daniel Tanneberg, Julian Eggert, Michael Gienger.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.21778)], 2024.07\n\n26. **OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs**\n\n    *Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.05152)], 2024.09\n\n    \n\n#### RL training. 🧠📈\n\n1. **Group-in-Group Policy Optimization for LLM Agent Training**\n\n    *Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.10978)][[code](https:\u002F\u002Fgithub.com\u002FlangfengQ\u002Fverl-agent)], 2025.5\n\n2. **Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning**\n\n    *Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03792)][[code](https:\u002F\u002Fgithub.com\u002FlangfengQ\u002FCoSo)], 2025.5\n\n3. **Reinforcement Learning for Long-Horizon Interactive LLM Agents**\n\n    *Kevin Chen, Marco Cusumano-Towner, Brody Huval, Aleksei Petrenko, Jackson Hamburger, Vladlen Koltun, Philipp Krähenbühl* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01600)], 2025.5\n\n4. **SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution**\n\n   *Hanlin Wang, Chak Tou Leong, Jiashuo Wang, Jian Wang, Wenjie Li* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.20732)][[code](https:\u002F\u002Fgithub.com\u002FWangHanLinHenry\u002FSPA-RL-Agent)], 2025.5\n\n5. **In-the-Flow Agentic System Optimization for Effective Planning and Tool Use**\n\n   *Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05592)], 2025,10\n   \n### 🤖💬🤖 Multiple Agents\n\n#### Task-Oriented Communication\n\n##### Collaborative Exchanges 👨‍💻👩‍💻\n\n1. **Language Model Cascades**\n\n   *David Dohan, Winnie Xu, Aitor Lewkowycz, Jacob Austin, David Bieber, Raphael Gontijo Lopes, Yuhuai Wu, Henryk Michalewski, Rif A. Saurous, Jascha Sohl-dickstein, Kevin Murphy, Charles Sutton.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.10342)], 2022.7\n\n2. **Collaborating with language models for embodied reasoning**\n\n   *Ishita Dasgupta, Christine Kaeser-Chen, Kenneth Marino, Arun Ahuja, Sheila Babayan, Felix Hill, Rob Fergus.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00763)], 2023.2\n\n3. **CAMEL: Communicative Agents for \"Mind\" Exploration of Large Scale Language Model Society**\n\n   *Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, Bernard Ghanem.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17760)], 2023.3\n\n4. **Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models**\n\n   *Jimmy Wei, Kurt Shuster, Arthur Szlam, Jason Weston, Jack Urbanek, Mojtaba Komeili.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13835)], 2023.4\n\n5. **ChatLLM Network: More brains, More intelligence**\n\n   *Rui Hao, Linmei Hu, Weijian Qi, Qingliu Wu, Yirui Zhang, Liqiang Nie.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12998)], 2023.4\n\n6. **Self-collaboration Code Generation via ChatGPT**\n\n   *Yihong Dong, Xue Jiang, Zhi Jin, Ge Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07590)], 2023.4\n\n7. **Emergent autonomous scientific research capabilities of large language models**\n\n   *Daniil A. Boiko, Robert MacKnight, Gabe Gomes.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05332)], 2023.4\n\n8. **ChatGPT\u002FGPT-4 for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities**\n\n   *Yuqi Zhu, Xiaohan Wang, Jing Chen, Shuofei Qiao, Yixin Ou, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13168)], 2023.5\n\n9. **Large Language Models as Tool Makers**\n\n   *Tianle Cai, Xuezhi Wang, Tengyu Ma, Xinyun Chen, Denny Zhou*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17126)], 2023.5\n\n10. **Inferring the Goals of Communicating Agents from Actions and Instructions**\n\n    *Lance Ying, Tan Zhi-Xuan, Vikash Mansinghka, Joshua B. Tenenbaum.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.16207)], 2023.6\n\n11. **Wireless Multi-Agent Generative AI: From Connected Intelligence to Collective Intelligence**\n\n    *Hang Zou, Qiyang Zhao, Lina Bariah, Mehdi Bennis, Merouane Debbah.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02757)], 2023.7\n\n12. **RoCo: Dialectic Multi-Robot Collaboration with Large Language Models**\n\n    *Zhao Mandi, Shreeya Jain, Shuran Song.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04738)], 2023.7\n\n13. **Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration**\n\n    *Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, Heng Ji.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.05300)], 2023.7\n\n14. **Communicative Agents for Software Development**\n\n    *Chen Qian, Xin Cong, Cheng Yang, Weize Chen, Yusheng Su, Juyuan Xu, Zhiyuan Liu, Maosong Sun.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.07924)], 2023.7\n\n15. **To Infinity and Beyond: SHOW-1 and Showrunner Agents in Multi-Agent Simulations**\n\n    *Philipp Maas, Frank Carey, Chris Wheeler, Edward Saatchi, Pete Billington, Jessica Yaffa Shamash.* [[abs](https:\u002F\u002Ffablestudio.github.io\u002Fshowrunner-agents\u002Fstatic\u002Fpdfs\u002FTo_Infinity_and_Beyond_SHOW-1_And_Showrunner_Agents_in_Multi_Agent_Simulations.pdf)], 2023.7\n\n16. **MetaGPT: Meta Programming For Multi-Agent Collaborative Framework**\n\n    *Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00352)], 2023.8\n\n17. **Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback**\n\n    *Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10142)], 2023.5\n\n18. **Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents**\n\n    *Yashar Talebirad, Amirhossein Nadiri.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03314)], 2023.6\n\n19. **RestGPT: Connecting Large Language Models with Real-World Applications via RESTful APIs**\n\n    *Yifan Song, Weimin Xiong, Dawei Zhu, Cheng Li, Ke Wang, Ye Tian, Sujian Li*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624)], 2023.6\n\n20. **Building Cooperative Embodied Agents Modularly with Large Language Models**\n\n    *Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02485)], 2023.7\n\n21. **InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent**\n\n    *Po-Lin Chen, Cheng-Shang Chang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.01552)], 2023.8\n\n22. **AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework**\n\n    *Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang, Chi Wang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08155)], 2023.8\n\n23. **Exploring the Intersection of Large Language Models and Agent-Based Modeling via Prompt Engineering**\n\n    *Edward Junprung.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07411)], 2023.8\n\n24. **Neural Amortized Inference for Nested Multi-agent Reasoning**\n\n    *Kunal Jha, Tuan Anh Le, Chuanyang Jin, Yen-Ling Kuo, Joshua B. Tenenbaum, Tianmin Shu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11071)], 2023.8\n\n25. **GPT-in-the-Loop: Adaptive Decision-Making for Multiagent Systems**\n\n    *Nathalia Nascimento, Paulo Alencar, Donald Cowan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.10435)], 2023.8\n\n26. **ProAgent: Building Proactive Cooperative AI with Large Language Models**\n\n    *Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11339)], 2023.8\n\n27. **MindAgent: Emergent Gaming Interaction**\n\n    *Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante Yusuke Noda, Zilong Zheng, Song-Chun Zhu Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.09971)], 2023.9\n\n28. **GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis**\n\n    *Haoyang Liu, Yijiang Li, Haohan Wang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21035)] [[code](https:\u002F\u002Fgithub.com\u002FLiu-Hy\u002FGenoMAS)], 2025.7\n\n29. **Achilles Heel of Distributed Multi-Agent Systems**\n\n    *Yiting Zhang, Yijiang Li, Tianwei Zhao, Kaijie Zhu, Haohan Wang, Nuno Vasconcelos.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07461)], 2025.4\n\n30. **CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards**\n\n    *Xiangyuan Xue, Yifan Zhou, Guibin Zhang, Zaibin Zhang, Yijiang Li, Chen Zhang, Zhenfei Yin, Philip Torr, Wanli Ouyang, Lei Bai.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08529)], 2025.10\n\n28. **Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View**\n\n    *Jintian Zhang, Xin Xu, Shumin Deng.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02124)], 2023.10\n\n29. **Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs**\n\n    *Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.05657.pdf)], 2023.11\n\n30. **AutoAct: Automatic Agent Learning from Scratch via Self-Planning**\n\n    *Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.05268)], 2024.01\n\n31. **Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration**\n\n    *Qiushi Sun, Zhangyue Yin, Xiang Li, Zhiyong Wu, Xipeng Qiu, Lingpeng Kong.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00280)], 2023.10\n\n32. **CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving**\n\n    *Pei Chen, Boran Han, Shuai Zhang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.17729)], 2024.4\n\n33. **Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations**\n\n    *Yucheng Jiang, Yijia Shao, Dekun Ma, Sina J. Semnani, Monica S. Lam.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15232)], 2024.8\n\n34. **Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration**\n\n    *Yanjun Chen, Yirong Sun, Hanlin Wang, Xinming Zhang, Xiaoyu Shen, Wenjie Li, Wei Zhang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.06859)] [[code](https:\u002F\u002Fgithub.com\u002FEIT-EAST-Lab\u002FC3)], 2026.3\n\n\n##### Adversarial Interactions 👨🏻‍🦳🗣\n\n1. **Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate**\n\n   *Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19118)], 2023.5\n\n2. **Improving Factuality and Reasoning in Language Models through Multiagent Debate**\n\n   *Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14325)], 2023.5\n\n3. **Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback**\n\n   *Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10142)], 2023.5\n\n4. **ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate**\n\n   *Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, Zhiyuan Liu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07201)], 2023.8\n\n5. **How susceptible are LLMs to Logical Fallacies?**\n\n   *Amirreza Payandeh, Dan Pluth, Jordan Hosier, Xuesu Xiao, Vijay K. Gurbani.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09853)], 2023.8\n\n6. **Identifying the Risks of LM Agents with an LM-Emulated Sandbox**\n\n   *Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15817)], 2023.9\n\n7. **Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View**\n\n   *Jintian Zhang, Xin Xu, Shumin Deng.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02124)], 2023.10\n\n8. **CoMet: Metaphor-Driven Covert Communication for Multi-Agent Language Games**\n\n   *Shuhang Xu, Fangwei Zhong.* [[abs](https:\u002F\u002Faclanthology.org\u002F2025.acl-long.389\u002F)], 2025.5\n   \n---\n\n#### Casual\u002FOpen Conversations 👥💬\n\n1. **Generative Agents: Interactive Simulacra of Human Behavior**\n\n   *Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)], 2023.4\n\n2. **Training Socially Aligned Language Models in Simulated Human Society.**\n\n   *Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16960)], 2023.5\n\n3. **The Role of Summarization in Generative Agents: A Preliminary Perspective**\n\n   *Xiachong Feng, Xiaocheng Feng, Bing Qin.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01253)], 2023.5\n\n4. **Epidemic Modeling with Generative Agents.**\n\n   *Ross Williams, Niyousha Hosseinichimeh, Aritra Majumdar, Navid Ghaffarzadegan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04986)], 2023.7\n\n5. **S^3: Social-network Simulation System with Large Language Model-Empowered Agents**\n\n   *Chen Gao, Xiaochong Lan, Zhihong Lu, Jinzhu Mao, Jinghua Piao, Huandong Wang, Depeng Jin, Yong Li.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.14984)],2023.7\n\n6. **AgentSims: An Open-Source Sandbox for Large Language Model Evaluation**\n\n   *Jiaju Lin, Haoran Zhao, Aochi Zhang, Yiting Wu, Huqiuyue Ping, Qin Chen*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.04026)], 2023.8\n\n7. **CGMI: Configurable General Multi-Agent Interaction Framework**\n\n   *Shi Jinxin, Zhao Jiabao, Wang Yilei, Wu Xingjiao, Li Jiawen, He Liang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12503)], 2023.8\n   \n8. **SALM: A Multi-Agent Framework for Language Model-Driven Social Network Simulation**\n\n    *Gaurav Koley* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.09081)], 2025.5\n\n### 🪐 Application\n\n1. **EduChat: A Large-Scale Language Model-based Chatbot System for Intelligent Education**\n\n   *Yuhao Dan, Zhikai Lei, Yiyang Gu, Yong Li, Jianghao Yin, Jiaju Lin, Linhao Ye, Zhiyan Tie, Yougen Zhou, Yilei Wang, Aimin Zhou, Ze Zhou, Qin Chen, Jie Zhou, Liang He, Xipeng Qiu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02773)], 2023.8\n\n2. **SuperAgent: A Customer Service Chatbot for E-commerce Websites**\n\n   *Lei Cui, Shaohan Huang, Furu Wei, Chuanqi Tan, Chaoqun Duan, Ming Zhou.* [[paper](https:\u002F\u002Faclanthology.org\u002FP17-4017\u002F)], 2017\n\n3. **WebArena: A Realistic Web Environment for Building Autonomous Agents**\n\n    *Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13854)], 2023.7\n\n4. **LLM As DBA**\n\n    *Xuanhe Zhou, Guoliang Li, Zhiyuan Liu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05481)], 2023.8\n\n5. **RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking**\n\n   *Homanga Bharadhwaj, Jay Vakil, Mohit Sharma, Abhinav Gupta, Shubham Tulsiani, Vikash Kumar.* [[paper](https:\u002F\u002Frobopen.github.io\u002Fmedia\u002Froboagent.pdf)], 2023\n\n6.  **Is There Any Social Principle for LLM-Based Agents?**\n\n    *Jitao Bai, Simiao Zhang, Zhonghao Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11136)], 2023.8\n\n7. **ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving**\n\n    *Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17452)] [[code](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FToRA)], 2023.9\n\n8. **Agentic Skill Discovery**\n\n    *Xufeng Zhao, Cornelius Weber, Stefan Wermter* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15019)] [[code](https:\u002F\u002Fgithub.com\u002Fxf-zhao\u002FAgentic-Skill-Discovery)], 2024.5\n\n9. **Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models**\n\n    *Yijia Shao, Yucheng Jiang, Theodore A. Kanell, Peter Xu, Omar Khattab, Monica S. Lam.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14207)], [[code](https:\u002F\u002Fgithub.com\u002Fstanford-oval\u002Fstorm)], 2024.4\n\n10. **CitySim: Modeling Urban Behaviors and City Dynamics with Large-Scale LLM-Driven Agent Simulation**\n\n    *Nicolas Bougie and Narimasa Watanabe.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21805)], 2025.6\n\n11. **aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists**\n\n    *Pengsong Zhang, Xiang Hu, Guowei Huang, Yang Qi, Heng Zhang, Xiuxu Li, Jiaxing Song, Jiabin Luo, Yijiang Li, Shuo Yin, Chengxiao Dai, Eric Hanchen Jiang, Xiaoyan Zhou, Zhenfei Yin, Boqin Yuan, Jing Dong, Guinan Su, Guanren Qiao, Haiming Tang, Anghong Du, Lili Pan, Zhenzhong Lan, Xinyu Liu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.15126)] [[code](https:\u002F\u002Fgithub.com\u002Faixiv-org)], 2025.8\n\n### 🖼️ Framework\n\n1. **Agents: An Open-source Framework for Autonomous Language Agents**\n\n   *Wangchunshu Zhou, Yuchen Eleanor Jiang, Long Li, Jialong Wu, Tiannan Wang, Shi Qiu, Jintian Zhang, Jing Chen, Ruipu Wu, Shuai Wang, Shiding Zhu, Jiyu Chen, Wentao Zhang, Ningyu Zhang, Huajun Chen, Peng Cui, Mrinmaya Sachan.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.07870)], 2023.9\n\n2. **Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization**\n\n   *Zijun Liu, Yanzhe Zhang, Peng Li, Yang Liu, Diyi Yang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02170)], 2023.10\n\n3. **OpenAgents: An Open Platform for Language Agents in the Wild**\n\n   *Tianbao Xie, Fan Zhou, Zhoujun Cheng, Peng Shi, Luoxuan Weng, Yitao Liu, Toh Jing Hua, Junning Zhao, Qian Liu, Che Liu, Leo Z. Liu, Yiheng Xu, Hongjin Su, Dongchan Shin, Caiming Xiong, Tao Yu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10634)], 2023.10\n\n4. **AutoAct: Automatic Agent Learning from Scratch via Self-Planning**\n\n   *Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.05268)], 2024.01\n\n5. **An Interactive Agent Foundation Model**\n\n   *Zane Durante, Bidipta Sarkar, Ran Gong, Rohan Taori, Yusuke Noda, Paul Tang, Ehsan Adeli, Shrinidhi Kowshika Lakshmikanth, Kevin Schulman, Arnold Milstein, Demetri Terzopoulos, Ade Famoti, Noboru Kuno, Ashley Llorens, Hoi Vo, Katsu Ikeuchi, Li Fei-Fei, Jianfeng Gao, Naoki Wake, Qiuyuan Huang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05929)], 2024.02\n\n6. **Emergence of Social Norms in Generative Agent Societies: Principles and Architecture**\n\n   *Siyue Ren, Zhiyao Cui, Ruiqi Song, Zhen Wang, Shuyue Hu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08251)], 2024.03\n\n7. **Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models**\n\n   *Fangzhi Xu, Qiushi Sun, Kanzhi Cheng, Jun Liu, Yu Qiao, Zhiyong Wu.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.11736)], 2024.06\n\n8. **AgentSquare: Automatic LLM Agent Search in Modular Design Space**\n\n   *Yu Shang, Yu Li, Keyu Zhao, Likai Ma, Jiahe Liu, Fengli Xu, Yong Li* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.06153)], 2024.10\n\n\n\n### 🔖 Others\n\n1. **Enhancing Trust in LLM-Based AI Automation Agents: New Considerations and Future Challenges**\n\n   *Sivan Schwartz, Avi Yaeli, Segev Shlomov.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05391)], 2023.8\n   \n---\n\n## 🧰 Resources\n\n### Benchmarks\n\n1. **Mind2Web: Towards a Generalist Agent for the Web**\n\n   *Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, Yu Su.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06070)], 2023.6\n\n3. **The Tong Test: Evaluating Artificial General Intelligence Through Dynamic Embodied Physical and Social Interactions**\n   \n    *Yujia Peng , Jiaheng Han, Zhenliang Zhang , Lifeng Fan , Tengyu Liu, Siyuan Qi, Xue Feng, Yuxi Ma, Yizhou Wang, Song-Chun Zhu.* [[abs](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS209580992300293X)], 2023.7\n   \n4. **AgentBench: Evaluating LLMs as Agents**\n\n   *Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03688)], 2023.8\n\n5. **BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents.**\n\n   *Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05960)], 2023.8\n\n6. **Identifying the Risks of LM Agents with an LM-Emulated Sandbox**\n\n   *Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15817)], 2023.9\n\n7. **T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step**\n\n   *Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14033)], 2023.12\n   \n8. **TravelPlanner: A Benchmark for Real-World Planning with Language Agents**\n\n   *Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su.* [[abs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.01622.pdf)], 2024.02\n\n9. **AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents**\n\n   *Chang Ma, Junlei Zhang, Zhihao Zhu, Cheng Yang, Yujiu Yang, Yaohui Jin, Zhenzhong Lan, Lingpeng Kong, Junxian He.*  [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13178)], 2024.01\n\n10. **OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments**\n   \n    *Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu.*  [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972)], 2024.04\n\n11. **TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models**\n\n    *Jaewoo Ahn, Taehyun Lee, Junyoung Lim, Jin-Hwa Kim, Sangdoo Yun, Hwaran Lee, Gunhee Kim.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.18027)], 2024.05\n\n12. **AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents**\n\n    *Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.18901)], 2024.07\n\n13. **Benchmarking Agentic Workflow Generation**\n\n    *Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen*. [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.07869)], 2024.10\n\n14. **GenoTEX: An LLM Agent Benchmark for Automated Gene Expression Data Analysis**\n\n    *Haoyang Liu, Shuyu Chen, Ye Zhang, Haohan Wang.* [[abs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.15341)] [[code](https:\u002F\u002Fgithub.com\u002FLiu-Hy\u002FGenoTEX)], 2024.6\n\n###  Types of Tools\n\n|      Types      | Tools                                                        |\n| :-------------: | ------------------------------------------------------------ |\n| Agent with tool | [AutoGPT](https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT)、[LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain)、[Transformer Agents](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Ftransformers_agents)、[WorkGPT](https:\u002F\u002Fgithub.com\u002Fteam-openpm\u002Fworkgpt)、[AutoChain ](https:\u002F\u002Fgithub.com\u002FForethought-Technologies\u002FAutoChain)、[Langroid](https:\u002F\u002Fgithub.com\u002Flangroid\u002Flangroid)、 [WebArena](https:\u002F\u002Fgithub.com\u002Fweb-arena-x\u002Fwebarena)、[GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher)、[BMTools](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FBMTools)、[ToolBench](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FToolBench) 、[AgentGPT](https:\u002F\u002Fgithub.com\u002Freworkd\u002FAgentGPT)、[xlang](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002Fxlang) |\n|   Multi-Agent   | [CAMEL](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel)、[GPTeam](https:\u002F\u002Fgithub.com\u002F101dotxyz\u002FGPTeam)、[AgentVerse](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FAgentVerse)、[MetaGPT](https:\u002F\u002Fgithub.com\u002Fgeekan\u002FMetaGPT)、[Langroid](https:\u002F\u002Fgithub.com\u002Flangroid\u002Flangroid)、[SocraticAI](https:\u002F\u002Fgithub.com\u002FRunzheYang\u002FSocraticAI)、[AutoGen](https:\u002F\u002Fmicrosoft.github.io\u002FFLAML\u002Fdocs\u002FUse-Cases\u002FAutogen\u002F)、[Agents](https:\u002F\u002Fgithub.com\u002Faiwaves-cn\u002Fagents) |\n|     Others      | [AutoAgents](https:\u002F\u002Fgithub.com\u002FAutoLLM\u002FAutoAgents)![img](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Reasoning-blue) 、[GPT Engineer](https:\u002F\u002Fgithub.com\u002FAntonOsika\u002Fgpt-engineer)  ![img](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Code-pink) |\n\n### 📜 Tool List\n\n- **[Auto-GPT](https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT).** An experimental open-source attempt to make GPT-4 fully autonomous.\n\n- **[LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain).**  Building applications with LLMs through composability.\n\n- **[CAMEL](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel).**  Communicative Agents for “Mind” Exploration of Large Scale Language Model Society.\n\n- **[GPTeam](https:\u002F\u002Fgithub.com\u002F101dotxyz\u002FGPTeam).**  GPTeam: An open-source multi-agent simulation. \n\n- **[Transformer Agents](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Ftransformers_agents).**  In short, it provides a natural language API on top of transformers: we define a set of curated tools and design an agent to interpret natural language and to use these tools.  \n\n- **[AgentVerse](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FAgentVerse) .**  A Framework for Multi-LLM Environment Simulation.  \n\n- **[AutoAgents](https:\u002F\u002Fgithub.com\u002FAutoLLM\u002FAutoAgents).** Complex question answering in LLMs with enhanced reasoning and information-seeking capabilities.\n\n- **[GPT Engineer](https:\u002F\u002Fgithub.com\u002FAntonOsika\u002Fgpt-engineer) .**  Specify what you want it to build, the AI asks for clarification, and then builds it.  \n\n- **[MetaGPT](https:\u002F\u002Fgithub.com\u002Fgeekan\u002FMetaGPT).** The Multi-Agent Framework: Given one line Requirement, return PRD, Design, Tasks, Repo\n\n- **[WorkGPT](https:\u002F\u002Fgithub.com\u002Fteam-openpm\u002Fworkgpt).** A GPT agent framework for invoking APIs.  \n\n- **[AutoChain](https:\u002F\u002Fgithub.com\u002FForethought-Technologies\u002FAutoChain).** Build lightweight, extensible, and testable LLM Agents. \n\n- **[Langroid](https:\u002F\u002Fgithub.com\u002Flangroid\u002Flangroid).** Harness LLMs with Multi-Agent Programming.\n\n- **[SocraticAI](https:\u002F\u002Fgithub.com\u002FRunzheYang\u002FSocraticAI).** Problem solving by engaging multiple AI agents in conversation with each other and the user. \n\n- **[WebArena](https:\u002F\u002Fgithub.com\u002Fweb-arena-x\u002Fwebarena).** A Realistic Web Environment for Building Autonomous Agents. \n\n- **[GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher).** GPT based autonomous agent that does online comprehensive research on any given topic.\n  \n- **[BMTools](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FBMTools).** Tool Learning for Big Models, Open-Source Solutions of ChatGPT-Plugins\n  \n- **[ToolBench](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FToolBench).** An open platform for training, serving, and evaluating large language model for tool learning.\n\n- **[AgentGPT](https:\u002F\u002Fgithub.com\u002Freworkd\u002FAgentGPT).** Assemble, configure, and deploy autonomous AI Agents in your browser.\n\n- **[xlang](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002Fxlang).** An open-source framework for building and evaluating language model agents via executable language grounding\n\n- **[Agently](https:\u002F\u002Fgithub.com\u002FMaplemx\u002FAgently).**  A fast way to build LLM Agent based Application 🤵 A light weight framework helps developers to create amazing LLM based applications. \n\n- **[Lagent](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flagent).** A lightweight framework for building LLM-based agents.\n  \n- **[ToolEmu](https:\u002F\u002Fgithub.com\u002Fryoungj\u002FToolEmu)** An LLM-based emulation framework for testing and identifying the risks of LLM-based agents\n\n- **[storm](https:\u002F\u002Fgithub.com\u002Fstanford-oval\u002Fstorm)** A knowledge agent that researches a topic and generates a full-length report with citations.\n  \n- **[Comet Opik](https:\u002F\u002Fgithub.com\u002Fcomet-ml\u002Fopik).** Debug, evaluate, and monitor your agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards.\n\n---\n\n## 🎉 Contribution\n\n### Contributing to this paper list\n\n⭐\" **Join us in improving this repository!** If you know of any important works we've missed, please contribute. Your efforts are highly valued!   \"\n\n### Contributors\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FLLMAgentPapers\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzjunlp_LLMAgentPapers_readme_46f6f6b70054.png\" \u002F>\n\u003C\u002Fa>\n","# 大型語言模型代理論文清單\n\n[![Awesome](https:\u002F\u002Fawesome.re\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FLLMAgentPapers) \n[![許可證：MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fzjunlp\u002FLLMAgentPapers?color=green) \n\n關於大型語言模型代理的必讀論文。\n\n---\n\n*「這裡有一些你可能會感興趣的其他論文清單：*\n\n💡 **[Prompt4ReasoningPapers](https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FPrompt4ReasoningPapers)：** 利用語言模型提示進行推理的論文。\n\n🔬 **[KnowledgeEditingPapers](https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FKnowledgeEditingPapers)：** 大型語言模型知識編輯的必讀論文。\n\n*我們誠摯邀請您深入這些論文與資源合集，每一項都將帶給您獨特的探索與發現之旅。*  :partying_face:」\n\n\n\n## 🔔 新聞\n\n- **[2024-03]** 我們發表了一篇新論文：「KnowAgent：基於大語言模型代理的知識增強規劃」(https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03101)。\n- **[2023-06]** 我們創建了這個倉庫，用來維護關於*多智能體*的論文清單。\n\n\n\n## 📜內容\n\n- [LLM Agents Papers](#llm-agents-papers)\n  - [🔔 新聞](#-news)\n  - [📜內容](#content)\n  - [🌄 論文](#-papers)\n    - [概述](#overview)\n    - [🤖 代理](#-agent)\n      - [個性。 🧛🧙](#personality-)\n      - [記憶。 💭💫](#memory-)\n      - [規劃。 🧩♟️](#planning-️)\n      - [工具使用。 👩‍🔧🔧](#tool-use-)\n      - [強化學習訓練。 🧠📈](#rl-training-)\n    - [🤖💬🤖 多智能體](#-multiple-agents)\n      - [任務導向型溝通](#task-oriented-communication)\n        - [協作交流 👨‍💻👩‍💻](#collaborative-exchanges-)\n        - [對抗性互動 👨🏻‍🦳🗣](#adversarial-interactions-)\n      - [隨意\u002F開放式對話 👥💬](#casualopen-conversations-)\n    - [🪐 應用](#-application)\n    - [🖼️ 框架](#️-framework)\n    - [🔖 其他](#-others)\n  - [🧰 資源](#-resources)\n    - [基準測試](#benchmarks)\n    - [工具類型](#types-of-tools)\n    - [📜 工具清單](#-tool-list)\n  - [🎉 貢獻](#-contribution)\n    - [參與本論文清單的貢獻](#contributing-to-this-paper-list)\n    - [貢獻者](#contributors)\n\n\n\n---\n\n## 🌄 論文\n\n### 概述\n\n1. **互動式自然語言處理**\n\n   *王澤坤、張戈、楊克鑫、史寧、周旺春樹、郝紹春、熊廣正、李一志、沈蒙元、陳秀英、朱青青、楊振竹、亞當·尼克、劉琦、林成華、王世、劉瑞波、陳文虎、徐科、劉大亨、郭義克、傅傑。* [[摘要]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13246), 2023年5月\n\n2. **基於大型語言模型的自主代理綜述**\n\n   *王磊、馬晨、馮雪陽、張澤宇、楊浩、張景森、陳志遠、唐嘉凱、陳旭、林彥凱、趙煒欣、韋哲偉、溫繼榮。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11432)], 2023年8月\n\n3. **基於大型語言模型代理的興起與潛力：綜述**\n\n   *習志恒、陳文祥、郭鑫、何偉、丁毅文、洪博揚、張明、王俊哲、金森傑、周恩宇、鄭睿、范曉然、王小、熊利茂、周宇豪、王偉然、蔣昌浩、鄒義成、劉向陽、尹章悅、杜詩涵、翁榮翔、程文森、張琪、秦文娟、鄭永彥、邱希鵬、黃宣靜、桂濤。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.07864)], 2023年9月\n\n4. **若LLM是巫師，那麼程式碼就是魔杖：程式碼如何賦能大型語言模型成為智能代理的綜述**\n\n   *楊科、劉家騰、吳約翰、楊超奇、馮怡然、李莎、黃子軒、曹旭、王星耀、王以泉、季衡、翟成祥。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.00812)], 2024年1月\n\n5. **代理AI：多模態交互的視野探討**\n\n   *杜蘭特·贊恩、黃秋元、和木直樹、龔冉、朴在成、薩卡爾·比迪普塔、陶里·羅漢、野田雄介、特佐波洛斯·德米特里、崔藝珍、池內勝司、武井穂、李飛飛、高健峰。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.03568.pdf)], 2024年1月\n\n6. **個人化LLM代理：能力、效率與安全性的洞察與綜述**\n\n   *李元春、溫浩、王偉軍、李向宇、袁一真、劉國宏、劉嘉誠、許文星、王翔、孫毅、孔睿、王一樂、耿漢飛、呂健、金學峰、葉子龍、熊冠晶、張帆、李翔、許孟偉、李志軍、李鵬、劉洋、張雅琴、劉雲馨。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2401.05459.pdf)], 2024年1月\n\n7. **神經程式碼智能綜述：範式、進展與未來**\n\n   *孫秋實、陳志睿、許方志、程侃智、馬昌、尹章悅、王佳寧、韓成城、朱仁宇、袁帥、郭啟鵬、邱希鵬、殷彭成、李小麗、袁菲、孔令朋、李翔、吳志勇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.14734)], 2024年3月\n\n8. **基於大型語言模型的人機系統綜述**\n\n   *鄒亨利、黃偉杰、吳堯祖、陳彥凱、苗春宇、阮煌、周悅、張偉志、方連成、何朗州、李陽寧、曹宇威、李東元、江仁和、余錫平。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.00753)], 2025年5月\n\n9. **LLM的代理式強化學習現狀：綜述**\n\n   *張貴斌、耿海嘉、于曉航、殷振飛、張再彬、譚澤林、周恆、李中志、薛向遠、李義江、周逸凡、陳陽、張晨、范宇濤、王子湖、黃松濤、廖悅、王宏儒、楊夢月、季衡、米歇爾·利特曼、王俊、嚴水成、托爾·菲利普、白雷。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.02547)] [[代碼](https:\u002F\u002Fgithub.com\u002Fxhyumiracle\u002FAwesome-AgenticLLM-RL-Papers)], 2025年9月\n   \n---\n\n### 🤖 代理\n\n#### 個性。 🧛🧙\n\n1. **心智理論可能已在大型語言模型中自發出現**\n\n   *米夏爾·科辛斯基。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.02083)], 2023年2月\n\n2. **ChatGPT中的毒性：分析由角色設定的語言模型**\n\n   *阿米特·德什潘德、維什瓦克·穆拉哈里、坦邁·拉吉普羅希特、阿什溫·卡利安、卡爾蒂克·納拉斯曼。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05335)], 2023年4月\n\n3. **與大型語言模型進行重複博弈**\n\n   *埃莉夫·阿卡塔、萊昂·舒爾茨、朱利安·科達-福爾諾、吳成俊、馬蒂亞斯·貝特格、埃里克·舒爾茨。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16867)], 2023年5月\n\n4. **專家提示：指導大型語言模型成為卓越專家**\n\n   *徐本豐、楊安、林俊陽、王全、周昌、張永東、毛振東。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14688)], 2023年5月\n\n5. **與大型語言模型的角色扮演**\n\n   *默里·沙納漢、凱爾·麥克唐奈爾、拉里亞·雷諾茲。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16367)], 2023年5月\n\n6. **TidyBot：利用大型語言模型提供個性化機器人協助**\n\n   *吳吉米、安東諾娃·麗卡、坎·亞當、勒佩爾特·瑪麗昂、曾安迪、宋淑然、博格·珍妮特、魯辛基維奇·西蒙、馮豪瑟·托馬斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05658)], 2023年5月\n\n7. **大型語言模型中的人格特質**\n\n*穆斯塔法·萨夫达里、格雷格·塞拉皮奥-加西亚、克莱芒·克雷皮、斯蒂芬·菲茨、彼得·罗梅罗、陆宁·孙、马尔瓦·阿卜杜勒海、亚历山德拉·福斯特、玛雅·马塔里奇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.00184)]，2023年7月\n\n8. **大型语言模型是否具有人格？将MBTI性格测试用作评估大型语言模型的绝佳工具**\n\n   *潘凯宇、曾耀文。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16180)]，2023年7月\n\n9. **人工智能中的意识：来自意识科学的洞见**\n\n   *帕特里克·巴特林、罗伯特·朗、埃里克·埃尔莫兹尼诺、约书亚·本吉奥、乔纳森·伯奇、阿克塞尔·康斯坦特、乔治·迪恩、斯蒂芬·M·弗莱明、克里斯·弗里斯、徐继、梁内良太、科林·克莱因、格蕾丝·林赛、马蒂亚斯·米歇尔、利亚德·穆德里克、梅根·A·K·彼得斯、埃里克·施维茨盖贝尔、乔纳森·西蒙、鲁芬·范鲁伦。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08708)]，2023年8月\n\n10. **脱离语境：关于衡量大型语言模型的情境意识**\n\n    *卢卡斯·贝格伦德、阿萨·库珀·斯蒂克兰、米基塔·巴列斯尼、马克·考夫曼、梅格·通、托马什·科尔巴克、丹尼尔·科科塔伊洛、欧文·埃文斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.00667)]，2023年9月\n\n11. **大型语言模型代理能否模拟人类的信任行为？**\n\n    *谢成星、陈灿宇、贾飞然、叶子宇、舒凯、阿德尔·比比、胡子牛、菲利普·托尔、伯纳德·加内姆、李国豪。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.04559)]，2024年2月\n\n12. **高风险人群仿真中语言代理的隐式行为对齐**\n\n    *王云哲、盖尔·卢卡斯、布尔琴·贝切里克-格尔伯、沃尔坎·乌斯顿* [[摘要](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.1562.pdf)]，2025年10月\n\n13. **作为可编程主体的LLM代理：针对代理行为与对齐的检测方法及基准测试**\n\n    *高拉夫·科雷、阿迪提亚·提鲁文加达姆* [[摘要](https:\u002F\u002Fwww.preprints.org\u002Fmanuscript\u002F202510.0476)]，2025年10月\n    \n#### 记忆。💭💫\n\n1. **CoLT5：基于条件计算的更快速长距离Transformer模型**\n\n   *乔舒亚·艾恩斯利、雷涛、米希尔·德容、圣地亚哥·翁塔农、西达尔塔·布拉马、尤里·泽姆良斯基、大卫·乌瑟斯、曼迪·郭、詹姆斯·李索思、易泰、孙韵轩、苏米特·桑盖。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09752)]，2023年3月\n\n2. **大型语言模型中的涌现与可预测的记忆现象**\n\n   *斯特拉·比德曼、USVSN 赛·普拉尚特、林唐·苏塔维卡、海莉·舍尔科普夫、昆汀·安东尼、希万舒·普罗希特、爱德华·拉夫。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11158)]，2023年4月\n\n3. **利用自控记忆系统释放大规模语言模型的无限长度输入能力**\n\n   *梁新念、王兵、黄辉、吴双志、吴培浩、陆璐、马泽俊、李周军。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13343)]，2023年4月\n\n4. **ChatLog：跨时间记录与分析ChatGPT**\n\n   *涂尚清、李春阳、于继凡、王晓智、侯磊、李娟子。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14106)]，2023年4月\n\n5. **通过自我笔记学习推理与记忆**\n\n   *杰克·朗尚坦、舒巴姆·托什尼瓦尔、杰森·韦斯顿、阿瑟·斯拉姆、赛恩巴亚尔·苏赫巴托尔。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.00833)]，2023年5月\n\n6. **Unlimiformer：具备无限长度输入能力的长距离Transformer模型**\n\n   *阿曼达·伯奇、乌里·阿隆、格雷厄姆·纽比格、马修·R·戈姆利。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01625)]，2023年5月\n\n7. **小型模型是大型语言模型的宝贵插件**\n\n   *许灿文、许一冲、王硕航、刘洋、朱晨光、朱利安·麦考利。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08848)]，2023年5月\n\n8. **MemoryBank：用长期记忆增强大型语言模型**\n\n   *钟万军、郭良洪、高琪琪、叶禾、王艳琳。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10250)]，2023年5月\n\n9. **ToolkenGPT：通过工具嵌入为冻结语言模型添加海量工具**\n\n   *郝世博、刘天阳、王振、胡志婷。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.11554)]，2023年5月\n\n10. **RecurrentGPT：交互式生成（任意）长文本**\n\n    *周旺春树、江雨辰·埃莉诺、崔鹏、王天南、肖振鑫、侯义凡、瑞安·科特雷尔、姆林玛雅·萨昌。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13304)]，2023年5月\n\n11. **RET-LLM：迈向大型语言模型的通用读写内存**\n\n    *阿里·莫达雷西、阿尤布·伊马尼、莫赫森·法亚兹、欣里希·舒策。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14322)]，2023年5月\n\n12. **使语言模型适应上下文压缩**\n\n    *阿莱克西斯·谢瓦利耶、亚历山大·韦蒂格、阿尼鲁德·阿吉特、陈丹琪。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14788)]，2023年5月\n\n13. **重新审视并行上下文窗口：一种令人沮丧的简单替代方案与思维链退化问题**\n\n    *杨克俊、刘晓、门凯文、曾傲寒、董宇霄、唐杰。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15262)]，2023年5月\n\n14. **地标注意力：为Transformer提供随机访问的无限上下文长度**\n\n    *阿米尔凯万·莫塔沙米、马丁·贾吉。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16300)]，2023年5月\n\n15. **随机位置编码提升Transformer的长度泛化能力**\n\n    *阿尼安·鲁奥斯、格雷果瓦·德莱唐、蒂姆·格内温、若尔迪·格劳-莫亚、罗伯特·乔尔达斯、梅迪·本纳尼、谢恩·莱格、乔尔·维内斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16843)]，2023年5月\n\n16. **单调位置注意力用于长度泛化**\n\n    *吉什努·雷·乔杜里、科妮莉亚·卡拉吉亚。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.20019)]，2023年5月\n\n17. **ChatDB：以数据库作为符号记忆增强LLM**\n\n    *胡晨旭、傅杰、杜晨庄、罗思敏、赵俊波、赵航。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03901)]，2023年6月\n\n18. **语言代理的认知架构**\n\n    *西奥多·萨默斯、姚顺宇、卡尔蒂克·纳拉西曼、托马斯·L·格里菲斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.02427)]，2023年9月\n\n19. **JARVIS-1：具有记忆增强型多模态语言模型的开放世界多任务代理**\n\n    *王子豪、蔡绍飞、刘安吉、金永刚、侯金炳、张博伟、林浩伟、何兆峰、郑子龙、杨耀东、马晓健、梁义涛。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05997)]，2023年11月\n\n20. **基于大型语言模型的代理记忆机制综述**\n\n    *张泽宇、薄晓河、马晨、李锐、陈旭、戴全宇、朱继明、董振华、温继荣。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13501)]，2024年4月\n\n21. **HippoRAG：受神经生物学启发的大型语言模型长期记忆**\n\n    *贝尔纳尔·希门尼斯·古铁雷斯、舒一恒、顾宇、安永道、苏宇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14831)]，2024年5月\n\n23. **思想缓冲区：利用大型语言模型进行思想增强型推理**\n\n    *杨玲、于兆臣、张天俊、曹士毅、徐民凯、张文韬、约瑟夫·E·冈萨雷斯、崔斌。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04271)]，2024年6月\n\n\n#### 规划。🧩♟️\n\n1. **语言模型作为零样本规划者：为具身智能体提取可操作知识**\n\n   *黄文龙、皮特·阿贝尔、迪帕克·帕塔克、伊戈尔·莫达奇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.07207)]，2022年1月\n\n2. **内心独白：通过语言模型规划实现具身推理**\n\n*黄文龙、夏飞、肖天、陈浩思、梁杰克、皮特·弗洛伦斯、曾安迪、汤普森·乔纳森、莫达奇·伊戈尔、切博塔尔·叶夫根、塞尔马内·皮埃尔、布朗·诺亚、杰克逊·托马斯、刘琳达、列维涅·谢尔盖、豪斯曼·卡罗尔、伊希特·布莱恩*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05608)]，2022年7月\n\n3. **ReAct：在语言模型中协同推理与行动**\n\n   *姚顺宇、赵杰弗里、于典、杜楠、沙弗兰·伊扎克、纳拉西曼·卡尔蒂克、曹源*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629)]，2022年10月\n\n4. **心灵之眼：通过仿真实现 grounded 语言模型推理**\n\n   *刘瑞波、魏贾森、顾世翔·谢恩、吴德言、沃索吉·索鲁什、崔克莱尔、周登尼、戴安德鲁·M*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.05359)]，2022年10月\n\n5. **LLM-Planner：基于大型语言模型的具身智能体少样本 grounded 规划**\n\n   *宋灿熙、吴嘉满、华盛顿·克莱顿、萨德勒·布赖恩·M、赵伟伦、苏宇*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04088)]，2022年12月\n\n6. **不要生成，要判别：将语言模型 grounding 到现实世界环境的方案**\n\n   *顾宇、邓翔、苏宇*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.09736)]，2022年12月\n\n7. **具身智能体会梦见像素化的羊吗？：利用语言引导的世界建模进行具身决策**\n\n   *诺廷汉·科尔比、阿曼纳布罗卢·普里特维拉吉、苏尔·安妮、崔艺珍、哈吉希尔齐·汉娜内、辛格·萨米尔、福克斯·罗伊*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12050)]，2023年1月\n\n8. **描述、解释、规划与选择：大型语言模型驱动的交互式规划使能开放世界多任务智能体**\n\n   *王子浩、蔡绍飞、刘安吉、马晓健、梁义涛*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560)]，2023年2月\n\n9. **PaLM-E：一种具身多模态语言模型**\n\n   *德里斯·丹尼、夏飞、萨贾迪·梅赫迪·S·M、林奇·科里、乔德里·阿坎克莎、伊希特·布莱恩、瓦希德·艾赞、汤普森·乔纳森、武权、余天和、黄文龙、切博塔尔·叶夫根、塞尔马内·皮埃尔、达克沃斯·丹尼尔、列维涅·谢尔盖、范霍克·文森特、豪斯曼·卡罗尔、图桑特·马克、格雷夫·克劳斯、曾安迪、莫达奇·伊戈尔、弗洛伦斯·皮特*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03378)]，2023年3月\n\n10. **Reflexion：具有言语强化学习的语言智能体**\n\n    *申恩·诺亚、卡萨诺·费德里科、拉巴什·贝克、戈皮纳特·阿什温、纳拉西曼·卡尔蒂克、姚顺宇*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366)]，2023年3月\n\n11. **与环境对话：利用大型语言模型的交互式多模态感知**\n\n    *赵旭峰、李梦迪、韦伯·科尼利厄斯、哈菲兹·穆罕默德·布尔汉、维尔姆特·斯特凡*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08268)]，2023年3月\n\n12. **Plan4MC：面向开放世界 Minecraft 任务的技能强化学习与规划**\n\n    *袁浩琪、张驰、王洪成、谢飞阳、蔡鹏林、董浩、陆宗庆*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16563)]，2023年3月\n\n13. **Self-Refine：基于自我反馈的迭代优化**\n\n    *马丹·阿曼、坦东·尼凯特、古普塔·普拉卡哈尔、哈利南·斯凯勒、高璐瑜、维格雷夫·萨拉、阿隆·乌里、季里·努哈、普拉布莫耶·施里迈、杨一鸣、古普塔·沙尚克、马朱姆德尔·博迪萨特瓦·普拉萨德、赫尔曼·凯瑟琳、韦莱克·肖恩、亚兹丹巴赫什·阿米尔、克拉克·彼得*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651)]，2023年3月\n\n14. **教导大型语言模型进行自我调试**\n\n    *陈欣云、林麦克斯韦尔、舍尔利·纳撒尼尔、周登尼*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05128)]，2023年4月\n\n15. **WizardLM：赋能大型语言模型执行复杂指令**\n\n    *许灿、孙庆丰、郑凯、耿修博、赵璞、冯家展、陶崇阳、江大新*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12244)]，2023年4月\n\n16. **FrugalGPT：如何在降低成本并提升性能的同时使用大型语言模型**\n\n    *陈凌娇、扎哈里亚·马泰、周詹姆斯*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05176)]，2023年5月\n\n17. **思维之树：利用大型语言模型进行深思熟虑的问题解决**\n\n    *姚顺宇、于典、赵杰弗里、沙弗兰·伊扎克、格里菲斯·托马斯·L、曹源、纳拉西曼·卡尔蒂克*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)]，2023年5月\n\n18. **规划、消除与追踪——语言模型是具身智能体的好老师**\n\n    *吴悦、闵素妍、比斯克·约纳坦、萨拉胡丁诺夫·鲁斯兰、阿扎里亚·阿莫斯、李元志、米切尔·汤姆、普拉布莫耶·施里迈*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02412)]，2023年5月\n\n19. **用于交互式文字游戏的知识增强型智能体**\n\n    *奇卡拉·普拉提克、张佳睿、伊利耶夫斯基·菲利普、弗朗西斯·乔纳森、马凯欣*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.05091)]，2023年5月\n\n20. **Voyager：一个基于大型语言模型的开放式具身智能体**\n\n    *王冠智、谢雨琪、蒋云帆、曼德尔卡尔·阿贾伊、肖超伟、朱宇科、范林溪、安南德库马尔·阿尼玛*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291)]，2023年5月\n\n21. **SwiftSage：具备快慢思维的生成式智能体，适用于复杂交互任务**\n\n    *林毕·尤臣、傅亦诚、杨卡丽娜、阿曼纳布罗卢·普里特维拉吉、布拉赫曼·法泽、黄诗雨、巴加瓦图拉·钱德拉、崔艺珍、任翔*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17390)]，2023年5月\n\n22. **语言模型与世界模型相遇：具身经验增强语言模型**\n\n    *项建南、陶天华、顾毅、舒天敏、王紫瑞、杨子超、胡志亭*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10626)]，2023年5月\n\n23. **Minecraft 中的幽灵：通过基于文本的知识与记忆的大型语言模型，在开放世界环境中实现通用能力的智能体**\n\n    *朱锡洲、陈云涛、田浩、陶晨鑫、苏伟杰、杨晨宇、黄高、李斌、陆乐威、王小刚、乔宇、张兆祥、戴继峰*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17144)]，2023年5月\n\n24. **AdaPlanner：基于语言模型反馈的适应性规划**\n\n    *孙浩天、庄宇辰、孔令凯、戴博、张超*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16653)]，2023年5月\n\n25. **用语言模型进行推理即是在用世界模型进行规划**\n\n    *郝世博、顾毅、马浩迪、洪家华·乔舒亚、王振、王哲黛西、胡志亭*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992)]，2023年5月\n\n26. **计划-求解提示：改进大型语言模型的零样本链式思维推理**\n\n    *王磊、徐万宇、蓝义怀、胡志强、蓝云石、李国伟·罗伊、林义鹏·Ee*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04091)]，2023年5月\n\n27. **使智能体与 LLM 之间实现智能交互：一种强化学习方法**\n\n    *胡彬、赵晨阳、张朴、周子浩、杨远航、徐增林、刘斌*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03604)]，2023年6月\n\n28. **RecAgent：推荐系统的一种新型仿真范式**\n\n    *王磊、张景森、陈旭、林彦凯、宋瑞华、赵伟恩·韦恩、文纪荣*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.02552)]，2023年6月\n\n29. **迈向统一的基于基础模型的智能体**\n\n    *迪帕洛·诺曼、拜拉万·阿伦库马尔、哈森克莱弗·莱昂纳德、伍尔夫迈尔·马库斯、希斯·尼古拉斯、里德米勒·马丁*。[[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.09668)]，2023年7月\n\n30. **PanGu-Coder2：通过排序反馈提升代码大语言模型**\n\n    *沈博、张佳鑫、陈泰宏、赞道光、耿冰、傅安、曾慕涵、于艾伦、季继川、赵景阳、郭元楠、王千翔。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.14936)]，2023年7月\n\n31. **具备规划、长上下文理解与程序合成能力的真实世界WebAgent**\n\n    *伊泽丁·古尔、古田弘树、奥斯汀·黄、穆斯塔法·萨夫达里、松尾丰、道格拉斯·埃克、亚历山德拉·福斯特。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.12856)]，2023年7月\n\n32. **Retroformer：基于策略梯度优化的回顾性大型语言模型代理**\n\n    *姚伟然、谢尔比·海内克、胡安·卡洛斯·尼布尔斯、刘志伟、冯一浩、薛乐、里特什·穆尔蒂、陈泽远、张建国、阿普特·德万尚、徐然、菲利普·缪伊、王欢、熊才明、西尔维奥·萨瓦雷斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02151)]，2023年8月\n\n33. **SelfCheck：利用LLM零样本检查自身逐步推理过程**\n\n    *苗宁、叶伟·提、汤姆·雷因福思。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00436)]，2023年8月\n\n34. **ExpeL：LLM代理是经验型学习者**\n\n    *安德鲁·赵、丹尼尔·黄、昆廷·许、马蒂厄·林、刘永进、黄高。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.10144)]，2023年8月\n\n35. **自驱动对齐：具备自动语言对齐技能学习的大语言模型代理**\n\n    *彭绍辉、胡星、易奇、张锐、郭嘉铭、黄迪、田子康、陈睿智、杜子东、郭琪、陈云基、李玲。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.01352)]，2023年9月\n\n36. **JARVIS-1：具有记忆增强型多模态语言模型的开放世界多任务代理**\n\n    *王子豪、蔡绍飞、刘安吉、金勇刚、侯锦兵、张博文、林浩伟、何兆峰、郑子龙、杨耀东、马晓健、梁义涛。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05997)]，2023年11月\n\n37. **LEO：在3D世界中的具身通用代理**\n\n    *黄江勇、雍思龙、马晓健、凌湖雄坤、李普浩、王燕、李青、朱松纯、贾宝雄、黄思源。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12871)]，2023年11月\n\n38. **代码链：结合语言模型增强的代码模拟器进行推理**\n\n    *李成书、梁杰克、曾安迪、陈欣韵、卡罗尔·豪斯曼、多尔萨·萨迪格、谢尔盖·列文、李飞飞、夏飞、布莱恩·伊希特。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.04474)]，2023年12月\n\n39. **ReST遇见ReAct：多步推理LLM代理的自我改进**\n\n    *雷纳特·阿克西托夫、索班·米里尤塞菲、李宗林、李大亮、谢拉·巴巴扬、卡维娅·科帕拉普、扎卡里·费舍尔、郭瑞琪、苏尚特·普拉卡什、普拉内什·斯里尼瓦桑、曼齐尔·扎希尔、费利克斯·余、桑吉夫·库马尔。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10003)]，2023年12月\n\n40. **自我对比：通过不一致的解题视角实现更好的反思**\n\n    *张文琦、申永亮、吴琳娟、彭秋英、王军、庄宇婷、陆伟明。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.02009)]，2024年1月\n\n41. **AutoAct：通过自我规划从零开始自动学习代理**\n\n    *乔硕飞、张宁宇、方润楠、罗雨洁、周旺春树、蒋悦辰·埃莉诺、吕成飞、陈华俊。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.05268)]，2024年1月\n\n42. **TravelPlanner：面向真实世界规划的语言代理基准测试**\n\n    *谢坚、张凯、陈江杰、朱廷辉、楼仁泽、田元东、肖洋华、苏宇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.01622.pdf)]，2024年2月\n\n43. **Agent-Pro：通过策略层面的反思与优化实现进化式学习**\n\n    *张文琦、唐科、吴海、王梦娜、申永亮、侯贵阳、谭泽奇、李鹏、庄宇婷、陆伟明。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.17574)]，2024年2月\n\n44. **KnowAgent：面向LLM基础代理的知识增强型规划**\n\n    *朱宇奇、乔硕飞、欧毅新、邓淑敏、张宁宇、吕世伟、沈岳、梁磊、顾金杰、陈华俊。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03101)]，2024年3月\n\n45. **SOTOPIA-π：社交智能语言代理的交互式学习**\n\n    *王睿怡、俞浩飞、张文欣、齐正阳、马尔滕·萨普、格雷厄姆·纽比格、约纳坦·比斯克、朱浩。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08715)]，2024年3月\n\n46. **AutoGuide：为大语言模型代理自动生成并选择状态感知指南**\n\n    *傅尧、金东基、金载谦、孙成律、拉贾努根·洛格斯瓦兰、裴庆勋、李洪洛克。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08978)]，2024年3月\n\n47. **通过行动学习赋能大语言模型代理**\n\n    *赵海腾、马昌、王国银、苏静、孔令鹏、徐晶晶、邓志宏、杨红霞。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.15809)]，2024年2月\n\n48. **魔鬼代言人：面向LLM代理的预见性反思**\n\n    *王浩宇、李涛、邓志伟、丹·罗斯、李阳。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.16334v3)]，2024年5月\n\n49. **基于世界知识模型的代理规划**\n\n    *乔硕飞、方润楠、张宁宇、朱宇奇、陈翔、邓淑敏、姜勇、谢鹏君、黄飞、陈华俊。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14205)]，2024年5月\n\n50. **智能Go-Explore：站在巨人的肩膀上**\n\n    *卢聪、胡圣然、杰夫·克鲁恩。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15143)]，2024年5月\n\n51. **忠实的逻辑推理：基于符号思维链的方法**\n\n    *徐俊东、费浩、潘良明、刘倩、李孟立、许温妮。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.18357)]，2024年5月\n\n52. **爱丽丝梦游仙境：简单任务揭示最先进大语言模型中的完全推理崩溃**\n\n    *玛丽安娜·涅茹丽娜、露西亚·奇波利纳-昆、梅迪·切尔蒂、珍妮娅·吉采夫。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.02061)]，2024年6月\n\n53. **TextGrad：通过文本实现自动“微分”**\n\n    *梅尔特·于克塞贡乌尔、费德里科·比安奇、约瑟夫·博恩、刘盛、黄志、卡洛斯·格斯特林、詹姆斯·邹。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07496)]，2024年6月\n\n54. **符号学习使代理能够自我进化**\n\n    *周旺春树、欧毅新、丁盛伟、李龙、吴家隆、王天南、陈佳敏、王帅、徐晓华、张宁宇、陈华俊、蒋悦辰·埃莉诺。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.18532v1)]，2024年6月\n\n55. **OS-Copilot：迈向具备自我改进能力的通用计算机代理**\n\n    *吴志勇、韩成成、丁子晨、翁振民、刘周面泽、姚顺宇、于涛、孔令鹏。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07456)]，2024年2月\n\n56. **SeeClick：利用GUI对齐技术打造先进的视觉GUI代理**\n\n    *程侃之、孙秋实、楚友刚、徐方志、李彦涛、张建兵、吴志勇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10935)]，2024年1月\n\n57. **图学习能否改善LLM基础代理的规划？**\n\n    *吴熙熙、申艺飞、单彩华、宋凯涛、王思伟、张博航、冯嘉睿、程鸿、陈伟、熊云、李东升。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.19119)]，2024年5月\n\n58. **E2CL：基于探索的错误纠正学习用于具身智能体**\n\n    *王翰林、梁卓涛、王健、李文杰* [[摘要](https:\u002F\u002Faclanthology.org\u002F2024.findings-emnlp.448\u002F)], 2024年11月\n\n59. **STeCa：面向LLM智能体学习的步骤级轨迹校准**\n    \n    *王翰林、王健、梁卓涛、李文杰* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14276)], 2025年5月\n\n60. **超越静态测试平台：面向动态推荐系统的交互中心型智能体仿真平台**\n    \n    *金松、张俊田、刘宇涵、张勋、张宇飞、尹国军、蒋飞、林伟、闫锐* [[摘要](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.956\u002F)], 2025年5月\n\n61. **AlignUSER：通过世界模型实现人类对齐的LLM智能体，用于推荐系统评估**\n\n    *尼古拉斯·布吉、吉安·玛丽亚·马尔科尼、托尼·叶普、渡边成正。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.00930)], 2026年1月\n\n\n    \n#### 工具使用。👩‍🔧🔧。\n\n1. **WebGPT：结合浏览器与人类反馈的问答系统**\n\n   *中野玲一郎、雅各布·希尔顿、苏奇尔·巴拉吉、杰夫·吴、龙·欧阳、克里斯蒂娜·金、克里斯托弗·赫塞、桑塔努·贾因、维尼特·科萨拉朱、威廉·桑德斯、江旭、卡尔·科布、蒂娜·埃隆杜、格雷琴·克鲁格、凯文·巴顿、马修·奈特、本杰明·切斯、约翰·舒尔曼。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332)], 2021年12月\n\n2. **Toolformer：语言模型可自我学习使用工具**\n\n   *蒂莫·希克、简·德维迪-尤、罗伯托·德西、罗伯塔·赖莱阿努、玛丽亚·洛梅利、卢克·泽特勒莫耶、尼古拉·坎切达、托马斯·西亚洛姆。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761)], 2023年2月\n\n3. **MM-REACT：通过提示引导ChatGPT进行多模态推理与行动**\n\n   *杨正元、李林杰、王建峰、林凯文、埃赫桑·阿扎尔纳斯布、费萨尔·艾哈迈德、刘子程、刘策、张迈克尔、王丽娟。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11381)], 2023年3月\n\n4. **HuggingGPT：利用ChatGPT及其在Hugging Face中的伙伴解决AI任务**\n\n   *沈永亮、宋凯涛、谭旭、李东升、陆伟明、庄玉婷。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580)], 2023年3月\n\n5. **Visual ChatGPT：与视觉基础模型对话、绘图和编辑**\n\n   *吴晨菲、尹圣明、戚伟珍、王晓东、唐泽成、段楠。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.04671)], 2023年3月\n\n6. **ART：大型语言模型的自动多步推理与工具使用**\n\n   *巴尔加维·帕兰贾佩、斯科特·伦德伯格、萨米尔·辛格、汉纳内·哈吉希尔齐、卢克·泽特勒莫耶、马尔科·图利奥·里贝罗。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09014)], 2023年3月\n\n7. **TaskMatrix.AI：通过连接基础模型与数百万个API完成任务**\n\n   *梁耀波、吴晨菲、宋婷、吴文山、夏燕、刘宇、欧阳、陆帅、季磊、毛绍光、王云、寿林军、龚明、段楠。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.16434)], 2023年3月\n\n8. **Chameleon：大型语言模型的即插即用式组合推理**\n\n   *陆攀、彭宝林、程浩、米歇尔·加利、张凯威、吴英年、朱松纯、高建峰。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.09842)], 2023年4月\n\n9. **ChemCrow：用化学工具增强大型语言模型**\n\n   *安德烈斯·M·布兰、萨姆·考克斯、安德鲁·D·怀特、菲利普·施瓦勒。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05376)], 2023年4月\n\n10. **TALM：工具增强型语言模型**\n\n    *亚伦·帕里西、赵瑶、诺亚·菲德尔。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12255)], 2022年5月\n\n11. **CRITIC：大型语言模型可通过工具交互式批评实现自我修正**\n\n    *苟志斌、邵志宏、龚业云、申业龙、杨久宇、黄敏列、段楠、陈伟祖。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.11738.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FProphetNet\u002Ftree\u002Fmaster\u002FCRITIC)], 2023年5月\n\n12. **利用执行反馈使语言模型成为更好的工具学习者**\n\n    *乔硕飞、桂洪浩、陈华军、张宁宇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13068)], 2023年5月\n\n13. **ChatCoT：基于聊天的大语言模型上的工具增强型思维链推理**\n\n    *陈志鹏、周坤、张培臣、龚政、韦恩·辛·赵、温继荣。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14323)], 2023年5月\n\n14. **Gorilla：连接海量API的大语言模型**\n\n    *帕蒂尔·希希尔·G、张天俊、王欣、约瑟夫·E·冈萨雷斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15334)], 2023年5月\n\n15. **ToolLLM：助力大型语言模型掌握超过16000个真实世界API**\n\n    *秦宇佳、梁世豪、叶依宁、朱昆仑、严兰、陆雅茜、林彦凯、丛鑫、唐向儒、钱比尔、赵思涵、田润初、谢若冰、周杰、马克·格斯坦、李大海、刘志远、孙茂松。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789)], 2023年7月\n\n16. **GEAR：以通用且高效的工具解析能力增强语言模型**\n\n    *陆依宁、于浩平、丹尼尔·卡沙比。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.08775)], 2023年7月\n\n17. **Gentopia：工具增强型LLM的协作平台**\n\n    *徐彬峰、刘旭坤、沈华、韩泽宇、李宇涵、岳牧荣、彭志远、刘宇辰、姚子宇、徐东宽。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.04030)], 2023年8月\n\n18. **利用LM模拟沙盒识别LM智能体的风险**\n\n    *阮洋俊、董红华、王安德鲁、皮蒂斯·西尔维乌、周永超、鲍伊·吉米、杜布瓦·扬、麦迪逊·克里斯·J、桥本达津则。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15817)], 2023年9月\n\n19. **利用预训练大型语言模型构建并运用世界模型进行基于模型的任务规划**\n\n    *关林、卡尔蒂克·瓦尔米卡姆、萨拉特·斯里达尔、坎巴帕蒂·苏巴拉奥。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14909)], 2023年5月\n\n20. **Data-Copilot：以自主工作流连接数十亿数据与人类**\n\n    *张文琪、沈永亮、陆伟明、庄玉婷。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07209)], 2023年6月\n\n21. **CLOVA：闭环视觉助手，具备工具使用与更新功能**\n\n    *高智、杜云涛、张新彤、马晓健、韩文娟、朱松纯、李青。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10908)], 2023年12月\n\n22. **GitAgent：通过工具扩展助力GitHub上的自主代理**\n\n    *吕博涵、丛鑫、于海阳、杨潘、秦宇佳、叶依宁、陆雅茜、张忠、颜玉坤、林彦凯、刘志远、孙茂松。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.17294.pdf)], 2023年12月\n\n23. **EASYTOOL：以简洁的工具指令提升基于LLM的智能体性能**\n\n    *袁思宇、宋凯涛、陈江杰、谭旭、沈永亮、任侃、李东升、杨德庆。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06201)], 2024年1月\n\n24. **Symbol-LLM：迈向以符号为中心的基础性大型语言模型接口**\n\n    *许方志、吴志勇、孙秋实、任思宇、袁飞、袁帅、林其卡、乔宇、刘俊。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.09278)], 2023年11月\n\n25. **郁金香智能体——让基于LLM的智能体能够利用庞大的工具库解决问题**\n\n    *费利克斯·奥克尔、丹尼尔·坦内贝格、朱利安·埃格特、迈克尔·金格。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.21778)], 2024年7月\n\n26. **OneGen：面向大语言模型的高效单遍统一生成与检索**\n\n    *张金田、彭成、孙梦舒、陈翔、梁磊、张志强、周俊、陈华军、张宁宇.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.05152)], 2024年9月\n\n    \n\n#### 强化学习训练。🧠📈\n\n1. **用于大语言模型智能体训练的组内策略优化**\n\n    *冯朗、薛正海、刘廷聪、安博* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.10978)][[代码](https:\u002F\u002Fgithub.com\u002FlangfengQ\u002Fverl-agent)], 2025年5月\n\n2. **基于反事实软强化学习的视觉-语言模型智能体高效在线调优**\n\n    *冯朗、谭伟豪、吕志毅、郑龙涛、徐海洋、严明、黄飞、安博* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03792)][[代码](https:\u002F\u002Fgithub.com\u002FlangfengQ\u002FCoSo)], 2025年5月\n\n3. **面向长时程交互式大语言模型智能体的强化学习**\n\n    *凯文·陈、马可·库苏马诺-陶纳、布罗迪·胡瓦尔、阿列克谢·彼特伦科、杰克逊·汉堡格、弗拉德伦·科尔顿、菲利普·克雷亨布尔* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01600)], 2025年5月\n\n4. **SPA-RL：通过逐步进展归因强化大语言模型智能体**\n\n   *王汉林、梁卓滔、王嘉硕、王健、李文杰* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.20732)][[代码](https:\u002F\u002Fgithub.com\u002FWangHanLinHenry\u002FSPA-RL-Agent)], 2025年5月\n\n5. **面向有效规划与工具使用的流式智能体系统优化**\n\n   *李卓峰、张浩翔、韩承柱、刘胜、谢建文、张宇、崔艺珍、周詹姆斯、陆攀* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05592)], 2025年10月\n   \n\n\n### 🤖💬🤖 多智能体\n\n#### 任务导向型通信\n\n##### 协作交流 👨‍💻👩‍💻\n\n1. **语言模型级联**\n\n   *大卫·多翰、温妮·许、艾托尔·莱夫科维奇、雅各布·奥斯汀、大卫·比伯、拉斐尔·贡蒂若·洛佩斯、吴宇怀、亨里克·米哈莱夫斯基、里夫·A·索罗斯、贾莎·索尔-迪克斯坦、凯文·墨菲、查尔斯·萨顿.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.10342)], 2022年7月\n\n2. **与语言模型协作进行具身推理**\n\n   *伊希塔·达斯古普塔、克里斯汀·凯瑟-陈、肯尼思·马里诺、阿伦·阿胡贾、谢拉·巴巴扬、费利克斯·希尔、罗布·费格斯.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00763)], 2023年2月\n\n3. **CAMEL：用于大规模语言模型社会“心智”探索的沟通型智能体**\n\n   *李国豪、哈桑·阿贝德·阿尔·卡德尔·哈穆德、哈尼·伊塔尼、德米特里·希兹布林、伯纳德·加内姆.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17760)], 2023年3月\n\n4. **多方聊天：在群体场景中与人类和模型进行对话的智能体**\n\n   *吉米·魏、库尔特·舒斯特、阿瑟·斯拉姆、杰森·韦斯顿、杰克·乌尔巴内克、莫杰塔巴·科梅伊利.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13835)], 2023年4月\n\n5. **ChatLLM网络：更多大脑，更聪明**\n\n   *郝睿、胡琳梅、齐伟健、吴庆柳、张一瑞、聂立强.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.12998)], 2023年4月\n\n6. **通过ChatGPT实现自我协作代码生成**\n\n   *董义宏、江雪、金志、李戈.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07590)], 2023年4月\n\n7. **大型语言模型涌现的自主科学研究能力**\n\n   *丹尼尔·A·博伊科、罗伯特·麦克奈特、盖布·戈梅斯.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05332)], 2023年4月\n\n8. **ChatGPT\u002FGPT-4用于知识图谱构建与推理：最新能力及未来机遇**\n\n   *朱宇奇、王晓涵、陈静、乔硕飞、欧一欣、姚云芝、邓淑敏、陈华军、张宁宇.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13168)], 2023年5月\n\n9. **大型语言模型作为工具制造者**\n\n   *蔡天乐、王学智、马腾宇、陈鑫云、周登尼.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17126)], 2023年5月\n\n10. **从行动和指令推断沟通型智能体的目标**\n\n    *兰斯·英、谭志轩、维卡什·曼辛卡、约书亚·B·特南鲍姆.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.16207)], 2023年6月\n\n11. **无线多智能体生成式AI：从互联智能到集体智能**\n\n    *邹航、赵启阳、巴拉赫·莉娜、本尼斯·梅赫迪、德巴·梅鲁安.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02757)], 2023年7月\n\n12. **RoCo：与大型语言模型进行辩证式多机器人协作**\n\n    *赵曼迪、施丽娅·贾因、宋舒然.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04738)], 2023年7月\n\n13. **释放大型语言模型的认知协同效应：通过多人格自我协作解决任务的智能体**\n\n    *王振海龙、毛绍光、吴文山、葛涛、魏福如、季恒.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.05300)], 2023年7月\n\n14. **用于软件开发的沟通型智能体**\n\n    *钱晨、丛欣、杨诚、陈伟泽、苏宇生、徐居远、刘志远、孙茂松.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.07924)], 2023年7月\n\n15. **向无限延伸：SHOW-1与Showrunner智能体在多智能体模拟中的应用**\n\n    *菲利普·马斯、弗兰克·凯里、克里斯·惠勒、爱德华·萨奇、皮特·比灵顿、杰西卡·亚法·沙马什.* [[摘要](https:\u002F\u002Ffablestudio.github.io\u002Fshowrunner-agents\u002Fstatic\u002Fpdfs\u002FTo_Infinity_and_Beyond_SHOW-1_And_Showrunner_Agents_in_Multi_Agent_Simulations.pdf)], 2023年7月\n\n16. **MetaGPT：面向多智能体协作框架的元编程**\n\n    *洪思睿、郑夏武、乔纳森·陈、程宇恒、张策耀、王子力、尤伟强、林子娟、周立洋、冉晨宇、肖凌峰、吴成林.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00352)], 2023年8月\n\n17. **利用自我博弈和来自AI反馈的上下文学习改进语言模型谈判**\n\n    *傅瑶、彭浩、图沙尔·科特、米雷拉·拉帕塔.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10142)], 2023年5月\n\n18. **多智能体协作：释放智能LLM智能体的力量**\n\n    *雅沙尔·塔莱比拉德、阿米尔侯赛因·纳迪里.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03314)], 2023年6月\n\n19. **RestGPT：通过RESTful API将大型语言模型与现实世界应用连接起来**\n\n    *宋一凡、熊伟民、朱大伟、李成、王科、田叶、李素坚.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624)], 2023年6月\n\n20. **用大型语言模型模块化构建合作性具身智能体**\n\n    *张洪鑫、杜卫华、单佳明、周钦鸿、杜一伦、约书亚·B·特南鲍姆、舒天敏、甘创.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02485)], 2023年7月\n\n21. **InterAct：探索ChatGPT作为合作型智能体的潜力**\n\n    *陈柏霖、张承尚.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.01552)], 2023年8月\n\n22. **AutoGen：通过多智能体对话框架赋能下一代LLM应用**\n\n    *吴清云、班萨尔·加甘、张洁宇、吴怡然、张绍坤、朱尔康、李贝彬、江丽、张晓云、王驰.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.08155)], 2023年8月\n\n23. **通过提示工程探索大型语言模型与基于智能体建模的交叉点**\n\n    *爱德华·君普隆格.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07411)], 2023年8月\n\n24. **用于嵌套式多智能体推理的神经网络摊销推理**\n\n    *库纳尔·贾、黎端英、金传阳、郭燕玲、约书亚·B·特南鲍姆、舒天敏.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11071)], 2023年8月\n\n25. **GPT在环：多智能体系统的自适应决策**\n\n    *娜塔莉娅·纳西门托、保罗·阿伦卡尔、唐纳德·科万.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.10435)], 2023年8月\n\n26. **ProAgent：利用大型语言模型构建主动协作型AI**\n\n    *张策尧、杨凯杰、胡思怡、王子豪、李光和、孙一航、张成、张兆伟、刘安吉、朱松纯、常晓军、张俊格、尹峰、梁义涛、杨耀东.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11339)], 2023年8月\n\n27. **MindAgent：涌现的游戏交互**\n\n    *龚然、黄秋源、马晓健、霍伊·沃、赞恩·杜兰特、野田雄介、郑子龙、朱松纯、德米特里·特尔佐波洛斯、李飞飞、高剑锋.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.09971)], 2023年9月\n\n28. **GenoMAS：基于代码驱动的基因表达分析的科学发现多智能体框架**\n\n    *刘浩洋、李毅江、王浩翰.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21035)] [[代码](https:\u002F\u002Fgithub.com\u002FLiu-Hy\u002FGenoMAS)], 2025年7月\n\n29. **分布式多智能体系统的阿喀琉斯之踵**\n\n    *张艺婷、李毅江、赵天威、朱凯杰、王浩翰、努诺·瓦斯科塞洛斯.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07461)], 2025年4月\n\n30. **CoMAS：通过交互奖励实现多智能体的协同进化**\n\n    *薛向远、周逸凡、张贵斌、张再彬、李毅江、张晨、殷振飞、菲利普·托尔、欧阳万里、白磊.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08529)], 2025年10月\n\n28. **从社会心理学视角探索LLM智能体的合作机制**\n\n    *张金田、许欣、邓淑敏.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02124)], 2023年10月\n\n29. **Lumos：基于统一数据、模块化设计和开源LLM的学习型智能体**\n\n    *殷达、法泽·布拉曼、阿比拉莎·拉维昌德尔、卡亚蒂·钱杜、张凯伟、崔艺珍、林宇辰.* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.05657.pdf)], 2023年11月\n\n30. **AutoAct：通过自我规划从零开始自动学习智能体**\n\n    *乔硕飞、张宁宇、方润楠、罗宇杰、周旺春树、蒋宇辰·埃莉诺、吕成飞、陈华君.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.05268)], 2024年1月\n\n31. **Corex：通过多模型协作推动复杂推理的边界**\n\n    *孙秋实、尹章悦、李翔、吴志勇、邱锡鹏、孔令鹏.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00280)], 2023年10月\n\n32. **CoMM：用于解决复杂问题的协作式多智能体、多推理路径提示方法**\n\n    *陈沛、韩博然、张帅.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.17729)], 2024年4月\n\n33. **进入未知的未知领域：通过参与语言模型智能体对话促进人类学习**\n\n    *蒋宇成、邵一佳、马德坤、西娜·J·塞姆纳尼、莫妮卡·S·拉姆.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15232)], 2024年8月\n\n34. **LLM协作中多智能体强化学习的上下文反事实信用分配**\n\n    *陈延军、孙依荣、王汉林、张新明、沈晓宇、李文杰、张伟.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.06859)] [[代码](https:\u002F\u002Fgithub.com\u002FEIT-EAST-Lab\u002FC3)], 2026年3月\n\n\n##### 对抗性交互 👨🏻‍🦳🗣\n\n1. **通过多智能体辩论激发大型语言模型的发散思维**\n\n   *梁天、何志伟、焦文祥、王星、王燕、王睿、杨宇久、涂兆鹏、史书铭.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.19118)], 2023年5月\n\n2. **通过多智能体辩论提升语言模型的事实性和推理能力**\n\n   *杜一伦、李爽、安东尼奥·托拉尔巴、约书亚·B·特南鲍姆、伊戈尔·莫达奇.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14325)], 2023年5月\n\n3. **利用自我博弈和基于AI反馈的上下文学习改进语言模型谈判**\n\n   *傅瑶、彭浩、库什·科特、米雷拉·拉帕塔.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10142)], 2023年5月\n\n4. **ChatEval：通过多智能体辩论打造更优秀的基于LLM的评估工具**\n\n   *陈志敏、陈伟泽、苏宇生、于建轩、薛伟、张尚航、付杰、刘志远.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07201)], 2023年8月\n\n5. **LLM对逻辑谬误有多敏感？**\n\n   *阿米尔雷扎·帕扬德、丹·普鲁斯、乔丹·霍希尔、肖雪苏、维杰·K·古尔巴尼.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09853)], 2023年8月\n\n6. **利用LM模拟沙盒识别LM智能体的风险**\n\n   *阮阳军、董红花、王安德鲁、皮蒂斯·西尔维乌、周永超、贝吉·吉米、杜布瓦·扬、麦迪逊·克里斯·J、桥本达则.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15817)], 2023年9月\n\n7. **从社会心理学视角探索LLM智能体的合作机制**\n\n   *张金田、许欣、邓淑敏.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02124)], 2023年10月\n\n8. **CoMet：基于隐喻的多智能体语言游戏中隐蔽通信**\n\n   *徐书航、钟方伟.* [[摘要](https:\u002F\u002Faclanthology.org\u002F2025.acl-long.389\u002F)], 2025年5月\n   \n---\n\n#### 日常\u002F开放对话 👥💬\n\n1. **生成式智能体：人类行为的互动模拟物**\n\n   *朴俊成、约瑟夫·C·奥布莱恩、蔡嘉丽、梅雷迪思·林格尔·莫里斯、李珀西、迈克尔·S·伯恩斯坦.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.03442)], 2023年4月\n\n2. **在模拟人类社会中训练社交对齐的语言模型。**\n\n   *刘瑞波、杨瑞欣、贾晨燕、张戈、周登尼、戴安德鲁·M、杨迪伊、沃索吉·索鲁什.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16960)], 2023年5月\n\n3. **总结在生成式智能体中的作用：初步探讨**\n\n   *冯夏冲、冯晓成、秦冰.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.01253)], 2023年5月\n\n4. **利用生成式智能体进行流行病建模。**\n\n   *罗斯·威廉姆斯、尼尤莎·侯赛尼奇梅赫、阿里特拉·马朱姆达尔、纳维德·加法尔扎德甘.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04986)], 2023年7月\n\n5. **S^3：由大型语言模型赋能的智能体支持的社会网络模拟系统**\n\n   *高晨、兰晓冲、卢志宏、毛金柱、朴京华、王焕东、金德鹏、李勇.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.14984)], 2023年7月\n\n6. **AgentSims：大型语言模型评估的开源沙盒**\n\n   *林家驹、赵浩然、张傲驰、吴怡婷、平胡秋月、陈琴.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.04026)], 2023年8月\n\n7. **CGMI：可配置的通用多智能体交互框架**\n\n   *靳鑫、贾宝昭、王一磊、吴兴交、李嘉文、何亮.* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12503)], 2023年8月\n\n8. **SALM：基于语言模型驱动的社会网络模拟多智能体框架**\n\n    *高拉夫·科莱* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.09081)], 2025年5月\n\n### 🪐 应用\n\n1. **EduChat：基于大规模语言模型的智能教育聊天机器人系统**\n\n   *单宇豪、雷志凯、顾一阳、李勇、尹江浩、林家驹、叶林浩、铁志彦、周友根、王一磊、周爱民、周泽、陈琴、周杰、何亮、邱锡鹏。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02773)]，2023年8月\n\n2. **SuperAgent：面向电商网站的客服聊天机器人**\n\n   *崔磊、黄绍涵、魏福如、谭传奇、段超群、周明。* [[论文](https:\u002F\u002Faclanthology.org\u002FP17-4017\u002F)]，2017年\n\n3. **WebArena：用于构建自主智能体的真实网络环境**\n\n    *周书言、Frank F. Xu、朱浩、周旭辉、Robert Lo、Abishek Sridhar、程先毅、Yonatan Bisk、Daniel Fried、Uri Alon、Graham Neubig。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13854)]，2023年7月\n\n4. **LLM作为数据库管理员**\n\n    *周玄鹤、李国梁、刘知远。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05481)]，2023年8月\n\n5. **RoboAgent：通过语义增强与动作分块实现机器人操作中的泛化与效率**\n\n   *Homanga Bharadhwaj、Jay Vakil、Mohit Sharma、Abhinav Gupta、Shubham Tulsiani、Vikash Kumar。* [[论文](https:\u002F\u002Frobopen.github.io\u002Fmedia\u002Froboagent.pdf)]，2023年\n\n6.  **基于大语言模型的智能体是否存在社会原则？**\n\n    *白继涛、张思淼、陈中昊。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11136)]，2023年8月\n\n7. **ToRA：用于数学问题求解的工具集成推理智能体**\n\n    *苟志斌、邵志宏、龚叶云、沈烨龙、杨宇久、黄敏莉、段楠、陈伟祖。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17452)] [[代码](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FToRA)]，2023年9月\n\n8. **智能体技能发现**\n\n    *赵旭峰、Cornelius Weber、Stefan Wermter* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.15019)] [[代码](https:\u002F\u002Fgithub.com\u002Fxf-zhao\u002FAgentic-Skill-Discovery)]，2024年5月\n\n9. **利用大型语言模型从零开始协助撰写维基百科式文章**\n\n    *邵益佳、蒋宇成、Theodore A. Kanell、Peter Xu、Omar Khattab、Monica S. Lam。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.14207)]，[[代码](https:\u002F\u002Fgithub.com\u002Fstanford-oval\u002Fstorm)]，2024年4月\n\n10. **CitySim：基于大规模语言模型驱动的智能体模拟的城市行为与城市动态建模**\n\n    *Nicolas Bougie和Narimasa Watanabe。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21805)]，2025年6月\n\n11. **aiXiv：由AI科学家生成的下一代开放获取科学发现生态系统**\n\n    *张鹏松、胡翔、黄国威、齐洋、张恒、李秀旭、宋嘉兴、罗嘉彬、李亦江、尹硕、戴成晓、江汉臣、周小燕、殷振飞、袁博钦、董静、苏桂南、乔冠仁、唐海明、杜安洪、潘丽丽、兰振中、刘新宇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.15126)] [[代码](https:\u002F\u002Fgithub.com\u002Faixiv-org)]，2025年8月\n\n### 🖼️ 框架\n\n1. **Agents：开源的自主语言智能体框架**\n\n   *周旺春树、江悦儿辰、李龙、吴嘉隆、王天楠、邱诗、张金田、陈静、吴瑞普、王帅、朱世鼎、陈继宇、张文韬、张宁宇、陈华军、崔鹏、Mrinmaya Sachan。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.07870)]，2023年9月\n\n2. **动态LLM-智能体网络：具有智能体团队优化功能的LLM-智能体协作框架**\n\n   *刘子俊、张延哲、李鹏、刘洋、杨迪伊。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02170)]，2023年10月\n\n3. **OpenAgents：面向野外语言智能体的开放平台**\n\n   *谢天宝、周凡、程周俊、石鹏、翁洛轩、刘逸涛、托赫京华、赵俊宁、刘倩、刘彻、刘子乐、许一恒、苏洪进、申东灿、熊才明、于涛。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10634)]，2023年10月\n\n4. **AutoAct：通过自我规划从零开始自动学习智能体**\n\n   *乔硕飞、张宁宇、方润楠、罗宇杰、周旺春树、江悦儿辰、吕承飞、陈华军。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.05268)]，2024年1月\n\n5. **交互式智能体基础模型**\n\n   *Zane Durante、Bidipta Sarkar、龚然、Rohan Taori、野田佑介、Paul Tang、Ehsan Adeli、Shrinidhi Kowshika Lakshmikanth、Kevin Schulman、Arnold Milstein、Demetri Terzopoulos、Ade Famoti、久野信夫、Ashley Llorens、Hoi Vo、池内胜、李飞飞、高剑锋、Wake Naoki、黄秋源。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05929)]，2024年2月\n\n6. **生成式智能体社会中的社会规范涌现：原则与架构**\n\n   *任思越、崔志耀、宋睿琪、王震、胡淑玥。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.08251)]，2024年3月\n\n7. **交互式进化：面向大型语言模型的神经符号自训练框架**\n\n   *徐方志、孙秋实、程侃之、刘俊、乔宇、吴志勇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.11736)]，2024年6月\n\n8. **AgentSquare：在模块化设计空间中自动搜索LLM智能体**\n\n   *尚宇、李宇、赵可宇、马立凯、刘家禾、徐凤利、李勇* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.06153)]，2024年10月\n\n\n\n### 🔖 其他\n\n1. **提升对基于LLM的AI自动化智能体的信任：新思考与未来挑战**\n\n   *Sivan Schwartz、Avi Yaeli、Segev Shlomov。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05391)]，2023年8月\n   \n---\n\n## 🧰 资源\n\n### 基准测试\n\n1. **Mind2Web：迈向通用型网络智能体**\n\n   *邓翔、顾宇、郑博远、陈世杰、塞缪尔·史蒂文斯、王博石、孙欢、苏宇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06070)]，2023年6月\n\n3. **通氏测试：通过动态具身物理与社会交互评估通用人工智能**\n\n    *彭宇佳、韩家恒、张振亮、范立峰、刘腾宇、齐思源、冯雪、马宇曦、王一舟、朱松纯。* [[摘要](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fpii\u002FS209580992300293X)]，2023年7月\n   \n4. **AgentBench：评估大语言模型作为智能体的能力**\n\n   *刘晓、于浩、张瀚辰、徐一凡、雷宣宇、赖涵宇、顾宇、丁航亮、门凯文、杨可俊、张淑丹、邓翔、曾傲寒、杜正啸、张晨辉、沈晟、张天俊、苏宇、孙欢、黄敏列、董宇霄、唐杰。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03688)]，2023年8月\n\n5. **BOLAA：基准测试与编排LLM增强的自主智能体。**\n\n   *刘志伟、姚维然、张建国、薛乐、谢尔比·海涅克、里特什·穆尔蒂、冯毅豪、陈泽元、胡安·卡洛斯·尼布尔斯、德万什·阿尔皮特、许冉、菲尔·穆伊、王欢、熊才明、西尔维奥·萨瓦雷斯。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.05960)]，2023年8月\n\n6. **利用LM模拟沙盒识别LM智能体的风险**\n\n   *阮阳军、董洪华、安德鲁·王、西尔维乌·皮蒂斯、周永超、吉米·巴、扬·杜波依斯、克里斯·J·麦迪逊、桥本达则。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.15817)]，2023年9月\n\n7. **T-Eval：逐步评估大型语言模型的工具使用能力**\n\n   *陈泽辉、杜伟华、张文伟、刘奎坤、刘江宁、郑淼、卓景明、张宋洋、林大华、陈凯、赵峰。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14033)]，2023年12月\n   \n8. **TravelPlanner：基于语言智能体的真实世界规划基准测试**\n\n   *谢健、张凯、陈江杰、朱廷辉、楼仁泽、田元东、肖阳华、苏宇。* [[摘要](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.01622.pdf)]，2024年2月\n\n9. **AgentBoard：多轮LLM智能体的分析性评估平台**\n\n   *马畅、张俊磊、朱志浩、杨成、杨有久、金耀辉、兰振中、孔令鹏、何俊贤。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13178)]，2024年1月\n\n10. **OSWorld：在真实计算机环境中对开放式任务的多模态智能体进行基准测试**\n   \n    *谢天宝、张丹阳、陈继轩、李晓川、赵思恒、曹瑞生、托赫·京华、程周俊、申东灿、雷方宇、刘义涛、徐一恒、周书燕、西尔维奥·萨瓦雷斯、熊才明、钟维克、余涛。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972)]，2024年4月\n\n11. **TimeChara：评估角色扮演型大型语言模型的时间点角色幻觉**\n\n    *安在宇、李泰贤、林俊英、金镇和、尹尚斗、李花兰、金根熙。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.18027)]，2024年5月\n\n12. **AppWorld：用于基准测试交互式编码智能体的可控应用与人物世界**\n\n    *哈什·特里维迪、图沙尔·科特、马莱克·哈特曼、拉斯金·曼库、文蒂·东、爱德华·李、沙尚克·古普塔、阿希什·萨巴瓦尔、尼兰詹·巴拉苏布拉马尼安。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.18901)]，2024年7月\n\n13. **智能体工作流生成的基准测试**\n\n    *乔硕飞、方润楠、邱志松、王小斌、张宁宇、蒋勇、谢鹏俊、黄飞、陈华军。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.07869)]，2024年10月\n\n14. **GenoTEX：用于自动化基因表达数据分析的LLM智能体基准测试**\n\n    *刘浩洋、陈书宇、张晔、王浩翰。* [[摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.15341)] [[代码](https:\u002F\u002Fgithub.com\u002FLiu-Hy\u002FGenoTEX)]，2024年6月\n\n### 工具类型\n\n|      类型      | 工具                                                        |\n| :-------------: | ------------------------------------------------------------ |\n| 带工具的智能体 | [AutoGPT](https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT)、[LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain)、[Transformer Agents](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Ftransformers_agents)、[WorkGPT](https:\u002F\u002Fgithub.com\u002Fteam-openpm\u002Fworkgpt)、[AutoChain ](https:\u002F\u002Fgithub.com\u002FForethought-Technologies\u002FAutoChain)、[Langroid](https:\u002F\u002Fgithub.com\u002Flangroid\u002Flangroid) 、[WebArena](https:\u002F\u002Fgithub.com\u002Fweb-arena-x\u002Fwebarena)、[GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher)、[BMTools](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FBMTools)、[ToolBench](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FToolBench) 、[AgentGPT](https:\u002F\u002Fgithub.com\u002Freworkd\u002FAgentGPT)、[xlang](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002Fxlang) |\n|   多智能体   | [CAMEL](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel)、[GPTeam](https:\u002F\u002Fgithub.com\u002F101dotxyz\u002FGPTeam)、[AgentVerse](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FAgentVerse)、[MetaGPT](https:\u002F\u002Fgithub.com\u002Fgeekan\u002FMetaGPT)、[Langroid](https:\u002F\u002Fgithub.com\u002Flangroid\u002Flangroid)、[SocraticAI](https:\u002F\u002Fgithub.com\u002FRunzheYang\u002FSocraticAI)、[AutoGen](https:\u002F\u002Fmicrosoft.github.io\u002FFLAML\u002Fdocs\u002FUse-Cases\u002FAutogen\u002F)、[Agents](https:\u002F\u002Fgithub.com\u002Faiwaves-cn\u002Fagents) |\n|     其他      | [AutoAgents](https:\u002F\u002Fgithub.com\u002FAutoLLM\u002FAutoAgents)![img](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Reasoning-blue) 、[GPT Engineer](https:\u002F\u002Fgithub.com\u002FAntonOsika\u002Fgpt-engineer)  ![img](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Code-pink) |\n\n### 📜 工具列表\n\n- **[Auto-GPT](https:\u002F\u002Fgithub.com\u002FSignificant-Gravitas\u002FAuto-GPT)。** 一个实验性的开源项目，旨在使 GPT-4 完全自主运行。\n\n- **[LangChain](https:\u002F\u002Fgithub.com\u002Fhwchase17\u002Flangchain)。** 通过可组合性构建基于大语言模型的应用程序。\n\n- **[CAMEL](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fcamel)。** 用于探索大规模语言模型社会“心智”的沟通型智能体。\n\n- **[GPTeam](https:\u002F\u002Fgithub.com\u002F101dotxyz\u002FGPTeam)。** GPTeam：一个开源的多智能体仿真平台。\n\n- **[Transformer Agents](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Ftransformers_agents)。** 简而言之，它在 Transformer 模型之上提供了一个自然语言 API：我们定义了一组精选工具，并设计一个智能体来理解自然语言并使用这些工具。\n\n- **[AgentVerse](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FAgentVerse)。** 多大语言模型环境仿真的框架。\n\n- **[AutoAgents](https:\u002F\u002Fgithub.com\u002FAutoLLM\u002FAutoAgents)。** 具备增强推理和信息检索能力的大语言模型复杂问题解答系统。\n\n- **[GPT Engineer](https:\u002F\u002Fgithub.com\u002FAntonOsika\u002Fgpt-engineer)。** 指定你想要构建的内容，AI 会请求澄清细节，然后完成构建。\n\n- **[MetaGPT](https:\u002F\u002Fgithub.com\u002Fgeekan\u002FMetaGPT)。** 多智能体框架：只需一行需求描述，即可输出 PRD、设计文档、任务清单和代码仓库。\n\n- **[WorkGPT](https:\u002F\u002Fgithub.com\u002Fteam-openpm\u002Fworkgpt)。** 用于调用 API 的 GPT 智能体框架。\n\n- **[AutoChain](https:\u002F\u002Fgithub.com\u002FForethought-Technologies\u002FAutoChain)。** 构建轻量级、可扩展且易于测试的大语言模型智能体。\n\n- **[Langroid](https:\u002F\u002Fgithub.com\u002Flangroid\u002Flangroid)。** 通过多智能体编程充分利用大语言模型。\n\n- **[SocraticAI](https:\u002F\u002Fgithub.com\u002FRunzheYang\u002FSocraticAI)。** 通过让多个 AI 智能体与用户及其他智能体对话来解决问题。\n\n- **[WebArena](https:\u002F\u002Fgithub.com\u002Fweb-arena-x\u002Fwebarena)。** 用于构建自主智能体的真实网络环境。\n\n- **[GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher)。** 基于 GPT 的自主智能体，能够对任何给定主题进行在线综合研究。\n\n- **[BMTools](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FBMTools)。** 面向大模型的工具学习，ChatGPT 插件的开源解决方案。\n\n- **[ToolBench](https:\u002F\u002Fgithub.com\u002FOpenBMB\u002FToolBench)。** 一个用于训练、部署和评估大语言模型工具学习能力的开放平台。\n\n- **[AgentGPT](https:\u002F\u002Fgithub.com\u002Freworkd\u002FAgentGPT)。** 在浏览器中组装、配置并部署自主 AI 智能体。\n\n- **[xlang](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002Fxlang)。** 一个开源框架，通过可执行的语言接地来构建和评估语言模型智能体。\n\n- **[Agently](https:\u002F\u002Fgithub.com\u002FMaplemx\u002FAgently)。** 快速构建基于大语言模型的智能体应用 🤵 一个轻量级框架，帮助开发者创建出色的大语言模型应用。\n\n- **[Lagent](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flagent)。** 一个轻量级框架，用于构建基于大语言模型的智能体。\n\n- **[ToolEmu](https:\u002F\u002Fgithub.com\u002Fryoungj\u002FToolEmu)。** 一个基于大语言模型的仿真框架，用于测试和识别基于大语言模型智能体的风险。\n\n- **[storm](https:\u002F\u002Fgithub.com\u002Fstanford-oval\u002Fstorm)。** 一种知识型智能体，能够研究特定主题并生成带有引用的完整报告。\n\n- **[Comet Opik](https:\u002F\u002Fgithub.com\u002Fcomet-ml\u002Fopik)。** 使用全面的追踪功能、自动化评估以及生产就绪的仪表板，调试、评估和监控你的智能体工作流。\n\n---\n\n## 🎉 贡献\n\n### 参与本论文列表的贡献\n\n⭐“**加入我们，一起完善这个仓库吧！** 如果你知道我们遗漏了哪些重要工作，请随时贡献。你的努力对我们来说非常宝贵！”\n\n### 贡献者\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FLLMAgentPapers\u002Fgraphs\u002Fcontributors\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzjunlp_LLMAgentPapers_readme_46f6f6b70054.png\" \u002F>\n\u003C\u002Fa>","# LLMAgentPapers 快速上手指南\n\n**LLMAgentPapers** 并非一个需要安装运行的软件库或框架，而是一个由浙江大学 ZJUNLP 团队维护的**大语言模型（LLM）智能体领域必读论文清单**。它旨在为研究者和开发者提供该领域最前沿的学术资源索引。\n\n因此，本指南将指导您如何快速获取、浏览及利用这份宝贵的资源列表。\n\n## 环境准备\n\n由于本项目本质是一个托管在 GitHub 上的文档仓库，您无需配置复杂的 Python 环境或安装特定依赖。仅需满足以下条件即可：\n\n*   **操作系统**：Windows, macOS, 或 Linux 均可。\n*   **网络环境**：能够访问 GitHub (github.com) 和 arXiv (arxiv.org)。\n    *   *国内用户建议*：若访问 GitHub 速度较慢，建议使用加速工具或通过 Gitee 镜像（如有）访问。\n*   **必备工具**：\n    *   现代 Web 浏览器（推荐 Chrome, Edge, Firefox）。\n    *   （可选）Git 命令行工具：用于克隆仓库到本地进行离线阅读或贡献。\n\n## 获取与安装步骤\n\n您可以通过以下两种方式获取论文列表：\n\n### 方式一：在线浏览（推荐）\n直接访问 GitHub 仓库页面，这是最快捷的方式，内容会实时更新。\n\n1.  打开浏览器访问项目主页：\n    ```text\n    https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FLLMAgentPapers\n    ```\n2.  在页面上方导航栏点击 **\"Issues\"** 或直接在 **README** 中查看分类整理的论文列表（如 Overview, Agent, Memory, Planning 等）。\n\n### 方式二：本地克隆（适合离线阅读或贡献）\n如果您希望将列表保存到本地，或通过 Pull Request 贡献新的论文，请使用 Git 克隆。\n\n1.  打开终端（Terminal 或 CMD）。\n2.  执行以下命令克隆仓库：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fzjunlp\u002FLLMAgentPapers.git\n    ```\n    *国内加速方案（如果上述命令超时）：*\n    ```bash\n    git clone https:\u002F\u002Fgitee.com\u002Fmirrors\u002FLLMAgentPapers.git\n    ```\n    *(注：若 Gitee 无实时同步镜像，请尝试配置 git proxy 或使用上述在线浏览方式)*\n\n3.  进入项目目录：\n    ```bash\n    cd LLMAgentPapers\n    ```\n4.  使用 Markdown 阅读器（如 VS Code, Typora）打开 `README.md` 文件即可查看完整目录。\n\n## 基本使用\n\nLLMAgentPapers 的核心价值在于其结构化的论文分类。以下是高效使用该资源的方法：\n\n### 1. 按主题查找论文\n在 `README.md` 或网页中，论文被清晰地划分为多个核心领域。您可以根据研究兴趣直接跳转：\n\n*   **🤖 Agent (单智能体)**:\n    *   `Personality`: 研究智能体的性格、角色扮演及意识（如 MBTI 测试）。\n    *   `Memory`: 长短期记忆机制、上下文压缩与管理。\n    *   `Planning`: 任务规划、推理链（CoT）。\n    *   `Tool use`: 工具调用、API 集成。\n    *   `RL training`: 基于强化学习的智能体训练。\n*   **🤖💬🤖 Multiple Agents (多智能体)**:\n    *   `Task-Oriented Communication`: 协作交流与对抗交互。\n    *   `Casual\u002FOpen Conversations`: 开放域对话。\n*   **🪐 Application**: 具体应用场景案例。\n*   **🖼️ Framework**: 主流智能体框架综述。\n\n### 2. 获取论文全文\n列表中每篇论文都提供了 `[abs]` 链接，指向 arXiv 摘要页。\n\n*   **操作步骤**：\n    1.  找到您感兴趣的论文标题（例如：*\"A Survey on Large Language Model based Autonomous Agents\"*）。\n    2.  点击标题后的 `[[abs]](链接)`。\n    3.  在 arXiv 页面右侧点击 **\"View PDF\"** 下载全文。\n\n*   **示例链接结构**：\n    ```markdown\n    [A Survey on Large Language Model based Autonomous Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.11432)\n    ```\n\n### 3. 追踪最新动态\n关注仓库顶部的 **🔔 News** 部分，团队会在此发布最新的综述论文或重大更新（例如新发布的 \"KnowAgent\" 论文）。\n\n### 4. 拓展资源\n除了主列表，您还可以参考 README 中推荐的相关合集：\n*   **Prompt4ReasoningPapers**: 专注于大模型推理提示工程。\n*   **KnowledgeEditingPapers**: 专注于大模型知识编辑技术。\n\n---\n*提示：该列表持续更新，建议定期查看 GitHub 仓库以获取最新发表的论文信息。*","某高校人工智能实验室的研究生团队正致力于开发一个具备复杂规划能力的多智能体协作系统，急需掌握 LLM Agent 领域的最新前沿技术以确立研究路线。\n\n### 没有 LLMAgentPapers 时\n- **文献检索如大海捞针**：研究人员需在 arXiv、Google Scholar 等多个平台反复搜索\"LLM Agent\"、\"Planning\"等关键词，耗时数天仍难以覆盖核心论文，极易遗漏关键成果。\n- **知识体系支离破碎**：找到的论文分散在记忆机制、工具使用、强化学习训练等不同细分方向，缺乏系统分类，难以快速构建完整的领域知识图谱。\n- **前沿动态滞后**：由于缺乏持续更新的追踪渠道，团队往往在实验中期才发现已有更先进的“知识增强规划”方法发布，导致前期工作推倒重来。\n- **复现资源难寻**：即便找到了理论论文，也常因缺少配套的代码库、基准测试（Benchmarks）或工具列表链接，使得算法验证和对比实验举步维艰。\n\n### 使用 LLMAgentPapers 后\n- **一站式获取必读清单**：团队直接访问 LLMAgentPapers，利用其按“规划”、“记忆”、“多智能体交互”等维度精细分类的目录，半天内即可锁定该方向最核心的 20 篇综述与实证论文。\n- **结构化梳理研究脉络**：借助清晰的层级结构，研究人员迅速理清了从单智能体人格设定到多智能体对抗交互的技术演进路线，高效制定了实验方案。\n- **实时同步最新突破**：通过关注仓库的\"News\"栏目，团队第一时间发现了 2024 年 3 月发布的\"KnowAgent\"新论文，及时将知识增强策略融入现有架构，提升了系统性能。\n- **资源链接直达**：论文条目下直接附带了相关的 Benchmark 和工具类型列表，团队成员能快速找到开源实现进行复现与微调，大幅缩短了研发周期。\n\nLLMAgentPapers 通过将散乱的学术成果转化为结构化的知识导航，帮助研发团队从繁琐的文献筛选中解放出来，专注于核心算法的创新与落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzjunlp_LLMAgentPapers_81eb5b6e.png","zjunlp","ZJUNLP","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzjunlp_4dd6d5d4.jpg","Knowledge Engine Lab: A NLP & KG Group of  Zhejiang  University",null,"huajunsir@zju.edu.cn","ChenHuajun","http:\u002F\u002Fzjunlp.org","https:\u002F\u002Fgithub.com\u002Fzjunlp",2955,176,"2026-04-06T02:22:28",1,"","未说明",{"notes":31,"python":29,"dependencies":32},"该项目是一个论文和资源列表仓库，不包含可执行的代码工具或模型，因此无需特定的运行环境、GPU、内存或依赖库。用户只需通过浏览器查看或在本地克隆仓库即可阅读内容。",[],[34,35,36],"Agent","开发框架","语言模型",[38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54],"agents","awsome-list","environment","interactive","large-language-models","llm","multiagent-systems","natural-language-processing","nlp","paper-list","prompt","agent","review","survey","in-context-learning","instruction-following","surveys",2,"ready","2026-03-27T02:49:30.150509","2026-04-07T13:28:53.658983",[],[],[62,73,81,89,97,106],{"id":63,"name":64,"github_repo":65,"description_zh":66,"stars":67,"difficulty_score":68,"last_commit_at":69,"category_tags":70,"status":56},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[34,35,71,72],"图像","数据工具",{"id":74,"name":75,"github_repo":76,"description_zh":77,"stars":78,"difficulty_score":68,"last_commit_at":79,"category_tags":80,"status":56},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[35,71,34],{"id":82,"name":83,"github_repo":84,"description_zh":85,"stars":86,"difficulty_score":55,"last_commit_at":87,"category_tags":88,"status":56},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,"2026-04-06T23:34:12",[35,34,36],{"id":90,"name":91,"github_repo":92,"description_zh":93,"stars":94,"difficulty_score":55,"last_commit_at":95,"category_tags":96,"status":56},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[35,71,34],{"id":98,"name":99,"github_repo":100,"description_zh":101,"stars":102,"difficulty_score":55,"last_commit_at":103,"category_tags":104,"status":56},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[105,35],"插件",{"id":107,"name":108,"github_repo":109,"description_zh":110,"stars":111,"difficulty_score":68,"last_commit_at":112,"category_tags":113,"status":56},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[36,71,34,35]]