[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-weitianxin--Awesome-Agentic-Reasoning":3,"tool-weitianxin--Awesome-Agentic-Reasoning":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":82,"stars":85,"forks":86,"last_commit_at":87,"license":88,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":95,"github_topics":96,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":104,"updated_at":105,"faqs":106,"releases":135},3341,"weitianxin\u002FAwesome-Agentic-Reasoning","Awesome-Agentic-Reasoning","A curated list of papers and resources based on the survey \"Agentic Reasoning for Large Language Models\"","Awesome-Agentic-Reasoning 是一个专注于大模型“代理推理”（Agentic Reasoning）领域的精选资源库。它基于最新的综述论文《Agentic Reasoning for Large Language Models》，系统性地整理了将逻辑推理与实际行动相结合的前沿研究。\n\n当前大模型往往擅长思考却难以执行复杂任务，Awesome-Agentic-Reasoning 正是为了解决这一痛点而生。它将分散的研究成果整合为清晰的知识体系，涵盖规划推理、工具使用优化、智能搜索、基于记忆与反馈的自我进化，以及多智能体协作等核心主题，并提供了数学探索、科学发现、医疗及具身智能等实际应用场景的论文与基准测试。\n\n该资源库特别适合 AI 研究人员、算法工程师和技术开发者使用。对于希望深入理解如何让大模型从“对话者”转变为能自主规划、使用工具并解决现实问题的“行动者”的专业人士，这里提供了极佳的入门路径和前沿参考。其独特的技术亮点在于不仅罗列论文，更按“基础能力 - 自我进化 - 集体协作 - 实际应用”的逻辑框架进行分类，帮助使用者快速把握代理推理技术的全貌与发展脉络，是","Awesome-Agentic-Reasoning 是一个专注于大模型“代理推理”（Agentic Reasoning）领域的精选资源库。它基于最新的综述论文《Agentic Reasoning for Large Language Models》，系统性地整理了将逻辑推理与实际行动相结合的前沿研究。\n\n当前大模型往往擅长思考却难以执行复杂任务，Awesome-Agentic-Reasoning 正是为了解决这一痛点而生。它将分散的研究成果整合为清晰的知识体系，涵盖规划推理、工具使用优化、智能搜索、基于记忆与反馈的自我进化，以及多智能体协作等核心主题，并提供了数学探索、科学发现、医疗及具身智能等实际应用场景的论文与基准测试。\n\n该资源库特别适合 AI 研究人员、算法工程师和技术开发者使用。对于希望深入理解如何让大模型从“对话者”转变为能自主规划、使用工具并解决现实问题的“行动者”的专业人士，这里提供了极佳的入门路径和前沿参考。其独特的技术亮点在于不仅罗列论文，更按“基础能力 - 自我进化 - 集体协作 - 实际应用”的逻辑框架进行分类，帮助使用者快速把握代理推理技术的全貌与发展脉络，是探索下一代自主智能系统不可或缺的指南。","# Awesome Agentic Reasoning Papers\n\n[![Awesome](https:\u002F\u002Fawesome.re\u002Fbadge.svg)](https:\u002F\u002Fawesome.re)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2601.12538-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.12538)\n[![Coverage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCoverage-View%20Post-1DA1F2?logo=x&logoColor=white)](https:\u002F\u002Fx.com\u002Fwei_tianxin\u002Fstatus\u002F2014133714976985538)\n[![Hugging Face #1 Paper of the Day](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-%231%20Paper%20of%20the%20Day-FFD21E?logo=huggingface&logoColor=black)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2601.12538)\n\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Contributions Welcome](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributions-Welcome-brightgreen.svg)](https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning\u002Fblob\u002Fmain\u002FCONTRIBUTING.md)\n![Last Commit](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fweitianxin\u002FAwesome-Agentic-Reasoning)\n![Visitors](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_c908271216ef.png)\n\nThis repository organizes research by thematic areas that integrate reasoning with action, including planning, tool use, search, self-evolution through memory and feedback, multi-agent systems, and real-world applications and benchmarks.\n\n> 📄 **Based on the survey**: *[Agentic Reasoning for Large Language Models: A Survey](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.12538)*\n\n![Framework overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_61d69ad79558.png)\n\n## 🔔 News\n**[03\u002F09\u002F26]** 📊 [Slides](materials\u002FAgentic%20Reasoning%20Survey%20Talk.pdf) are now available to provide a clearer overview of the survey and highlight key insights. We will continue updating the paper with further improvements.\n\n**[01\u002F21\u002F26]** 🚀 We have released a comprehensive survey on ***Agentic Reasoning for Large Language Models***! The paper is now available on [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.12538) and [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2601.12538). We welcome contributions from the community to help expand and improve our survey 🤗!\n\n## 📋 Table of Contents\n- [🔔 News](#-news)\n- [📋 Table of Contents](#-table-of-contents)\n- [🌟 Introduction](#-introduction)\n- [🤝 Contributing](#-contributing)\n- [📝 Citation](#-citation)\n- [🏗️ Foundational Agentic Reasoning](#%EF%B8%8F-foundational-agentic-reasoning)\n  - [🗺️ Planning Reasoning](#%EF%B8%8F-planning-reasoning)\n  - [🛠️ Tool-Use Optimization](#%EF%B8%8F-tool-use-optimization)\n  - [🔍 Agentic Search](#-agentic-search)\n- [🧬 Self-evolving Agentic Reasoning](#-self-evolving-agentic-reasoning)\n  - [🔄 Agentic Feedback Mechanisms](#-agentic-feedback-mechanisms)\n  - [🧠 Agentic Memory](#-agentic-memory)\n  - [🚀 Evolving Foundational Agentic Capabilities](#-evolving-foundational-agentic-capabilities)\n- [👥 Collective Multi-agent Reasoning](#-collective-multi-agent-reasoning)\n  - [🎭 Role Taxonomy of Multi-Agent Systems (MAS)](#-role-taxonomy-of-multi-agent-systems-mas)\n  - [🤝 Collaboration and Division of Labor](#-collaboration-and-division-of-labor)\n  - [🌱 Multi-Agent Memory and Evolution](#-multi-agent-memory-and-evolution)\n- [🎨 Applications](#-applications)\n  - [💻 Math Exploration & Vibe Coding Agents](#-math-exploration--vibe-coding-agents)\n  - [🔬 Scientific Discovery Agents](#-scientific-discovery-agents)\n  - [🤖 Embodied Agents](#-embodied-agents)\n  - [🏥 Healthcare & Medicine Agents](#-healthcare--medicine-agents)\n  - [🌐 Autonomous Web Exploration & Research Agents](#-autonomous-web-exploration--research-agents)\n- [📊 Benchmarks](#-benchmarks)\n  - [⚙️ Core Mechanisms of Agentic Reasoning](#-core-mechanisms-of-agentic-reasoning)\n    - [Tool Use](#tool-use)\n    - [Search](#search)\n    - [Memory and Planning](#memory-and-planning)\n    - [Multi-Agent System](#multi-agent-system)\n  - [🎯 Applications of Agentic Reasoning](#-applications-of-agentic-reasoning)\n    - [Embodied Agents](#embodied-agents-1)\n    - [Scientific Discovery Agents](#scientific-discovery-agents-1)\n    - [Autonomous Research Agents](#autonomous-research-agents)\n    - [Medical and Clinical Agents](#medical-and-clinical-agents)\n    - [Web Agents](#web-agents)\n    - [General Tool-Use Agents](#general-tool-use-agents)\n\n---\n\n## 🌟 Introduction\n\nBridging thought and action through autonomous agents that reason, act, and learn via continual interaction with their environments. The goal is to enhance agent capabilities by grounding reasoning in action.\n\nWe organize agentic reasoning into three layers, each corresponding to a distinct reasoning paradigm under different *environmental dynamics*:\n\n🔹 **Foundational Reasoning.** Core single-agent abilities (planning, tool-use, search) in environments\n\n🔹 **Self-Evolving Reasoning.** Adaptation through feedback, memory, and learning in dynamic settings\n\n🔹 **Collective Reasoning.** Multi-agent coordination, role specialization, and collaborative intelligence\n\nAcross these layers, we further identify complementary reasoning paradigms defined by their *optimization settings*.\n\n🔸 **In-Context Reasoning.** Test-time scaling through structured orchestration and adaptive workflows\n\n🔸 **Post-Training Reasoning.** Behavior optimization via RL and supervised fine-tuning\n\n\n## 🤝 Contributing\nThis collection is an ongoing effort. We are actively expanding and refining its coverage, and welcome contributions from the community. You can:\n\n- Submit a pull request to add papers or resources\n- Open an issue to suggest additional papers or resources\n- Email us at twei10@illinois.edu, twli@illinois.edu, liu326@illinois.edu\n\nWe regularly update the repository to include new research works on agentic reasoning.\n\n\n## 📝 Citation\n\nIf you find this repository or paper useful, please consider citing the survey paper:\n\n```bibtex\n@article{wei2026agentic,\n  title={Agentic Reasoning for Large Language Models},\n  author={Wei, Tianxin and Li, Ting-Wei and Liu, Zhining and Ning, Xuying and Yang, Ze and Zou, Jiaru and Zeng, Zhichen and Qiu, Ruizhong and Lin, Xiao and Fu, Dongqi and others},\n  journal={arXiv preprint arXiv:2601.12538},\n  year={2026}\n}\n```\n\n\n---\n\n## 🏗️ Foundational Agentic Reasoning\n\n### 🗺️ Planning Reasoning\n\n![plan](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_9b9d8b7e0048.png)\n\n\n#### In-context Planning\n\n##### Workflow Design\n\n| Paper | Year |\n| --- | --- |\n| [LLM+P: Empowering Large Language Models with Optimal Planning Proficiency](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11477) | 2023 |\n| [PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10498) | NeurIPS 2023 DB Track |\n| [ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18323) | 2023 |\n| [LLM Reasoners: New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.05221) | 2024 |\n| [Least-to-Most Prompting Enables Complex Reasoning in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.10625) | ICLR 2023 |\n| [Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04091) | ACL 2023 |\n| [Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.10379) | ICML 2024 |\n| [HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580) | 2023 |\n| [Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02412) | 2023 |\n| [PERIA: Perceive, Reason, Imagine, Act via Holistic Language and Vision Planning for Manipulation](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F1f6af963e891e7efa229c24a1607fa7f-Abstract-Conference.html) | 2024 |\n| [Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09572) | 2025 |\n| [CodePlan: Repository-level Coding using LLMs and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.12499) | FSE 2024 |\n| [ReAct: Synergizing Reasoning and Acting in Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [Mind2Web: Towards a Generalist Agent for the Web](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06070) | NeurIPS 2023 |\n| [WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.05902) | 2024 |\n| [Executable Code Actions Elicit Better LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01030) | ICML 2024 |\n| [Gorilla: Large Language Model Connected with Massive APIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15334) | 2023 |\n| [Reflexion: Language Agents with Verbal Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | 2023 |\n| [CodeNav: Beyond Tool-Use to Using Real-World Codebases with LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.12276) | ACL 2024 |\n| [MARCO: Multi-Agent Code Optimization with Real-Time Knowledge Integration for High-Performance Computing](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03906) | 2025 |\n| [Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.00430) | 2025 |\n| [Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.09970) | 2025 |\n| [REST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10003) | 2023 |\n| [Self-Planning Code Generation with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06689) | TOSEM 2023 |\n| [LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04429) | CoRL 2022 |\n\n##### Tree Search \u002F Algorithm Simulation\n\n| Paper | Year |\n| --- | --- |\n| [Tree of Thoughts: Deliberate Problem Solving with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601) | NeurIPS 2023 |\n| [Tree Search for Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.01476) | 2024 |\n| [Tree-Planner: Efficient Planning with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08582) | ICLR 2024 |\n| [Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14283) | 2024 |\n| [LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.02511v2) | 2024 |\n| [Multimodal Chain-of-Thought Reasoning in Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00923) | 2023 |\n| [Reasoning with Language Model is Planning with World Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992) | NeurIPS 2023 |\n| [Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07199) | 2024 |\n| [Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.00451) | 2024 |\n| [Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13660) | 2023 |\n| [Large Language Models as Tool Makers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17126) | ICLR 2024 |\n| [Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.04254) | 2023 |\n| [Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17179) | 2023 |\n| [Broaden your SCOPE! Efficient Multi-turn Conversation Planning for LLMs with Semantic Space](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11586) | 2025 |\n| [Self-Evaluation Guided Beam Search for Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.00633) | NeurIPS 2023 |\n| [PathFinder: Multimodal Multi-Agent Medical Diagnosis Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.08916) | 2025 |\n| [Discriminator-Guided Embodied Planning for LLM Agent](https:\u002F\u002Fopenreview.net\u002Fforum?id=TjP1d8PP8l) | ICLR 2025 |\n| [Stream of Search (SoS): Learning to Search in Language](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03683) | 2024 |\n| [System-1.x: Learning to Balance Fast and Slow Planning with Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.14414) | 2024 |\n| [Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13032) | 2024 |\n| [Intelligent Virtual Assistants with LLM-based Process Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.06677) | 2023 |\n| [Agent S: An Open Agentic Framework that Uses Computers Like a Human](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08164) | 2024 |\n| [HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02322) | 2025 |\n| [Tree-of-Code: A Tree-Structured Exploring Framework for End-to-End Code Generation and Execution in Complex Task Handling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15305) | ACL 2025 |\n| [Enhancing LLM-Based Agents via Global Planning and Hierarchical Execution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16563) | 2025 |\n| [Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19761) | 2025 |\n| [SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.20285) | ICLR 2025 |\n| [BTGenBot: Behavior Tree Generation for Robotic Tasks with Lightweight LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12761) | 2024 |\n| [Do As I Can, Not As I Say: Grounding Language in Robotic Affordances](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691) | CoRL 2022 |\n| [Inner Monologue: Embodied Reasoning through Planning with Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05608) | CoRL 2022 |\n\n##### Process Formalization\n\n| Paper | Year |\n| --- | --- |\n| [Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14909) | NeurIPS 2023 |\n| [Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.12979) | NeurIPS 2024 |\n| [Thought of Search: Planning with Language Models Through The Lens of Efficiency](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.11833) | NeurIPS 2024 |\n| [CodePlan: Repository-level Coding using LLMs and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.12499) | FSE 2024 |\n| [Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12112) | 2024 |\n| [From An LLM Swarm To A PDDL-Empowered HIVE: Planning Self-Executed Instructions In A Multi-Modal Jungle](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.12839) | 2024 |\n\n##### Decoupling \u002F Decomposition\n\n| Paper | Year |\n| --- | --- |\n| [ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18323) | NeurIPS 2023 |\n| [DiffuserLite: Towards Real-time Diffusion Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15443) | 2024 |\n| [Goal-Space Planning with Subgoal Models](https:\u002F\u002Fwww.jmlr.org\u002Fpapers\u002Fvolume25\u002F24-0040\u002F24-0040.pdf) | JMLR 2024 |\n| [Agent-Oriented Planning in Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02189) | 2024 |\n| [GoPlan: Goal-Conditioned Offline Reinforcement Learning by Planning with Learned Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.20025) | 2023 |\n| [RetroInText: A Multimodal Large Language Model Enhanced Framework for Retrosynthetic Planning via In-Context Representation Learning](https:\u002F\u002Fopenreview.net\u002Fforum?id=J6e4hurEKd) | ICLR 2025 |\n| [HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02322) | 2025 |\n| [VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.23156) | 2024 |\n| [Beyond Autoregression: Discrete Diffusion for Complex Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14157) | 2024 |\n| [PlanAgent: A Multi-modal Large Language Agent for Vehicle Motion Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01587) | 2024 |\n| [LLaMAR: Long-Horizon Planning for Multi-Agent Robots in Partially Observable Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10031) | 2024 |\n\n##### External Aid \u002F Tool Use\n\n| Paper | Year |\n| --- | --- |\n| [Plan-on-Graph: Self-Correcting Adaptive Planning on Knowledge Graphs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.23875) | NeurIPS 2024 |\n| [Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.04578) | 2025 |\n| [TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.00562) | 2025 |\n| [FlexPlanner: Flexible 3D Floorplanning via Deep Reinforcement Learning in Hybrid Action Space with Multi-Modality Representation](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F585e9cf25585612ac27b535457116513-Abstract-Conference.html) | NeurIPS 2024 |\n| [Exploratory Retrieval-Augmented Planning For Continual Embodied Instruction Following](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.08222) | NeurIPS 2024 |\n| [Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02937) | 2024 |\n| [RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.01346) | 2025 |\n| [Reasoning with Language Model is Planning with World Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992) | NeurIPS 2023 |\n| [Leveraging Pre-trained Large Language Models to Construct and Utilize World Models for Model-based Task Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14909) | NeurIPS 2023 |\n| [Agent Planning with World Knowledge Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14205) | NeurIPS 2024 |\n| [BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17372) | NeurIPS 2024 |\n| [DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04983) | 2024 |\n| [FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08261) | 2024 |\n| [Continual Reinforcement Learning by Planning with Online World Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.09177) | 2025 |\n| [AdaWM: Adaptive World Model based Planning for Autonomous Driving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13072) | 2025 |\n| [HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580) | 2023 |\n| [Tool-Planner: Task Planning with Clusters across Multiple Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.03807) | 2024 |\n| [RetroInText: A Multimodal Large Language Model Enhanced Framework for Retrosynthetic Planning via In-Context Representation Learning](https:\u002F\u002Fopenreview.net\u002Fforum?id=J6e4hurEKd) | ICLR 2025 |\n\n#### Post-training Planning\n\n| Paper | Year |\n| --- | --- |\n| [Reflexion: Language Agents with Verbal Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Reflect-then-Plan: Offline Model-Based Planning through a Doubly Bayesian Lens](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.06261) | 2025 |\n| [Rational Decision-Making Agent with Internalized Utility Judgment](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12519) | 2023 |\n| [Scaling Autonomous Agents via Automatic Reward Modeling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.12130) | 2025 |\n| [Strategic Planning: A Top-Down Approach to Option Generation](https:\u002F\u002Fopenreview.net\u002Fforum?id=xkgQWEj9F2&noteId=mt0BbGT077) | 2025 |\n| [Non-myopic Generation of Language Models for Reasoning and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.17195) | 2024 |\n| [Physics-informed Temporal Difference Metric Learning for Robot Motion Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.05691) | 2025 |\n| [Generalizable Motion Planning via Operator Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.17547) | 2024 |\n| [ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.21689) | 2025 |\n| [Latent Diffusion Planning for Imitation Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16925) | 2025 |\n| [SafeDiffuser: Safe Planning with Diffusion Probabilistic Models](https:\u002F\u002Fopenreview.net\u002Fforum?id=ig2wk7kK9J) | ICLR 2023 |\n| [ContraDiff: Planning Towards High Return States via Contrastive Learning](https:\u002F\u002Fopenreview.net\u002Fforum?id=XMOaOigOQo) | ICLR 2025 |\n| [Amortized Planning with Large-Scale Transformers: A Case Study on Chess](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.04494) | NeurIPS 2024 |\n| [GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.20025) | 2023 |\n| [A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05608) | 2025 |\n\n\n### 🛠️ Tool-Use Optimization\n\n![tool](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_c53cf90172cb.png)\n\n\n#### In-Context Tool-Integration\n\n\n##### Interleaving Reasoning and Tool Use\n\n| Paper | Year |\n| --- | --- |\n| [Chain-of-Thought Prompting Elicits Reasoning in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903) | NeurIPS 2022 |\n| [ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models](https:\u002F\u002Faclanthology.org\u002F2023.findings-emnlp.985\u002F) | EMNLP 2023 |\n| [MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting](https:\u002F\u002Faclanthology.org\u002F2023.acl-short.130\u002F) | ACL 2023 |\n| [Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions](https:\u002F\u002Faclanthology.org\u002F2023.acl-long.557\u002F) | ACL 2023 |\n| [ReAct: Synergizing Reasoning and Acting in Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [Toward PDDL Planning Copilot](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.12987) | 2025 |\n| [ART: Automatic Multi-step Reasoning and Tool-use for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09014) | 2023 |\n\n##### Optimizing Context for Tool Interaction\n\n| Paper | Year |\n| --- | --- |\n| [Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00675) | 2023 |\n| [EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06201) | NAACL 2025 |\n| [GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution](https:\u002F\u002Faclanthology.org\u002F2024.eacl-long.7\u002F) | EACL 2024 |\n| [AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F2db8ce969b000fe0b3fb172490c33ce8-Abstract-Conference.html) | NeurIPS 2024 |\n\n\n#### Post-training Tool-Integration\n\n\n##### Bootstrapping of Tool Use via SFT\n\n| Paper | Year |\n| --- | --- |\n| [Toolformer: Language Models Can Teach Themselves to Use Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761) | NeurIPS 2023 |\n| [ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789) | ICLR 2024 |\n| [ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05301) | 2023 |\n| [Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.09842) | NeurIPS 2023 |\n| [RestGPT: Connecting Large Language Models with Real-World RESTful APIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624) | 2023 |\n| [ADaPT: As-Needed Decomposition and Planning with Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05772) | 2023 |\n| [Agent Lumos: Unified and Modular Training for Open-Source Language Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05657) | 2023 |\n| [Learning to Use Tools via Cooperative and Interactive Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03031) | 2024 |\n| [Understanding the Effects of RLHF on LLM Generalisation and Diversity](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.06452) | 2023 |\n| [Preserving Diversity in Supervised Fine-Tuning of Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16673) | 2024 |\n| [Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05559) | EMNLP 2024 |\n| [Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16270) | 2025 |\n| [iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09766v5) | 2025 |\n| [START: Self-taught Reasoner with Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.04625) | 2025 |\n\n\n##### Mastery of Tool Use via RL\n\n| Paper | Year |\n| --- | --- |\n| [Tool-integrated Reinforcement Learning for Repo Deep Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03012) | ICSE 2026 |\n| [SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning](https:\u002F\u002Faclanthology.org\u002F2025.acl-long.559\u002F) | ACL 2025 |\n| [SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18449) | 2025 |\n| [SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.20285) | 2024 |\n| [ToolRL: Reward is All Tool Learning Needs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.13958) | 2025 |\n| [RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.22844) | 2025 |\n| [Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09516) | 2025 |\n| [AutoTool: Dynamic Tool Selection and Integration for Agentic Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.13278) | 2025 |\n| [ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19470) | 2025 |\n| [Agentic Reinforced Policy Optimization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.19849) | 2025 |\n| [Agentic Entropy-Balanced Policy Optimization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14545) | 2025 |\n| [Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16410) | 2025 |\n| [DeepAgent: A General Reasoning Agent with Scalable Toolsets](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.216180) | 2025 |\n| [Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.23285) | 2025 |\n| [Demystifying Reinforcement Learning in Agentic Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.11701) | 2025 |\n| [Reinforcement Pre-Training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.08007) | 2025 |\n| [ReTool: Reinforcement Learning for Strategic Tool Use in LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.11536) | 2025 |\n| [ZeroSearch: Incentivize the Search Capability of LLMs Without Searching](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.04588) | 2025 |\n| [Kimi k1.5: Scaling Reinforcement Learning with LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12599) | 2025 |\n| [Gemini 2.5: Pushing the Frontier with Advanced Reasoning and Next Generation Agentic Capabilities](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06261) | 2025 |\n| [Kimi k2: Open Agentic Intelligence](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.20534) | 2025 |\n| [GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.06471) | 2025 |\n| [Learning How to Use Tools, Not Just When: Pattern-Aware Tool-Integrated Reasoning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.23292) | 2025 |\n| [SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2601.03555) | 2026 |\n| [TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.06217) | 2025 |\n\n#### Orchestration-based Tool-Integration\n\n##### Agentic Pipelines for Tool Orchestration\n\n| Paper | Year |\n| --- | --- |\n| [ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.14826) | 2025 |\n| [Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.04625) | KDD 2025 |\n| [OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11271) | 2025 |\n| [Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16779) | 2025 |\n| [PyVision: Agentic Vision with Dynamic Tooling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.07998) | 2025 |\n| [Learning to Use Tools via Cooperative and Interactive Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03031) | 2024 |\n| [El Agente: An Autonomous Agent for Quantum Chemistry](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02484) | 2025 |\n\n##### Tool Representations for Orchestration\n\n| Paper | Year |\n| --- | --- |\n| [ToolExpNet: Optimizing Multi-Tool Selection in LLMs with Similarity and Dependency-Aware Experience Networks](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.811\u002F) | ACL (Findings) 2025 |\n| [T^2Agent: A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19768) | 2025 |\n| [ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.13227) | 2023 |\n| [ToolRerank: Adaptive and Hierarchy-Aware Reranking for Tool Retrieval](https:\u002F\u002Faclanthology.org\u002F2024.lrec-main.1413\u002F) | COLING 2024 |\n\n### 🔍 Agentic Search\n\n![search](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_b46f01048029.png)\n\n\n#### In-Context Search\n\n##### Interleaving Reasoning and Search\n\n| Paper | Year |\n| --- | --- |\n| [ReAct: Synergizing Reasoning and Acting in Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [Measuring and Narrowing the Compositionality Gap in Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03350) | 2022 |\n| [Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10509) | 2022 |\n| [Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11511) | NeurIPS Workshop 2023 |\n| [Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-Adaptive Planning Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02937) | 2024 |\n| [DeepRAG: Thinking to Retrieve Step by Step for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01142) | 2025 |\n| [MC-Search: Benchmarking Multimodal Agentic RAG with Structured Reasoning Chains](https:\u002F\u002Fopenreview.net\u002Fforum?id=S2zaYgT7Ic) | NeurIPS Workshop 2025 |\n\n##### Structure-Enhanced Search\n\n| Paper | Year |\n| --- | --- |\n| [Agent-G: An Agentic Framework for Graph Retrieval Augmented Generation](https:\u002F\u002Fopenreview.net\u002Fforum?id=g2C947jjjQ) | 2025 |\n| [MC-Search: Benchmarking Multimodal Agentic RAG with Structured Reasoning Chains](https:\u002F\u002Fopenreview.net\u002Fforum?id=S2zaYgT7Ic) | NeurIPS Workshop 2025 |\n| [GeAR: Graph-Enhanced Agent for Retrieval-Augmented Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.18431) | 2024 |\n| [Learning to Retrieve and Reason on Knowledge Graph through Active Self-Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14932) | 2025 |\n\n#### Post-Training Search\n\n\n##### SFT-Based Agentic Search\n\n| Paper | Year |\n| --- | --- |\n| [Toolformer: Language Models Can Teach Themselves to Use Tools](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2023\u002Ffile\u002Fd842425e4bf79ba039352da0f658a906-Paper-Conference.pdf) | NeurIPS 2023 |\n| [INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06532) | 2024 |\n| [RAG-Studio: Towards In-Domain Adaptation of Retrieval Augmented Generation through Self-Alignment](https:\u002F\u002Faclanthology.org\u002F2024.findings-emnlp.41\u002F) | EMNLP (Findings) 2024 |\n| [RAFT: Adapting Language Model to Domain Specific RAG](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.10131) | 2024 |\n| [Search-o1: Agentic search-enhanced large reasoning models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) | 2025 |\n| [RA-DIT: Retrieval-Augmented Dual Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01352) | ICLR 2023 |\n| [SFR-RAG: Towards Contextually Faithful LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.09916) | 2024 |\n\n##### RL-Based Agentic Search\n\n| Paper | Year |\n| --- | --- |\n| [WebGPT: Browser-assisted question-answering with human feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332) | 2021 |\n| [RAG-RL: Advancing Retrieval-Augmented Generation via RL and Curriculum Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.12759) | 2025 |\n| [Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09516) | 2025 |\n| [KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.10999) | 2025 |\n| [DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-World Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03160) | 2025 |\n| [ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19470) | 2025 |\n| [ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07861) | 2025 |\n\n---\n\n## 🧬 Self-evolving Agentic Reasoning\n\n### 🔄 Agentic Feedback Mechanisms\n\n![feed](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_58dff45730d4.png)\n\n\n#### Reflective Feedback\n\n| Paper | Year |\n| --- | --- |\n| [Reflexion: Language Agents with Verbal Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Self-Refine: Iterative Refinement with Self-Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [Enable Language Models to Implicitly Learn Self-Improvement From Data](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00898) | ICLR 2024 |\n| [A Survey of Self-Evolving Agents: What, When, How, and Where to Evolve](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21046) | TMLR 2025 |\n| [Tree of Thoughts: Deliberate Problem Solving with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601) | NeurIPS 2023 |\n| [Graph of Thoughts: Solving Elaborate Problems with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09687) | AAAI 2024 |\n| [Zero-Shot Verification-Guided Chain of Thoughts](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13122) | 2025 |\n| [ReAct: Synergizing Reasoning and Acting in Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [WebGPT: Browser-assisted Question-Answering with Human Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332) | 2021 |\n| [MemGPT: Towards LLMs as Operating Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08560) | 2023 |\n| [Voyager: An Open-Ended Embodied Agent with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291) | 2023 |\n\n#### Parametric Adaptation\n\n| Paper | Year |\n| --- | --- |\n| [AgentTuning: Enabling Generalized Agent Abilities for LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12823) | 2023 |\n| [ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10003) | 2023 |\n| [Re-ReST: Reflection-Reinforced Self-Training for Language Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01495) | 2024 |\n| [Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02301) | 2023 |\n| [Deep Reinforcement Learning from Human Preferences](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03741) | NeurIPS 2017 |\n| [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18290) | NeurIPS 2023 |\n| [Constitutional AI: Harmlessness from AI Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08073) | 2022 |\n| [ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.871\u002F) | ACL (Findings) 2025 |\n\n#### Validator-Driven Feedback\n\n| Paper | Year |\n| --- | --- |\n| [ReZero: Enhancing LLM search ability by trying one-more-time](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.11001) | 2025 |\n| [Are Retrials All You Need? Enhancing Large Language Model Reasoning Without Verbalized Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.12951) | 2025 |\n| [CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01780) | 2022 |\n| [LEVER: Learning to Verify Language-to-Code Generation with Execution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.08468) | ICML 2023 |\n| [SWE-bench: Can Language Models Resolve Real-world Github Issues?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.06770) | ICLR 2024 |\n| [Do As I Can, Not As I Say: Grounding Language in Robotic Affordances](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691) | CoRL 2022 |\n| [PaLM-E: An Embodied Multimodal Language Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03378) | ICML 2023 |\n| [Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24726) | 2025 |\n\n### 🧠 Agentic Memory\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_f48923e6ab25.png)\n\n\n#### Agentic Use of Flat Memory\n\n##### Factual Memory\n\n| Paper | Year |\n| --- | --- |\n| [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F6b493230205f780e1bc26945df7481e5-Abstract.html) | NeurIPS 2020 |\n| [Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection](https:\u002F\u002Fopenreview.net\u002Fforum?id=hSyW5go0v8) | ICLR 2024 |\n| [MemoryBank: Enhancing Large Language Models with Long-Term Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10250) | 2023 |\n| [LlamaIndex](https:\u002F\u002Fgithub.com\u002Fjerryjliu\u002Fllama_index) | 2022 |\n| [MemGPT: Towards LLMs as Operating Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08560) | 2023 |\n| [RET-LLM: Towards a General Read-Write Memory for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14322) | 2023 |\n| [SCM: Enhancing Large Language Model with Self-Controlled Memory Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.13343) | 2023 |\n| [Evaluating Very Long-Term Conversational Memory of LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17753) | 2024 |\n| [LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10813) | 2024 |\n| [SELFGOAL: Your Language Agents Already Know How to Achieve High-level Goals](https:\u002F\u002Faclanthology.org\u002F2025.naacl-long.36\u002F) | NAACL 2025 |\n| [FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.13743) | 2023 |\n| [A-mem: Agentic memory for llm agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.12110) | 2025 |\n| [In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.08026) | 2025 |\n| [Zep: A Temporal Knowledge Graph Architecture for Agent Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13956) | 2025 |\n| [MIRIX: Multi-Agent Memory System for LLM-Based Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.07957) | 2025 |\n| [MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22101) | 2025 |\n| [LightMem: Lightweight and Efficient Memory-Augmented Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18866) | 2025 |\n| [Nemori: Self-Organizing Agent Memory Inspired by Cognitive Science](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03341) | 2025 |\n\n##### Experience Memory\n\n| Paper | Year |\n| --- | --- |\n| [Agent Workflow Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [Sleep-time Compute: Beyond Inference Scaling at Test-time](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.13171) | 2025 |\n| [Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07952) | 2025 |\n| [Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04618) | 2025 |\n| [ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.25140) | 2025 |\n| [Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20857) | 2025 |\n\n#### Structured Use of Memory\n\n| Paper | Year |\n| --- | --- |\n| [RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14684) | 2024 |\n| [From Local to Global: A Graph RAG Approach to Query-Focused Summarization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16130) | 2024 |\n| [Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.19413) | 2025 |\n| [Zep: A Temporal Knowledge Graph Architecture for Agent Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13956) | 2025 |\n| [From Isolated Conversations to Hierarchical Schemas: Dynamic Tree Memory Representation for LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14052) | 2024 |\n| [AutoFlow: Automated Workflow Generation for Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.12821) | 2024 |\n| [AFlow: Automating Agentic Workflow Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10762) | ICLR 2025 |\n| [FlowMind: Automatic Workflow Generation with LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.13050) | 2024 |\n| [Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory (M3-Agent)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.09736) | 2025 |\n| [Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.00496) | 2025 |\n| [Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03615) | NeurIPS 2024 |\n| [RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.03610) | 2024 |\n\n#### Post-training Memory Control\n\n| Paper | Year |\n| --- | --- |\n| [MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02259) | 2025 |\n| [MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15841) | 2025 |\n| [Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.19828) | 2025 |\n| [Mem-alpha: Learning Memory Construction via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.25911) | 2025 |\n| [Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.12635) | 2025 |\n| [Agent Learning via Early Experience](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08558) | 2025 |\n| [Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.01885) | 2026 |\n| [MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03192) | 2026 |\n\n\n### 🚀 Evolving Foundational Agentic Capabilities\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_d177187bfc5e.png)\n\n#### Self-evolving Planning\n\n| Paper | Year |\n| --- | --- |\n| [Self-challenging language model agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01716) | 2025 |\n| [Self-rewarding language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10020) | ICML 2024 |\n| [RLSR: Reinforcement Learning from Self Reward](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08827) | 2025 |\n| [Self: Self-evolution with language feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00533) | 2023 |\n| [Training language models to self-correct via reinforcement learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12917) | 2024 |\n| [TextGrad: Differentiable Text Feedback for Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07496) | 2024 |\n| [AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15651v1) | 2025 |\n| [AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00764) | 2024 |\n| [Reflexion: Language agents with verbal reinforcement learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Adaplanner: Adaptive planning from feedback with language models](https:\u002F\u002Fopenreview.net\u002Fforum?id=rnKgbKmelt) | NeurIPS 2023 |\n| [Self-refine: Iterative refinement with self-feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [A self-improving coding agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.15228) | 2025 |\n| [Ragen: Understanding self-evolution in llm agents via multi-turn reinforcement learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073) | 2025 |\n| [DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03209) | 2025 |\n\n#### Self-evolving Tool-use\n\n| Paper | Year |\n| --- | --- |\n| [Large Language Models as Tool Makers](https:\u002F\u002Fopenreview.net\u002Fforum?id=qV83K9d5WB) | ICLR 2024 |\n| [CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets](https:\u002F\u002Fopenreview.net\u002Fforum?id=G0vdDSt9XM) | ICLR 2024 |\n| [CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models](https:\u002F\u002Faclanthology.org\u002F2023.findings-emnlp.462\u002F) | EMNLP 2023 |\n| [LLM Agents Making Agent Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11705) | 2025 |\n\n#### Self-evolving Search for Memory Retrieval\n\n| Paper | Year |\n| --- | --- |\n| [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F6b493230205f780e1bc26945df7481e5-Abstract.html) | NeurIPS 2020 |\n| [Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection](https:\u002F\u002Fopenreview.net\u002Fforum?id=hSyW5go0v8) | ICLR 2024 |\n| [MemoryBank: Enhancing Large Language Models with Long-Term Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10250) | 2023 |\n| [MemGPT: Towards LLMs as Operating Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08560) | 2023 |\n| [Agent Workflow Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [Dynamic Cheatsheet: Test-time learning with adaptive memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07952) | 2025 |\n| [Reflexion: Language agents with verbal reinforcement learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.25140) | 2025 |\n| [Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04618) | 2025 |\n| [AutoFlow: Automated Workflow Generation for Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.12821) | 2024 |\n| [AFlow: Automating Agentic Workflow Generation](https:\u002F\u002Fopenreview.net\u002Fforum?id=z5uVAKwmjf) | ICLR 2025 |\n| [FlowMind: Automatic Workflow Generation with LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F) | 2024 |\n| [RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14684) | 2024 |\n| [From Local to Global: A Graph RAG Approach to Query-Focused Summarization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16130) | 2024 |\n| [Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.19413) | 2025 |\n| [Zep: A Temporal Knowledge Graph Architecture for Agent Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13956) | 2025 |\n| [MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22101) | 2025 |\n| [Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.12635) | 2025 |\n\n---\n\n## 👥 Collective Multi-agent Reasoning\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_3290408c7bf5.png)\n\n### 🤝 Collaboration and Division of Labor\n\n![collab](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_1a0b0ad57f55.png)\n\n\n#### In-context Collaboration\n\n\n##### Manually Crafted Pipelines\n\n| Paper | Year |\n| --- | --- |\n| [AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.12508) | 2025 |\n| [MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework](https:\u002F\u002Fopenreview.net\u002Fforum?id=VtmBAGCN7o) | ICLR 2024 |\n| [SurgRAW: Multi-agent workflow with chain-of-thought reasoning for surgical intelligence](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10265) | 2025 |\n| [Collab-RAG: Boosting retrieval-augmented generation for complex question answering via white-box and black-box llm collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.04915) | 2025 |\n| [MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.20096) | 2025 |\n| [Chain of Agents: Large Language Models Collaborating on Long-Context Tasks](https:\u002F\u002Fopenreview.net\u002Fforum?id=LuCLf4BJsr) | NeurIPS 2024 |\n| [AutoAgents: a framework for automatic agent generation](https:\u002F\u002Fwww.ijcai.org\u002Fproceedings\u002F2024\u002F3) | IJCAI 2024 |\n| [RAG-KG-IL: A Multi-Agent Hybrid Framework for Reducing Hallucinations and Enhancing LLM Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.13514) | 2025 |\n| [SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.03284) | 2024 |\n| [MDocAgent: A multi-modal multi-agent framework for document understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.13964) | 2025 |\n\n##### LLM-Driven Pipelines\n\n| Paper | Year |\n| --- | --- |\n| [AutoML-Agent: A multi-agent llm framework for full-pipeline automl](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02958) | 2024 |\n| [Magentic-One: A generalist multi-agent system for solving complex tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04468) | 2024 |\n| [MAS-GPT: Training LLMs to build LLM-based multi-agent systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.03686) | 2025 |\n| [MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.22606) | 2025 |\n| [Agent-oriented planning in multi-agent systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02189) | 2024 |\n| [AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05445) | 2025 |\n| [Talk to Right Specialists: Routing and planning in multi-agent system for question answering](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07813) | 2025 |\n\n##### Theory-of-Mind-Augmented Collaboration\n\n| Paper | Year |\n| --- | --- |\n| [Theory of mind for multi-agent collaboration via large language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10701) | 2023 |\n| [Hypothetical Minds: Scaffolding theory of mind for multi-agent tasks with large language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07086) | 2024 |\n| [MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.12977) | 2024 |\n| [How large language models encode theory-of-mind: a study on sparse parameter patterns](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs44387-025-00031-9) | npj Artificial Intelligence 2025 |\n| [Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15355) | 2025 |\n| [BeliefNest: A Joint Action Simulator for Embodied Agents with Theory of Mind](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.12321) | 2025 |\n\n#### Post-training Collaboration\n\n##### Multi-agent Prompt Optimization\n\n| Paper | Year |\n| --- | --- |\n| [AutoAgents: A Framework for Automatic Agent Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17288) | IJCAI 2024 |\n| [Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration](https:\u002F\u002Faclanthology.org\u002F2024.naacl-long.15\u002F) | NAACL 2024 |\n| [DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13382) | 2023 |\n| [Multi-agent Design: Optimizing Agents with Better Prompts and Topologies](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02533) | 2025 |\n| [Automatic Prompt Optimization with \"Gradient Descent\" and Beam Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.03495) | 2023 |\n\n##### Graph-based Topology Generation\n\n| Paper | Year |\n| --- | --- |\n| [Learning Multi-Agent Communication from Graph Modeling Perspective](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.08550) | 2024 |\n| [G-Designer: Architecting Multi-agent Communication Topologies via Graph Neural Networks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.11782) | 2024 |\n| [Graph Diffusion for Robust Multi-Agent Coordination](https:\u002F\u002Fopenreview.net\u002Fforum?id=T5IZ32ImAB) | ICML 2025 |\n| [Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02506) | 2024 |\n| [Adaptive Graph Pruning for Multi-Agent Communication](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02951) | 2025 |\n| [G-Safeguard: A Topology-Guided Security Lens and Treatment on LLM-based Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11127) | 2025 |\n| [AFlow: Automating Agentic Workflow Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10762) | ICLR 2025 |\n| [Multi-agent Design: Optimizing Agents with Better Prompts and Topologies](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02533) | 2025 |\n| [Multi-Agent Architecture Search via Agentic Supernet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.04180) | 2025 |\n| [DynaSwarm: Dynamically Graph Structure Selection for LLM-based Multi-Agent System](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.23261) | 2025 |\n| [GPTSwarm: Language Agents as Optimizable Graphs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16823) | ICML 2024 |\n\n##### Policy-based Topology Generation\n\n| Paper | Year |\n| --- | --- |\n| [MASRouter: Learning to Route LLMs for Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11133) | 2025 |\n| [RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.04903) | 2025 |\n| [xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08439) | 2025 |\n| [Optimal-Agent-Selection: State-Aware Routing Framework for Efficient Multi-Agent Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.02200) | 2025 |\n| [LLM Collaboration with Multi-Agent Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.04652) | 2025 |\n| [Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02718) | 2025 |\n| [Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10049) | 2025 |\n| [LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01538) | IEEE RA-L 2025 |\n| [MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18439) | 2025 |\n| [Reflective Multi-Agent Collaboration Based on Large Language Models](https:\u002F\u002Fopenreview.net\u002Fforum?id=wWiAR5mqXq&referrer=%5Bthe%20profile%20of%20Zeyu%20Zhang%5D(%2Fprofile%3Fid%3D~Zeyu_Zhang6)) | NeurIPS 2024 |\n| [Sirius: Self-Improving Multi-Agent Systems via Bootstrapped Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.04780) | 2025 |\n| [Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05707) | 2025 |\n| [M3HF: Multi-Agent Reinforcement Learning from Multi-Phase Human Feedback of Mixed Quality](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.02077) | 2025 |\n| [O-MAPL: Offline Multi-Agent Preference Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18944) | 2025 |\n\n### 🌱 Multi-Agent Memory and Evolution\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_92fbf3f8433e.png)\n\n#### From Single-Agent Evolution to Multi-Agent Evolution\n\n##### Intra-test-time Evolution\n\n| Paper | Year |\n| --- | --- |\n| [Reflexion: Language Agents with Verbal Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Self-Refine: Iterative Refinement with Self-Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [AdaPlanner: Adaptive Planning from Feedback with Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16653) | NeurIPS 2023 |\n| [TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01586) | TiFA 2024 |\n| [Self-Adapting Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.10943) | 2025 |\n| [TTRL: Test-Time Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16084) | 2025 |\n| [Ladder: Self-Improving LLMs through Recursive Problem Decomposition](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00735) | 2025 |\n\n##### Inter-test-time Evolution\n\n| Paper | Year |\n| --- | --- |\n| [Self: Self-Evolution with Language Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00533) | 2023 |\n| [STaR: Bootstrapping Reasoning with Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14465) | NeurIPS 2022 |\n| [Reasoning Beyond Limits: Advances and Open Problems for LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.22732) | 2025 |\n| [RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073) | 2025 |\n| [DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03209) | 2025 |\n| [WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02337) | 2024 |\n| [Why do animals need shaping? A theory of task composition and curriculum learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.18361) | 2024 |\n| [SAGE: Self-evolving Agents with Reflective and Memory-augmented Abilities](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1016\u002Fj.neucom.2025.130470) | Neurocomputing 2025 |\n| [MemInsight: Autonomous Memory Augmentation for LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21760) | 2025 |\n| [Agent Workflow Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n\n##### Multi-agent Evolution\n\n| Paper | Year |\n| --- | --- |\n| [Self: Self-Evolution with Language Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00533) | 2023 |\n| [Training Language Models to Self-Correct via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12917) | 2024 |\n| [TextGrad: Automatic \"Differentiation\" via Text](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07496) | 2024 |\n| [REMA: Learning to Meta-Think for LLMs with Multi-Agent Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09501) | 2025 |\n| [Group-in-Group Policy Optimization for LLM Agent Training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.10978) | 2025 |\n| [Agent Workflow Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22101) | 2025 |\n| [Multi-agent Design: Optimizing Agents with Better Prompts and Topologies](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02533) | 2025 |\n| [AFlow: Automating Agentic Workflow Generation](https:\u002F\u002Fopenreview.net\u002Fforum?id=z5uVAKwmjf) | ICLR 2025 |\n| [Testing Advanced Driver Assistance Systems Using Multi-Objective Search and Neural Networks](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F2970276.2970311) | ASE 2016 |\n| [Latent Collaboration in Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20639) | 2025 |\n\n#### Multi-agent Memory Management for Evolution\n\n| Paper | Year |\n| --- | --- |\n| [G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.07398) | 2025 |\n| [Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.08997) | 2025 |\n| [LLM-Powered Decentralized Generative Agents with Adaptive Hierarchical Knowledge Graph for Cooperative Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.05453) | 2025 |\n| [SEDM: Scalable Self-Evolving Distributed Memory for Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.09498) | 2025 |\n| [Collaborative Memory: Multi-User Memory Sharing in LLM Agents with Dynamic Access Control](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.18279) | 2025 |\n| [Memory Sharing for Large Language Model based Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.09982) | 2024 |\n| [MIRIX: Multi-Agent Memory System for LLM-Based Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.07957) | 2025 |\n| [LEGOMem: Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04851) | 2025 |\n| [MAPLE: Multi-Agent Adaptive Planning with Long-Term Memory for Table Reasoning](https:\u002F\u002Faclanthology.org\u002F2025.alta-main.10\u002F) | ALTA 2025 |\n| [Lyfe Agents: Generative agents for low-cost real-time social interactions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02172) | 2023 |\n| [Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06229) | 2025 |\n\n#### Training Multi-agent to Evolve\n\n| Paper | Year |\n| --- | --- |\n| [Multi-Agent Evolve: LLM Self-Improve through Co-evolution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.23595) | 2025 |\n| [CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08529) | 2025 |\n| [MARFT: Multi-Agent Reinforcement Fine-Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16129) | 2025 |\n| [Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.11062) | 2025 |\n| [MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18439) | 2025 |\n| [MALT: Multi-Agent Learning from Trajectories](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.01928) | 2025 |\n| [MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04935) | 2025 |\n| [Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00717) | 2024 |\n| [The Alignment Waltz: Jointly Training Agents to Collaborate for Safety](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08240) | 2025 |\n\n---\n\n## 🎨 Applications\n\n![app](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_83f92165e637.png)\n\n\n### 💻 Math Exploration & Vibe Coding Agents\n\n#### Foundational Agentic Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Advancing mathematics by guiding human intuition with AI](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-04086-x) | Nature 2021 |\n| [Solving olympiad geometry without human demonstrations](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06747-5) | Nature 2024 |\n| [Mathematical discoveries from program search with large language models](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06924-6) | Nature 2024 |\n| [Mathematical Exploration and Discovery at Scale](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.02864) | 2025 |\n| [Advancing geometry with AI: Multi-agent generation of polytopes](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.05199) | 2025 |\n| [Towards Robust Mathematical Reasoning](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.1794\u002F) | EMNLP 2025 |\n| [CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08992) | ICLR 2024 |\n| [Executable Code Actions Elicit Better LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01030) | ICML 2024 |\n| [Knowledge-Aware Code Generation with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15940) | ICPC 2024 |\n| [CodePlan: Repository-level Coding using LLMs and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.12499) | FSE 2024 |\n| [Multi-stage guided code generation for Large Language Models](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS095219762401649X) | Eng. App. AI 2025 |\n| [CodeTree: Agent-Guided Tree Search for Code Generation with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04329) | 2024 |\n| [DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.04078) | 2024 |\n| [Tree-of-Code: A Self-Growing Tree Framework for End-to-End Code Generation and Execution in Complex Tasks](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.509\u002F) | ACL 2025 |\n| [CoRT: Code-integrated Reasoning within Thinking](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.09820\u002F) | 2025 |\n| [DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.14269) | 2025 |\n| [Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F6f479ea488e0908ac8b1b37b27fd134c-Abstract-Conference.html) | NeurIPS 2024 |\n| [VerilogCoder: Autonomous Verilog Coding Agents with Graph-based Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.08927) | AAAI 2025 |\n| [Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13652) | ICML 2025 |\n| [An In-Context Learning Agent for Formal Theorem-Proving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.04353) | COLM 2024 |\n| [Formal Mathematical Reasoning: A New Frontier in AI](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16075) | 2024 |\n| [Generative Modelling for Mathematical Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11061) | 2025 |\n| [Toolformer: Language Models Can Teach Themselves to Use Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761) | NeurIPS 2023 |\n| [ToolCoder: Teach Code Generation Models to use API search tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04032) | 2023 |\n| [ToolGen: Unified Tool Retrieval and Calling via Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.03439) | ICLR 2025 |\n| [CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges](https:\u002F\u002Faclanthology.org\u002F2024.acl-long.737\u002F) | ACL 2024 |\n| [ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07112) | ICSE 2025 |\n| [CodeTool: Enhancing Programmatic Tool Invocation of LLMs via Process Supervision](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20840) | 2025 |\n| [RepoHyper: Better Context Retrieval is All You Need for Repository-Level Code Completion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06095) | 2024 |\n| [CodeNav: Beyond Tool-Use to Using Real-World Codebases with LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.12276) | ICLR 2024 |\n| [Optimizing Code Runtime Performance Through Context-Aware Retrieval-Augmented Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16692) | ICPC 2025 |\n| [Knowledge Graph Based Repository-Level Code Generation](https:\u002F\u002Fconf.researchr.org\u002Fdetails\u002Ficse-2025\u002Fllm4code-2025-papers\u002F26\u002FKnowledge-Graph-Based-Repository-Level-Code-Generation-Virtual-Talk-) | LLM4Code 2025 |\n| [cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15655) | 2025 |\n\n#### Self-evolving Agentic Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Evaluating Language Models for Mathematics through Interactions](https:\u002F\u002Fwww.pnas.org\u002Fdoi\u002F10.1073\u002Fpnas.2318124121) | PNAS 2024 |\n| [CLCL: Non-compositional Expression Detection with Contrastive Learning and Curriculum Learning](https:\u002F\u002Faclanthology.org\u002F2023.acl-long.43\u002F) | ACL 2023 |\n| [Is Self-Repair a Silver Bullet for Code Generation?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09896) | 2024 |\n| [LeDeX: Learning to Debug with Execution Feedback](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Ffile\u002F3ea832724870c700f0a03c665572e2a9-Paper-Conference.pdf) | NeurIPS 2024 |\n| [Self-Refine: Iterative Refinement with Self-Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [A Self-Iteration Code Generation Method Based on Large Language Models](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F10476069) | ICPADS 2023 |\n| [Teaching Large Language Models to Self-Debug](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05128) | ICLR 2024 |\n| [Self-Collaboration Code Generation via ChatGPT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07590) | TOSEM 2024 |\n| [L2MAC: Large Language Model Automatic Computer for Extensive Code Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02003) | 2023 |\n| [Cogito, Ergo Sum: A Neurobiologically-Inspired Cognition-Memory-Growth System for Code Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18653) | 2025 |\n\n#### Collective Multi-agent Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [AgentCoder: Multi-Agent-Based Code Generation with Iterative Testing and Optimisation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13010) | 2023 |\n| [A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.05001) | ASE 2024 |\n| [SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F11029771) | ICSE 2025 |\n| [Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02183) | 2024 |\n| [MapCoder: Multi-Agent Code Generation for Competitive Problem Solving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.11403) | 2024 |\n| [AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.10737) | 2024 |\n| [QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.17167) | 2025 |\n| [SEW: Self-Evolving Agentic Workflows for Automated Code Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.18646) | 2025 |\n| [Self-Evolving Multi-Agent Collaboration Networks for Software Development](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.16946) | 2024 |\n| [Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.00622) | 2024 |\n| [CodeCoR: An LLM-based Self-Reflective Multi-Agent Framework for Code Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07811) | 2025 |\n| [SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06994) | ICML 2025 |\n| [Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02943) | 2025 |\n\n### 🔬 Scientific Discovery Agents\n\nHere are the extracted citation tables grouped by their respective sections.\n\n#### Foundational Agentic Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [ProtAgents: Protein discovery via large language model multi-agent collaborations combining physics and machine learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.04268) | Digital Discovery 2024 |\n| [Agent-based learning of materials datasets from the scientific literature](https:\u002F\u002Fpubs.rsc.org\u002Fen\u002Fcontent\u002Farticlelanding\u002F2024\u002Fdd\u002Fd4dd00252k) | Digital Discovery 2024 |\n| [ReAct: Synergizing Reasoning and Acting in Language Models](https:\u002F\u002Fopenreview.net\u002Fforum?id=WE_vluYUL-X) | ICLR 2023 |\n| [Biomni: A General-Purpose Biomedical AI Agent](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2025.05.30.656746v1.full.pdf) | bioRxiv 2025 |\n| [SciAgent: Tool-augmented Language Models for Scientific Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.11451) | 2024 |\n| [Chemcrow: Augmenting large-language models with chemistry tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05376) | 2023 |\n| [CACTUS: Chemistry Agent Connecting Tool-Usage to Science](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.00972) | ACS Omega 2024 |\n| [ChemToolAgent: The Impact of Tools on Language Agents for Chemistry Problem Solving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07228) | 2024 |\n| [CheMatAgent: Enhancing LLMs for Chemistry and Materials Science through Tree-Search Based Tool Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.07551) | 2025 |\n| [TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10970) | 2025 |\n| [AgentMD: Empowering language agents for risk prediction with large-scale clinical tool learning](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41467-025-64430-x) | Nature Communications 2025 |\n| [LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval and Distillation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.17244) | 2024 |\n| [HoneyComb: A Flexible LLM-Based Agent System for Materials Science](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00135) | 2024 |\n| [CRISPR-GPT for Agentic Automation of Gene-editing Experiments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.18021) | 2024 |\n| [PharmAgents: Building a Virtual Pharma with Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.22164) | 2025 |\n| [ORGANA: A robotic assistant for automated chemistry experimentation and characterization](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS2590238524005423) | Matter 2025 |\n| [AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10022) | 2024 |\n| [Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10776) | 2024 |\n| [LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.09783) | 2024 |\n| [CellAgent: LLM-Driven Multi-Agent Framework for Natural Language-Based Single-Cell Analysis](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2024.05.13.593861v4) | BioRxiv 2024 |\n| [BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17631) | 2024 |\n| [DrugAgent: Multi-Agent Large Language Model-Based Reasoning for Drug-Target Interaction Prediction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.13378) | 2024 |\n| [Accelerating Scientific Research Through a Multi-LLM Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07960) | 2025 |\n| [The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08066) | 2025 |\n| [Large Language Models are Zero Shot Hypothesis Proposers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05965) | 2023 |\n| [PaperQA: Retrieval-Augmented Generative Agent for Scientific Research](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07559) | 2023 |\n| [Language agents achieve superhuman synthesis of scientific knowledge](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.13740) | 2024 |\n| [LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval and Distillation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.17244) | 2024 |\n\n#### Self-evolving Agentic Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.06590) | 2025 |\n| [Accelerated Inorganic Materials Design with Generative AI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.00741) | 2025 |\n| [LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.09783) | 2024 |\n| [ChemReasoner: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.10980) | 2024 |\n| [LLMatDesign: Autonomous Materials Discovery with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.13163) | 2024 |\n| [Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint-Guided LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13299) | 2025 |\n\n#### Collective multi-agent reasoning\n\n| Paper | Year |\n| --- | --- |\n| [ProtAgents: protein discovery via large language model multi-agent collaborations combining physics and machine learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.04268) | Digital Discovery 2024 |\n| [PiFlow: Principle-aware Scientific Discovery with Multi-Agent Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15047) | 2025 |\n| [AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10022) | 2024 |\n| [CellAgent: LLM-Driven Multi-Agent Framework for Natural Language-Based Single-Cell Analysis](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2024.05.13.593861v4) | BioRxiv 2024 |\n| [Accelerating Scientific Research Through a Multi-LLM Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07960) | 2025 |\n| [Toward a team of ai-made scientists for scientific discovery from gene expression data](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12391) | 2024 |\n| [The virtual lab: Ai agents design new sars-cov-2 nanobodies with experimental validation](https:\u002F\u002Fwww.biorxiv.org\u002Fcontent\u002F10.1101\u002F2024.11.11.623004v1) | bioRxiv 2024 |\n\n### 🤖 Embodied Agents\n\n#### Foundational Agentic Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Do As I Can, Not As I Say: Grounding Language in Robotic Affordances](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691) | 2022 |\n| [SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning](https:\u002F\u002Fproceedings.mlr.press\u002Fv229\u002Frana23a.html) | 2023 |\n| [EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15021) | NeurIPS 2023 |\n| [Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07241) | ECCV 2024 |\n| [Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560) | NeurIPS 2023 |\n| [Robotic Control via Embodied Chain-of-Thought Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08693) | 2024 |\n| [Fast ECoT: Fast Embodied Chain-of-Thought for Vision-Language-Action Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.07639) | 2025 |\n| [Cosmos-Reason1: Physical Commonsense with Multimodal Chain of Thought Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.15558) | 2025 |\n| [CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F11093669) | 2025 |\n| [Emma-X: An Embodied Multimodal Action Model with Chain of Thought Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.11974) | 2024 |\n| [Robot-R1: Reinforcement Learning Enhanced Large Vision-Language Models for Robotic Manipulation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00070) | 2025 |\n| [ManipLVM-R1: Learning to Reason for Robotic Manipulation via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16517) | 2025 |\n| [Embodied-R: Emergent Spatial Reasoning in Robotics via Multi-Agent Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.12680) | 2025 |\n| [VIKI-R: A VLM-Based Reinforcement Learning Approach for Heterogeneous Multi-Agent Cooperation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.09049) | 2025 |\n| [GSCE: A Prompt Framework for Enhanced Logical Reasoning in LLM-Based Drone Control](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.12531v2) | 2025 |\n| [MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.08853) | NeurIPS 2022 |\n| [Physical AI Agents: Integrating Generative AI, Symbolic AI and Robotics](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.08944) | 2025 |\n| [Chat with the Environment: Interactive Multimodal Perception using Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08268) | IROS 2023 |\n| [An embodied generalist agent in 3d world](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12871) | ICML 2024 |\n| [Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.19417) | 2025 |\n| [Gemini Robotics: Bringing AI to the Physical World](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20020) | 2025 |\n| [Octopus: Embodied Vision-Language Programmer from Environmental Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08588) | ECCV 2024 |\n| [CaPo: Cooperative Plan Optimization for Multi-Agent Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04679) | 2024 |\n| [COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127808) | ICRA 2025 |\n| [MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07472) | CVPR 2024 |\n| [LLM-Planner: Few-Shot Grounded High-Level Planning for Embodied Agents with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04088) | ICCV 2023 |\n| [EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15021) | NeurIPS 2023 |\n| [L3MVN: Leveraging Large Language Models for Visual Target Navigation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05501) | 2023 |\n| [SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.04077) | ICAPS 2023 |\n| [SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning](https:\u002F\u002Fproceedings.mlr.press\u002Fv229\u002Frana23a.html) | CoRL 2023 |\n| [ReMEmbR: Building and Reasoning with Long-Horizon Spatio-Temporal Memory for Embodied Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.13682) | 2025 |\n| [Embodied-RAG: General Non-parametric Embodied Memory for Retrieval-Augmented Generation](https:\u002F\u002Fopenreview.net\u002Fforum?id=tZWwK7Si4A) | NeurIPS Workshop AFM 2024 |\n| [Retrieval-Augmented Embodied Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.11699) | 2024 |\n| [MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.03450) | 2024 |\n\n#### Self-evolving Agentic Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21716) | 2024 |\n| [Optimus-1: Hybrid Multimodal Memory Empowered Agents for Long-Horizon Tasks in Minecraft](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03615) | 2024 |\n| [Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.15127) | EMNLP 2023 |\n| [Endowing Embodied Agents with Spatial Reasoning Capabilities for Vision-and-Language Navigation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08806) | 2025 |\n| [Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07241) | 2024 |\n| [Ella: Embodied Social Agents with Lifelong Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.24019) | 2025 |\n| [Chat with the Environment: Interactive Multimodal Perception using Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08268) | IROS 2023 |\n| [From Strangers to Assistants: Fast Desire Alignment for Embodied Agent-User Adaptation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22503v1) | 2025 |\n| [Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01928) | CoRL 2023 |\n| [Octopus: Embodied Vision-Language Programmer from Environmental Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08588) | ECCV 2024 |\n| [MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.12977) | 2024 |\n| [Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14314) | 2024 |\n| [EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19905) | 2025 |\n| [Voyager: An Open-Ended Embodied Agent with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291) | 2023 |\n\n#### Collective multi-agent reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Smart-LLM: Smart Multi-Agent Robot Task Planning with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.10062) | 2024 |\n| [CaPo: Cooperative Plan Optimization for Multi-Agent Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04679) | 2024 |\n| [COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127808) | ICRA 2025 |\n| [Theory of mind for multi-agent collaboration via large language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10701) | 2023 |\n| [How large language models encode theory-of-mind: a study on sparse parameter patterns](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs44387-025-00031-9) | npj Artificial Intelligence 2025 |\n| [Hypothetical Minds: Scaffolding theory of mind for multi-agent tasks with large language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07086) | 2024 |\n| [MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Collaborative Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.12977) | 2024 |\n| [EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19905) | 2025 |\n| [COMBO: Compositional World Models for Embodied Multi-Agent Cooperation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.10775) | 2025 |\n| [VIKI-R: A VLM-Based Reinforcement Learning Approach for Heterogeneous Multi-Agent Cooperation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.09049) | 2025 |\n| [RoCo: Dialectic Multi-Robot Collaboration with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04738) | 2024 |\n\n### 🏥 Healthcare & Medicine Agents\n\n#### Foundational agentic reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Development and validation of an autonomous artificial intelligence agent for clinical decision-making in oncology](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs43018-025-00991-6) | Nature Medicine 2024 |\n| [EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07128) | 2024 |\n| [PathFinder: A Multi-Modal Multi-Agent System for Medical Diagnostic Decision-Making Applied to Histopathology](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.08916) | 2025 |\n| [MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18968) | 2025 |\n| [MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00235) | 2025 |\n| [ClinicalAgent: Clinical Trial Multi-Agent System with Large Language Model-based Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.14777) | 2024 |\n| [DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-Making](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02616) | 2025 |\n| [TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10970) | 2025 |\n| [AgentMD: Empowering language agents for risk prediction with large-scale clinical tool learning](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41467-025-64430-x) | Nature Communications 2025 |\n| [Large language model agents can use tools to perform clinical calculations](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41746-025-01475-8) | NPJ Digital Medicine 2025 |\n| [MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13610) | 2024 |\n| [MMedAgent: Learning to Use Medical Tools with Multi-modal Agents](https:\u002F\u002Faclanthology.org\u002F2024.findings-emnlp.510\u002F) | 2024 |\n| [VoxelPrompt: A Vision Agent for End-to-End Medical Image Analysis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08397v2) | 2024 |\n| [Enhancing Surgical Robots with Embodied Intelligence for Autonomous Ultrasound Scanning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.00461) | 2024 |\n| [Adaptive Reasoning and Acting in Medical Language Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10020) | 2024 |\n| [MedRAX: Medical Reasoning Agent for Chest X-ray](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02673) | 2025 |\n| [Conversational Health Agents: A Personalized LLM-Powered Agent Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02374) | 2023 |\n| [MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.04405) | 2025 |\n| [Simulated patient systems powered by large language model-based AI agents offer potential for transforming medical education](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18924) | 2024 |\n| [Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.22678) | MICCAI 2025 |\n| [RAG-Enhanced Collaborative LLM Agents for Drug Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.17506) | 2025 |\n| [MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.00993) | 2025 |\n\n#### Self-evolving agentic reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Epidemic Modeling with Generative Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04986) | 2023 |\n| [Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.22678) | MICCAI 2025 |\n| [EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07128) | 2024 |\n| [LLMs Can Simulate Standardized Patients via Agent Coevolution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.11716) | 2024 |\n| [Simulated patient systems powered by large language model-based AI agents offer potential for transforming medical education](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18924) | 2024 |\n| [MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00235) | 2025 |\n| [DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-Making](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02616) | 2025 |\n| [MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.04405) | 2025 |\n| [EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07128) | 2024 |\n| [MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling](https:\u002F\u002Faclanthology.org\u002F2025.naacl-long.263\u002F) | 2025 |\n| [Large language model agents can use tools to perform clinical calculations](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41746-025-01475-8) | NPJ Digital Medicine 2025 |\n\n#### Collective multi-agent reasoning\n\n| Paper | Year |\n| --- | --- |\n| [MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.15155) | 2024 |\n| [DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19630v1) | 2025 |\n| [Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.16107) | 2024 |\n| [ClinicalAgent: Clinical Trial Multi-Agent System with Large Language Model-based Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.14777) | 2024 |\n| [PathFinder: A Multi-Modal Multi-Agent System for Medical Diagnostic Decision-Making Applied to Histopathology](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.08916) | 2025 |\n| [Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.22678) | MICCAI 2025 |\n| [LLMs Can Simulate Standardized Patients via Agent Coevolution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.11716) | 2024 |\n| [DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-Making](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02616) | 2025 |\n| [MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning](https:\u002F\u002Faclanthology.org\u002F2024.findings-acl.33\u002F) | 2024 |\n| [RAG-Enhanced Collaborative LLM Agents for Drug Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.17506) | 2025 |\n| [GMAI-VL-R1: Harnessing Reinforcement Learning for Multi-Modal Medical Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.01886) | 2025 |\n\n### 🌐 Autonomous Web Exploration & Research Agents\n\n#### Foundational agentic reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Agent Laboratory: Using LLM Agents as Research Assistants](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227) | 2025 |\n| [GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher) | 2023 |\n| [Accelerating Scientific Research Through a Multi-LLM Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07960) | 2025 |\n| [Video-Browser: Towards Agentic Open-web Video Browsing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.23044) | 2025 |\n| [InternAgent: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16938) | 2025 |\n| [WebGPT: Browser-assisted question-answering with human feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332) | 2021 |\n| [Language Models are Few-Shot Learners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165) | NeurIPS 2020 |\n| [GPT-4V(ision) is a Generalist Web Agent, if Grounded](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01614) | ICML 2024 |\n| [AutoWebGLM: A Large Language Model-based Web Navigating Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03648) | 2024 |\n| [Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07199) | 2024 |\n| [WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02337) | 2024 |\n| [WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16421) | 2025 |\n| [Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.00516) | 2024 |\n| [DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24332) | 2025 |\n| [EvolveSearch: An Iterative Self-Evolving Search Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22501) | 2025 |\n| [WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.454\u002F) | 2025 |\n| [ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.19446) | ICLR 2025 |\n| [Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13194) | 2024 |\n| [WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18798) | 2025 |\n| [ZeroSearch: Incentivize the Search Capability of LLMs Without Searching](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.04588) | 2025 |\n| [StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15107) | 2025 |\n| [How to Train Your LLM Web Agent: A Statistical Diagnosis](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.04103) | 2025 |\n| [Agent S: An Open Agentic Framework that Uses Computers Like a Human](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08164) | 2024 |\n| [InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04575) | 2025 |\n| [MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13757) | 2024 |\n| [PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14282) | 2025 |\n| [UItron: Foundational GUI Agent with Advanced Perception and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.21767) | 2025 |\n| [ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16282) | 2025 |\n| [ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14040) | 2025 |\n| [UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21620) | 2025 |\n| [GUI-R1: A Generalist R1-Style Vision-Language Action Model For GUI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.10458) | 2025 |\n| [InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.14239) | 2025 |\n| [UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.11543) | 2025 |\n| [GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.1688\u002F) | EMNLP 2025 |\n| [Learning GUI Grounding with Spatial Reasoning from Visual Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21552) | 2025 |\n| [GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.12493) | 2025 |\n| [UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.22025) | 2025 |\n| [ZeroGUI: Automating Online GUI Learning at Zero Human Cost](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.23762) | 2025 |\n| [AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01391) | 2025 |\n| [AutoGLM: Autonomous Foundation Agents for GUIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.00820) | 2024 |\n| [Mobile-Agent-v3: Fundamental Agents for GUI Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.15144) | 2025 |\n| [WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13919) | ACL 2024 |\n| [BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.10666v2) | 2025 |\n| [WALT: Web Agents that Learn Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.01524) | 2025 |\n| [WebDancer: Towards Autonomous Information Seeking Agency](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22648) | 2025 |\n| [WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.15061) | 2025 |\n| [AutoDroid: LLM-powered Task Automation in Android](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.15272) | MobiCom 2024 |\n| [MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.03913) | 2024 |\n| [AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.18603) | 2024 |\n| [OS-Copilot: Towards Generalist Computer Agents with Self-Improvement](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07456) | 2024 |\n| [OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.18963) | 2024 |\n| [OS-ATLAS: A Foundation Action Model for Generalist GUI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.23218) | 2024 |\n| [SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10935) | 2024 |\n| [Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.04644) | 2025 |\n| [Agent Laboratory: Using LLM Agents as Research Assistants](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227) | 2025 |\n| [MLR-Copilot: Autonomous Machine Learning Research based on Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.14033) | 2024 |\n| [Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03916v3) | 2025 |\n| [The AI Scientist: Fully Automated Open-Ended Scientific Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06292) | 2024 |\n| [The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08066) | 2025 |\n| [WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06501) | 2025 |\n| [WebSailor: Navigating Super-human Reasoning for Web Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02592) | 2025 |\n| [RaDA: Retrieval-augmented Web Agent Planning with LLMs](https:\u002F\u002Faclanthology.org\u002F2024.findings-acl.802\u002F) | 2024 |\n| [Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control](https:\u002F\u002Fopenreview.net\u002Fforum?id=Pc8AU1aF5e) | ICLR 2024 |\n| [LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.13805) | 2025 |\n| [Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03003v3) | 2023 |\n| [Retrieval-augmented GUI Agents with Generative Guidelines](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24183) | 2025 |\n| [WebThinker: Empowering Large Reasoning Models with Deep Research Capability](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776) | 2025 |\n| [DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03160) | 2025 |\n| [PaperQA: Retrieval-Augmented Generative Agent for Scientific Research](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07559) | 2023 |\n| [Language agents achieve superhuman synthesis of scientific knowledge](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.13740) | 2024 |\n| [Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13185) | 2024 |\n| [Scideator: Human-LLM Scientific Idea Generation Grounded in Research-Paper Facet Recombination](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.14634v5) | 2024 |\n\n#### Self-evolving agentic reasoning\n\n| Paper | Year |\n| --- | --- |\n| [Agent Workflow Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14596v6) | 2024 |\n| [BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.10666v2) | 2025 |\n| [AutoWebGLM: A Large Language Model-based Web Navigating Agent](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03648) | 2024 |\n| [AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13825) | 2024 |\n| [LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.02950) | 2025 |\n| [WebDancer: Towards Automated Web Information Seeking with Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22648) | 2025 |\n| [WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.15061) | 2025 |\n| [Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03003v3) | 2023 |\n| [MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13757) | 2024 |\n| [Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11733) | 2025 |\n| [Agent Laboratory: Using LLM Agents as Research Assistants](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227) | 2025 |\n| [GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher) | 2023 |\n| [Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13185) | 2024 |\n| [The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08066) | 2025 |\n| [Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07199) | 2024 |\n| [Reflection-Based Memory For Web navigation Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02158) | 2025 |\n| [Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13032) | 2024 |\n| [Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21072) | 2025 |\n| [WINELL: Wikipedia Never-Ending Updating with LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03728) | 2025 |\n| [WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18798) | 2025 |\n| [GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.08012) | 2025 |\n| [History-Aware Reasoning for GUI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.09127) | 2025 |\n| [MobileUse: A GUI Agent with Hierarchical Reflection for Autonomous Mobile Operation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16853) | 2025 |\n| [InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04575) | 2025 |\n| [Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11733) | 2025 |\n| [CycleResearcher: Improving Automated Research via Automated Review](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.00816) | 2024 |\n| [MLR-Copilot: Autonomous Machine Learning Research based on Large Language Model Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.14033) | 2024 |\n| [Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03916v3) | 2025 |\n| [DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03160) | 2025 |\n\n#### Collective multi-agent reasoning\n\n| Paper | Year |\n| --- | --- |\n| [WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15978) | 2024 |\n| [WINELL: Wikipedia Never-Ending Updating with LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03728) | 2025 |\n| [Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21072) | 2025 |\n| [Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13194) | 2024 |\n| [Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13032) | 2024 |\n| [Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09572) | 2025 |\n| [Agentic Web: Weaving the Next Web with AI Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21206) | 2025 |\n| [CoLA: Collaborative Low-Rank Adaptation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15471) | 2025 |\n| [Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01014) | ACL 2024 |\n| [Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11733) | 2025 |\n| [Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.17110) | 2025 |\n| [MobileExperts: Orchestrating Tool-Capable Specialists for Mobile Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.03913) | 2024 |\n| [Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.04736) | 2025 |\n| [PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14282) | 2025 |\n| [AgentRxiv: Towards Collaborative Autonomous Research](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18102) | 2025 |\n| [Accelerating Scientific Research Through a Multi-LLM Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07960) | 2025 |\n| [Large Language Models are Zero-Shot Reasoners](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916) | NeurIPS 2022 |\n| [Emergent autonomous scientific research capabilities of large language models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05332) | Nature 2023 |\n| [Toward a Team of AI-made Scientists for Scientific Discovery from Gene Expression Data](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12391) | 2024 |\n\n---\n\n## 📊 Benchmarks\n\n![bench](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_271236288dd0.png)\n\n\n### ⚙️ Core Mechanisms of Agentic Reasoning\n\n\n#### Tool Use\n\n\n##### Single-Turn Tool Use\n\n| Paper | Year |\n| --- | --- |\n| [ToolQA: A Dataset for LLM Question Answering with External Tools](https:\u002F\u002Fopenreview.net\u002Fforum?id=pV1xV2RK6I) | NeurIPS 2023 |\n| [Gorilla: Large Language Model Connected with Massive APIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15334) | 2023 |\n| [ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789) | ICLR 2024 |\n| [MetaTool: A Benchmark for Controlling Special-purpose Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03128) | ICLR 2024 |\n| [T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14033) | ACL 2024 |\n| [GTA: A Benchmark for General Tool Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08713) | NeurIPS 2024 |\n| [Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.01763) | 2025 |\n\n##### Multi-Turn Tool Use\n\n| Paper | Year |\n| --- | --- |\n| [ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05301) | 2023 |\n| [On the Tool Manipulation Capability of Open-source Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16504) | 2023 |\n| [API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs](https:\u002F\u002Faclanthology.org\u002F2023.emnlp-main.187\u002F) | EMNLP 2023 |\n| [Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.17167) | ACL 2024 |\n| [MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models](https:\u002F\u002Fopenreview.net\u002Fforum?id=6guG2OlXsr) | ICLR 2025 |\n\n#### Search\n\n\n#### Memory and Planning\n\n##### Long-Horizon Episodic Memory\n\n| Paper | Year |\n| --- | --- |\n| [PerLTQA: A Persona-based Long-term Memory Benchmark for RAG](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16288) | 2024 |\n| [ELITR-Bench: A Meeting Assistant Benchmark for Long-Context LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.20262) | 2024 |\n| [Multi-IF: A Benchmark for Multi-turn Instruction Following](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.15553) | 2024 |\n| [MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.17399v1) | 2025 |\n| [TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01341) | 2025 |\n| [StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.13356) | 2025 |\n| [MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11903) | 2025 |\n\n##### Multi-session Recall\n\n| Paper | Year |\n| --- | --- |\n| [Evaluating Very Long-Term Conversational Memory of LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17753) | 2024 |\n| [MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.20163) | 2024 |\n| [LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10813) | 2024 |\n| [REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13270) | 2025 |\n| [Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.05257) | 2025 |\n| [Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03515) | 2026 |\n| [Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20857) | 2025 |\n\n##### Planning and Feedback\n\n| Paper | Year |\n| --- | --- |\n| [ALFWorld: Aligning Text and Embodied Environments for Interactive Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.03768) | ICLR 2021 |\n| [PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10498) | NeurIPS 2022 |\n| [ACPBench: Reasoning about Action, Change, and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05669) | 2024 |\n| [Text2World: Benchmarking Large Language Models for Symbolic World Model Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13092) | ACL 2025 |\n| [REALM-Bench: A Benchmark for Evaluating Multi-Agent Systems on Real-world, Dynamic Planning and Scheduling Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18836) | 2025 |\n| [TravelPlanner: A Benchmark for Real-World Planning with Language Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01622) | ICML 2024 |\n| [FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14884) | 2024 |\n| [UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21027) | 2025 |\n\n#### Multi-Agent System\n\n##### Game-based reinforcement learning evaluation\n\n| Paper | Year |\n| --- | --- |\n| [MAgent: A Many-Agent Reinforcement Learning Platform for Artificial Collective Intelligence](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.00600) | AAAI 2018 |\n| [Pommerman: A Multi-Agent Playground](https:\u002F\u002Farxiv.org\u002Fabs\u002F1809.07124) | 2018 |\n| [The StarCraft Multi-Agent Challenge](https:\u002F\u002Farxiv.org\u002Fabs\u002F1902.04043) | NeurIPS 2019 |\n| [MineLand: Simulating Large-Scale Multi-Agent Interactions with Limited Multimodal Senses and Physical Needs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.19267) | 2024 |\n| [TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.05255) | 2024 |\n| [Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.06857) | ICML 2021 |\n| [BenchMARL: Benchmarking Multi-Agent Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.01472) | 2023 |\n| [Arena: A General Evaluation Platform and Building Toolkit for Multi-Agent Intelligence](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.08085) | AAAI 2020 |\n\n#### Simulation-centric real-world assessment\n\n| Paper | Year |\n| --- | --- |\n| [SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.09776) | CoRL 2020 |\n| [Nocturne: a scalable driving benchmark for bringing multi-agent learning one step closer to the real world](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.09889) | NeurIPS 2022 |\n| [A Versatile Multi-Agent Reinforcement Learning Benchmark for Inventory Management](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07542) | 2023 |\n| [IMP-MARL: a Suite of Environments for Infrastructure Management Planning with Multi-Agent Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11551) | NeurIPS 2023 |\n| [POGEMA: Partially Observable Grid Environment for Multiple Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10944) | Arxiv 2022 |\n| [IntersectionZoo: Eco-driving for Benchmarking Multi-Agent Contextual Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.15221) | NeurIPS 2024 |\n| [REALM-Bench: A Benchmark for Evaluating Multi-Agent Systems on Real-world, Dynamic Planning and Scheduling Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18836v2) | 2025 |\n\n#### Language, Communication, and Social Reasoning\n\n| Paper | Year |\n| --- | --- |\n| [LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03903) | 2023 |\n| [AvalonBench: Evaluating LLMs Playing the Game of Avalon](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.05036) | 2023 |\n| [Welfare Diplomacy: Benchmarking Language Model Cooperation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08901) | 2023 |\n| [MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.08562) | \tEMNLP 2024 |\n| [BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15971) | 2024 |\n| [COMMA: A Benchmark for Inter-Agent Communication in Multi-Agent Systems](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.07553) | 2024 |\n| [IntellAgent: A Benchmark for Evaluating Conversational Agents in Realistic Scenarios](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11067v1) | 2025 |\n| [MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.01935) | 2025 |\n\n\n\n\n\n### 🎯 Applications of Agentic Reasoning\n\n\n\n#### Embodied Agents\n\n| Paper | Year |\n| --- | --- |\n| [Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24876) | 2025 |\n| [BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.13543) | NeurIPS 2024 |\n| [ALFWorld: Aligning Text and Embodied Environments for Interactive Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.03768) | ICLR 2021 |\n| [Understanding the Weakness of Large Language Model Agents within a Complex Android Environment](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.06596) | 2024 |\n| [MindAgent: Emergent Gaming Interaction](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.09971) | 2023 |\n| [Playing repeated games with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16867) | 2023 |\n| [OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972) | NeurIPS 2024 |\n\n\n\n#### Scientific Discovery Agents\n\n| Paper | Year |\n| --- | --- |\n| [DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06769) | NeurIPS 2024 |\n| [ScienceWorld: Is your Agent Smarter than a 5th Grader?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07540) | EMNLP 2022 |\n| [ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05080) | NeurIPS 2024 |\n| [The AI Scientist: Fully Automated Open-Ended Scientific Discovery](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06292) | 2024 |\n| [LAB-Bench: Measuring Capabilities of Language Models for Biology Research](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10362) | 2024 |\n| [MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03302) | 2023 |\n\n\n\n#### Autonomous Research Agents\n\n| Paper | Year |\n| --- | --- |\n| [WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07718) | ICML 2024 |\n| [WorkArena++: Towards Agents that Act Like Employees](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05291) | 2024 |\n| [OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.19056) | 2024 |\n| [PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10498) | NeurIPS 2022 |\n| [FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14884) | 2024 |\n| [ACPBench: Reasoning about Action, Change, and Planning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05669) | 2024 |\n| [TRAIL: Trace Reasoning and Agentic Issue Localization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08638) | 2025 |\n| [CLIN: A Continually Learning Language Agent for Rapid Task Adaptation and Generalization](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10134) | NeurIPS 2023 |\n| [Agent-as-a-Judge: Evaluate Agents with Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10934) | 2024 |\n| [InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15872) | 2025 |\n\n\n\n#### Medical and Clinical Agents\n\n| Paper | Year |\n| --- | --- |\n| [AgentClinic: a multimodal agent benchmark for clinical environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.07960) | NeurIPS 2024 |\n| [MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents](https:\u002F\u002Fwww.researchgate.net\u002Fpublication\u002F395098333_MedAgentBench_A_Virtual_EHR_Environment_to_Benchmark_Medical_LLM_Agents) | NEJM AI 2025 |\n| [EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07128) | 2024 |\n| [MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10537) | 2023 |\n| [GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.09187) | 2024 |\n\n\n\n#### Web Agents\n\n| Paper | Year |\n| --- | --- |\n| [WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01206) | NeurIPS 2022 |\n| [WebArena: A Realistic Web Environment for Building Autonomous Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13854) | ICLR 2024 |\n| [OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972) | NeurIPS 2024 |\n| [AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.18901) | ACL 2024 |\n| [WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks?](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07718) | 2024 |\n| [VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13649) | NeurIPS 2024 |\n| [WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13919) | ACL 2024 |\n| [Mind2Web: Towards a Generalist Agent for the Web](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06070) | NeurIPS 2023 |\n| [Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21506) | 2025 |\n| [WebCanvas: Benchmarking Web Agents in Online Canvas](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.12373) | NeurIPS 2024 |\n| [Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.07473) | 2025 |\n| [VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2404.05955) | 2024 |\n| [WebLINX: Real-World Website Navigation with Multi-Turn Dialogue](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05930) | CVPR 2024 |\n| [LASER: LLM Agent with State-Space Exploration for Web Navigation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.08172) | NeurIPS 2023 |\n| [AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Agent for Automated Web Navigation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03648) | 2024 |\n| [OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17553) | 2024 |\n| [BEARCUBS: A benchmark for computer-using web agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07919) | 2025 |\n| [BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.12516) | 2025 |\n| [BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2504.19314) | 2025 |\n| [Video-Browser: Towards Agentic Open-web Video Browsing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.23044) | 2025 |\n\n\n#### General Tool-Use Agents\n\n| Paper | Year |\n| --- | --- |\n| [GTA: A Benchmark for General Tool Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08713) | NeurIPS 2024 |\n| [NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.03797) | 2024 |\n| [Executable Code Actions Elicit Better LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01030) | ICML 2024 |\n| [RestGPT: Connecting Large Language Models with Real-World RESTful APIs](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624) | 2023 |\n| [Search-o1: Agentic Search-Enhanced Large Reasoning Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) | 2025 |\n| [Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.01441) | 2025 |\n| [ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04046) | 2024 |\n| [R-Judge: Benchmarking Safety-Critical Decision Making for LLM Agents](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10019) | 2024 |\n\n\n## License\n\nThis repository is licensed under the MIT License.\n\n---\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_0b05e4dcfc57.png)](https:\u002F\u002Fstar-history.com\u002F#weitianxin\u002FAwesome-Agentic-Reasoning&Date)\n","# 令人惊叹的代理推理论文\n\n[![Awesome](https:\u002F\u002Fawesome.re\u002Fbadge.svg)](https:\u002F\u002Fawesome.re)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2601.12538-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.12538)\n[![Coverage](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCoverage-View%20Post-1DA1F2?logo=x&logoColor=white)](https:\u002F\u002Fx.com\u002Fwei_tianxin\u002Fstatus\u002F2014133714976985538)\n[![Hugging Face #1 Paper of the Day](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHuggingFace-%231%20Paper%20of%20the%20Day-FFD21E?logo=huggingface&logoColor=black)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2601.12538)\n\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n[![Contributions Welcome](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FContributions-Welcome-brightgreen.svg)](https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning\u002Fblob\u002Fmain\u002FCONTRIBUTING.md)\n![Last Commit](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flast-commit\u002Fweitianxin\u002FAwesome-Agentic-Reasoning)\n![Visitors](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_c908271216ef.png)\n\n本仓库按主题领域整理了将推理与行动相结合的研究，包括规划、工具使用、搜索、通过记忆和反馈实现自我进化、多智能体系统以及现实世界的应用和基准测试。\n\n> 📄 **基于该综述**：*[大型语言模型中的代理推理：综述](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.12538)*\n\n![框架概览](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_61d69ad79558.png)\n\n## 🔔 新闻\n**[03\u002F09\u002F26]** 📊 [幻灯片](materials\u002FAgentic%20Reasoning%20Survey%20Talk.pdf)现已发布，旨在更清晰地概述该综述并突出关键见解。我们将继续更新论文以进一步完善内容。\n\n**[01\u002F21\u002F26]** 🚀 我们发布了关于***大型语言模型中的代理推理***的全面综述！该论文现已在 [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.12538) 和 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2601.12538) 上线。我们欢迎社区贡献，帮助扩展和改进我们的综述 🤗！\n\n## 📋 目录\n- [🔔 新闻](#-news)\n- [📋 目录](#-table-of-contents)\n- [🌟 引言](#-introduction)\n- [🤝 贡献](#-contributing)\n- [📝 引用](#-citation)\n- [🏗️ 基础代理推理](#%EF%B8%8F-foundational-agentic-reasoning)\n  - [🗺️ 规划推理](#%EF%B8%8F-planning-reasoning)\n  - [🛠️ 工具使用优化](#%EF%B8%8F-tool-use-optimization)\n  - [🔍 代理搜索](#-agentic-search)\n- [🧬 自我进化型代理推理](#-self-evolving-agentic-reasoning)\n  - [🔄 代理反馈机制](#-agentic-feedback-mechanisms)\n  - [🧠 代理记忆](#-agentic-memory)\n  - [🚀 演进的基础代理能力](#-evolving-foundational-agentic-capabilities)\n- [👥 集体多智能体推理](#-collective-multi-agent-reasoning)\n  - [🎭 多智能体系统的角色分类](#-role-taxonomy-of-multi-agent-systems-mas)\n  - [🤝 协作与分工](#-collaboration-and-division-of-labor)\n  - [🌱 多智能体记忆与进化](#-multi-agent-memory-and-evolution)\n- [🎨 应用](#-applications)\n  - [💻 数学探索与编码助手](#-math-exploration--vibe-coding-agents)\n  - [🔬 科学发现助手](#-scientific-discovery-agents)\n  - [🤖 具身智能体](#-embodied-agents)\n  - [🏥 医疗健康助手](#-healthcare--medicine-agents)\n  - [🌐 自主网络探索与研究助手](#-autonomous-web-exploration--research-agents)\n- [📊 基准测试](#-benchmarks)\n  - [⚙️ 代理推理的核心机制](#-core-mechanisms-of-agentic-reasoning)\n    - [工具使用](#tool-use)\n    - [搜索](#search)\n    - [记忆与规划](#memory-and-planning)\n    - [多智能体系统](#multi-agent-system)\n  - [🎯 代理推理的应用](#-applications-of-agentic-reasoning)\n    - [具身智能体](#embodied-agents-1)\n    - [科学发现助手](#scientific-discovery-agents-1)\n    - [自主研究助手](#autonomous-research-agents)\n    - [医疗临床助手](#medical-and-clinical-agents)\n    - [网络助手](#web-agents)\n    - [通用工具使用助手](#general-tool-use-agents)\n\n---\n\n## 🌟 引言\n\n通过能够推理、行动并在与环境持续交互中学习的自主智能体，架起思维与行动之间的桥梁。目标是通过将推理植根于行动来提升智能体的能力。\n\n我们将代理推理分为三层，每一层对应不同*环境动态*下的独特推理范式：\n\n🔹 **基础推理。** 在环境中具备的核心单智能体能力（规划、工具使用、搜索）\n\n🔹 **自我进化推理。** 在动态环境中通过反馈、记忆和学习进行适应\n\n🔹 **集体推理。** 多智能体协调、角色专业化和协作智能\n\n在这几层之间，我们进一步识别出由其*优化设置*所定义的互补性推理范式。\n\n🔸 **情境内推理。** 通过结构化编排和自适应工作流实现在测试时的扩展\n\n🔸 **训练后推理。** 通过强化学习和监督微调优化行为\n\n\n## 🤝 贡献\n本合集是一项持续进行的工作。我们正在积极扩展和精炼其覆盖范围，并欢迎社区的贡献。您可以：\n\n- 提交拉取请求以添加论文或资源\n- 开启议题以建议更多论文或资源\n- 发送邮件至 twei10@illinois.edu, twli@illinois.edu, liu326@illinois.edu\n\n我们会定期更新仓库，纳入有关代理推理的新研究成果。\n\n\n## 📝 引用\n\n如果您觉得本仓库或论文有用，请考虑引用该综述论文：\n\n```bibtex\n@article{wei2026agentic,\n  title={Agentic Reasoning for Large Language Models},\n  author={Wei, Tianxin and Li, Ting-Wei and Liu, Zhining and Ning, Xuying and Yang, Ze and Zou, Jiaru and Zeng, Zhichen and Qiu, Ruizhong and Lin, Xiao and Fu, Dongqi and others},\n  journal={arXiv preprint arXiv:2601.12538},\n  year={2026}\n}\n```\n\n\n---\n\n## 🏗️ 基础代理推理\n\n### 🗺️ 规划推理\n\n![计划](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_9b9d8b7e0048.png)\n\n\n#### 情境内规划\n\n##### 工作流设计\n\n| 论文 | 年份 |\n| --- | --- |\n| [LLM+P：以最优规划能力赋能大型语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.11477) | 2023 |\n| [PlanBench：用于评估大型语言模型在规划与变化推理方面表现的可扩展基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10498) | NeurIPS 2023 DB Track |\n| [ReWOO：为高效增强型语言模型解耦推理与观测](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18323) | 2023 |\n| [LLM Reasoners：基于大型语言模型的分步推理的新评估、库及分析](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.05221) | 2024 |\n| [从少到多提示法使大型语言模型具备复杂推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.10625) | ICLR 2023 |\n| [计划-求解提示法：提升大型语言模型零样本链式思维推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04091) | ACL 2023 |\n| [思维算法：增强大型语言模型中的创意探索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.10379) | ICML 2024 |\n| [HuggingGPT：借助ChatGPT及其在Hugging Face中的伙伴解决AI任务](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580) | 2023 |\n| [计划、消除与追踪——语言模型是具身智能体的好老师](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02412) | 2023 |\n| [PERIA：通过整合的语言与视觉规划进行感知、推理、想象与操作](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F1f6af963e891e7efa229c24a1607fa7f-Abstract-Conference.html) | 2024 |\n| [计划-行动：改进智能体针对长 horizon 任务的规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09572) | 2025 |\n| [CodePlan：利用LLM与规划进行仓库级编码](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.12499) | FSE 2024 |\n| [ReAct：在语言模型中协同推理与行动](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [Mind2Web：迈向通用型网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06070) | NeurIPS 2023 |\n| [WILBUR：面向稳健且精准的网络智能体的自适应上下文学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.05902) | 2024 |\n| [可执行代码动作能引出更优秀的LLM智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01030) | ICML 2024 |\n| [Gorilla：连接海量API的大规模语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15334) | 2023 |\n| [Reflexion：具有言语强化学习的语言智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | 2023 |\n| [CodeNav：超越工具使用，利用真实世界代码库的LLM智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.12276) | ACL 2024 |\n| [MARCO：结合实时知识集成的多智能体代码优化系统，用于高性能计算](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03906) | 2025 |\n| [通过多路径协作式反应与反思智能体增强LLM推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.00430) | 2025 |\n| [Pre-Act：多步规划与推理提升LLM智能体的行动能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.09970) | 2025 |\n| [REST遇见ReAct：多步推理LLM智能体的自我改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10003) | 2023 |\n| [大型语言模型的预行动计划式代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.06689) | TOSEM 2023 |\n| [LM-Nav：基于大规模预训练语言、视觉和动作模型的机器人导航](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.04429) | CoRL 2022 |\n\n##### 树搜索 \u002F 算法模拟\n\n| 论文 | 年份 |\n| --- | --- |\n| [思维之树：利用大型语言模型进行审慎的问题解决](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601) | NeurIPS 2023 |\n| [语言模型智能体的树搜索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.01476) | 2024 |\n| [Tree-Planner：利用大型语言模型进行高效规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08582) | ICLR 2024 |\n| [Q*：通过审慎规划提升LLM的多步推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14283) | 2024 |\n| [LLM-A*：大型语言模型增强的增量启发式搜索应用于路径规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.02511v2) | 2024 |\n| [语言模型中的多模态链式思维推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.00923) | 2023 |\n| [利用语言模型进行推理即是在构建世界模型的基础上进行规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992) | NeurIPS 2023 |\n| [Agent Q：面向自主AI智能体的高级推理与学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07199) | 2024 |\n| [蒙特卡洛树搜索通过迭代偏好学习提升推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.00451) | 2024 |\n| [基于提示的蒙特卡洛树搜索用于目标导向对话策略规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.13660) | 2023 |\n| [大型语言模型作为工具制造者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17126) | ICLR 2024 |\n| [万物之思：违背彭罗斯三角定律进行思想生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.04254) | 2023 |\n| [类似AlphaZero的树搜索可以指导大型语言模型的解码与训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17179) | 2023 |\n| [拓宽你的SCOPE！利用语义空间为LLM进行高效的多轮对话规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11586) | 2025 |\n| [自我评估引导的束搜索用于推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.00633) | NeurIPS 2023 |\n| [PathFinder：多模态多智能体医疗诊断框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.08916) | 2025 |\n| [判别器引导的具身规划用于LLM智能体](https:\u002F\u002Fopenreview.net\u002Fforum?id=TjP1d8PP8l) | ICLR 2025 |\n| [搜索流（SoS）：在语言中学习搜索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03683) | 2024 |\n| [System-1.x：学习用语言模型平衡快速与慢速规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.14414) | 2024 |\n| [Agent-E：从自主网络导航到智能体系统的基础设计原则](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13032) | 2024 |\n| [基于LLM的流程自动化智能虚拟助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.06677) | 2023 |\n| [Agent S：一个像人类一样使用计算机的开放智能体框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08164) | 2024 |\n| [超树规划：通过层次化思维提升LLM推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02322) | 2025 |\n| [代码之树：用于复杂任务处理中端到端代码生成与执行的树状探索框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15305) | ACL 2025 |\n| [通过全局规划与层级执行增强基于LLM的智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16563) | 2025 |\n| [分而治之：通过离线层级强化学习将LLM固化为高效的决策智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19761) | 2025 |\n| [SWE-Search：利用蒙特卡洛树搜索与迭代精炼提升软件智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.20285) | ICLR 2025 |\n| [BTGenBot：用轻量级LLM为机器人任务生成行为树](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.12761) | 2024 |\n| [言行一致：将语言与机器人可用性相结合](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691) | CoRL 2022 |\n| [内心独白：通过语言模型规划实现具身推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.05608) | CoRL 2022 |\n\n##### 流程形式化\n\n| 论文 | 年份 |\n| --- | --- |\n| [利用预训练大型语言模型构建并使用世界模型进行基于模型的任务规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14909) | NeurIPS 2023 |\n| [利用环境交互实现大型语言模型的自动化PDDL翻译与规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.12979) | NeurIPS 2024 |\n| [搜索之思：以效率为导向的语言模型规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.11833) | NeurIPS 2024 |\n| [CodePlan：基于LLM和规划的仓库级编码](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.12499) | FSE 2024 |\n| [严谨地规划任何事情：基于LLM的形式化编程的通用零样本规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12112) | 2024 |\n| [从LLM集群到PDDL赋能的蜂巢：在多模态丛林中规划自我执行的指令](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.12839) | 2024 |\n\n##### 解耦 \u002F 分解\n\n| 论文 | 年份 |\n| --- | --- |\n| [ReWOO：为高效增强型语言模型将推理与观测解耦](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18323) | NeurIPS 2023 |\n| [DiffuserLite：迈向实时扩散规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15443) | 2024 |\n| [基于子目标模型的目标空间规划](https:\u002F\u002Fwww.jmlr.org\u002Fpapers\u002Fvolume25\u002F24-0040\u002F24-0040.pdf) | JMLR 2024 |\n| [多智能体系统中的面向智能体规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02189) | 2024 |\n| [GoPlan：通过学习模型进行规划的条件式离线强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.20025) | 2023 |\n| [RetroInText：一种多模态大型语言模型增强框架，通过上下文内表示学习进行逆合成规划](https:\u002F\u002Fopenreview.net\u002Fforum?id=J6e4hurEKd) | ICLR 2025 |\n| [HyperTree规划：通过层次化思维提升LLM推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02322) | 2025 |\n| [VisualPredicator：利用神经符号谓词学习抽象世界模型用于机器人规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.23156) | 2024 |\n| [超越自回归：用于复杂推理的离散扩散](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14157) | 2024 |\n| [PlanAgent：用于车辆运动规划的多模态大型语言代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01587) | 2024 |\n| [LLaMAR：部分可观测环境中多智能体机器人的长 horizon 规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10031) | 2024 |\n\n##### 外部辅助 \u002F 工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [Plan-on-Graph：知识图谱上的自纠正自适应规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.23875) | NeurIPS 2024 |\n| [结合知识图谱-RAG和符号验证的复杂任务分层规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.04578) | 2025 |\n| [TeLoGraF：基于图编码的流匹配的时间逻辑规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.00562) | 2025 |\n| [FlexPlanner：通过混合动作空间中的深度强化学习及多模态表征进行灵活的3D平面布局规划](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F585e9cf25585612ac27b535457116513-Abstract-Conference.html) | NeurIPS 2024 |\n| [探索性检索增强规划用于持续的具身指令遵循](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.08222) | NeurIPS 2024 |\n| [使用动态VQA数据集和自适应规划代理对多模态检索增强生成进行基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02937) | 2024 |\n| [表格上的RAG：层次化内存索引、多阶段检索与基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.01346) | 2025 |\n| [用语言模型推理就是用世界模型进行规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14992) | NeurIPS 2023 |\n| [利用预训练大型语言模型构建并使用世界模型进行基于模型的任务规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14909) | NeurIPS 2023 |\n| [基于世界知识模型的智能体规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14205) | NeurIPS 2024 |\n| [BehaviorGPT：用于自动驾驶的智能代理模拟，具备下一补丁预测功能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.17372) | NeurIPS 2024 |\n| [DINO-WM：基于预训练视觉特征的世界模型实现零样本规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04983) | 2024 |\n| [FLIP：以流动为中心的生成式规划作为通用操作世界模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.08261) | 2024 |\n| [通过在线世界模型进行规划的持续强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.09177) | 2025 |\n| [AdaWM：基于自适应世界模型的自动驾驶规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13072) | 2025 |\n| [HuggingGPT：利用ChatGPT及其在Hugging Face中的伙伴解决AI任务](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17580) | 2023 |\n| [Tool-Planner：跨多个工具的集群任务规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.03807) | 2024 |\n| [RetroInText：一种多模态大型语言模型增强框架，通过上下文内表示学习进行逆合成规划](https:\u002F\u002Fopenreview.net\u002Fforum?id=J6e4hurEKd) | ICLR 2025 |\n\n#### 训练后规划\n\n| 论文 | 年份 |\n| --- | --- |\n| [Reflexion：具有口头强化学习能力的语言代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [反思后再规划：通过双重贝叶斯视角进行离线基于模型的规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.06261) | 2025 |\n| [具有内化效用判断的理性决策代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.12519) | 2023 |\n| [通过自动奖励建模扩展自主代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.12130) | 2025 |\n| [战略规划：自上而下的选项生成方法](https:\u002F\u002Fopenreview.net\u002Fforum?id=xkgQWEj9F2&noteId=mt0BbGT077) | 2025 |\n| [用于推理和规划的语言模型的非近视生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.17195) | 2024 |\n| [受物理启发的时间差度量学习用于机器人运动规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.05691) | 2025 |\n| [通过算子学习实现可推广的运动规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.17547) | 2024 |\n| [ToolOrchestra：通过高效的模型和工具编排提升智能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.21689) | 2025 |\n| [用于模仿学习的潜在扩散规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16925) | 2025 |\n| [SafeDiffuser：使用扩散概率模型的安全规划](https:\u002F\u002Fopenreview.net\u002Fforum?id=ig2wk7kK9J) | ICLR 2023 |\n| [ContraDiff：通过对比学习规划通往高回报状态](https:\u002F\u002Fopenreview.net\u002Fforum?id=XMOaOigOQo) | ICLR 2025 |\n| [大规模Transformer的摊销式规划：以国际象棋为例](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.04494) | NeurIPS 2024 |\n| [GOPlan：通过学习模型进行规划的条件式离线强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.20025) | 2023 |\n| [没有计划的目标只是愿望：高效有效的全局规划器训练用于长 horizon 智能体任务](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05608) | 2025 |\n\n\n\n\n### 🛠️ 工具使用优化\n\n![tool](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_c53cf90172cb.png)\n\n\n#### 上下文内工具集成\n\n##### 交织推理与工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [思维链提示在大型语言模型中激发推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903) | NeurIPS 2022 |\n| [ChatCoT：基于聊天的大型语言模型上的工具增强型思维链推理](https:\u002F\u002Faclanthology.org\u002F2023.findings-emnlp.985\u002F) | EMNLP 2023 |\n| [MultiTool-CoT：GPT-3 可通过思维链提示使用多种外部工具](https:\u002F\u002Faclanthology.org\u002F2023.acl-short.130\u002F) | ACL 2023 |\n| [面向知识密集型多步问题的检索与思维链推理交织方法](https:\u002F\u002Faclanthology.org\u002F2023.acl-long.557\u002F) | ACL 2023 |\n| [ReAct：在语言模型中实现推理与行动的协同](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [迈向 PDDL 规划辅助工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.12987) | 2025 |\n| [ART：大型语言模型的自动多步推理与工具使用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.09014) | 2023 |\n\n##### 针对工具交互优化上下文\n\n| 论文 | 年份 |\n| --- | --- |\n| [工具文档使大型语言模型实现零样本工具使用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.00675) | 2023 |\n| [EASYTOOL：以简洁的工具指令增强基于 LLM 的智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06201) | NAACL 2025 |\n| [GEAR：用通用且高效的工具解析能力增强语言模型](https:\u002F\u002Faclanthology.org\u002F2024.eacl-long.7\u002F) | EACL 2024 |\n| [AvaTaR：通过对比推理优化 LLM 智能体的工具使用](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F2db8ce969b000fe0b3fb172490c33ce8-Abstract-Conference.html) | NeurIPS 2024 |\n\n\n#### 微调后的工具集成\n\n\n##### 通过 SFT 引导工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [Toolformer：语言模型可自我学习使用工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761) | NeurIPS 2023 |\n| [ToolLLM：助力大型语言模型掌握超过 16000 个真实世界 API](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789) | ICLR 2024 |\n| [ToolAlpaca：基于 3000 个模拟案例的语言模型通用工具学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05301) | 2023 |\n| [Chameleon：利用大型语言模型实现即插即用的组合式推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.09842) | NeurIPS 2023 |\n| [RestGPT：将大型语言模型与现实世界的 RESTful API 相连](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624) | 2023 |\n| [ADaPT：按需分解与规划的语言模型应用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05772) | 2023 |\n| [Agent Lumos：开源语言智能体的统一模块化训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.05657) | 2023 |\n| [通过协作与交互式智能体学习工具使用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03031) | 2024 |\n| [理解 RLHF 对 LLM 泛化能力和多样性的影响](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.06452) | 2023 |\n| [在大型语言模型的监督微调中保持多样性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.16673) | 2024 |\n| [大型语言模型的属性控制微调：以去毒为例](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05559) | EMNLP 2024 |\n| [Transformer Copilot：从 LLM 微调中的错误日志中学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16270) | 2025 |\n| [iTool：针对高级工具使用的动态缺陷校准强化微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.09766v5) | 2025 |\n| [START：自教式工具推理者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.04625) | 2025 |\n\n\n##### 通过 RL 掌握工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [面向代码库深度搜索的工具集成强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03012) | ICSE 2026 |\n| [SoRFT：以子任务导向的强化微调解决问题](https:\u002F\u002Faclanthology.org\u002F2025.acl-long.559\u002F) | ACL 2025 |\n| [SWE-RL：通过开放软件演进中的强化学习推进 LLM 推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18449) | 2025 |\n| [SWE-Search：借助蒙特卡洛树搜索和迭代精炼提升软件智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.20285) | 2024 |\n| [ToolRL：奖励是工具学习所需的全部](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.13958) | 2025 |\n| [RLVMR：采用可验证元推理奖励的强化学习，用于构建稳健的长时程智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.22844) | 2025 |\n| [Search-R1：通过强化学习训练 LLM 进行推理并利用搜索引擎](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09516) | 2025 |\n| [AutoTool：面向代理式推理的动态工具选择与集成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.13278) | 2025 |\n| [ReSearch：通过强化学习让 LLM 学习利用搜索进行推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19470) | 2025 |\n| [代理式强化策略优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.19849) | 2025 |\n| [代理式熵平衡策略优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.14545) | 2025 |\n| [Tool-Star：通过强化学习赋能 LLM 大脑的多工具推理者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16410) | 2025 |\n| [DeepAgent：具有可扩展工具集的通用推理智能体](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.216180) | 2025 |\n| [通过自我演化偏好学习实现有效工具集成推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.23285) | 2025 |\n| [揭秘代理式推理中的强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.11701) | 2025 |\n| [强化预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.08007) | 2025 |\n| [ReTool：面向 LLM 的战略工具使用强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.11536) | 2025 |\n| [ZeroSearch：在不进行搜索的情况下激励 LLM 的搜索能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.04588) | 2025 |\n| [Kimi k1.5：与 LLM 结合的规模化强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.12599) | 2025 |\n| [Gemini 2.5：以先进推理和下一代代理能力推动前沿发展](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06261) | 2025 |\n| [Kimi k2：开放的代理智能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.20534) | 2025 |\n| [GLM-4.5：代理、推理和编码（ARC）基础模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.06471) | 2025 |\n| [学习如何使用工具，而不仅仅是何时使用：模式感知的工具集成推理](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.23292) | 2025 |\n| [SCRIBE：面向工具使用语言模型的结构化中级监督](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2601.03555) | 2026 |\n| [TaTToo：面向表格推理的测试时缩放工具基思考 PRM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.06217) | 2025 |\n\n#### 基于编排的工具集成\n\n##### 用于工具编排的代理式流水线\n\n| 论文 | 年份 |\n| --- | --- |\n| [ToolPlanner: 一种用于多粒度指令、路径规划与反馈的工具增强型大语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.14826) | 2025 |\n| [通过元验证和反思学习推进工具增强型大语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.04625) | KDD 2025 |\n| [OctoTools: 一个具有可扩展工具的智能体框架，用于复杂推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11271) | 2025 |\n| [工具链：在冻结语言模型的思维链推理中利用大量未见过的工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.16779) | 2025 |\n| [PyVision: 具有动态工具的智能体视觉](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.07998) | 2025 |\n| [通过协作与交互式智能体学习使用工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03031) | 2024 |\n| [El Agente: 一个用于量子化学的自主智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.02484) | 2025 |\n\n##### 用于编排的工具表示\n\n| 论文 | 年份 |\n| --- | --- |\n| [ToolExpNet: 利用相似性和依赖性感知的经验网络优化大语言模型中的多工具选择](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.811\u002F) | ACL (Findings) 2025 |\n| [T^2Agent: 一种基于蒙特卡洛树搜索的工具增强型多模态虚假信息检测智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19768) | 2025 |\n| [ToolChain*: 利用A*搜索在大语言模型中高效导航行动空间](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.13227) | 2023 |\n| [ToolRerank: 面向工具检索的自适应且层次感知的重新排序](https:\u002F\u002Faclanthology.org\u002F2024.lrec-main.1413\u002F) | COLING 2024 |\n\n\n\n### 🔍 智能体搜索\n\n![search](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_b46f01048029.png)\n\n\n#### 上下文内搜索\n\n##### 推理与搜索的交织\n\n| 论文 | 年份 |\n| --- | --- |\n| [ReAct: 在语言模型中协同推理与行动](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [衡量并缩小语言模型中的组合性差距](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03350) | 2022 |\n| [将检索与思维链推理交织用于知识密集型多步问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10509) | 2022 |\n| [Self-RAG: 通过自我反思学习检索、生成和批判](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11511) | NeurIPS Workshop 2023 |\n| [使用动态VQA数据集和自适应规划智能体对多模态检索增强生成进行基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02937) | 2024 |\n| [DeepRAG: 针对大语言模型逐步思考以进行检索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.01142) | 2025 |\n| [MC-Search: 使用结构化推理链对多模态智能体RAG进行基准测试](https:\u002F\u002Fopenreview.net\u002Fforum?id=S2zaYgT7Ic) | NeurIPS Workshop 2025 |\n\n##### 结构增强型搜索\n\n| 论文 | 年份 |\n| --- | --- |\n| [Agent-G: 一个用于图检索增强生成的智能体框架](https:\u002F\u002Fopenreview.net\u002Fforum?id=g2C947jjjQ) | 2025 |\n| [MC-Search: 使用结构化推理链对多模态智能体RAG进行基准测试](https:\u002F\u002Fopenreview.net\u002Fforum?id=S2zaYgT7Ic) | NeurIPS Workshop 2025 |\n| [GeAR: 用于检索增强生成的图增强型智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.18431) | 2024 |\n| [通过主动自我反思学习在知识图上进行检索和推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14932) | 2025 |\n\n#### 后训练搜索\n\n\n##### 基于SFT的智能体搜索\n\n| 论文 | 年份 |\n| --- | --- |\n| [Toolformer: 语言模型可以自我教授如何使用工具](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2023\u002Ffile\u002Fd842425e4bf79ba039352da0f658a906-Paper-Conference.pdf) | NeurIPS 2023 |\n| [INTERS: 通过指令微调释放大型语言模型在搜索中的潜力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.06532) | 2024 |\n| [RAG-Studio: 通过自我对齐实现检索增强生成的域内适配](https:\u002F\u002Faclanthology.org\u002F2024.findings-emnlp.41\u002F) | EMNLP (Findings) 2024 |\n| [RAFT: 将语言模型适配到特定领域的RAG](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.10131) | 2024 |\n| [Search-o1: 智能体搜索增强型大型推理模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) | 2025 |\n| [RA-DIT: 检索增强型双重指令微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.01352) | ICLR 2023 |\n| [SFR-RAG: 朝着上下文忠实的大语言模型迈进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.09916) | 2024 |\n\n##### 基于RL的智能体搜索\n\n| 论文 | 年份 |\n| --- | --- |\n| [WebGPT: 基于浏览器辅助的人工反馈问答系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332) | 2021 |\n| [RAG-RL: 通过强化学习和课程学习推进检索增强生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.12759) | 2025 |\n| [Search-R1: 通过强化学习训练大语言模型进行推理并利用搜索引擎](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09516) | 2025 |\n| [KBQA-R1: 对大型语言模型进行强化，用于知识库问答](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.10999) | 2025 |\n| [DeepResearcher: 通过强化学习在真实环境中扩展深度研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03160) | 2025 |\n| [ReSearch: 通过强化学习让大语言模型学会结合搜索进行推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.19470) | 2025 |\n| [ReARTeR: 检索增强型推理，采用值得信赖的过程奖励](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07861) | 2025 |\n\n---\n\n## 🧬 自我演化的智能体推理\n\n### 🔄 智能体反馈机制\n\n![feed](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_58dff45730d4.png)\n\n\n#### 反思式反馈\n\n| 论文 | 年份 |\n| --- | --- |\n| [Reflexion：具有语言型强化学习的智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Self-Refine：基于自我反馈的迭代优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [使语言模型能够从数据中隐式学习自我改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00898) | ICLR 2024 |\n| [自进化智能体综述：何时、何地、如何以及为何进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21046) | TMLR 2025 |\n| [思维之树：利用大型语言模型进行深思熟虑的问题解决](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601) | NeurIPS 2023 |\n| [思维图谱：利用大型语言模型解决复杂问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.09687) | AAAI 2024 |\n| [零样本验证引导的思维链](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13122) | 2025 |\n| [ReAct：在语言模型中协同推理与行动](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03629) | ICLR 2023 |\n| [WebGPT：基于浏览器的人工反馈问答系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332) | 2021 |\n| [MemGPT：迈向将LLM用作操作系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08560) | 2023 |\n| [Voyager：一个基于大型语言模型的开放式具身智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291) | 2023 |\n\n#### 参数化适应\n\n| 论文 | 年份 |\n| --- | --- |\n| [AgentTuning：为LLM赋予通用智能体能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.12823) | 2023 |\n| [ReST遇见ReAct：用于多步推理LLM智能体的自我改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.10003) | 2023 |\n| [Re-ReST：面向语言智能体的反思强化自我训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01495) | 2024 |\n| [逐级提炼！以更少的训练数据和更小的模型规模超越更大的语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.02301) | 2023 |\n| [基于人类偏好的深度强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03741) | NeurIPS 2017 |\n| [直接偏好优化：你的语言模型其实是一个奖励模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.18290) | NeurIPS 2023 |\n| [宪法式AI：通过AI反馈确保无害性](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.08073) | 2022 |\n| [ReflectEvo：通过学习自我反思提升小型LLM的元认知能力](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.871\u002F) | ACL（Findings）2025 |\n\n#### 验证器驱动的反馈\n\n| 论文 | 年份 |\n| --- | --- |\n| [ReZero：通过再试一次来增强LLM的搜索能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.11001) | 2025 |\n| [反复尝试就够了？无需口头反馈即可增强大型语言模型的推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.12951) | 2025 |\n| [CodeRL：通过预训练模型和深度强化学习掌握代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01780) | 2022 |\n| [LEVER：通过执行来学习验证语言到代码的生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.08468) | ICML 2023 |\n| [SWE-bench：语言模型能否解决真实的GitHub问题？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.06770) | ICLR 2024 |\n| [照我做的做，别学我说的：将语言 grounding 到机器人 affordances 上](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691) | CoRL 2022 |\n| [PaLM-E：一个具身多模态语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.03378) | ICML 2023 |\n| [反思、重试、奖励：通过强化学习实现LLM的自我改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24726) | 2025 |\n\n### 🧠 主体性记忆\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_f48923e6ab25.png)\n\n\n#### 平面内存的主体性使用\n\n##### 事实性记忆\n\n| 论文 | 年份 |\n| --- | --- |\n| [用于知识密集型 NLP 任务的检索增强生成](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F6b493230205f780e1bc26945df7481e5-Abstract.html) | NeurIPS 2020 |\n| [Self-RAG：通过自我反思学习检索、生成和批判] | ICLR 2024 |\n| [MemoryBank：利用长期记忆增强大型语言模型] | 2023 |\n| [LlamaIndex](https:\u002F\u002Fgithub.com\u002Fjerryjliu\u002Fllama_index) | 2022 |\n| [MemGPT：迈向将 LLM 作为操作系统] | 2023 |\n| [RET-LLM：迈向大型语言模型的通用读写内存] | 2023 |\n| [SCM：利用自控记忆框架增强大型语言模型] | 2023 |\n| [评估 LLM 代理的超长期对话记忆] | 2024 |\n| [LongMemEval：针对长期交互记忆的聊天助手基准测试] | 2024 |\n| [SELFGOAL：你的语言代理已经知道如何实现高层次目标] | NAACL 2025 |\n| [FinMem：具有分层记忆和角色设计的性能增强型 LLM 交易代理] | 2023 |\n| [A-mem：面向 LLM 代理的主体性记忆] | 2025 |\n| [展望与回顾：面向长期个性化对话代理的反思式内存管理] | 2025 |\n| [Zep：用于代理记忆的时间知识图架构] | 2025 |\n| [MIRIX：基于 LLM 的多智能体记忆系统] | 2025 |\n| [MemOS：大型语言模型中内存增强生成（MAG）的操作系统] | 2025 |\n| [LightMem：轻量高效的记忆增强生成] | 2025 |\n| [Nemori：受认知科学启发的自组织代理记忆] | 2025 |\n\n##### 经验性记忆\n\n| 论文 | 年份 |\n| --- | --- |\n| [代理工作流记忆] | 2024 |\n| [睡眠时间计算：超越推理规模化的测试时技术] | 2025 |\n| [动态备忘录：带有适应性记忆的测试时学习] | 2025 |\n| [主体性上下文工程：为自我改进的语言模型演化上下文] | 2025 |\n| [ReasoningBank：利用推理记忆推动代理自我进化] | 2025 |\n| [Evo-Memory：以自我进化记忆为基准测试 LLM 代理的测试时学习] | 2025 |\n\n#### 内存的结构化使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [RepoGraph：利用仓库级代码图提升 AI 软件工程能力] | 2024 |\n| [从局部到全局：一种面向查询聚焦摘要的图式 RAG 方法] | 2024 |\n| [Mem0：用可扩展的长期记忆构建生产就绪的 AI 代理] | 2025 |\n| [Zep：用于代理记忆的时间知识图架构] | 2025 |\n| [从孤立对话到层次化模式：LLM 的动态树形记忆表示] | 2024 |\n| [AutoFlow：大型语言模型代理的自动化工作流生成] | 2024 |\n| [AFlow：自动化主体性工作流生成] | ICLR 2025 |\n| [FlowMind：利用 LLM 自动化工作流生成] | 2024 |\n| [看、听、记、思：具有长期记忆的多模态代理（M3-Agent）] | 2025 |\n| [Agent-ScanKit：通过敏感性扰动解析多模态代理的记忆与推理] | 2025 |\n| [Optimus-1：混合多模态记忆赋能的代理在长周期任务中表现出色] | NeurIPS 2024 |\n| [RAP：面向多模态 LLM 代理的带上下文记忆的检索增强规划] | 2024 |\n\n#### 训练后内存控制\n\n| 论文 | 年份 |\n| --- | --- |\n| [MemAgent：基于多卷积强化学习的内存代理重塑长上下文 LLM] | 2025 |\n| [MEM1：学习协同记忆与推理以打造高效的长周期代理] | 2025 |\n| [Memory-R1：通过强化学习提升大型语言模型代理管理和利用记忆的能力] | 2025 |\n| [Mem-alpha：通过强化学习学习记忆构建] | 2025 |\n| [记忆即行动：面向长周期主体性任务的自主上下文整理] | 2025 |\n| [代理通过早期经验学习] | 2025 |\n| [主体性记忆：学习统一的长短期记忆管理以服务大型语言模型代理] | 2026 |\n| [MemRL：通过运行时强化学习对情景记忆进行自我进化] | 2026 |\n\n### 🚀 演进中的基础智能体能力\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_d177187bfc5e.png)\n\n#### 自我演进的规划\n\n| 论文 | 年份 |\n| --- | --- |\n| [自我挑战的语言模型代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01716) | 2025 |\n| [自我奖励的语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10020) | ICML 2024 |\n| [RLSR：基于自我奖励的强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08827) | 2025 |\n| [Self：利用语言反馈实现自我进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00533) | 2023 |\n| [通过强化学习训练语言模型进行自我修正](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12917) | 2024 |\n| [TextGrad：面向语言模型的可微文本反馈](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07496) | 2024 |\n| [AutoRule：基于思维链提取的规则奖励提升偏好学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15651v1) | 2025 |\n| [AgentGen：通过环境与任务生成增强大语言模型驱动智能体的规划能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.00764) | 2024 |\n| [Reflexion：具备口头强化学习的语言智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Adaplanner：基于语言模型反馈的自适应规划](https:\u002F\u002Fopenreview.net\u002Fforum?id=rnKgbKmelt) | NeurIPS 2023 |\n| [Self-refine：利用自我反馈进行迭代精炼](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [一个自我改进的编码智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.15228) | 2025 |\n| [Ragen：通过多轮强化学习理解大模型智能体的自我进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073) | 2025 |\n| [DYSTIL：利用大语言模型为强化学习动态归纳策略](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03209) | 2025 |\n\n#### 自我演进的工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [大语言模型作为工具制造者](https:\u002F\u002Fopenreview.net\u002Fforum?id=qV83K9d5WB) | ICLR 2024 |\n| [CRAFT：通过创建和检索专用工具集来定制大语言模型](https:\u002F\u002Fopenreview.net\u002Fforum?id=G0vdDSt9XM) | ICLR 2024 |\n| [CREATOR：工具创制以解耦大语言模型的抽象与具体推理](https:\u002F\u002Faclanthology.org\u002F2023.findings-emnlp.462\u002F) | EMNLP 2023 |\n| [LLM智能体制作智能体工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11705) | 2025 |\n\n#### 自我演进的记忆检索搜索\n\n| 论文 | 年份 |\n| --- | --- |\n| [用于知识密集型NLP任务的检索增强生成](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Fhash\u002F6b493230205f780e1bc26945df7481e5-Abstract.html) | NeurIPS 2020 |\n| [Self-RAG：通过自我反思学习检索、生成和评价](https:\u002F\u002Fopenreview.net\u002Fforum?id=hSyW5go0v8) | ICLR 2024 |\n| [MemoryBank：用长期记忆增强大语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10250) | 2023 |\n| [MemGPT：迈向将大语言模型作为操作系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08560) | 2023 |\n| [智能体工作流记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [动态备忘录：测试时学习与自适应记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.07952) | 2025 |\n| [Reflexion：具备口头强化学习的语言智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [ReasoningBank：利用推理记忆扩展智能体自我演化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.25140) | 2025 |\n| [智能体上下文工程：为自我改进的语言模型演化上下文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04618) | 2025 |\n| [AutoFlow：大语言模型智能体的自动化工作流生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.12821) | 2024 |\n| [AFlow：自动化智能体工作流生成](https:\u002F\u002Fopenreview.net\u002Fforum?id=z5uVAKwmjf) | ICLR 2025 |\n| [FlowMind：利用LLM自动工作流生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F) | 2024 |\n| [RepoGraph：以仓库级代码图提升AI软件工程](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.14684) | 2024 |\n| [从局部到全局：一种基于图的RAG方法用于查询聚焦摘要](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.16130) | 2024 |\n| [Mem0：用可扩展的长期记忆构建生产就绪的AI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.19413) | 2025 |\n| [Zep：面向智能体记忆的时间知识图架构](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.13956) | 2025 |\n| [MemOS：大语言模型中用于记忆增强生成（MAG）的操作系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22101) | 2025 |\n| [记忆即行动：为长周期智能体任务提供自主上下文整理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.12635) | 2025 |\n\n---\n\n## 👥 集体多智能体推理\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_3290408c7bf5.png)\n\n### 🤝 协作与分工\n\n![collab](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_1a0b0ad57f55.png)\n\n\n#### 上下文内协作\n\n\n##### 手工构建的流水线\n\n| 论文 | 年份 |\n| --- | --- |\n| [AgentOrchestra：用于通用任务解决的分层多智能体框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.12508) | 2025 |\n| [MetaGPT：面向多智能体协作框架的元编程](https:\u002F\u002Fopenreview.net\u002Fforum?id=VtmBAGCN7o) | ICLR 2024 |\n| [SurgRAW：具有思维链推理的多智能体工作流，用于手术智能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10265) | 2025 |\n| [Collab-RAG：通过白盒与黑盒LLM协作提升复杂问答的检索增强生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.04915) | 2025 |\n| [MA-RAG：基于协作式思维链推理的多智能体检索增强生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.20096) | 2025 |\n| [智能体之链：大语言模型在长上下文任务上的协作](https:\u002F\u002Fopenreview.net\u002Fforum?id=LuCLf4BJsr) | NeurIPS 2024 |\n| [AutoAgents：自动智能体生成框架](https:\u002F\u002Fwww.ijcai.org\u002Fproceedings\u002F2024\u002F3) | IJCAI 2024 |\n| [RAG-KG-IL：减少幻觉并增强LLM推理能力的多智能体混合框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.13514) | 2025 |\n| [SMoA：利用稀疏混合智能体改进多智能体大语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.03284) | 2024 |\n| [MDocAgent：用于文档理解的多模态多智能体框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.13964) | 2025 |\n\n##### LLM驱动的流水线\n\n| 论文 | 年份 |\n| --- | --- |\n| [AutoML-Agent：用于全管道自动机器学习的多智能体LLM框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02958) | 2024 |\n| [Magentic-One：解决复杂任务的通用多智能体系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04468) | 2024 |\n| [MAS-GPT：训练LLM构建基于LLM的多智能体系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.03686) | 2025 |\n| [MetaAgent：基于有限状态机自动构建多智能体系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.22606) | 2025 |\n| [多智能体系统中的面向智能体规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02189) | 2024 |\n| [智能体路由器：用于协作式多智能体问答的知识图引导LLM路由器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.05445) | 2025 |\n| [与合适的专家对话：用于问答的多智能体系统路由与规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07813) | 2025 |\n\n##### 理解他人心智的合作增强\n\n| 论文 | 年份 |\n| --- | --- |\n| [通过大型语言模型实现多智能体协作的心智理论](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10701) | 2023 |\n| [假设性心智：利用大型语言模型为多智能体任务搭建心智理论框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07086) | 2024 |\n| [MindForge：赋予具身智能体心智理论能力以支持终身协作学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.12977) | 2024 |\n| [大型语言模型如何编码心智理论：基于稀疏参数模式的研究](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs44387-025-00031-9) | npj人工智能，2025年 |\n| [具备反事实反思能力的心智理论感知型生成式智能体——大型语言模型的应用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.15355) | 2025 |\n| [BeliefNest：面向具有心智理论的具身智能体的联合行动模拟器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.12321) | 2025 |\n\n#### 后训练阶段的协作\n\n##### 多智能体提示优化\n\n| 论文 | 年份 |\n| --- | --- |\n| [AutoAgents：自动智能体生成框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.17288) | IJCAI 2024 |\n| [释放大型语言模型中的涌现认知协同效应：基于多角色自我协作的任务求解智能体](https:\u002F\u002Faclanthology.org\u002F2024.naacl-long.15\u002F) | NAACL 2024 |\n| [DSPy断言：用于自完善语言模型流水线的计算约束](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13382) | 2023 |\n| [多智能体设计：通过更优的提示与拓扑结构优化智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02533) | 2025 |\n| [基于“梯度下降”和束搜索的自动提示优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.03495) | 2023 |\n\n##### 基于图的拓扑结构生成\n\n| 论文 | 年份 |\n| --- | --- |\n| [从图建模视角学习多智能体通信](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.08550) | 2024 |\n| [G-Designer：利用图神经网络构建多智能体通信拓扑结构](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.11782) | 2024 |\n| [用于稳健多智能体协调的图扩散](https:\u002F\u002Fopenreview.net\u002Fforum?id=T5IZ32ImAB) | ICML 2025 |\n| [精简冗余：面向基于LLM的多智能体系统的经济型通信管道](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.02506) | 2024 |\n| [多智能体通信的自适应图剪枝](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02951) | 2025 |\n| [G-Safeguard：面向基于LLM的多智能体系统的拓扑引导安全视角与处理方法](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11127) | 2025 |\n| [AFlow：自动化代理工作流生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10762) | ICLR 2025 |\n| [多智能体设计：通过更优的提示与拓扑结构优化智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02533) | 2025 |\n| [基于代理超网的多智能体架构搜索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.04180) | 2025 |\n| [DynaSwarm：面向基于LLM的多智能体系统的动态图结构选择](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.23261) | 2025 |\n| [GPTSwarm：将语言智能体视为可优化的图](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16823) | ICML 2024 |\n\n##### 基于策略的拓扑结构生成\n\n| 论文 | 年份 |\n| --- | --- |\n| [MASRouter：学习为多智能体系统路由LLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11133) | 2025 |\n| [RCR-Router：面向多智能体LLM系统的高效角色感知上下文路由，结合结构化记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.04903) | 2025 |\n| [xRouter：基于强化学习的训练成本敏感型LLM编排系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08439) | 2025 |\n| [最优智能体选择：面向高效多智能体协作的状态感知路由框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.02200) | 2025 |\n| [基于多智能体强化学习的LLM协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.04652) | 2025 |\n| [面向基于LLM的多智能体系统的异质群体强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02718) | 2025 |\n| [通过强化学习、基于LLM的规划器及基于图的策略提升多智能体系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.10049) | 2025 |\n| [LAMARL：LLM辅助的多智能体强化学习，用于合作策略生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01538) | IEEE RA-L 2025 |\n| [MAPoRL：通过强化学习对协作型大型语言模型进行多智能体后协同训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18439) | 2025 |\n| [基于大型语言模型的反思性多智能体协作](https:\u002F\u002Fopenreview.net\u002Fforum?id=wWiAR5mqXq&referrer=%5Bthe%20profile%20of%20Zeyu%20Zhang%5D(%2Fprofile%3Fid%3D~Zeyu_Zhang6)) | NeurIPS 2024 |\n| [Sirius：通过自举式推理实现自我改进的多智能体系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.04780) | 2025 |\n| [多智能体微调：借助多样化推理链实现自我提升](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05707) | 2025 |\n| [M3HF：基于混合质量多阶段人类反馈的多智能体强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.02077) | 2025 |\n| [O-MAPL：离线多智能体偏好学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18944) | 2025 |\n\n### 🌱 多智能体记忆与进化\n\n![mem](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_92fbf3f8433e.png)\n\n#### 从单智能体进化到多智能体进化\n\n##### 测试时内进化\n\n| 论文 | 年份 |\n| --- | --- |\n| [Reflexion: 具有语言强化学习的语言智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.11366) | NeurIPS 2023 |\n| [Self-Refine: 基于自我反馈的迭代改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [AdaPlanner: 基于语言模型的自适应规划与反馈](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16653) | NeurIPS 2023 |\n| [TrustAgent: 通过智能体宪章实现安全可信的LLM智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01586) | TiFA 2024 |\n| [自适应语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.10943) | 2025 |\n| [TTRL: 测试时强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16084) | 2025 |\n| [Ladder: 通过递归问题分解实现LLM的自我改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.00735) | 2025 |\n\n##### 测试间进化\n\n| 论文 | 年份 |\n| --- | --- |\n| [Self: 基于语言反馈的自我进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00533) | 2023 |\n| [STaR: 以推理驱动推理的自举式推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.14465) | NeurIPS 2022 |\n| [超越极限的推理：LLM的进步与开放问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.22732) | 2025 |\n| [RAGEN: 通过多轮强化学习理解LLM智能体的自我进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.20073) | 2025 |\n| [DYSTIL: 基于大型语言模型的动态策略归纳用于强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.03209) | 2025 |\n| [WebRL: 通过自我进化在线课程强化学习训练LLM网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02337) | 2024 |\n| [为什么动物需要塑造？任务组合与课程学习理论](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.18361) | 2024 |\n| [SAGE: 具有反思和记忆增强能力的自我进化智能体](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1016\u002Fj.neucom.2025.130470) | Neurocomputing 2025 |\n| [MemInsight: LLM智能体的自主记忆增强](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21760) | 2025 |\n| [智能体工作流记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n\n##### 多智能体进化\n\n| 论文 | 年份 |\n| --- | --- |\n| [Self: 基于语言反馈的自我进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.00533) | 2023 |\n| [通过强化学习训练语言模型进行自我纠正](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.12917) | 2024 |\n| [TextGrad: 基于文本的自动“微分”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.07496) | 2024 |\n| [REMA: 使用多智能体强化学习教会LLM进行元思考](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09501) | 2025 |\n| [针对LLM智能体训练的组中组策略优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.10978) | 2025 |\n| [智能体工作流记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [MemOS: 大型语言模型中记忆增强生成（MAG）的操作系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22101) | 2025 |\n| [多智能体设计：用更好的提示和拓扑结构优化智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.02533) | 2025 |\n| [AFlow: 自动化智能体工作流生成](https:\u002F\u002Fopenreview.net\u002Fforum?id=z5uVAKwmjf) | ICLR 2025 |\n| [使用多目标搜索和神经网络测试高级驾驶辅助系统](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002F10.1145\u002F2970276.2970311) | ASE 2016 |\n| [多智能体系统中的潜在协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20639) | 2025 |\n\n#### 多智能体记忆管理用于进化\n\n| 论文 | 年份 |\n| --- | --- |\n| [G-Memory: 跟踪多智能体系统的层次化记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.07398) | 2025 |\n| [内在记忆智能体: 通过结构化上下文记忆构建异构多智能体LLM系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.08997) | 2025 |\n| [由LLM驱动的去中心化生成式智能体，具有自适应层次知识图谱用于协同规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.05453) | 2025 |\n| [SEDM: 可扩展的自我进化分布式记忆用于智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.09498) | 2025 |\n| [协作记忆: LLM智能体中的多用户内存共享与动态访问控制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.18279) | 2025 |\n| [大型语言模型基智能体的内存共享](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.09982) | 2024 |\n| [MIRIX: 针对基于LLM的智能体的多智能体记忆系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.07957) | 2025 |\n| [LEGOMem: 用于工作流自动化的大规模多智能体LLM系统的模块化程序化记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04851) | 2025 |\n| [MAPLE: 具有长期记忆的多智能体自适应规划用于表格推理](https:\u002F\u002Faclanthology.org\u002F2025.alta-main.10\u002F) | ALTA 2025 |\n| [Lyfe Agents: 用于低成本实时社交互动的生成式智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02172) | 2023 |\n| [Agent KB: 利用跨领域经验进行智能体问题解决](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.06229) | 2025 |\n\n#### 训练多智能体进行进化\n\n| 论文 | 年份 |\n| --- | --- |\n| [Multi-Agent Evolve: LLM通过协同进化自我提升](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.23595) | 2025 |\n| [CoMAS: 通过交互奖励进行多智能体协同进化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08529) | 2025 |\n| [MARFT: 多智能体强化学习微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16129) | 2025 |\n| [Stronger-MAS: 用于协作LLM的多智能体强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.11062) | 2025 |\n| [MAPoRL: 协作大型语言模型的多智能体强化学习后联合训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18439) | 2025 |\n| [MALT: 从轨迹中学习的多智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.01928) | 2025 |\n| [MARS: 通过多智能体强化学习优化双系统深度研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.04935) | 2025 |\n| [基于偏好选择的多智能体强化学习：数据覆盖与算法技术](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.00717) | 2024 |\n| [对齐华尔兹: 为安全性共同训练智能体协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.08240) | 2025 |\n\n---\n\n## 🎨 应用\n\n![app](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_83f92165e637.png)\n\n\n### 💻 数学探索与氛围编码智能体\n\n#### 基础性智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [通过AI引导人类直觉推进数学研究](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-021-04086-x) | 《自然》杂志 2021年 |\n| [无需人工示范即可解决奥数几何问题](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06747-5) | 《自然》杂志 2024年 |\n| [利用大型语言模型的程序搜索实现数学发现](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs41586-023-06924-6) | 《自然》杂志 2024年 |\n| [大规模的数学探索与发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.02864) | 2025年 |\n| [借助AI推进几何学：多智能体生成多面体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.05199) | 2025年 |\n| [迈向稳健的数学推理](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.1794\u002F) | EMNLP 2025 |\n| [CodeChain：通过具有代表性子模块的自我修正链实现模块化代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08992) | ICLR 2024 |\n| [可执行代码动作能引出更优秀的LLM代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01030) | ICML 2024 |\n| [基于大型语言模型的知识感知代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.15940) | ICPC 2024 |\n| [CodePlan：使用LLM和规划进行仓库级编码](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.12499) | FSE 2024 |\n| [面向大型语言模型的多阶段引导式代码生成](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS095219762401649X) | Eng. App. AI 2025 |\n| [CodeTree：大型语言模型辅助下的代理引导树搜索用于代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04329) | 2024年 |\n| [DotaMath：借助代码辅助与自我校正分解思维以进行数学推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.04078) | 2024年 |\n| [代码之树：用于复杂任务端到端代码生成与执行的自生长树框架](https:\u002F\u002Faclanthology.org\u002F2025.findings-acl.509\u002F) | ACL 2025 |\n| [CoRT：在思考过程中融入代码推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.09820\u002F) | 2025年 |\n| [DARS：通过自适应树遍历动态重采样行动以提升编码代理性能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.14269) | 2025年 |\n| [利用蒙特卡洛树搜索引导大型语言模型生成代码世界模型](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Fhash\u002F6f479ea488e0908ac8b1b37b27fd134c-Abstract-Conference.html) | NeurIPS 2024 |\n| [VerilogCoder：基于图规划的自主Verilog编码代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.08927) | AAAI 2025 |\n| [在非序列化环境中应用引导式搜索策略及其在软件工程代理中的作用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.13652) | ICML 2025 |\n| [用于形式化定理证明的上下文学习代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.04353) | COLM 2024 |\n| [形式数学推理：AI的新前沿](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.16075) | 2024年 |\n| [用于数学发现的生成式建模](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.11061) | 2025年 |\n| [Toolformer：语言模型可以自我教授如何使用工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.04761) | NeurIPS 2023 |\n| [ToolCoder：教会代码生成模型使用API搜索工具](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.04032) | 2023年 |\n| [ToolGen：通过生成统一工具检索与调用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.03439) | ICLR 2025 |\n| [CodeAgent：通过集成工具的代理系统增强代码生成能力，应对现实世界的仓库级编码挑战](https:\u002F\u002Faclanthology.org\u002F2024.acl-long.737\u002F) | ACL 2024 |\n| [ROCODE：在大型语言模型中整合回溯机制和程序分析以进行代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07112) | ICSE 2025 |\n| [CodeTool：通过过程监督提升LLM对程序性工具的调用能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20840) | 2025年 |\n| [RepoHyper：更好的上下文检索就是仓库级代码补全所需要的全部](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.06095) | 2024年 |\n| [CodeNav：超越工具使用，利用LLM代理操作真实代码库](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.12276) | ICLR 2024 |\n| [通过上下文感知的检索增强生成优化代码运行性能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16692) | ICPC 2025 |\n| [基于知识图谱的仓库级代码生成](https:\u002F\u002Fconf.researchr.org\u002Fdetails\u002Ficse-2025\u002Fllm4code-2025-papers\u002F26\u002FKnowledge-Graph-Based-Repository-Level-Code-Generation-Virtual-Talk-) | LLM4Code 2025 |\n| [cAST：通过抽象语法树的结构化分块提升代码检索增强生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.15655) | 2025年 |\n\n#### 自我进化型代理推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [通过交互评估语言模型的数学能力](https:\u002F\u002Fwww.pnas.org\u002Fdoi\u002F10.1073\u002Fpnas.2318124121) | PNAS 2024 |\n| [CLCL：利用对比学习和课程学习检测非组合性表达](https:\u002F\u002Faclanthology.org\u002F2023.acl-long.43\u002F) | ACL 2023 |\n| [自我修复是代码生成的万能解吗？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09896) | 2024年 |\n| [LeDeX：通过执行反馈学习调试](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper_files\u002Fpaper\u002F2024\u002Ffile\u002F3ea832724870c700f0a03c665572e2a9-Paper-Conference.pdf) | NeurIPS 2024 |\n| [Self-Refine：基于自我反馈的迭代改进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.17651) | NeurIPS 2023 |\n| [基于大型语言模型的自我迭代代码生成方法](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F10476069) | ICPADS 2023 |\n| [教导大型语言模型自我调试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05128) | ICLR 2024 |\n| [通过ChatGPT进行自我协作式代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07590) | TOSEM 2024 |\n| [L2MAC：大型语言模型自动计算机用于大规模代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.02003) | 2023年 |\n| [Cogito, Ergo Sum：受神经生物学启发的认知–记忆–成长系统用于代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.18653) | 2025年 |\n\n#### 集体多智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [AgentCoder：基于多智能体的迭代测试与优化代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.13010) | 2023 |\n| [通过多方案探索和反馈驱动精炼的结对编程框架用于代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.05001) | ASE 2024 |\n| [SOEN-101：利用大型语言模型智能体模拟软件过程模型进行代码生成](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F11029771) | ICSE 2025 |\n| [自组织智能体：面向超大规模代码生成与优化的LLM多智能体框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.02183) | 2024 |\n| [MapCoder：用于竞技性问题求解的多智能体代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.11403) | 2024 |\n| [AutoSafeCoder：通过静态分析和模糊测试保障LLM代码生成安全性的多智能体框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.10737) | 2024 |\n| [QualityFlow：由LLM质量检查控制的程序合成代理工作流](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.17167) | 2025 |\n| [SEW：用于自动化代码生成的自我演化代理工作流](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.18646) | 2025 |\n| [面向软件开发的自我演化多智能体协作网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.16946) | 2024 |\n| [Lingma SWE-GPT：以开放开发流程为中心的自动化软件改进语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.00622) | 2024 |\n| [CodeCoR：基于LLM的自我反思多智能体代码生成框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.07811) | 2025 |\n| [SyncMind：衡量协作式软件工程中智能体不同步恢复能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06994) | ICML 2025 |\n| [幻觉到共识：用于端到端测试生成的多智能体LLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02943) | 2025 |\n\n### 🔬 科学发现智能体\n\n以下是按各自章节分组的引用表格。\n\n#### 基础性智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [ProtAgents：结合物理与机器学习的大语言模型多智能体协作实现蛋白质发现] | 数字发现 2024 |\n| [基于智能体的学习方法从科学文献中获取材料数据集] | 数字发现 2024 |\n| [ReAct：在语言模型中协同推理与行动] | ICLR 2023 |\n| [Biomni：通用生物医学人工智能智能体] | bioRxiv 2025 |\n| [SciAgent：用于科学推理的工具增强型语言模型] | 2024 |\n| [Chemcrow：用化学工具增强大型语言模型] | 2023 |\n| [CACTUS：将工具使用与科学研究相连接的化学智能体] | ACS Omega 2024 |\n| [ChemToolAgent：工具对解决化学问题的语言智能体的影响] | 2024 |\n| [CheMatAgent：通过基于树搜索的工具学习提升大型语言模型在化学与材料科学领域的应用] | 2025 |\n| [TxAgent：跨工具宇宙进行治疗推理的人工智能智能体] | 2025 |\n| [AgentMD：利用大规模临床工具学习赋能语言智能体进行风险预测] | Nature Communications 2025 |\n| [LLaMP：为高保真材料知识检索与提炼而强大的大型语言模型] | 2024 |\n| [HoneyComb：面向材料科学的灵活LLM基础智能体系统] | 2024 |\n| [CRISPR-GPT用于基因编辑实验的智能体自动化] | 2024 |\n| [PharmAgents：用大型语言模型智能体构建虚拟制药公司] | 2025 |\n| [ORGANA：用于自动化化学实验与表征的机器人助手] | Matter 2025 |\n| [AtomAgents：通过具备物理感知能力的多模态多智能体人工智能进行合金设计与发现] | 2024 |\n| [Chemist-X：由大型语言模型赋能的智能体，用于化学合成中的反应条件推荐] | 2024 |\n| [LLM与仿真作为双层优化器：推动物理科学发现的新范式] | 2024 |\n| [CellAgent：由LLM驱动的多智能体框架，用于基于自然语言的单细胞分析] | BioRxiv 2024 |\n| [BioDiscoveryAgent：用于设计遗传扰动实验的人工智能智能体] | 2024 |\n| [DrugAgent：基于多智能体大型语言模型的药物-靶点相互作用预测推理] | 2024 |\n| [通过多LLM框架加速科学研究] | 2025 |\n| [AI科学家-v2：通过智能体树状搜索实现车间级自动化科学发现] | 2025 |\n| [大型语言模型是零样本假设提出者] | 2023 |\n| [PaperQA：用于科学研究的检索增强生成式智能体] | 2023 |\n| [语言智能体实现了超人类水平的科学知识综合] | 2024 |\n| [LLaMP：为高保真材料知识检索与提炼而强大的大型语言模型] | 2024 |\n\n#### 自我进化型智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [ChemAgent：大型语言模型中的自我更新库提升化学推理能力] | 2025 |\n| [利用生成式AI智能体加速无机材料设计] | 2025 |\n| [LLM与仿真作为双层优化器：推动物理科学发现的新范式] | 2024 |\n| [ChemReasoner：利用量子化学反馈在大型语言模型的知识空间中进行启发式搜索] | 2024 |\n| [LLMatDesign：利用大型语言模型实现自主材料发现] | 2024 |\n| [使用目标导向和约束引导的LLM智能体进行材料发现与设计的假设生成] | 2025 |\n\n#### 集体多智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [ProtAgents：结合物理与机器学习的大语言模型多智能体协作实现蛋白质发现] | 数字发现 2024 |\n| [PiFlow：基于原则的多智能体协作科学发现] | 2025 |\n| [AtomAgents：通过具备物理感知能力的多模态多智能体人工智能进行合金设计与发现] | 2024 |\n| [CellAgent：由LLM驱动的多智能体框架，用于基于自然语言的单细胞分析] | BioRxiv 2024 |\n| [通过多LLM框架加速科学研究] | 2025 |\n| [朝着由AI制造的科学家团队迈进，以基因表达数据进行科学发现] | 2024 |\n| [虚拟实验室：AI智能体设计新型SARS-CoV-2纳米抗体并经实验验证] | bioRxiv 2024 |\n\n### 🤖 具身智能体\n\n#### 基础性智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [照我说的做，别学我的样：将语言 grounded 在机器人可用性上](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.01691) | 2022 |\n| [SayPlan：利用3D场景图 grounding 大型语言模型，实现可扩展的机器人任务规划](https:\u002F\u002Fproceedings.mlr.press\u002Fv229\u002Frana23a.html) | 2023 |\n| [EmbodiedGPT：通过具身思维链进行视觉-语言预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15021) | NeurIPS 2023 |\n| [面向指令遵循的具身智能体的上下文感知规划与环境感知记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07241) | ECCV 2024 |\n| [描述、解释、规划与选择：大型语言模型驱动的交互式规划赋能开放世界多任务智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.01560) | NeurIPS 2023 |\n| [基于具身思维链推理的机器人控制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08693) | 2024 |\n| [Fast ECoT：面向视觉-语言-动作模型的快速具身思维链](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.07639) | 2025 |\n| [Cosmos-Reason1：多模态思维链推理下的物理常识](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.15558) | 2025 |\n| [CoT-VLA：视觉-语言-动作模型中的视觉思维链推理](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F11093669) | 2025 |\n| [Emma-X：具有思维链推理的具身多模态动作模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.11974) | 2024 |\n| [Robot-R1：强化学习增强的大规模视觉-语言模型用于机器人操作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.00070) | 2025 |\n| [ManipLVM-R1：通过强化学习学习推理以进行机器人操作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16517) | 2025 |\n| [Embodied-R：通过多智能体强化学习在机器人中涌现空间推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.12680) | 2025 |\n| [VIKI-R：基于VLM的强化学习方法，用于异构多智能体协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.09049) | 2025 |\n| [GSCE：用于LLM驱动无人机控制中增强逻辑推理的提示框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.12531v2) | 2025 |\n| [MineDojo：利用互联网规模知识构建开放式具身智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.08853) | NeurIPS 2022 |\n| [物理AI智能体：整合生成式AI、符号AI和机器人技术](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.08944) | 2025 |\n| [与环境对话：使用大型语言模型的交互式多模态感知](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08268) | IROS 2023 |\n| [三维世界中的具身通用智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.12871) | ICML 2024 |\n| [Hi Robot：利用分层视觉-语言-动作模型实现开放式指令遵循](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.19417) | 2025 |\n| [Gemini Robotics：将AI带入物理世界](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20020) | 2025 |\n| [Octopus：基于环境反馈的具身视觉-语言程序员](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08588) | ECCV 2024 |\n| [CaPo：面向多智能体协作的协同计划优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04679) | 2024 |\n| [COHERENT：大型语言模型赋能的异构多机器人系统协作](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127808) | ICRA 2025 |\n| [MP5：通过主动感知在Minecraft中构建多模态开放式具身系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07472) | CVPR 2024 |\n| [LLM-Planner：利用大型语言模型为具身智能体提供少样本接地的高层规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04088) | ICCV 2023 |\n| [EmbodiedGPT：通过具身思维链进行视觉-语言预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15021) | NeurIPS 2023 |\n| [L3MVN：利用大型语言模型进行视觉目标导航](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05501) | 2023 |\n| [SayNav：将大型语言模型 grounding 到动态规划中，用于新环境中的导航](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.04077) | ICAPS 2023 |\n| [SayPlan：利用3D场景图 grounding 大型语言模型，实现可扩展的机器人任务规划](https:\u002F\u002Fproceedings.mlr.press\u002Fv229\u002Frana23a.html) | CoRL 2023 |\n| [ReMEmbR：为具身智能体构建并使用长时程时空记忆进行推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.13682) | 2025 |\n| [Embodied-RAG：用于检索增强生成的通用非参数化具身记忆](https:\u002F\u002Fopenreview.net\u002Fforum?id=tZWwK7Si4A) | NeurIPS Workshop AFM 2024 |\n| [检索增强型具身智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.11699) | 2024 |\n| [MLLM作为检索器：具身智能体的交互式多模态检索学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.03450) | 2024 |\n\n#### 自我进化型代理推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [LLM赋能的具身智能体：用于家庭机器人中记忆增强的任务规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21716) | 2024 |\n| [Optimus-1：混合多模态记忆赋能的智能体，用于Minecraft中的长时程任务](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.03615) | 2024 |\n| [具有记忆增强型大型语言模型的开放式可指令具身智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.15127) | EMNLP 2023 |\n| [为具身智能体赋予空间推理能力，用于视觉-语言导航](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08806) | 2025 |\n| [面向指令遵循具身智能体的上下文感知规划与环境感知记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.07241) | 2024 |\n| [Ella：具有终身记忆的具身社交智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.24019) | 2025 |\n| [与环境对话：使用大型语言模型的交互式多模态感知](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.08268) | IROS 2023 |\n| [从陌生人到助手：快速对齐需求以适应具身智能体与用户](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22503v1) | 2025 |\n| [会求助的机器人：大型语言模型规划者的不确定性对齐](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.01928) | CoRL 2023 |\n| [Octopus：基于环境反馈的具身视觉-语言程序员](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08588) | ECCV 2024 |\n| [MindForge：为具身智能体赋予心智理论，实现终身协作学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.12977) | 2024 |\n| [迈向高效LLM grounding，促进具身多智能体协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.14314) | 2024 |\n| [EMAC+：结合VLM和LLM的具身多模态协作规划智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19905) | 2025 |\n| [Voyager：具有大型语言模型的开放式具身智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16291) | 2023 |\n\n#### 集体多智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [Smart-LLM：基于大型语言模型的智能多智能体机器人任务规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.10062) | 2024 |\n| [CaPo：面向多智能体协作的协同计划优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.04679) | 2024 |\n| [COHERENT：利用大型语言模型实现异构多机器人系统的协作](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127808) | ICRA 2025 |\n| [通过大型语言模型实现多智能体协作的心智理论](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10701) | 2023 |\n| [大型语言模型如何编码心智理论：关于稀疏参数模式的研究](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs44387-025-00031-9) | npj Artificial Intelligence 2025 |\n| [假设性心智：利用大型语言模型为多智能体任务搭建心智理论框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.07086) | 2024 |\n| [MindForge：赋予具身智能体心智理论能力以支持终身协作学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.12977) | 2024 |\n| [EMAC+：用于与VLM+LLM协同规划的具身多模态智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19905) | 2025 |\n| [COMBO：面向具身多智能体协作的组合式世界模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.10775) | 2025 |\n| [VIKI-R：一种基于VLM的强化学习方法，用于异构多智能体协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.09049) | 2025 |\n| [RoCo：基于大型语言模型的辩证式多机器人协作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.04738) | 2024 |\n\n### 🏥 医疗健康与医学代理\n\n#### 基础性代理推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [用于肿瘤学临床决策的自主人工智能代理的开发与验证](https:\u002F\u002Fwww.nature.com\u002Farticles\u002Fs43018-025-00991-6) | 《自然·医学》2024年 |\n| [EHRAgent：代码赋能大型语言模型，实现电子健康记录上的复杂表格推理] | 2024年 |\n| [PathFinder：应用于组织病理学的多模态多智能体系统，用于医学诊断决策] | 2025年 |\n| [MedAgent-Pro：通过推理型代理工作流实现循证的多模态医学诊断] | 2025年 |\n| [MedOrch：具有工具增强推理能力的医疗诊断代理，支持灵活扩展] | 2025年 |\n| [ClinicalAgent：基于大语言模型推理的临床试验多智能体系统] | 2024年 |\n| [DynamiCare：用于交互式和开放式医学决策的动态多智能体框架] | 2025年 |\n| [TxAgent：一个跨工具宇宙进行治疗推理的AI代理] | 2025年 |\n| [AgentMD：利用大规模临床工具学习赋能语言代理进行风险预测] | 《自然·通讯》2025年 |\n| [大型语言模型代理可以使用工具执行临床计算] | 《NPJ数字医学》2025年 |\n| [MeNTi：通过嵌套工具调用连接医学计算器与LLM代理] | 2024年 |\n| [MMedAgent：使用多模态代理学习如何使用医疗工具] | 2024年 |\n| [VoxelPrompt：用于端到端医学影像分析的视觉代理] | 2024年 |\n| [通过具身智能增强手术机器人，实现自主超声扫描] | 2024年 |\n| [医学语言代理中的适应性推理与行动] | 2024年 |\n| [MedRAX：用于胸部X光片的医学推理代理] | 2025年 |\n| [对话式健康代理：个性化的LLM驱动代理框架] | 2023年 |\n| [MedAgentGym：面向生物医学数据科学中以代码为中心的推理的可扩展代理训练环境] | 2025年 |\n| [由大语言模型驱动的AI代理支持的模拟患者系统有望变革医学教育] | 2024年 |\n| [用于真实临床互动的自进化多智能体模拟] | MICCAI 2025年 |\n| [RAG增强的协作LLM代理用于药物发现] | 2025年 |\n| [MedReason：通过知识图谱在LLM中激发事实性的医学推理步骤] | 2025年 |\n\n#### 自进化代理推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [基于生成式代理的流行病建模] | 2023年 |\n| [用于真实临床互动的自进化多智能体模拟] | MICCAI 2025年 |\n| [EHRAgent：代码赋能大型语言模型，实现电子健康记录上的复杂表格推理] | 2024年 |\n| [LLMs可通过代理共进化模拟标准化患者] | 2024年 |\n| [由大语言模型驱动的AI代理支持的模拟患者系统有望变革医学教育] | 2024年 |\n| [MedOrch：具有工具增强推理能力的医疗诊断代理，支持灵活扩展] | 2025年 |\n| [DynamiCare：用于交互式和开放式医学决策的动态多智能体框架] | 2025年 |\n| [MedAgentGym：面向生物医学数据科学中以代码为中心的推理的可扩展代理训练环境] | 2025年 |\n| [EHRAgent：代码赋能大型语言模型，实现电子健康记录上的复杂表格推理] | 2024年 |\n| [MeNTi：通过嵌套工具调用连接医学计算器与LLM代理] | 2025年 |\n| [大型语言模型代理可以使用工具执行临床计算] | 《NPJ数字医学》2025年 |\n\n#### 集体多智能体推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [MDAgents：用于医学决策的LLM自适应协作系统] | 2024年 |\n| [DoctorAgent-RL：用于多轮临床对话的多智能体协作强化学习系统] | 2025年 |\n| [超越直接诊断：基于LLM的多专科代理会诊实现自动诊断] | 2024年 |\n| [ClinicalAgent：基于大语言模型推理的临床试验多智能体系统] | 2024年 |\n| [PathFinder：应用于组织病理学的多模态多智能体系统，用于医学诊断决策] | 2025年 |\n| [用于真实临床互动的自进化多智能体模拟] | MICCAI 2025年 |\n| [LLMs可通过代理共进化模拟标准化患者] | 2024年 |\n| [DynamiCare：用于交互式和开放式医学决策的动态多智能体框架] | 2025年 |\n| [MedAgents：作为零样本医学推理合作者的大语言模型] | 2024年 |\n| [RAG增强的协作LLM代理用于药物发现] | 2025年 |\n| [GMAI-VL-R1：利用强化学习实现多模态医学推理] | 2025年 |\n\n### 🌐 自主网络探索与研究代理\n\n#### 基础性代理推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [Agent Laboratory: 使用大语言模型代理作为科研助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227) | 2025 |\n| [GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher) | 2023 |\n| [通过多大语言模型框架加速科学研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07960) | 2025 |\n| [Video-Browser: 朝着基于智能体的开放网络视频浏览迈进](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.23044) | 2025 |\n| [InternAgent: 当智能体成为科学家——构建从假设到验证的闭环系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16938) | 2025 |\n| [WebGPT: 基于浏览器辅助、结合人类反馈的问答系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.09332) | 2021 |\n| [语言模型是少样本学习者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.14165) | NeurIPS 2020 |\n| [GPT-4V（视觉）是一个通用的网络智能体，只要具备扎实的基础](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.01614) | ICML 2024 |\n| [AutoWebGLM: 基于大型语言模型的网页导航智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03648) | 2024 |\n| [Agent Q: 面向自主AI智能体的高级推理与学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07199) | 2024 |\n| [WebRL: 通过自进化在线课程强化学习训练大语言模型网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.02337) | 2024 |\n| [WebAgent-R1: 通过端到端多轮强化学习训练网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16421) | 2025 |\n| [Navigating WebAI: 利用大型语言模型和强化学习训练智能体完成网络任务](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.00516) | 2024 |\n| [DeepDiver: 基于开放网络强化学习实现自适应搜索强度调节](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24332) | 2025 |\n| [EvolveSearch: 一种迭代式自进化搜索智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22501) | 2025 |\n| [WebEvolver: 利用共进化世界模型提升网络智能体自我改进能力](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.454\u002F) | 2025 |\n| [ArCHer: 通过分层多轮强化学习训练语言模型智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.19446) | ICLR 2025 |\n| [Proposer-Agent-Evaluator(PAE): 面向基础模型互联网智能体的自主技能发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13194) | 2024 |\n| [WebSeer: 通过带有自我反思的强化学习训练更深层次的搜索智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18798) | 2025 |\n| [ZeroSearch: 在不进行实际搜索的情况下激励大语言模型的搜索能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.04588) | 2025 |\n| [StepSearch: 通过分步近端策略优化激发大语言模型的搜索能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15107) | 2025 |\n| [如何训练你的大语言模型网络智能体：一项统计诊断](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.04103) | 2025 |\n| [Agent S: 一个开放的智能体框架，像人类一样使用计算机](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.08164) | 2024 |\n| [InfiGUIAgent: 具有原生推理和反思能力的多模态通用GUI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04575) | 2025 |\n| [MobA: 多功能记忆增强型自适应规划，用于高效移动设备任务自动化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13757) | 2024 |\n| [PC-Agent: 用于PC上复杂任务自动化的一套分层多智能体协作框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14282) | 2025 |\n| [UItron: 具备先进感知与规划能力的基础级GUI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.21767) | 2025 |\n| [ARPO: 带有经验回放的GUI智能体端到端策略优化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.16282) | 2025 |\n| [ComputerRL: 扩展面向计算机使用智能体的端到端在线强化学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.14040) | 2025 |\n| [UI-R1: 通过强化学习提升GUI智能体的动作预测能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.21620) | 2025 |\n| [GUI-R1: 一种通用的R1风格视觉-语言动作模型，适用于GUI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.10458) | 2025 |\n| [InfiGUI-R1: 将多模态GUI智能体从反应式执行者转变为深思熟虑的推理者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.14239) | 2025 |\n| [UI-S1: 通过半在线强化学习推进GUI自动化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.11543) | 2025 |\n| [GUI-Bee: 通过自主探索使GUI动作接地与新环境相一致](https:\u002F\u002Faclanthology.org\u002F2025.emnlp-main.1688\u002F) | EMNLP 2025 |\n| [利用视觉反馈中的空间推理学习GUI接地](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21552) | 2025 |\n| [GUI-Shift: 通过自监督强化学习提升基于VLM的GUI智能体性能](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.12493) | 2025 |\n| [UI-AGILE: 通过高效的强化学习和精确的推理时接地推进GUI智能体发展](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.22025) | 2025 |\n| [ZeroGUI: 以零人力成本实现在线GUI学习自动化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.23762) | 2025 |\n| [AgentCPM-GUI: 通过强化微调构建移动端使用智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01391) | 2025 |\n| [AutoGLM: 自主的基础级GUI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.00820) | 2024 |\n| [Mobile-Agent-v3: GUI自动化的基础级智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.15144) | 2025 |\n| [WebVoyager: 利用大型多模态模型构建端到端网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13919) | ACL 2024 |\n| [BrowserAgent: 构建具有人类启发式网络浏览行为的网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.10666v2) | 2025 |\n| [WALT: 学习工具的网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.01524) | 2025 |\n| [WebDancer: 朝着自主信息搜寻智能体迈进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22648) | 2025 |\n| [WebShaper: 通过信息搜寻形式化实现智能体驱动的数据合成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.15061) | 2025 |\n| [AutoDroid: 基于大语言模型的Android任务自动化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.15272) | MobiCom 2024 |\n| [MobileExperts: 移动设备中由动态工具支持的智能体团队](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.03913) | 2024 |\n| [AgentStore: 可扩展地集成异构智能体，打造专业化的通用计算机助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.18603) | 2024 |\n| [OS-Copilot: 朝着具备自我改进能力的通用计算机智能体迈进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07456) | 2024 |\n| [OSCAR: 基于状态感知的推理和重规划实现操作系统控制](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.18963) | 2024 |\n| [OS-ATLAS: 通用GUI智能体的基础动作模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.23218) | 2024 |\n| [SeeClick: 利用GUI接地技术打造先进的视觉GUI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10935) | 2024 |\n| [Agentic Reasoning: 简化框架，借助智能体工具提升LLM推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.04644) | 2025 |\n| [Agent Laboratory: 使用大语言模型代理作为科研助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227) | 2025 |\n| [MLR-Copilot: 基于大语言模型智能体的自主机器学习研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.14033) | 2024 |\n| [Dolphin: 通过思考、实践和反馈迈向闭环自动研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03916v3) | 2025 |\n| [AI科学家: 完全自动化的开放式科学发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06292) | 2024 |\n| [AI科学家-v2: 基于智能体树状搜索实现车间级别的自动化科学发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08066) | 2025 |\n| [WebExplorer: 探索与进化，用于训练长周期网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.06501) | 2025 |\n| [WebSailor: 为网络智能体提供超人般的推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.02592) | 2025 |\n| [RaDA: 基于检索增强的网络智能体规划，结合大语言模型](https:\u002F\u002Faclanthology.org\u002F2024.findings-acl.802\u002F) | 2024 |\n| [Synapse: 以轨迹为示例的提示方式，结合记忆用于计算机控制](https:\u002F\u002Fopenreview.net\u002Fforum?id=Pc8AU1aF5e) | ICLR 2024 |\n| [LearnAct: 少样本移动GUI智能体，采用统一的演示基准](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.13805) | 2025 |\n| [探索、选择、推导与回忆：为移动任务自动化赋予LLM类人记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03003v3) | 2023 |\n| [基于生成式指南的检索增强型GUI智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24183) | 2025 |\n| [WebThinker: 赋能大型推理模型，使其具备深度研究能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21776) | 2025 |\n| [DeepResearcher: 通过在真实环境中进行强化学习扩大深度研究规模](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03160) | 2025 |\n| [PaperQA: 检索增强型生成式智能体，用于科学研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.07559) | 2023 |\n| [语言智能体实现了超人类水平的科学知识综合](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.13740) | 2024 |\n| [思想链：利用大语言模型智能体推动新型创意开发，从而革新研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13185) | 2024 |\n| [Scideator: 基于科研论文要素重组的人机协同科学创意生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.14634v5) | 2024 |\n\n#### 自我演化的代理式推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [代理工作流记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07429) | 2024 |\n| [VLM 代理生成自身记忆：将经验提炼为具身化思维程序](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14596v6) | 2024 |\n| [BrowserAgent：基于人类启发式网页浏览行为构建网络代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.10666v2) | 2025 |\n| [AutoWebGLM：基于大型语言模型的网页导航代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03648) | 2024 |\n| [AgentOccam：基于 LLM 的网络代理的简单而强大的基线](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13825) | 2024 |\n| [LiteWebAgent：面向 VLM 基础网络代理应用的开源套件](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.02950) | 2025 |\n| [WebDancer：迈向由大型语言模型代理实现的自动化网络信息搜索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.22648) | 2025 |\n| [WebShaper：通过信息搜索形式化进行代理式数据合成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.15061) | 2025 |\n| [探索、选择、推导与回忆：为移动任务自动化增强 LLM 的类人记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.03003v3) | 2023 |\n| [MobA：多面记忆增强型自适应规划，用于高效移动任务自动化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13757) | 2024 |\n| [Mobile-Agent-E：面向复杂任务的自我演化移动助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11733) | 2025 |\n| [代理实验室：将 LLM 代理用作研究助理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04227) | 2025 |\n| [GPT Researcher](https:\u002F\u002Fgithub.com\u002Fassafelovic\u002Fgpt-researcher) | 2023 |\n| [思想链：借助 LLM 代理进行新型创意开发，革新科研](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13185) | 2024 |\n| [AI 科学家-v2：基于代理式树状搜索的车间级自动化科学发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.08066) | 2025 |\n| [Agent Q：面向自主 AI 代理的高级推理与学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.07199) | 2024 |\n| [基于反思的记忆用于网络导航代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.02158) | 2025 |\n| [Agent-E：从自主网络导航到代理系统中的基础设计原则](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13032) | 2024 |\n| [Recon-Act：通过网络侦察、工具生成和任务执行实现自我演化的多代理浏览器使用系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21072) | 2025 |\n| [WINELL：利用 LLM 代理实现维基百科的永续更新](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03728) | 2025 |\n| [WebSeer：通过带有自我反思的强化学习训练更深层次的搜索代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.18798) | 2025 |\n| [GUI-Reflection：以自我反思行为赋能多模态 GUI 模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.08012) | 2025 |\n| [面向 GUI 代理的历史感知推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.09127) | 2025 |\n| [MobileUse：具有层次性反思能力的 GUI 代理，用于自主移动操作](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16853) | 2025 |\n| [InfiGUIAgent：具备原生推理与反思能力的多模态通用 GUI 代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.04575) | 2025 |\n| [Mobile-Agent-E：面向复杂任务的自我演化移动助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11733) | 2025 |\n| [CycleResearcher：通过自动审查改进自动化研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.00816) | 2024 |\n| [MLR-Copilot：基于大型语言模型代理的自主机器学习研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.14033) | 2024 |\n| [Dolphin：通过思考、实践和反馈迈向闭环自动研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.03916v3) | 2025 |\n| [DeepResearcher：通过在真实环境中进行强化学习扩展深度研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.03160) | 2025 |\n\n#### 集体多代理推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [WebPilot：一种多功能且自主的多代理系统，用于带战略探索的网络任务执行](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15978) | 2024 |\n| [WINELL：利用 LLM 代理实现维基百科的永续更新](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.03728) | 2025 |\n| [Recon-Act：通过网络侦察、工具生成和任务执行实现自我演化的多代理浏览器使用系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.21072) | 2025 |\n| [提议者-代理-评估者（PAE）：面向基础模型互联网代理的自主技能发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.13194) | 2024 |\n| [Agent-E：从自主网络导航到代理系统中的基础设计原则](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.13032) | 2024 |\n| [计划并行动：改进代理对长周期任务的规划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.09572) | 2025 |\n| [代理式网络：用 AI 代理编织下一代网络](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21206) | 2025 |\n| [CoLA：协作式低秩适应](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15471) | 2025 |\n| [Mobile-Agent-v2：具有多代理协作有效导航功能的移动设备操作助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.01014) | ACL 2024 |\n| [Mobile-Agent-E：面向复杂任务的自我演化移动助手](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11733) | 2025 |\n| [Mobile-Agent-V：一种视频引导的方法，用于在移动自动化中轻松高效地注入操作知识](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.17110) | 2025 |\n| [MobileExperts：为移动自动化协调具备工具能力的专家](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.03913) | 2024 |\n| [合成数据生成与多步强化学习用于推理和工具使用](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.04736) | 2025 |\n| [PC-Agent：面向 PC 上复杂任务自动化的一套分层多代理协作框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.14282) | 2025 |\n| [AgentRxiv：迈向协作式自主研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.18102) | 2025 |\n| [通过多 LLM 框架加速科学研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.07960) | 2025 |\n| [大型语言模型是零样本推理者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11916) | NeurIPS 2022 |\n| [大型语言模型涌现的自主科学研究能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.05332) | Nature 2023 |\n| [迈向由 AI 制造的科学家团队，利用基因表达数据进行科学发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12391) | 2024 |\n\n---\n\n\n\n## 📊 基准测试\n\n![bench](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_271236288dd0.png)\n\n\n### ⚙️ 代理式推理的核心机制\n\n\n#### 工具使用\n\n\n##### 单轮工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [ToolQA: 用于大语言模型外部工具问答的数据集](https:\u002F\u002Fopenreview.net\u002Fforum?id=pV1xV2RK6I) | NeurIPS 2023 |\n| [Gorilla: 连接海量API的大语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.15334) | 2023 |\n| [ToolLLM: 帮助大语言模型掌握16000+真实世界API](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.16789) | ICLR 2024 |\n| [MetaTool: 针对专用型大语言模型控制的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03128) | ICLR 2024 |\n| [T-Eval: 分步骤评估大语言模型的工具使用能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.14033) | ACL 2024 |\n| [GTA: 通用工具代理的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08713) | NeurIPS 2024 |\n| [检索模型并不擅长工具使用：针对大语言模型工具检索的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.01763) | 2025 |\n\n##### 多轮工具使用\n\n| 论文 | 年份 |\n| --- | --- |\n| [ToolAlpaca: 基于3000个模拟案例的语言模型通用工具学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05301) | 2023 |\n| [开源大语言模型的工具操作能力研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16504) | 2023 |\n| [API-Bank: 工具增强型大语言模型的综合基准测试](https:\u002F\u002Faclanthology.org\u002F2023.emnlp-main.187\u002F) | EMNLP 2023 |\n| [规划、创建、使用：面向真实复杂场景下大语言模型全面工具使用的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.17167) | ACL 2024 |\n| [MTU-Bench: 大语言模型多粒度工具使用基准测试](https:\u002F\u002Fopenreview.net\u002Fforum?id=6guG2OlXsr) | ICLR 2025 |\n\n#### 搜索\n\n\n#### 记忆与规划\n\n##### 长期情景记忆\n\n| 论文 | 年份 |\n| --- | --- |\n| [PerLTQA: 基于人格的RAG长期记忆基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.16288) | 2024 |\n| [ELITR-Bench: 面向长上下文大语言模型的会议助理基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.20262) | 2024 |\n| [Multi-IF: 多轮指令遵循的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.15553) | 2024 |\n| [MultiChallenge: 对前沿大语言模型构成挑战的真实多轮对话评估基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.17399v1) | 2025 |\n| [TurnBench-MS: 用于评估大语言模型多轮多步推理的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.01341) | 2025 |\n| [StoryBench: 用于评估多轮长期记忆的动态基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.13356) | 2025 |\n| [MMRC: 用于理解多模态大语言模型在真实对话中表现的大规模基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.11903) | 2025 |\n\n##### 多会话回忆\n\n| 论文 | 年份 |\n| --- | --- |\n| [评估LLM智能体的超长期对话记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17753) | 2024 |\n| [MemSim: 用于评估基于LLM的个人助理记忆的贝叶斯模拟器](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.20163) | 2024 |\n| [LongMemEval: 针对聊天助手长期交互记忆的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10813) | 2024 |\n| [REALTALK: 为期21天的长期对话真实世界数据集](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13270) | 2025 |\n| [通过增量式多轮交互评估LLM智能体的记忆](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.05257) | 2025 |\n| [Mem-Gallery: 针对MLLM智能体多模态长期对话记忆的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03515) | 2026 |\n| [Evo-Memory: 基于自进化记忆的LLM智能体测试时学习基准](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20857) | 2025 |\n\n##### 计划与反馈\n\n| 论文 | 年份 |\n| --- | --- |\n| [ALFWorld: 对齐文本与具身环境以实现交互式学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.03768) | ICLR 2021 |\n| [PlanBench: 用于评估大语言模型计划与变化推理能力的可扩展基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10498) | NeurIPS 2022 |\n| [ACPBench: 关于行动、变化和计划的推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05669) | 2024 |\n| [Text2World: 用于评估大语言模型符号化世界模型生成的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.13092) | ACL 2025 |\n| [REALM-Bench: 用于评估多智能体系统在现实、动态的计划与调度任务中的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18836v2) | 2025 |\n| [TravelPlanner: 用于语言智能体进行真实世界计划的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01622) | ICML 2024 |\n| [FlowBench: 重新审视并基准评估基于LLM的智能体工作流引导式计划](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14884) | 2024 |\n| [UrbanPlanBench: 用于评估大语言模型的城市规划综合基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.21027) | 2025 |\n\n#### 多智能体系统\n\n##### 基于游戏的强化学习评估\n\n| 论文 | 年份 |\n| --- | --- |\n| [MAgent: 用于人工群体智能的多智能体强化学习平台](https:\u002F\u002Farxiv.org\u002Fabs\u002F1712.00600) | AAAI 2018 |\n| [Pommerman: 一个多智能体游乐场](https:\u002F\u002Farxiv.org\u002Fabs\u002F1809.07124) | 2018 |\n| [星际争霸多智能体挑战](https:\u002F\u002Farxiv.org\u002Fabs\u002F1902.04043) | NeurIPS 2019 |\n| [MineLand: 模拟具有有限多模态感知能力和物理需求的大规模多智能体交互](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.19267) | 2024 |\n| [TeamCraft: 在Minecraft中用于多模态多智能体系统的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.05255) | 2024 |\n| [用熔炉进行多智能体强化学习的可扩展评估](https:\u002F\u002Farxiv.org\u002Fabs\u002F2107.06857) | ICML 2021 |\n| [BenchMARL: 多智能体强化学习的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.01472) | 2023 |\n| [Arena: 一个用于多智能体智能的通用评估平台和构建工具包](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.08085) | AAAI 2020 |\n\n#### 以仿真为中心的真实世界评估\n\n| 论文 | 年份 |\n| --- | --- |\n| [SMARTS: 用于自动驾驶的可扩展多智能体强化学习训练营](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.09776) | CoRL 2020 |\n| [Nocturne: 一个可扩展的驾驶基准，使多智能体学习更接近现实](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.09889) | NeurIPS 2022 |\n| [用于库存管理的多功能多智能体强化学习基准](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.07542) | 2023 |\n| [IMP-MARL: 一套用于基础设施管理规划的多智能体强化学习环境](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.11551) | NeurIPS 2023 |\n| [POGEMA: 部分可观测网格环境，适用于多个智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10944) | Arxiv 2022 |\n| [IntersectionZoo: 用于基准测试多智能体情境强化学习的环保驾驶](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.15221) | NeurIPS 2024 |\n| [REALM-Bench: 用于评估多智能体系统在现实、动态的计划和调度任务中的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.18836v2) | 2025 |\n\n#### 语言、交流与社会推理\n\n| 论文 | 年份 |\n| --- | --- |\n| [LLM-Coordination: 评估和分析大型语言模型中的多智能体协调能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03903) | 2023 |\n| [AvalonBench: 评估大型语言模型在阿瓦隆游戏中的表现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.05036) | 2023 |\n| [Welfare Diplomacy: 语言模型合作能力基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.08901) | 2023 |\n| [MAgIC: 探究由大型语言模型驱动的多智能体在认知、适应性、理性及协作方面的表现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.08562) | EMNLP 2024 |\n| [BattleAgentBench: 用于评估多智能体系统中语言模型合作与竞争能力的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.15971) | 2024 |\n| [COMMA: 多智能体系统中智能体间通信的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.07553) | 2024 |\n| [IntellAgent: 用于评估现实场景下对话智能体的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.11067v1) | 2025 |\n| [MultiAgentBench: 评估LLM智能体的协作与竞争能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.01935) | 2025 |\n\n\n\n\n\n\n\n### 🎯 智能体推理的应用\n\n\n\n#### 具身智能体\n\n| 论文 | 年份 |\n| --- | --- |\n| [Agent-X: 在以视觉为中心的智能体任务中评估深度多模态推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.24876) | 2025 |\n| [BALROG: 游戏场景下智能体LLM和VLM推理能力的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.13543) | NeurIPS 2024 |\n| [ALFWorld: 对齐文本与具身环境以实现交互式学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.03768) | ICLR 2021 |\n| [理解复杂安卓环境中大型语言模型智能体的弱点](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.06596) | 2024 |\n| [MindAgent: 新兴的游戏交互能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.09971) | 2023 |\n| [与大型语言模型进行重复博弈](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.16867) | 2023 |\n| [OSWorld: 面向真实计算机环境中的开放性任务，多模态智能体的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972) | NeurIPS 2024 |\n\n\n\n#### 科学发现智能体\n\n| 论文 | 年份 |\n| --- | --- |\n| [DISCOVERYWORLD: 用于开发和评估自动化科学发现智能体的虚拟环境](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.06769) | NeurIPS 2024 |\n| [ScienceWorld: 您的智能体比五年级学生更聪明吗？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07540) | EMNLP 2022 |\n| [ScienceAgentBench: 推动对数据驱动型科学发现语言智能体的严格评估](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05080) | NeurIPS 2024 |\n| [AI科学家: 完全自动化的开放式科学发现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2408.06292) | 2024 |\n| [LAB-Bench: 衡量语言模型在生物学研究中的能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.10362) | 2024 |\n| [MLAgentBench: 评估语言智能体在机器学习实验中的表现](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.03302) | 2023 |\n\n\n\n#### 自主研究智能体\n\n| 论文 | 年份 |\n| --- | --- |\n| [WorkArena: 网络智能体解决常见办公任务的能力有多强？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07718) | ICML 2024 |\n| [WorkArena++: 向像员工一样工作的智能体迈进](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.05291) | 2024 |\n| [OfficeBench: 针对办公自动化多个应用场景的语言智能体基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.19056) | 2024 |\n| [PlanBench: 一个可扩展的基准测试，用于评估大型语言模型在规划和变化推理方面的能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.10498) | NeurIPS 2022 |\n| [FlowBench: 重新审视并基准测试基于LLM的智能体在工作流引导下的规划能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.14884) | 2024 |\n| [ACPBench: 关于行动、变化和规划的推理能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.05669) | 2024 |\n| [TRAIL: 跟踪推理与智能体问题定位](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.08638) | 2025 |\n| [CLIN: 一种持续学习的语言智能体，用于快速任务适应和泛化](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.10134) | NeurIPS 2023 |\n| [Agent-as-a-Judge: 用智能体来评估智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.10934) | 2024 |\n| [InfoDeepSeek: 基于检索增强生成的智能体信息搜索能力基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15872) | 2025 |\n\n\n\n#### 医疗与临床智能体\n\n| 论文 | 年份 |\n| --- | --- |\n| [AgentClinic: 面向临床环境的多模态智能体基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.07960) | NeurIPS 2024 |\n| [MedAgentBench: 用于评估医疗LLM智能体的虚拟电子病历环境](https:\u002F\u002Fwww.researchgate.net\u002Fpublication\u002F395098333_MedAgentBench_A_Virtual_EHR_Environment_to_Benchmark_Medical_LLM_Agents) | NEJM AI 2025 |\n| [EHRAgent: 代码赋能大型语言模型，实现对电子健康记录的复杂表格推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.07128) | 2024 |\n| [MedAgents: 大型语言模型作为零样本医学推理的合作者](https:\u002F\u002Farxiv.org\u002Fabs\u002F2311.10537) | 2023 |\n| [GuardAgent: 通过知识驱动的推理，由守护智能体保护LLM智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.09187) | 2024 |\n\n\n\n#### 网络智能体\n\n| 论文 | 年份 |\n| --- | --- |\n| [WebShop：面向可扩展的真实世界网络交互的具身语言代理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01206) | NeurIPS 2022 |\n| [WebArena：用于构建自主智能体的真实网络环境](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.13854) | ICLR 2024 |\n| [OSWorld：在真实计算机环境中对多模态智能体进行开放式任务基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.07972) | NeurIPS 2024 |\n| [AppWorld：用于基准测试交互式编程智能体的可控应用与用户世界](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.18901) | ACL 2024 |\n| [WorkArena：网络智能体解决常识性工作任务的能力如何？](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07718) | 2024 |\n| [VisualWebArena：在真实的视觉网络任务上评估多模态智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13649) | NeurIPS 2024 |\n| [WebVoyager：使用大型多模态模型构建端到端网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.13919) | ACL 2024 |\n| [Mind2Web：迈向通用的网络智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06070) | NeurIPS 2023 |\n| [Mind2Web 2：以“智能体即裁判”方式评估代理式搜索](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.21506) | 2025 |\n| [WebCanvas：在网络画布中对网络智能体进行基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.12373) | NeurIPS 2024 |\n| [Web-Bench：基于Web标准和框架的大模型代码基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.07473) | 2025 |\n| [VisualWebBench：多模态大模型在网页理解和具身化方面发展到了什么程度？](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2404.05955) | 2024 |\n| [WebLINX：通过多轮对话实现真实网站导航](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05930) | CVPR 2024 |\n| [LASER：具有状态空间探索能力的LLM智能体，用于网络导航](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.08172) | NeurIPS 2023 |\n| [AutoWebGLM：自举并强化基于大型语言模型的自动化网络导航智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2404.03648) | 2024 |\n| [OmniACT：为桌面和网络赋能多模态通用自主智能体的数据集与基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.17553) | 2024 |\n| [BEARCUBS：面向使用计算机的网络智能体的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.07919) | 2025 |\n| [BrowseComp：一个简单但极具挑战性的浏览智能体基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.12516) | 2025 |\n| [BrowseComp-ZH：中文环境下大型语言模型的网页浏览能力基准测试](https:\u002F\u002Fwww.arxiv.org\u002Fabs\u002F2504.19314) | 2025 |\n| [Video-Browser：迈向代理式的开放网络视频浏览](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.23044) | 2025 |\n\n\n#### 通用工具使用智能体\n\n| 论文 | 年份 |\n| --- | --- |\n| [GTA：通用工具智能体基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08713) | NeurIPS 2024 |\n| [NESTFUL：评估大模型在嵌套API调用序列上的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.03797) | 2024 |\n| [执行代码动作能更好地激发大模型智能体](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.01030) | ICML 2024 |\n| [RestGPT：将大型语言模型与真实世界的RESTful API连接起来](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.06624) | 2023 |\n| [Search-o1：增强代理功能的大规模推理模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.05366) | 2025 |\n| [通过强化学习实现大模型的代理式推理与工具集成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.01441) | 2025 |\n| [ActionReasoningBench：有无分支约束下的行动推理基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.04046) | 2024 |\n| [R-Judge：大模型智能体安全关键决策的基准测试](https:\u002F\u002Farxiv.org\u002Fabs\u002F2401.10019) | 2024 |\n\n\n\n\n## 许可证\n\n本仓库采用 MIT 许可证授权。\n\n---\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_readme_0b05e4dcfc57.png)](https:\u002F\u002Fstar-history.com\u002F#weitianxin\u002FAwesome-Agentic-Reasoning&Date)","# Awesome-Agentic-Reasoning 快速上手指南\n\n**Awesome-Agentic-Reasoning** 并非一个可直接安装的软件库或框架，而是一个**精选论文与资源列表仓库**。它基于综述论文《Agentic Reasoning for Large Language Models: A Survey》，系统整理了将“推理”与“行动”相结合的前沿研究，涵盖规划、工具使用、搜索、自我进化、多智能体协作及实际应用等领域。\n\n本指南旨在帮助开发者快速利用该仓库获取核心学术资源，并定位到具体的代码实现。\n\n## 环境准备\n\n由于本项目主要是文献索引，无需特定的运行时环境。但为了阅读论文、复现代码或参与贡献，建议准备以下基础环境：\n\n*   **操作系统**：Linux, macOS 或 Windows\n*   **必备工具**：\n    *   Git（用于克隆仓库）\n    *   现代浏览器（访问 arXiv、Hugging Face 及论文主页）\n    *   Python 3.8+（若需运行列表中具体论文提供的开源代码）\n*   **网络环境**：\n    *   访问 arXiv 和 GitHub 可能需要稳定的网络连接。\n    *   **国内加速建议**：访问 arXiv 论文时，推荐使用国内镜像站（如 `arxiv.org.cn` 或各高校镜像）以加快 PDF 下载速度。\n\n## 安装步骤（获取资源）\n\n你只需要将仓库克隆到本地即可开始浏览和检索资源。\n\n1.  **打开终端**，执行以下命令克隆仓库：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning.git\n    ```\n\n2.  **进入目录**：\n    ```bash\n    cd Awesome-Agentic-Reasoning\n    ```\n\n3.  **查看内容**：\n    直接在 GitHub 网页版浏览，或在本地使用 Markdown 阅读器打开 `README.md` 文件。\n\n    > **提示**：该仓库会持续更新。如需获取最新论文列表，请定期执行 `git pull`。\n    > ```bash\n    > git pull origin main\n    > ```\n\n## 基本使用\n\n本仓库的核心用法是**按主题查找论文**，然后前往对应的官方项目页面获取代码。以下是使用流程示例：\n\n### 1. 确定研究方向\n根据 `README.md` 中的分类目录，找到你感兴趣的技术领域。主要分类包括：\n*   **基础代理推理 (Foundational Agentic Reasoning)**：规划 (Planning)、工具使用 (Tool Use)、搜索 (Search)。\n*   **自进化推理 (Self-evolving Agentic Reasoning)**：反馈机制、记忆模块、能力进化。\n*   **集体多智能体推理 (Collective Multi-agent Reasoning)**：角色分类、协作分工、多智能体记忆。\n*   **应用场景 (Applications)**：数学探索、科学发现、具身智能、医疗、自主网页探索等。\n\n### 2. 查找具体论文\n例如，如果你想研究 **“思维树 (Tree of Thoughts)\"** 相关的规划方法：\n1.  在文档中定位到 `🗺️ Planning Reasoning` -> `Tree Search \u002F Algorithm Simulation` 部分。\n2.  找到论文标题：*[Tree of Thoughts: Deliberate Problem Solving with Large Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10601)*。\n3.  点击链接跳转至 arXiv 页面阅读论文，或搜索该论文名称找到其官方 GitHub 仓库（通常论文摘要或主页会提供代码链接）。\n\n### 3. 引用资源\n如果在你的研究或项目中使用了该列表中的资源，建议在参考文献中引用其核心综述论文：\n\n```bibtex\n@article{wei2026agentic,\n  title={Agentic Reasoning for Large Language Models},\n  author={Wei, Tianxin and Li, Ting-Wei and Liu, Zhining and Ning, Xuying and Yang, Ze and Zou, Jiaru and Zeng, Zhichen and Qiu, Ruizhong and Lin, Xiao and Fu, Dongqi and others},\n  journal={arXiv preprint arXiv:2601.12538},\n  year={2026}\n}\n```\n\n### 4. 贡献新资源\n如果你发现了新的相关论文，可以通过以下方式贡献：\n*   **提交 Pull Request**：直接修改列表并发起 PR。\n*   **创建 Issue**：在仓库中提出新增建议。\n*   **联系作者**：发送邮件至 `twei10@illinois.edu`, `twli@illinois.edu`, 或 `liu326@illinois.edu`。","某 AI 初创团队正致力于研发一款能自主完成复杂科学实验设计的智能代理，急需整合规划、工具调用及多 agent 协作等前沿能力。\n\n### 没有 Awesome-Agentic-Reasoning 时\n- **文献检索如大海捞针**：研究人员需在 arXiv 上手动筛选数千篇论文，难以区分哪些真正涉及“推理与行动结合”，效率极低。\n- **技术路线支离破碎**：缺乏系统分类，团队难以理清“规划推理”、“工具优化”与“记忆反馈”之间的架构关系，导致系统设计逻辑混乱。\n- **复现基准缺失**：找不到统一的评测标准（Benchmarks），无法量化验证自研模型在数学探索或医疗场景下的实际推理水平。\n- **错过关键演进机制**：容易忽略最新的“自我进化”或“多 agent 分工”研究成果，使产品停留在基础对话层面，缺乏自主性。\n\n### 使用 Awesome-Agentic-Reasoning 后\n- **精准定位核心资源**：直接通过其主题分类（如 Tool-Use Optimization、Agentic Memory）快速锁定高质量论文，将调研时间从数周缩短至几天。\n- **构建清晰技术图谱**：依托仓库提供的框架概览，团队迅速确立了包含“感知 - 规划 - 行动 - 反思”闭环的系统架构，开发方向明确。\n- **对标权威评测体系**：利用收录的 Core Mechanisms 和 Applications 基准测试，快速验证并迭代模型在科学发现任务中的表现。\n- **吸纳前沿演进策略**：及时获取关于多 agent 协作与自我进化的最新案例，成功为系统植入动态调整策略的能力，显著提升解决复杂问题的成功率。\n\nAwesome-Agentic-Reasoning 将分散的研究成果转化为结构化的工程指南，帮助开发者从盲目试错转向基于前沿理论的高效构建。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fweitianxin_Awesome-Agentic-Reasoning_61d69ad7.png","weitianxin","TianxinWei","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fweitianxin_c56e2b98.png","Final-year PhD@ UIUC | Prev@USTC-SGY","University of Illinois Urbana Champaign","Champaign",null,"https:\u002F\u002Fweitianxin.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fweitianxin",1172,91,"2026-04-04T08:40:44","MIT",1,"","未说明",{"notes":93,"python":91,"dependencies":94},"该项目是一个论文综述列表（Awesome List），用于整理和分类关于“代理推理（Agentic Reasoning）”的研究论文和资源。它本身不是一个可执行的软件工具或代码库，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库的安装需求。用户只需浏览该仓库中的链接以阅读相关论文。",[],[26,15],[97,98,99,100,101,102,103],"agent","agentic-ai","awesome-resources","generative-ai","large-language-models","reasoning","survey","2026-03-27T02:49:30.150509","2026-04-06T10:23:44.050890",[107,112,117,122,127,131],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},15339,"论文《Evo-Memory》相关的代码和数据集会开源吗？","是的，作者计划开源代码和数据集。目前论文正在审稿中，代码也在根据公司要求进行完善。一旦获得许可，将尽快发布代码和数据集。","https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning\u002Fissues\u002F16",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},15340,"如何向该仓库推荐或提交相关的研究论文？","用户可以通过创建 Issue 来建议添加相关论文。在 Issue 中提供论文的标题、链接以及简要总结（包括其如何契合仓库主题），维护者审核后会将其添加到 README 的相关章节中，并可能纳入论文的下一次修订版。","https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning\u002Fissues\u002F15",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},15341,"关于智能体规划（Agentic Planning）的新工作会被收录吗？","会的。如果用户提交的关于智能体规划（例如长程任务中的全局规划器训练）的相关工作符合仓库范围，维护者会将其添加到 README 中，并整合到综述论文的下一版修订中。","https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning\u002Fissues\u002F8",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},15342,"是否接受关于通过强化学习（RL）提升软件工程中智能体能力的论文？","接受。仓库欢迎收录关于通过强化学习训练软件工程（SWE）模型以提升其智能体搜索和问题解决能力的论文（例如 ACL 2025 和 ICSE 2026 接收的相关工作）。用户可通过 Issue 提交此类论文的详细信息供维护者评估收录。","https:\u002F\u002Fgithub.com\u002Fweitianxin\u002FAwesome-Agentic-Reasoning\u002Fissues\u002F12",{"id":128,"question_zh":129,"answer_zh":130,"source_url":116},15343,"该仓库主要涵盖哪些领域的研究内容？","该仓库是一个关于“智能体推理（Agentic Reasoning）”的综合调查和资源库，涵盖的主题包括但不限于：智能体规划（Planning）、工具使用（Tool Use）、长程任务处理、以及通过强化学习提升智能体在软件工程等领域的表现。",{"id":132,"question_zh":133,"answer_zh":134,"source_url":121},15344,"提交的论文被收录后会在哪里展示？","被收录的论文会被添加到项目的 README 文件中的相关分类下，同时也会被整合进维护者正在撰写的综述论文的下一个修订版本中。",[]]