Awesome-Agentic-Reasoning

1.2k 91 非常简单 1 次阅读昨天MIT语言模型Agent

AI 解读由 AI 自动生成，仅供参考

Awesome-Agentic-Reasoning 是一个专注于大模型“代理推理”（Agentic Reasoning）领域的精选资源库。它基于最新的综述论文《Agentic Reasoning for Large Language Models》，系统性地整理了将逻辑推理与实际行动相结合的前沿研究。

当前大模型往往擅长思考却难以执行复杂任务，Awesome-Agentic-Reasoning 正是为了解决这一痛点而生。它将分散的研究成果整合为清晰的知识体系，涵盖规划推理、工具使用优化、智能搜索、基于记忆与反馈的自我进化，以及多智能体协作等核心主题，并提供了数学探索、科学发现、医疗及具身智能等实际应用场景的论文与基准测试。

该资源库特别适合 AI 研究人员、算法工程师和技术开发者使用。对于希望深入理解如何让大模型从“对话者”转变为能自主规划、使用工具并解决现实问题的“行动者”的专业人士，这里提供了极佳的入门路径和前沿参考。其独特的技术亮点在于不仅罗列论文，更按“基础能力 - 自我进化 - 集体协作 - 实际应用”的逻辑框架进行分类，帮助使用者快速把握代理推理技术的全貌与发展脉络，是探索下一代自主智能系统不可或缺的指南。

使用场景

某 AI 初创团队正致力于研发一款能自主完成复杂科学实验设计的智能代理，急需整合规划、工具调用及多 agent 协作等前沿能力。

没有 Awesome-Agentic-Reasoning 时

文献检索如大海捞针：研究人员需在 arXiv 上手动筛选数千篇论文，难以区分哪些真正涉及“推理与行动结合”，效率极低。
技术路线支离破碎：缺乏系统分类，团队难以理清“规划推理”、“工具优化”与“记忆反馈”之间的架构关系，导致系统设计逻辑混乱。
复现基准缺失：找不到统一的评测标准（Benchmarks），无法量化验证自研模型在数学探索或医疗场景下的实际推理水平。
错过关键演进机制：容易忽略最新的“自我进化”或“多 agent 分工”研究成果，使产品停留在基础对话层面，缺乏自主性。

使用 Awesome-Agentic-Reasoning 后

精准定位核心资源：直接通过其主题分类（如 Tool-Use Optimization、Agentic Memory）快速锁定高质量论文，将调研时间从数周缩短至几天。
构建清晰技术图谱：依托仓库提供的框架概览，团队迅速确立了包含“感知 - 规划 - 行动 - 反思”闭环的系统架构，开发方向明确。
对标权威评测体系：利用收录的 Core Mechanisms 和 Applications 基准测试，快速验证并迭代模型在科学发现任务中的表现。
吸纳前沿演进策略：及时获取关于多 agent 协作与自我进化的最新案例，成功为系统植入动态调整策略的能力，显著提升解决复杂问题的成功率。

Awesome-Agentic-Reasoning 将分散的研究成果转化为结构化的工程指南，帮助开发者从盲目试错转向基于前沿理论的高效构建。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目是一个论文综述列表（Awesome List），用于整理和分类关于“代理推理（Agentic Reasoning）”的研究论文和资源。它本身不是一个可执行的软件工具或代码库，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库的安装需求。用户只需浏览该仓库中的链接以阅读相关论文。

python未说明

快速开始

令人惊叹的代理推理论文

Last Commit Visitors

本仓库按主题领域整理了将推理与行动相结合的研究，包括规划、工具使用、搜索、通过记忆和反馈实现自我进化、多智能体系统以及现实世界的应用和基准测试。

📄 基于该综述：大型语言模型中的代理推理：综述

框架概览

🔔 新闻

[03/09/26] 📊 幻灯片现已发布，旨在更清晰地概述该综述并突出关键见解。我们将继续更新论文以进一步完善内容。

[01/21/26] 🚀 我们发布了关于大型语言模型中的代理推理的全面综述！该论文现已在 arxiv 和 HuggingFace 上线。我们欢迎社区贡献，帮助扩展和改进我们的综述 🤗！

🌟 引言

通过能够推理、行动并在与环境持续交互中学习的自主智能体，架起思维与行动之间的桥梁。目标是通过将推理植根于行动来提升智能体的能力。

我们将代理推理分为三层，每一层对应不同环境动态下的独特推理范式：

🔹 基础推理。 在环境中具备的核心单智能体能力（规划、工具使用、搜索）

🔹 自我进化推理。 在动态环境中通过反馈、记忆和学习进行适应

🔹 集体推理。 多智能体协调、角色专业化和协作智能

在这几层之间，我们进一步识别出由其优化设置所定义的互补性推理范式。

🔸 情境内推理。 通过结构化编排和自适应工作流实现在测试时的扩展

🔸 训练后推理。 通过强化学习和监督微调优化行为

🤝 贡献

本合集是一项持续进行的工作。我们正在积极扩展和精炼其覆盖范围，并欢迎社区的贡献。您可以：

提交拉取请求以添加论文或资源
开启议题以建议更多论文或资源
发送邮件至 twei10@illinois.edu, twli@illinois.edu, liu326@illinois.edu

我们会定期更新仓库，纳入有关代理推理的新研究成果。

📝 引用

如果您觉得本仓库或论文有用，请考虑引用该综述论文：

@article{wei2026agentic,
  title={Agentic Reasoning for Large Language Models},
  author={Wei, Tianxin and Li, Ting-Wei and Liu, Zhining and Ning, Xuying and Yang, Ze and Zou, Jiaru and Zeng, Zhichen and Qiu, Ruizhong and Lin, Xiao and Fu, Dongqi and others},
  journal={arXiv preprint arXiv:2601.12538},
  year={2026}
}

🏗️ 基础代理推理

🗺️ 规划推理

情境内规划

工作流设计

论文	年份
LLM+P：以最优规划能力赋能大型语言模型	2023
PlanBench：用于评估大型语言模型在规划与变化推理方面表现的可扩展基准测试	NeurIPS 2023 DB Track
ReWOO：为高效增强型语言模型解耦推理与观测	2023
LLM Reasoners：基于大型语言模型的分步推理的新评估、库及分析	2024
从少到多提示法使大型语言模型具备复杂推理能力	ICLR 2023
计划-求解提示法：提升大型语言模型零样本链式思维推理能力	ACL 2023
思维算法：增强大型语言模型中的创意探索	ICML 2024
HuggingGPT：借助ChatGPT及其在Hugging Face中的伙伴解决AI任务	2023
计划、消除与追踪——语言模型是具身智能体的好老师	2023
PERIA：通过整合的语言与视觉规划进行感知、推理、想象与操作	2024
计划-行动：改进智能体针对长 horizon 任务的规划	2025
CodePlan：利用LLM与规划进行仓库级编码	FSE 2024
ReAct：在语言模型中协同推理与行动	ICLR 2023
Mind2Web：迈向通用型网络智能体	NeurIPS 2023
WILBUR：面向稳健且精准的网络智能体的自适应上下文学习	2024
可执行代码动作能引出更优秀的LLM智能体	ICML 2024
Gorilla：连接海量API的大规模语言模型	2023
Reflexion：具有言语强化学习的语言智能体	2023
CodeNav：超越工具使用，利用真实世界代码库的LLM智能体	ACL 2024
MARCO：结合实时知识集成的多智能体代码优化系统，用于高性能计算	2025
通过多路径协作式反应与反思智能体增强LLM推理能力	2025
Pre-Act：多步规划与推理提升LLM智能体的行动能力	2025
REST遇见ReAct：多步推理LLM智能体的自我改进	2023
大型语言模型的预行动计划式代码生成	TOSEM 2023
LM-Nav：基于大规模预训练语言、视觉和动作模型的机器人导航	CoRL 2022

树搜索 / 算法模拟

论文	年份
思维之树：利用大型语言模型进行审慎的问题解决	NeurIPS 2023
语言模型智能体的树搜索	2024
Tree-Planner：利用大型语言模型进行高效规划	ICLR 2024
Q*：通过审慎规划提升LLM的多步推理能力	2024
LLM-A*：大型语言模型增强的增量启发式搜索应用于路径规划	2024
语言模型中的多模态链式思维推理	2023
利用语言模型进行推理即是在构建世界模型的基础上进行规划	NeurIPS 2023
Agent Q：面向自主AI智能体的高级推理与学习	2024
蒙特卡洛树搜索通过迭代偏好学习提升推理能力	2024
基于提示的蒙特卡洛树搜索用于目标导向对话策略规划	2023
大型语言模型作为工具制造者	ICLR 2024
万物之思：违背彭罗斯三角定律进行思想生成	2023
类似AlphaZero的树搜索可以指导大型语言模型的解码与训练	2023
拓宽你的SCOPE！利用语义空间为LLM进行高效的多轮对话规划	2025
自我评估引导的束搜索用于推理	NeurIPS 2023
PathFinder：多模态多智能体医疗诊断框架	2025
判别器引导的具身规划用于LLM智能体	ICLR 2025
搜索流（SoS）：在语言中学习搜索	2024
System-1.x：学习用语言模型平衡快速与慢速规划	2024
Agent-E：从自主网络导航到智能体系统的基础设计原则	2024
基于LLM的流程自动化智能虚拟助手	2023
Agent S：一个像人类一样使用计算机的开放智能体框架	2024
超树规划：通过层次化思维提升LLM推理能力	2025
代码之树：用于复杂任务处理中端到端代码生成与执行的树状探索框架	ACL 2025
通过全局规划与层级执行增强基于LLM的智能体	2025
分而治之：通过离线层级强化学习将LLM固化为高效的决策智能体	2025
SWE-Search：利用蒙特卡洛树搜索与迭代精炼提升软件智能体	ICLR 2025
BTGenBot：用轻量级LLM为机器人任务生成行为树	2024
言行一致：将语言与机器人可用性相结合	CoRL 2022
内心独白：通过语言模型规划实现具身推理	CoRL 2022

流程形式化

论文	年份
利用预训练大型语言模型构建并使用世界模型进行基于模型的任务规划	NeurIPS 2023
利用环境交互实现大型语言模型的自动化PDDL翻译与规划	NeurIPS 2024
搜索之思：以效率为导向的语言模型规划	NeurIPS 2024
CodePlan：基于LLM和规划的仓库级编码	FSE 2024
严谨地规划任何事情：基于LLM的形式化编程的通用零样本规划	2024
从LLM集群到PDDL赋能的蜂巢：在多模态丛林中规划自我执行的指令	2024

解耦 / 分解

论文	年份
ReWOO：为高效增强型语言模型将推理与观测解耦	NeurIPS 2023
DiffuserLite：迈向实时扩散规划	2024
基于子目标模型的目标空间规划	JMLR 2024
多智能体系统中的面向智能体规划	2024
GoPlan：通过学习模型进行规划的条件式离线强化学习	2023
RetroInText：一种多模态大型语言模型增强框架，通过上下文内表示学习进行逆合成规划	ICLR 2025
HyperTree规划：通过层次化思维提升LLM推理能力	2025
VisualPredicator：利用神经符号谓词学习抽象世界模型用于机器人规划	2024
超越自回归：用于复杂推理的离散扩散	2024
PlanAgent：用于车辆运动规划的多模态大型语言代理	2024
LLaMAR：部分可观测环境中多智能体机器人的长 horizon 规划	2024

外部辅助 / 工具使用

论文	年份
Plan-on-Graph：知识图谱上的自纠正自适应规划	NeurIPS 2024
结合知识图谱-RAG和符号验证的复杂任务分层规划	2025
TeLoGraF：基于图编码的流匹配的时间逻辑规划	2025
FlexPlanner：通过混合动作空间中的深度强化学习及多模态表征进行灵活的3D平面布局规划	NeurIPS 2024
探索性检索增强规划用于持续的具身指令遵循	NeurIPS 2024
使用动态VQA数据集和自适应规划代理对多模态检索增强生成进行基准测试	2024
表格上的RAG：层次化内存索引、多阶段检索与基准测试	2025
用语言模型推理就是用世界模型进行规划	NeurIPS 2023
利用预训练大型语言模型构建并使用世界模型进行基于模型的任务规划	NeurIPS 2023
基于世界知识模型的智能体规划	NeurIPS 2024
BehaviorGPT：用于自动驾驶的智能代理模拟，具备下一补丁预测功能	NeurIPS 2024
DINO-WM：基于预训练视觉特征的世界模型实现零样本规划	2024
FLIP：以流动为中心的生成式规划作为通用操作世界模型	2024
通过在线世界模型进行规划的持续强化学习	2025
AdaWM：基于自适应世界模型的自动驾驶规划	2025
HuggingGPT：利用ChatGPT及其在Hugging Face中的伙伴解决AI任务	2023
Tool-Planner：跨多个工具的集群任务规划	2024
RetroInText：一种多模态大型语言模型增强框架，通过上下文内表示学习进行逆合成规划	ICLR 2025

训练后规划

论文	年份
Reflexion：具有口头强化学习能力的语言代理	NeurIPS 2023
反思后再规划：通过双重贝叶斯视角进行离线基于模型的规划	2025
具有内化效用判断的理性决策代理	2023
通过自动奖励建模扩展自主代理	2025
战略规划：自上而下的选项生成方法	2025
用于推理和规划的语言模型的非近视生成	2024
受物理启发的时间差度量学习用于机器人运动规划	2025
通过算子学习实现可推广的运动规划	2024
ToolOrchestra：通过高效的模型和工具编排提升智能	2025
用于模仿学习的潜在扩散规划	2025
SafeDiffuser：使用扩散概率模型的安全规划	ICLR 2023
ContraDiff：通过对比学习规划通往高回报状态	ICLR 2025
大规模Transformer的摊销式规划：以国际象棋为例	NeurIPS 2024
GOPlan：通过学习模型进行规划的条件式离线强化学习	2023
没有计划的目标只是愿望：高效有效的全局规划器训练用于长 horizon 智能体任务	2025

🛠️ 工具使用优化

tool

上下文内工具集成

交织推理与工具使用

论文	年份
思维链提示在大型语言模型中激发推理能力	NeurIPS 2022
ChatCoT：基于聊天的大型语言模型上的工具增强型思维链推理	EMNLP 2023
MultiTool-CoT：GPT-3 可通过思维链提示使用多种外部工具	ACL 2023
面向知识密集型多步问题的检索与思维链推理交织方法	ACL 2023
ReAct：在语言模型中实现推理与行动的协同	ICLR 2023
迈向 PDDL 规划辅助工具	2025
ART：大型语言模型的自动多步推理与工具使用	2023

针对工具交互优化上下文

论文	年份
工具文档使大型语言模型实现零样本工具使用	2023
EASYTOOL：以简洁的工具指令增强基于 LLM 的智能体	NAACL 2025
GEAR：用通用且高效的工具解析能力增强语言模型	EACL 2024
AvaTaR：通过对比推理优化 LLM 智能体的工具使用	NeurIPS 2024

微调后的工具集成

通过 SFT 引导工具使用

论文	年份
Toolformer：语言模型可自我学习使用工具	NeurIPS 2023
ToolLLM：助力大型语言模型掌握超过 16000 个真实世界 API	ICLR 2024
ToolAlpaca：基于 3000 个模拟案例的语言模型通用工具学习	2023
Chameleon：利用大型语言模型实现即插即用的组合式推理	NeurIPS 2023
RestGPT：将大型语言模型与现实世界的 RESTful API 相连	2023
ADaPT：按需分解与规划的语言模型应用	2023
Agent Lumos：开源语言智能体的统一模块化训练	2023
通过协作与交互式智能体学习工具使用	2024
理解 RLHF 对 LLM 泛化能力和多样性的影响	2023
在大型语言模型的监督微调中保持多样性	2024
大型语言模型的属性控制微调：以去毒为例	EMNLP 2024
Transformer Copilot：从 LLM 微调中的错误日志中学习	2025
iTool：针对高级工具使用的动态缺陷校准强化微调	2025
START：自教式工具推理者	2025

通过 RL 掌握工具使用

论文	年份
面向代码库深度搜索的工具集成强化学习	ICSE 2026
SoRFT：以子任务导向的强化微调解决问题	ACL 2025
SWE-RL：通过开放软件演进中的强化学习推进 LLM 推理	2025
SWE-Search：借助蒙特卡洛树搜索和迭代精炼提升软件智能体	2024
ToolRL：奖励是工具学习所需的全部	2025
RLVMR：采用可验证元推理奖励的强化学习，用于构建稳健的长时程智能体	2025
Search-R1：通过强化学习训练 LLM 进行推理并利用搜索引擎	2025
AutoTool：面向代理式推理的动态工具选择与集成	2025
ReSearch：通过强化学习让 LLM 学习利用搜索进行推理	2025
代理式强化策略优化	2025
代理式熵平衡策略优化	2025
Tool-Star：通过强化学习赋能 LLM 大脑的多工具推理者	2025
DeepAgent：具有可扩展工具集的通用推理智能体	2025
通过自我演化偏好学习实现有效工具集成推理	2025
揭秘代理式推理中的强化学习	2025
强化预训练	2025
ReTool：面向 LLM 的战略工具使用强化学习	2025
ZeroSearch：在不进行搜索的情况下激励 LLM 的搜索能力	2025
Kimi k1.5：与 LLM 结合的规模化强化学习	2025
Gemini 2.5：以先进推理和下一代代理能力推动前沿发展	2025
Kimi k2：开放的代理智能	2025
GLM-4.5：代理、推理和编码（ARC）基础模型	2025
学习如何使用工具，而不仅仅是何时使用：模式感知的工具集成推理	2025
SCRIBE：面向工具使用语言模型的结构化中级监督	2026
TaTToo：面向表格推理的测试时缩放工具基思考 PRM	2025

基于编排的工具集成

用于工具编排的代理式流水线

论文	年份
ToolPlanner: 一种用于多粒度指令、路径规划与反馈的工具增强型大语言模型	2025
通过元验证和反思学习推进工具增强型大语言模型	KDD 2025
OctoTools: 一个具有可扩展工具的智能体框架，用于复杂推理	2025
工具链：在冻结语言模型的思维链推理中利用大量未见过的工具	2025
PyVision: 具有动态工具的智能体视觉	2025
通过协作与交互式智能体学习使用工具	2024
El Agente: 一个用于量子化学的自主智能体	2025

用于编排的工具表示

论文	年份
ToolExpNet: 利用相似性和依赖性感知的经验网络优化大语言模型中的多工具选择	ACL (Findings) 2025
T^2Agent: 一种基于蒙特卡洛树搜索的工具增强型多模态虚假信息检测智能体	2025
ToolChain: 利用A搜索在大语言模型中高效导航行动空间	2023
ToolRerank: 面向工具检索的自适应且层次感知的重新排序	COLING 2024

🔍 智能体搜索

上下文内搜索

推理与搜索的交织

论文	年份
ReAct: 在语言模型中协同推理与行动	ICLR 2023
衡量并缩小语言模型中的组合性差距	2022
将检索与思维链推理交织用于知识密集型多步问题	2022
Self-RAG: 通过自我反思学习检索、生成和批判	NeurIPS Workshop 2023
使用动态VQA数据集和自适应规划智能体对多模态检索增强生成进行基准测试	2024
DeepRAG: 针对大语言模型逐步思考以进行检索	2025
MC-Search: 使用结构化推理链对多模态智能体RAG进行基准测试	NeurIPS Workshop 2025

结构增强型搜索

论文	年份
Agent-G: 一个用于图检索增强生成的智能体框架	2025
MC-Search: 使用结构化推理链对多模态智能体RAG进行基准测试	NeurIPS Workshop 2025
GeAR: 用于检索增强生成的图增强型智能体	2024
通过主动自我反思学习在知识图上进行检索和推理	2025

后训练搜索

基于SFT的智能体搜索

论文	年份
Toolformer: 语言模型可以自我教授如何使用工具	NeurIPS 2023
INTERS: 通过指令微调释放大型语言模型在搜索中的潜力	2024
RAG-Studio: 通过自我对齐实现检索增强生成的域内适配	EMNLP (Findings) 2024
RAFT: 将语言模型适配到特定领域的RAG	2024
Search-o1: 智能体搜索增强型大型推理模型	2025
RA-DIT: 检索增强型双重指令微调	ICLR 2023
SFR-RAG: 朝着上下文忠实的大语言模型迈进	2024

基于RL的智能体搜索

论文	年份
WebGPT: 基于浏览器辅助的人工反馈问答系统	2021
RAG-RL: 通过强化学习和课程学习推进检索增强生成	2025
Search-R1: 通过强化学习训练大语言模型进行推理并利用搜索引擎	2025
KBQA-R1: 对大型语言模型进行强化，用于知识库问答	2025
DeepResearcher: 通过强化学习在真实环境中扩展深度研究	2025
ReSearch: 通过强化学习让大语言模型学会结合搜索进行推理	2025
ReARTeR: 检索增强型推理，采用值得信赖的过程奖励	2025

🧬 自我演化的智能体推理

🔄 智能体反馈机制

feed

反思式反馈

论文	年份
Reflexion：具有语言型强化学习的智能体	NeurIPS 2023
Self-Refine：基于自我反馈的迭代优化	NeurIPS 2023
使语言模型能够从数据中隐式学习自我改进	ICLR 2024
自进化智能体综述：何时、何地、如何以及为何进化	TMLR 2025
思维之树：利用大型语言模型进行深思熟虑的问题解决	NeurIPS 2023
思维图谱：利用大型语言模型解决复杂问题	AAAI 2024
零样本验证引导的思维链	2025
ReAct：在语言模型中协同推理与行动	ICLR 2023
WebGPT：基于浏览器的人工反馈问答系统	2021
MemGPT：迈向将LLM用作操作系统	2023
Voyager：一个基于大型语言模型的开放式具身智能体	2023

参数化适应

论文	年份
AgentTuning：为LLM赋予通用智能体能力	2023
ReST遇见ReAct：用于多步推理LLM智能体的自我改进	2023
Re-ReST：面向语言智能体的反思强化自我训练	2024
逐级提炼！以更少的训练数据和更小的模型规模超越更大的语言模型	2023
基于人类偏好的深度强化学习	NeurIPS 2017
直接偏好优化：你的语言模型其实是一个奖励模型	NeurIPS 2023
宪法式AI：通过AI反馈确保无害性	2022
ReflectEvo：通过学习自我反思提升小型LLM的元认知能力	ACL（Findings）2025

验证器驱动的反馈

论文	年份
ReZero：通过再试一次来增强LLM的搜索能力	2025
反复尝试就够了？无需口头反馈即可增强大型语言模型的推理能力	2025
CodeRL：通过预训练模型和深度强化学习掌握代码生成	2022
LEVER：通过执行来学习验证语言到代码的生成	ICML 2023
SWE-bench：语言模型能否解决真实的GitHub问题？	ICLR 2024
照我做的做，别学我说的：将语言 grounding 到机器人 affordances 上	CoRL 2022
PaLM-E：一个具身多模态语言模型	ICML 2023
反思、重试、奖励：通过强化学习实现LLM的自我改进	2025

🧠 主体性记忆

mem

平面内存的主体性使用

事实性记忆

论文	年份
用于知识密集型 NLP 任务的检索增强生成	NeurIPS 2020
[Self-RAG：通过自我反思学习检索、生成和批判]	ICLR 2024
[MemoryBank：利用长期记忆增强大型语言模型]	2023
LlamaIndex	2022
[MemGPT：迈向将 LLM 作为操作系统]	2023
[RET-LLM：迈向大型语言模型的通用读写内存]	2023
[SCM：利用自控记忆框架增强大型语言模型]	2023
[评估 LLM 代理的超长期对话记忆]	2024
[LongMemEval：针对长期交互记忆的聊天助手基准测试]	2024
[SELFGOAL：你的语言代理已经知道如何实现高层次目标]	NAACL 2025
[FinMem：具有分层记忆和角色设计的性能增强型 LLM 交易代理]	2023
[A-mem：面向 LLM 代理的主体性记忆]	2025
[展望与回顾：面向长期个性化对话代理的反思式内存管理]	2025
[Zep：用于代理记忆的时间知识图架构]	2025
[MIRIX：基于 LLM 的多智能体记忆系统]	2025
[MemOS：大型语言模型中内存增强生成（MAG）的操作系统]	2025
[LightMem：轻量高效的记忆增强生成]	2025
[Nemori：受认知科学启发的自组织代理记忆]	2025

经验性记忆

论文	年份
[代理工作流记忆]	2024
[睡眠时间计算：超越推理规模化的测试时技术]	2025
[动态备忘录：带有适应性记忆的测试时学习]	2025
[主体性上下文工程：为自我改进的语言模型演化上下文]	2025
[ReasoningBank：利用推理记忆推动代理自我进化]	2025
[Evo-Memory：以自我进化记忆为基准测试 LLM 代理的测试时学习]	2025

内存的结构化使用

论文	年份
[RepoGraph：利用仓库级代码图提升 AI 软件工程能力]	2024
[从局部到全局：一种面向查询聚焦摘要的图式 RAG 方法]	2024
[Mem0：用可扩展的长期记忆构建生产就绪的 AI 代理]	2025
[Zep：用于代理记忆的时间知识图架构]	2025
[从孤立对话到层次化模式：LLM 的动态树形记忆表示]	2024
[AutoFlow：大型语言模型代理的自动化工作流生成]	2024
[AFlow：自动化主体性工作流生成]	ICLR 2025
[FlowMind：利用 LLM 自动化工作流生成]	2024
[看、听、记、思：具有长期记忆的多模态代理（M3-Agent）]	2025
[Agent-ScanKit：通过敏感性扰动解析多模态代理的记忆与推理]	2025
[Optimus-1：混合多模态记忆赋能的代理在长周期任务中表现出色]	NeurIPS 2024
[RAP：面向多模态 LLM 代理的带上下文记忆的检索增强规划]	2024

训练后内存控制

论文	年份
[MemAgent：基于多卷积强化学习的内存代理重塑长上下文 LLM]	2025
[MEM1：学习协同记忆与推理以打造高效的长周期代理]	2025
[Memory-R1：通过强化学习提升大型语言模型代理管理和利用记忆的能力]	2025
[Mem-alpha：通过强化学习学习记忆构建]	2025
[记忆即行动：面向长周期主体性任务的自主上下文整理]	2025
[代理通过早期经验学习]	2025
[主体性记忆：学习统一的长短期记忆管理以服务大型语言模型代理]	2026
[MemRL：通过运行时强化学习对情景记忆进行自我进化]	2026

🚀 演进中的基础智能体能力

mem

自我演进的规划

论文	年份
自我挑战的语言模型代理	2025
自我奖励的语言模型	ICML 2024
RLSR：基于自我奖励的强化学习	2025
Self：利用语言反馈实现自我进化	2023
通过强化学习训练语言模型进行自我修正	2024
TextGrad：面向语言模型的可微文本反馈	2024
AutoRule：基于思维链提取的规则奖励提升偏好学习	2025
AgentGen：通过环境与任务生成增强大语言模型驱动智能体的规划能力	2024
Reflexion：具备口头强化学习的语言智能体	NeurIPS 2023
Adaplanner：基于语言模型反馈的自适应规划	NeurIPS 2023
Self-refine：利用自我反馈进行迭代精炼	NeurIPS 2023
一个自我改进的编码智能体	2025
Ragen：通过多轮强化学习理解大模型智能体的自我进化	2025
DYSTIL：利用大语言模型为强化学习动态归纳策略	2025

自我演进的工具使用

论文	年份
大语言模型作为工具制造者	ICLR 2024
CRAFT：通过创建和检索专用工具集来定制大语言模型	ICLR 2024
CREATOR：工具创制以解耦大语言模型的抽象与具体推理	EMNLP 2023
LLM智能体制作智能体工具	2025

自我演进的记忆检索搜索

论文	年份
用于知识密集型NLP任务的检索增强生成	NeurIPS 2020
Self-RAG：通过自我反思学习检索、生成和评价	ICLR 2024
MemoryBank：用长期记忆增强大语言模型	2023
MemGPT：迈向将大语言模型作为操作系统	2023
智能体工作流记忆	2024
动态备忘录：测试时学习与自适应记忆	2025
Reflexion：具备口头强化学习的语言智能体	NeurIPS 2023
ReasoningBank：利用推理记忆扩展智能体自我演化	2025
智能体上下文工程：为自我改进的语言模型演化上下文	2025
AutoFlow：大语言模型智能体的自动化工作流生成	2024
AFlow：自动化智能体工作流生成	ICLR 2025
FlowMind：利用LLM自动工作流生成	2024
RepoGraph：以仓库级代码图提升AI软件工程	2024
从局部到全局：一种基于图的RAG方法用于查询聚焦摘要	2024
Mem0：用可扩展的长期记忆构建生产就绪的AI智能体	2025
Zep：面向智能体记忆的时间知识图架构	2025
MemOS：大语言模型中用于记忆增强生成（MAG）的操作系统	2025
记忆即行动：为长周期智能体任务提供自主上下文整理	2025

👥 集体多智能体推理

mem

🤝 协作与分工

collab

上下文内协作

手工构建的流水线

论文	年份
AgentOrchestra：用于通用任务解决的分层多智能体框架	2025
MetaGPT：面向多智能体协作框架的元编程	ICLR 2024
SurgRAW：具有思维链推理的多智能体工作流，用于手术智能	2025
Collab-RAG：通过白盒与黑盒LLM协作提升复杂问答的检索增强生成	2025
MA-RAG：基于协作式思维链推理的多智能体检索增强生成	2025
智能体之链：大语言模型在长上下文任务上的协作	NeurIPS 2024
AutoAgents：自动智能体生成框架	IJCAI 2024
RAG-KG-IL：减少幻觉并增强LLM推理能力的多智能体混合框架	2025
SMoA：利用稀疏混合智能体改进多智能体大语言模型	2024
MDocAgent：用于文档理解的多模态多智能体框架	2025

LLM驱动的流水线

论文	年份
AutoML-Agent：用于全管道自动机器学习的多智能体LLM框架	2024
Magentic-One：解决复杂任务的通用多智能体系统	2024
MAS-GPT：训练LLM构建基于LLM的多智能体系统	2025
MetaAgent：基于有限状态机自动构建多智能体系统	2025
多智能体系统中的面向智能体规划	2024
智能体路由器：用于协作式多智能体问答的知识图引导LLM路由器	2025
与合适的专家对话：用于问答的多智能体系统路由与规划	2025

理解他人心智的合作增强

论文	年份
通过大型语言模型实现多智能体协作的心智理论	2023
假设性心智：利用大型语言模型为多智能体任务搭建心智理论框架	2024
MindForge：赋予具身智能体心智理论能力以支持终身协作学习	2024
大型语言模型如何编码心智理论：基于稀疏参数模式的研究	npj人工智能，2025年
具备反事实反思能力的心智理论感知型生成式智能体——大型语言模型的应用	2025
BeliefNest：面向具有心智理论的具身智能体的联合行动模拟器	2025

后训练阶段的协作

多智能体提示优化

论文	年份
AutoAgents：自动智能体生成框架	IJCAI 2024
释放大型语言模型中的涌现认知协同效应：基于多角色自我协作的任务求解智能体	NAACL 2024
DSPy断言：用于自完善语言模型流水线的计算约束	2023
多智能体设计：通过更优的提示与拓扑结构优化智能体	2025
基于“梯度下降”和束搜索的自动提示优化	2023

基于图的拓扑结构生成

论文	年份
从图建模视角学习多智能体通信	2024
G-Designer：利用图神经网络构建多智能体通信拓扑结构	2024
用于稳健多智能体协调的图扩散	ICML 2025
精简冗余：面向基于LLM的多智能体系统的经济型通信管道	2024
多智能体通信的自适应图剪枝	2025
G-Safeguard：面向基于LLM的多智能体系统的拓扑引导安全视角与处理方法	2025
AFlow：自动化代理工作流生成	ICLR 2025
多智能体设计：通过更优的提示与拓扑结构优化智能体	2025
基于代理超网的多智能体架构搜索	2025
DynaSwarm：面向基于LLM的多智能体系统的动态图结构选择	2025
GPTSwarm：将语言智能体视为可优化的图	ICML 2024

基于策略的拓扑结构生成

论文	年份
MASRouter：学习为多智能体系统路由LLM	2025
RCR-Router：面向多智能体LLM系统的高效角色感知上下文路由，结合结构化记忆	2025
xRouter：基于强化学习的训练成本敏感型LLM编排系统	2025
最优智能体选择：面向高效多智能体协作的状态感知路由框架	2025
基于多智能体强化学习的LLM协作	2025
面向基于LLM的多智能体系统的异质群体强化学习	2025
通过强化学习、基于LLM的规划器及基于图的策略提升多智能体系统	2025
LAMARL：LLM辅助的多智能体强化学习，用于合作策略生成	IEEE RA-L 2025
MAPoRL：通过强化学习对协作型大型语言模型进行多智能体后协同训练	2025
基于大型语言模型的反思性多智能体协作	NeurIPS 2024
Sirius：通过自举式推理实现自我改进的多智能体系统	2025
多智能体微调：借助多样化推理链实现自我提升	2025
M3HF：基于混合质量多阶段人类反馈的多智能体强化学习	2025
O-MAPL：离线多智能体偏好学习	2025

🌱 多智能体记忆与进化

mem

从单智能体进化到多智能体进化

测试时内进化

论文	年份
Reflexion: 具有语言强化学习的语言智能体	NeurIPS 2023
Self-Refine: 基于自我反馈的迭代改进	NeurIPS 2023
AdaPlanner: 基于语言模型的自适应规划与反馈	NeurIPS 2023
TrustAgent: 通过智能体宪章实现安全可信的LLM智能体	TiFA 2024
自适应语言模型	2025
TTRL: 测试时强化学习	2025
Ladder: 通过递归问题分解实现LLM的自我改进	2025

测试间进化

论文	年份
Self: 基于语言反馈的自我进化	2023
STaR: 以推理驱动推理的自举式推理	NeurIPS 2022
超越极限的推理：LLM的进步与开放问题	2025
RAGEN: 通过多轮强化学习理解LLM智能体的自我进化	2025
DYSTIL: 基于大型语言模型的动态策略归纳用于强化学习	2025
WebRL: 通过自我进化在线课程强化学习训练LLM网络智能体	2024
为什么动物需要塑造？任务组合与课程学习理论	2024
SAGE: 具有反思和记忆增强能力的自我进化智能体	Neurocomputing 2025
MemInsight: LLM智能体的自主记忆增强	2025
智能体工作流记忆	2024

多智能体进化

论文	年份
Self: 基于语言反馈的自我进化	2023
通过强化学习训练语言模型进行自我纠正	2024
TextGrad: 基于文本的自动“微分”	2024
REMA: 使用多智能体强化学习教会LLM进行元思考	2025
针对LLM智能体训练的组中组策略优化	2025
智能体工作流记忆	2024
MemOS: 大型语言模型中记忆增强生成（MAG）的操作系统	2025
多智能体设计：用更好的提示和拓扑结构优化智能体	2025
AFlow: 自动化智能体工作流生成	ICLR 2025
使用多目标搜索和神经网络测试高级驾驶辅助系统	ASE 2016
多智能体系统中的潜在协作	2025

多智能体记忆管理用于进化

论文	年份
G-Memory: 跟踪多智能体系统的层次化记忆	2025
内在记忆智能体: 通过结构化上下文记忆构建异构多智能体LLM系统	2025
由LLM驱动的去中心化生成式智能体，具有自适应层次知识图谱用于协同规划	2025
SEDM: 可扩展的自我进化分布式记忆用于智能体	2025
协作记忆: LLM智能体中的多用户内存共享与动态访问控制	2025
大型语言模型基智能体的内存共享	2024
MIRIX: 针对基于LLM的智能体的多智能体记忆系统	2025
LEGOMem: 用于工作流自动化的大规模多智能体LLM系统的模块化程序化记忆	2025
MAPLE: 具有长期记忆的多智能体自适应规划用于表格推理	ALTA 2025
Lyfe Agents: 用于低成本实时社交互动的生成式智能体	2023
Agent KB: 利用跨领域经验进行智能体问题解决	2025

训练多智能体进行进化

论文	年份
Multi-Agent Evolve: LLM通过协同进化自我提升	2025
CoMAS: 通过交互奖励进行多智能体协同进化	2025
MARFT: 多智能体强化学习微调	2025
Stronger-MAS: 用于协作LLM的多智能体强化学习	2025
MAPoRL: 协作大型语言模型的多智能体强化学习后联合训练	2025
MALT: 从轨迹中学习的多智能体	2025
MARS: 通过多智能体强化学习优化双系统深度研究	2025
基于偏好选择的多智能体强化学习：数据覆盖与算法技术	2024
对齐华尔兹: 为安全性共同训练智能体协作	2025

🎨 应用

app

💻 数学探索与氛围编码智能体

基础性智能体推理

论文	年份
通过AI引导人类直觉推进数学研究	《自然》杂志 2021年
无需人工示范即可解决奥数几何问题	《自然》杂志 2024年
利用大型语言模型的程序搜索实现数学发现	《自然》杂志 2024年
大规模的数学探索与发现	2025年
借助AI推进几何学：多智能体生成多面体	2025年
迈向稳健的数学推理	EMNLP 2025
CodeChain：通过具有代表性子模块的自我修正链实现模块化代码生成	ICLR 2024
可执行代码动作能引出更优秀的LLM代理	ICML 2024
基于大型语言模型的知识感知代码生成	ICPC 2024
CodePlan：使用LLM和规划进行仓库级编码	FSE 2024
面向大型语言模型的多阶段引导式代码生成	Eng. App. AI 2025
CodeTree：大型语言模型辅助下的代理引导树搜索用于代码生成	2024年
DotaMath：借助代码辅助与自我校正分解思维以进行数学推理	2024年
代码之树：用于复杂任务端到端代码生成与执行的自生长树框架	ACL 2025
CoRT：在思考过程中融入代码推理	2025年
DARS：通过自适应树遍历动态重采样行动以提升编码代理性能	2025年
利用蒙特卡洛树搜索引导大型语言模型生成代码世界模型	NeurIPS 2024
VerilogCoder：基于图规划的自主Verilog编码代理	AAAI 2025
在非序列化环境中应用引导式搜索策略及其在软件工程代理中的作用	ICML 2025
用于形式化定理证明的上下文学习代理	COLM 2024
形式数学推理：AI的新前沿	2024年
用于数学发现的生成式建模	2025年
Toolformer：语言模型可以自我教授如何使用工具	NeurIPS 2023
ToolCoder：教会代码生成模型使用API搜索工具	2023年
ToolGen：通过生成统一工具检索与调用	ICLR 2025
CodeAgent：通过集成工具的代理系统增强代码生成能力，应对现实世界的仓库级编码挑战	ACL 2024
ROCODE：在大型语言模型中整合回溯机制和程序分析以进行代码生成	ICSE 2025
CodeTool：通过过程监督提升LLM对程序性工具的调用能力	2025年
RepoHyper：更好的上下文检索就是仓库级代码补全所需要的全部	2024年
CodeNav：超越工具使用，利用LLM代理操作真实代码库	ICLR 2024
通过上下文感知的检索增强生成优化代码运行性能	ICPC 2025
基于知识图谱的仓库级代码生成	LLM4Code 2025
cAST：通过抽象语法树的结构化分块提升代码检索增强生成	2025年

自我进化型代理推理

论文	年份
通过交互评估语言模型的数学能力	PNAS 2024
CLCL：利用对比学习和课程学习检测非组合性表达	ACL 2023
自我修复是代码生成的万能解吗？	2024年
LeDeX：通过执行反馈学习调试	NeurIPS 2024
Self-Refine：基于自我反馈的迭代改进	NeurIPS 2023
基于大型语言模型的自我迭代代码生成方法	ICPADS 2023
教导大型语言模型自我调试	ICLR 2024
通过ChatGPT进行自我协作式代码生成	TOSEM 2024
L2MAC：大型语言模型自动计算机用于大规模代码生成	2023年
Cogito, Ergo Sum：受神经生物学启发的认知–记忆–成长系统用于代码生成	2025年

集体多智能体推理

论文	年份
AgentCoder：基于多智能体的迭代测试与优化代码生成	2023
通过多方案探索和反馈驱动精炼的结对编程框架用于代码生成	ASE 2024
SOEN-101：利用大型语言模型智能体模拟软件过程模型进行代码生成	ICSE 2025
自组织智能体：面向超大规模代码生成与优化的LLM多智能体框架	2024
MapCoder：用于竞技性问题求解的多智能体代码生成	2024
AutoSafeCoder：通过静态分析和模糊测试保障LLM代码生成安全性的多智能体框架	2024
QualityFlow：由LLM质量检查控制的程序合成代理工作流	2025
SEW：用于自动化代码生成的自我演化代理工作流	2025
面向软件开发的自我演化多智能体协作网络	2024
Lingma SWE-GPT：以开放开发流程为中心的自动化软件改进语言模型	2024
CodeCoR：基于LLM的自我反思多智能体代码生成框架	2025
SyncMind：衡量协作式软件工程中智能体不同步恢复能力	ICML 2025
幻觉到共识：用于端到端测试生成的多智能体LLM	2025

🔬 科学发现智能体

以下是按各自章节分组的引用表格。

基础性智能体推理

论文	年份
[ProtAgents：结合物理与机器学习的大语言模型多智能体协作实现蛋白质发现]	数字发现 2024
[基于智能体的学习方法从科学文献中获取材料数据集]	数字发现 2024
[ReAct：在语言模型中协同推理与行动]	ICLR 2023
[Biomni：通用生物医学人工智能智能体]	bioRxiv 2025
[SciAgent：用于科学推理的工具增强型语言模型]	2024
[Chemcrow：用化学工具增强大型语言模型]	2023
[CACTUS：将工具使用与科学研究相连接的化学智能体]	ACS Omega 2024
[ChemToolAgent：工具对解决化学问题的语言智能体的影响]	2024
[CheMatAgent：通过基于树搜索的工具学习提升大型语言模型在化学与材料科学领域的应用]	2025
[TxAgent：跨工具宇宙进行治疗推理的人工智能智能体]	2025
[AgentMD：利用大规模临床工具学习赋能语言智能体进行风险预测]	Nature Communications 2025
[LLaMP：为高保真材料知识检索与提炼而强大的大型语言模型]	2024
[HoneyComb：面向材料科学的灵活LLM基础智能体系统]	2024
[CRISPR-GPT用于基因编辑实验的智能体自动化]	2024
[PharmAgents：用大型语言模型智能体构建虚拟制药公司]	2025
[ORGANA：用于自动化化学实验与表征的机器人助手]	Matter 2025
[AtomAgents：通过具备物理感知能力的多模态多智能体人工智能进行合金设计与发现]	2024
[Chemist-X：由大型语言模型赋能的智能体，用于化学合成中的反应条件推荐]	2024
[LLM与仿真作为双层优化器：推动物理科学发现的新范式]	2024
[CellAgent：由LLM驱动的多智能体框架，用于基于自然语言的单细胞分析]	BioRxiv 2024
[BioDiscoveryAgent：用于设计遗传扰动实验的人工智能智能体]	2024
[DrugAgent：基于多智能体大型语言模型的药物-靶点相互作用预测推理]	2024
[通过多LLM框架加速科学研究]	2025
[AI科学家-v2：通过智能体树状搜索实现车间级自动化科学发现]	2025
[大型语言模型是零样本假设提出者]	2023
[PaperQA：用于科学研究的检索增强生成式智能体]	2023
[语言智能体实现了超人类水平的科学知识综合]	2024
[LLaMP：为高保真材料知识检索与提炼而强大的大型语言模型]	2024

自我进化型智能体推理

论文	年份
[ChemAgent：大型语言模型中的自我更新库提升化学推理能力]	2025
[利用生成式AI智能体加速无机材料设计]	2025
[LLM与仿真作为双层优化器：推动物理科学发现的新范式]	2024
[ChemReasoner：利用量子化学反馈在大型语言模型的知识空间中进行启发式搜索]	2024
[LLMatDesign：利用大型语言模型实现自主材料发现]	2024
[使用目标导向和约束引导的LLM智能体进行材料发现与设计的假设生成]	2025

集体多智能体推理

论文	年份
[ProtAgents：结合物理与机器学习的大语言模型多智能体协作实现蛋白质发现]	数字发现 2024
[PiFlow：基于原则的多智能体协作科学发现]	2025
[AtomAgents：通过具备物理感知能力的多模态多智能体人工智能进行合金设计与发现]	2024
[CellAgent：由LLM驱动的多智能体框架，用于基于自然语言的单细胞分析]	BioRxiv 2024
[通过多LLM框架加速科学研究]	2025
[朝着由AI制造的科学家团队迈进，以基因表达数据进行科学发现]	2024
[虚拟实验室：AI智能体设计新型SARS-CoV-2纳米抗体并经实验验证]	bioRxiv 2024

🤖 具身智能体

基础性智能体推理

论文	年份
照我说的做，别学我的样：将语言 grounded 在机器人可用性上	2022
SayPlan：利用3D场景图 grounding 大型语言模型，实现可扩展的机器人任务规划	2023
EmbodiedGPT：通过具身思维链进行视觉-语言预训练	NeurIPS 2023
面向指令遵循的具身智能体的上下文感知规划与环境感知记忆	ECCV 2024
描述、解释、规划与选择：大型语言模型驱动的交互式规划赋能开放世界多任务智能体	NeurIPS 2023
基于具身思维链推理的机器人控制	2024
Fast ECoT：面向视觉-语言-动作模型的快速具身思维链	2025
Cosmos-Reason1：多模态思维链推理下的物理常识	2025
CoT-VLA：视觉-语言-动作模型中的视觉思维链推理	2025
Emma-X：具有思维链推理的具身多模态动作模型	2024
Robot-R1：强化学习增强的大规模视觉-语言模型用于机器人操作	2025
ManipLVM-R1：通过强化学习学习推理以进行机器人操作	2025
Embodied-R：通过多智能体强化学习在机器人中涌现空间推理能力	2025
VIKI-R：基于VLM的强化学习方法，用于异构多智能体协作	2025
GSCE：用于LLM驱动无人机控制中增强逻辑推理的提示框架	2025
MineDojo：利用互联网规模知识构建开放式具身智能体	NeurIPS 2022
物理AI智能体：整合生成式AI、符号AI和机器人技术	2025
与环境对话：使用大型语言模型的交互式多模态感知	IROS 2023
三维世界中的具身通用智能体	ICML 2024
Hi Robot：利用分层视觉-语言-动作模型实现开放式指令遵循	2025
Gemini Robotics：将AI带入物理世界	2025
Octopus：基于环境反馈的具身视觉-语言程序员	ECCV 2024
CaPo：面向多智能体协作的协同计划优化	2024
COHERENT：大型语言模型赋能的异构多机器人系统协作	ICRA 2025
MP5：通过主动感知在Minecraft中构建多模态开放式具身系统	CVPR 2024
LLM-Planner：利用大型语言模型为具身智能体提供少样本接地的高层规划	ICCV 2023
EmbodiedGPT：通过具身思维链进行视觉-语言预训练	NeurIPS 2023
L3MVN：利用大型语言模型进行视觉目标导航	2023
SayNav：将大型语言模型 grounding 到动态规划中，用于新环境中的导航	ICAPS 2023
SayPlan：利用3D场景图 grounding 大型语言模型，实现可扩展的机器人任务规划	CoRL 2023
ReMEmbR：为具身智能体构建并使用长时程时空记忆进行推理	2025
Embodied-RAG：用于检索增强生成的通用非参数化具身记忆	NeurIPS Workshop AFM 2024
检索增强型具身智能体	2024
MLLM作为检索器：具身智能体的交互式多模态检索学习	2024

自我进化型代理推理

论文	年份
LLM赋能的具身智能体：用于家庭机器人中记忆增强的任务规划	2024
Optimus-1：混合多模态记忆赋能的智能体，用于Minecraft中的长时程任务	2024
具有记忆增强型大型语言模型的开放式可指令具身智能体	EMNLP 2023
为具身智能体赋予空间推理能力，用于视觉-语言导航	2025
面向指令遵循具身智能体的上下文感知规划与环境感知记忆	2024
Ella：具有终身记忆的具身社交智能体	2025
与环境对话：使用大型语言模型的交互式多模态感知	IROS 2023
从陌生人到助手：快速对齐需求以适应具身智能体与用户	2025
会求助的机器人：大型语言模型规划者的不确定性对齐	CoRL 2023
Octopus：基于环境反馈的具身视觉-语言程序员	ECCV 2024
MindForge：为具身智能体赋予心智理论，实现终身协作学习	2024
迈向高效LLM grounding，促进具身多智能体协作	2024
EMAC+：结合VLM和LLM的具身多模态协作规划智能体	2025
Voyager：具有大型语言模型的开放式具身智能体	2023

集体多智能体推理

论文	年份
Smart-LLM：基于大型语言模型的智能多智能体机器人任务规划	2024
CaPo：面向多智能体协作的协同计划优化	2024
COHERENT：利用大型语言模型实现异构多机器人系统的协作	ICRA 2025
通过大型语言模型实现多智能体协作的心智理论	2023
大型语言模型如何编码心智理论：关于稀疏参数模式的研究	npj Artificial Intelligence 2025
假设性心智：利用大型语言模型为多智能体任务搭建心智理论框架	2024
MindForge：赋予具身智能体心智理论能力以支持终身协作学习	2024
EMAC+：用于与VLM+LLM协同规划的具身多模态智能体	2025
COMBO：面向具身多智能体协作的组合式世界模型	2025
VIKI-R：一种基于VLM的强化学习方法，用于异构多智能体协作	2025
RoCo：基于大型语言模型的辩证式多机器人协作	2024

🏥 医疗健康与医学代理

基础性代理推理

论文	年份
用于肿瘤学临床决策的自主人工智能代理的开发与验证	《自然·医学》2024年
[EHRAgent：代码赋能大型语言模型，实现电子健康记录上的复杂表格推理]	2024年
[PathFinder：应用于组织病理学的多模态多智能体系统，用于医学诊断决策]	2025年
[MedAgent-Pro：通过推理型代理工作流实现循证的多模态医学诊断]	2025年
[MedOrch：具有工具增强推理能力的医疗诊断代理，支持灵活扩展]	2025年
[ClinicalAgent：基于大语言模型推理的临床试验多智能体系统]	2024年
[DynamiCare：用于交互式和开放式医学决策的动态多智能体框架]	2025年
[TxAgent：一个跨工具宇宙进行治疗推理的AI代理]	2025年
[AgentMD：利用大规模临床工具学习赋能语言代理进行风险预测]	《自然·通讯》2025年
[大型语言模型代理可以使用工具执行临床计算]	《NPJ数字医学》2025年
[MeNTi：通过嵌套工具调用连接医学计算器与LLM代理]	2024年
[MMedAgent：使用多模态代理学习如何使用医疗工具]	2024年
[VoxelPrompt：用于端到端医学影像分析的视觉代理]	2024年
[通过具身智能增强手术机器人，实现自主超声扫描]	2024年
[医学语言代理中的适应性推理与行动]	2024年
[MedRAX：用于胸部X光片的医学推理代理]	2025年
[对话式健康代理：个性化的LLM驱动代理框架]	2023年
[MedAgentGym：面向生物医学数据科学中以代码为中心的推理的可扩展代理训练环境]	2025年
[由大语言模型驱动的AI代理支持的模拟患者系统有望变革医学教育]	2024年
[用于真实临床互动的自进化多智能体模拟]	MICCAI 2025年
[RAG增强的协作LLM代理用于药物发现]	2025年
[MedReason：通过知识图谱在LLM中激发事实性的医学推理步骤]	2025年

自进化代理推理

论文	年份
[基于生成式代理的流行病建模]	2023年
[用于真实临床互动的自进化多智能体模拟]	MICCAI 2025年
[EHRAgent：代码赋能大型语言模型，实现电子健康记录上的复杂表格推理]	2024年
[LLMs可通过代理共进化模拟标准化患者]	2024年
[由大语言模型驱动的AI代理支持的模拟患者系统有望变革医学教育]	2024年
[MedOrch：具有工具增强推理能力的医疗诊断代理，支持灵活扩展]	2025年
[DynamiCare：用于交互式和开放式医学决策的动态多智能体框架]	2025年
[MedAgentGym：面向生物医学数据科学中以代码为中心的推理的可扩展代理训练环境]	2025年
[EHRAgent：代码赋能大型语言模型，实现电子健康记录上的复杂表格推理]	2024年
[MeNTi：通过嵌套工具调用连接医学计算器与LLM代理]	2025年
[大型语言模型代理可以使用工具执行临床计算]	《NPJ数字医学》2025年

集体多智能体推理

论文	年份
[MDAgents：用于医学决策的LLM自适应协作系统]	2024年
[DoctorAgent-RL：用于多轮临床对话的多智能体协作强化学习系统]	2025年
[超越直接诊断：基于LLM的多专科代理会诊实现自动诊断]	2024年
[ClinicalAgent：基于大语言模型推理的临床试验多智能体系统]	2024年
[PathFinder：应用于组织病理学的多模态多智能体系统，用于医学诊断决策]	2025年
[用于真实临床互动的自进化多智能体模拟]	MICCAI 2025年
[LLMs可通过代理共进化模拟标准化患者]	2024年
[DynamiCare：用于交互式和开放式医学决策的动态多智能体框架]	2025年
[MedAgents：作为零样本医学推理合作者的大语言模型]	2024年
[RAG增强的协作LLM代理用于药物发现]	2025年
[GMAI-VL-R1：利用强化学习实现多模态医学推理]	2025年

🌐 自主网络探索与研究代理

基础性代理推理

论文	年份
Agent Laboratory: 使用大语言模型代理作为科研助手	2025
GPT Researcher	2023
通过多大语言模型框架加速科学研究	2025
Video-Browser: 朝着基于智能体的开放网络视频浏览迈进	2025
InternAgent: 当智能体成为科学家——构建从假设到验证的闭环系统	2025
WebGPT: 基于浏览器辅助、结合人类反馈的问答系统	2021
语言模型是少样本学习者	NeurIPS 2020
GPT-4V（视觉）是一个通用的网络智能体，只要具备扎实的基础	ICML 2024
AutoWebGLM: 基于大型语言模型的网页导航智能体	2024
Agent Q: 面向自主AI智能体的高级推理与学习	2024
WebRL: 通过自进化在线课程强化学习训练大语言模型网络智能体	2024
WebAgent-R1: 通过端到端多轮强化学习训练网络智能体	2025
Navigating WebAI: 利用大型语言模型和强化学习训练智能体完成网络任务	2024
DeepDiver: 基于开放网络强化学习实现自适应搜索强度调节	2025
EvolveSearch: 一种迭代式自进化搜索智能体	2025
WebEvolver: 利用共进化世界模型提升网络智能体自我改进能力	2025
ArCHer: 通过分层多轮强化学习训练语言模型智能体	ICLR 2025
Proposer-Agent-Evaluator(PAE): 面向基础模型互联网智能体的自主技能发现	2024
WebSeer: 通过带有自我反思的强化学习训练更深层次的搜索智能体	2025
ZeroSearch: 在不进行实际搜索的情况下激励大语言模型的搜索能力	2025
StepSearch: 通过分步近端策略优化激发大语言模型的搜索能力	2025
如何训练你的大语言模型网络智能体：一项统计诊断	2025
Agent S: 一个开放的智能体框架，像人类一样使用计算机	2024
InfiGUIAgent: 具有原生推理和反思能力的多模态通用GUI智能体	2025
MobA: 多功能记忆增强型自适应规划，用于高效移动设备任务自动化	2024
PC-Agent: 用于PC上复杂任务自动化的一套分层多智能体协作框架	2025
UItron: 具备先进感知与规划能力的基础级GUI智能体	2025
ARPO: 带有经验回放的GUI智能体端到端策略优化	2025
ComputerRL: 扩展面向计算机使用智能体的端到端在线强化学习	2025
UI-R1: 通过强化学习提升GUI智能体的动作预测能力	2025
GUI-R1: 一种通用的R1风格视觉-语言动作模型，适用于GUI智能体	2025
InfiGUI-R1: 将多模态GUI智能体从反应式执行者转变为深思熟虑的推理者	2025
UI-S1: 通过半在线强化学习推进GUI自动化	2025
GUI-Bee: 通过自主探索使GUI动作接地与新环境相一致	EMNLP 2025
利用视觉反馈中的空间推理学习GUI接地	2025
GUI-Shift: 通过自监督强化学习提升基于VLM的GUI智能体性能	2025
UI-AGILE: 通过高效的强化学习和精确的推理时接地推进GUI智能体发展	2025
ZeroGUI: 以零人力成本实现在线GUI学习自动化	2025
AgentCPM-GUI: 通过强化微调构建移动端使用智能体	2025
AutoGLM: 自主的基础级GUI智能体	2024
Mobile-Agent-v3: GUI自动化的基础级智能体	2025
WebVoyager: 利用大型多模态模型构建端到端网络智能体	ACL 2024
BrowserAgent: 构建具有人类启发式网络浏览行为的网络智能体	2025
WALT: 学习工具的网络智能体	2025
WebDancer: 朝着自主信息搜寻智能体迈进	2025
WebShaper: 通过信息搜寻形式化实现智能体驱动的数据合成	2025
AutoDroid: 基于大语言模型的Android任务自动化	MobiCom 2024
MobileExperts: 移动设备中由动态工具支持的智能体团队	2024
AgentStore: 可扩展地集成异构智能体，打造专业化的通用计算机助手	2024
OS-Copilot: 朝着具备自我改进能力的通用计算机智能体迈进	2024
OSCAR: 基于状态感知的推理和重规划实现操作系统控制	2024
OS-ATLAS: 通用GUI智能体的基础动作模型	2024
SeeClick: 利用GUI接地技术打造先进的视觉GUI智能体	2024
Agentic Reasoning: 简化框架，借助智能体工具提升LLM推理能力	2025
Agent Laboratory: 使用大语言模型代理作为科研助手	2025
MLR-Copilot: 基于大语言模型智能体的自主机器学习研究	2024
Dolphin: 通过思考、实践和反馈迈向闭环自动研究	2025
AI科学家: 完全自动化的开放式科学发现	2024
AI科学家-v2: 基于智能体树状搜索实现车间级别的自动化科学发现	2025
WebExplorer: 探索与进化，用于训练长周期网络智能体	2025
WebSailor: 为网络智能体提供超人般的推理能力	2025
RaDA: 基于检索增强的网络智能体规划，结合大语言模型	2024
Synapse: 以轨迹为示例的提示方式，结合记忆用于计算机控制	ICLR 2024
LearnAct: 少样本移动GUI智能体，采用统一的演示基准	2025
探索、选择、推导与回忆：为移动任务自动化赋予LLM类人记忆	2023
基于生成式指南的检索增强型GUI智能体	2025
WebThinker: 赋能大型推理模型，使其具备深度研究能力	2025
DeepResearcher: 通过在真实环境中进行强化学习扩大深度研究规模	2025
PaperQA: 检索增强型生成式智能体，用于科学研究	2023
语言智能体实现了超人类水平的科学知识综合	2024
思想链：利用大语言模型智能体推动新型创意开发，从而革新研究	2024
Scideator: 基于科研论文要素重组的人机协同科学创意生成	2024

自我演化的代理式推理

论文	年份
代理工作流记忆	2024
VLM 代理生成自身记忆：将经验提炼为具身化思维程序	2024
BrowserAgent：基于人类启发式网页浏览行为构建网络代理	2025
AutoWebGLM：基于大型语言模型的网页导航代理	2024
AgentOccam：基于 LLM 的网络代理的简单而强大的基线	2024
LiteWebAgent：面向 VLM 基础网络代理应用的开源套件	2025
WebDancer：迈向由大型语言模型代理实现的自动化网络信息搜索	2025
WebShaper：通过信息搜索形式化进行代理式数据合成	2025
探索、选择、推导与回忆：为移动任务自动化增强 LLM 的类人记忆	2023
MobA：多面记忆增强型自适应规划，用于高效移动任务自动化	2024
Mobile-Agent-E：面向复杂任务的自我演化移动助手	2025
代理实验室：将 LLM 代理用作研究助理	2025
GPT Researcher	2023
思想链：借助 LLM 代理进行新型创意开发，革新科研	2024
AI 科学家-v2：基于代理式树状搜索的车间级自动化科学发现	2025
Agent Q：面向自主 AI 代理的高级推理与学习	2024
基于反思的记忆用于网络导航代理	2025
Agent-E：从自主网络导航到代理系统中的基础设计原则	2024
Recon-Act：通过网络侦察、工具生成和任务执行实现自我演化的多代理浏览器使用系统	2025
WINELL：利用 LLM 代理实现维基百科的永续更新	2025
WebSeer：通过带有自我反思的强化学习训练更深层次的搜索代理	2025
GUI-Reflection：以自我反思行为赋能多模态 GUI 模型	2025
面向 GUI 代理的历史感知推理	2025
MobileUse：具有层次性反思能力的 GUI 代理，用于自主移动操作	2025
InfiGUIAgent：具备原生推理与反思能力的多模态通用 GUI 代理	2025
Mobile-Agent-E：面向复杂任务的自我演化移动助手	2025
CycleResearcher：通过自动审查改进自动化研究	2024
MLR-Copilot：基于大型语言模型代理的自主机器学习研究	2024
Dolphin：通过思考、实践和反馈迈向闭环自动研究	2025
DeepResearcher：通过在真实环境中进行强化学习扩展深度研究	2025

集体多代理推理

论文	年份
WebPilot：一种多功能且自主的多代理系统，用于带战略探索的网络任务执行	2024
WINELL：利用 LLM 代理实现维基百科的永续更新	2025
Recon-Act：通过网络侦察、工具生成和任务执行实现自我演化的多代理浏览器使用系统	2025
提议者-代理-评估者（PAE）：面向基础模型互联网代理的自主技能发现	2024
Agent-E：从自主网络导航到代理系统中的基础设计原则	2024
计划并行动：改进代理对长周期任务的规划	2025
代理式网络：用 AI 代理编织下一代网络	2025
CoLA：协作式低秩适应	2025
Mobile-Agent-v2：具有多代理协作有效导航功能的移动设备操作助手	ACL 2024
Mobile-Agent-E：面向复杂任务的自我演化移动助手	2025
Mobile-Agent-V：一种视频引导的方法，用于在移动自动化中轻松高效地注入操作知识	2025
MobileExperts：为移动自动化协调具备工具能力的专家	2024
合成数据生成与多步强化学习用于推理和工具使用	2025
PC-Agent：面向 PC 上复杂任务自动化的一套分层多代理协作框架	2025
AgentRxiv：迈向协作式自主研究	2025
通过多 LLM 框架加速科学研究	2025
大型语言模型是零样本推理者	NeurIPS 2022
大型语言模型涌现的自主科学研究能力	Nature 2023
迈向由 AI 制造的科学家团队，利用基因表达数据进行科学发现	2024

📊 基准测试

bench

⚙️ 代理式推理的核心机制

工具使用

单轮工具使用

论文	年份
ToolQA: 用于大语言模型外部工具问答的数据集	NeurIPS 2023
Gorilla: 连接海量API的大语言模型	2023
ToolLLM: 帮助大语言模型掌握16000+真实世界API	ICLR 2024
MetaTool: 针对专用型大语言模型控制的基准测试	ICLR 2024
T-Eval: 分步骤评估大语言模型的工具使用能力	ACL 2024
GTA: 通用工具代理的基准测试	NeurIPS 2024
检索模型并不擅长工具使用：针对大语言模型工具检索的基准测试	2025

多轮工具使用

论文	年份
ToolAlpaca: 基于3000个模拟案例的语言模型通用工具学习	2023
开源大语言模型的工具操作能力研究	2023
API-Bank: 工具增强型大语言模型的综合基准测试	EMNLP 2023
规划、创建、使用：面向真实复杂场景下大语言模型全面工具使用的基准测试	ACL 2024
MTU-Bench: 大语言模型多粒度工具使用基准测试	ICLR 2025

搜索

记忆与规划

长期情景记忆

论文	年份
PerLTQA: 基于人格的RAG长期记忆基准测试	2024
ELITR-Bench: 面向长上下文大语言模型的会议助理基准测试	2024
Multi-IF: 多轮指令遵循的基准测试	2024
MultiChallenge: 对前沿大语言模型构成挑战的真实多轮对话评估基准测试	2025
TurnBench-MS: 用于评估大语言模型多轮多步推理的基准测试	2025
StoryBench: 用于评估多轮长期记忆的动态基准测试	2025
MMRC: 用于理解多模态大语言模型在真实对话中表现的大规模基准测试	2025

多会话回忆

论文	年份
评估LLM智能体的超长期对话记忆	2024
MemSim: 用于评估基于LLM的个人助理记忆的贝叶斯模拟器	2024
LongMemEval: 针对聊天助手长期交互记忆的基准测试	2024
REALTALK: 为期21天的长期对话真实世界数据集	2025
通过增量式多轮交互评估LLM智能体的记忆	2025
Mem-Gallery: 针对MLLM智能体多模态长期对话记忆的基准测试	2026
Evo-Memory: 基于自进化记忆的LLM智能体测试时学习基准	2025

计划与反馈

论文	年份
ALFWorld: 对齐文本与具身环境以实现交互式学习	ICLR 2021
PlanBench: 用于评估大语言模型计划与变化推理能力的可扩展基准测试	NeurIPS 2022
ACPBench: 关于行动、变化和计划的推理	2024
Text2World: 用于评估大语言模型符号化世界模型生成的基准测试	ACL 2025
REALM-Bench: 用于评估多智能体系统在现实、动态的计划与调度任务中的基准测试	2025
TravelPlanner: 用于语言智能体进行真实世界计划的基准测试	ICML 2024
FlowBench: 重新审视并基准评估基于LLM的智能体工作流引导式计划	2024
UrbanPlanBench: 用于评估大语言模型的城市规划综合基准测试	2025

多智能体系统

基于游戏的强化学习评估

论文	年份
MAgent: 用于人工群体智能的多智能体强化学习平台	AAAI 2018
Pommerman: 一个多智能体游乐场	2018
星际争霸多智能体挑战	NeurIPS 2019
MineLand: 模拟具有有限多模态感知能力和物理需求的大规模多智能体交互	2024
TeamCraft: 在Minecraft中用于多模态多智能体系统的基准测试	2024
用熔炉进行多智能体强化学习的可扩展评估	ICML 2021
BenchMARL: 多智能体强化学习的基准测试	2023
Arena: 一个用于多智能体智能的通用评估平台和构建工具包	AAAI 2020

以仿真为中心的真实世界评估

论文	年份
SMARTS: 用于自动驾驶的可扩展多智能体强化学习训练营	CoRL 2020
Nocturne: 一个可扩展的驾驶基准，使多智能体学习更接近现实	NeurIPS 2022
用于库存管理的多功能多智能体强化学习基准	2023
IMP-MARL: 一套用于基础设施管理规划的多智能体强化学习环境	NeurIPS 2023
POGEMA: 部分可观测网格环境，适用于多个智能体	Arxiv 2022
IntersectionZoo: 用于基准测试多智能体情境强化学习的环保驾驶	NeurIPS 2024
REALM-Bench: 用于评估多智能体系统在现实、动态的计划和调度任务中的基准测试	2025

语言、交流与社会推理

论文	年份
LLM-Coordination: 评估和分析大型语言模型中的多智能体协调能力	2023
AvalonBench: 评估大型语言模型在阿瓦隆游戏中的表现	2023
Welfare Diplomacy: 语言模型合作能力基准测试	2023
MAgIC: 探究由大型语言模型驱动的多智能体在认知、适应性、理性及协作方面的表现	EMNLP 2024
BattleAgentBench: 用于评估多智能体系统中语言模型合作与竞争能力的基准测试	2024
COMMA: 多智能体系统中智能体间通信的基准测试	2024
IntellAgent: 用于评估现实场景下对话智能体的基准测试	2025
MultiAgentBench: 评估LLM智能体的协作与竞争能力	2025

🎯 智能体推理的应用

具身智能体

论文	年份
Agent-X: 在以视觉为中心的智能体任务中评估深度多模态推理能力	2025
BALROG: 游戏场景下智能体LLM和VLM推理能力的基准测试	NeurIPS 2024
ALFWorld: 对齐文本与具身环境以实现交互式学习	ICLR 2021
理解复杂安卓环境中大型语言模型智能体的弱点	2024
MindAgent: 新兴的游戏交互能力	2023
与大型语言模型进行重复博弈	2023
OSWorld: 面向真实计算机环境中的开放性任务，多模态智能体的基准测试	NeurIPS 2024

科学发现智能体

论文	年份
DISCOVERYWORLD: 用于开发和评估自动化科学发现智能体的虚拟环境	NeurIPS 2024
ScienceWorld: 您的智能体比五年级学生更聪明吗？	EMNLP 2022
ScienceAgentBench: 推动对数据驱动型科学发现语言智能体的严格评估	NeurIPS 2024
AI科学家: 完全自动化的开放式科学发现	2024
LAB-Bench: 衡量语言模型在生物学研究中的能力	2024
MLAgentBench: 评估语言智能体在机器学习实验中的表现	2023

自主研究智能体

论文	年份
WorkArena: 网络智能体解决常见办公任务的能力有多强？	ICML 2024
WorkArena++: 向像员工一样工作的智能体迈进	2024
OfficeBench: 针对办公自动化多个应用场景的语言智能体基准测试	2024
PlanBench: 一个可扩展的基准测试，用于评估大型语言模型在规划和变化推理方面的能力	NeurIPS 2022
FlowBench: 重新审视并基准测试基于LLM的智能体在工作流引导下的规划能力	2024
ACPBench: 关于行动、变化和规划的推理能力	2024
TRAIL: 跟踪推理与智能体问题定位	2025
CLIN: 一种持续学习的语言智能体，用于快速任务适应和泛化	NeurIPS 2023
Agent-as-a-Judge: 用智能体来评估智能体	2024
InfoDeepSeek: 基于检索增强生成的智能体信息搜索能力基准测试	2025

医疗与临床智能体

论文	年份
AgentClinic: 面向临床环境的多模态智能体基准测试	NeurIPS 2024
MedAgentBench: 用于评估医疗LLM智能体的虚拟电子病历环境	NEJM AI 2025
EHRAgent: 代码赋能大型语言模型，实现对电子健康记录的复杂表格推理	2024
MedAgents: 大型语言模型作为零样本医学推理的合作者	2023
GuardAgent: 通过知识驱动的推理，由守护智能体保护LLM智能体	2024

网络智能体

论文	年份
WebShop：面向可扩展的真实世界网络交互的具身语言代理	NeurIPS 2022
WebArena：用于构建自主智能体的真实网络环境	ICLR 2024
OSWorld：在真实计算机环境中对多模态智能体进行开放式任务基准测试	NeurIPS 2024
AppWorld：用于基准测试交互式编程智能体的可控应用与用户世界	ACL 2024
WorkArena：网络智能体解决常识性工作任务的能力如何？	2024
VisualWebArena：在真实的视觉网络任务上评估多模态智能体	NeurIPS 2024
WebVoyager：使用大型多模态模型构建端到端网络智能体	ACL 2024
Mind2Web：迈向通用的网络智能体	NeurIPS 2023
Mind2Web 2：以“智能体即裁判”方式评估代理式搜索	2025
WebCanvas：在网络画布中对网络智能体进行基准测试	NeurIPS 2024
Web-Bench：基于Web标准和框架的大模型代码基准测试	2025
VisualWebBench：多模态大模型在网页理解和具身化方面发展到了什么程度？	2024
WebLINX：通过多轮对话实现真实网站导航	CVPR 2024
LASER：具有状态空间探索能力的LLM智能体，用于网络导航	NeurIPS 2023
AutoWebGLM：自举并强化基于大型语言模型的自动化网络导航智能体	2024
OmniACT：为桌面和网络赋能多模态通用自主智能体的数据集与基准测试	2024
BEARCUBS：面向使用计算机的网络智能体的基准测试	2025
BrowseComp：一个简单但极具挑战性的浏览智能体基准测试	2025
BrowseComp-ZH：中文环境下大型语言模型的网页浏览能力基准测试	2025
Video-Browser：迈向代理式的开放网络视频浏览	2025

通用工具使用智能体

论文	年份
GTA：通用工具智能体基准测试	NeurIPS 2024
NESTFUL：评估大模型在嵌套API调用序列上的基准测试	2024
执行代码动作能更好地激发大模型智能体	ICML 2024
RestGPT：将大型语言模型与真实世界的RESTful API连接起来	2023
Search-o1：增强代理功能的大规模推理模型	2025
通过强化学习实现大模型的代理式推理与工具集成	2025
ActionReasoningBench：有无分支约束下的行动推理基准测试	2024
R-Judge：大模型智能体安全关键决策的基准测试	2024

许可证

本仓库采用 MIT 许可证授权。

星标历史

Awesome-Agentic-Reasoning 快速上手指南

Awesome-Agentic-Reasoning 并非一个可直接安装的软件库或框架，而是一个精选论文与资源列表仓库。它基于综述论文《Agentic Reasoning for Large Language Models: A Survey》，系统整理了将“推理”与“行动”相结合的前沿研究，涵盖规划、工具使用、搜索、自我进化、多智能体协作及实际应用等领域。

本指南旨在帮助开发者快速利用该仓库获取核心学术资源，并定位到具体的代码实现。

环境准备

由于本项目主要是文献索引，无需特定的运行时环境。但为了阅读论文、复现代码或参与贡献，建议准备以下基础环境：

操作系统：Linux, macOS 或 Windows
必备工具：
- Git（用于克隆仓库）
- 现代浏览器（访问 arXiv、Hugging Face 及论文主页）
- Python 3.8+（若需运行列表中具体论文提供的开源代码）
网络环境：
- 访问 arXiv 和 GitHub 可能需要稳定的网络连接。
- 国内加速建议：访问 arXiv 论文时，推荐使用国内镜像站（如 arxiv.org.cn 或各高校镜像）以加快 PDF 下载速度。

安装步骤（获取资源）

你只需要将仓库克隆到本地即可开始浏览和检索资源。

打开终端，执行以下命令克隆仓库：

git clone https://github.com/weitianxin/Awesome-Agentic-Reasoning.git

进入目录：
```
cd Awesome-Agentic-Reasoning
```
查看内容：直接在 GitHub 网页版浏览，或在本地使用 Markdown 阅读器打开 README.md 文件。
提示：该仓库会持续更新。如需获取最新论文列表，请定期执行 git pull。
```
git pull origin main
```

基本使用

本仓库的核心用法是按主题查找论文，然后前往对应的官方项目页面获取代码。以下是使用流程示例：

1. 确定研究方向

根据 README.md 中的分类目录，找到你感兴趣的技术领域。主要分类包括：

基础代理推理 (Foundational Agentic Reasoning)：规划 (Planning)、工具使用 (Tool Use)、搜索 (Search)。
自进化推理 (Self-evolving Agentic Reasoning)：反馈机制、记忆模块、能力进化。
集体多智能体推理 (Collective Multi-agent Reasoning)：角色分类、协作分工、多智能体记忆。
应用场景 (Applications)：数学探索、科学发现、具身智能、医疗、自主网页探索等。

2. 查找具体论文

例如，如果你想研究 “思维树 (Tree of Thoughts)" 相关的规划方法：

在文档中定位到 🗺️ Planning Reasoning -> Tree Search / Algorithm Simulation 部分。
找到论文标题：Tree of Thoughts: Deliberate Problem Solving with Large Language Models。
点击链接跳转至 arXiv 页面阅读论文，或搜索该论文名称找到其官方 GitHub 仓库（通常论文摘要或主页会提供代码链接）。

3. 引用资源

如果在你的研究或项目中使用了该列表中的资源，建议在参考文献中引用其核心综述论文：

@article{wei2026agentic,
  title={Agentic Reasoning for Large Language Models},
  author={Wei, Tianxin and Li, Ting-Wei and Liu, Zhining and Ning, Xuying and Yang, Ze and Zou, Jiaru and Zeng, Zhichen and Qiu, Ruizhong and Lin, Xiao and Fu, Dongqi and others},
  journal={arXiv preprint arXiv:2601.12538},
  year={2026}
}

4. 贡献新资源

如果你发现了新的相关论文，可以通过以下方式贡献：

提交 Pull Request：直接修改列表并发起 PR。
创建 Issue：在仓库中提出新增建议。
联系作者：发送邮件至 twei10@illinois.edu, twli@illinois.edu, 或 liu326@illinois.edu。

常见问题

论文《Evo-Memory》相关的代码和数据集会开源吗？

如何向该仓库推荐或提交相关的研究论文？

关于智能体规划（Agentic Planning）的新工作会被收录吗？

是否接受关于通过强化学习（RL）提升软件工程中智能体能力的论文？

该仓库主要涵盖哪些领域的研究内容？

提交的论文被收录后会在哪里展示？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架