ai-agent-papers

1.3k 94 非常简单 1 次阅读今天语言模型Agent开发框架

AI 解读由 AI 自动生成，仅供参考

ai-agent-papers 是一个专注于整理和更新 AI 智能体（AI Agents）领域前沿研究论文的开源知识库。随着大模型技术的飞速发展，相关学术论文层出不穷，研究人员往往难以从海量文献中快速筛选出具有创新架构或独特概念的高质量内容。ai-agent-papers 通过每两周一次的定期更新机制，利用特定关键词检索 ArXiv，并人工精选那些提出新颖方法或显著区别于现有技术的论文，有效解决了信息过载与筛选困难的问题。

该资源库不仅涵盖了智能体的核心能力（如规划、推理、记忆、工具使用及自我进化），还系统梳理了单体与多智能体架构、运维流程以及在科研、金融、企业等场景的具体应用。其独特的亮点在于分类细致且带有推荐标识，特别标注了综述类、基准测试类以及高价值的推荐论文，甚至包含了教程与讲座资源。

无论是希望追踪最新技术动态的 AI 研究人员，还是正在构建智能体应用的开发者，亦或是需要洞察行业趋势的技术决策者，都能从 ai-agent-papers 中高效获取所需知识，避免在低质量文献中浪费时间，是深入理解 AI 智能体生态的理想入门与进阶指南。

使用场景

某高校人工智能实验室的研究团队正致力于开发一套具备自主科研能力的多智能体系统，急需追踪最新的架构设计与评估方法。

没有 ai-agent-papers 时

信息过载难筛选：研究人员每天需在 ArXiv 上手动检索海量论文，耗费大量时间却难以从成千上万篇文献中识别出真正具有创新性的工作。
技术视野有盲区：由于缺乏系统化的分类整理，团队容易错过如“自我进化”或“人机协同经济研究”等新兴细分领域的关键突破。
复现落地效率低：找到论文后，往往难以快速定位其所属的技术类别（如规划、记忆或工具使用），导致在复现算法和对比基准时反复摸索，拖慢研发进度。

使用 ai-agent-papers 后

精准获取前沿成果：团队直接查阅双周更新的精选列表，迅速锁定如"EvoScientist"等引入全新概念的高质量论文，将文献调研时间缩短 80%。
构建系统化知识树：利用清晰的分类体系（如单智能体/多智能体架构、数字/具身应用），研究人员能快速补齐在“深度研究智能体”等领域的认知短板。
加速原型开发迭代：通过直接关联的基准测试与评估论文，团队能迅速确立实验对照标准，大幅提升了从理论验证到代码落地的转化效率。

ai-agent-papers 通过将分散的学术碎片重构为有序的知识图谱，帮助研发团队在激烈的 AI 竞争中实现了从“大海捞针”到“按图索骥”的效率飞跃。

运行环境要求

依赖

notes该项目是一个论文汇总仓库（Curated List），用于收集和整理关于 AI Agent 的最新研究论文。它不包含可执行的代码、模型训练脚本或推理引擎，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户只需通过浏览器查看 Markdown 文件或克隆仓库即可阅读内容。

快速开始

AI智能体论文

本仓库汇集了关于AI智能体应用及架构技术的最新研究论文。我们每周使用特定关键词在Arxiv上进行检索，仅挑选那些特别有趣的文章。我们并不追求全面性，而是在论文提出独特的新方法或新颖概念、显著区别于现有方法时才将其加入。

AI智能体

AI智能体是一种由大型语言模型驱动的自主系统，能够感知环境、推理复杂任务，并利用工具采取行动以实现特定目标。它结合了推理、规划、记忆和工具使用等能力，既可以独立运作，也可以作为多智能体系统的一部分协同工作。

论文分类

🔥：推荐论文
📖：综述论文
⚖️：基准测试论文

智能体能力
- 环境
- 创意生成
- 规划
- 推理
- 个人资料
- 感知
- 工具使用与技能
- 自我修正
- 搜索
- 记忆
- 自我进化
- 安全性
- 智能体调优
- 智能体评估
AI智能体架构
AI智能体应用
GenAI智能体展示
- 教程与讲座

参考文献

3月30日精选

科研智能体

“代理式科学仿真：基于执行的模型构建与重构” [论文]
“DeepXiv-SDK：面向科学文献的代理式数据接口” [论文]
“EvoScientist：迈向端到端科学发现的多智能体进化型AI科学家” [论文]
“HLER：通过多智能体流水线进行实证发现的人工智能经济研究” [论文]
“自动研究，而非超参数调优：1万次LLM引导的机器学习实验的收敛性分析” [论文]
“AwesomeLit：借助智能体支持的文献研究进行假设生成” [论文]
“VILLA：利用大型语言模型从科学文献中进行多功能信息检索” [论文]
“AI科学家智能体能否从实验室闭环反馈中学习？来自迭代扰动发现的证据” [论文]
⚖️ “SciVisAgentBench：用于评估科学数据分析与可视化智能体的基准测试” [论文]
“FlowPIE：利用流动引导的文献探索实现测试时的科学创意演化” [论文]
[2026年4月] “对氛围式研究的前瞻性展望” [论文]

人机协作

“ViviDoc：通过人机协作生成交互式文档” [论文]
“多轮人-LLM协作代码生成中的交互异味实证研究” [论文]
“InterDeepResearch：通过交互式深度研究实现人机协作的信息获取” [论文]
“人机交互中的隐形失败” [论文]
“争论式的人机决策：迈向与我们共同推理而非替我们决策的AI智能体” [论文]
“代理式AI与下一次智能爆炸” [论文]
“询问还是假设？编码智能体中的不确定性感知澄清请求” [论文]
“AI时代的人-数据交互、探索与可视化：挑战与机遇” [论文]

智能体

“为终端打造高效AI编码智能体：脚手架、框架、上下文工程及经验教训” [论文]
“AutoAgent：面向自适应智能体的认知进化与弹性内存编排” [论文]
“OpenClaw-RL：只需对话即可训练任何智能体” [论文]
“MetaClaw：只需对话——一种能在野外元学习并进化的智能体” [论文]
📖 “LLM智能体中工具使用的演变：从单一工具调用到多工具编排” [论文]

自进化智能体

“EvoSkill：多智能体系统的自动化技能发现” [论文]
“进化中的欺骗：当智能体进化时，欺骗获胜” [论文]
“EvoScientist：迈向端到端科学发现的多智能体自进化人工智能科学家” [论文]
“AutoAgent：面向自适应智能体的认知进化与弹性记忆编排” [论文]
“基于轨迹信息的记忆生成用于自我改进的智能体系统” [论文]
“MetaClaw：只需对话——一种在野外进行元学习并进化的智能体” [论文]
“AgentFactory：通过可执行子智能体的积累与复用实现自进化框架” [论文]
“超智能体” [论文]
“用于实时战略场景中高效决策的自进化多智能体框架” [论文]
“面向自我改进的大型语言模型智能体的经验式反思学习” [论文]
“ASI-Evolve：人工智能加速人工智能” [论文]

2月28日精选

人机协作

“从人与人协作到人与智能体协作：实现人类与大型语言模型智能体之间成功合作的愿景、设计哲学及实证框架” [论文]
“智能AI委派” [论文]
“下一个范式是以用户为中心的智能体，而非以平台为中心的服务” [论文]

技能

“SKILLRL：通过递归式技能增强强化学习进化智能体” [论文]
“智能体技能：数据驱动分析Claude技能以扩展大型语言模型功能” [论文]
📖 “大型语言模型的智能体技能：架构、获取、安全性及未来之路” [论文]
⚖️ “SkillsBench：跨多样化任务评估智能体技能表现的基准测试” [论文]
📖 “SoK：代理型技能——超越大型语言模型智能体中的工具使用” [论文]

自进化智能体

“自巩固：面向自进化智能体” [论文]
“Live-Evo：基于持续反馈的代理型记忆在线进化” [论文]
“MemSkill：为自进化智能体学习与进化记忆技能” [论文]
⚖️ “AGENTRX：从执行轨迹诊断人工智能智能体故障” [论文]
“Empirical-MCTS：通过双经验蒙特卡洛树搜索实现持续的智能体进化” [论文]
“AdaptEvolve：通过自适应模型选择提升进化型人工智能智能体效率” [论文]
“AORCHESTRA：自动化子智能体创建以实现代理型编排” [论文]
“进化式系统提示学习可促进大型语言模型的强化学习” [论文]
⚖️ “VeRO：一个用于优化智能体的评估框架” [论文]

科学发现

⚖️ “FIRE-Bench：评估智能体对科学洞见的再发现能力” [论文]
“DeltaEvolve：通过动量驱动的进化加速科学发现” [论文]
“利用Gemini加速科学研究：案例研究与常用技术” [论文]
📖 “迈向集体人工智能科学：基于大型语言模型的多智能体系统需要从盲目的试错转向严谨的科学” [论文]
⚖️ “AIRS-Bench：面向前沿人工智能研究智能体的任务套件” [论文]
“IV Co-Scientist：用于因果工具变量发现的多智能体大型语言模型框架” [论文]
“DeepInnovator：激发大型语言模型的创新能力” [论文]
“通过具身行动将大型语言模型置于科学发现之中” [论文]

1月30日精选

代理推理

📖 “大型语言模型的代理推理” [论文]
📖 “迈向高效智能体：记忆、工具学习与规划” [论文]

自进化智能体

“JENIUS AGENT：迈向真实场景中的经验驱动精度优化” [论文]
“EvoRoute：经验驱动的自路由大模型智能体系统” [论文]
“MEMRL：基于情景记忆的运行时强化学习实现自进化智能体” [论文]
“PACEvolve：实现长 horizon 的进度感知一致性进化” [论文]
“超越静态工具：面向科学推理的测试时工具进化” [论文]
“WISE-Flow：工作流诱导的结构化经验用于自进化对话服务智能体” [论文]
“检索还是思考？一种用于上下文演化的智能体方法” [论文]
“算法代码优化中的可控自进化” [论文]
“像人类一样学习：利用元认知反思实现高效自我改进” [论文]
📖 “从存储到经验：大模型智能体记忆机制演进综述” [论文]
“验证的推理时扩展：通过测试时评分标准引导的验证实现深度研究智能体的自进化” [论文]
“利用元工具优化智能体工作流” [论文]
“云觉智能体技术报告：一个完全可复现、零起点的原位自进化智能体系统，适用于开放性任务” [论文]
“大型语言模型智能体并不总是忠实的自进化者” [论文]

记忆

“智能体记忆：为大型语言模型智能体学习统一的长期与短期记忆管理” [论文]
“SimpleMem：大模型智能体的高效终身记忆” [论文]
“MEMRL：基于情景记忆的运行时强化学习实现自进化智能体” [论文]
“记忆更重要：以事件为中心的记忆作为智能体搜索与推理的逻辑地图” [论文]
“可控的记忆使用：在长期人机交互中平衡锚定与创新” [论文]
“由内而外：面向长期个性化对话系统的用户中心核心记忆树演化” [论文]
“MineNPC-Task：面向记忆感知的 Minecraft 智能体任务集” [论文]
“PACEvolve：实现长 horizon 的进度感知一致性进化” [论文]
“AI 海马体：我们离人类记忆还有多远？” [论文]
“MemoBrain：执行记忆作为智能体推理的大脑” [论文]
“AtomMem：具有原子级记忆操作的学习型动态智能体记忆” [论文]
“Fine-Mem：细粒度反馈对齐用于长 horizon 记忆管理” [论文]
“结构化的情景事件记忆” [论文]
“主动上下文压缩：大模型智能体中的自主记忆管理”[论文]
📖 “从存储到经验：大模型智能体记忆机制演进综述” [论文]
“AutoRefine：从轨迹到可复用专长，用于持续的大模型智能体精炼” [论文]

创意任务

“利用智能体 AI 框架进行渐进式构思，助力人机共创” [论文]
“OpenNovelty：基于 LLM 的智能体系统，用于可验证的学术新颖性评估” [论文]
“Sci-Reasoning：解码 AI 创新模式的数据集” [论文]
“SuS：策略感知的惊喜，用于内在探索” [论文]
“时间证明：评估科学创意判断的基准” [论文]
“LLM 评论：通过盲评同行反馈提升创意写作” [论文]
“智能体 AI 和机器学习在加速材料发现及应用中的作用” [论文]
“谁拥有创造力，谁来完成工作？LLM 支持的研究创意构思中的权衡” [论文]
“借助假设与动态认知的 AI 智能体实现更高效的 Bug 定位” [论文]
“重新思考 AI 科学家：用于科学发现的交互式多智能体工作流” [论文]
“在测试时学习发现” [论文]
“洞察力智能体：基于 LLM 的多智能体数据洞察系统” [论文]
“探询元分析的未来：通过智能体研究 IDE 提取设计原则” [论文]
“大规模生成文献驱动的科学理论” [论文]

编码智能体

“借助假设与动态认知的 AI 智能体实现更高效的 Bug 定位” [论文]
“沙盒中的 LLM 能够激发通用智能体智能” [论文]
“SERA：软验证的高效仓库智能体” [论文]
“在 SE 3.0 中，谁来编写文档？智能体与人工的文档 Pull Request” [论文]
“智能体如何重构：一项实证研究” [论文]
“不止于修复 Bug：对智能体生成的 Pull Request 合并后代码质量问题的实证调查” [论文]
“我们都在以相同的方式使用智能体吗？核心与边缘开发者使用编码智能体的实证研究” [论文]

12月25日亮点（更新至12月30日）

自进化智能体

“AI 劳动力市场中竞争性智能体的战略性自我改进” [论文]
“在极低人类监督下引导自进化的大型语言模型” [论文]
“进化卓越：基于大型语言模型的智能体自动化优化” [论文]
“记住我，完善我：一种面向经验驱动型智能体进化的动态程序化记忆框架” [论文]
“超越训练：借助 MOBIMEM 实现智能体的自进化” [论文]
“SCOPE：用于提升智能体效能的提示词进化” [论文]
“基于技能库的强化学习驱动的自我改进型智能体” [论文]
“MemEvolve：智能体记忆系统的元进化” [论文]

热点话题

📖 “AI 智能体时代的记忆：形态、功能与动态综述” [论文]
📖 “代理式 AI 的适应性：后训练、记忆与技能的综述” [论文]
📖 “深度研究：系统性综述” [论文]
🔥 “生产环境中智能体的度量” [论文]
🔥 “迈向智能体系统规模化的科学” [论文]
⚖️ “在科学发现中评估大型语言模型” [论文]
🔥 “我们距离真正有用的深度研究智能体还有多远？” [论文]
“代理式 AI 能否匹敌人类数据科学家的表现？” [论文]

2025 年亮点

04/25 ~ 12/25 [链接]

ai-agent-papers 快速上手指南

ai-agent-papers 不是一个可执行的软件库或框架，而是一个精选的 AI Agent 研究论文知识库。它通过每周筛选 Arxiv 上的最新文献，整理出关于 AI Agent 架构、能力及应用的高质量论文列表。

本指南旨在帮助开发者快速访问、浏览和利用该资源库中的研究成果。

环境准备

本项目无需复杂的系统环境或编译依赖，仅需具备基础的代码浏览环境即可。

操作系统：Windows / macOS / Linux 均可
前置依赖：
- Git（用于克隆仓库）
- Markdown 阅读器（推荐 VS Code 及其插件，或直接使用 GitHub 网页版）
- 网络连接（用于访问论文链接）

安装步骤

通过 Git 将仓库克隆到本地，以便离线浏览或跟踪更新。

# 克隆仓库
git clone https://github.com/agiresearch/ai-agent-papers.git

# 进入目录
cd ai-agent-papers

提示：如果国内访问 GitHub 速度较慢，建议使用 Gitee 镜像（如有）或配置代理加速。

基本使用

由于本项目是文档型资源库，主要使用方式为查阅分类索引和阅读具体论文摘要。

1. 浏览论文分类

在本地或 GitHub 仓库根目录下，查看 README.md 中的 Paper Categories 部分。项目将论文分为以下核心维度：

Agent Capabilities（智能体能力）：涵盖规划 (Planning)、推理 (Reasoning)、记忆 (Memory)、工具使用 (Tool Use) 等。
AI Agents Architecture（架构）：包含单智能体 (Single-Agent)、多智能体 (Multi-Agent) 及 Agent-Ops。
AI Agents Applications（应用场景）：涉及具身智能 (Embodied)、数字员工 (Digital Agents)、科研智能体 (Research Agents) 等。

2. 查找特定领域论文

进入对应的子目录查看详细的论文列表。例如，查看“规划”相关的论文：

# 在终端中查看规划类论文列表（需安装 bat 或 cat 命令）
cat capability-papers/planning.md

或者直接在文件管理器中打开 capability-papers/planning.md 文件。

3. 关注最新高亮论文

仓库会定期更新 "Highlights"（如 March/30 Highlights），标记了 🔥 (推荐)、📖 (综述) 和 ⚖️ (基准测试) 的论文。

直接访问：在 README.md 底部查看最新的月度高亮列表。
获取全文：点击列表中的 [paper] 链接，直接跳转至 Arxiv 页面下载 PDF 或查看代码实现。

4. 订阅趋势报告（可选）

项目提供了按主题整理的趋势报告（Trends Report），位于 newsletters/ 目录下，适合快速了解某一领域的演进路线（如自我进化、记忆机制等）。

# 查看自我进化趋势报告
cat newsletters/jan_2026/self_evolution_trends.md

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 145.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent