Awesome-Context-Engineering

GitHub
3.1k 214 非常简单 1 次阅读 昨天MITAgent开发框架其他语言模型
AI 解读 由 AI 自动生成,仅供参考

Awesome-Context-Engineering 是一个专注于“上下文工程”的开源资源库,旨在帮助开发者构建从基础提示词优化到生产级 AI 系统的完整能力。随着大语言模型(LLM)应用的深入,传统的静态提示词已难以应对复杂任务的不确定性,而 Awesome-Context-Engineering 正是为了解决这一痛点而生。它系统性地整理了数百篇学术论文、主流框架及实战指南,涵盖了动态上下文管理、检索增强生成(RAG)、记忆系统、智能体(Agent)运行时、工具调用协议以及可观测性栈等关键技术领域。

该项目不仅适合希望提升模型输出质量的应用开发者,也深受 AI 研究人员和架构师的青睐。对于正在探索如何让人工智能代理具备长期规划、状态管理和人机协作能力的团队,这里提供了从理论综述到代码落地的全方位参考。其独特亮点在于紧跟技术前沿,特别更新了面向 2026 年“智能体时代”的内容,深入探讨了智能体编排、持久化记忆工件及生产环境下的上下文压缩策略。无论你是想入门上下文工程,还是寻求构建高可靠性 AI 应用的深度指导,Awesome-Context-Engineering 都是一份不可多得的权威地图。

使用场景

某金融科技公司正在构建一个需要处理长周期任务、具备记忆能力且能调用外部工具的复杂 AI 客服代理系统。

没有 Awesome-Context-Engineering 时

  • 架构设计盲目:团队仅依赖静态提示词,缺乏对动态上下文管理、记忆系统及代理运行时状态的理论指导,导致系统在多轮对话中频繁“失忆”。
  • 资源筛选低效:面对海量零散的论文和框架,开发人员难以辨别哪些技术适合生产环境,花费数周时间试错却找不到成熟的实现指南。
  • 可观测性缺失:系统上线后无法有效追踪代理的决策路径和上下文压缩效果,出现错误时只能靠猜测排查,运维成本极高。
  • 扩展性受限:由于未掌握代理间通信协议和工具调用规范,每当新增业务功能(如审批流程或沙箱执行),都需要重构核心代码。

使用 Awesome-Context-Engineering 后

  • 架构清晰落地:直接参考其收录的生产级代理运行时方案和记忆工件格式,快速构建了支持长程任务规划和人工审批循环的稳健架构。
  • 技术选型精准:利用其整理的数百篇前沿论文和框架清单,团队迅速锁定了最适合金融场景的上下文压缩与缓存策略,研发周期缩短 60%。
  • 监控体系完善:依据其推荐的“追踪优先”可观测性栈,实现了从提示词加载到代理决策的全链路监控,故障定位时间从小时级降至分钟级。
  • 平滑演进升级:借助其对 2026 代理时代互操作协议的梳理,系统轻松集成了新的编码代理和项目记忆模块,无需推翻重来即可支持复杂业务扩展。

Awesome-Context-Engineering 将团队从碎片化的提示词调试中解放出来,提供了通往生产级智能代理系统的完整工程化地图。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该项目是一个资源列表(Awesome List)和综述论文集合,而非可执行的软件工具或代码库。它主要收集了关于上下文工程、智能体运行时、记忆系统、协议和可观测性栈的相关资源、论文和技术链接。因此,该项目本身没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户只需浏览 README 中列出的外部链接即可获取相关信息。
python未说明
Awesome-Context-Engineering hero image

快速开始

令人惊叹的上下文工程

Awesome Context Engineering Cover

💬 加入我们的社区

WeChat Group

加入我们的微信群,参与讨论和获取最新动态!

加入我们的 Discord 服务器

Awesome License: MIT PRs Welcome Paper

📄 我们关于上下文工程的综合综述论文现已发表! 欢迎查阅我们的最新学术见解和理论基础。

这是一份关于 上下文工程 的全面综述与资源汇编——从静态提示逐步演进到动态、上下文感知的人工智能系统,并进一步发展为 代理运行时、记忆系统、协议、编码代理以及可观测性栈

📧 联系方式

如有任何问题、建议或合作机会,请随时联系我们:

梅凌睿
📧 邮箱: meilingrui25b@ict.ac.cnmeilingrui22@mails.ucas.ac.cn

我在论文初稿中写错了邮箱地址!! 您也可以在此仓库中提交议题,进行一般性讨论和建议。


📰 最新消息


🎯 引言

在大型语言模型(LLMs)时代,静态提示的局限性日益凸显。上下文工程 是应对 LLM 不确定性并实现生产级 AI 部署的自然演进方向。与传统的提示工程不同,上下文工程涵盖了推理时提供给 LLM 的完整信息载荷,包括完成合理任务所需的所有结构化信息组件。

本仓库旨在作为上下文工程技术、方法论及应用的全面综述。


🧭 2026 年代理时代更新

从上下文工程到代理工程

截至 2026 年 3 月,上下文工程仍然是一个有用且必要的概念,但它已不再是全部。重心已经从“如何打包最佳提示”转移到 代理系统如何管理运行时状态、记忆、工具、协议、审批流程以及长周期执行。实际上,如今上下文工程已融入更广泛的体系中,其中包括 代理框架互操作性协议用于编码代理的项目记忆以及 以追踪为核心的可观测性

本仓库目前涵盖的内容

本仓库仍保留了原有的关于长上下文、RAG、记忆、代理间通信、工具使用、评估及应用的综述结构。与此同时,本 README 正在重新组织,以更好地反映 代理时代,新增以下内容:

  • 代理框架和运行时系统,用于规划、子代理、检查点、沙盒环境以及人工审批流程
  • 生产环境中的上下文管理,通过压缩、缓存、基于工件的上下文以及按范围加载指令等方式实现
  • 记忆工件与可移植性,包括持久化记忆、记忆交换格式、角色封装以及项目记忆
  • 开放协议,如 MCP、A2A、AG-UI、ACP 以及可移植的代理模式
  • 编码代理与计算机使用,作为当前上下文工程最显著的生产应用场景
  • 评估、可观测性与遥测,针对长期运行的代理系统,而不仅仅是静态基准测试

2026 年主题阅读指南

主要关注 2026 年转变的读者,可直接跳转至以下扩展章节:


📚 目录


🔗 相关综述

通用AI综述论文

  • 大型语言模型综述, Zhao等,arXiv徽章 GitHub星标
  • 提示报告:提示工程技巧的系统性综述, Schulhoff等, arXiv徽章 GitHub星标
  • 大型语言模型中提示工程的系统性综述:技术与应用, Sahoo等, arXiv徽章
  • 视觉-语言基础模型上的提示工程系统性综述, Gao等, arXiv徽章 GitHub星标

上下文与推理

  • 上下文学习综述, Dong 等人,EMNLP徽章 GitHub星标
  • 上下文学习之谜:解释与分析的全面综述, Zhou 等人,arXiv徽章 GitHub星标
  • 检索增强生成(RAG)的全面综述:演进、现状与未来方向, Gupta 等人,arXiv徽章
  • 大型语言模型的检索增强生成:综述, Gao 等人,arXiv徽章 GitHub星标
  • 面向知识的检索增强生成综述, Cheng 等人,arXiv徽章 GitHub星标

记忆系统与上下文持久性

综述

  • 基于大型语言模型的智能体记忆机制综述, Zhang 等人,arXiv徽章 GitHub星标
  • 记忆增强型神经网络综述:从认知洞察到人工智能应用, Khosla 等人,arXiv徽章
  • 从人类记忆到AI记忆:大语言模型时代下的记忆机制综述, Wu 等人,arXiv徽章
  • 基于大语言模型的智能体评估综述, 匿名作者等,arXiv徽章
  • 个性化大型语言模型综述:进展与未来方向, 匿名作者等,arXiv徽章
  • 代理式检索增强生成综述, 匿名作者等,arXiv徽章
  • 基于图的检索增强生成(GraphRAG), 匿名作者等,arXiv徽章 GitHub星标
  • 面向大语言模型的代理式强化学习现状:综述, Zhang 等人,arXiv徽章 GitHub星标

基准测试

  • 评估大语言模型智能体的超长期对话记忆(LOCOMO), 匿名作者等,ACL徽章 GitHub星标
  • 通过增量多轮交互评估大语言模型智能体的记忆, Hu 等人,arXiv徽章 GitHub星标 HF数据集
  • 大型语言模型的情景记忆生成与评估基准, 匿名作者等,arXiv徽章
  • 论大语言模型智能体的结构化记忆, 匿名作者等,arXiv徽章
  • HotpotQA:用于多样化、可解释的多跳问答的数据集, Yang 等人,EMNLP徽章 GitHub星标
神经记忆架构
  • 神经图灵机, Graves 等人,arXiv Badge
  • 可微分神经计算机, Graves 等人,arXiv Badge GitHub stars
  • 一种基于脑启发记忆变换的可微分神经计算机, 匿名作者等,arXiv Badge
  • 带有记忆恶魔的可微分神经计算机, 匿名作者等,arXiv Badge
记忆增强型 Transformer
  • 记忆化 Transformer, Wu 等人,arXiv Badge
  • 循环记忆 Transformer, Bulatov 等人,NeurIPS Badge GitHub stars
  • 不留下任何上下文:基于 Infini-attention 的高效无限上下文 Transformer, Munkhdalai 等人,arXiv Badge
  • Memformer:用于序列建模的记忆增强型 Transformer, Wu 等人,arXiv Badge
  • 标记图灵机, Ryoo 等人,arXiv Badge
  • TransformerFAM:反馈注意力即工作记忆, Irie 等人,arXiv Badge

生产级记忆系统

  • MemGPT:迈向将大语言模型作为操作系统, Packer 等人,arXiv Badge GitHub stars
  • MemoryBank:用长期记忆增强大型语言模型, Zhong 等人,arXiv Badge GitHub stars
  • MEM0:构建具有可扩展长期记忆的生产就绪型 AI 代理, Taranjeet 等人,arXiv Badge GitHub stars
  • MEM1:学习协同记忆与推理以打造高效的长时程智能体, 匿名作者等,arXiv Badge GitHub stars
  • A-MEM:面向 LLM 代理的主体式记忆, 匿名作者等,arXiv Badge GitHub stars
  • MemAgent:利用多卷积强化学习驱动的记忆智能体重塑长上下文 LLM, 匿名作者等,arXiv Badge
  • AI 代理的记忆操作系统, Kang 等人,arXiv Badge GitHub stars
基于图的记忆系统
  • arigraph: 使用情景记忆为 LLM 代理学习知识图谱世界模型, 匿名等, arXiv Badge
  • Zep:用于代理记忆的时序知识图谱架构, 匿名等, arXiv Badge GitHub stars
  • KG-Agent:面向知识图谱复杂推理的高效自主代理框架, 匿名等, arXiv Badge
  • GraphReader:构建基于图的代理以增强大型语言模型的长上下文能力, 匿名等, arXiv Badge
  • 从局部到全局:一种面向查询聚焦摘要的 GraphRAG 方法, Edge 等, arXiv Badge GitHub stars
  • 知识图谱引导的检索增强生成, Zhu 等, arXiv Badge
情景记忆与工作记忆
  • Larimar:具有情景记忆控制的大语言模型, Goyal 等, ICML Badge
  • EM-LLM:适用于无限上下文 LLM 的类人情景记忆, 匿名等, ICLR Badge GitHub stars
  • 具有可控工作记忆的大语言模型, Goyal 等, arXiv Badge
  • 赋能大语言模型代理的工作记忆, 匿名等, arXiv Badge
对话记忆
  • MemoChat:调优 LLM 以利用备忘录实现持续的长程开放域对话, 匿名等, arXiv Badge
  • 思维在记忆中:回忆与后思使 LLM 具备长期记忆, 匿名等, arXiv Badge
  • 生成式代理:人类行为的交互式模拟物, Park 等, arXiv Badge
  • 大型语言模型的自控记忆框架, 匿名等, arXiv Badge
来自主要会议的基础性综述论文
  • AUTOPROMPT:通过自动生成提示从语言模型中提取知识, Shin 等, EMNLP Badge GitHub stars
  • 参数高效提示调优中的规模效应, Lester 等, EMNLP Badge GitHub stars
  • 前缀调优:优化连续提示以进行生成, Li 等, ACL Badge GitHub stars
  • 上下文学习作为隐式贝叶斯推断的解释, Xie 等, ICLR Badge GitHub stars
  • 重新思考演示的作用:是什么让上下文学习奏效?, Min 等, EMNLP Badge GitHub stars

额外的 RAG 和检索综述

  • 用于 AI 生成内容的检索增强生成:综述, 各方, arXiv Badge GitHub stars
  • 检索增强生成 (RAG) 及其扩展:关于如何更明智地让您的大语言模型使用外部数据的综合综述, 各方, arXiv Badge
  • 大型语言模型 (LLMs):综述、技术框架与未来挑战, 各方, AIR Badge

🏗️ 上下文工程的定义

上下文不仅仅是用户发送给大语言模型的单个提示。上下文是在推理时提供给大语言模型的完整信息载荷,包含了模型为合理完成给定任务所需的所有结构化信息组件。

大语言模型生成

要正式定义上下文工程,我们首先需要从数学上描述大语言模型的生成过程。让我们将大语言模型建模为一个概率函数:

$$P(\text{output} | \text{context}) = \prod_{t=1}^T P(\text{token}_t | \text{previous tokens}, \text{context})$$

其中:

  • $\text{context}$ 表示提供给大语言模型的完整输入信息
  • $\text{output}$ 表示生成的响应序列
  • $P(\text{token}_t | \text{previous tokens}, \text{context})$ 是在给定上下文的情况下生成每个 token 的概率

上下文的定义

在传统的提示工程中,上下文被视为一个简单的字符串: $$\text{context} = \text{prompt}$$

然而,在上下文工程中,我们将上下文分解为多个结构化的组成部分:

$$\text{context} = \text{Assemble}(\text{instructions}, \text{knowledge}, \text{tools}, \text{memory}, \text{state}, \text{query})$$

其中 $\text{Assemble}$ 是一个上下文组装函数,负责协调:

  • $\text{instructions}$:系统提示和规则
  • $\text{knowledge}$:检索到的相关信息
  • $\text{tools}$:可用的函数定义
  • $\text{memory}$:对话历史和已学习的事实
  • $\text{state}$:当前的世界/用户状态
  • $\text{query}$:用户的即时请求

上下文工程的定义

上下文工程 被正式定义为以下优化问题:

$$\text{Assemble}^* = \arg\max_{\text{Assemble}} \mathbb{E} [\text{Reward}(\text{LLM}(\text{context}), \text{target})]$$

受以下约束:

  • $|\text{context}| \leq \text{MaxTokens} \text{(上下文窗口限制)}$
  • $\text{knowledge} = \text{Retrieve}(\text{query}, \text{database})$
  • $\text{memory} = \text{Select}(\text{history}, \text{query})$
  • $\text{state} = \text{Extract}(\text{world})$

其中:

  • $\text{Reward}$ 衡量生成响应的质量
  • $\text{Retrieve}$、$\text{Select}$、$\text{Extract}$ 是用于信息收集的函数

动态上下文编排

上下文的组装可以分解为:

$$\text{context} = \text{Concat}(\text{Format}(\text{instructions}), \text{Format}(\text{knowledge}), \text{Format}(\text{tools}), \text{Format}(\text{memory}), \text{Format}(\text{query}))$$

其中 $\text{Format}$ 表示特定组件的结构化处理,而 $\text{Concat}$ 则按照令牌限制和最佳位置将其组装起来。

因此,上下文工程 就是设计和优化这些组装与格式化函数,以最大限度地提高任务性能的学科。

数学原理

从这一形式化中,我们得出四个基本原则:

  1. 系统级优化:上下文生成是一个关于组装函数的多目标优化问题,而不是简单的字符串操作。

  2. 动态适应:上下文组装函数会根据每次推理时的 $\text{query}$ 和 $\text{state}$ 进行调整:$\text{Assemble}(\cdot | \text{query}, \text{state})$。

  3. 信息论最优性:检索函数会最大化相关信息:$\text{Retrieve} = \arg\max \text{Relevance}(\text{knowledge}, \text{query})$。

  4. 结构敏感性:格式化函数编码了与大语言模型处理能力相匹配的结构。

理论框架:贝叶斯上下文推断

上下文工程可以在贝叶斯框架内进行形式化,其中最优的上下文被推断出来:

$$P(\text{context} | \text{query}, \text{history}, \text{world}) \propto P(\text{query} | \text{context}) \cdot P(\text{context} | \text{history}, \text{world})$$

其中:

  • $P(\text{query} | \text{context})$ 建模查询与上下文的兼容性
  • $P(\text{context} | \text{history}, \text{world})$ 表示先验上下文概率

最优的上下文组装变为:

$$\text{context}^* = \arg\max_{\text{context}} P(\text{answer} | \text{query}, \text{context}) \cdot P(\text{context} | \text{query}, \text{history}, \text{world})$$

这种贝叶斯公式化能够实现:

  • 不确定性量化:对上下文相关性的置信度建模
  • 自适应检索:根据反馈更新上下文信念
  • 多步推理:在交互过程中保持上下文分布

对比

维度 提示工程 上下文工程
数学模型 $\text{context} = \text{prompt}$(静态) $\text{context} = \text{Assemble}(...)$(动态)
优化目标 $\arg\max_{\text{prompt}} P(\text{answer} \mid \text{query}, \text{prompt})$ $\arg\max_{\text{Assemble}} \mathbb{E}[\text{Reward}(...)]$
复杂度 $O(1)$ 上下文组装 $O(n)$ 多组件优化
信息理论 固定的信息含量 自适应的信息最大化
状态管理 无状态函数 有状态,带有 $\text{memory}(\text{history}, \text{query})$
可扩展性 与提示长度线性相关 通过压缩/过滤呈亚线性
错误分析 手动检查提示 系统评估组装组件

🌐 相关博客

社交媒体与演讲


🤔 为什么需要上下文工程?

范式转变:从战术到战略

从提示工程到上下文工程的演进,标志着AI系统设计的根本性成熟。正如Andrej Karpathy、Tobi Lutke和Simon Willison等重要人物所指出的那样,“提示工程”这一术语已被泛化为仅仅意味着“向聊天机器人输入内容”,而无法体现工业级LLM应用所需的复杂性。

1. 当前方法的基本挑战

人类意图表达的挑战

  • 人类意图不明确:人类在用自然语言表达意图时,常常模糊、不完整或含糊不清。
  • AI对人类意图理解不足:AI系统难以完全理解复杂的意图,尤其是涉及隐含背景或文化差异的情况。
  • AI过度字面解读:AI常会过于字面地理解人类指令,从而忽略其潜在意图或语境意义。

复杂知识需求

单个模型本身无法解决需要以下条件的复杂问题:

  • (1) 大规模外部知识:超出模型容量的海量外部知识。
  • (2) 准确的外部知识:模型可能不具备的精确、最新信息。
  • (3) 新兴的外部知识:模型训练完成后出现的新知识。

静态知识的局限性:

  • 静态知识问题:预训练模型包含的知识是静态的,会逐渐过时。
  • 知识截止期:模型无法访问超出其训练数据范围的信息。
  • 领域特定的知识缺口:模型缺乏针对特定行业或应用场景的专业知识。

可靠性和可信度问题

  • AI幻觉:当缺乏适当上下文时,LLM会生成看似合理但事实错误的信息。
  • 来源不可追溯:生成信息缺乏明确的来源标注。
  • 置信度校准不足:即使生成错误信息,模型仍可能表现得非常自信。
  • 透明度不足:无法追踪结论是如何得出的。
  • 责任归属问题:难以验证AI生成内容的可靠性。

2. 静态提示的局限性

从字符串到系统

传统提示将上下文视为静态字符串,而企业级应用则需要:

  • 动态信息组装:根据具体用户和查询实时构建的上下文。
  • 多源整合:结合数据库、API、文档和实时数据。
  • 状态管理:维护对话历史、用户偏好和工作流状态。
  • 工具编排:协调外部函数调用和API交互。

“电影制作”类比

如果提示工程只是为演员写一句台词,那么上下文工程则是搭建整个场景、设计灯光、提供详尽的背景故事并指导整场戏的过程。只有在丰富且精心构建的环境中,这句台词才能发挥出预期的效果。

3. 企业级与生产环境的需求

上下文失败成为新的瓶颈

现代智能体系统中的大多数故障已不再归因于核心模型的推理能力,而是源于“上下文失败”。真正的工程挑战不在于该提出什么问题,而在于如何确保模型拥有所有必要的背景信息、数据、工具和记忆,以便有意义且可靠地作出回答。

超越简单任务的可扩展性

虽然提示工程足以应对简单的独立任务,但在扩展到以下场景时便会失效:

  • 复杂的多步骤应用
  • 数据密集型企业环境
  • 有状态的长期运行工作流
  • 多用户、多租户系统

可靠性与一致性

企业级应用要求:

  • 确定性行为:在不同上下文和用户之间保持可预测的输出。
  • 错误处理:当信息不完整或相互矛盾时,能够优雅降级。
  • 审计追踪:透明地记录上下文如何影响模型决策。
  • 合规性:满足数据处理和决策制定方面的监管要求。

经济与运营效率

上下文工程能够实现:

  • 成本优化:在RAG和长上下文方法之间做出战略性选择。
  • 延迟管理:高效检索信息并组装上下文。
  • 资源利用:优化有限上下文窗口和计算资源的使用。
  • 维护可扩展性:系统化的方法用于更新和管理知识库。

上下文工程为管理状态、整合多样化的数据源以及在这些严苛场景中保持一致性提供了架构基础。

4. 认知与信息科学基础

人工具身

大语言模型本质上是“缸中之脑”——强大的推理引擎,却缺乏与具体环境的连接。上下文工程提供了:

  • 合成感知系统:将检索机制作为人工感知
  • 代理具身:将工具使用视为人工行动能力
  • 人工记忆:结构化信息的存储与检索

大规模信息检索

上下文工程解决了信息检索中的根本挑战,即“用户”并非人类,而是一个AI智能体。这需要:

  • 语义理解:弥合意图与表达之间的鸿沟
  • 相关性优化:对海量知识库进行排序与过滤
  • 查询转换:将模糊请求转化为精确的检索操作

5. AI系统架构的未来

上下文工程将AI开发从一系列“提示技巧”提升为一门严谨的系统架构学科。它将操作系统设计、内存管理及分布式系统领域的数十年经验应用于基于大语言模型的应用所面临的独特挑战。

这一学科为在生产环境中充分发挥大语言模型的潜力奠定了基础,推动了从一次性文本生成向能够在复杂、动态环境中可靠运行的自主智能体和高级AI助手的转变。


🔧 组件、技术和架构

上下文扩展

位置插值与扩展技术

  • 通过位置插值扩展大型语言模型的上下文窗口, Chen等,arXiv徽章 GitHub星标
  • YaRN:高效扩展大型语言模型的上下文窗口, Peng等,ICLR徽章 GitHub星标
  • LongRoPE:将LLM上下文窗口扩展至超过200万标记, Ding等,ICML徽章 GitHub星标
  • LongRoPE2:近乎无损的大语言模型上下文窗口扩展, Shang等,ICML徽章 GitHub星标

内存高效的注意力机制

  • 快速多极注意力:一种用于长序列的分治型注意力机制, Kang等,ICLR徽章 GitHub星标
  • 不遗漏任何上下文:采用Infini-attention的高效无限上下文Transformer, Munkhdalai等,arXiv徽章 GitHub星标
  • DuoAttention:结合检索与流式处理头的高效长上下文LLM推理, Xiao等,ICLR徽章 GitHub星标
  • Star Attention:高效处理长序列的LLM推理, Acharya等,arXiv徽章 GitHub星标

超长序列处理(10万+标记)

  • TokenSwift:无损加速超长序列生成, Wu等,ICML徽章 GitHub星标
  • LongHeads:多头注意力其实是一种长上下文处理器, Lu等,EMNLP徽章 GitHub星标
  • ∞Bench:将长上下文评估扩展至10万标记以上, Bai等,ACL徽章 GitHub星标

上下文长度扩展的综述与方法

  • 超越极限:大型语言模型上下文长度扩展技术综述, 各方, arXiv徽章
  • LLM中长上下文扩展与泛化能力的受控研究, 各方, arXiv徽章 GitHub星标
  • 选择性注意力:通过原则性的上下文控制提升Transformer性能, 各方, NeurIPS徽章 GitHub星标
具备复杂上下文理解能力的视觉-语言模型
  • 迈向以LLM为中心的多模态融合:集成策略与技术综述, An等, arXiv徽章
  • 浏览与聚焦:通过先验-LLM上下文融合理解多模态内容, Wang等, ACL徽章 GitHub星标
  • V2PE:利用可变视觉位置编码提升视觉-语言模型的多模态长上下文能力, Dai等, arXiv徽章 GitHub星标
  • Flamingo:用于少样本学习的视觉语言模型, Alayrac等, NeurIPS徽章 GitHub星标

视听上下文融合与处理

  • 对齐更好,聆听更好:面向视听大型语言模型, Guo等, ICLR徽章
  • AVicuna:具有交错器和上下文边界对齐功能的视听LLM,用于时序参照对话, Chen等, arXiv徽章
  • SonicVisionLM:用视觉语言模型播放声音, Xie等, CVPR徽章 GitHub星标
  • SAVEn-Vid:协同视听融合,增强长视频上下文理解能力, Li等, arXiv徽章 GitHub星标

多模态提示工程与上下文设计

  • CaMML:面向大型模型的上下文感知多模态学习者, Chen等, ACL徽章
  • 大型视觉-语言模型的视觉内上下文学习, Zhou等, ACL徽章
  • CAMA:利用上下文感知调制注意力增强多模态内上下文学习, Li等, arXiv徽章

CVPR 2024视觉-语言领域进展

  • CogAgent:用于GUI代理的视觉语言模型, 各方, CVPR徽章 GitHub星标
  • LISA:基于大型语言模型的推理分割, 各方, CVPR徽章 GitHub星标
  • 对比语言-图像学习的可重复缩放规律, 各方, CVPR徽章 GitHub星标

视频与时序理解

  • 大型语言模型在视频理解中的应用:综述, 各方, arXiv徽章 GitHub星标

生产环境中的上下文管理

在智能体时代,上下文工程越来越意味着运行时上下文管理,而不仅仅是提示词的构建。如今,生产系统依赖于上下文压缩、缓存、基于工件的状态管理以及作用域限定的指令加载,以确保长周期智能体的高效性和可控性。

运行时上下文管理模式

  • OpenAI 智能体指南, OpenAI,OpenAI 标志
  • OpenAI 工具:对话状态、提示缓存与压缩, OpenAI,OpenAI 标志
  • Google ADK:上下文缓存与上下文压缩, Google,Google 标志
  • Claude Code 内存与作用域限定的项目指令, Anthropic,Anthropic 标志
  • LangChain Deep Agents:基于文件系统的上下文管理, LangChain,LangChain 标志

生产设计问题

  • 何时应将状态保留在提示中,而非移至文件、内存存储或外部工具?
  • 如何在不丢失出处信息、指令或活动计划的情况下压缩长时间运行的会话?
  • 如何根据路径、任务或子智能体有条件地加载项目规则,而不是全局加载?
  • 如何将提示缓存与内存写入及检索的新鲜度相结合?

结构化数据集成

知识图谱增强型语言模型

  • 共同学习:面向下游任务的预训练知识图谱增强型大语言模型联合多任务微调, Martynova 等人,ICCL徽章 GitHub星标
  • 知识图谱调优:基于人类反馈的实时大型语言模型个性化, Sun 等人,ICLR徽章
  • 知识图谱引导的检索增强生成, Zhu 等人,arXiv徽章 GitHub星标
  • KGLA:用于客户服务的知识图谱增强型语言代理, 匿名作者等,arXiv徽章

图神经网络与语言模型结合

  • 大型语言模型是上下文图学习者吗?, Li 等人,arXiv徽章 GitHub星标
  • 让我们问问GNN:赋能大型语言模型进行图上下文学习, Hu 等人,EMNLP徽章 GitHub星标
  • GL-Fusion:重新思考图神经网络与大型语言模型的结合, Yang 等人,ICLR徽章
  • NT-LLM:一种将图结构整合到大型语言模型中的新型节点标记器, Ji 等人,arXiv徽章

结构化数据集成

  • CoddLLM:赋能大型语言模型进行数据分析, 作者等,arXiv徽章
  • 结构引导的大型语言模型用于文本到SQL生成, 作者等,arXiv徽章
  • StructuredRAG:利用大型语言模型进行JSON响应格式化, 作者等,arXiv徽章 GitHub星标

基础性知识图谱-语言模型融合方法

  • 统一大型语言模型和知识图谱:路线图, 各方,arXiv徽章 GitHub星标
  • 结合知识图谱和大型语言模型, 各方,arXiv徽章
  • 众人对一人:高效整合大型语言模型以实现图神经网络中的消息传递, 各方,arXiv徽章
  • 大型语言模型用于图学习, 各方,WWW徽章

自生成上下文

自监督上下文生成与增强

  • SelfCite:用于大型语言模型中上下文归因的自监督对齐, Chuang 等人,arXiv Badge GitHub stars
  • 自监督提示优化, Xiang 等人,CoRR Badge GitHub stars
  • SCOPE:一种用于提升条件文本生成忠实性的自监督框架, Duong 等人,ICLR Badge GitHub stars

能够自动生成上下文的推理模型

  • 自我一致性提升语言模型中的思维链推理, Wang 等人,ICLR Badge
  • 思维之树:利用大型语言模型进行深思熟虑的问题解决, Yao 等人,arXiv Badge GitHub stars
  • 从自训练视角重新思考思维链, Wu 等人,arXiv Badge GitHub stars
  • 大型语言模型的自主树搜索能力, 作者等,arXiv Badge GitHub stars

迭代式上下文精炼与自我改进

  • Self-Refine:基于自我反馈的迭代精炼, Madaan 等人,arXiv Badge GitHub stars
  • 反思、重试、奖励:通过强化学习实现自我改进的语言模型, 作者等,arXiv Badge
  • 大型语言模型可在长上下文推理中自我改进, Li 等人,arXiv Badge GitHub stars
  • AlphaCodium代码生成:从提示工程到流程工程, Oren 等人,arXiv Badge GitHub stars
  • 语言智能体树搜索统一了语言模型中的推理、行动与规划, Zhou 等人,arXiv Badge GitHub stars

元学习与自主上下文演化

  • 大型语言模型中的元内上下文学习, Coda-Forno 等人,NeurIPS Badge
  • EvoPrompt:将LLM与进化算法结合可产生强大的提示优化器, Guo 等人,ICLR Badge GitHub stars
  • AutoPDL:面向LLM代理的自动提示优化, Spiess 等人,AutoML Badge
  • Agent-Pro:通过基于提案的编程学习进化编码代理, Zhang 等人,arXiv Badge

思维链研究的基础性成果

  • 思维链提示能激发大型语言模型的推理能力, Wei 等人,NeurIPS Badge

🛠️ 实现与挑战

0. 智能体框架与运行时系统

到2026年,上下文工程中许多最重要的进展不再仅仅存在于提示词之中。它们已经融入智能体框架:即管理计划、子智能体、检查点、文件、审批流程、工具执行以及故障恢复的运行时循环。正是在这里,上下文工程演变为智能体工程。

框架与运行时设计参考

  • 构建高效智能体, Anthropic, Anthropic徽章
  • OpenAI智能体指南, OpenAI, OpenAI徽章
  • Google智能体开发套件(ADK), Google, Google徽章
  • LangChain深度智能体概述, LangChain, LangChain徽章
  • Microsoft智能体框架概述, Microsoft, Microsoft徽章

核心运行时关注点

  • 规划与分解:如何将任务拆解为可管理的单元
  • 持久化执行:如何对智能体状态进行检查点保存、恢复或重放
  • 上下文隔离:子智能体和工具如何避免相互污染工作状态
  • 沙箱与产物:文件系统、Shell、浏览器及输出结果如何成为上下文管道的一部分
  • 人工审批与中断:生产环境中的智能体在执行高风险或长时间任务时如何保持可控性

1. 检索增强生成(RAG)

综述

  • 面向大型语言模型的检索增强生成:综述, 高云帆等, arXiv徽章 GitHub星标
  • 面向定制化大型语言模型的图式检索增强生成综述, 赵思远等, arXiv徽章 GitHub星标
  • 检索增强生成(RAG)及其扩展:关于如何更明智地让LLM使用外部数据的综合综述, 赵思远等, arXiv徽章
  • 检索增强生成评估:综述, 于浩等, arXiv徽章 GitHub星标
  • 面向知识密集型NLP任务的检索增强生成, 刘易斯等, arXiv徽章 GitHub星标
  • 面向知识导向的检索增强生成综述, 程等人, arXiv徽章 GitHub星标
  • RAG与LLM融合的综述:迈向检索增强型大型语言模型, 丁等人, arXiv徽章

朴素RAG

  • 超越极限:大型语言模型上下文长度扩展技术综述, 王新迪等, arXiv徽章
  • 机器翻译中的上下文示例选择, 斯维塔·阿格拉瓦尔等, arXiv徽章
  • 长上下文语言模型时代对RAG的辩护, 谭宇等, arXiv徽章
  • 面向知识密集型NLP任务的检索增强生成, 帕特里克·刘易斯等, arXiv徽章
  • LightRAG:简单快速的检索增强生成, 郭子睿等, arXiv徽章 GitHub星标
  • 生成而非检索:大型语言模型是强大的上下文生成器, 于文浩等, arXiv徽章 GitHub星标
  • 大型语言模型容易被无关上下文分散注意力, 史弗雷达等, arXiv徽章 GitHub星标
  • 旧式信息检索方法与RAG相遇, 奥兹·胡利等
  • 开放域问答中的密集段落检索, 弗拉基米尔·卡尔普金等, arXiv徽章 GitHub星标

高级RAG

  • 自适应-RAG:通过问题复杂度学习适应检索增强型大语言模型, Soyeong Jeong 等人, arXiv徽章 GitHub星标
  • 通过从数万亿个标记中检索来改进语言模型, Sebastian Borgeaud 等人, arXiv徽章
  • FoRAG:面向网络增强型长篇问答的事实性优化检索增强生成, Tianchi Cai 等人
  • IM-RAG:通过学习内心独白实现多轮检索增强生成, Diji Yang 等人, arXiv徽章
  • RAGCache:用于检索增强生成的高效知识缓存, Chao Jin 等人, arXiv徽章
  • 纠正型检索增强生成, Shi-Qi Yan 等人, arXiv徽章 GitHub星标
  • RankRAG:在大语言模型中统一上下文排序与检索增强生成, Yue Yu 等人, arXiv徽章
  • Astute RAG:克服大语言模型中的不完美检索增强与知识冲突, Fei Wang 等人, arXiv徽章
  • 学习为检索增强生成过滤上下文, Zhiruo Wang 等人, arXiv徽章 GitHub星标
  • 检索增强型大语言模型中的查询重写, Xinbei Ma 等人, arXiv徽章 GitHub星标
  • UPRISE:通用提示检索以提升零样本评估, Daixuan Cheng 等人, arXiv徽章 GitHub星标
  • Longllmlingua:通过提示压缩加速和增强大语言模型在长上下文场景中的表现, Huiqiang Jiang 等人, arXiv徽章 GitHub星标
  • 基于条件生成的文档级事件论元抽取, Sha Li 等人, arXiv徽章 GitHub星标
  • 多句论元链接, Seth Ebner 等人, arXiv徽章 GitHub星标
  • 微调还是检索?比较大语言模型中的知识注入, Oded Ovadia 等人, arXiv徽章
  • IAG:用于回答推理问题的归纳增强生成框架, Zhebin Zhang 等人, arXiv徽章
  • 检索遇见长上下文大语言模型, Peng Xu 等人, arXiv徽章
  • 密集检索 vs. 检索:我们应使用何种检索粒度?, Tong Chen 等人, arXiv徽章 GitHub星标
  • 利用检索增强探究大语言模型的事实性知识边界, Ruiyang Ren 等人, arXiv徽章 GitHub星标
  • 噪声的力量:重新定义RAG系统的检索, Florin Cuconasu 等人, arXiv徽章 GitHub星标
  • 背诵增强型语言模型, Zhiqing Sun 等人, arXiv徽章 GitHub星标
  • 用于零样本槽位填充的鲁棒检索增强生成, Michael Glass 等人, arXiv徽章 GitHub星标
  • 上下文内检索增强型语言模型, Ori Ram 等人, arXiv徽章 GitHub星标
  • 学习为大语言模型检索上下文示例, Liang Wang 等人, arXiv徽章 GitHub星标

模块化RAG

  • FlashRAG:用于高效检索增强生成研究的模块化工具包, 金家杰等, arXiv徽章 GitHub星标
  • 多头RAG:利用大语言模型解决多方面问题, 马切伊·贝斯塔等, arXiv徽章 GitHub星标
  • StructRAG:通过推理时混合信息结构化提升大语言模型的知识密集型推理能力, 李卓群等, arXiv徽章 GitHub星标
  • RAFT:将语言模型适配到领域特定的RAG, 张天俊等, arXiv徽章 GitHub星标
  • 端到端任务导向对话系统的检索-生成对齐, 沈伟周等, arXiv徽章 GitHub星标
  • UniMS-RAG:面向个性化对话系统的统一多源检索增强生成框架, 王洪儒等, arXiv徽章
  • 检索与采样:基于混合检索增强的文档级事件论元抽取, 任宇兵等。
  • RA-DIT:检索增强的双重指令微调, 林希维多利亚等, arXiv徽章 GitHub星标
  • 自我知识引导的大语言模型检索增强, 王一乐等, arXiv徽章 GitHub星标
  • 提示引导的非知识密集型任务检索增强, 郭志成等, arXiv徽章 GitHub星标
  • REPLUG:检索增强的黑盒语言模型, 史伟嘉等, arXiv徽章
  • 检索增强型大语言模型的查询重写, 马新北等, DOI徽章 GitHub星标
  • 自力更生:基于自我记忆的检索增强文本生成, 成鑫等, arXiv徽章 GitHub星标
  • 改进开放域问答中检索增强生成(RAG)模型的领域适应性, 萨曼·西里瓦德纳等, arXiv徽章

基于图的RAG

  • 别忘了连接!基于图的重排序提升 RAG, 董嘉林等, arXiv Badge
  • 从局部到全局:面向查询摘要的图 RAG 方法, 达伦·埃奇等, arXiv Badge
  • GRAG:图增强生成, 胡云通等, arXiv Badge GitHub 星标
  • Iseeq:利用动态元信息检索与知识图谱生成信息查询问题, 马纳斯·高尔等, arXiv Badge GitHub 星标
  • G-retriever:用于文本图理解和问答的检索增强生成, 何晓欣等, arXiv Badge GitHub 星标
  • 面向多文档问答的知识图谱提示, 王宇等, arXiv Badge GitHub 星标
  • GNN-RAG:用于大语言模型推理的图神经网络检索, 科斯塔斯·马夫罗马蒂斯等, arXiv Badge GitHub 星标
  • LightPROF:知识图谱上大语言模型的轻量级推理框架 GitHub 星标
  • 简单即有效:图与大语言模型在基于知识图谱的检索增强生成中的作用 GitHub 星标
  • 知识图谱引导的检索增强生成 GitHub 星标
  • MedRAG:通过知识图谱启发式推理增强医疗助手的检索增强生成 GitHub 星标
  • 通过自主知识图谱改造缓解大语言模型幻觉, KGR 等, arXiv Badge GitHub 星标
  • 统一框架下基于图的 RAG 深度分析arXiv Badge GitHub 星标
  • RAPTOR:面向树状组织检索的递归抽象处理, 帕尔斯·萨尔蒂等, arXiv Badge GitHub 星标
  • TableRAG:使用语言模型进行百万标记表格理解, 陈思安等, arXiv Badge GitHub 星标
  • KAG:通过知识增强生成提升专业领域中的 LLM, 梁磊等, arXiv Badge GitHub 星标
  • GFM-RAG:用于检索增强生成的图基础模型, 罗等人, arXiv Badge GitHub 星标
  • HybridRAG:结合向量和图搜索的混合检索系统, Sarabesh, GitHub Badge GitHub 星标

代理式 RAG

  • RAG 到记忆:大型语言模型的非参数持续学习, Bernal Jiménez Gutiérrez 等人, arXiv Badge GitHub 星标
  • HippoRAG:受神经生物学启发的大型语言模型长期记忆, Bernal Jiménez Gutiérrez 等人, arXiv Badge GitHub 星标
  • GraphReader:构建基于图的代理以增强大型语言模型的长上下文能力, Shilong Li 等人, arXiv Badge
  • PlanRAG:一种用于生成式大型语言模型作为决策者的“先规划后检索”增强生成方法, Myeonghwa Lee 等人, arXiv Badge GitHub 星标
  • Self-RAG:通过自我反思学习检索、生成和批判, Akari Asai 等人, arXiv Badge GitHub 星标
  • DeepRAG:为大型语言模型设计的逐步思考式检索方法, Xinyan Guan 等人, arXiv Badge
  • Paperqa:用于科学研究的检索增强生成式代理, Jakub Lála 等人, arXiv Badge
  • 大型语言模型作为个性化知识驱动对话的源规划器, Hongru Wang 等人, arXiv Badge GitHub 星标
  • PRCA:通过可插拔的奖励驱动上下文适配器,为黑盒大型语言模型适配检索问答任务, Haoyan Yang 等人, arXiv Badge GitHub 星标
  • SELF-RAG:通过自我反思学习检索、生成和批判, Akari Asai 等人, arXiv Badge GitHub 星标
  • RAT:检索增强思维在长时序生成中激发情境感知推理, Zihao Wang 等人, arXiv Badge GitHub 星标
  • 验证链可减少大型语言模型中的幻觉现象, Shehzaad Dhuliawala 等人, arXiv Badge
  • HM-RAG:层次化多智能体多模态检索增强生成, Liu 等人, arXiv Badge GitHub 星标
  • MultiHop-RAG:面向多跳查询的检索增强生成基准测试, Tang 和 Yang, arXiv Badge GitHub 星标
  • MMOA-RAG:通过多智能体强化学习改进检索增强生成, Chen 等人, arXiv Badge GitHub 星标
  • 链中搜索:迈向准确、可信且与时俱进的大型语言模型, Menick 等人, arXiv Badge

实时与流式 RAG

  • StreamingRAG:实时上下文检索与生成框架, Sankaradas 等人,arXiv 标志 GitHub 星标
  • 面向特定领域且高效的 RAG 的多任务检索器微调, 作者,arXiv 标志

2. 内存系统

运行时内存设计模式

现代内存系统已不再是一个单一的检索存储。生产级智能体越来越多地将以下内容分离:

  • 会话/线程状态,用于当前正在进行的工作
  • 长期语义记忆,用于存储用户或项目相关的事实
  • 情景记忆,用于记录轨迹、过往行为和可重用的经验
  • 程序性记忆,用于存储学习到的工作流程、指令以及稳定的运行偏好

内存设计参考

  • LangGraph 内存概览, LangChain,LangChain 标志
  • Letta 内存块, Letta,Letta 标志
  • Claude Code 内存, Anthropic,Anthropic 标志

项目记忆与指令工件

编码智能体已经使项目记忆具体化。在实践中,记忆如今往往以诸如代码库指令文件、限定范围的规则、可重用技能以及长期存在的项目笔记等工件形式存在,而不仅仅局限于向量存储中。

项目记忆参考

  • 介绍 Codex, OpenAI,OpenAI 标志
  • Claude Code 内存, Anthropic,Anthropic 标志
  • Claude Code 子代理, Anthropic,Anthropic 标志
  • LangChain 深度智能体概览, LangChain,LangChain 标志

持久化内存架构

  • MemGPT:迈向将 LLM 作为操作系统, Packer 等人,arXiv 标志 GitHub 星标
  • Mem0:构建具有可扩展长期记忆的生产就绪型 AI 智能体, Taranjeet 等人,arXiv 标志 GitHub 星标
  • MemoryLLM:迈向自我更新的大规模语言模型, Wang 等人,arXiv 标志 GitHub 星标
  • Infinite-LLM:基于 DistAttention 和分布式 KVCache 的高效长上下文 LLM 服务, 匿名作者,arXiv 标志
  • 内存增强型生成对抗变压器, 匿名作者,arXiv 标志

内存交换标准

  • PAM(便携式 AI 内存):一种用于 AI 用户记忆的开放交换格式, Daniel Gines,规范标志 GitHub 星标

内存增强型神经网络

  • 内存增强型神经网络综述:从认知洞察到 AI 应用, Khosla 等人,arXiv 标志
  • 一种具备短期、情景及语义记忆系统的机器, Kim 等人,arXiv 标志 GitHub 星标
  • 从人类记忆到 AI 内存:LLM 时代记忆机制综述, Wu 等人,arXiv 标志

情景记忆与上下文持久性

  • 记忆在大语言模型中的作用:持久化上下文以实现更智能的对话, Porcu, IJSRM徽章
  • AI代理中的情景记忆存在风险,应加以研究和缓解, Christiano等,arXiv徽章
  • Larimar:具有情景记忆控制的大语言模型, Goyal等,ICML徽章
  • EM-LLM:类人情景记忆用于无限上下文的大语言模型, 匿名等,ICLR徽章 GitHub星标
  • 具有可控工作记忆的大语言模型, Goyal等,arXiv徽章
  • 增强大语言模型代理的工作记忆, 匿名等,arXiv徽章

持续学习与记忆巩固

  • 基于预测误差驱动的记忆巩固用于持续学习, 匿名等,NeurIPS徽章
  • 通过探索海森矩阵的特征值克服持续学习中的灾难性遗忘, 匿名等,NeurIPS徽章
  • 脉冲网络中利用忆阻器实现持续学习的概率型元可塑性, 匿名等,arXiv徽章

对话记忆

  • MemoChat:调优大语言模型以使用备忘录进行一致的长程开放域对话, 匿名等,arXiv徽章
  • 思考即记忆:回忆与后思使大语言模型具备长期记忆, 匿名等,arXiv徽章
  • 生成式代理:人类行为的交互式模拟物, Park等,arXiv徽章
  • 大语言模型的自控记忆框架, 匿名等,arXiv徽章

个性化与记忆

  • 通过参数化用户记忆注入实现个性化大语言模型响应生成, 匿名等,arXiv徽章
  • 灵魂驱动的交互设计:关于AI代理声明式人格规范的立场论文, Lee,Zenodo徽章
  • Soul Spec——AI代理人格包的开放规范, ClawSouls,Spec徽章 GitHub星标

安全与对齐及记忆

  • 宪章式AI:来自AI反馈的无害性, Bai等,arXiv徽章
  • 通过有针对性的人类判断(Sparrow)改进对话代理的对齐, Glaese等,arXiv徽章

工具集成与记忆

  • WebGPT:浏览器辅助问答结合人类反馈, Nakano等,arXiv徽章
  • ToolLLM:助力大语言模型掌握16000多种真实世界API, Qin等,arXiv徽章

学习与反思

  • 语言模型是少样本学习者(GPT-3), Brown等,arXiv徽章
  • Reflexion:具备言语强化学习能力的语言代理, Shinn等,NeurIPS徽章 GitHub星标

3. 代理通信

调查

  • 人工智能代理协议综述, 杨英轩等, arXiv徽章 GitHub星标
  • 具有通信功能的多智能体深度强化学习综述, 朱昌熙等, arXiv徽章
  • 超越自我对话:基于LLM的多智能体系统以通信为中心的综述, 颜冰宇等, arXiv徽章
  • 基于大型语言模型的多智能体:进展与挑战综述, 郭泰成等, arXiv徽章 GitHub星标

开放式代理协议与互操作性

开放式协议已成为代理工程的重要组成部分。在实践中,现代代理系统越来越倾向于将以下方面分离:

  • 代理与工具之间的协议,如MCP
  • 代理与代理之间的协议,如A2A和ACP风格的远程调用
  • 代理与用户界面之间的协议,如AG-UI
  • 可移植的代理定义,如AgentSchema

官方协议与互操作性参考资料

  • 模型上下文协议规范, MCP工作组, 规范徽章
  • 模型上下文协议架构, MCP工作组, 文档徽章
  • Agent2Agent协议(A2A), Google, 协议徽章
  • AG-UI文档, CopilotKit团队, 协议徽章
  • ACP Connect, AGNTCY, 协议徽章
  • AgentSchema, 微软, 模式徽章

代理互操作协议

  • 代理互操作协议综述:模型上下文协议(MCP)、代理通信协议(ACP)和代理间协议(A2A), 张等人, arXiv徽章
  • 通过身份感知学习实现富有表现力的多智能体通信, 杜等人, AAAI徽章
  • 面向多智能体强化学习的上下文感知通信(CACOM), 李等人, arXiv徽章 GitHub星标
  • 代理互操作协议综述:模型上下文协议(MCP)、代理通信协议(ACP)、代理间协议(A2A)和代理网络协议(ANP), Abul Ehtesham等人, arXiv徽章
  • 代理能力协商与绑定协议(ACNBP), 肯·黄等人, arXiv徽章
  • 用于大型语言模型网络的可扩展通信协议, Samuele Marro等人, arXiv徽章 GitHub星标
  • 模型上下文协议(MCP) GitHub星标
  • Agent2Agent(A2A)协议 GitHub星标
  • 代理网络协议(ANP) GitHub星标

结构化通信框架

  • 面向多智能体强化学习的结构化通信学习, Wang 等人,AAMAS徽章 GitHub星标
  • AC2C:用于多智能体强化学习的自适应两跳通信, Wang 等人,AAMAS徽章
  • 面向智能体间通信的任务无关对比预训练, Sun 等人,AAMAS徽章
  • AC2C:用于多智能体强化学习的自适应两跳通信, Xuefeng Wang 等人,arXiv徽章
  • CAMEL:用于大型语言模型社会“心智”探索的通信智能体, Guohao Li 等人,arXiv徽章 GitHub星标
  • 面向多智能体强化学习的上下文感知通信(CACOM), Xinran Li 等人,arXiv徽章 GitHub星标
  • 面向智能体间通信的任务无关对比预训练, Peihong Yu 等人
  • 基于身份感知学习的富有表现力的多智能体通信, Wei Du 等人,arXiv徽章
  • MAGIS:基于LLM的多智能体框架,用于解决GitHub问题, Wei Tao 等人,arXiv徽章
  • AutoAgents:自动智能体生成框架, Guangyao Chen 等人,arXiv徽章 GitHub星标
  • MDTeamGPT:一种自我演进的基于LLM的多智能体框架,用于多学科团队医疗会诊, Kai Chen 等人,arXiv徽章 GitHub星标
  • AutoGen:通过多智能体对话实现下一代LLM应用, Wu 等人,arXiv徽章 GitHub星标

LLM增强的智能体通信

  • ProAgent:利用大型語言模型構建主動協作型智能體, Ceyao Zhang 等人,arXiv徽章 GitHub星標
  • 通過多智能體辯論提升語言模型的事實性和推理能力, Yilun Du 等人,arXiv徽章 GitHub星標
  • ChatDev:用於軟體開發的溝通型智能體, Chen Qian 等人,arXiv徽章 GitHub星標
  • 基於去中心化隊友建模的多智能體激勵性溝通, Nian Li 等人,arXiv徽章 GitHub星標
  • AgentCoord:基於LLM的多智能體協作協調策略可視化探索, Bo Pan 等人,arXiv徽章 GitHub星標
  • 基於LLM智能體網絡模擬意見動態, Yun-Shiuan Chuang 等人,arXiv徽章 GitHub星標
  • MetaGPT:面向多智能體協作框架的元編程, Sirui Hong 等人,arXiv徽章 GitHub星標
  • 智能體鏈:大型語言模型在長上下文任務中的協作, Yusen Zhang 等人,arXiv徽章
  • 基於去中心化隊友建模的多智能體激勵性溝通, Lei Yuan 等人。 DOI徽章
  • ProAgent:利用大型語言模型構建主動協作型智能體, Zhang 等人,AAAI徽章 GitHub星標
  • 模型上下文協議(MCP), Anthropic,GitHub徽章
  • CoMAS:通過交互獎勵實現多智能體系統的共同演化, Xue 等人,arXiv徽章
  • 分布式多智能體系統的阿喀琉斯之踵, Zhang 等人,arXiv徽章

4. 工具使用与函数调用

托管代理工具与计算机使用

工具使用的前沿已从静态的函数模式,转向托管工具运行时远程服务器以及计算机使用界面。在代理时代,工具越来越多地通过平台管理的执行流程、审批流和UI感知的控制回路来连接,而非单次的JSON调用。

官方工具与计算机使用参考资料

  • OpenAI 工具指南, OpenAI, OpenAI Badge
  • 介绍 Codex, OpenAI, OpenAI Badge
  • Claude 3.5 的计算机使用功能, Anthropic, Anthropic Badge
  • Google Vertex AI 代理引擎, Google, Google Badge
  • OSWorld, Xie 等人, Benchmark Badge
  • Lumen — 以视觉为核心的浏览器代理,具备基于CDP的自愈性确定性回放能力。采用截图 → 模型 → 动作循环,并支持多提供商(Anthropic、Google)。 GitHub 星标

基础工具学习

  • Toolformer:语言模型可自我学习如何使用工具, Schick 等人, NeurIPS Badge GitHub 星标
  • ReAct:在语言模型中协同推理与行动, Yao 等人, arXiv Badge GitHub 星标
  • 增强型语言模型:综述, Qin 等人, arXiv Badge
  • 大型语言模型中的工具学习:综述, Qu 等人, arXiv Badge GitHub 星标

高级函数调用系统

  • Granite 函数调用模型:通过细粒度任务的多任务学习引入函数调用能力, Smith 等人, arXiv Badge
  • HuggingGPT:利用 ChatGPT 及其 Hugging Face 伙伴解决 AI 任务, Shen 等人, NeurIPS Badge GitHub 星标
  • 提升 LLM 中的函数调用能力:提示格式、数据集成与多语言翻译策略, Chen 等人, NAACL Badge
  • 用于复杂网络任务的真实世界 WebAgent, Zhai 等人, arXiv Badge

多智能体函数调用

  • ToolACE:赢得 LLM 函数调用竞赛, Zhang 等人, OpenReview Badge
  • 伯克利函数排行榜(BFCL):评估函数调用能力, 各方, Benchmark Badge GitHub 星标

📊 上下文驱动系统的评估范式

上下文质量评估

基础长上下文基准

  • RULER:你的长上下文语言模型的真实上下文大小是多少?, Cheng-Ping Hsieh 等人,COLM徽章 GitHub星标
  • LongBench:一个双语、多任务的长上下文理解基准, Bai 等人,ACL徽章
  • ∞BENCH:将长上下文评估扩展到10万标记之外, Zhang 等人,ACL徽章 GitHub星标
  • VL-ICL基准:多模态上下文学习中的细节魔鬼, Zong 等人,ICLR徽章 GitHub星标

多模态与专项评估

  • 多模态针在 haystack 中:多模态大型语言模型的长上下文能力基准测试, Wang 等人,NAACL徽章 GitHub星标
  • 情境化主题连贯性(CTC)指标, Rahimi 等人,ACL徽章 GitHub星标
  • BBScore:一种基于布朗桥的文本连贯性评估指标, Sheng 等人,AAAI徽章 GitHub星标

RAG与生成评估

  • 检索增强生成评估:综述, Li 等人,arXiv徽章
  • Ragas:检索增强生成的自动化评估, Espinosa-Anke 等人,arXiv徽章
  • 临床微生物学中生成式AI聊天机器人的人工评估协议, Griego-Herrera 等人,PLOS徽章

上下文工程基准测试

合成与现实评估

  • 针在 haystack 中(NIAH)及合成基准, 研究领域 2023–2024年,Benchmark徽章 GitHub星标
  • ZeroSCROLLS:真实的自然语言任务, 基准 2023–2024年,Benchmark徽章 GitHub星标
  • InfiniteBench:10万+标记的评估, 基准 2024年,Benchmark徽章 GitHub星标
  • Agent-Pro:通过基于提案的编程学习进化编码代理, Zhang 等人,arXiv徽章
  • GenoTEX:用于自动基因表达数据分析的LLM代理基准, Liu 等人,MLCB徽章 GitHub星标

代理可观测性与遥测

长时间运行的代理系统需要的不仅仅是离线基准测试分数。它们还需要在跟踪级别上,对计划、工具调用、内存读写、审批、重试以及失败模式有清晰的可见性。可观测性正日益成为生产环境中上下文工程的验证层。

可观测性和遥测相关参考资料

  • LangSmith 可观测性快速入门, LangChain, LangChain 标志
  • 生成式 AI 的 OpenTelemetry 语义规范, OpenTelemetry, OpenTelemetry 标志
  • Google ADK 评估与可观测性, Google, Google 标志
  • OpenAI 代理与工具, OpenAI, OpenAI 标志

🚀 应用与系统

复杂研究系统

假设生成与数据驱动发现

  • 基于大型语言模型的假设生成, 刘等人, arXiv徽章 GitHub星标
  • GFlowNets用于人工智能驱动的科学发现, 贾因等人, Digital Discovery徽章
  • 文献与数据结合:一种协同的假设生成方法, 刘等人, arXiv徽章 GitHub星标
  • 机器学习在生物医学领域的假设生成, FieldSHIFT团队, Digital Discovery徽章

自动化科学发现

  • AI科学家:迈向完全自动化的开放式科学发现, 陆等人, arXiv徽章 GitHub星标
  • 利用AI自动化心理学假设生成, 约翰逊等人, Nature徽章
  • 大型语言模型能否取代人类进行系统性综述?, 克莱莎等人, Research Synthesis徽章
  • 无需人类示范即可解决奥林匹克几何问题, 郑等人, Nature徽章
  • GenoMAS:基于代码驱动基因表达分析的多智能体科学发现框架, 刘等人, arXiv徽章 GitHub星标
  • aiXiv:由AI科学家生成的下一代开放获取科学发现生态系统, 张等人, arXiv徽章 GitHub星标

AI赋能科学的整合与未来方向

  • AI赋能科学2025:AI创新与科学发现的融合, 芬克等人, Nature徽章
  • 迈向生成式AI驱动的科学发现:进展、机遇与挑战, 匿名作者, arXiv徽章

深度研究应用

  • 利用AI加速科学发现, MIT新闻, MIT徽章
  • 借助AI联合科学家加速科学突破, Google研究, Google徽章
  • 连接AI与科学:来自大规模AI4Science文献分析的启示, 各方, arXiv徽章 GitHub星标
  • AI赋能科学发现, 世界经济论坛, WEF徽章

生产系统

上下文工程作为核心学科

  • 从提示词设计到系统设计:上下文工程作为人工智能驱动交付的核心学科, Forte Group 团队, Forte 徽章
  • 上下文工程:企业级 AI 运营框架, Shelly Palmer, ShellyPalmer 徽章
  • MCP 如何在高吞吐量场景下处理上下文管理, Portkey.ai 团队, Portkey 徽章

企业级 AI 案例研究

  • 案例研究:摩根大通的 COiN 平台——用于金融分析的代理式 AI, AI Mindset Research, 银行业徽章
  • 案例研究:安永在 Microsoft 365 Copilot 中集成的代理式 AI, AI Mindset Research, 专业服务行业徽章
  • 上下文决定一切:让 AI 真正落地的关键转变, Phil Mora, 跨行业徽章

企业应用与基础设施

  • 面向企业 RAG 应用的上下文层, Contextual AI 团队, Contextual AI 徽章
  • AI 模型部署的挑战与解决方案, Dean Lancaster, LinkedIn 徽章
  • 2024 年:生成式 AI 在企业中的现状, Menlo Ventures, 报告徽章
  • 100 位企业 CIO 如何在 2025 年构建和采购生成式 AI, Andreessen Horowitz, a16z 徽章

结合上下文工程的开发者工具

  • Autohand Code CLI:具备语义搜索、记忆与上下文管理功能的自主编码代理, Autohand AI, 工具徽章 GitHub 星标

编码代理与项目记忆

编码代理是上下文工程演变为代理工程最为清晰的生产应用场景之一。在此,上下文不再仅仅是提示词,而是转变为代码库指令、项目记忆、任务计划、文件差异、测试结果以及工具调用记录。

  • 推出 Codex, OpenAI, OpenAI 徽章
  • Claude 的代码记忆, Anthropic, Anthropic 徽章
  • Claude 的子代理, Anthropic, Anthropic 徽章
  • Letta 的记忆块, Letta, Letta 徽章
  • LangChain 的深度代理, LangChain, LangChain 徽章

平台栈与托管代理运行时

如今的生产生态系统正日益围绕完整的代理栈而非孤立的模型或提示词来构建。这些栈将工具、记忆、运行时编排、会话管理、可观测性及互操作性整合于单一平台界面中。

  • OpenAI 代理指南, OpenAI, OpenAI 徽章
  • Google 代理开发套件(ADK), Google, Google 徽章
  • Vertex AI 代理引擎, Google, Google 徽章
  • LangGraph 记忆概览, LangChain, LangChain 徽章
  • Microsoft 代理框架, Microsoft, Microsoft 徽章

🔮 局限性与未来方向

当前局限性

  1. 上下文窗口限制:尽管有所改进,但上下文长度仍然是瓶颈
  2. 计算开销:处理大规模上下文需要大量资源
  3. 上下文连贯性:在扩展的上下文中保持一致性仍具挑战
  4. 动态适应性:实时更新上下文面临困难

未来研究方向

  1. 无限上下文:开发真正无限制的上下文处理能力
  2. 上下文压缩:高效表示大规模上下文
  3. 多模态融合:无缝整合多种数据类型
  4. 自适应上下文:自我优化的上下文管理
  5. 上下文隐私:保障上下文处理流程中的敏感信息安全

🤝 贡献

我们欢迎对本综述的贡献!请遵循以下指南:

  1. Fork 该仓库
  2. 创建 功能分支
  3. 添加 相关论文,并确保格式正确
  4. 提交 拉取请求,附上清晰的描述

论文格式指南

<li><i><b>论文标题</b></i>, 作者等, <a href="URL" target="_blank"><img src="https://img.shields.io/badge/SOURCE-YEAR.MM-COLOR" alt="SOURCE Badge"></a></li>

徽章颜色

  • arXiv徽章 red 用于 arXiv 论文
  • PDF徽章 blue 用于会议/期刊论文
  • GitHub徽章 white 用于 GitHub 仓库
  • HuggingFace徽章 yellow 用于 HuggingFace 资源

📄 许可证

本项目采用 MIT 许可证授权——详情请参阅 LICENSE 文件。


📑 引用

如果您在研究中发现本综述有所帮助,请考虑引用:

@misc{mei2025surveycontextengineeringlarge,
      title={大型语言模型上下文工程综述}, 
      author={Mei Lingrui, Yao Jiayu, Ge Yuyao, Wang Yiwei, Bi Baolong, Cai Yujun, Liu Jiazhi, Li Mingyu, Li Zhong-Zhi, Zhang Duzhen, Zhou Chenlin, Mao Jiayi, Xia Tianze, Guo Jiafeng, Liu Shenghua},
      year={2025},
      eprint={2507.13334},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2507.13334}, 
}

⚠️ 免责声明

本项目处于持续更新和不断发展之中。尽管我们力求准确和全面,但仍可能存在错误、遗漏或过时的信息。我们欢迎社区成员提出修正意见、建议及贡献。请持续关注我们的定期更新与改进。

📧 联系方式

如有任何问题、建议或合作机会,请随时联系我们:

Mei Lingrui
📧 邮箱:meilingrui22@mails.ucas.ac.cn

您也可以在此仓库中提交议题,进行一般性讨论和建议。


🙏 致谢

本综述建立在人工智能研究社区的奠基性工作之上。我们感谢所有为上下文工程及大型语言模型发展做出贡献的研究人员。


星标历史

如果您觉得本项目有帮助,请为它点亮星星⭐!

星标历史图


📖 我们的论文

大型语言模型上下文工程综述

这篇综合性的综述提供了关于大型语言模型上下文工程的最新学术见解和理论基础。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|2天前
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像