Context-Engineering
Context-Engineering 是一本面向未来的实战指南,旨在帮助开发者从单一的“提示词工程”进阶到更系统的“上下文工程”。正如 Andrej Karpathy 所言,其核心在于掌握向模型上下文窗口填充“恰到好处信息”的艺术与科学。
传统提示词仅关注单条指令,而 Context-Engineering 解决的是如何统筹管理模型在推理时看到的完整信息负载,包括示例、记忆、检索内容、工具状态及控制流等。通过优化这些要素的设计与编排,它能显著提升大模型在复杂任务中的表现,避免因上下文混乱导致的性能下降。
该项目基于对 1400 多篇前沿论文的系统性分析,融合了来自 ICML、IBM 及普林斯顿等机构的最新研究成果。它不仅提供了从第一性原理出发的理论框架,还包含可视化教程、综合课程草案以及适配 Claude Code、Gemini CLI 等多种主流 AI 编程助手的智能体命令集。
无论是希望构建高可靠性 AI 应用的软件工程师、探索模型机制的研究人员,还是致力于优化交互体验的产品设计师,都能从中获得关于上下文设计、编排与优化的深度洞察。它不再局限于“说什么”,而是专注于让模型“看见”什么,从而释放更强的推理潜能。
使用场景
某全栈开发团队正在利用 Claude Code 重构一个遗留的电商微服务系统,需要模型同时理解复杂的业务逻辑、数据库架构及最新的 API 规范。
没有 Context-Engineering 时
- 信息过载与丢失:开发者试图将全部代码库塞入上下文窗口,导致关键的业务规则被“淹没”,模型频繁产生幻觉或忽略核心约束。
- 状态记忆断裂:在多轮对话重构中,模型无法有效维持之前的修改状态,经常重复生成已废弃的代码或破坏已修复的逻辑。
- 响应效率低下:由于缺乏对上下文的动态编排,每次交互都需重新解释背景,导致 Token 消耗巨大且推理速度缓慢。
- 工具调用盲目:模型在不清楚当前文件依赖关系的情况下盲目调用搜索或编辑工具,引发连锁错误。
使用 Context-Engineering 后
- 精准信息注入:Context-Engineering 自动筛选并注入当前任务最相关的代码片段与文档,确保模型聚焦于核心逻辑,显著提升准确率。
- 动态状态管理:通过优化的上下文编排,模型能清晰感知代码变更的历史状态,像资深工程师一样保持重构过程的连贯性。
- 资源高效利用:仅保留必要的上下文信息,大幅减少冗余 Token 占用,使复杂任务的推理成本降低且响应更敏捷。
- 智能工具协同:结合结构化上下文,模型能精准判断何时调用何种开发工具,实现从“盲目尝试”到“按需执行”的跨越。
Context-Engineering 通过将杂乱的提示词升级为精密的上下文设计,让 AI 从单纯的指令执行者进化为具备全局视野的智能协作伙伴。
运行环境要求
未说明
未说明

快速开始
上下文工程
“上下文工程是一门精妙的艺术与科学,旨在为下一步操作恰到好处地填充上下文窗口。” — 安德烈·卡帕西
综合课程正在建设中
上下文工程调查——1400篇研究论文综述
以第一性原理和可视化方式落地关于上下文的最新研究——2025年7月来自 ICML、IBM、NeurIPS、OHBM 等
“为 GPT-4.1 提供‘认知工具’后,其在 AIME2024 中的 pass@1 准确率从 26.7% 提升至 43.3%,使其性能非常接近 o1-preview。” — IBM 苏黎世研究院
Agent Commands
支持 Claude Code | OpenCode | Amp | Kiro | Codex | Gemini CLI
上下文工程调查——1400篇研究论文综述 | 上下文退化 | IBM 苏黎世研究院 | 量子语义学 | ICML 普林斯顿的涌现符号学 | MEM1 新加坡-MIT | 上海人工智能实验室的 LLM 吸引子 | MemOS 上海 | 潜在推理 | 动态递归深度
一本前沿且基于第一性原理的手册,旨在超越提示工程,迈向更广泛的上下文设计、编排与优化领域。
提示工程 │ 上下文工程
↓ │ ↓
“你说了什么” │ “模型所见的一切其他内容”
(单条指令) │ (示例、记忆、检索、
│ 工具、状态、控制流)
上下文工程的定义
上下文不仅仅是用户发送给 LLM 的单一提示。上下文是在推理时提供给 LLM 的完整信息载荷,涵盖了模型为合理完成特定任务所需的所有结构化信息组件。
╭─────────────────────────────────────────────────────────────╮
│ 上下文工程精通课程 │
│ 从零到前沿 │
╰─────────────────────────────────────────────────────────────╯
▲
│
数学基础
C = A(c₁, c₂, ..., cₙ)
│
▼
┌─────────────┬──────────────┬──────────────┬─────────────────┐
│ 基础 │ 系统实现 │ 集成 │ 前沿 │
│ (第1–4周) │ (第5–8周) │ (第9–10周) │ (第11–12周) │
└─────┬───────┴──────┬───────┴──────┬───────┴─────────┬───────┘
│ │ │ │
▼ ▼ ▼ ▼
┌─────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ 数学模型 │ │ RAG 系统 │ │ 多智能体 │ │ 元递归 │
│ 组件 │ │ 内存架构 │ │ 编排理论 │ │ 量子语义学 │
│ 处理 │ │ 工具集成 │ │ 评估 │ │ 协作 │
│ 管理 │ │ 代理系统 │ │ 评价 │ │ 自我提升 │
└─────────────┘ └──────────────┘ └──────────────┘ └──────────────┘
为什么存在这个仓库
“意义并不是语义表达的内在、静态属性,而是一种涌现现象” — Agostino 等人 — 2025年7月,印第安纳大学
提示工程曾备受关注,但现在我们可以期待接下来的发展。一旦你掌握了提示词的运用,真正的力量就来自于对围绕这些提示词的整个上下文窗口进行工程化设计。换句话说,就是引导思维的过程。
本仓库提供了一种基于生物隐喻的、由浅入深的上下文工程方法论:
原子 → 分子 → 细胞 → 器官 → 神经系统 → 神经与语义场理论
│ │ │ │ │ │
单个 少量 记忆 + 多代理 认知工具 + 上下文 = 场 +
提示 示例 代理 代理 操作系统 持久性 & 共振
“抽象是泛化的代价”——Grant Sanderson (3Blue1Brown)
graph TD
classDef basic fill:#e1f5fe,stroke:#01579b,stroke-width:2px,color:#01579b
classDef intermediate fill:#e8f5e9,stroke:#2e7d32,stroke-width:2px,color:#2e7d32
classDef advanced fill:#fff3e0,stroke:#e65100,stroke-width:2px,color:#e65100
classDef meta fill:#f3e5f5,stroke:#6a1b9a,stroke-width:2px,color:#6a1b9a
subgraph Basic["第一层:基础上下文工程"]
A[原子]
B[分子]
C[细胞]
D[器官]
end
subgraph Field["第二层:场理论"]
E[神经系统]
F[神经场]
end
subgraph Protocol["第三层:协议体系"]
G[协议壳]
H[统一系统]
end
subgraph Meta["第四层:元递归"]
I[元递归框架]
end
%% 连接线
A --> B
B --> C
C --> D
D --> E
E --> F
F --> G
G --> H
H --> I
%% 各层级描述
A1["单条指令<br>简单约束<br>基础提示"] --> A
B1["示例对<br>少样本模式<br>演示集"] --> B
C1["持久记忆<br>状态管理<br>上下文窗口"] --> C
D1["多步流程<br>专家角色<br>系统编排"] --> D
E1["推理框架<br>验证工具<br>认知模式"] --> E
F1["持续意义<br>吸引子与共振<br>符号残留"] --> F
G1["结构化模板<br>场操作<br>涌现协议"] --> G
H1["协议集成<br>系统级涌现<br>自我维持"] --> H
I1["自我反思<br>递归改进<br>可解释的演化"] --> I
%% 现实类比
A2["类似:基础提示<br>工程"] -.-> A
B2["类似:少样本<br>学习"] -.-> B
C2["类似:对话式<br>聊天机器人"] -.-> C
D2["类似:多智能体<br>系统"] -.-> D
E2["类似:ReAct<br>思维链"] -.-> E
F2["类似:语义<br>场理论"] -.-> F
G2["类似:协议<br>编排"] -.-> G
H2["类似:自组织<br>系统"] -.-> H
I2["类似:自我提升<br>智能"] -.-> I
%% 应用样式
class A,B,C,D,A1,A2,B1,B2,C1,C2,D1,D2 basic
class E,F,E1,E2,F1,F2 intermediate
class G,H,G1,G2,H1,H2 advanced
class I,I1,I2 meta
快速入门
阅读
00_foundations/01_atoms_prompting.md(5分钟)
了解为什么仅靠提示词往往效果不佳运行
10_guides_zero_to_hero/01_min_prompt.py(Jupyter Notebook 风格)
体验一个最小可行示例探索
20_templates/minimal_context.yaml
将模板复制到你的项目中研究
30_examples/00_toy_chatbot/
查看包含上下文管理的完整实现
学习路径
┌─────────────────┐ ┌──────────────────┐ ┌────────────────┐
│ 00_foundations/ │ │ 10_guides_zero_ │ │ 20_templates/ │
│ │────▶│ to_one/ │────▶│ │
│ 理论与核心 │ │ 实战指导 │ │ 复制粘贴 │
│ 概念 │ │ 演示 walkthroughs│ │ 片段 │
└─────────────────┘ └──────────────────┘ └────────────────┘
│ │
│ │
▼ ▼
┌─────────────────┐ ┌────────────────┐
│ 40_reference/ │◀───────────────────────────▶│ 30_examples/ │
│ │ │ │
│ 深度解析 & │ │ 实际项目、 │
│ 评估手册 │ │ 逐步复杂 │
└─────────────────┘ │ 的实现 │
▲ └────────────────┘
│ ▲
│ │
└────────────────────┐ ┌───────────┘
▼ ▼
┌─────────────────────┐
│ 50_contrib/ │
│ │
│ 社区贡献 │
│ │
└─────────────────────┘
你将学到的内容
| 概念 | 是什么 | 为什么重要 |
|---|---|---|
| Token预算 | 优化上下文中的每一个token | 更多的token意味着更高的成本和更慢的响应 |
| 少样本学习 | 通过展示示例进行教学 | 通常比单独的解释效果更好 |
| 记忆系统 | 在多次交互中持久化信息 | 实现有状态、连贯的交互 |
| 检索增强 | 查找并注入相关文档 | 使回答基于事实,减少幻觉 |
| 控制流 | 将复杂任务分解为步骤 | 用更简单的提示解决更难的问题 |
| 上下文修剪 | 移除不相关信息 | 只保留对性能必要的内容 |
| 指标与评估 | 衡量上下文的有效性 | 迭代优化token使用与质量之间的平衡 |
| 认知工具与提示编程 | 学习构建自定义工具和模板 | 提示编程为上下文工程提供了新的层次 |
| 神经场理论 | 上下文作为神经场 | 将上下文建模为动态神经场,允许迭代更新上下文 |
| 符号机制 | 符号架构支持高阶推理 | 更智能的系统意味着更少的工作量 |
| 量子语义学 | 意义依赖于观察者 | 设计利用叠加技术的上下文系统 |
卡帕西 + 3Blue1Brown 风格
适合所有经验水平的学习者
- 第一性原理 – 从最基本的上下文开始
- 迭代添加 – 只添加模型明显缺乏的部分
- 测量一切 – token成本、延迟、质量评分
- 无情删除 – 修剪胜过填充
- 代码 > 幻灯片 – 每个概念都有可运行的代码单元
- 可视化一切 — 每个概念都用ASCII和符号图示进行可视化
研究证据
记忆 + 推理
MEM1:学习协同记忆与推理以构建高效长时序智能体 - 新加坡-麻省理工学院 2025年6月
“我们的研究结果表明,基于推理的记忆整合作为一种可扩展的替代方案,有望用于训练长时序交互式智能体,在效率和性能上均达到最优。”— 新加坡-麻省理工学院

MEM1训练AI智能体只保留关键信息——在每一步都将记忆与推理融合——因此无论任务持续多久,它们都不会被压垮。
不同于堆积无尽的上下文,MEM1将每次交互压缩成一个紧凑的“内部状态”,就像一张不断更新而非重复复制的智能笔记。
通过将记忆与思考融为一体,MEM1学会只记住最重要的内容——使智能体更快、更敏锐,并能处理更长时间的对话。
智能体所做的每一件事都被标记和结构化,因此每个动作、问题或事实都清晰易懂,便于审计——不再有神秘莫测的记忆。
在每个循环中,旧的冗余信息会被修剪,只有最新、最相关的信息会被保留下来,这就像专家解决问题时会不断提炼自己的笔记一样。
MEM1证明了,这种递归式的、基于协议的记忆方法——即始终精炼和整合——在速度和准确性方面都优于传统的“只是增加更多上下文”的方法。
认知工具
利用认知工具激发语言模型的推理能力 - IBM苏黎世 2025年6月
提示及提示程序作为推理工具调用
“认知工具”将推理操作封装在LLM自身之中 — IBM苏黎世

这些认知工具(作为工具调用的结构化提示模板)通过识别当前的主要概念、提取问题中的相关信息,并突出可能有助于解决问题的有意义的性质、定理和技巧来分解问题。

这些模板搭建起类似于认知心理捷径的推理层级,而这类捷径通常被称为“启发式”。
这项研究表明,将复杂任务分解为模块化的“认知工具”,可以让AI更周密地解决问题——这与专家人类逐步推理的方式如出一辙。
模型不再依赖单一的大提示,而是调用专门的提示模板,即“理解问题”、“回忆相关知识”、“检查答案”和“回溯”等认知工具——每个工具负责一种特定的心理操作。
认知工具的作用就像内在的心理捷径:AI会在每个阶段选择合适的程序并运行它,以规划其推理过程和后续行动,从而提高准确性和灵活性。
通过将推理步骤划分为模块化的区块,这些工具可以防止混淆、减少错误,并使模型的思维过程透明且可审计——即使是在复杂的数学问题上也是如此。
这种模块化的方法适用于开放和封闭模型——能够提升现实世界中的数学问题解决能力,并接近经过强化学习训练的高级“推理”模型的表现,而无需额外的训练。
研究结果表明,大型语言模型中已经蕴含着强大的推理能力——认知工具只是将其解锁并加以协调,提供了一种透明、高效且可解释的替代黑箱调优的方法。
涌现符号
涌现的符号机制支持大型语言模型中的抽象推理 - ICML 普林斯顿,2025年6月18日

简而言之:研究发现了一种三阶段架构,它通过一系列涌现的符号处理机制来支持大型语言模型中的抽象推理。
这些机制包括符号归纳头、符号抽象头以及检索头。
1. 在早期层中,符号抽象头根据输入标记之间的关系,将输入标记转换为抽象变量。
2. 在中间层中,符号归纳头对这些抽象变量进行序列归纳。
3. 最后,在较晚的层中,检索头通过检索与预测的抽象变量相关联的值来预测下一个标记。
这些结果指向了长期以来关于符号方法与神经网络方法之间争论的解决方案,表明神经网络中的涌现式推理依赖于符号机制的出现。 — ICML 普林斯顿

为何有用?
这解释了为什么 Markdown、Json 等结构化、符号化的格式更容易被大型语言模型解析。
概念:与智能体协作,使用分隔符、语法、符号、象征性词汇、隐喻和结构,以提升推理、上下文理解、记忆保持等能力。
本文证明,大型语言模型会发展出自身内部的符号“逻辑电路”,使其能够基于抽象变量进行推理,而不仅仅是表面的文字模式。
大型语言模型表现出一个三阶段的过程:首先从输入中抽象出符号,然后对这些变量进行推理,最后再将抽象答案映射回现实世界的标记。
这些涌现的机制意味着大型语言模型并非单纯地记忆,而是能够创建灵活的内部表示,从而推广到新的问题和类比情境中。
早期层中的注意力头类似于“符号提取器”,中间层执行符号推理,而晚期层则负责检索具体的答案——这一过程模仿了人类的抽象与检索机制。
通过有针对性的实验和干预,作者们证明了这些符号过程对于抽象推理来说既是必要条件,也是充分条件,并且这一规律在多种模型和任务中都成立。
研究结果弥合了符号人工智能与神经网络之间的历史性鸿沟——表明在足够规模下,神经网络能够自发地发明并使用符号机制,从而支持真正的泛化与推理能力。
星标历史
贡献
我们欢迎各位贡献!请查看 CONTRIBUTING.md 以获取相关指南。
许可证
引用
@misc{context-engineering,
author = {Context Engineering 贡献者},
title = {Context Engineering: Beyond Prompt Engineering},
year = {2025},
publisher = {GitHub},
url = {https://github.com/davidkimai/context-engineering}
}
致谢
我一直期待这一领域能够被概念化并正式确立,因为此前并没有这样一个既定的研究方向。提示工程常常带有负面标签,而且并不能完全涵盖大多数研究人员以及我个人所从事的工作。
- 感谢 Andrej Karpathy 提出“上下文工程”这一术语,并启发了本仓库的创建。
- 感谢所有贡献者及开源社区。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

