awesome-language-agents
awesome-language-agents 是一个基于"Cognitive Architectures for Language Agents(CoALA)”论文构建的开源资源合集,旨在系统性地整理和分类当前的语言智能体(Language Agents)研究与项目。它解决了该领域研究分散、架构定义模糊的问题,通过统一的 CoALA 框架,将复杂的智能体行为拆解为“外部交互(接地)”与“内部记忆操作(推理、检索、学习)”两大核心动作空间,并明确了从规划到执行的决策循环机制。
该项目不仅提供了论文的通俗解读和引用资源,还收录了数百篇相关学术文献,并对每篇文献在 CoALA 框架下的具体技术侧重进行了标注。其独特的技术亮点在于提供了一套标准化的认知架构视角,帮助研究者清晰地分析不同智能体如何处理短期工作记忆与长期记忆(如经验、知识、代码)的交互。
awesome-language-agents 特别适合人工智能领域的研究人员、开发者以及希望深入理解大模型智能体底层逻辑的技术爱好者使用。对于想要追踪前沿进展、寻找灵感或系统梳理知识体系的从业者来说,这是一份极具价值的导航地图,能帮助大家更高效地探索语言智能体的无限可能。
使用场景
某电商公司的算法团队正致力于构建一个能自主完成复杂购物任务(如“对比三款相机并下单最性价比的一款”)的智能客服机器人。
没有 awesome-language-agents 时
- 架构设计盲目:团队缺乏统一的认知架构参考,难以界定智能体何时该调用外部搜索工具(Grounding),何时该更新内部记忆(Learning),导致系统逻辑混乱。
- 记忆机制缺失:机器人无法有效区分短期工作记忆与长期经验记忆,常常忘记用户之前的偏好或重复执行已失败的搜索步骤。
- 决策循环断裂:缺乏标准的“规划 - 执行”闭环设计,智能体在面对多步任务时容易陷入死循环或直接输出幻觉内容,无法进行自我修正。
- 技术选型低效:开发人员需从零开始筛选数百篇论文,难以快速找到如 WebShop 或 Decomposed Prompting 等经过验证的具体实现方案,研发周期被大幅拉长。
使用 awesome-language-agents 后
- 架构清晰标准化:基于 CoALA 框架,团队迅速定义了清晰的动作空间,明确划分了与环境交互和内部推理的边界,系统稳定性显著提升。
- 记忆管理精细化:参考列表中成熟的智能体设计,成功实现了 episodic(经历)与 semantic(知识)记忆的分离,机器人能准确回溯历史对话并复用成功经验。
- 决策流程自动化:引入了标准的规划与执行循环机制,智能体在遇到障碍时能自动重新规划路径,复杂任务的完成率从 45% 提升至 82%。
- 资源获取一站式:直接利用列表中整理的 300+ 篇核心论文及代码库,团队在一周内就完成了原型搭建,避免了重复造轮子。
awesome-language-agents 通过提供标准化的认知架构蓝图和精选资源,将智能体开发从“盲目试错”转变为“系统化工程”,极大加速了高阶语言智能体的落地进程。
运行环境要求
未说明
未说明

快速开始
🐨CoALA:强大的语言智能体

这是一份基于**语言智能体认知架构(🐨CoALA)**框架的语言智能体合集。
- CoALA论文(正文16页):https://arxiv.org/abs/2309.02427
- CoALA推文(6条线程):https://twitter.com/ShunyuYao12/status/1699396834983362690
- 包含300多篇相关引用的CoALA BibTex文件:CoALA.bib
- 如果您觉得我们的工作或资源有用,可使用以下BibTex格式引用:
@misc{sumers2023cognitive,
title={Cognitive Architectures for Language Agents},
author={Theodore Sumers and Shunyu Yao and Karthik Narasimhan and Thomas L. Griffiths},
year={2023},
eprint={2309.02427},
archivePrefix={arXiv},
primaryClass={cs.AI}
}
🐨CoALA 概述
CoALA清晰地定义了一个语言智能体,其起点是动作空间,该空间分为两部分:
- 用于与外部环境交互的外部动作(具身化)
- 用于与内部记忆交互的内部动作(推理、检索、学习)
- 一个语言智能体拥有短期工作记忆和若干(可选)长期记忆(情景记忆用于经验、语义记忆用于知识、程序性记忆用于代码/大模型)
- 推理 = 更新工作记忆(通过大模型)
- 检索 = 读取长期记忆
- 学习 = 写入长期记忆

那么,语言智能体如何选择要执行的动作呢?它的动作被组织成决策循环,每个循环包含两个阶段:
- 规划:智能体运用推理/检索动作,迭代地提出并评估候选动作,最终选择一个学习或具身化的动作。
- 执行:所选的学习或具身化动作被执行,从而影响内部记忆或外部世界。

欲了解更多,请阅读我们论文的第4节(链接:https://arxiv.org/abs/2309.02427)。
论文
以下仅是从CoALA.bib中筛选出的一部分论文,并结合了拉取请求的内容,其中动作空间标签可能存在不准确之处。 日期以arXiv v1版本为准。这些内容并未涵盖所有语言智能体相关工作,我们计划近期继续补充更多内容(欢迎提交拉取请求),并对高被引工作添加相应标签。
- (2021-10) AI Chains: 通过链式大型语言模型提示实现透明且可控的人机交互 (推理)
- (2021-10) SILG: 多环境符号交互式语言接地基准 (环境)
- (2022-01) 语言模型作为零样本规划器:为具身智能体提取可操作知识 (接地)
- (2022-03) PromptChainer: 通过可视化编程链式大型语言模型提示 (接地)
- (2022-03) ScienceWorld: 你的智能体比五年级学生更聪明吗? (环境)
- (2022-04) 照我能做到的做,而不是照我说的做:将语言与机器人可用性相结合 (接地)
- (2022-04) 苏格拉底模型:用语言构建零样本多模态推理 (接地)
- (2022-07) WebShop: 基于接地语言智能体的可扩展现实世界网络交互 (环境)
- (2022-09) ProgPrompt: 利用大型语言模型生成情境化的机器人任务计划 (接地)
- (2022-10) 分解式提示:解决复杂任务的模块化方法 (推理)
- (2022-10) 心灵之眼:通过仿真进行接地语言模型推理 (接地)
- (2022-10) ReAct: 在语言模型中协同推理与行动 (接地、推理)
- (2022-11) 大型语言模型是人类级别的提示工程师 (推理)
- (2022-12) LLM-Planner: 利用大型语言模型为具身智能体进行少样本接地规划 (接地)
- (2022-12) 不要生成,要判别:将语言模型接地到现实世界环境的建议 (接地)
- (2023-02) 事后链使语言模型与反馈对齐 (学习)
- (2023-02) 描述、解释、计划与选择:利用大型语言模型的交互式规划实现开放世界多任务智能体 (接地、推理)
- (2023-02) Toolformer: 语言模型可以自我教授如何使用工具 (接地)
- (2023-03) 决策的基础模型:问题、方法与机遇 (综述)
- (2023-03) HuggingGPT: 使用ChatGPT及其在Hugging Face中的伙伴解决AI任务 (接地)
- (2023-03) PaLM-E: 一种具身多模态语言模型 (接地)
- (2023-03) Reflexion: 具有言语强化学习的语言智能体 (接地、推理、学习)
- (2023-03) Self-Refine: 基于自我反馈的迭代改进 (推理)
- (2023-03) 利用大型语言模型进行自我规划的代码生成 (推理)
- (2023-04) 生成式智能体:人类行为的交互式模拟 (接地、推理、检索、学习)
- (2023-04) 大型语言模型涌现的自主科学研究能力 (接地、推理)
- (2023-04) LLM+P: 以最优规划能力赋能大型语言模型 (接地、推理)
- (2023-04) REFINER: 针对中间表示的推理反馈 (推理)
- (2023-04) 教导大型语言模型自我调试 (推理)
- (2023-04) GeneGPT: 通过领域工具增强大型语言模型,以更好地获取生物医学信息 (接地、推理)
- (2023-05) CRITIC: 大型语言模型可通过工具交互式批评自我纠正 (接地、推理、检索)
- (2023-05) 利用大型语言模型增强自指智能体 (接地、推理、检索、学习)
- (2023-05) ChatCoT: 基于聊天的大规模语言模型上的工具增强思维链推理 (接地、推理)
- (2023-05) ToolkenGPT: 通过工具嵌入大规模增强冻结语言模型 (接地、推理)
- (2023-05) 分解法通过自我评估引导解码提升推理能力 (推理)
- (2023-05) 通过多智能体辩论鼓励大型语言模型的发散性思维 (接地、推理)
- (2023-05) 通过多智能体辩论提高语言模型的事实性和推理能力 (接地、推理)
- (2023-05) AdaPlanner: 基于语言模型反馈的自适应规划 (接地、检索、学习)
- (2023-05) 计划与求解提示:改进大型语言模型的零样本思维链推理 (推理)
- (2023-05) ReWOO: 将推理与观察解耦,以提高增强语言模型的效率 (接地、推理)
- (2023-05) SwiftSage: 一种具有快慢思维的生成式智能体,适用于复杂的交互任务 (接地、推理)
- (2023-05) 思想之树:利用大型语言模型进行深思熟虑的问题解决 (推理)
- (2023-05) Voyager: 一种基于大型语言模型的开放式具身智能体 (接地、推理、检索、学习)
- (2023-06) InterCode: 规范化并基准化带有执行反馈的交互式编程 (接地、推理)
- (2023-06) ToolQA: 一个用于大型语言模型问答的外部工具数据集 (接地)
- (2023-06) Mind2Web: 朝着通用网络智能体迈进 (环境)
- (2023-06) RestGPT: 将大型语言模型与现实世界的RESTful API连接 (接地、推理)
- (2023-06) ToolAlpaca: 面向语言模型的通用工具学习,包含3000个模拟案例 (接地、推理)
- (2023-07) 具备规划、长上下文理解及程序合成能力的现实世界网络智能体 (接地、推理)
- (2023-07) RT-2: 视觉-语言-行动模型将网络知识迁移到机器人控制 (接地)
- (2023-07) RoCo: 基于大型语言模型的辩证式多机器人协作 (接地)
- (2023-07) 会求助的机器人:为大型语言模型规划者提供不确定性对齐 (接地)
- (2023-07) S$^3$: 社交网络模拟系统,配备由大型语言模型赋能的智能体 (接地、推理)
- (2023-07) ToolLLM: 帮助大型语言模型掌握16000多种现实世界API (接地、推理、检索)
- (2023-07) 理解使用基于大型语言模型的对话式智能体支持心理健康的益处与挑战 (接地)
- (2023-07) 释放大型语言模型的认知协同效应:通过多人格自我协作构建任务解决智能体 (接地、推理)
- (2023-07) WebArena: 一个用于构建自主智能体的真实网络环境 (环境)
- (2023-08) AgentBench: 评估大型语言模型作为智能体 (环境)
- (2023-08) AgentVerse: 促进多智能体协作并探索智能体的涌现行为 (环境)
- (2023-08) AutoGen: 通过多智能体对话框架赋能下一代大型语言模型应用 (接地、推理)
- (2023-08) CGMI: 可配置的通用多智能体交互框架 (接地、推理)
- (2023-08) ChatEval: 通过多智能体辩论迈向更好的基于大型语言模型的评估者 (接地、推理)
- (2023-08) 大型语言模型的累积推理 (推理)
- (2023-08) ExpeL: 大型语言模型智能体是体验式学习者 (接地、推理、检索、学习)
- (2023-08) GPT-in-the-Loop: 多智能体系统的适应性决策 (接地、推理)
- (2023-08) Gentopia: 工具增强型大型语言模型的合作平台 (环境)
- (2023-08) MetaGPT: 面向多智能体协作框架的元编程 (接地、推理)
- (2023-08) ProAgent: 利用大型语言模型构建主动合作型人工智能 (接地、推理)
- (2023-08) Retroformer: 带有策略梯度优化的回顾性大型语言模型智能体 (接地、推理、学习)
- (2023-08) SAPIEN: 由大型语言模型驱动的情感虚拟智能体 (接地、推理)
- (2023-08) 大型语言模型与认知架构的协同整合,以构建稳健的人工智能:一项探索性分析 (接地、推理、检索、学习)
- (2023-09) ToRA: 一种集成工具的推理智能体,用于数学问题解决 (接地、推理、学习)
- (2023-09) 利用LM模拟沙盒识别LM智能体的风险 (环境)
- (2023-09) 怀疑智能体:与具备心智理论意识的GPT-4一起玩不完全信息游戏 (接地、推理)
- (2024-01) 自我对比:通过不一致的解题视角实现更好的反思 (推理、反思)
- (2024-02) Agent-Pro: 通过策略层面的反思与优化学习进化 (推理、反思、学习)
- (2024-03) LLM3: 基于大型语言模型的任务与运动规划,包含运动失败推理。 (规划、推理)
- (2024-04) 利用智能体赋能生物医学发现 (AI科学家、生物医学研究)
- (2024-05) TimeChara: 评估角色扮演大型语言模型的时间点角色幻觉 (推理、检索)
- (2024-07) AppWorld: 一个可控的应用和人物世界,用于基准测试交互式编程智能体 (环境、规划、接地、反思、推理、检索)
(更多内容即将添加。欢迎提交 Pull Request。)
资源
(更多内容即将添加。欢迎提交 Pull Request。)
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器