AgentCPM
AgentCPM 是由清华大学 NLP 实验室、中国人民大学等机构联合推出的开源大模型智能体(LLM Agent)端到端基础设施,旨在解决现有智能体在长程任务规划、自主决策及通用泛化能力上的不足。该项目不仅提供模型,更涵盖了一套完整的训练与评估体系,帮助开发者构建能处理复杂现实任务的智能体。
目前,AgentCPM 已发布两款核心模型:AgentCPM-Explore 和 AgentCPM-Report。前者仅用 40 亿参数便实现了卓越的长程探索能力,在 GAIA 等多个高难度榜单上达到业界领先水平,特别适合部署在本地设备;后者则专注于深度研究报告生成,性能可媲美顶尖闭源商业系统。
其独特技术亮点包括全异步智能体强化学习框架(AgentRL)、统一的工具沙箱管理平台(AgentDock)以及低代码 RAG 框架(UltraRAG),这些组件大幅降低了高质量智能体的研发门槛。无论是希望深入探索智能体底层机制的科研人员,还是寻求高效部署方案的应用开发者,AgentCPM 都提供了从数据准备、模型训练到效果评估的一站式支持,是推动智能体技术落地与创新的得力助手。
使用场景
某科技公司的数据分析师需要针对“全球固态电池产业链最新突破”这一复杂课题,在一天内完成从信息搜集、交叉验证到撰写深度研报的全流程工作。
没有 AgentCPM 时
- 长程任务易迷失:面对需要数十步操作的研究任务,普通大模型常在中间步骤“断片”或陷入死循环,无法自主完成闭环。
- 端侧能力受限:受限于算力和参数量,轻量级模型难以处理复杂的深度搜索与逻辑推理,必须依赖昂贵且响应慢的云端闭源服务。
- 评估调试黑盒:缺乏统一的工具沙箱和评估框架,开发人员难以量化代理在真实环境中的表现,优化过程全靠盲目试错。
- 报告质量不稳定:生成的研报往往缺乏深度论证,事实幻觉频发,需要人工花费大量时间进行二次核实与重写。
使用 AgentCPM 后
- 长程规划更稳健:依托 AgentCPM-Explore 的强化学习框架,代理能稳定执行长达数十步的复杂探索链,自主完成从检索到验证的全流程。
- 端侧部署高性能:仅 4B 参数的 AgentCPM-Explore 即可在本地设备运行,却能在 GAIA 等权威榜单上媲美顶级闭源模型,大幅降低算力成本。
- 全链路可视可控:通过 AgentDock 统一调度工具沙箱,配合 AgentToLeaP 一键评估体系,团队可清晰监控代理行为并针对性优化短板。
- 深度研报专业化:AgentCPM-Report 采用“起草与深化交错”机制,生成的行业分析报告逻辑严密、数据详实,可直接对标 Gemini-2.5-pro 等商业系统。
AgentCPM 通过端到端的基础设施,让轻量级模型具备了执行长周期、高难度深度研究任务的能力,真正实现了高性能 AI 代理的落地普及。
运行环境要求
- Linux
- AgentCPM-Explore: 推荐 NVIDIA GPU (支持 amd64/arm64 架构的 Docker 镜像,启动参数含 --gpus all)
- AgentCPM-Report: 推荐 NVIDIA GPU (使用 vllm),也支持 CPU 推理 (使用 llama.cpp/GGUF)
未说明 (建议根据模型参数量配置:4B/8B 模型通常需 16GB+)

快速开始
【中文 | English】
最新消息
[2026-01-20] 🚀🚀🚀 我们开源了基于MiniCPM4.1-8B构建的AgentCPM-Report,其在报告生成任务上可与Gemini-2.5-pro-DeepResearch等顶级闭源商用系统相媲美。
[2026-01-12] 🚀🚀🚀 我们开源了仅含4B参数的代理LLM——AgentCPM-Explore,并附带所有训练、推理及工具沙盒环境的相关代码。它成功登上了包括GAIA、HLE和BrowseComp在内的八个经典的长时序、高难度代理排行榜。该模型在这一规模下的SOTA表现使其能够执行更长的动作链,并实现更精准的深度研究,从而突破了设备端代理的性能瓶颈。
目录
概述
AgentCPM是由THUNLP(清华大学自然语言处理实验室)、中国人民大学、ModelBest以及OpenBMB社区联合开发的一系列开源LLM代理。为应对代理在实际应用中面临的挑战,如长时序能力有限、自主性不足以及泛化能力欠缺等问题,我们提出了一系列模型构建方法。近期,团队专注于全面构建代理的深度研究能力,先后发布了深度搜索型LLM代理AgentCPM-Explore和深度研究型LLM代理AgentCPM-Report。
模型列表
| 模型 | 下载链接 | 开源内容 | 技术报告 | 使用方法 |
|---|---|---|---|---|
| AgentCPM-Explore | 🤗 Hugging Face 🤖 ModelScope |
AgentDock: 统一的工具沙盒管理与调度平台 AgentRL: 全异步代理强化学习框架 AgentToLeaP: 用于评估代理工具学习能力的一键式框架 |
AgentCPM-Explore:实现边缘级代理的长时序深度探索 | README.md |
| AgentCPM-Report | 🤗 Hugging Face 🤖 ModelScope |
UltraRAG: 低代码RAG框架 | AgentCPM-Report:通过穿插草稿撰写与深入挖掘实现开放式深度研究 | README.md |
AgentCPM-Explore
AgentCPM团队一直致力于系统性地构建代理的深度研究能力,并发布了深度搜索型LLM代理AgentCPM-Explore。AgentCPM-Explore是首个出现在GAIA、XBench等八个广泛使用的长时序代理基准测试中的4B参数开源代理模型。
主要亮点:
4B规模下的SOTA:在同规模模型中处于领先地位,性能可与8B模型媲美甚至超越,部分指标已接近30B以上及闭源LLM水平。
深度探索:支持100余轮连续交互,具备多源交叉验证与动态策略调整能力。
全流程开源:提供完整的训练与评估基础设施,便于社区开发与自定义扩展。
演示
演示示例(加速播放):
https://github.com/user-attachments/assets/f2b3bb20-ccd5-4b61-8022-9f6e90992baa
快速入门
多模型、多工具协同环境搭建:首先启动 AgentDock 工具沙盒平台,以提供统一的 MCP(Model Context Protocol)工具服务。当使用基于 API 的模型时,需配置模型的
BASE_URL和API_KEY;当使用本地部署的模型时,则需确保模型服务可访问。在config.toml文件中配置所需的工具参数。启动环境:开箱即用,一键启动。AgentDock 统一工具沙盒平台支持通过一条
docker compose up -d命令启动所有服务,包括管理仪表盘、数据库和工具节点。运行执行:通过快速入门脚本,您可以快速体验框架的核心能力,无需复杂配置即可运行完整的 Agent 任务。
准备评估环境(推荐):
我们提供一个预装了所有评估依赖项的 Docker 镜像。建议直接拉取并运行该镜像:# 1. 进入项目文件夹 cd AgentCPM-Explore # 2. 拉取镜像(支持 amd64/arm64 架构) docker pull yuyangfu/agenttoleap-eval:v2.0 # 3. 启动容器(请根据需要调整 -v 路径) docker run -dit --name agenttoleap --gpus all --network host -v $(pwd):/workspace yuyangfu/agenttoleap-eval:v2.0 # 4. 进入容器 docker exec -it agenttoleap /bin/bash cd /workspace配置并运行:
打开quickstart.py,在[USER CONFIGURATION]部分进行简单配置:
- 自定义任务:将
QUERY变量修改为您想要测试的指令(例如:“查看昨晚欧冠比赛结果”)。 - 模型信息:提供您的 LLM
API_KEY、MODEL_NAME和BASE_URL。 - 工具服务:将
MANAGER_URL设置为您 MCP 工具服务器的地址(例如http://localhost:8000;请确保服务已启动)。
配置完成后,运行:
python quickstart.py
脚本会自动创建一个演示任务(默认为查询今日 arXiv 计算机科学论文),生成执行流程,并开始评估过程。
- 查看结果
执行完成后,结果将保存在 outputs/quickstart_results/ 目录下。您可以通过检查 dialog.json 获取完整的交互轨迹,包括工具调用和推理链。
注意:在快速入门模式下,默认会跳过自动评分,仅用于展示 Agent 的执行能力。
AgentCPM-Report
简介
AgentCPM-Report 基于 8B 参数的基础模型 MiniCPM4.1 构建。它以用户指令为输入,自主生成长篇报告。其亮点包括:
- 极致性能,极小占用:通过平均 40 轮深度检索和近 100 轮思维链式推理,实现全面的信息挖掘与重组,使边缘端模型能够产出逻辑严密、见解深刻的数万字长文。仅需 80 亿参数,便可在深度研究任务中达到与顶级闭源系统相当的性能。
- 物理隔离,本地安全:专为高隐私场景设计,支持完全离线及敏捷的本地部署,彻底消除云端数据泄露的风险。借助我们的 UltraRAG 框架,高效挂载并理解您的本地私有知识库,安全地将核心机密数据转化为极具价值的专业决策报告,全程不离开本地环境。
演示
快速入门
Docker 部署
我们提供集成了 UltraRAG 的极简一键式 docker-compose 部署方案,其中包含 RAG 框架 UltraRAG2.0、模型推理框架 vllm 以及 Milvus 向量数据库。若您希望使用 CPU 推理,我们也提供了基于 llama.cpp 的 GGUF 格式模型版本——只需将 docker-compose.yml 替换为 docker-compose.cpu.yml 即可。
git clone git@github.com:OpenBMB/UltraRAG.git
cd UltraRAG
git checkout agentcpm-report-demo
cd agentcpm-report-demo
cp env.example .env
docker-compose -f docker-compose.yml up -d --build
docker-compose -f docker-compose.yml logs -f ultrarag-ui
首次启动需要拉取镜像、下载模型并设置环境,可能耗时约 30 分钟。
随后打开 http://localhost:5050。若能看到 GUI 界面,则说明部署成功。
按照 UI 提示上传本地文件、分块处理并构建索引。然后在聊天面板中选择 AgentCPM-Report 流程,即可开始您的工作流!
(可选)您可以从 Wiki2024 导入 Wiki2024 作为写作数据库。
更多关于 AgentCPM-Report 的教程,请参阅 教程。
许可证
- 本仓库中的代码采用 Apache-2.0 许可证发布。
引用
若 AgentCPM-Explore 对您的研究有所帮助,请引用该代码库:
@misc{chen2026agentcpmexplore,
title = {{{AgentCPM-Explore}}: {{Realizing Long-Horizon Deep Exploration}} for {{Edge-Scale Agents}}},
author = {Chen, Haotian and Cong, Xin and Fan, Shengda and Fu, Yuyang and Gong, Ziqin and Lu, Yaxi and Li, Yishan and Niu, Boye and Pan, Chengjun and Song, Zijun and Wang, Huadong and Wu, Yesai and Wu, Yueying and Xie, Zihao and Yan, Yukun and Zhang, Zhong and Lin, Yankai and Liu, Zhiyuan and Sun, Maosong},
year = 2026,
month = feb,
number = {arXiv:2602.06485},
eprint = {2602.06485},
publisher = {arXiv},
doi = {10.48550/arXiv.2602.06485},
archiveprefix = {arXiv},
langid = {english}
}
若 AgentCPM-Report 对您的研究有帮助,可按以下方式引用:
@misc{li2026agentcpmreport,
title={AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research},
author={Yishan Li and Wentong Chen and Yukun Yan and Mingwei Li and Sen Mei and Xiaorong Wang and Kunpeng Liu and Xin Cong and Shuo Wang and Zhong Zhang and Yaxi Lu and Zhenghao Liu and Yankai Lin and Zhiyuan Liu and Maosong Sun},
year={2026},
eprint={2602.06540},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2602.06540},
}
探索更多
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

