XAgent

8.5k 900 中等 1 次阅读今天Apache-2.0语言模型Agent

AI 解读由 AI 自动生成，仅供参考

XAgent 是一款由大语言模型驱动的开源自主智能体，旨在自动解决各类复杂任务。它不仅能独立规划并执行从文件编辑、代码运行到网页浏览等一系列操作，还能在遇到难题时主动寻求人类协助，实现高效的人机协作。

传统 AI 往往只能回答简单问题或执行单一指令，而 XAgent 通过独特的“调度器 - 规划器 - 执行者”三重架构，能够将宏大目标拆解为可执行的子任务步骤，动态调用工具并实时修正计划，从而攻克需要多步推理和长期规划的复杂挑战。此外，所有操作均在安全的 Docker 容器中运行，有效隔离了潜在风险。

这款工具非常适合开发者、研究人员以及希望探索 AI 自动化边界的极客用户。开发者可以利用其高扩展性轻松集成新工具或定制专属智能体；研究人员可基于其开放架构深入探究自主代理的前沿技术；而普通技术爱好者也能通过友好的图形界面或命令行，体验让 AI 像私人助理一样处理实际工作的乐趣。作为一个处于快速迭代中的实验性项目，XAgent 正朝着成为通用超级智能体的目标不断进化。

使用场景

某数据分析师需要在短时间内完成一份包含实时竞品数据抓取、清洗分析及可视化图表生成的深度市场报告。

没有 XAgent 时

流程割裂严重：需手动在浏览器搜索数据、复制粘贴到本地文件，再切换至 Python 环境编写代码清洗，最后单独运行绘图脚本，上下文频繁切换导致效率低下。
容错成本高昂：一旦中间某步代码报错或数据格式异常，必须人工中断流程排查修复，难以实现全链路自动化闭环。
协作响应滞后：遇到无法确定的分析维度时，只能暂停任务去询问同事或查阅文档，导致任务执行流经常阻塞。
环境安全隐患：直接在本地主机运行不明来源的爬虫或处理脚本，存在污染开发环境或泄露敏感数据的潜在风险。

使用 XAgent 后

自主闭环执行：XAgent 自动调用 Web Browser 工具抓取竞品网页，利用 Python Notebook 即时清洗数据并生成可视化图表，一键输出完整报告。
动态规划纠错：内置 Planner 模块将“市场分析”拆解为子任务，若代码执行失败，Actor 能自动反思并修正逻辑，无需人工干预即可继续运行。
人机协同流畅：当遇到模糊指令时，XAgent 主动通过 GUI 向分析师确认需求细节，获得反馈后立即调整执行策略，实现无缝协作。
沙箱安全隔离：所有代码执行与文件操作均在 Docker 容器内的 ToolServer 中进行，确保宿主机环境绝对安全，可放心运行复杂任务。

XAgent 将原本需要数小时的多工具串联工作，转化为一个安全、自主且具备自我修正能力的智能闭环，极大释放了专业人员处理复杂任务的生产力。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes必须安装 Docker 和 Docker Compose 以运行 ToolServer 容器；至少需要一个 OpenAI API Key（推荐 gpt-4-32k 或 gpt-4，备用需 gpt-3.5-turbo-16k）；不建议使用 gpt-3.5-turbo（上下文长度不足）；所有代理动作均在 Docker 容器内执行以确保安全。

python>=3.10

docker

docker-compose

快速开始

XAgent

English • 中文 • 日本語

教程 • 演示 • 博客 • 文档 • 引用

📖 简介

XAgent 是一个开源的、基于大型语言模型（LLM）的实验性自主智能体，能够自动解决各种任务。它被设计为一种通用型智能体，适用于广泛的场景。目前，XAgent 仍处于早期阶段，我们正不断努力改进和完善。

🏆 我们的目标是打造一个超级智能的智能体，能够解决任何给定的任务！

我们欢迎多种形式的合作，包括全职、兼职等职位。如果你对智能体领域的前沿技术感兴趣，并希望加入我们共同实现真正的自主智能体，请通过 xagentteam@gmail.com 联系我们。

XAgent 的整体架构。

XAgent

XAgent 具备以下特点：

自主性：XAgent 可以在无需人工干预的情况下自动完成各类任务。
安全性：XAgent 的运行环境经过严格设计，所有操作均在 Docker 容器内进行，确保安全可靠。尽管如此，仍请谨慎使用！
可扩展性：XAgent 设计灵活，易于扩展。你可以轻松添加新工具来增强其能力，甚至引入新的智能体！
图形界面：XAgent 提供友好的图形用户界面，方便用户与智能体交互。同时，也支持通过命令行与智能体进行互动。
人机协作：XAgent 能够与人类协同工作，共同完成任务。它不仅可以在执行过程中遵循你的指导，还能在遇到困难时主动寻求你的帮助。

XAgent 由三个核心组件构成：

🤖 分配器 负责动态实例化并分发任务给不同的智能体，使我们能够灵活地添加新智能体或提升现有智能体的能力。
🧐 计划器 负责生成和调整任务计划，将复杂任务拆解为子任务，并制定阶段性目标，从而实现逐步解决问题。
🦾 执行者 负责执行具体行动以达成目标并完成子任务。执行者会利用多种工具来解决子任务，同时也能够与人类协作完成任务。

XAgent 的工作流程。

🧰 ToolServer

ToolServer 是为 XAgent 提供强大且安全工具的服务器，它是一个 Docker 容器，为 XAgent 的运行提供了一个安全的环境。目前，ToolServer 提供以下工具：

📝 文件编辑器：用于编写、读取和修改文件。
📘 Python 笔记本：提供交互式 Python 环境，可用于验证想法、绘制图表等。
🌏 网页浏览器：用于搜索和访问网页。
🖥️ Shell：提供 Bash shell 工具，可以执行任意 Shell 命令，甚至安装软件和部署服务。
🧩 Rapid API：允许从 Rapid API 平台获取并调用 API，为 XAgent 提供了丰富的功能支持。更多关于 Rapid API 集合的信息，请参阅 ToolBench。此外，你还可以轻松向 ToolServer 添加新工具，进一步提升 XAgent 的能力。

✨ 快速入门

🛠️ 构建并设置 ToolServer

ToolServer 是 XAgent 执行任务的核心环境，它是一个 Docker 容器，为 XAgent 提供了安全可靠的运行空间。因此，你需要先安装 docker 和 docker-compose。接下来，按照以下任一方式构建 ToolServer 镜像：

从 Docker Hub 拉取镜像并启动容器：

docker compose up

从本地源码构建镜像并启动容器：

docker compose build
docker compose up

这将构建 ToolServer 的镜像并启动容器。若需在后台运行容器，请使用 docker compose up -d。有关 ToolServer 的详细信息，请参阅此处。

如果 ToolServer 发生更新，你需要重新拉取或重新构建镜像：

docker compose pull

或者

docker compose build

🎮 设置与运行 XAgent

在设置好 ToolServer 后，您可以开始运行 XAgent。

安装依赖（要求 Python >= 3.10）

pip install -r requirements.txt

配置 XAgent

在运行 XAgent 之前，您需要在 assets/config.yml 中进行配置。
至少需要在 assets/config.yml 中提供一个 OpenAI API 密钥，用于访问 OpenAI API。我们强烈推荐使用 gpt-4-32k 来运行 XAgent；对于大多数简单任务，gpt-4 也可以胜任。无论如何，至少应提供一个 gpt-3.5-turbo-16k 的 API 密钥作为备用模型。由于上下文长度有限，我们不测试也不建议使用 gpt-3.5-turbo 来运行 XAgent，因此请勿尝试使用该模型。
如果您想更改 XAgentServer 的配置文件路径，应在 .env 文件中修改 CONFIG_FILE 的值，并重启 Docker 容器。

运行 XAgent

python run.py --task "将您的任务放在这里" --config-file "assets/config.yml"

您可以使用 --upload-files 参数来选择要提交给 XAgent 的初始文件。
您的 XAgent 本地工作区位于 local_workspace 目录下，您可以在其中找到 XAgent 在整个运行过程中生成的所有文件。
执行完成后，ToolServerNode 中的整个 workspace 将被复制到 running_records 目录，方便您查阅。
此外，在 running_records 目录中，您还可以找到所有中间步骤的信息，例如任务状态、大模型的输入输出对、使用的工具等。
您可以通过加载记录来重现之前的运行过程，只需在配置中设置 record_dir 参数（默认为 Null）。记录是系统级别的保存，与 XAgent 的代码版本相关联。所有的运行配置、查询、代码执行状态（包括错误）以及服务器行为都会被记录下来。
我们已从记录中移除所有敏感信息（包括 API 密钥），因此您可以安全地与他人分享这些记录。在不久的将来，我们将推出更细粒度的分享选项，突出人类在执行过程中的贡献。

使用 GUI 运行 XAgent 容器 XAgent-Server 已启动，并配备了 Nginx 和一个监听端口 5173 的 Web 服务器。您可以通过访问 http://localhost:5173 使用网页界面与 XAgent 交互。默认的用户名和密码分别为 guest 和 xagent。有关我们 GUI 演示的详细信息，请参阅这里。

🎬 演示

在此，我们还展示了一些由 XAgent 解决任务的案例：您可以在 XAgent 官方网站上查看我们的实时演示。我们也在下方提供了视频演示及 XAgent 的使用展示：

案例 1. 数据分析：展示双循环机制的有效性

我们从一个帮助用户进行复杂数据分析的案例开始。用户向 XAgent 提交了一个名为 iris.zip 的文件，寻求数据分析方面的帮助。XAgent 迅速将任务分解为四个子任务：(1) 数据检查与理解，(2) 检查系统中是否安装了相关的数据分析库，(3) 编写数据处理和分析的代码，(4) 根据 Python 代码的执行结果编写分析报告。以下是 XAgent 绘制的一张图表。 XAgent 的数据统计图

案例 2. 推荐：人机交互的新范式

凭借主动寻求人类帮助并协同解决问题的独特能力，XAgent 不断重新定义人机协作的边界。如下面的截图所示，一位用户希望 XAgent 帮助推荐一些适合朋友聚会的好餐厅，但未能提供具体细节。XAgent 意识到所提供的信息不足，于是使用了 AskForHumanHelp 工具，请求人工干预以获取用户偏好的地点、预算限制、饮食偏好和饮食禁忌。在获得这些宝贵信息后，XAgent 轻松生成了个性化的餐厅推荐，确保用户及其朋友们获得满意且贴心的用餐体验。

XAgent 请求人类帮助的示意图

案例 3. 训练模型：一位精通工具的助手

XAgent 不仅能处理日常琐事，还能在复杂的任务中发挥重要作用，比如模型训练。这里我们展示了一个场景：用户希望分析电影评论，评估公众对特定电影的情感倾向。对此，XAgent 迅速开始行动，下载 IMDB 数据集来训练一个先进的 BERT 模型（见下图），充分利用深度学习的力量。借助这个训练好的 BERT 模型，XAgent 能够轻松应对电影评论中的各种细微差别，准确预测公众对不同电影的看法。

bert_1 bert_2 bert_3

📊 评估

我们进行了人类偏好评估，以衡量 XAgent 的表现。我们准备了超过 50 个现实世界中的复杂任务用于评估，这些任务可分为五大类：搜索与报告、编码与开发、数据分析、数学以及生活助手。我们将 XAgent 的结果与 AutoGPT 进行了比较，结果显示 XAgent 总体上优于 AutoGPT。所有运行记录可参考这里。

人类偏好

我们报告了 XAgent 在人类偏好方面相对于 AutoGPT 的显著提升。

我们还对 XAgent 进行了以下基准测试：

🖌️ 博客

我们的博客可在这里查看！

🌟 我们的贡献者

衷心感谢所有贡献者。正是你们的努力使这个项目不断成长和发展。无论大小，每一份贡献都弥足珍贵。

贡献者

🌟 星标历史

引用

如果您觉得我们的仓库很有用，请考虑引用：

@misc{xagent2023,
      title={XAgent：用于解决复杂任务的自主智能体},
      author={XAgent 团队},
      year={2023},
}

XAgent 快速上手指南

XAgent 是一个开源的实验性大型语言模型（LLM）驱动的自主智能体，能够自动解决各种复杂任务。它具备自主性、安全性（基于 Docker 隔离）、可扩展性以及友好的人机协作界面。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：支持 Docker 的 Linux、macOS 或 Windows (WSL2)。
Docker 环境：必须安装 docker 和 docker-compose。
Python 版本：本地运行需安装 Python >= 3.10。
API Key：需要至少一个 OpenAI API Key。
- 推荐模型：gpt-4-32k（效果最佳）或 gpt-4。
- 备用模型：必须配置至少一个 gpt-3.5-turbo-16k 作为备份。
- 注意：不建议使用标准的 gpt-3.5-turbo，因其上下文长度限制可能导致运行失败。

安装步骤

1. 构建并启动 ToolServer

ToolServer 是 XAgent 执行任务的安全沙箱环境（Docker 容器）。

方法一：直接从 Docker Hub 拉取镜像（推荐）

docker compose up

方法二：从本地源码构建镜像

如果您需要修改底层环境或网络无法访问 Docker Hub，可使用此方法：

docker compose build
docker compose up

提示：若需在后台运行容器，请添加 -d 参数，例如 docker compose up -d。若 ToolServer 有更新，请执行 docker compose pull 或 docker compose build 重新构建。

2. 配置 XAgent

在运行主程序前，需配置 API 密钥和模型参数。

打开配置文件 assets/config.yml。
填入您的 OpenAI API Key。
确认模型设置：首选 gpt-4-32k，并确保备用了 gpt-3.5-turbo-16k。
（可选）如需修改配置文件路径，请编辑 .env 文件中的 CONFIG_FILE 变量并重启 Docker 容器。

3. 安装 Python 依赖

在项目根目录下安装所需的 Python 包：

pip install -r requirements.txt

国内加速建议：如遇下载缓慢，可使用清华源或阿里源： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

命令行模式

使用以下命令启动 XAgent 并指派任务：

python run.py --task "put your task here" --config-file "assets/config.yml"

常用参数说明：

--task: 您希望智能体完成的具体任务描述。
--upload-files: 指定需要提交给 XAgent 处理的初始文件。

运行结果查看：

实时文件：生成的文件位于本地 local_workspace 目录。
完整记录：任务结束后，ToolServer 中的完整工作区会复制到 running_records 目录，包含所有中间步骤、LLM 输入输出对、工具调用记录及错误日志。
复现任务：可通过在配置文件中设置 record_dir 加载历史记录进行复现。

Web GUI 模式

XAgent 提供了友好的网页交互界面。

确保 XAgent-Server 容器已启动。
在浏览器中访问：http://localhost:5173
默认登录凭证：
- 用户名：guest
- 密码：xagent

通过 Web 界面，您可以直观地观察智能体的思考过程、规划步骤以及与智能体进行实时协作。

版本历史

v1.0.02023/11/22

常见问题

远程部署 XAgent 后，本地浏览器访问网页提问没有反馈怎么办？

使用 Web GUI 时任务一直卡在 'outer loop' 且无任何输出，但命令行模式正常，如何解决？

运行时报错 'Error when fetching available tools: 403 Client Error: Forbidden' 或 WebSocket 连接异常怎么办？

XAgent 是否支持使用本地部署的开源大模型（如 Qwen-14B 或 Llama-70B）？

遇到 'sock Failed to establish a new connection' 或 ASGI 应用异常报错如何处理？

在提交 Issue 时有哪些格式规范需要注意以提高解决效率？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架