ProAgent

859 94 较难 1 次阅读 3天前Apache-2.0语言模型Agent

AI 解读由 AI 自动生成，仅供参考

ProAgent 是一款基于大语言模型（LLM）的智能代理工具，旨在推动自动化技术从传统的“机器人流程自动化”（RPA）向全新的“代理流程自动化”（APA）范式演进。传统 RPA 在处理需要类人智能的复杂任务时往往力不从心，特别是在工作流的灵活构建与动态决策方面存在局限。ProAgent 通过理解人类的自然语言指令，自动规划并构建复杂的工作流，同时协调多个专用代理执行 intricate 决策，从而将人类从繁琐的流程设计与执行中解放出来。

该工具特别适合研究人员、开发者以及希望探索下一代自动化解决方案的技术团队使用。其核心亮点在于引入了 APA 概念，利用 LLM 的推理能力替代人工进行工作流编排，实现了从“按规则执行”到“按意图行动”的跨越。项目代码开源，支持结合自托管的 n8n 平台进行真实场景部署，也提供了复现论文实验案例的模式，方便用户快速验证其在复杂任务中的可行性与高效性。无论是希望深入探究智能代理机制的研究者，还是寻求突破现有自动化瓶颈的工程师，ProAgent 都提供了一个极具价值的实践平台。

使用场景

某电商运营团队需要每日从多个平台抓取订单数据，经清洗后自动同步至 ERP 系统并生成异常报告。

没有 ProAgent 时

流程构建僵化：传统 RPA 工具要求技术人员预先硬编码每一步逻辑，一旦电商平台更新接口或字段，整个自动化脚本即刻失效。
异常处理缺失：面对数据格式错误或网络波动等动态问题，脚本只能机械报错停止，必须人工介入排查并手动重试。
开发门槛高：业务人员无法直接参与流程设计，每次调整需求都需等待开发人员重新编写和部署代码，响应周期长达数天。
决策能力弱：无法根据订单金额或类型动态判断是否触发特殊审批流，所有逻辑均需写死在代码中，缺乏灵活性。

使用 ProAgent 后

自然语言构建：运营人员直接用中文描述“抓取昨日订单并同步”，ProAgent 即可自主规划并生成包含 n8n 节点的完整工作流。
动态决策执行：遇到接口变更或数据异常时，ProAgent 能像人类一样分析错误原因，自动尝试替代方案或调整参数继续执行。
即时迭代优化：当业务规则变化（如新增“大额订单需复核”），只需追加指令，ProAgent 便能实时修改现有工作流逻辑，无需重写代码。
智能协同调度：ProAgent 自动协调专门的数据清洗 Agent 和通知 Agent 分工协作，复杂流程的构建与执行效率提升显著。

ProAgent 将自动化从“按剧本演出的机器人”升级为“能思考决策的智能代理”，真正实现了业务流程的自适应与无人化。

运行环境要求

操作系统

Linux
macOS

GPU

未说明

内存

未说明

依赖

notes1. 必须安装并运行自托管的 n8n 服务（通过 npm 安装），且代码基于较旧版本的 n8n，新版本可能存在兼容性问题。 2. OpenAI API 需使用 Dev Day 之前的版本，不支持最新版；需设置 OPENAI_API_KEY 和 OPENAI_API_BASE 环境变量。 3. 若在中国大陆地区，连接 n8n 与外部应用账户时可能遇到网络限制（GFW 问题）。 4. 首次运行前需手动在 n8n 中注册应用、创建工作流，并导出解密后的凭证文件 (c.json) 和工作流文件 (w.json) 到指定目录。 5. 提供开发、优化和生产三种运行模式，其中开发模式需预先启动 n8n 服务。

python未说明

requirements.txt 中定义的依赖包

OpenAI (Dev Day 之前的版本，基于 GPT-4-0613)

n8n (自托管版本)

快速开始

ProAgent：从机器人流程自动化到智能体流程自动化

从水车到机器人流程自动化（RPA），自动化技术在历史上不断演进，旨在将人类从繁重的任务中解放出来。然而，RPA在需要类人智能的任务上仍面临挑战，尤其是在工作流的复杂设计与执行过程中的动态决策方面。随着大型语言模型（LLMs）的兴起，赋予了机器类人智能，本文提出了“智能体流程自动化”（APA），这是一种突破性的自动化范式，利用基于LLM的智能体来实现高级自动化，通过将工作流的构建和执行任务交由智能体完成，从而减轻人工负担。随后，我们具体实现了“ProAgent”，一个基于LLM的智能体，它能够根据人类指令构建工作流，并通过协调多个专业智能体做出复杂的决策。通过实证实验，我们详细展示了ProAgent在工作流构建与执行中的流程，验证了APA的可行性，揭示了由智能体驱动的新一代自动化范式的可能性。

<img src="https://oss.gittoolsai.com/images/OpenBMB_ProAgent_readme_c565d20dd293.png>

这是“智能体流程自动化”论文的官方代码，您可以通过这里下载我们的论文。

代码设置

1. 安装依赖包

pip install -r requirements.txt

特别注意，我们使用的是Dev Day之前版本的OpenAI API，因此无法使用最新版本的OpenAI SDK。

2. 准备n8n环境

我们的项目使用自托管的n8n平台。您可以选择搭建n8n环境，并将ProAgent与实际的应用服务连接起来。

或者，您也可以加载我们提供的记录，在无需n8n环境的情况下复现论文中报告的案例。

搭建n8n服务并非易事，您可能会遇到一些我们未曾遇到过的问题或Bug，需要自行解决。例如，在中国，您可能在将应用账号与n8n连接时遇到网络限制问题。

安装n8n

我们的项目采用自托管的n8n，您需要按照官方文档进行安装。在Linux或macOS系统中，可以使用以下命令：

npm install n8n -g

自托管的n8n不支持https服务。不过，我们已经搭建了一个反向代理服务，您可以暂时使用我们的服务（该服务可能不够稳定，我们后续会开源反向代理服务的代码）：

export WEBHOOK_URL=https://n8n.x-agent.net/redirect/http%3A%2F%2Flocalhost%3A5678/
n8n

在n8n中连接您的账户

在启动ProAgent之前，您需要先注册或连接现有的应用服务到n8n平台。不同应用的连接方式可能有所不同，请参考n8n的凭证配置指南这里。

导出凭证信息

我们的代码库需要加载工作流ID和凭证ID。因此，您必须先创建一些工作流并注册相关应用，然后执行以下命令从n8n服务中导出凭证信息：

n8n export:credentials --all --decrypted --output=./ProAgent/n8n_tester/credentials/c.json

将c.json移动到./ProAgent/n8n_tester/credentials/c.json。

n8n export:workflow --all --output=./ProAgent/n8n_tester/credentials/w.json

将w.json移动到./ProAgent/n8n_tester/credentials/w.json。

代码运行

运行模式取决于config文件，位于ProAgent/config.py中，您可以选择以下运行环境：

development：这是论文中报告的模式。
refine：从现有工作流出发，根据新的需求进一步优化工作流。
production：从现有工作流加载，可用于复现ProAgent的某次完整运行。

我们在./apa_case目录下提供了论文中报告的案例，您可以使用production模式直接加载该运行。

在production模式下，我们关闭了“变更时测试”功能，APA代码仅会在运行结束时进行一次测试。

相反，refine模式则启用了“变更时测试”功能。

使用以下命令启动ProAgent，如果您使用development模式，请务必先启动n8n：

python main.py

需要注意的是，我们开发了一个可读性强的记录系统。所有ProAgent的运行都会在./records目录下生成一条新的记录，因此您可以在refine或production模式中通过记录加载之前的运行。

如果您使用development模式，需提前准备好OpenAI的API密钥。请在环境变量中设置以下内容：

OPENAI_API_KEY, OPENAI_API_BASE

我们的代码实现方法与论文描述基本一致。然而，在论文发表之后，也发生了一些变化：

HCI改进：我们发现当ProAgent对问题存在误解时，会出现一些问题，因此我们新增了一项功能，允许ProAgent通过函数调用的方式主动向人类寻求帮助（类似于XAgent）。这种主动交互的方式促使ProAgent与人类协作共同构建和测试工作流。
n8n新特性：在我们研究期间，n8n快速推出了多项新功能。而我们的代码是基于较旧版本的n8n开发的，并内置了一个n8n编译器，因此可能与较新版本的n8n不完全兼容。
OpenAI更新：ProAgent基于GPT4-0613模型。然而，OpenAI在Dev Day上发布了GPT4-1106-preview模型，其函数调用能力提升了38%。因此，得益于OpenAI的更新，您可能会发现ProAgent的表现优于论文中的结果。

引用

如果您觉得本项目对您有所帮助，请随时引用我们的论文：

@article{ye2023proagent,
  title={ProAgent: From Robotic Process Automation to Agentic Process Automation},
  author={Ye, Yining and Cong, Xin and Tian, Shizuo and Cao, Jiannan and Wang, Hao and Qin, Yujia and Lu, Yaxi and Yu, Heyang and Wang, Huadong and Lin, Yankai and others},
  journal={arXiv preprint arXiv:2311.10751},
  year={2023}
}

ProAgent 快速上手指南

ProAgent 是一个基于大语言模型（LLM）的智能体，旨在实现从“机器人流程自动化 (RPA)"到“智能体流程自动化 (APA)"的范式转变。它能够根据人类指令构建工作流，并协调专用智能体执行复杂的决策任务。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux 或 macOS（推荐），Windows 需配合 WSL 使用。
Python 环境：建议 Python 3.8+。
Node.js 环境：用于部署自托管的 n8n 服务（需 npm）。
API Key：
- 需要配置 OPENAI_API_KEY 和 OPENAI_API_BASE。
- 注意：本项目基于 OpenAI Dev Day 之前的版本开发，推荐使用 gpt-4-0613 模型以获得最佳兼容性（虽然新版 gpt-4-1106-preview 在函数调用上表现更好，但可能需自行适配）。
网络环境：
- 由于涉及连接外部 APP 服务，中国大陆用户可能需要解决网络连通性问题（如 GFW 限制）。
- 项目提供了一个临时的重定向服务用于测试，但生产环境建议自行搭建稳定的网络通道。

2. 安装步骤

2.1 安装 Python 依赖

克隆项目后，进入目录并安装所需包：

pip install -r requirements.txt

2.2 部署自托管 n8n 服务

ProAgent 依赖自托管的 n8n 来执行工作流。

全局安装 n8n：
```
npm install n8n -g
```
配置 Webhook 地址：自托管 n8n 默认不支持 HTTPS。您可以使用项目提供的临时重定向服务（稳定性有限），或自行配置 HTTPS。

使用临时服务启动命令：
```
export WEBHOOK_URL=https://n8n.x-agent.net/redirect/http%3A%2F%2Flocalhost%3A5678/
n8n
```
注：保持此终端运行，不要关闭。
配置应用凭证 (Credentials)：
- 访问 n8n 界面（通常为 http://localhost:5678）。
- 注册或连接您需要自动化的 APP 账号（参考 n8n 凭证指南）。
- 创建至少一个测试工作流。
导出凭证与工作流数据：为了让 ProAgent 读取配置，需将 n8n 中的凭证和工作流导出为 JSON 文件。

导出解密后的凭证：
```
n8n export:credentials --all --decrypted --output=./ProAgent/n8n_tester/credentials/c.json
```
将生成的 c.json 移动至 ./ProAgent/n8n_tester/credentials/c.json（如果路径不同请手动移动）。

导出工作流：
```
n8n export:workflow --all --output=./ProAgent/n8n_tester/credentials/w.json
```
将生成的 w.json 移动至 ./ProAgent/n8n_tester/credentials/w.json。

3. 基本使用

ProAgent 的运行模式由 ProAgent/config.py 中的配置决定。主要支持三种模式：

development：从头构建工作流（论文中报告的模式），必须先启动 n8n。
refine：加载现有工作流并根据新需求进行优化（启用变更测试）。
production：加载现有工作流复现运行结果（仅在结束时测试一次）。

项目已内置论文中的案例数据 (./apa_case)，您可以直接尝试复现。

启动 ProAgent

设置环境变量（如果使用 development 模式）：

export OPENAI_API_KEY="your_api_key"
export OPENAI_API_BASE="your_api_base_url"

运行主程序：确保 n8n 服务已在后台运行，然后执行：
```
python main.py
```

查看运行记录

ProAgent 拥有可读的记录系统。每次运行都会在 ./records 目录下生成新的记录文件。

若需基于之前的运行结果进行优化或复现，可在配置中选择 refine 或 production 模式，并指定对应的记录文件。

功能特性提示

人机协作 (HCI)：当 ProAgent 对任务理解存在歧义时，它可以通过函数调用主动请求人类帮助，共同构建和测试工作流。
版本兼容：代码基于较旧版本的 n8n 编写，内置了 n8n-compiler。若升级 n8n 至最新版，可能会遇到兼容性问题，请注意验证。

常见问题

运行时报错提示缺少 'tiktoken'、'pygments' 或 'requests' 等模块怎么办？

在 Windows 环境下运行出现 'UnicodeDecodeError: gb k codec can't decode byte' 错误如何解决？

ProAgent 是否支持类似集简云这样的国内自动化流程工具？

ProAgent 是否兼容 ChatGLM3 模型？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架