openai-testing-agent-demo

756 117 较难 1 次阅读 2天前NOASSERTION语言模型Agent

AI 解读由 AI 自动生成，仅供参考

openai-testing-agent-demo 是一个展示如何利用 OpenAI CUA 模型和 Responses API 实现前端自动化测试的开源示例项目。它主要解决了传统 UI 测试脚本编写繁琐、维护成本高以及难以模拟真实用户复杂操作的问题。通过让 AI 模型直接“观察”并操作浏览器，该项目能够根据自然语言描述的测试用例，自动执行点击、输入等界面交互动作，直至完成测试流程。

这套方案非常适合前端开发者、测试工程师以及对 AI 自动化感兴趣的研究人员使用。其独特的技术亮点在于构建了一个由三部分组成的协同系统：基于 Next.js 的配置与监控界面、负责驱动 Playwright 浏览器并与 OpenAI CUA 模型通信的核心服务，以及一个用于演示的电商示例应用。这种架构让 AI 具备了类似人类的视觉感知和操作能力，无需编写复杂的定位代码即可适应不同的界面变化。

需要注意的是，由于底层的计算机操作功能目前仍处于预览阶段，可能存在不稳定性，因此 openai-testing-agent-demo 仅推荐在隔离的测试环境中运行，切勿用于生产环境或涉及真实用户数据的场景。对于希望探索大模型在软件测试领域落地应用的团队来说，这是一个极具参考价值的起点。

使用场景

某电商团队的测试工程师需要在每次前端代码更新后，快速验证“用户登录 - 搜索商品 - 加入购物车”这一核心流程在不同分辨率下的稳定性。

没有 openai-testing-agent-demo 时

脚本维护成本高：传统的 Playwright 或 Selenium 脚本严重依赖固定的 CSS 选择器，一旦开发调整了按钮类名或页面结构，测试脚本就会立即报错，需要人工逐行修复。
编写门槛高且耗时：为覆盖复杂的交互路径（如弹窗处理、动态加载），工程师需花费数小时编写和调试繁琐的代码，难以应对敏捷开发中频繁的需求变更。
异常处理僵化：当页面出现非预期的广告弹窗或加载延迟时，硬编码的脚本无法像人类一样灵活判断并绕过障碍，直接导致整个测试套件中断失败。
视觉回归盲区：基于代码的自动化很难发现布局错位、文字重叠等视觉层面的问题，往往需要额外的人工肉眼复查。

使用 openai-testing-agent-demo 后

自适应元素定位：openai-testing-agent-demo 利用 CUA 模型“看懂”屏幕内容，即使按钮类名改变，它也能通过语义理解（如识别“购物车”图标）准确执行点击，大幅降低脚本维护频率。
自然语言驱动测试：测试人员只需用自然语言描述测试用例（例如“尝试用错误密码登录并确认报错”），代理即可自动规划步骤并在浏览器中执行，将用例构建时间从小时级缩短至分钟级。
智能容错与决策：遇到突发弹窗或加载缓慢时，openai-testing-agent-demo 能像真人一样观察屏幕状态，自主决定关闭干扰项或等待重试，显著提升了测试运行的成功率。
全真视觉交互：直接在真实浏览器环境中操作像素级界面，能够同步捕捉到传统脚本无法识别的 UI 渲染缺陷，实现功能与视觉的双重验证。

openai-testing-agent-demo 通过将“视觉感知”引入自动化测试，让测试代理具备了类似人类的灵活判断力，彻底改变了前端测试僵化且脆弱的现状。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该项目基于 Node.js 环境，需安装 Playwright 浏览器驱动。核心功能依赖 OpenAI CUA 模型（计算机使用工具），目前处于预览阶段，不建议在认证环境或高风险任务中使用。需配置 OPENAI_API_KEY 环境变量，并建议在测试环境中运行，严禁使用真实生产数据。

python未说明

Node.js

npm

Playwright

Next.js

快速开始

测试代理演示

这个 monorepo 展示了如何使用 OpenAI 的 CUA 模型和计算机使用工具来自动化前端测试。它利用 Playwright 启动一个浏览器实例，并导航到待测试的 Web 应用程序。随后，CUA 模型会按照提供的测试用例，在界面上执行相应操作，直到测试用例完成。

该仓库包含三个协同工作的应用程序：

frontend – 用于配置测试并观看其运行过程的 Next.js Web 界面。
cua-server – 一个 Node 服务，负责与 OpenAI CUA 模型通信，并通过 Playwright 控制浏览器与示例应用进行交互。
sample-test-app – 一个示例电子商务网站，作为代理测试的目标应用。

[!CAUTION]
计算机使用功能目前处于预览阶段。由于该模型仍处于预览状态，可能存在被利用或出现意外错误的风险，因此我们不建议在已认证的环境中或用于高风险任务中信任该功能。

使用方法

克隆仓库

git clone https://github.com/openai/openai-testing-agent-demo
cd openai-testing-agent-demo

准备环境文件

如果您尚未在终端或系统全局设置 OPENAI_API_KEY 环境变量（设置说明在此处），请编辑每个 .env.development 文件，并设置 OPENAI_API_KEY。
```
cp frontend/.env.example frontend/.env.development
cp cua-server/.env.example cua-server/.env.development
cp sample-test-app/.env.example sample-test-app/.env.development
```
示例应用还定义了演示登录凭据，默认为：
```
ADMIN_USERNAME=test_user_name
ADMIN_PASSWORD=test_password
```
请确保创建一个包含上述示例凭据的 sample-test-app/.env.development 文件，以便运行演示。
安装依赖项
```
npm install
npx playwright install
```
运行所有应用
```
npm run dev
```
这将启动三个应用程序：
- 前端 UI：http://localhost:3000
- 示例应用：http://localhost:3005
- CUA 服务器：ws://localhost:8080
请访问 localhost:3000，查看前端界面并运行演示。

有关每个应用程序的详细信息，请参阅其 README 文件：

自定义

您可以将此测试代理用于任何您选择的 Web 应用程序，并通过配置界面或直接修改 frontend/lib/constants.ts 文件来更新测试用例和目标 URL（UI 中使用的默认值）。

sample-test-app 仅作为演示示例提供，而 frontend 则作为测试界面。测试代理的核心逻辑位于 cua-server 中，这也是您可能希望集成到自己应用程序中的部分。

贡献

欢迎您提出问题或提交 Pull Request 来改进此项目，但请注意，我们可能不会审阅所有建议。

安全注意事项

本项目仅供测试环境使用。
请勿在生产环境中使用真实用户数据。

许可证

本项目采用 MIT 许可证授权。详情请参阅 LICENSE 文件。

openai-testing-agent-demo 快速上手指南

本指南帮助开发者快速部署并运行 OpenAI 的测试代理演示项目。该项目利用 OpenAI CUA 模型和计算机使用工具（Computer Use），结合 Playwright 自动化浏览器操作，实现对前端应用的自动化测试。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (WSL2 推荐)
Node.js：建议版本 v18 或更高
npm：随 Node.js 安装
OpenAI API Key：需拥有访问 OpenAI CUA 模型及 Computer Use 工具的权限
网络环境：由于需要连接 OpenAI 服务，请确保网络通畅（国内用户可能需要配置代理）

注意：Computer Use 功能目前处于预览阶段，请勿在生产环境或包含真实用户数据的 authenticated 环境中使用。

安装步骤

1. 克隆项目

将代码仓库克隆到本地并进入目录：

git clone https://github.com/openai/openai-testing-agent-demo
cd openai-testing-agent-demo

2. 配置环境变量

项目包含三个子应用（frontend, cua-server, sample-test-app），均需配置 API Key。

复制示例配置文件并重命名为开发环境文件：

cp frontend/.env.example frontend/.env.development
cp cua-server/.env.example cua-server/.env.development
cp sample-test-app/.env.example sample-test-app/.env.development

编辑生成的 .env.development 文件（以 cua-server/.env.development 为例，其他同理），填入您的 OpenAI API Key：

OPENAI_API_KEY=sk-your-api-key-here

同时，确保 sample-test-app/.env.development 中包含默认的演示登录凭证（通常已预设）：

ADMIN_USERNAME=test_user_name
ADMIN_PASSWORD=test_password

3. 安装依赖

安装项目所需的 npm 包以及 Playwright 浏览器内核：

npm install
npx playwright install

国内加速提示：如果 npm install 速度较慢，可临时使用淘宝镜像源： npm install --registry=https://registry.npmmirror.com

如果 playwright install 下载浏览器失败，可设置国内镜像变量： PLAYWRIGHT_DOWNLOAD_HOST=https://npmmirror.com/mirrors/playwright npx playwright install

基本使用

启动所有服务

在项目根目录下运行以下命令，将同时启动前端界面、示例电商应用和 CUA 服务端：

npm run dev

启动成功后，您将看到以下服务运行：

前端控制台 (Frontend UI): http://localhost:3000
示例测试应用 (Sample App): http://localhost:3005
CUA 服务端 (CUA Server): ws://localhost:8080

运行测试

打开浏览器访问 http://localhost:3000。
在前端界面中配置测试用例（默认已预置针对示例电商应用的测试流程）。
点击运行按钮，观察 CUA 模型如何驱动浏览器自动执行测试步骤。

自定义测试

若要测试您自己的 Web 应用：

方法一：直接在前端 UI (http://localhost:3000) 中修改目标 URL 和测试指令。
方法二：编辑 frontend/lib/constants.ts 文件修改默认配置。

核心测试逻辑位于 cua-server 目录，您可以将其集成到自己的项目中以适应更复杂的场景。

常见问题

如何在 Windows 上解决运行 Demo 时出现的 'Cannot find module lightningcss.win32-x64-msvc.node' 错误？

如何检查是否已获准访问 Computer Use (CUA) 模型？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent