web-eval-agent

1.2k 105 简单 1 次阅读 6天前Apache-2.0Agent插件

AI 解读由 AI 自动生成，仅供参考

web-eval-agent 是一款专为开发者设计的自动化 Web 应用评估工具，旨在让 AI 编程助手具备“自我调试”能力。它作为一个 MCP 服务器运行，能够驱动浏览器自主执行测试任务，无需人工干预即可完成从登录到复杂业务流的全链路验证。

该工具主要解决了开发过程中手动重复测试耗时费力、以及 AI 生成代码难以自动验证端到端功能的问题。通过集成 BrowserUse 技术，web-eval-agent 不仅能模拟用户操作导航网页，还能智能捕获网络请求、控制台错误并截取屏幕画面，最终生成详尽的用户体验报告。其独特亮点在于支持“状态预设”，允许用户预先在交互式浏览器中完成登录等操作，保存的凭证可被后续自动化任务复用，极大提升了测试效率。

web-eval-agent 特别适合全栈开发者、前端工程师以及使用 Cursor 等 AI 集成开发环境的团队使用。它能无缝嵌入开发工作流，当 AI 编写完代码后，可直接调用该工具进行即时验收，帮助开发者从繁琐的回归测试中解放出来，更专注于核心逻辑构建。需要注意的是，该项目目前已停止维护，团队正转向新的方向，但其设计理念仍为自动化测试提供了有价值的参考。

使用场景

前端工程师小李正在开发一个复杂的电商注册流程，需要在每次代码提交后验证从填写表单到最终跳转的完整用户体验。

没有 web-eval-agent 时

人工回归耗时：每次修改代码后，必须手动打开浏览器，重复点击数十次以跑通整个注册流程，严重打断编码心流。
隐蔽错误难发现：容易忽略控制台中的异步报错或网络请求失败，导致线上出现“白屏”或数据未提交等隐患。
环境状态重置繁琐：测试需要登录态时，每次都要重新扫码或输入账号密码，无法快速复用之前的会话状态。
反馈滞后：往往等到测试人员介入或用户投诉时，才发现关键路径上的交互逻辑存在断裂。

使用 web-eval-agent 后

自主闭环测试：只需在 IDE 中输入“运行注册流程并报告体验问题”，web-eval-agent 即可自动驱动浏览器完成全链路操作并生成报告。
全维度监控：工具自动捕获并过滤网络流量与控制台日志，将隐藏的 JS 错误和失败的 API 请求直接呈现在上下文中。
会话状态复用：通过 setup_browser_state 一次性登录保存凭证，后续所有自动化评估均自动携带登录态，无需重复认证。
实时自我修正：Cursor 代理可调用 web-eval-agent 即时验证刚写的代码是否按预期工作，实现“写完即测，出错即改”。

web-eval-agent 将原本耗时数小时的手工回归测试压缩为分钟级的自动化对话，让开发者能专注于核心逻辑而非重复劳动。

运行环境要求

操作系统

macOS
Linux
Windows

GPU

未说明

内存

未说明

依赖

notes该项目已停止维护 (SUNSET)。安装主要依赖 'uv' (Python 包管理器) 和 'Playwright' (浏览器自动化工具，需额外安装 Chromium 及系统依赖)。需要获取 Operative API Key 才能运行。支持在 Cursor、Cline、Windsurf 等编辑器中作为 MCP Server 使用。Windows 支持尚在完善中。

python未说明 (通过 uv 管理)

playwright

chromium

npm

快速开始

⚠️ 项目已停止维护 ⚠️

本项目已不再更新。我们正在 withrefresh.com 构建全新产品。

🚀 operative.sh web-eval-agent MCP 服务器

让编码助手自动调试自身，把时间留给更重要的事情。

🔥 强化你的调试能力

operative.sh（www.operative.sh/mcp）的 MCP 服务器会启动一个基于 BrowserUse 的代理，直接在你的代码编辑器中自主执行并调试 Web 应用程序。

⚡ 功能特性

🌐 导航你的 Web 应用：使用 BrowserUse（结合 operative 后端可提速 2 倍）
📊 捕获网络流量：智能过滤请求，并将其返回到上下文窗口
🚨 收集控制台错误：捕捉日志与错误信息
🤖 自主调试：Cursor 代理会调用 web QA 代理的 MCP 服务器，以端到端方式测试其编写的代码是否按预期工作。

🧰 MCP 工具参考

工具	用途
`web_eval_agent`	🤖 自动化 UX 评估器，驱动浏览器、捕获截图、控制台与网络日志，并生成丰富的 UX 报告。
`setup_browser_state`	🔒 打开一个交互式（非无头）浏览器，方便你只需登录一次；后续的 `web_eval_agent` 运行将复用保存的 Cookie 和本地存储数据。

关键参数

web_eval_agent
- url (必填) – 正在运行的应用地址（例如 http://localhost:3000）
- task (必填) – 用自然语言描述要测试的内容（“走一遍注册流程，并记录任何 UX 问题”）
- headless_browser (可选，默认为 false) – 设置为 true 可隐藏浏览器窗口
setup_browser_state
- url (可选) – 首先打开的页面（便于直接跳转到登录界面）

你可以直接从 IDE 的聊天窗口触发这些工具，例如：

在我的应用 http://localhost:3000 上进行评估——使用 web_eval_agent 完成任务：“尝试完整的注册流程，并报告 UX 问题。”

🏁 快速入门

一键集成，轻松设置

获取你的 API 密钥（免费） - 创建 API 密钥时，你会看到：
- “添加到 Cursor” 按钮，附带即时安装 Cursor 的深层链接
- 预填充的 Claude Code 命令，其中已自动包含你的 API 密钥

手动设置（macOS/Linux）

先决条件（通常无需操作）：
- brew：/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- npm：brew install npm
- jq：brew install jq
在获取 API 密钥（免费）后运行安装脚本：
- 安装 playwright
- 安装 uv
- 自动为你将 JSON 插入到代码编辑器（Cursor/Cline/Windsurf）！

curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh

打开你喜欢的 IDE 并重启以使更改生效
在聊天模式下发送提示，调用 web eval agent 工具！例如：

测试我的应用 http://localhost:3000。使用 web-eval-agent。

🛠️ 手动安装

在 operative.sh/mcp 获取你的 API 密钥
安装 uv

curl -LsSf https://astral.sh/uv/install.sh | sh

安装 UV 后加载环境变量：

Mac

source ~/.zshrc

Linux

source ~/.bashrc

安装 playwright：

npm install -g chromium playwright && uvx --with playwright playwright install --with-deps

将以下 JSON 添加到相应的代码编辑器中，并填入你的 API 密钥
重启你的代码编辑器

🔃 更新

uv cache clean
刷新 MCP 服务器

    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "--refresh-package",
        "webEvalAgent",
        "--from",
        "git+https://github.com/Operative-Sh/web-eval-agent.git",
        "webEvalAgent"
      ],
      "env": {
        "OPERATIVE_API_KEY": "<YOUR_KEY>"
      }
    }

Operative Discord 服务器

🛠️ 手动安装（Mac + Cursor/Cline/Windsurf）

在 operative.sh/mcp 获取你的 API 密钥
安装 uv

curl -LsSf https://astral.sh/uv/install.sh | sh)

安装 playwright：

npm install -g chromium playwright && uvx --with playwright playwright install --with-deps

将以下 JSON 添加到相应的代码编辑器中，并填入你的 API 密钥
重启你的代码编辑器

手动安装（Windows + Cursor/Cline/Windsurf）

我们仍在优化此流程，如有任何问题，请提交 Issue！

在代码编辑器的终端中完成以下操作
curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh
在 operative.sh/mcp 获取你的 API 密钥
安装 uv (curl -LsSf https://astral.sh/uv/install.sh | sh)
uvx --from git+https://github.com/Operative-Sh/web-eval-agent.git playwright install
重启代码编辑器

🚨 问题

如果代码编辑器未接收到更新，请更新或重新安装以获取最新版本：运行 uv cache clean 即可获得最新修复
如有任何问题，请随时在此仓库或 Discord 中提交 Issue！
5/5 — 对于没有变化的静态应用无法录屏的问题已修复！执行 uv clean 并重启即可解决

更改记录

4月29日：代理叠加层更新——可在浏览器中暂停、播放或停止代理运行

📋 MCP 服务器输出报告示例

📊 为 http://localhost:5173 完成的 Web 评估报告！
📝 任务：测试 API 密钥删除流程，方法是导航至 API 密钥部分，删除一个密钥，并评估用户体验。

🔍 代理步骤
  📍 1. 导航 → http://localhost:5173
  📍 2. 点击     “登录”        （按钮索引 2）
  📍 3. 点击     “API 密钥”     （按钮索引 4）
  📍 4. 点击     “创建密钥”   （按钮索引 9）
  📍 5. 输入      “测试 API 密钥” （输入索引 2）
  📍 6. 点击     “完成”         （按钮索引 3）
  📍 7. 点击     “删除”       （按钮索引 10）
  📍 8. 点击     “删除”       （确认索引 3）
🏁 流程测试成功——用户体验流畅且直观。

🖥️ 控制台日志（10 条）
  1. [debug] [vite] 连接中…
  2. [debug] [vite] 已连接。
  3. [info] 下载 React DevTools …
     …

🌐 网络请求（10 条）
  1. GET /src/pages/SleepingMasks.tsx                   304
  2. GET /src/pages/MCPRegistryRegistry.tsx             304
     …

⏱️ 时间线
  01:16:23.293 🖥️ 控制台 [debug] [vite] 连接中…
  01:16:23.303 🖥️ 控制台 [debug] [vite] 已连接。
  01:16:23.312 ➡️ GET /src/pages/SleepingMasks.tsx
  01:16:23.318 ⬅️ 304 /src/pages/SleepingMasks.tsx
     …
  01:17:45.038 🤖 🏁 流程结束——删除成功已验证
  01:17:47.038 🤖 📋 上述结论再次确认
👁️ 请查看“Operative 控制中心”仪表板，以获取实时日志。

星标历史

由 <3 @ operative.sh 构建

web-eval-agent 快速上手指南

⚠️ 重要提示：该项目已停止维护（Sunset）。开发团队正在构建新项目，请访问 withrefresh.com 获取最新信息。以下指南仅适用于历史版本参考。

web-eval-agent 是一个基于 MCP (Model Context Protocol) 的服务器工具，它能启动一个自主代理，在浏览器中自动执行和调试 Web 应用，并将截图、控制台日志及网络请求反馈给您的代码编辑器（如 Cursor）。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：macOS, Linux 或 Windows
包管理器：
- macOS/Linux: 推荐安装 Homebrew (/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)")
- 需具备 npm 和 jq (macOS: brew install npm jq)
核心依赖：
- uv: Python 包管理工具
- Playwright: 用于浏览器自动化
API Key: 需要在 operative.sh/mcp 免费注册获取。

安装步骤

方法一：一键安装（推荐 macOS/Linux）

这是最简便的方式，脚本会自动处理依赖并配置编辑器。

访问 operative.sh/mcp 获取免费的 API Key。
在终端运行以下安装命令：

curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh

安装完成后，重启您的代码编辑器（如 Cursor, Cline, Windsurf）以加载 MCP 配置。

方法二：手动安装

如果一键脚本无法运行，可按以下步骤手动配置：

安装 uv：
```
curl -LsSf https://astral.sh/uv/install.sh | sh
```
安装后请根据系统刷新环境变量：
- macOS: source ~/.zshrc
- Linux: source ~/.bashrc

安装 Playwright 及其浏览器依赖：

npm install -g chromium playwright && uvx --with playwright playwright install --with-deps

配置编辑器：在您的编辑器 MCP 配置文件（通常在 settings.json 或专门的 MCP 配置区）中添加以下 JSON，并将 <YOUR_KEY> 替换为您获取的 API Key：

"web-eval-agent": {
  "command": "uvx",
  "args": [
    "--refresh-package",
    "webEvalAgent",
    "--from",
    "git+https://github.com/Operative-Sh/web-eval-agent.git",
    "webEvalAgent"
  ],
  "env": {
    "OPERATIVE_API_KEY": "<YOUR_KEY>"
  }
}

重启代码编辑器。

基本使用

安装并重启编辑器后，您可以在编辑器的聊天窗口（Chat Mode）中直接调用该工具。

核心功能工具

web_eval_agent: 自动驱动浏览器执行任务，捕获截图、日志和网络流量，生成用户体验报告。
setup_browser_state: 打开非无头模式浏览器，用于手动登录一次，保存 Cookie/Local Storage 供后续自动测试复用。

使用示例

在编辑器聊天框中输入以下指令（将 URL 和任务描述替换为您的实际需求）：

示例 1：测试注册流程

Evaluate my app at http://localhost:3000 – run web_eval_agent with the task "Try the full signup flow and report UX issues".

示例 2：测试特定功能（如删除 API Key）

Test my app on http://localhost:5173. Use web-eval-agent to navigate to the API Keys section, delete a key, and judge the UX.

示例 3：先设置登录状态再测试 如果需要登录才能测试，先调用：

Run setup_browser_state with url "http://localhost:3000/login" so I can sign in manually.

登录成功后，再运行正常的 web_eval_agent 任务，它会自动复用刚才的登录状态。

输出结果

工具执行完毕后，会在聊天窗口返回一份详细的报告，包含：

Agent 步骤：代理执行的具体操作序列（点击、输入等）。
控制台日志：捕获的浏览器 Console 报错和信息。
网络请求：关键的网络请求列表及状态码。
时间线：按时间顺序排列的操作与日志对照。

常见问题

如何在 Windows 上手动安装 web-eval-agent？

遇到 'Invalid API key' (403 错误) 或浏览器启动后立即关闭怎么办？

如何正确使用 web-eval-agent？提示语应该是什么？

运行时出现 'Unexpected token ... is not valid JSON' 错误怎么办？

付费订阅后额度未更新（例如购买了 10,000 次请求但只显示 2,000）怎么办？

该工具是否支持需要与外部插件（如 MetaMask）交互的 Web3 项目？

在 Windows 上安装时提示 'executable named playwright is not provided' 怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架