web-eval-agent

GitHub
1.2k 105 简单 1 次阅读 6天前Apache-2.0Agent插件
AI 解读 由 AI 自动生成,仅供参考

web-eval-agent 是一款专为开发者设计的自动化 Web 应用评估工具,旨在让 AI 编程助手具备“自我调试”能力。它作为一个 MCP 服务器运行,能够驱动浏览器自主执行测试任务,无需人工干预即可完成从登录到复杂业务流的全链路验证。

该工具主要解决了开发过程中手动重复测试耗时费力、以及 AI 生成代码难以自动验证端到端功能的问题。通过集成 BrowserUse 技术,web-eval-agent 不仅能模拟用户操作导航网页,还能智能捕获网络请求、控制台错误并截取屏幕画面,最终生成详尽的用户体验报告。其独特亮点在于支持“状态预设”,允许用户预先在交互式浏览器中完成登录等操作,保存的凭证可被后续自动化任务复用,极大提升了测试效率。

web-eval-agent 特别适合全栈开发者、前端工程师以及使用 Cursor 等 AI 集成开发环境的团队使用。它能无缝嵌入开发工作流,当 AI 编写完代码后,可直接调用该工具进行即时验收,帮助开发者从繁琐的回归测试中解放出来,更专注于核心逻辑构建。需要注意的是,该项目目前已停止维护,团队正转向新的方向,但其设计理念仍为自动化测试提供了有价值的参考。

使用场景

前端工程师小李正在开发一个复杂的电商注册流程,需要在每次代码提交后验证从填写表单到最终跳转的完整用户体验。

没有 web-eval-agent 时

  • 人工回归耗时:每次修改代码后,必须手动打开浏览器,重复点击数十次以跑通整个注册流程,严重打断编码心流。
  • 隐蔽错误难发现:容易忽略控制台中的异步报错或网络请求失败,导致线上出现“白屏”或数据未提交等隐患。
  • 环境状态重置繁琐:测试需要登录态时,每次都要重新扫码或输入账号密码,无法快速复用之前的会话状态。
  • 反馈滞后:往往等到测试人员介入或用户投诉时,才发现关键路径上的交互逻辑存在断裂。

使用 web-eval-agent 后

  • 自主闭环测试:只需在 IDE 中输入“运行注册流程并报告体验问题”,web-eval-agent 即可自动驱动浏览器完成全链路操作并生成报告。
  • 全维度监控:工具自动捕获并过滤网络流量与控制台日志,将隐藏的 JS 错误和失败的 API 请求直接呈现在上下文中。
  • 会话状态复用:通过 setup_browser_state 一次性登录保存凭证,后续所有自动化评估均自动携带登录态,无需重复认证。
  • 实时自我修正:Cursor 代理可调用 web-eval-agent 即时验证刚写的代码是否按预期工作,实现“写完即测,出错即改”。

web-eval-agent 将原本耗时数小时的手工回归测试压缩为分钟级的自动化对话,让开发者能专注于核心逻辑而非重复劳动。

运行环境要求

操作系统
  • macOS
  • Linux
  • Windows
GPU

未说明

内存

未说明

依赖
notes该项目已停止维护 (SUNSET)。安装主要依赖 'uv' (Python 包管理器) 和 'Playwright' (浏览器自动化工具,需额外安装 Chromium 及系统依赖)。需要获取 Operative API Key 才能运行。支持在 Cursor、Cline、Windsurf 等编辑器中作为 MCP Server 使用。Windows 支持尚在完善中。
python未说明 (通过 uv 管理)
uv
playwright
chromium
jq
npm
web-eval-agent hero image

快速开始

⚠️ 项目已停止维护 ⚠️

本项目已不再更新。我们正在 withrefresh.com 构建全新产品。


🚀 operative.sh web-eval-agent MCP 服务器

让编码助手自动调试自身,把时间留给更重要的事情。

演示

🔥 强化你的调试能力

operative.sh(www.operative.sh/mcp)的 MCP 服务器会启动一个基于 BrowserUse 的代理,直接在你的代码编辑器中自主执行并调试 Web 应用程序。

⚡ 功能特性

  • 🌐 导航你的 Web 应用:使用 BrowserUse(结合 operative 后端可提速 2 倍)
  • 📊 捕获网络流量:智能过滤请求,并将其返回到上下文窗口
  • 🚨 收集控制台错误:捕捉日志与错误信息
  • 🤖 自主调试:Cursor 代理会调用 web QA 代理的 MCP 服务器,以端到端方式测试其编写的代码是否按预期工作。

🧰 MCP 工具参考

工具 用途
web_eval_agent 🤖 自动化 UX 评估器,驱动浏览器、捕获截图、控制台与网络日志,并生成丰富的 UX 报告。
setup_browser_state 🔒 打开一个交互式(非无头)浏览器,方便你只需登录一次;后续的 web_eval_agent 运行将复用保存的 Cookie 和本地存储数据。

关键参数

  • web_eval_agent

    • url (必填) – 正在运行的应用地址(例如 http://localhost:3000
    • task (必填) – 用自然语言描述要测试的内容(“走一遍注册流程,并记录任何 UX 问题”)
    • headless_browser (可选,默认为 false) – 设置为 true 可隐藏浏览器窗口
  • setup_browser_state

    • url (可选) – 首先打开的页面(便于直接跳转到登录界面)

你可以直接从 IDE 的聊天窗口触发这些工具,例如:

在我的应用 http://localhost:3000 上进行评估——使用 web_eval_agent 完成任务:“尝试完整的注册流程,并报告 UX 问题。”

🏁 快速入门

一键集成,轻松设置

  1. 获取你的 API 密钥(免费) - 创建 API 密钥时,你会看到:
    • “添加到 Cursor” 按钮,附带即时安装 Cursor 的深层链接
    • 预填充的 Claude Code 命令,其中已自动包含你的 API 密钥

手动设置(macOS/Linux)

  1. 先决条件(通常无需操作):
    • brew:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    • npm:brew install npm
    • jq:brew install jq
  2. 获取 API 密钥(免费) 后运行安装脚本:
    • 安装 playwright
    • 安装 uv
    • 自动为你将 JSON 插入到代码编辑器(Cursor/Cline/Windsurf)!
curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh
  1. 打开你喜欢的 IDE 并重启以使更改生效
  2. 在聊天模式下发送提示,调用 web eval agent 工具!例如:
测试我的应用 http://localhost:3000。使用 web-eval-agent。

🛠️ 手动安装

  1. 在 operative.sh/mcp 获取你的 API 密钥
  2. 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
  1. 安装 UV 后加载环境变量:

Mac

source ~/.zshrc

Linux

source ~/.bashrc 
  1. 安装 playwright:
npm install -g chromium playwright && uvx --with playwright playwright install --with-deps
  1. 将以下 JSON 添加到相应的代码编辑器中,并填入你的 API 密钥
  2. 重启你的代码编辑器

🔃 更新

  • uv cache clean
  • 刷新 MCP 服务器
    "web-eval-agent": {
      "command": "uvx",
      "args": [
        "--refresh-package",
        "webEvalAgent",
        "--from",
        "git+https://github.com/Operative-Sh/web-eval-agent.git",
        "webEvalAgent"
      ],
      "env": {
        "OPERATIVE_API_KEY": "<YOUR_KEY>"
      }
    }

Operative Discord 服务器

🛠️ 手动安装(Mac + Cursor/Cline/Windsurf)

  1. 在 operative.sh/mcp 获取你的 API 密钥
  2. 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh)
  1. 安装 playwright:
npm install -g chromium playwright && uvx --with playwright playwright install --with-deps
  1. 将以下 JSON 添加到相应的代码编辑器中,并填入你的 API 密钥
  2. 重启你的代码编辑器

手动安装(Windows + Cursor/Cline/Windsurf)

我们仍在优化此流程,如有任何问题,请提交 Issue!

  1. 在代码编辑器的终端中完成以下操作
  2. curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh
  3. 在 operative.sh/mcp 获取你的 API 密钥
  4. 安装 uv (curl -LsSf https://astral.sh/uv/install.sh | sh)
  5. uvx --from git+https://github.com/Operative-Sh/web-eval-agent.git playwright install
  6. 重启代码编辑器

🚨 问题

  • 如果代码编辑器未接收到更新,请更新或重新安装以获取最新版本:运行 uv cache clean 即可获得最新修复
  • 如有任何问题,请随时在此仓库或 Discord 中提交 Issue!
  • 5/5 — 对于没有变化的静态应用无法录屏的问题已修复!执行 uv clean 并重启即可解决

更改记录

  • 4月29日:代理叠加层更新——可在浏览器中暂停、播放或停止代理运行

📋 MCP 服务器输出报告示例

📊 为 http://localhost:5173 完成的 Web 评估报告!
📝 任务:测试 API 密钥删除流程,方法是导航至 API 密钥部分,删除一个密钥,并评估用户体验。

🔍 代理步骤
  📍 1. 导航 → http://localhost:5173
  📍 2. 点击     “登录”        (按钮索引 2)
  📍 3. 点击     “API 密钥”     (按钮索引 4)
  📍 4. 点击     “创建密钥”   (按钮索引 9)
  📍 5. 输入      “测试 API 密钥” (输入索引 2)
  📍 6. 点击     “完成”         (按钮索引 3)
  📍 7. 点击     “删除”       (按钮索引 10)
  📍 8. 点击     “删除”       (确认索引 3)
🏁 流程测试成功——用户体验流畅且直观。

🖥️ 控制台日志(10 条)
  1. [debug] [vite] 连接中…
  2. [debug] [vite] 已连接。
  3. [info] 下载 React DevTools …
     …

🌐 网络请求(10 条)
  1. GET /src/pages/SleepingMasks.tsx                   304
  2. GET /src/pages/MCPRegistryRegistry.tsx             304
     …

⏱️ 时间线
  01:16:23.293 🖥️ 控制台 [debug] [vite] 连接中…
  01:16:23.303 🖥️ 控制台 [debug] [vite] 已连接。
  01:16:23.312 ➡️ GET /src/pages/SleepingMasks.tsx
  01:16:23.318 ⬅️ 304 /src/pages/SleepingMasks.tsx
     …
  01:17:45.038 🤖 🏁 流程结束——删除成功已验证
  01:17:47.038 🤖 📋 上述结论再次确认
👁️ 请查看“Operative 控制中心”仪表板,以获取实时日志。

星标历史

星标历史图


由 <3 @ operative.sh 构建

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。

70.6k|★★★☆☆|今天
语言模型Agent开发框架