web-eval-agent
web-eval-agent 是一款专为开发者设计的自动化 Web 应用评估工具,旨在让 AI 编程助手具备“自我调试”能力。它作为一个 MCP 服务器运行,能够驱动浏览器自主执行测试任务,无需人工干预即可完成从登录到复杂业务流的全链路验证。
该工具主要解决了开发过程中手动重复测试耗时费力、以及 AI 生成代码难以自动验证端到端功能的问题。通过集成 BrowserUse 技术,web-eval-agent 不仅能模拟用户操作导航网页,还能智能捕获网络请求、控制台错误并截取屏幕画面,最终生成详尽的用户体验报告。其独特亮点在于支持“状态预设”,允许用户预先在交互式浏览器中完成登录等操作,保存的凭证可被后续自动化任务复用,极大提升了测试效率。
web-eval-agent 特别适合全栈开发者、前端工程师以及使用 Cursor 等 AI 集成开发环境的团队使用。它能无缝嵌入开发工作流,当 AI 编写完代码后,可直接调用该工具进行即时验收,帮助开发者从繁琐的回归测试中解放出来,更专注于核心逻辑构建。需要注意的是,该项目目前已停止维护,团队正转向新的方向,但其设计理念仍为自动化测试提供了有价值的参考。
使用场景
前端工程师小李正在开发一个复杂的电商注册流程,需要在每次代码提交后验证从填写表单到最终跳转的完整用户体验。
没有 web-eval-agent 时
- 人工回归耗时:每次修改代码后,必须手动打开浏览器,重复点击数十次以跑通整个注册流程,严重打断编码心流。
- 隐蔽错误难发现:容易忽略控制台中的异步报错或网络请求失败,导致线上出现“白屏”或数据未提交等隐患。
- 环境状态重置繁琐:测试需要登录态时,每次都要重新扫码或输入账号密码,无法快速复用之前的会话状态。
- 反馈滞后:往往等到测试人员介入或用户投诉时,才发现关键路径上的交互逻辑存在断裂。
使用 web-eval-agent 后
- 自主闭环测试:只需在 IDE 中输入“运行注册流程并报告体验问题”,web-eval-agent 即可自动驱动浏览器完成全链路操作并生成报告。
- 全维度监控:工具自动捕获并过滤网络流量与控制台日志,将隐藏的 JS 错误和失败的 API 请求直接呈现在上下文中。
- 会话状态复用:通过
setup_browser_state一次性登录保存凭证,后续所有自动化评估均自动携带登录态,无需重复认证。 - 实时自我修正:Cursor 代理可调用 web-eval-agent 即时验证刚写的代码是否按预期工作,实现“写完即测,出错即改”。
web-eval-agent 将原本耗时数小时的手工回归测试压缩为分钟级的自动化对话,让开发者能专注于核心逻辑而非重复劳动。
运行环境要求
- macOS
- Linux
- Windows
未说明
未说明

快速开始
⚠️ 项目已停止维护 ⚠️
本项目已不再更新。我们正在 withrefresh.com 构建全新产品。
🚀 operative.sh web-eval-agent MCP 服务器
让编码助手自动调试自身,把时间留给更重要的事情。

🔥 强化你的调试能力
operative.sh(www.operative.sh/mcp)的 MCP 服务器会启动一个基于 BrowserUse 的代理,直接在你的代码编辑器中自主执行并调试 Web 应用程序。
⚡ 功能特性
- 🌐 导航你的 Web 应用:使用 BrowserUse(结合 operative 后端可提速 2 倍)
- 📊 捕获网络流量:智能过滤请求,并将其返回到上下文窗口
- 🚨 收集控制台错误:捕捉日志与错误信息
- 🤖 自主调试:Cursor 代理会调用 web QA 代理的 MCP 服务器,以端到端方式测试其编写的代码是否按预期工作。
🧰 MCP 工具参考
| 工具 | 用途 |
|---|---|
web_eval_agent |
🤖 自动化 UX 评估器,驱动浏览器、捕获截图、控制台与网络日志,并生成丰富的 UX 报告。 |
setup_browser_state |
🔒 打开一个交互式(非无头)浏览器,方便你只需登录一次;后续的 web_eval_agent 运行将复用保存的 Cookie 和本地存储数据。 |
关键参数
web_eval_agenturl(必填) – 正在运行的应用地址(例如http://localhost:3000)task(必填) – 用自然语言描述要测试的内容(“走一遍注册流程,并记录任何 UX 问题”)headless_browser(可选,默认为false) – 设置为true可隐藏浏览器窗口
setup_browser_stateurl(可选) – 首先打开的页面(便于直接跳转到登录界面)
你可以直接从 IDE 的聊天窗口触发这些工具,例如:
在我的应用 http://localhost:3000 上进行评估——使用 web_eval_agent 完成任务:“尝试完整的注册流程,并报告 UX 问题。”
🏁 快速入门
一键集成,轻松设置
- 获取你的 API 密钥(免费) - 创建 API 密钥时,你会看到:
- “添加到 Cursor” 按钮,附带即时安装 Cursor 的深层链接
- 预填充的 Claude Code 命令,其中已自动包含你的 API 密钥
手动设置(macOS/Linux)
- 先决条件(通常无需操作):
- brew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" - npm:
brew install npm - jq:
brew install jq
- brew:
- 在 获取 API 密钥(免费) 后运行安装脚本:
- 安装 playwright
- 安装 uv
- 自动为你将 JSON 插入到代码编辑器(Cursor/Cline/Windsurf)!
curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh
- 打开你喜欢的 IDE 并重启以使更改生效
- 在聊天模式下发送提示,调用 web eval agent 工具!例如:
测试我的应用 http://localhost:3000。使用 web-eval-agent。
🛠️ 手动安装
- 在 operative.sh/mcp 获取你的 API 密钥
- 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
- 安装 UV 后加载环境变量:
Mac
source ~/.zshrc
Linux
source ~/.bashrc
- 安装 playwright:
npm install -g chromium playwright && uvx --with playwright playwright install --with-deps
- 将以下 JSON 添加到相应的代码编辑器中,并填入你的 API 密钥
- 重启你的代码编辑器
🔃 更新
uv cache clean- 刷新 MCP 服务器
"web-eval-agent": {
"command": "uvx",
"args": [
"--refresh-package",
"webEvalAgent",
"--from",
"git+https://github.com/Operative-Sh/web-eval-agent.git",
"webEvalAgent"
],
"env": {
"OPERATIVE_API_KEY": "<YOUR_KEY>"
}
}
Operative Discord 服务器
🛠️ 手动安装(Mac + Cursor/Cline/Windsurf)
- 在 operative.sh/mcp 获取你的 API 密钥
- 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh)
- 安装 playwright:
npm install -g chromium playwright && uvx --with playwright playwright install --with-deps
- 将以下 JSON 添加到相应的代码编辑器中,并填入你的 API 密钥
- 重启你的代码编辑器
手动安装(Windows + Cursor/Cline/Windsurf)
我们仍在优化此流程,如有任何问题,请提交 Issue!
- 在代码编辑器的终端中完成以下操作
curl -LSf https://operative.sh/install.sh -o install.sh && bash install.sh && rm install.sh- 在 operative.sh/mcp 获取你的 API 密钥
- 安装 uv
(curl -LsSf https://astral.sh/uv/install.sh | sh) uvx --from git+https://github.com/Operative-Sh/web-eval-agent.git playwright install- 重启代码编辑器
🚨 问题
- 如果代码编辑器未接收到更新,请更新或重新安装以获取最新版本:运行
uv cache clean即可获得最新修复 - 如有任何问题,请随时在此仓库或 Discord 中提交 Issue!
- 5/5 — 对于没有变化的静态应用无法录屏的问题已修复!执行
uv clean并重启即可解决
更改记录
- 4月29日:代理叠加层更新——可在浏览器中暂停、播放或停止代理运行
📋 MCP 服务器输出报告示例
📊 为 http://localhost:5173 完成的 Web 评估报告!
📝 任务:测试 API 密钥删除流程,方法是导航至 API 密钥部分,删除一个密钥,并评估用户体验。
🔍 代理步骤
📍 1. 导航 → http://localhost:5173
📍 2. 点击 “登录” (按钮索引 2)
📍 3. 点击 “API 密钥” (按钮索引 4)
📍 4. 点击 “创建密钥” (按钮索引 9)
📍 5. 输入 “测试 API 密钥” (输入索引 2)
📍 6. 点击 “完成” (按钮索引 3)
📍 7. 点击 “删除” (按钮索引 10)
📍 8. 点击 “删除” (确认索引 3)
🏁 流程测试成功——用户体验流畅且直观。
🖥️ 控制台日志(10 条)
1. [debug] [vite] 连接中…
2. [debug] [vite] 已连接。
3. [info] 下载 React DevTools …
…
🌐 网络请求(10 条)
1. GET /src/pages/SleepingMasks.tsx 304
2. GET /src/pages/MCPRegistryRegistry.tsx 304
…
⏱️ 时间线
01:16:23.293 🖥️ 控制台 [debug] [vite] 连接中…
01:16:23.303 🖥️ 控制台 [debug] [vite] 已连接。
01:16:23.312 ➡️ GET /src/pages/SleepingMasks.tsx
01:16:23.318 ⬅️ 304 /src/pages/SleepingMasks.tsx
…
01:17:45.038 🤖 🏁 流程结束——删除成功已验证
01:17:47.038 🤖 📋 上述结论再次确认
👁️ 请查看“Operative 控制中心”仪表板,以获取实时日志。
星标历史
由 <3 @ operative.sh 构建
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
OpenHands
OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。
