browser-tools-mcp

GitHub
7.2k 522 较难 1 次阅读 3天前MIT图像Agent开发框架
AI 解读 由 AI 自动生成,仅供参考

browser-tools-mcp 是一款旨在提升 AI 编程助手浏览器感知能力的开源工具。它通过连接 Chrome 扩展与本地服务,让 Cursor 等支持 MCP 协议的 IDE 能够直接读取和分析浏览器日志、截图及页面状态。

该工具主要解决了开发者在利用 AI 进行前端调试或优化时,需要手动复制粘贴错误信息、截图或切换窗口的痛点。借助它,AI 助手可以“看见”你当前的浏览器画面,自动执行审计任务,从而大幅减少上下文切换,让人机协作更加流畅。

browser-tools-mcp 特别适合前端开发者、全栈工程师以及习惯使用 AI 辅助编程的技术人员。其核心技术亮点在于深度集成了 Google Lighthouse 引擎,支持在 IDE 内一键自动检测页面的无障碍性(WCAG)、性能瓶颈、SEO 问题及开发最佳实践。此外,它还提供了针对 Next.js 框架的专项优化提示,并具备自动重连和智能端口发现机制,确保了连接的稳定性。

需要注意的是,该项目目前已停止活跃维护,官方建议用户寻找替代方案。但在其可用期间,它为构建“感知型”AI 开发工作流提供了极具价值的思路。

使用场景

前端工程师小李正在使用 Cursor IDE 为公司的 NextJS 电商网站进行 SEO 优化和性能调优,急需定位页面加载缓慢及搜索引擎收录不佳的根源。

没有 browser-tools-mcp 时

  • 上下文割裂:小李必须在浏览器开发者工具、Lighthouse 独立报告和 IDE 代码编辑器之间频繁切换,难以将性能数据与具体代码行直接关联。
  • 手动操作繁琐:每次修改代码后,需手动刷新页面、重新运行审计工具并复制粘贴截图或日志到 Cursor 中让 AI 分析,流程断裂且耗时。
  • 诊断深度不足:AI 助手因无法直接读取实时的浏览器控制台日志和网络请求细节,只能基于模糊的描述给出通用的优化建议,无法精准定位 NextJS 特有的渲染阻塞问题。
  • 合规检查滞后:WCAG 无障碍标准和 SEO 元标签的检查往往在开发后期才统一进行,导致返工成本高。

使用 browser-tools-mcp 后

  • 无缝上下文集成:browser-tools-mcp 直接将 Chrome 扩展捕获的实时日志、网络请求和 Lighthouse 审计数据注入 Cursor,AI 无需切换窗口即可“看见”浏览器状态。
  • 自动化工作流:开启"Auto-Paste"功能后,截图和审计报告自动流入 Cursor 对话框;调用"Debugger Mode"可一键按顺序执行全套调试工具,大幅缩短反馈循环。
  • 精准智能诊断:借助内置的 NextJS 专用提示词,AI 能结合实时数据精准指出具体的 SEO 元标签缺失或 hydration 性能瓶颈,并直接生成修复代码。
  • 即时合规审计:通过"Audit Mode",小李可在编码过程中随时触发对 WCAG 标准和最佳实践的自动扫描,确保问题在提交前即刻解决。

browser-tools-mcp 通过打通浏览器与 IDE 的数据壁垒,让 AI 编程助手具备了实时的“视觉”与“听觉”,将原本割裂的调试过程转化为流畅的智能闭环。

运行环境要求

操作系统
  • Windows
  • macOS
  • Linux
GPU

未说明

内存

未说明

依赖
notes该项目已不再活跃维护,建议使用其他替代方案。运行环境核心依赖为 Node.js 和 Google Chrome 浏览器(需安装提供的扩展程序)。架构包含三个部分:Chrome 扩展、本地 Node.js 中间件服务器和 MCP 服务器。无 Python 或 GPU 需求,主要通过网络端口和本地 WebSocket 进行通信。
python未说明
Node.js
Chrome Browser
@agentdeskai/browser-tools-mcp
@agentdeskai/browser-tools-server
Puppeteer
Lighthouse
browser-tools-mcp hero image

快速开始

该项目已不再维护,请使用其他解决方案。

BrowserTools MCP

让您的 AI 工具对浏览器更加敏感,并具备更强的交互能力

此应用是一款强大的浏览器监控与交互工具,通过 Anthropic 的模型上下文协议 (MCP),借助 Chrome 扩展程序,使基于 AI 的应用程序能够捕获并分析浏览器数据。

请阅读我们的文档以获取完整的安装、快速入门和贡献指南。

路线图

请在此处查看我们的项目路线图:Github 路线图 / 项目看板

更新内容

v1.2.0 已发布!以下是本次更新的简要说明:

  • 您现在可以在 DevTools 面板中启用“允许自动粘贴到 Cursor”。截图将自动粘贴到 Cursor 中(只需确保焦点或点击位于 Cursor 的 Agent 输入框内,否则将无法正常工作!)
  • 通过 Lighthouse 集成了 SEO、性能、可访问性及最佳实践分析工具套件
  • 实现了一个针对 NextJS 应用程序的特定提示,用于提升其 SEO 效果
  • 添加了调试模式工具,该工具会按照特定顺序执行所有调试工具,并附带一个用于改进推理能力的提示
  • 添加了审计模式工具,用于按特定顺序执行所有审计工具
  • 解决了 Windows 系统上的连接问题
  • 改进了 BrowserTools 服务器、扩展程序和 MCP 服务器之间的网络通信,实现了主机/端口自动发现、自动重连以及优雅关闭机制
  • 增加了通过 Ctrl+C 更轻松地退出 BrowserTools 服务器的功能

快速入门指南

运行此 MCP 工具需要三个组件:

  1. 从这里安装我们的 Chrome 扩展程序:v1.2.0 BrowserToolsMCP Chrome 扩展程序
  2. 在您的 IDE 中运行以下命令安装 MCP 服务器:npx @agentdeskai/browser-tools-mcp@latest
  3. 打开一个新的终端窗口并运行以下命令:npx @agentdeskai/browser-tools-server@latest
  • 不同的 IDE 可能有不同的配置,但此命令通常是一个不错的起点;请参考您所使用的 IDE 文档以进行正确的配置设置。

重要提示——您需要安装两个服务器。它们分别是:

  • browser-tools-server(本地 Node.js 服务器,作为收集日志的中间件)
  • browser-tools-mcp(MCP 服务器,需安装在您的 IDE 中,负责与扩展程序和 browser-tools-server 通信)

npx @agentdeskai/browser-tools-mcp@latest 是您需要在 IDE 中运行的命令, 而 npx @agentdeskai/browser-tools-server@latest 则是在新的终端窗口中运行的命令。

完成以上三个步骤后,打开 Chrome 开发者工具,然后进入 BrowserToolsMCP 面板。

如果您仍然遇到问题,请尝试以下步骤:

  • 关闭并退出浏览器——不仅仅是窗口,而是彻底关闭整个 Chrome 浏览器。
  • 重启本地 Node.js 服务器(browser-tools-server)。
  • 确保仅打开一个 Chrome 开发者工具面板。

完成这些操作后,应该就可以正常使用了。如果仍无法正常工作,请告知我,我可以提供更多步骤来收集有关问题的日志和信息!

如果您有任何疑问或问题,欢迎随时提交问题工单!如果您有任何改进建议,也欢迎随时联系或提交带有增强标签的问题工单,或者直接通过 @tedx_ai on x 与我联系。

完整更新说明:

像 Cursor 这样的编码助手可以无缝地对当前页面执行这些审计。通过利用 Puppeteer 和 Lighthouse npm 库,BrowserTools MCP 现在能够:

  • 评估页面是否符合 WCAG 标准
  • 识别性能瓶颈
  • 标记页面上的 SEO 问题
  • 检查是否遵循 Web 开发的最佳实践
  • 审查 NextJS 特有的 SEO 问题

这一切都不需要离开您的 IDE 🎉


🔑 主要新增功能

审计类型 描述
可访问性 符合 WCAG 标准的检查,包括颜色对比度、缺失的替代文本、键盘导航陷阱、ARIA 属性等。
性能 基于 Lighthouse 的分析,检测渲染阻塞资源、过大的 DOM 结构、未优化的图片以及其他影响页面加载速度的因素。
SEO 评估页面上的 SEO 因素(如元数据、标题和链接结构),并提出改进建议以提高搜索可见性。
最佳实践 检查网页开发中的通用最佳实践。
NextJS 审计 注入一个用于执行 NextJS 审计的提示。
审计模式 按照顺序运行所有审计工具。
调试模式 按照顺序运行所有调试工具。

🛠️ 使用审计工具

开始之前

请确保您已准备好:

  • 浏览器中有一个活动标签页
  • 已启用BrowserTools 扩展程序

▶️ 运行审计

无头浏览器自动化
Puppeteer 自动化一个无头 Chrome 实例来加载页面并收集审计数据,即使对于单页应用或通过 JavaScript 加载的内容,也能确保结果的准确性。

无头浏览器实例在最后一次审计调用后会保持活动状态 60 秒,以便高效处理连续的审计请求。

结构化结果
每次审计都会以结构化的 JSON 格式返回结果,包括总体评分和详细的问題列表。这使得兼容 MCP 的客户端能够轻松解读结果,并呈现可操作的见解。

MCP 服务器提供了在当前页面上运行审计的工具。以下是您可以用来触发这些审计的示例查询:

无障碍审计 (runAccessibilityAudit)

确保页面符合 WCAG 等无障碍标准。

示例查询:

  • “这个页面是否存在无障碍问题?”
  • “运行一次无障碍审计。”
  • “检查这个页面是否符合 WCAG 标准。”

性能审计 (runPerformanceAudit)

识别性能瓶颈和加载问题。

示例查询:

  • “为什么这个页面加载得这么慢?”
  • “检查一下这个页面的性能。”
  • “运行一次性能审计。”

SEO 审计 (runSEOAudit)

评估页面对搜索引擎优化的程度。

示例查询:

  • “我该如何改进这个页面的 SEO?”
  • “运行一次 SEO 审计。”
  • “检查一下这个页面的 SEO。”

最佳实践审计 (runBestPracticesAudit)

检查网页开发中的通用最佳实践。

示例查询:

  • “运行一次最佳实践审计。”
  • “检查一下这个页面的最佳实践。”
  • “这个页面是否存在最佳实践方面的问题?”

审计模式 (runAuditMode)

按特定顺序运行所有审计。如果检测到 Next.js 框架,则会运行 Next.js 审计。

示例查询:

  • “运行审计模式。”
  • “进入审计模式。”

Next.js 审计 (runNextJSAudit)

检查 Next.js 应用程序的最佳实践和 SEO 改进。

示例查询:

  • “运行一次 Next.js 审计。”
  • “运行一次 Next.js 审计,我正在使用 App Router。”
  • “运行一次 Next.js 审计,我正在使用 Page Router。”

调试模式 (runDebuggerMode)

按特定顺序运行所有调试工具。

示例查询:

  • “进入调试模式。”

架构

有三个核心组件用于捕获和分析浏览器数据:

  1. Chrome 扩展程序:一款浏览器扩展程序,用于捕获屏幕截图、控制台日志、网络活动和 DOM 元素。
  2. Node.js 服务器:作为中介服务器,促进 Chrome 扩展程序与任何 MCP 服务器实例之间的通信。
  3. MCP 服务器:一种模型上下文协议服务器,为 AI 客户端提供与浏览器交互的标准工具。
┌─────────────┐     ┌──────────────┐     ┌───────────────┐     ┌─────────────┐
│  MCP 客户端 │ ──► │  MCP 服务器  │ ──► │  Node.js 服务器  │ ──► │   Chrome    │
│  (例如      │ ◄── │  (协议       │ ◄── │ (中间件)      │ ◄── │  扩展程序  │
│   Cursor)   │     │   处理器)   │     │               │     │             │
└─────────────┘     └──────────────┘     └───────────────┘     └─────────────┘

模型上下文协议(MCP)是 Anthropic AI 模型支持的一项功能,允许您为任何兼容的客户端创建自定义工具。像 Claude Desktop、Cursor、Cline 或 Zed 这样的 MCP 客户端可以运行一个 MCP 服务器,该服务器会“教会”这些客户端如何使用新工具。

这些工具可以调用外部 API,但在我们的案例中,所有日志都存储在您的本地机器上,绝不会发送到任何第三方服务或 API。BrowserTools MCP 运行一个本地的 Node.js API 服务器实例,该服务器与 BrowserTools Chrome 扩展程序进行通信。

所有使用 BrowserTools MCP 服务器接口的用户都通过相同的 Node.js API 和 Chrome 扩展程序进行交互。

Chrome 扩展程序

  • 监控 XHR 请求/响应和控制台日志
  • 跟踪选定的 DOM 元素
  • 将所有日志和当前元素发送到 BrowserTools 连接器
  • 连接到 WebSocket 服务器以捕获/发送屏幕截图
  • 允许用户配置令牌/截断限制以及截图保存路径

Node.js 服务器

  • 充当 Chrome 扩展程序与 MCP 服务器之间的中间件
  • 接收来自 Chrome 扩展程序的日志和当前选定的元素
  • 处理来自 MCP 服务器的请求,以捕获日志、屏幕截图或当前元素
  • 向 Chrome 扩展程序发送 WebSocket 命令以捕获屏幕截图
  • 智能地截断字符串和日志中重复对象的数量,以避免超出令牌限制
  • 删除 Cookie 和敏感标头,以防止将其发送到 MCP 客户端中的 LLM

MCP 服务器

  • 实现模型上下文协议
  • 为 AI 客户端提供标准化工具
  • 与各种 MCP 客户端兼容(Cursor、Cline、Zed、Claude Desktop 等)

安装

安装步骤可在我们的文档中找到:

使用

一旦安装并配置完毕,该系统允许任何兼容的 MCP 客户端:

  • 监控浏览器控制台输出
  • 捕获网络流量
  • 截取屏幕截图
  • 分析选定的元素
  • 清除我们 MCP 服务器中存储的日志
  • 运行无障碍、性能、SEO 和最佳实践审计

兼容性

  • 适用于任何兼容 MCP 的客户端
  • 主要设计用于与 Cursor IDE 集成
  • 支持其他 AI 编辑器和 MCP 客户端

版本历史

v1.2.02025/03/10
v1.1.02025/03/02
v1.0.02025/02/14

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架