browser-use-mcp-server

815 112 中等 1 次阅读 3天前MIT插件

AI 解读由 AI 自动生成，仅供参考

browser-use-mcp-server 是一款基于模型上下文协议（MCP）的开源服务器工具，旨在赋予 AI 智能体直接操控网页浏览器的能力。通过集成强大的 browser-use 框架，它让 Cursor、Windsurf 或 Claude Desktop 等主流 AI 编程助手能够像人类一样“看见”并操作网页，执行点击、输入、滚动及数据提取等复杂任务。

这一工具主要解决了当前 AI 助手难以与动态网页内容进行深度交互的痛点。以往，AI 通常只能处理静态文本或代码，面对需要实时登录、验证或抓取动态加载数据的场景往往束手无策。browser-use-mcp-server 打通了 AI 思维与浏览器行动之间的壁垒，使智能体能够自主完成端到端的 Web 自动化流程，极大地扩展了 AI 在实际工作流中的应用边界。

该工具特别适合开发者、AI 研究人员以及希望构建自动化工作流的技术爱好者使用。无论是进行前端测试、竞品数据监控，还是开发复杂的 Agent 应用，它都能提供强有力的支持。普通用户若具备一定的技术配置能力，也能借此实现个性化的网页自动化操作。

在技术亮点方面，browser-use-mcp-server 支持 SSE 和 stdio 两种通信模式，灵活适配不同的部署环境。其独特的 VNC 实时流媒体功能允许用户直观地观看 AI 操作浏览器的全过程，不仅便于调试，也增加了交互的透明度。此外，它还支持异步任务执行，确保在处理耗时网页操作时不会阻塞主进程，提升了整体运行效率与用户体验。

使用场景

一名全栈开发者正在 Cursor 中构建一个电商价格监控应用，需要实时获取竞品在动态加载网页上的最新售价和库存状态，以便调整自家产品的定价策略。

没有 browser-use-mcp-server 时

逆向工程成本高：面对大量使用 JavaScript 动态渲染内容的网站，开发者必须花费数小时分析网络请求、破解加密参数或寻找隐藏 API，维护成本极高。
自动化脚本脆弱：传统的 Selenium 或 Puppeteer 脚本对页面结构变化极其敏感，一旦前端微调 CSS 类名或 DOM 结构，脚本立即报错，需频繁人工修复。
上下文切换打断思路：开发者需离开代码编辑器，手动打开浏览器查找元素选择器、测试登录流程，再返回编写代码，严重割裂开发心流。
处理复杂交互困难：对于涉及多步登录、验证码识别或弹窗处理的场景，硬编码规则往往失效，导致数据采集成功率低且不稳定。

使用 browser-use-mcp-server 后

自然语言驱动采集：直接在 Cursor 中输入“访问某电商商品页，等待加载完成后提取当前价格和库存”，browser-use-mcp-server 自动操控浏览器完成操作，无需关心底层实现。
智能适应页面变化：基于 AI 的视觉理解和 DOM 分析能力，即使页面布局微调，工具也能像人类一样识别目标元素，大幅降低脚本维护频率。
无缝集成开发环境：通过 MCP 协议与 Cursor 深度打通，开发者无需离开编辑器即可实时查看 VNC 流中的浏览器操作过程，调试与编码同步进行。
自主处理复杂流程：遇到登录或弹窗时，AI 代理能自主判断并执行点击、输入等操作，显著提升了从动态网页提取数据的成功率和鲁棒性。

browser-use-mcp-server 将繁琐的浏览器自动化转化为简单的自然语言指令，让开发者专注于业务逻辑而非底层爬虫细节，极大提升了数据获取效率。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes1. 需要安装 uv 作为 Python 包管理工具。2. 必须配置 OPENAI_API_KEY 环境变量。3. 支持 SSE 和 stdio 两种运行模式，stdio 模式需额外安装 mcp-proxy。4. 提供 Docker 部署方案，默认 VNC 密码为 'browser-use'，可通过挂载文件自定义。5. 首次运行需执行 'playwright install' 安装浏览器驱动（如 Chromium）。

python未说明 (需支持 uv 包管理器)

playwright

mcp-proxy

browser-use

快速开始

浏览器使用MCP服务器

一个MCP服务器，使AI智能体能够使用browser-use控制网页浏览器。

🌐 想要体验Vibe浏览网页吗？ 开源的AI驱动网页浏览器 - Vibe Browser。

🔗 管理多个MCP服务器？ 使用agent-browser简化你的开发流程。

前提条件

uv - 快速的Python包管理器
Playwright - 浏览器自动化工具
mcp-proxy - 用于stdio模式的必要工具

# 安装前提条件
curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install mcp-proxy
uv tool update-shell

环境变量

创建一个.env文件：

OPENAI_API_KEY=your-api-key
CHROME_PATH=optional/path/to/chrome
PATIENT=false  # 如果API调用需要等待任务完成，请设置为true

安装

# 安装依赖
uv sync
uv pip install playwright
uv run playwright install --with-deps --no-shell chromium

使用方法

SSE模式

# 直接从源代码运行
uv run server --port 8000

stdio模式

# 1. 构建并全局安装
uv build
uv tool uninstall browser-use-mcp-server 2>/dev/null || true
uv tool install dist/browser_use_mcp_server-*.whl

# 2. 使用stdio传输运行
browser-use-mcp-server run server --port 8000 --stdio --proxy-port 9000

客户端配置

SSE模式客户端配置

{
  "mcpServers": {
    "browser-use-mcp-server": {
      "url": "http://localhost:8000/sse"
    }
  }
}

stdio模式客户端配置

{
  "mcpServers": {
    "browser-server": {
      "command": "browser-use-mcp-server",
      "args": [
        "run",
        "server",
        "--port",
        "8000",
        "--stdio",
        "--proxy-port",
        "9000"
      ],
      "env": {
        "OPENAI_API_KEY": "your-api-key"
      }
    }
  }
}

配置位置

客户端	配置路径
Cursor	`./.cursor/mcp.json`
Windsurf	`~/.codeium/windsurf/mcp_config.json`
Claude (Mac)	`~/Library/Application Support/Claude/claude_desktop_config.json`
Claude (Windows)	`%APPDATA%\Claude\claude_desktop_config.json`

特性

浏览器自动化：通过AI智能体控制浏览器
双传输协议：支持SSE和stdio协议
VNC流媒体：实时观看浏览器自动化过程
异步任务：异步执行浏览器操作

本地开发

要在本地开发和测试该软件包：

构建可分发的wheel文件：
```
# 从项目根目录开始
uv build
```

将其作为全局工具安装：

uv tool uninstall browser-use-mcp-server 2>/dev/null || true
uv tool install dist/browser_use_mcp_server-*.whl

从任何目录运行：

# 为当前会话设置OpenAI API密钥
export OPENAI_API_KEY=your-api-key-here

# 或者在一次性运行时直接提供
OPENAI_API_KEY=your-api-key-here browser-use-mcp-server run server --port 8000 --stdio --proxy-port 9000

修改后重新构建并安装：

uv build
uv tool uninstall browser-use-mcp-server
uv tool install dist/browser_use_mcp_server-*.whl

Docker

使用Docker可以提供一个一致且隔离的环境来运行服务器。

# 构建Docker镜像
docker build -t browser-use-mcp-server .

# 运行容器，默认VNC密码为“browser-use”
# --rm确保容器停止后自动删除
# -p 8000:8000映射服务器端口
# -p 5900:5900映射VNC端口
docker run --rm -p8000:8000 -p5900:5900 browser-use-mcp-server

# 使用自定义VNC密码运行，密码存储在文件中
# 创建一个文件（例如vnc_password.txt），只写入你想要的密码
echo "your-secure-password" > vnc_password.txt
# 将密码文件以秘密形式挂载到容器内
docker run --rm -p8000:8000 -p5900:5900 \
  -v $(pwd)/vnc_password.txt:/run/secrets/vnc_password:ro \
  browser-use-mcp-server

注意：卷挂载中的:ro标志使密码文件在容器内只读，以增强安全性。

VNC查看器

# 基于浏览器的查看器
git clone https://github.com/novnc/noVNC
cd noVNC
./utils/novnc_proxy --vnc localhost:5900

默认密码：browser-use（除非使用自定义密码方法覆盖）

示例

尝试让你的AI执行以下操作：

打开https://news.ycombinator.com，并返回排名最高的文章

支持

如有问题或咨询，请访问：cobrowser.xyz

星标历史

browser-use-mcp-server 快速上手指南

browser-use-mcp-server 是一个基于 MCP（Model Context Protocol）的服务器，允许 AI 智能体通过 browser-use 库控制 Web 浏览器。

环境准备

在开始之前，请确保你的系统已安装以下前置依赖：

uv：快速的 Python 包管理器。
Playwright：用于浏览器自动化。
mcp-proxy：stdio 模式下必需的工具。

执行以下命令安装前置依赖：

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装 mcp-proxy 并更新 shell 配置
uv tool install mcp-proxy
uv tool update-shell

安装步骤

1. 配置环境变量

在项目根目录创建 .env 文件，并填入你的 API Key：

OPENAI_API_KEY=your-api-key
CHROME_PATH=optional/path/to/chrome
PATIENT=false  # 如果希望 API 调用等待任务完成，设置为 true

2. 安装依赖与浏览器

使用 uv 同步依赖并安装 Playwright 及其浏览器驱动：

# 同步项目依赖
uv sync

# 安装 playwright 包
uv pip install playwright

# 安装 Chromium 浏览器及其系统依赖
uv run playwright install --with-deps --no-shell chromium

基本使用

该服务支持 SSE 和 stdio 两种传输模式，请根据你的客户端需求选择一种方式启动。

模式一：SSE 模式（推荐用于远程或独立服务）

直接运行服务器：

uv run server --port 8000

客户端配置示例：

{
  "mcpServers": {
    "browser-use-mcp-server": {
      "url": "http://localhost:8000/sse"
    }
  }
}

模式二：stdio 模式（推荐用于本地集成，如 Cursor/Claude Desktop）

首先构建并全局安装工具：

# 构建 wheel 包
uv build

# 卸载旧版本（如有）并安装新版本
uv tool uninstall browser-use-mcp-server 2>/dev/null || true
uv tool install dist/browser_use_mcp_server-*.whl

然后通过以下命令运行（需配合 proxy）：

browser-use-mcp-server run server --port 8000 --stdio --proxy-port 9000

客户端配置示例：

{
  "mcpServers": {
    "browser-server": {
      "command": "browser-use-mcp-server",
      "args": [
        "run",
        "server",
        "--port",
        "8000",
        "--stdio",
        "--proxy-port",
        "9000"
      ],
      "env": {
        "OPENAI_API_KEY": "your-api-key"
      }
    }
  }
}

提示：常用客户端配置文件路径参考：

Cursor: ./.cursor/mcp.json

Windsurf: ~/.codeium/windsurf/mcp_config.json

Claude (Mac): ~/Library/Application Support/Claude/claude_desktop_config.json

功能验证

启动服务并配置好客户端后，你可以尝试向 AI 发送以下指令进行测试：

open https://news.ycombinator.com and return the top ranked article

如果配置了 VNC（默认密码为 browser-use），你还可以实时观看浏览器的自动化操作过程。

版本历史

v1.0.32025/04/15

v1.0.22025/04/15

v1.0.12025/04/15

v1.0.02025/04/09

常见问题

为什么在 n8n MCP 客户端工具中无法连接，但在 MCP Inspector 中工作正常？

执行浏览器任务时报错 "Failed to complete task in maximum steps" 或连接失败，可能是什么原因？

Cursor 显示已连接但工具无法使用，如何排查？

该项目是否有开源许可证？

PyPi 包发布版本控制有问题怎么办？

如何在 Glama MCP 目录中使用该服务器？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架

gpt4free

gpt4free 是一个由社区驱动的开源项目，旨在聚合多种可访问的大型语言模型（LLM）和媒体生成接口，让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点，通过统一的标准将不同提供商的资源整合在一起。无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员，还是想免费体验最新技术的普通用户，都能从中受益。gpt4free 提供了丰富的使用方式：既包含易于上手的 Python 和 JavaScript 客户端库，也支持部署本地图形界面（GUI），更提供了兼容 OpenAI 标准的 REST API，方便无缝替换现有应用后端。其技术亮点在于强大的多提供商支持架构，能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源，并支持 Docker 一键部署及本地推理。项目秉持社区优先原则，在降低使用门槛的同时，也为贡献者提供了扩展新接口的便利框架，是探索和利用多样化 AI 资源的实用工具。

★ 66k|★★☆☆☆|2天前

插件语言模型Agent

gstack

gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置，旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战，gstack 提供了一套标准化解决方案，帮助开发者实现堪比二十人团队的高效产出。这套配置特别适合希望提升交付效率的创始人、技术负责人，以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具，涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令（如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能），即可自动化处理从需求分析到部署上线的全链路任务。所有操作基于 Markdown 和斜杠命令，无需复杂配置，完全免费且遵循 MIT 协议。gstack 不仅是一套工具集，更是一种现代化的软件工厂实践，让单人开发者也能拥有严谨的工程流程。

★ 64.6k|★★☆☆☆|今天

Agent插件

meilisearch

Meilisearch 是一个开源的极速搜索服务，专为现代应用和网站打造，开箱即用。它能帮助开发者快速集成高质量的搜索功能，无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果，而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性，并支持 AI 驱动的混合搜索（结合关键词与语义理解），显著提升用户查找信息的体验。 Meilisearch 特别适合 Web 开发者、产品团队或初创公司使用，尤其适用于需要快速上线搜索功能的场景，如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK，部署简单，资源占用低，本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下，为用户提供流畅、智能搜索体验的团队来说，Meilisearch 是一个高效且友好的选择。

★ 57k|★★☆☆☆|今天

图像Agent数据工具

awesome-claude-skills

awesome-claude-skills 是一个精心整理的开源资源库，旨在帮助用户挖掘和扩展 Claude AI 的潜力。它不仅仅是一份列表，更提供了实用的“技能（Skills）”模块，让 Claude 从单纯的文本生成助手，进化为能执行复杂工作流的智能代理。许多用户在使用 AI 时，常受限于其无法直接操作外部软件或处理特定格式文件的痛点。awesome-claude-skills 通过预设的工作流解决了这一问题：它不仅能教会 Claude 专业地处理 Word、PDF 等文档，进行代码开发与数据分析，还能借助 Composio 插件连接 Slack、邮箱及数百种常用应用，实现发送邮件、创建任务等自动化操作。这使得重复性任务变得标准化且可复用，极大提升了工作效率。无论是希望优化日常办公流程的普通用户、需要处理复杂文档的研究人员，还是寻求将 AI 深度集成到开发管线中的开发者，都能从中找到适合的解决方案。其独特的技术亮点在于“技能”的可定制性与强大的应用连接能力，让用户无需编写复杂代码，即可通过简单的配置让 Claude 具备跨平台执行真实任务的能力。如果你希望让 Claude

★ 51.3k|★★☆☆☆|今天

Agent插件