mcp-server-browserbase

3.3k 349 简单 1 次阅读昨天Apache-2.0开发框架图像插件Agent

AI 解读由 AI 自动生成，仅供参考

mcp-server-browserbase 是一款基于模型上下文协议（MCP）的开源工具，旨在让大语言模型（LLM）直接掌控云端浏览器。它通过集成 Browserbase 和 Stagehand 技术，赋予 AI“眼睛”和“双手”，使其能够自主执行网页导航、元素观察、指令操作及数据提取等复杂任务，将原本静态的对话式 AI 升级为能主动交互的智能代理。

该工具主要解决了大模型无法直接访问实时网络内容或执行网页操作的痛点。以往开发者需要编写大量繁琐的代码来模拟用户行为，而现在只需通过自然语言指令，模型即可在隔离的云端环境中完成自动化流程，极大降低了网页自动化开发的门槛。

它特别适合 AI 应用开发者、研究人员以及希望构建自定义智能工作流的技术人员使用。无论是打造具备联网能力的 AI IDE，还是开发能自动抓取信息的聊天机器人，mcp-server-browserbase 都能提供标准化的连接方案。

其技术亮点在于提供了灵活的部署选项：既支持零配置托管服务以快速上手，也允许开发者通过 Docker 或本地源码完全私有化部署，确保数据安全与定制化需求。此外，它内置了针对网页交互优化的最佳实践模型，显著提升了自动化任务的准确率与稳定性。

使用场景

某电商数据分析师需要每日从多个竞争对手网站抓取实时价格、库存状态及促销活动信息，以生成动态定价报告。

没有 mcp-server-browserbase 时

必须手动编写和维护复杂的 Selenium 或 Puppeteer 脚本，一旦目标网站调整 DOM 结构，脚本立即失效且排查困难。
难以处理现代网页的动态加载内容（如无限滚动、AJAX 请求），经常抓取到空白页面或不完整数据。
每次新增一个监控网站都需要数小时的开发调试时间，无法快速响应临时的竞品调研需求。
缺乏智能交互能力，无法让 AI 理解“点击‘查看更多’按钮”或“提取打折商品列表”这类自然语言指令。
本地运行浏览器消耗大量系统资源，且难以在云端大规模并发执行任务。

使用 mcp-server-browserbase 后

分析师只需通过自然语言指示 LLM，mcp-server-browserbase 即可自动调用 navigate 和 act 工具完成页面跳转与交互，无需编写底层代码。
利用 Stagehand 的智能感知能力，observe 和 extract 工具能精准识别动态渲染的元素，即使网页布局变更也能自适应提取数据。
新增监控源仅需几秒钟配置，LLM 结合 mcp-server-browserbase 可立即理解新网站结构并开始工作，极大缩短响应时间。
支持高阶语义操作，如直接命令“找出所有降价超过 20% 的商品”，工具会自动执行搜索、筛选和数据提取全流程。
基于 Browserbase 的云浏览器环境，任务可在云端稳定运行，轻松实现多站点并发采集而不占用本地资源。

mcp-server-browserbase 将繁琐的网页自动化转化为简单的自然语言交互，让非技术人员也能轻松构建强大的全网数据采集工作流。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具是基于 Node.js 的 MCP 服务器，而非 Python 应用。运行需要安装 Node.js 和 npm。核心功能依赖 Browserbase 云服务和本地 Stagehand 库。必须配置 BROWSERBASE_API_KEY、BROWSERBASE_PROJECT_ID 环境变量；若使用非默认模型（默认为 Google Gemini），还需提供对应模型的 API Key。支持通过 npx 直接运行、源码编译运行或 Docker 容器化部署。

python未说明 (基于 Node.js 环境)

Node.js

npm

Docker (可选)

快速开始

Browserbase MCP 服务器

模型上下文协议 (MCP) 是一种开放协议，能够实现 LLM 应用与外部数据源和工具之间的无缝集成。无论您是在构建一个 AI 驱动的 IDE、增强聊天界面，还是创建自定义的 AI 工作流，MCP 都提供了一种标准化的方式来连接 LLM 和它们所需的上下文。

该服务器使用 Browserbase 和 Stagehand 提供云端浏览器自动化功能。它使 LLM 能够与网页交互、提取信息并执行自动化操作。

这是 Browserbase 托管 MCP 服务器的自托管版本，具备相同的工具和功能。我们建议使用托管版本以获得最简单的部署方式。

工具

该服务器公开了 6 种工具，与 Browserbase 托管 MCP 服务器相匹配：

工具	描述	输入
`start`	创建或重用一个 Browserbase 会话	(无)
`end`	关闭当前的 Browserbase 会话	(无)
`navigate`	导航到一个 URL	`{ url: string }`
`act`	在页面上执行一个操作	`{ action: string }`
`observe`	观察页面上的可操作元素	`{ instruction: string }`
`extract`	从页面中提取数据	`{ instruction?: string }`

如何部署

我们目前支持两种传输方式：STDIO 和 SHTTP。我们建议您使用 SHTTP 搭配我们的托管 MCP 服务器，以便充分利用服务器的所有功能。

SHTTP（托管 MCP）：

请使用 Browserbase 托管的 MCP 服务器 https://mcp.browserbase.com/mcp。这是最简单的入门方式——我们负责托管服务器，并承担 Gemini 模型的费用，Gemini 是 Stagehand 中表现最佳的模型。

有关完整的部署说明，请参阅 Browserbase MCP 文档。

如果您的客户端支持 SHTTP：

{
  "mcpServers": {
    "browserbase": {
      "type": "http",
      "url": "https://mcp.browserbase.com/mcp"
    }
  }
}

如果您的客户端不支持 SHTTP：

{
  "mcpServers": {
    "browserbase": {
      "command": "npx",
      "args": ["mcp-remote", "https://mcp.browserbase.com/mcp"]
    }
  }
}

STDIO（自托管）：

您可以选择使用我们在 NPM 上托管的服务器，也可以通过克隆此仓库完全在本地运行。

注意： 如果您想使用不同的模型，必须在参数中添加 --modelName，并将相应的密钥作为参数传入。更多信息见下文。

通过 NPM 运行（推荐）

进入您的 MCP 配置 JSON 文件，添加 Browserbase 服务器：

{
  "mcpServers": {
    "browserbase": {
      "command": "npx",
      "args": ["@browserbasehq/mcp"],
      "env": {
        "BROWSERBASE_API_KEY": "",
        "BROWSERBASE_PROJECT_ID": "",
        "GEMINI_API_KEY": ""
      }
    }
  }
}

仅此而已！重新加载您的 MCP 客户端，您就可以开始使用了。

完全本地运行：

选项 1：直接安装

git clone https://github.com/browserbase/mcp-server-browserbase.git
cd mcp-server-browserbase
npm install && npm run build

选项 2：Docker

git clone https://github.com/browserbase/mcp-server-browserbase.git
cd mcp-server-browserbase
docker build -t mcp-browserbase .

然后在您的 MCP 配置 JSON 文件中运行服务器：

使用直接安装

{
  "mcpServers": {
    "browserbase": {
      "command": "node",
      "args": ["/path/to/mcp-server-browserbase/cli.js"],
      "env": {
        "BROWSERBASE_API_KEY": "",
        "BROWSERBASE_PROJECT_ID": "",
        "GEMINI_API_KEY": ""
      }
    }
  }
}

使用 Docker

{
  "mcpServers": {
    "browserbase": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "-e",
        "BROWSERBASE_API_KEY",
        "-e",
        "BROWSERBASE_PROJECT_ID",
        "-e",
        "GEMINI_API_KEY",
        "mcp-browserbase"
      ],
      "env": {
        "BROWSERBASE_API_KEY": "",
        "BROWSERBASE_PROJECT_ID": "",
        "GEMINI_API_KEY": ""
      }
    }
  }
}

配置

Browserbase MCP 服务器接受以下命令行参数：

参数	描述
`--proxies`	为会话启用 Browserbase 代理
`--advancedStealth`	启用 Browserbase 高级隐身模式（仅适用于 Scale 计划用户）
`--keepAlive`	启用 Browserbase 保持会话活跃
`--contextId <contextId>`	指定要使用的 Browserbase 上下文 ID
`--persist`	是否持久化 Browserbase 上下文（默认：是）
`--port <port>`	用于 HTTP/SHTTP 传输的监听端口
`--host <host>`	绑定服务器的主机地址（默认：localhost，使用 0.0.0.0 可监听所有接口）
`--browserWidth <width>`	浏览器视口宽度（默认：1024）
`--browserHeight <height>`	浏览器视口高度（默认：768）
`--modelName <model>`	用于 Stagehand 的模型（默认：google/gemini-2.5-flash-lite）
`--modelApiKey <key>`	自定义模型提供商的 API 密钥（使用自定义模型时必填）
`--experimental`	启用实验性功能（默认：否）

这些参数可以直接传递给 CLI，也可以在您的 MCP 配置文件中进行设置。

注意： 这些参数仅适用于自托管服务器（npx @browserbasehq/mcp 或 Docker）。

模型配置

Stagehand 默认使用 Google 的 Gemini 2.5 Flash Lite 模型，但你也可以将其配置为使用其他模型，例如 GPT-4o、Claude 或其他提供商的模型。

重要提示：当使用任何自定义模型（非默认模型）时，必须通过 --modelApiKey 标志提供该模型提供商的 API 密钥。

{
  "mcpServers": {
    "browserbase": {
      "command": "npx",
      "args": [
        "@browserbasehq/mcp",
        "--modelName",
        "anthropic/claude-sonnet-4.5",
        "--modelApiKey",
        "your-anthropic-api-key"
      ],
      "env": {
        "BROWSERBASE_API_KEY": "",
        "BROWSERBASE_PROJECT_ID": ""
      }
    }
  }
}

注意：所选模型必须受 Stagehand 支持。请参阅文档此处。

链接

许可证

根据 Apache 2.0 许可证授权。

mcp-server-browserbase 快速上手指南

mcp-server-browserbase 是一个基于 Model Context Protocol (MCP) 的服务器，它利用 Browserbase 和 Stagehand 为大语言模型（LLM）提供云端浏览器自动化能力。通过该工具，LLM 可以自动浏览网页、提取信息并执行操作。

环境准备

在开始之前，请确保满足以下要求：

操作系统：Linux, macOS 或 Windows (需安装 WSL 或 Git Bash)。
Node.js：版本 18 或更高 (推荐最新 LTS 版本)。
MCP 客户端：已安装支持 MCP 协议的 AI 编辑器或客户端 (如 Cursor, Windsurf, Cline 等)。
API 密钥：
- BROWSERBASE_API_KEY: 来自 Browserbase 的 API Key。
- BROWSERBASE_PROJECT_ID: 你的 Browserbase 项目 ID。
- GEMINI_API_KEY: Google Gemini API Key (默认模型所需，若更换模型需提供对应 Key)。

安装步骤

推荐使用 NPM 方式运行，这是最简便的自托管方案。你也可以选择完全本地源码编译或 Docker 运行。

方案一：通过 NPM 运行（推荐）

无需克隆代码，直接在 MCP 配置中调用。

打开你的 MCP 配置文件 (通常为 config.json 或在客户端设置中)。
添加以下配置项，并填入你的环境变量：

{
  "mcpServers": {
    "browserbase": {
      "command": "npx",
      "args": ["@browserbasehq/mcp"],
      "env": {
        "BROWSERBASE_API_KEY": "你的_BROWSERBASE_API_KEY",
        "BROWSERBASE_PROJECT_ID": "你的_BROWSERBASE_PROJECT_ID",
        "GEMINI_API_KEY": "你的_GEMINI_API_KEY"
      }
    }
  }
}

保存文件并重启 MCP 客户端。

方案二：100% 本地运行 (源码或 Docker)

如果你需要完全控制运行环境：

选项 A：直接安装源码

git clone https://github.com/browserbase/mcp-server-browserbase.git
cd mcp-server-browserbase
npm install && npm run build

配置 MCP (config.json)：

{
  "mcpServers": {
    "browserbase": {
      "command": "node",
      "args": ["/绝对路径/to/mcp-server-browserbase/cli.js"],
      "env": {
        "BROWSERBASE_API_KEY": "你的_BROWSERBASE_API_KEY",
        "BROWSERBASE_PROJECT_ID": "你的_BROWSERBASE_PROJECT_ID",
        "GEMINI_API_KEY": "你的_GEMINI_API_KEY"
      }
    }
  }
}

选项 B：使用 Docker

git clone https://github.com/browserbase/mcp-server-browserbase.git
cd mcp-server-browserbase
docker build -t mcp-browserbase .

配置 MCP (config.json)：

{
  "mcpServers": {
    "browserbase": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "-e",
        "BROWSERBASE_API_KEY",
        "-e",
        "BROWSERBASE_PROJECT_ID",
        "-e",
        "GEMINI_API_KEY",
        "mcp-browserbase"
      ],
      "env": {
        "BROWSERBASE_API_KEY": "你的_BROWSERBASE_API_KEY",
        "BROWSERBASE_PROJECT_ID": "你的_BROWSERBASE_PROJECT_ID",
        "GEMINI_API_KEY": "你的_GEMINI_API_KEY"
      }
    }
  }
}

提示：如果希望使用最简单的设置且无需自托管，可直接使用 Browserbase 提供的托管服务 (https://mcp.browserbase.com/mcp)，配置方式见原文 "SHTTP (Hosted MCP)" 部分。

基本使用

配置完成后，重启你的 AI 助手。该服务器会自动暴露以下 6 个工具供 LLM 调用：

工具名称	功能描述	输入参数示例
`start`	创建或复用浏览器会话	无
`end`	关闭当前浏览器会话	无
`navigate`	跳转到指定 URL	`{ "url": "https://example.com" }`
`act`	在页面上执行操作 (点击、输入等)	`{ "action": "click the login button" }`
`observe`	观察页面上可操作的元素	`{ "instruction": "find the search box" }`
`extract`	从页面提取数据	`{ "instruction": "extract all product prices" }`

使用示例

你可以在对话框中直接使用自然语言指令，例如：

"帮我访问 https://news.ycombinator.com，观察页面上的头条新闻标题，并将它们提取出来列给我。"

LLM 将自动按顺序调用 start -> navigate -> observe -> extract -> end 来完成任务。

自定义模型配置

默认使用 google/gemini-2.5-flash-lite。若需切换模型（如 Claude 3.5 Sonnet），需在 args 中添加 --modelName 和 --modelApiKey：

{
  "mcpServers": {
    "browserbase": {
      "command": "npx",
      "args": [
        "@browserbasehq/mcp",
        "--modelName",
        "anthropic/claude-sonnet-4.5",
        "--modelApiKey",
        "你的_Anthropic_API_Key"
      ],
      "env": {
        "BROWSERBASE_API_KEY": "你的_BROWSERBASE_API_KEY",
        "BROWSERBASE_PROJECT_ID": "你的_BROWSERBASE_PROJECT_ID"
      }
    }
  }
}

注意：自定义模型必须在 Stagehand 支持列表中。

版本历史

v3.0.02026/03/31

常见问题

在本地运行 Stagehand 时遇到 'Cannot create proxy with a non-object' 或 'ENOENT: no such file or directory, mkdir '/downloads'' 错误怎么办？

调用 `browserbase_close_session` 时报错 '429 You've exceeded your max concurrent sessions limit' 是怎么回事？

遇到错误 'Failed to initialize Stagehand: You seem to be calling `page` on a page in an uninitialized `Stagehand` object' 如何解决？

mcp-server-browserbase 支持 Docker 部署吗？

npm audit 报告 `langsmith` 依赖存在 SSRF 漏洞（Server-Side Request Forgery），该如何处理？

在 Node 18 环境下构建成功后，运行生成的 `dist` 文件报错 'SyntaxError: Unexpected token 'with'' 怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像