browserwing

1.2k 106 简单 1 次阅读今天MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

BrowserWing 是一款将浏览器操作转化为 AI 可直接调用指令的自动化工具。它通过支持 MCP（模型上下文协议）和 Claude Skills 标准，让 AI 智能体能够高效、稳定地控制浏览器，无需再依赖缓慢且消耗大量 Token 的大语言模型交互方式。

过去，让 AI 操作浏览器往往响应迟缓且成本高昂。BrowserWing 解决了这一痛点，它提供了一套包含 26+ 接口的原生自动化平台，支持可视化录制脚本、智能数据提取以及稳定的会话管理（如 Cookie 处理）。用户可以将录制的操作流程直接导出为 AI 可识别的命令或技能文件，实现“一次录制，AI 随时调用”。

这款工具特别适合开发者、AI 工程师以及希望提升工作效率的技术型用户。无论是构建复杂的 AI 驱动任务流，还是进行大规模网页数据采集，BrowserWing 都能提供精准的控制能力。其独特的技术亮点在于“可视化脚本录制”与"LLM 语义提取”的结合，既降低了编写自动化脚本的门槛，又利用大模型增强了数据处理的灵活性。只需简单安装并启动服务，你的 AI 助手便能立刻获得操控浏览器的强大能力，让自动化任务变得更快、更可靠。

使用场景

某电商数据分析师需要每日从多个竞品网站抓取实时价格、库存状态及促销信息，并整理成结构化报表供团队决策。

没有 browserwing 时

交互效率低下：依赖大语言模型（LLM）逐步推理浏览器操作步骤，生成大量 Token，导致每次抓取任务耗时极长且响应缓慢。
执行稳定性差：基于自然语言指令的自动化容易因网页微小变动或模型幻觉而中断，难以维持稳定的登录会话和 Cookie 状态。
数据提取困难：非结构化的网页内容需要编写复杂的正则或 XPath，且每次网站改版都需人工重新调整脚本，维护成本高昂。
技能复用性低：针对不同网站的抓取逻辑散落在各种提示词中，无法沉淀为可重复调用的标准化工具或技能文件。

使用 browserwing 后

指令直连加速：browserwing 将浏览器操作转化为直接的 MCP 命令或 Claude Skill，AI 代理直接调用接口而非通过文本推理，任务执行速度提升数倍。
会话稳定可靠：内置的会话管理机制自动处理 Cookie 和存储，确保在需要登录的竞品网站上也能长时间稳定运行，不再频繁掉线。
智能语义提取：利用 browserwing 集成的 LLM 语义提取能力，直接指定“获取价格和库存”即可输出结构化 JSON，无需手动编写解析规则。
可视化脚本复用：通过录制一次人工操作流程，即可在 browserwing 中可视化为脚本并导出为 Skill 文件，让 AI 在未来无限次精准复现该抓取任务。

browserwing 通过将浏览器控制标准化为底层命令，彻底消除了 AI 代理操作浏览器的延迟与不确定性，让复杂的数据采集任务变得像调用本地函数一样高效可靠。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具基于 Go 和 React 开发，不依赖 Python 环境。必须安装 Google Chrome 或 Chromium 浏览器。macOS 用户若遇到 'killed' 错误，需执行命令移除隔离属性（xattr -d com.apple.quarantine）。支持通过 MCP 协议或 Skills 文件与各类 AI 工具集成。

python不需要

Go 1.21+

Google Chrome 或 Chromium

Node.js (隐含，用于 React/Vite/pnpm)

pnpm 9+

快速开始

英文 · 简体中文 · 日本語 · Español · Português

browserwing.com

https://github.com/user-attachments/assets/e5377892-4b88-433a-8620-43b38a2fb28f

亮点

集成AI的原生浏览器自动化平台

全面的浏览器控制：26+个HTTP API端点，提供功能齐全的浏览器自动化能力
内置AI助手：直接通过对话式界面执行浏览器自动化任务
通用AI工具集成：原生支持MCP和Skills协议——兼容任何支持这些标准的AI工具
可视化脚本录制：录制浏览器操作、可视化编辑，并精确回放
灵活的导出选项：将录制的脚本转换为MCP命令或Skills文件，便于与AI工具集成
智能数据提取：基于LLM的语义提取功能，支持OpenAI、Claude、DeepSeek等模型
会话管理：强大的Cookie和存储管理，确保稳定且已认证的浏览会话

系统要求

您的环境中需安装并可访问Google Chrome或Chromium。

截图

将脚本转化为Claude技能

现在您可以将任意脚本整合为SKILL.md文件。

快速入门

让您的AI助手为您安装

只需向您的AI助手（OpenClaw、Cursor、Claude Code等）发送以下消息：

“请按照https://raw.githubusercontent.com/browserwing/browserwing/main/INSTALL.md帮我安装BrowserWing。”

助手将自动阅读指南并完成安装、配置、Chrome设置以及技能集成。

选项A — 通过包管理器安装（推荐）

使用npm：

npm install -g browserwing
browserwing --port 8080

使用pnpm：

pnpm add -g browserwing
browserwing --port 8080

npm包在安装过程中会自动测试GitHub和Gitee镜像源，并选择速度最快的镜像。

⚠️ macOS用户：
如果运行时出现“killed”错误，请使用以下命令修复：

xattr -d com.apple.quarantine $(which browserwing)

详情请参阅macOS安装修复指南。

使用Homebrew（macOS/Linux）：

# 即将推出
brew install browserwing

选项B — 一行安装脚本

Linux / macOS：

curl -fsSL https://raw.githubusercontent.com/browserwing/browserwing/main/install.sh | bash

Windows（PowerShell）：

iwr -useb https://raw.githubusercontent.com/browserwing/browserwing/main/install.ps1 | iex

该脚本会自动：

检测您的操作系统和架构
测试GitHub和Gitee镜像源，选择最快的一个
下载并解压二进制文件
将其添加到PATH中

然后启动BrowserWing：

browserwing --port 8080
# 在浏览器中打开 http://localhost:8080

中国用户请注意： 如果GitHub访问较慢，安装脚本会自动切换至Gitee镜像源。

选项C — 手动下载

从Releases页面下载适用于您操作系统的预编译二进制文件：

# Linux/macOS
chmod +x ./browserwing
./browserwing --port 8080

# Windows（PowerShell）
./browserwing.exe --port 8080

选项D — 从源码构建

# 安装依赖（需要Go和pnpm）
make install

# 构建集成前端的二进制文件
make build-embedded
./build/browserwing --port 8080

# 或者构建所有目标和软件包
make build-all
make package

与AI工具的快速集成

使用BrowserWing的三种方式：

1. MCP服务器集成

在任何兼容MCP的AI工具中将BrowserWing配置为MCP服务器：

{
  "mcpServers": {
    "browserwing": {
      "type": "http",
      "url": "http://localhost:8080/api/v1/mcp/message"
    }
  }
}

将此配置粘贴到您的AI工具的MCP设置中，即可启用浏览器自动化功能。

2. Skills文件集成

下载并导入Skills文件到任何支持Skills协议的AI工具中：

启动BrowserWing
从仓库下载SKILL.md
导入到您的AI工具的Skills设置中
开始使用自然语言命令进行自动化操作

示例：

“导航到example.com，搜索‘AI工具’，提取前5条结果”

3. 直接使用AI助手界面

利用BrowserWing内置的AI助手实现即时浏览器自动化：

打开BrowserWing的Web界面，地址为http://localhost:8080
进入“AI助手”部分
配置您的LLM（OpenAI、Claude、DeepSeek等）
开始通过对话方式进行浏览器自动化操作

导出自定义脚本：

# 将您录制的脚本导出为Skills或MCP命令
curl -X POST 'http://localhost:8080/api/v1/scripts/export/skill' \
  -H 'Content-Type: application/json' \
  -d '{"script_ids": []}' \
  -o MY_CUSTOM_SCRIPTS.md

为什么选择 BrowserWing

融合 AI 的专业浏览器自动化

通用协议支持：原生 MCP 和 Skills 实现可与任何兼容的 AI 工具无缝对接
完整的自动化 API：提供 26+ 个 HTTP 端点，覆盖全面的浏览器控制功能
灵活的集成方式：可作为 MCP 服务器、Skills 文件或独立的 AI 代理使用
可视化工作流构建器：无需编写代码即可录制、编辑和回放浏览器操作
高效令牌设计：针对大模型使用进行优化，性能快速且令牌消耗极低
生产就绪：稳定的会话管理、Cookie 处理和错误恢复机制
可扩展架构：将录制的脚本转换为可重用的 MCP 命令或 Skills 文件
多大模型支持：兼容 OpenAI、Anthropic、DeepSeek 等多家提供商
企业级应用场景：数据提取、RPA、测试、监控以及基于代理的自动化

使用指南

三步快速入门

选择集成方式
- 复制 MCP 服务器配置以集成到 AI 工具中
- 下载 Skills 文件用于支持 Skills 的 AI 工具
- 或直接使用内置的 AI 代理，即刻开始使用
配置您的 AI 工具
- 将 MCP 配置或 Skills 文件导入您偏好的 AI 工具
- 设置大模型相关参数（API 密钥、模型选择等）
- 验证与 BrowserWing 的连接状态
开始自动化
- 通过自然语言指令控制浏览器
- 录制自定义脚本以执行重复性任务
- 将脚本导出为 MCP 命令或 Skills，便于复用

高级工作流

用于浏览器自动化：

启动并管理多个浏览器实例
配置用户配置文件、代理及浏览器设置
处理 Cookie 和认证会话
执行复杂的交互序列

用于脚本录制：

捕捉点击、输入、导航和等待操作
在脚本编辑器中直观地编辑操作步骤
通过逐步回放进行测试和调试
添加变量和条件逻辑

用于 AI 集成：

将脚本转换为 MCP 命令或 Skills 文件
与多家大模型提供商集成
利用语义提取技术解析数据
构建基于代理的自动化工作流

HTTP API 参考

BrowserWing 提供 26+ 个 RESTful 端点，用于程序化控制浏览器：

导航与控制

跳转至指定 URL、后退/前进、刷新页面
管理浏览器窗口和标签页
处理页面加载和超时问题

元素交互

点击、输入、选择和悬停操作
文件上传和表单提交
快捷键和按键操作

数据提取

提取文本、HTML 和属性信息
结合大模型进行语义内容分析
截图功能（全页或特定元素）

高级操作

执行自定义 JavaScript
管理 Cookie 和本地存储
批量操作提升效率
等待条件与元素可见性检查

完整文档：请参阅 docs/EXECUTOR_HTTP_API.md 获取详细的端点说明。

贡献

欢迎提交问题和 Pull Request。请附上清晰的复现步骤或简明的理由。
如有功能建议，请发起讨论，并说明使用场景和预期效果。

社区

Discord：https://discord.gg/BkqcApRj
Twitter：https://x.com/chg80333

致谢

灵感来源于现代浏览器自动化、代理式工作流以及 MCP 技术。

许可证

MIT 许可证。详情请参阅 LICENSE 文件。

免责声明

请勿用于非法目的或违反网站条款的行为。
本工具仅适用于个人学习和合法的自动化用途。

BrowserWing 快速上手指南

BrowserWing 是一个原生浏览器自动化平台，集成了 AI 代理功能。它支持通过自然语言控制浏览器、录制可视化脚本，并兼容 MCP (Model Context Protocol) 和 Skills 协议，可无缝对接各类 AI 工具。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS, 或 Windows
浏览器内核：必须安装 Google Chrome 或 Chromium，并确保其可在系统环境中被访问到。
网络环境：安装脚本会自动检测网络速度，优先使用 Gitee 镜像（针对中国大陆用户优化）。

安装步骤

您可以选择以下任意一种方式进行安装。推荐中国开发者使用“一键安装脚本”，它会自动选择最快的下载源。

方式一：一键安装脚本（推荐）

该脚本会自动检测操作系统架构，测试 GitHub 和 Gitee 镜像速度，并自动配置环境变量。

Linux / macOS:

curl -fsSL https://raw.githubusercontent.com/browserwing/browserwing/main/install.sh | bash

Windows (PowerShell):

iwr -useb https://raw.githubusercontent.com/browserwing/browserwing/main/install.ps1 | iex

方式二：包管理器安装

使用 npm:

npm install -g browserwing

使用 pnpm:

pnpm add -g browserwing

注意：npm/pnpm 包在安装时也会自动测试并选择最快的镜像源。

⚠️ macOS 用户特别提示： 如果在运行时报错 killed，请执行以下命令移除隔离属性：

xattr -d com.apple.quarantine $(which browserwing)

方式三：手动下载

前往 Releases 页面下载对应系统的二进制文件，解压后赋予执行权限即可。

基本使用

安装完成后，只需一条命令即可启动服务。

1. 启动服务

在终端运行以下命令（默认端口为 8080）：

browserwing --port 8080

启动成功后，在浏览器中访问： http://localhost:8080

2. 快速体验自动化

您有三种方式立即开始使用 BrowserWing：

方案 A：使用内置 AI 代理（最简单）

打开 Web 界面 http://localhost:8080。
进入 "AI Agent" 板块。
配置您的 LLM API Key（支持 OpenAI, Claude, DeepSeek 等）。
直接在对话框输入自然语言指令，例如：

"Navigate to example.com, search for 'AI tools', and extract the top 5 results"

方案 B：集成到现有 AI 工具 (MCP 协议)

如果您使用 Cursor、Claude Code 或其他支持 MCP 的工具，请在配置文件中添加：

{
  "mcpServers": {
    "browserwing": {
      "type": "http",
      "url": "http://localhost:8080/api/v1/mcp/message"
    }
  }
}

配置完成后，即可在 AI 编辑器中直接调用浏览器自动化能力。

方案 C：导入 Skills 文件

下载 SKILL.md 文件。
将其导入到支持 Skills 协议的 AI 工具设置中。
通过自然语言对话控制浏览器。

3. 录制与回放

在 Web 界面中，您可以点击"Record"按钮录制浏览器操作，编辑后可直接回放，或导出为 MCP 命令/Skills 文件供 AI 重复使用。

版本历史

v1.0.1-beta.22026/03/06

v1.0.1-beta.12026/03/03

v1.0.02026/01/25

v0.0.12025/12/16

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架