midscene

12.7k 946 中等 1 次阅读今天MIT语言模型图像开发框架Agent

AI 解读由 AI 自动生成，仅供参考

Midscene 是一款基于人工智能和视觉驱动的 UI 自动化工具，旨在让跨平台的界面操作变得像自然语言对话一样简单。传统自动化测试往往依赖复杂的元素定位代码，一旦界面微调就容易失效，而 Midscene 通过“看”懂屏幕内容来理解用户意图，直接根据自然语言描述规划并执行操作步骤，从而解决了维护成本高、适配难度大等痛点。

这款工具非常适合开发者、测试工程师以及希望提升工作效率的技术研究人员使用。无论是 Web 网页、Android 手机还是 iOS 设备，甚至自定义接口，Midscene 都能通过 JavaScript SDK 或 YAML 脚本轻松掌控。它支持集成 Puppeteer 和 Playwright 等主流框架，也能通过 Bridge 模式控制桌面浏览器。

其核心技术亮点在于融合了先进的视觉模型（如 UI-TARS），无需预先编写繁琐的选择器，只需告诉它“做什么”，它就能自主完成如填写表单、下单购物或点赞互动等复杂任务。此外，Midscene 还具备数据提取能力，并能与机械臂等硬件结合进行车载测试等前沿探索。如果你正在寻找一种更智能、更灵活的自动化方案，Midscene 值得尝试。

使用场景

某电商测试团队需要在每周版本更新后，快速验证官网、iOS 及 Android 三端的核心购物流程（如搜索、加购、结算）是否正常。

没有 midscene 时

脚本维护成本极高：传统自动化依赖固定的 CSS 选择器或 XPath，一旦前端重构或按钮 ID 变更，所有脚本立即报错，需人工逐行修复。
多端适配困难：Web、iOS 和 Android 需要分别编写和维护三套完全不同的测试代码栈，人力投入重复且分散。
非标准元素识别弱：面对动态加载的弹窗、Canvas 绘图或复杂的自定义组件，传统工具往往无法定位，只能被迫插入大量强制等待或跳过测试。
需求响应滞后：产品经理临时调整交互逻辑后，测试脚本的修改周期长达数天，严重拖慢发布节奏。

使用 midscene 后

自然语言驱动执行：测试人员只需用中文描述“点击加入购物车按钮”或“验证订单总价”，midscene 基于视觉理解自动规划操作，不再依赖易变的代码特征。
一套逻辑通吃多端：相同的自然语言指令可直接复用于 Web、iOS 和 Android 环境，midscene 自动适配不同平台的底层驱动，大幅减少重复工作。
视觉感知精准操作：凭借 AI 视觉能力，midscene 能像人眼一样识别屏幕上的任意元素（包括动态弹窗和非标准控件），显著降低误报率。
敏捷应对变更：当界面布局调整时，只需微调自然语言描述甚至无需修改，midscene 能自适应新界面，将脚本维护时间从几天缩短至几分钟。

midscene 通过“所见即所得”的 AI 视觉自动化，将跨端 UI 测试从繁琐的代码维护中解放出来，实现了真正的敏捷质量保障。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

未说明（支持本地部署开源视觉模型如 UI-TARS、Qwen-VL，具体显存需求取决于所选模型
也可调用云端 API 如 Gemini、Doubao）

内存

未说明

依赖

notes该工具核心为 JavaScript/Node.js 环境。Web 端需安装 Puppeteer 或 Playwright；Android 自动化需配置 ADB 环境；iOS 自动化需配置 WebDriverAgent。若选择本地运行视觉大模型（如 UI-TARS），需自行搭建对应的 AI 推理环境（通常涉及 Python、PyTorch 及 GPU 支持）。

python未说明（主要提供 JavaScript/TypeScript SDK，社区有非官方 Python SDK）

@midscene/web

Puppeteer (可选)

Playwright (可选)

adb (Android 自动化必需)

WebDriverAgent (iOS 自动化必需)

scrcpy (可选，用于 Android 控制)

libnut-core (跨平台键鼠控制)

快速开始

Midscene.js

英语 | 简体中文

官方网站: https://midscenejs.com/

基于人工智能与视觉驱动的跨平台UI自动化工具。

📣 Midscene Skills来了！

使用Midscene Skills，结合OpenClaw即可控制任意平台。

展示案例

💡 核心功能

使用自然语言编写自动化脚本

描述你的目标和步骤，Midscene将为你规划并操作用户界面。
支持通过JavaScript SDK或YAML编写自动化脚本。

适用于Web、移动端及任何界面

Web自动化：可与Puppeteer、Playwright集成，或使用桥接模式控制桌面浏览器。
Android自动化：通过JavaScript SDK配合adb控制本地Android设备。
iOS自动化：通过JavaScript SDK配合WebDriverAgent控制本地iOS设备及模拟器。
任意界面自动化：使用JavaScript SDK控制自定义界面。

面向开发者

三种API：
- 交互API：用于与用户界面交互。
- 数据提取API：从用户界面和DOM中提取数据。
- 工具API：提供aiAssert()、aiLocate()、aiWaitFor()等实用函数。
MCP：Midscene提供MCP服务，将原子级的Midscene Agent动作封装为MCP工具，使上层智能体能够以自然语言检查和操作UI。文档
高效缓存机制：利用缓存重放脚本，大幅提升执行速度。
调试体验：Midscene.js提供可视化回放报告文件、内置游乐场以及Chrome扩展程序，简化调试流程。这些都是开发者真正需要的工具。

👉 无需代码的快速体验

Chrome扩展：无需编写任何代码，直接通过Chrome扩展开始浏览器内的体验。
Android游乐场：内置Android游乐场，可直接控制本地Android设备。
iOS游乐场：内置iOS游乐场，可直接控制本地iOS设备。

✨ 由视觉语言模型驱动

Midscene.js完全采用纯视觉路线进行UI操作：元素定位和交互仅基于截图。它支持诸如Qwen3-VL、Doubao-1.6-vision、gemini-3-pro和UI-TARS等视觉语言模型。在数据提取和页面理解方面，您仍可根据需要选择是否包含DOM。

UI操作完全基于纯视觉定位；已移除DOM提取模式。
可跨Web、移动、桌面甚至<canvas>表面运行。
由于操作时不再使用DOM，大幅减少Token消耗，从而降低成本并加快运行速度。
在需要进行数据提取和页面理解时，仍可选择包含DOM。
提供强大的开源选项，方便自行部署。

更多关于模型策略的信息请参阅。

📄 资源

官方网站：https://midscenejs.com
文档：https://midscenejs.com
示例项目：https://github.com/web-infra-dev/midscene-example
API参考：https://midscenejs.com/api
GitHub：https://github.com/web-infra-dev/midscene

🤝 社区

🌟 令人惊叹的 Midscene

扩展 Midscene.js 功能的社区项目：

midscene-ios - 为 Midscene 提供 iOS 镜像自动化支持
midscene-pc - 适用于 Windows、macOS 和 Linux 的 PC 操作设备
midscene-pc-docker - 预装 Midscene-PC 服务器的 Docker 镜像
Midscene-Python - 用于 Midscene 自动化的 Python SDK
midscene-java 由 @Master-Frank 开发 - 用于 Midscene 自动化的 Java SDK
midscene-java 由 @alstafeev 开发 - 用于 Midscene 自动化的 Java SDK

📝 致谢

我们衷心感谢以下项目：

Rsbuild 和 Rslib，为我们提供了构建工具。
UI-TARS，开源代理模型 UI-TARS。
Qwen-VL，开源 VL 模型 Qwen-VL。
scrcpy 和 yume-chan，使我们能够通过浏览器控制 Android 设备。
appium-adb，提供 adb 的 JavaScript 桥接。
appium-webdriveragent，用于通过 JavaScript 操作 XCTest。
YADB，一款提升文本输入性能的 yadb 工具。
libnut-core，提供跨平台的原生键盘和鼠标控制。
Puppeteer，用于浏览器自动化与控制。
Playwright，用于浏览器自动化、控制及测试。

📖 引用

如果您在研究或项目中使用了 Midscene.js，请引用如下：

@software{Midscene.js,
  author = {Xiao Zhou, Tao Yu, YiBing Lin},
  title = {Midscene.js：您的 Web、Android、iOS 自动化与测试 AI 操作员。},
  year = {2025},
  publisher = {GitHub},
  url = {https://github.com/web-infra-dev/midscene}
}

✨ 星标历史

📝 许可证

Midscene.js 采用 MIT 许可证。

如果本项目对您有所帮助或启发，请为我们点亮一颗星吧！

Midscene.js 快速上手指南

Midscene.js 是一个由视觉语言模型（VLM）驱动的 UI 自动化工具。它支持通过自然语言描述来控制 Web、Android、iOS 及任意界面，无需依赖传统的 DOM 定位，仅凭截图即可实现元素识别与交互。

环境准备

系统要求

操作系统: Windows, macOS, 或 Linux
Node.js: 版本 >= 18.0.0
包管理器: npm, yarn, 或 pnpm

前置依赖

根据你要自动化的平台，需准备以下环境：

Web 自动化: 安装 Chrome 浏览器。
Android 自动化:
- 安装 Android SDK (包含 adb 工具)。
- 开启手机的“开发者选项”和"USB 调试”。
- (可选) 安装 scrcpy 以获得更好的屏幕投射体验。
iOS 自动化:
- 安装 Xcode (macOS only)。
- 配置 WebDriverAgent (WDA)。

模型配置

Midscene 需要调用大模型服务。你可以选择：

云端服务: 配置 OpenAI, Azure, 或国内的大模型服务商（如阿里云百炼、火山引擎等）的 API Key。
本地部署: 自行部署开源模型（如 Qwen-VL, UI-TARS）。

提示：国内开发者建议在环境变量中配置国内大模型接口以降低延迟。

安装步骤

1. 初始化项目

在终端中创建新项目并安装核心依赖：

mkdir midscene-demo && cd midscene-demo
npm init -y
npm install @midscene/web

2. 配置环境变量

在项目根目录创建 .env 文件，配置你的模型服务凭证。以下以兼容 OpenAI 格式的接口为例（国内用户可替换为相应国内服务商地址）：

# .env
MIDSCENE_MODEL_NAME=Qwen3-VL-Max
OPENAI_API_KEY=your_api_key_here
OPENAI_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1

基本使用

方式一：零代码体验 (Chrome 插件)

如果你只想快速体验而不写代码，推荐直接使用官方 Chrome 扩展程序：

访问 Midscene Chrome Extension 安装插件。
在浏览器中打开任意网页，点击插件图标。
在输入框中输入自然语言指令（例如：“点击登录按钮”或“提取所有商品的价格”），插件将自动执行。

方式二：编写自动化脚本 (JavaScript/TypeScript)

以下是一个控制浏览器自动操作的简单示例。该脚本将打开一个网页，并使用自然语言指令进行搜索。

创建一个 demo.js 文件：

const { launchBrowser, ai, aiQuery } = require('@midscene/web');

(async () => {
  // 1. 启动浏览器
  const browser = await launchBrowser({
    headless: false, // 设置为 true 可在后台运行
  });
  
  // 2. 打开目标页面
  const page = await browser.newPage();
  await page.goto('https://www.bing.com');

  // 3. 使用自然语言进行交互
  // 指令：在搜索框输入 "Midscene JS" 并回车
  await ai(page).action('type "Midscene JS" in the search box and press Enter');

  // 等待结果加载
  await page.waitForTimeout(3000);

  // 4. 提取数据
  // 指令：提取搜索结果中标题和链接
  const data = await aiQuery(page, 'extract the title and link of each search result');
  
  console.log('提取到的数据:', data);

  // 5. 关闭浏览器
  await browser.close();
})();

运行脚本：

node demo.js

关键 API 说明

ai(page).action(instruction): 执行操作。传入自然语言描述，如 "点击提交按钮"、"滚动到页面底部"。
aiQuery(page, instruction): 数据提取。传入描述，如 "获取当前页面的所有用户名"，返回结构化 JSON 数据。
aiAssert(page, instruction): 断言检查。用于测试验证，如 "确认页面上存在欢迎文字"。

进阶：移动端自动化

对于 Android 设备，确保 adb 已连接设备，然后使用类似的 API：

const { connectToDevice, ai } = require('@midscene/web/android');

(async () => {
  const device = await connectToDevice();
  // 对手机屏幕执行操作
  await ai(device).action('Open the settings app');
})();

现在你已经掌握了 Midscene.js 的基础用法，可以开始尝试用自然语言构建复杂的跨平台自动化流程了。

版本历史

v1.7.5-beta-20260420075536.02026/04/20

v1.7.5-beta-20260420061332.02026/04/20

v1.7.5-beta-20260420032657.02026/04/20

v1.7.5-beta-20260420031652.02026/04/20

v1.5.62026/03/17

v1.7.42026/04/16

v1.7.32026/04/09

v1.7.22026/04/09

v1.7.12026/04/08

v1.7.02026/04/08

v1.6.42026/04/07

v1.6.32026/04/07

v1.6.22026/04/02

v1.6.12026/04/01

v1.6.02026/03/26

v1.5.82026/03/25

v1.5.72026/03/23

v1.5.52026/03/16

v1.5.42026/03/11

v1.5.32026/03/09

常见问题

如何配置 Azure OpenAI 服务以解决 401 认证错误？

部署 Ollama + UI-TARS 模型时遇到 403 错误如何解决？

Chrome 插件报错 'Cannot access a chrome-extension:// URL of different extension' 是什么原因？

如何在 Windows 上运行 midscene CLI 避免路径错误？

如何实现 Chrome 插件桥接模式的自动连接，无需每次手动确认？

如何在 Android 设备上使用 Midscene 进行自动化测试？

使用豆包（Doubao）等第三方模型时报 401 错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|4天前

Agent插件