mobile-use

2.5k 206 中等 1 次阅读今天Apache-2.0Agent开发框架图像

AI 解读由 AI 自动生成，仅供参考

mobile-use 是一款强大的开源 AI 智能体，能够像人类一样直接操作真实的 Android 和 iOS 设备。它通过自然语言理解用户指令，自动在应用界面中进行点击、滑动、输入等交互，从而完成发送消息、浏览复杂应用甚至提取数据并结构化输出（如 JSON）等任务。

长期以来，移动端自动化往往依赖复杂的脚本编写或固定的规则，难以应对千变万化的应用界面。mobile-use 解决了这一痛点，让用户只需用日常语言描述需求，即可驱动手机完成操作，极大地降低了自动化门槛。同时，它在权威的 AndroidWorld 基准测试中取得了满分成绩，证明了其卓越的可靠性。

这款工具非常适合开发者用于构建自动化工作流，研究人员探索多模态交互，以及希望提升效率的普通用户。其独特亮点在于具备“界面感知”能力，能智能解析应用的无障碍树数据进行导航；同时支持高度自定义，用户可灵活配置不同的本地或云端大语言模型（LLM）来驱动智能体。无论是想解放双手的极客，还是需要批量处理移动任务的团队，mobile-use 都能提供高效、直观的解决方案。

使用场景

一位电商运营人员需要每天从多个竞品 APP 中手动收集商品价格、促销活动和用户评价，并整理成结构化报表供团队分析。

没有 mobile-use 时

必须人工逐一点开淘宝、京东、拼多多等 APP，肉眼查找目标商品并记录数据，耗时且容易出错。
不同 APP 界面布局差异大，无法编写统一的脚本进行自动化抓取，维护成本极高。
遇到弹窗广告或动态加载内容时，传统自动化工具往往失效，需要人工介入处理中断流程。
数据提取后需手动复制粘贴到 Excel 或 JSON 文件中，格式转换繁琐，难以直接用于后续数据分析。
无法实时响应突发需求（如“立刻监控某品牌最新降价”），只能等待固定时间的批量任务执行。

使用 mobile-use 后

只需输入自然语言指令（如“获取淘宝上 iPhone 15 的价格和好评率”），mobile-use 即可自动操作手机完成全流程。
mobile-use 能智能识别不同 APP 的 UI 结构，自适应导航至目标页面，无需为每个应用单独编写代码。
面对弹窗或动态内容，mobile-use 像真人一样判断并点击关闭按钮或等待加载，确保任务连续执行不中断。
可直接要求 mobile-use 将抓取结果按指定格式（如 JSON）输出，无缝对接内部数据系统，省去人工整理环节。
随时通过语音或文字下达新指令，mobile-use 立即在真机上执行，实现分钟级的市场情报响应速度。

mobile-use 将原本需要数小时的人工重复劳动转化为秒级的自然语言交互，让移动端数据采集真正实现了智能化与实时化。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes1. 物理 iOS 设备暂不支持，仅支持 iOS 模拟器（需 macOS）。2. 若使用 Docker 快速启动，目前仅支持 Android 设备或模拟器，且设备需与电脑在同一 Wi-Fi 网络。3. 支持通过配置环境变量使用本地 LLM 或兼容 OpenAI API 的服务商。4. 若使用 Google Vertex AI，需配置相应的凭证或服务账号 JSON 文件路径。5. 游戏类应用因缺乏无障碍树数据，自动化效果有限。

python3.12+

ADB (Android Debug Bridge)

Xcode (仅限 macOS iOS 模拟)

fb-idb (仅限 macOS iOS 模拟)

Docker (可选，用于快速启动)

快速开始

mobile-use：用自然语言自动化你的手机

mobile-use 运行示例

☁️ 云端 • 📚 文档 • 📃 论文

Discord • Twitter / X

Mobile-use 是一款功能强大的开源 AI 助手，能够通过自然语言控制你的 Android 或 iOS 设备。它能理解你的指令，并与用户界面交互来完成各种任务，从发送消息到导航复杂的应用程序。

Mobile-use 正在快速发展中。你的建议、想法和报告的 bug 都将影响这个项目的方向。请随时加入 Discord 的讨论或直接贡献代码，我们一定会回复每一位参与者！❤️

✨ 特性

🗣️ 自然语言控制：使用你的母语与手机互动。
📱 UI 感知自动化：智能地在应用界面中导航（注意：目前对游戏的支持有限，因为游戏通常不提供无障碍树数据）。
📊 数据抓取：通过自然语言描述，从任何应用中提取信息并将其结构化为你所需的格式（例如 JSON）。
🔧 可扩展与可定制：轻松配置不同的大模型来驱动 Mobile-use 的核心代理。

基准测试

我们在 AndroidWorld 基准测试中表现最佳，并且是首个完成 100% 测试项的团队。

更多关于我们如何达成这一里程碑的信息，请参阅：Minitap 基准测试。

官方排行榜在此：Google 表格。

我们的研究论文请见：arXiv。

🚀 快速开始

准备好自动化你的移动体验了吗？按照以下步骤即可快速上手 Mobile-use。

🌐 通过我们的平台

最简单的方式是使用我们的平台。请参考我们的平台快速入门指南开始使用。

🛠️ 从源码安装

设置环境变量： 将 .env.example 文件复制为 .env，并添加你的 API 密钥。
```
cp .env.example .env
```
（可选）自定义 LLM 配置： 如果你想使用不同的模型或服务提供商，可以创建自己的 LLM 配置文件。
```
cp llm-config.override.template.jsonc llm-config.override.jsonc
```
然后编辑 llm-config.override.jsonc 以满足你的需求。

你也可以使用本地 LLM 或其他兼容 OpenAI API 的服务提供商：
1. 在 .env 中设置 OPENAI_BASE_URL 和 OPENAI_API_KEY。
2. 在 llm-config.override.jsonc 中，将你希望使用的代理节点的提供商设置为 openai，并选择你的服务提供商支持的模型。
[!注意] 如果你想使用 Google Vertex AI，你必须：
- 为你的环境配置好凭据（gcloud、工作负载身份等）
- 将服务账户 JSON 文件的路径存储为 GOOGLE_APPLICATION_CREDENTIALS 环境变量
更多信息：- 凭据类型 - google.auth API 参考

快速启动（Docker）

[!注意] 目前此快速入门仅适用于 Android 设备或模拟器，并且你需要已安装 Docker。

首先：

将你的 Android 设备连接并启用开发者选项中的 USB 调试模式。
或者启动一个 Android 模拟器。

然后在终端中运行：

对于 Linux/macOS：

chmod +x mobile-use.sh
bash ./mobile-use.sh \
  "打开 Gmail，找到前三封未读邮件，并列出发件人和主题" \
  --output-description "一个包含 'sender' 和 'subject' 键的对象列表"

对于 Windows（在 PowerShell 终端中）：

powershell.exe -ExecutionPolicy Bypass -File mobile-use.ps1 `
  "打开 Gmail，找到前三封未读邮件，并列出发件人和主题" `
  --output-description "一个包含 'sender' 和 'subject' 键的对象列表"

[!注意] 如果使用你自己的设备，请确保接受设备上弹出的 ADB 连接请求。

🧰 故障排除

脚本会尝试通过 IP 地址连接到你的设备。因此，你的设备 必须与电脑连接在同一 Wi‑Fi 网络下。

1. 未找到设备 IP

如果脚本报错如下：

无法获取设备 IP。是否已通过 USB 连接设备，并且与电脑处于同一 Wi‑Fi 网络？

这意味着脚本未能找到设备上的常见 Wi‑Fi 接口。因此，你需要通过 adb shell ip addr show up 确定你的手机正在使用的 WLAN 接口名称。然后在脚本中添加 --interface <YOUR_INTERFACE_NAME> 参数。

2. 无法连接到 :5555（Docker 内部）

这很可能是防火墙阻止了连接。目前尚无明确的解决方案。

3. 拉取 GHCR Docker 镜像失败（未经授权）

由于 UV Docker 镜像依赖于 ghcr.io 公开仓库，如果你之前曾使用过 ghcr.io 来访问私有仓库，可能会导致令牌过期。请尝试运行 docker logout ghcr.io，然后再次运行脚本。

手动启动（开发模式）

适用于希望手动设置环境的开发者：

1. 设备支持

目前，mobile-use 支持以下设备：

实体 Android 手机：通过 USB 连接，并启用 USB 调试功能。
Android 模拟器：可通过 Android Studio 设置。
iOS 模拟器：仅支持 macOS 用户。

[!NOTE] 实体 iOS 设备暂不支持。

2. 先决条件

对于 Android：

Android Debug Bridge (ADB)：用于连接设备的工具。

对于 iOS（仅限 macOS）：

Xcode：苹果公司提供的 iOS 开发集成开发环境。
fb-idb：Facebook 提供的 iOS 开发桥，用于设备自动化。
```
# 通过 Homebrew 安装（macOS）
brew tap facebook/fb
brew install idb-companion
```
[!NOTE] idb_companion 是与 iOS 模拟器通信所必需的工具。安装后请确保它已添加到您的 PATH 中。

通用要求：

在开始之前，请确保已安装以下内容：

uv：一款超快速的 Python 包管理器。

3. 安装

克隆仓库：

git clone https://github.com/minitap-ai/mobile-use.git && cd mobile-use

设置环境变量

创建并激活虚拟环境：

# 将使用 .python-version 文件中指定的 Python 版本创建 .venv 目录
uv venv

# 激活环境
# 在 macOS/Linux 上：
source .venv/bin/activate
# 在 Windows 上：
.venv\Scripts\activate

安装依赖项：

# 使用锁定的依赖项进行同步，以确保一致的配置
uv sync

👨‍💻 使用方法

要运行 mobile-use，只需将您的命令作为参数传递即可。

示例 1：基本命令

python ./src/mobile_use/main.py "前往设置，告诉我当前的电池电量"

示例 2：数据抓取

提取特定信息并以结构化格式返回。例如，获取未读邮件列表：

python ./src/mobile_use/main.py \
  "打开 Gmail，找到所有未读邮件，并列出其发件人和主题" \
  --output-description "一个 JSON 列表，每个对象包含 'sender' 和 'subject' 键"

[!NOTE] 如果您尚未配置特定模型，mobile-use 会提示您从可用选项中选择一个。

🔎 智能体系统概述

图可视化

此图由代码库自动更新。这是我们当前的智能体系统架构。

❤️ 贡献

我们非常欢迎贡献！无论您是修复 bug、添加新功能，还是改进文档，您的帮助都将受到我们的欢迎。请阅读我们的 贡献指南 以开始。

⭐ 星标历史

🏆 归属与许可

mobile-use 是首个在 AndroidWorld 基准测试中达到 100% 准确率 的智能体框架。

本项目采用 Apache License 2.0 许可证。

如果您使用了此代码，或受到实现基准测试结果的架构启发，请务必注明 Minitap, Inc. 的贡献。

如何引用

如果您在研究或商业产品中使用本工作，请使用以下引用：

Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier,
Nicolas Dehandschoewercker, Allen G. Roush, Judah Goldfeder, Ravid Shwartz-Ziv.
多智能体会梦见电子屏幕吗？通过任务分解在 AndroidWorld 上实现完美准确率。
arXiv 预印本 arXiv:2602.07787 (2026)。
https://arxiv.org/abs/2602.07787

Bibtex

@misc{favreau2026multiagentsdreamelectricscreens,
  title        = {多智能体会梦见电子屏幕吗？通过任务分解在 AndroidWorld 上实现完美准确率},
  author       = {Pierre-Louis Favreau 和 Jean-Pierre Lo 和 Clement Guiguet 和 Charles Simon-Meunier 和 Nicolas Dehandschoewercker 和 Allen G. Roush 和 Judah Goldfeder 和 Ravid Shwartz-Ziv},
  year         = {2026},
  eprint       = {2602.07787},
  archivePrefix= {arXiv},
  primaryClass = {cs.AI},
  url          = {https://arxiv.org/abs/2602.07787}
}

mobile-use 快速上手指南

mobile-use 是一个强大的开源 AI 智能体，能够使用自然语言控制您的 Android 或 iOS 设备。它能理解您的指令并与 UI 交互，执行从发送消息到导航复杂应用等各种任务。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

系统要求

操作系统: Linux, macOS, 或 Windows
Python 版本: 3.12 或更高
设备支持:
- Android: 物理手机（需开启 USB 调试）或 Android 模拟器。
- iOS: 仅支持 macOS 上的 iOS 模拟器（暂不支持物理 iOS 设备）。

前置依赖

根据目标设备安装相应工具：

通用依赖:

uv: 极速 Python 包管理器。

# 安装 uv (推荐方式)
curl -LsSf https://astral.sh/uv/install.sh | sh

Android 设备:

Android Debug Bridge (ADB): 用于连接设备。请确保 adb 已加入系统 PATH。

iOS 设备 (仅限 macOS):

Xcode: Apple 官方 IDE。
fb-idb: Facebook iOS 开发桥接工具。
```
brew tap facebook/fb
brew install idb-companion
```
注意：安装后请确保 idb_companion 在您的 PATH 中。

安装步骤

1. 克隆项目

git clone https://github.com/minitap-ai/mobile-use.git && cd mobile-use

2. 配置环境变量

复制示例配置文件并填入您的 API Key（如 OpenAI Key 等）。

cp .env.example .env
# 编辑 .env 文件，填入 OPENAI_API_KEY 等必要信息

(可选) 自定义 LLM 配置: 如需使用其他模型提供商或本地模型，可复制并编辑配置文件：

cp llm-config.override.template.jsonc llm-config.override.jsonc

3. 创建虚拟环境并安装依赖

使用 uv 快速设置环境：

# 创建虚拟环境
uv venv

# 激活环境
# macOS/Linux:
source .venv/bin/activate
# Windows:
.venv\Scripts\activate

# 同步安装依赖
uv sync

基本使用

确保您的设备已通过 USB 连接（开启 USB 调试）或模拟器正在运行，然后执行以下命令。

示例 1：基础控制

查询手机电池电量：

python ./src/mobile_use/main.py "Go to settings and tell me my current battery level"

示例 2：数据抓取

提取 Gmail 中未读邮件的发件人和主题，并以 JSON 格式输出：

python ./src/mobile_use/main.py \
  "Open Gmail, find all unread emails, and list their sender and subject line" \
  --output-description "A JSON list of objects, each with 'sender' and 'subject' keys"

提示: 如果未在配置文件中指定模型，运行时程序会提示您选择可用的模型。

更多高级用法（如 Docker 快速启动、多代理架构详解）请参考官方文档。

版本历史

v2.4.02025/10/09

v2.3.02025/09/24

v2.2.02025/09/05

v3.3.02026/01/12

v2.9.02025/11/15

v2.6.02025/10/20

v2.5.32025/10/11

v2.5.22025/10/11

v2.1.02025/09/02

v2.0.02025/08/25

常见问题

遇到健康检查（Health check）失败或连接错误怎么办？

如何配置以使用非 OpenAI 的模型（如 Google Gemini 或其他兼容 OpenAI 接口的服务）？

在哪里修改 ChatOpenAI 的 API Key 和 Base URL？是在配置文件还是环境变量中？

项目是否支持本地运行的大语言模型（如 Ollama）？

遇到工具调用（Tool Call）验证错误（如 'Field required' 或 'Extra inputs not permitted'）如何解决？

是否有脚本可以复现 AndroidWorld 排行榜上的测试结果？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|4天前

Agent插件