mobile-use
mobile-use 是一款强大的开源 AI 智能体,能够像人类一样直接操作真实的 Android 和 iOS 设备。它通过自然语言理解用户指令,自动在应用界面中进行点击、滑动、输入等交互,从而完成发送消息、浏览复杂应用甚至提取数据并结构化输出(如 JSON)等任务。
长期以来,移动端自动化往往依赖复杂的脚本编写或固定的规则,难以应对千变万化的应用界面。mobile-use 解决了这一痛点,让用户只需用日常语言描述需求,即可驱动手机完成操作,极大地降低了自动化门槛。同时,它在权威的 AndroidWorld 基准测试中取得了满分成绩,证明了其卓越的可靠性。
这款工具非常适合开发者用于构建自动化工作流,研究人员探索多模态交互,以及希望提升效率的普通用户。其独特亮点在于具备“界面感知”能力,能智能解析应用的无障碍树数据进行导航;同时支持高度自定义,用户可灵活配置不同的本地或云端大语言模型(LLM)来驱动智能体。无论是想解放双手的极客,还是需要批量处理移动任务的团队,mobile-use 都能提供高效、直观的解决方案。
使用场景
一位电商运营人员需要每天从多个竞品 APP 中手动收集商品价格、促销活动和用户评价,并整理成结构化报表供团队分析。
没有 mobile-use 时
- 必须人工逐一点开淘宝、京东、拼多多等 APP,肉眼查找目标商品并记录数据,耗时且容易出错。
- 不同 APP 界面布局差异大,无法编写统一的脚本进行自动化抓取,维护成本极高。
- 遇到弹窗广告或动态加载内容时,传统自动化工具往往失效,需要人工介入处理中断流程。
- 数据提取后需手动复制粘贴到 Excel 或 JSON 文件中,格式转换繁琐,难以直接用于后续数据分析。
- 无法实时响应突发需求(如“立刻监控某品牌最新降价”),只能等待固定时间的批量任务执行。
使用 mobile-use 后
- 只需输入自然语言指令(如“获取淘宝上 iPhone 15 的价格和好评率”),mobile-use 即可自动操作手机完成全流程。
- mobile-use 能智能识别不同 APP 的 UI 结构,自适应导航至目标页面,无需为每个应用单独编写代码。
- 面对弹窗或动态内容,mobile-use 像真人一样判断并点击关闭按钮或等待加载,确保任务连续执行不中断。
- 可直接要求 mobile-use 将抓取结果按指定格式(如 JSON)输出,无缝对接内部数据系统,省去人工整理环节。
- 随时通过语音或文字下达新指令,mobile-use 立即在真机上执行,实现分钟级的市场情报响应速度。
mobile-use 将原本需要数小时的人工重复劳动转化为秒级的自然语言交互,让移动端数据采集真正实现了智能化与实时化。
运行环境要求
- Linux
- macOS
- Windows
未说明
未说明

快速开始
mobile-use:用自然语言自动化你的手机

Mobile-use 是一款功能强大的开源 AI 助手,能够通过自然语言控制你的 Android 或 iOS 设备。它能理解你的指令,并与用户界面交互来完成各种任务,从发送消息到导航复杂的应用程序。
Mobile-use 正在快速发展中。你的建议、想法和报告的 bug 都将影响这个项目的方向。请随时加入 Discord 的讨论或直接贡献代码,我们一定会回复每一位参与者!❤️
✨ 特性
- 🗣️ 自然语言控制:使用你的母语与手机互动。
- 📱 UI 感知自动化:智能地在应用界面中导航(注意:目前对游戏的支持有限,因为游戏通常不提供无障碍树数据)。
- 📊 数据抓取:通过自然语言描述,从任何应用中提取信息并将其结构化为你所需的格式(例如 JSON)。
- 🔧 可扩展与可定制:轻松配置不同的大模型来驱动 Mobile-use 的核心代理。
基准测试
我们在 AndroidWorld 基准测试中表现最佳,并且是首个完成 100% 测试项的团队。
更多关于我们如何达成这一里程碑的信息,请参阅:Minitap 基准测试。
官方排行榜在此:Google 表格。
我们的研究论文请见:arXiv。
🚀 快速开始
准备好自动化你的移动体验了吗?按照以下步骤即可快速上手 Mobile-use。
🌐 通过我们的平台
最简单的方式是使用我们的平台。 请参考我们的 平台快速入门指南 开始使用。
🛠️ 从源码安装
设置环境变量: 将
.env.example文件复制为.env,并添加你的 API 密钥。cp .env.example .env(可选)自定义 LLM 配置: 如果你想使用不同的模型或服务提供商,可以创建自己的 LLM 配置文件。
cp llm-config.override.template.jsonc llm-config.override.jsonc然后编辑
llm-config.override.jsonc以满足你的需求。你也可以使用本地 LLM 或其他兼容 OpenAI API 的服务提供商:
- 在
.env中设置OPENAI_BASE_URL和OPENAI_API_KEY。 - 在
llm-config.override.jsonc中,将你希望使用的代理节点的提供商设置为openai,并选择你的服务提供商支持的模型。
[!注意] 如果你想使用 Google Vertex AI,你必须:
- 为你的环境配置好凭据(gcloud、工作负载身份等)
- 将服务账户 JSON 文件的路径存储为
GOOGLE_APPLICATION_CREDENTIALS环境变量
更多信息:- 凭据类型 - google.auth API 参考
- 在
快速启动(Docker)
[!注意] 目前此快速入门仅适用于 Android 设备或模拟器,并且你需要已安装 Docker。
首先:
- 将你的 Android 设备连接并启用开发者选项中的 USB 调试模式。
- 或者启动一个 Android 模拟器。
然后在终端中运行:
- 对于 Linux/macOS:
chmod +x mobile-use.sh
bash ./mobile-use.sh \
"打开 Gmail,找到前三封未读邮件,并列出发件人和主题" \
--output-description "一个包含 'sender' 和 'subject' 键的对象列表"
- 对于 Windows(在 PowerShell 终端中):
powershell.exe -ExecutionPolicy Bypass -File mobile-use.ps1 `
"打开 Gmail,找到前三封未读邮件,并列出发件人和主题" `
--output-description "一个包含 'sender' 和 'subject' 键的对象列表"
[!注意] 如果使用你自己的设备,请确保接受设备上弹出的 ADB 连接请求。
🧰 故障排除
脚本会尝试通过 IP 地址连接到你的设备。 因此,你的设备 必须与电脑连接在同一 Wi‑Fi 网络下。
1. 未找到设备 IP
如果脚本报错如下:
无法获取设备 IP。是否已通过 USB 连接设备,并且与电脑处于同一 Wi‑Fi 网络?
这意味着脚本未能找到设备上的常见 Wi‑Fi 接口。
因此,你需要通过 adb shell ip addr show up 确定你的手机正在使用的 WLAN 接口名称。
然后在脚本中添加 --interface <YOUR_INTERFACE_NAME> 参数。
2. 无法连接到 :5555(Docker 内部)
这很可能是防火墙阻止了连接。目前尚无明确的解决方案。
3. 拉取 GHCR Docker 镜像失败(未经授权)
由于 UV Docker 镜像依赖于 ghcr.io 公开仓库,如果你之前曾使用过 ghcr.io 来访问私有仓库,可能会导致令牌过期。
请尝试运行 docker logout ghcr.io,然后再次运行脚本。
手动启动(开发模式)
适用于希望手动设置环境的开发者:
1. 设备支持
目前,mobile-use 支持以下设备:
- 实体 Android 手机:通过 USB 连接,并启用 USB 调试功能。
- Android 模拟器:可通过 Android Studio 设置。
- iOS 模拟器:仅支持 macOS 用户。
[!NOTE] 实体 iOS 设备暂不支持。
2. 先决条件
对于 Android:
- Android Debug Bridge (ADB):用于连接设备的工具。
对于 iOS(仅限 macOS):
Xcode:苹果公司提供的 iOS 开发集成开发环境。
fb-idb:Facebook 提供的 iOS 开发桥,用于设备自动化。
# 通过 Homebrew 安装(macOS) brew tap facebook/fb brew install idb-companion[!NOTE]
idb_companion是与 iOS 模拟器通信所必需的工具。安装后请确保它已添加到您的 PATH 中。
通用要求:
在开始之前,请确保已安装以下内容:
- uv:一款超快速的 Python 包管理器。
3. 安装
克隆仓库:
git clone https://github.com/minitap-ai/mobile-use.git && cd mobile-use创建并激活虚拟环境:
# 将使用 .python-version 文件中指定的 Python 版本创建 .venv 目录 uv venv # 激活环境 # 在 macOS/Linux 上: source .venv/bin/activate # 在 Windows 上: .venv\Scripts\activate安装依赖项:
# 使用锁定的依赖项进行同步,以确保一致的配置 uv sync
👨💻 使用方法
要运行 mobile-use,只需将您的命令作为参数传递即可。
示例 1:基本命令
python ./src/mobile_use/main.py "前往设置,告诉我当前的电池电量"
示例 2:数据抓取
提取特定信息并以结构化格式返回。例如,获取未读邮件列表:
python ./src/mobile_use/main.py \
"打开 Gmail,找到所有未读邮件,并列出其发件人和主题" \
--output-description "一个 JSON 列表,每个对象包含 'sender' 和 'subject' 键"
[!NOTE] 如果您尚未配置特定模型,mobile-use 会提示您从可用选项中选择一个。
🔎 智能体系统概述

此图由代码库自动更新。这是我们当前的智能体系统架构。
❤️ 贡献
我们非常欢迎贡献!无论您是修复 bug、添加新功能,还是改进文档,您的帮助都将受到我们的欢迎。请阅读我们的 贡献指南 以开始。
⭐ 星标历史
🏆 归属与许可
mobile-use 是首个在 AndroidWorld 基准测试中达到 100% 准确率 的智能体框架。
本项目采用 Apache License 2.0 许可证。
如果您使用了此代码,或受到实现基准测试结果的架构启发,请务必注明 Minitap, Inc. 的贡献。
如何引用
如果您在研究或商业产品中使用本工作,请使用以下引用:
Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier,
Nicolas Dehandschoewercker, Allen G. Roush, Judah Goldfeder, Ravid Shwartz-Ziv.
多智能体会梦见电子屏幕吗?通过任务分解在 AndroidWorld 上实现完美准确率。
arXiv 预印本 arXiv:2602.07787 (2026)。
https://arxiv.org/abs/2602.07787
Bibtex
@misc{favreau2026multiagentsdreamelectricscreens,
title = {多智能体会梦见电子屏幕吗?通过任务分解在 AndroidWorld 上实现完美准确率},
author = {Pierre-Louis Favreau 和 Jean-Pierre Lo 和 Clement Guiguet 和 Charles Simon-Meunier 和 Nicolas Dehandschoewercker 和 Allen G. Roush 和 Judah Goldfeder 和 Ravid Shwartz-Ziv},
year = {2026},
eprint = {2602.07787},
archivePrefix= {arXiv},
primaryClass = {cs.AI},
url = {https://arxiv.org/abs/2602.07787}
}
版本历史
v2.4.02025/10/09v2.3.02025/09/24v2.2.02025/09/05v3.3.02026/01/12v2.9.02025/11/15v2.6.02025/10/20v2.5.32025/10/11v2.5.22025/10/11v2.1.02025/09/02v2.0.02025/08/25常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信