mobile-use

GitHub
2.5k 206 中等 1 次阅读 今天Apache-2.0Agent开发框架图像
AI 解读 由 AI 自动生成,仅供参考

mobile-use 是一款强大的开源 AI 智能体,能够像人类一样直接操作真实的 Android 和 iOS 设备。它通过自然语言理解用户指令,自动在应用界面中进行点击、滑动、输入等交互,从而完成发送消息、浏览复杂应用甚至提取数据并结构化输出(如 JSON)等任务。

长期以来,移动端自动化往往依赖复杂的脚本编写或固定的规则,难以应对千变万化的应用界面。mobile-use 解决了这一痛点,让用户只需用日常语言描述需求,即可驱动手机完成操作,极大地降低了自动化门槛。同时,它在权威的 AndroidWorld 基准测试中取得了满分成绩,证明了其卓越的可靠性。

这款工具非常适合开发者用于构建自动化工作流,研究人员探索多模态交互,以及希望提升效率的普通用户。其独特亮点在于具备“界面感知”能力,能智能解析应用的无障碍树数据进行导航;同时支持高度自定义,用户可灵活配置不同的本地或云端大语言模型(LLM)来驱动智能体。无论是想解放双手的极客,还是需要批量处理移动任务的团队,mobile-use 都能提供高效、直观的解决方案。

使用场景

一位电商运营人员需要每天从多个竞品 APP 中手动收集商品价格、促销活动和用户评价,并整理成结构化报表供团队分析。

没有 mobile-use 时

  • 必须人工逐一点开淘宝、京东、拼多多等 APP,肉眼查找目标商品并记录数据,耗时且容易出错。
  • 不同 APP 界面布局差异大,无法编写统一的脚本进行自动化抓取,维护成本极高。
  • 遇到弹窗广告或动态加载内容时,传统自动化工具往往失效,需要人工介入处理中断流程。
  • 数据提取后需手动复制粘贴到 Excel 或 JSON 文件中,格式转换繁琐,难以直接用于后续数据分析。
  • 无法实时响应突发需求(如“立刻监控某品牌最新降价”),只能等待固定时间的批量任务执行。

使用 mobile-use 后

  • 只需输入自然语言指令(如“获取淘宝上 iPhone 15 的价格和好评率”),mobile-use 即可自动操作手机完成全流程。
  • mobile-use 能智能识别不同 APP 的 UI 结构,自适应导航至目标页面,无需为每个应用单独编写代码。
  • 面对弹窗或动态内容,mobile-use 像真人一样判断并点击关闭按钮或等待加载,确保任务连续执行不中断。
  • 可直接要求 mobile-use 将抓取结果按指定格式(如 JSON)输出,无缝对接内部数据系统,省去人工整理环节。
  • 随时通过语音或文字下达新指令,mobile-use 立即在真机上执行,实现分钟级的市场情报响应速度。

mobile-use 将原本需要数小时的人工重复劳动转化为秒级的自然语言交互,让移动端数据采集真正实现了智能化与实时化。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes1. 物理 iOS 设备暂不支持,仅支持 iOS 模拟器(需 macOS)。2. 若使用 Docker 快速启动,目前仅支持 Android 设备或模拟器,且设备需与电脑在同一 Wi-Fi 网络。3. 支持通过配置环境变量使用本地 LLM 或兼容 OpenAI API 的服务商。4. 若使用 Google Vertex AI,需配置相应的凭证或服务账号 JSON 文件路径。5. 游戏类应用因缺乏无障碍树数据,自动化效果有限。
python3.12+
uv
ADB (Android Debug Bridge)
Xcode (仅限 macOS iOS 模拟)
fb-idb (仅限 macOS iOS 模拟)
Docker (可选,用于快速启动)
mobile-use hero image

快速开始

mobile-use:用自然语言自动化你的手机

mobile-use 运行示例

Mobile-use 是一款功能强大的开源 AI 助手,能够通过自然语言控制你的 Android 或 iOS 设备。它能理解你的指令,并与用户界面交互来完成各种任务,从发送消息到导航复杂的应用程序。

Mobile-use 正在快速发展中。你的建议、想法和报告的 bug 都将影响这个项目的方向。请随时加入 Discord 的讨论或直接贡献代码,我们一定会回复每一位参与者!❤️

✨ 特性

  • 🗣️ 自然语言控制:使用你的母语与手机互动。
  • 📱 UI 感知自动化:智能地在应用界面中导航(注意:目前对游戏的支持有限,因为游戏通常不提供无障碍树数据)。
  • 📊 数据抓取:通过自然语言描述,从任何应用中提取信息并将其结构化为你所需的格式(例如 JSON)。
  • 🔧 可扩展与可定制:轻松配置不同的大模型来驱动 Mobile-use 的核心代理。

基准测试

项目横幅

我们在 AndroidWorld 基准测试中表现最佳,并且是首个完成 100% 测试项的团队。

更多关于我们如何达成这一里程碑的信息,请参阅:Minitap 基准测试

官方排行榜在此:Google 表格

我们的研究论文请见:arXiv

🚀 快速开始

准备好自动化你的移动体验了吗?按照以下步骤即可快速上手 Mobile-use。

🌐 通过我们的平台

最简单的方式是使用我们的平台。 请参考我们的 平台快速入门指南 开始使用。

🛠️ 从源码安装

  1. 设置环境变量:.env.example 文件复制为 .env,并添加你的 API 密钥。

    cp .env.example .env
    
  2. (可选)自定义 LLM 配置: 如果你想使用不同的模型或服务提供商,可以创建自己的 LLM 配置文件。

    cp llm-config.override.template.jsonc llm-config.override.jsonc
    

    然后编辑 llm-config.override.jsonc 以满足你的需求。

    你也可以使用本地 LLM 或其他兼容 OpenAI API 的服务提供商:

    1. .env 中设置 OPENAI_BASE_URLOPENAI_API_KEY
    2. llm-config.override.jsonc 中,将你希望使用的代理节点的提供商设置为 openai,并选择你的服务提供商支持的模型。

    [!注意] 如果你想使用 Google Vertex AI,你必须:

    • 为你的环境配置好凭据(gcloud、工作负载身份等)
    • 将服务账户 JSON 文件的路径存储为 GOOGLE_APPLICATION_CREDENTIALS 环境变量

    更多信息:- 凭据类型 - google.auth API 参考

快速启动(Docker)

[!注意] 目前此快速入门仅适用于 Android 设备或模拟器,并且你需要已安装 Docker。

首先:

  • 将你的 Android 设备连接并启用开发者选项中的 USB 调试模式。
  • 或者启动一个 Android 模拟器。

然后在终端中运行:

  1. 对于 Linux/macOS:
chmod +x mobile-use.sh
bash ./mobile-use.sh \
  "打开 Gmail,找到前三封未读邮件,并列出发件人和主题" \
  --output-description "一个包含 'sender' 和 'subject' 键的对象列表"
  1. 对于 Windows(在 PowerShell 终端中):
powershell.exe -ExecutionPolicy Bypass -File mobile-use.ps1 `
  "打开 Gmail,找到前三封未读邮件,并列出发件人和主题" `
  --output-description "一个包含 'sender' 和 'subject' 键的对象列表"

[!注意] 如果使用你自己的设备,请确保接受设备上弹出的 ADB 连接请求。

🧰 故障排除

脚本会尝试通过 IP 地址连接到你的设备。 因此,你的设备 必须与电脑连接在同一 Wi‑Fi 网络下

1. 未找到设备 IP

如果脚本报错如下:

无法获取设备 IP。是否已通过 USB 连接设备,并且与电脑处于同一 Wi‑Fi 网络?

这意味着脚本未能找到设备上的常见 Wi‑Fi 接口。 因此,你需要通过 adb shell ip addr show up 确定你的手机正在使用的 WLAN 接口名称。 然后在脚本中添加 --interface <YOUR_INTERFACE_NAME> 参数。

2. 无法连接到 :5555(Docker 内部)

这很可能是防火墙阻止了连接。目前尚无明确的解决方案。

3. 拉取 GHCR Docker 镜像失败(未经授权)

由于 UV Docker 镜像依赖于 ghcr.io 公开仓库,如果你之前曾使用过 ghcr.io 来访问私有仓库,可能会导致令牌过期。 请尝试运行 docker logout ghcr.io,然后再次运行脚本。

手动启动(开发模式)

适用于希望手动设置环境的开发者:

1. 设备支持

目前,mobile-use 支持以下设备:

  • 实体 Android 手机:通过 USB 连接,并启用 USB 调试功能。
  • Android 模拟器:可通过 Android Studio 设置。
  • iOS 模拟器:仅支持 macOS 用户。

[!NOTE] 实体 iOS 设备暂不支持。

2. 先决条件

对于 Android:

对于 iOS(仅限 macOS):

  • Xcode:苹果公司提供的 iOS 开发集成开发环境。

  • fb-idb:Facebook 提供的 iOS 开发桥,用于设备自动化。

    # 通过 Homebrew 安装(macOS)
    brew tap facebook/fb
    brew install idb-companion
    

    [!NOTE] idb_companion 是与 iOS 模拟器通信所必需的工具。安装后请确保它已添加到您的 PATH 中。

通用要求:

在开始之前,请确保已安装以下内容:

  • uv:一款超快速的 Python 包管理器。

3. 安装

  1. 克隆仓库:

    git clone https://github.com/minitap-ai/mobile-use.git && cd mobile-use
    
  2. 设置环境变量

  3. 创建并激活虚拟环境:

    # 将使用 .python-version 文件中指定的 Python 版本创建 .venv 目录
    uv venv
    
    # 激活环境
    # 在 macOS/Linux 上:
    source .venv/bin/activate
    # 在 Windows 上:
    .venv\Scripts\activate
    
  4. 安装依赖项:

    # 使用锁定的依赖项进行同步,以确保一致的配置
    uv sync
    

👨‍💻 使用方法

要运行 mobile-use,只需将您的命令作为参数传递即可。

示例 1:基本命令

python ./src/mobile_use/main.py "前往设置,告诉我当前的电池电量"

示例 2:数据抓取

提取特定信息并以结构化格式返回。例如,获取未读邮件列表:

python ./src/mobile_use/main.py \
  "打开 Gmail,找到所有未读邮件,并列出其发件人和主题" \
  --output-description "一个 JSON 列表,每个对象包含 'sender' 和 'subject' 键"

[!NOTE] 如果您尚未配置特定模型,mobile-use 会提示您从可用选项中选择一个。

🔎 智能体系统概述

图可视化

此图由代码库自动更新。这是我们当前的智能体系统架构。

❤️ 贡献

我们非常欢迎贡献!无论您是修复 bug、添加新功能,还是改进文档,您的帮助都将受到我们的欢迎。请阅读我们的 贡献指南 以开始。

⭐ 星标历史

星标历史图表

🏆 归属与许可

mobile-use 是首个在 AndroidWorld 基准测试中达到 100% 准确率 的智能体框架。

本项目采用 Apache License 2.0 许可证。

如果您使用了此代码,或受到实现基准测试结果的架构启发,请务必注明 Minitap, Inc. 的贡献。

如何引用

如果您在研究或商业产品中使用本工作,请使用以下引用:

Pierre-Louis Favreau, Jean-Pierre Lo, Clement Guiguet, Charles Simon-Meunier,
Nicolas Dehandschoewercker, Allen G. Roush, Judah Goldfeder, Ravid Shwartz-Ziv.
多智能体会梦见电子屏幕吗?通过任务分解在 AndroidWorld 上实现完美准确率。
arXiv 预印本 arXiv:2602.07787 (2026)。
https://arxiv.org/abs/2602.07787

Bibtex

@misc{favreau2026multiagentsdreamelectricscreens,
  title        = {多智能体会梦见电子屏幕吗?通过任务分解在 AndroidWorld 上实现完美准确率},
  author       = {Pierre-Louis Favreau 和 Jean-Pierre Lo 和 Clement Guiguet 和 Charles Simon-Meunier 和 Nicolas Dehandschoewercker 和 Allen G. Roush 和 Judah Goldfeder 和 Ravid Shwartz-Ziv},
  year         = {2026},
  eprint       = {2602.07787},
  archivePrefix= {arXiv},
  primaryClass = {cs.AI},
  url          = {https://arxiv.org/abs/2602.07787}
}

版本历史

v2.4.02025/10/09
v2.3.02025/09/24
v2.2.02025/09/05
v3.3.02026/01/12
v2.9.02025/11/15
v2.6.02025/10/20
v2.5.32025/10/11
v2.5.22025/10/11
v2.1.02025/09/02
v2.0.02025/08/25

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.1k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|4天前
Agent插件