MAI-UI

GitHub
1.8k 176 中等 1 次阅读 昨天Apache-2.0Agent
AI 解读 由 AI 自动生成,仅供参考

MAI-UI 是由通义实验室推出的一系列面向真实世界场景的图形用户界面(GUI)智能体基础模型,提供从 2B 到 235B 多种参数量版本。它旨在解决传统自动化脚本难以适应复杂多变的手机或电脑操作界面的痛点,能够像人类一样“看懂”屏幕内容并自主完成点击、滑动、输入等交互任务。

无论是希望构建下一代智能助手的开发者、从事人机交互研究的研究人员,还是寻求高效自动化解决方案的企业用户,都能从中受益。MAI-UI 在多项权威基准测试中刷新了纪录,其独特亮点在于构建了“端云协同”系统,能根据任务敏感度和状态动态选择本地或云端执行,兼顾效率与隐私;同时支持智能体与用户自然互动及调用外部工具(MCP),并通过大规模强化学习技术显著提升了在长上下文和复杂环境中的决策能力。无需依赖特殊的缩放技巧,MAI-UI 即可在安卓导航和界面定位任务中展现出业界领先的性能,为实现真正的通用界面智能体奠定了坚实基础。

使用场景

某大型电商企业的测试团队需要在每天凌晨对更新后的 Android 端 App 进行全链路回归测试,覆盖从登录、搜索商品到下单支付的复杂流程。

没有 MAI-UI 时

  • 脚本维护成本极高:传统自动化测试依赖固定的控件 ID 或坐标,一旦 UI 布局微调或版本迭代,大量测试脚本立即失效,工程师需花费数小时重新录制和修复。
  • 复杂任务难以端到端执行:遇到需要跨应用跳转(如从微信唤起支付)或动态内容加载的场景,规则式机器人容易卡死,无法像真人一样理解屏幕语义并自主决策。
  • 隐私与效率难以兼得:敏感操作(如输入密码)不敢上传云端处理,而本地部署的小模型又不够聪明,导致测试覆盖率被迫降低,只能人工介入补全剩余环节。

使用 MAI-UI 后

  • 视觉 grounding 实现零代码适配:MAI-UI 凭借纯视觉端到端能力,直接“看懂”屏幕元素而非死记坐标,即使界面改版也能精准定位按钮,脚本无需修改即可持续运行。
  • 动态规划攻克复杂流程:利用其强大的推理能力,MAI-UI 能自主拆解“搜索特定折扣商品并比价”等模糊指令,动态调用 MCP 工具完成跨应用操作,成功率和人类相当。
  • 云边协同保障安全高效:通过设备 - 云协作系统,MAI-UI 自动将敏感数据保留在本地设备执行,同时将高算力需求的逻辑判断卸载至云端大模型,兼顾了数据安全与测试速度。

MAI-UI 将原本需要数人天维护的自动化测试转变为“自然语言指令即测试用例”,显著提升了移动端产品迭代的验证效率与稳定性。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要 NVIDIA GPU(用于 vLLM 推理),显存需求取决于模型大小:2B/8B 模型建议单卡或多卡并行,235B 模型需多卡集群
  • 具体 CUDA 版本未说明,但需兼容 vLLM 0.11.0
内存

未说明(建议根据模型大小配置,8B 模型建议 32GB+,更大模型需更高内存)

依赖
notes必须使用 vLLM 0.11.0 版本部署模型服务;支持多 GPU 并行推理(通过调整 --tensor-parallel-size 参数);模型权重需从 Hugging Face 或 ModelScope 下载;提供 Grounding 和 Navigation 两种 Agent 的 Jupyter Notebook 示例;支持端云协同架构,可根据任务复杂度动态选择本地或云端执行。
python未说明(需兼容 vLLM 0.11.0 和 transformers>=4.57.0 的环境)
vllm==0.11.0
transformers>=4.57.0
requirements.txt 中的其他依赖
MAI-UI hero image

快速开始

MAI-UI

arXiv Website Website Hugging Face Model ModelScope Model

我们提出了 MAI-UI,这是一个涵盖全尺寸范围的 GUI 代理基础模型家族,包括 2B8B32B235B-A22B 等不同规模的变体。我们的核心贡献包括:

  • 🔧 代理与用户交互及 MCP 增强:使代理能够与用户互动,并利用 MCP 工具完成任务。
  • ☁️ 设备—云端协同系统:根据任务执行状态和数据敏感性,动态选择在设备端或云端执行。
  • 📈 动态强化学习扩展:大规模强化学习,支持并行环境扩展(最高可达 512 个)和上下文长度扩展(最高可达 50)。
  • 🏆 最先进的性能:MAI-UI 在 GUI 对齐和导航任务中树立了新的 SOTA 基准。

Overview
MAI-UI 性能概览

📰 新闻

  • [2026-03-20] 📄 博客文章:我们的 对齐导航 博客文章现已发布!
  • [2026-01-15] 🥇 AndroidWorld 新纪录:MAI-UI-235B 以 76.7% 的成功率,在纯视觉、端到端模型的 AndroidWorld 排行榜 上夺得第一名。
  • [2026-01-13] 🥇 MAI-UI 横扫 ScreenSpot-Pro:MAI-UI(32B、8B、2B)目前在 ScreenSpot-Pro 排行榜 的所有规模类别中均位居第一。我们分别取得了 67.9%、65.7% 和 57.4% 的创纪录成绩——值得注意的是,这些成绩是在 未使用任何放大技巧 的情况下达成的。
  • [2026-01-04] 🤝 我们正在招聘!我们诚邀研究科学家、工程师和实习生加入,共同致力于 GUI 基础代理及其应用的研究。有意者请将简历发送至:yue.w@alibaba-inc.com
  • [2025-12-29] 🏆 新排行榜纪录:MAI-UI 在 MobileWorld 基准测试中取得了 41.7% 的成功率,创下端到端模型性能的新纪录!
  • [2025-12-29] 📄 技术报告与官网:我们的技术报告现已在 arXiv 上发布,官方项目 网站 也已上线。
  • [2025-12-29] 🤗 模型发布:我们很高兴在 Hugging Face 上发布了 MAI-UI-8BMAI-UI-2B 的权重。

📑 目录

🎥 演示

演示 1 - 日常生活场景

触发 ask_user 以获取更多信息来完成任务。

日常生活演示。
用户指令:去盒马买菜,买一份雪花牛肉卷、一份娃娃菜、一份金针菇,再随便买一个豆制品。对了,去日历中待办里检查下我老婆有什么要在盒马买的,我确认下要不要一起买。

演示 2 - 导航

使用 mcp_call 调用高德地图工具进行导航。

导航演示。
用户指令:我现在在阿里巴巴云谷园区,我要先去招商银行取钱,再去城西银泰城。帮我规划公交地铁出行的路线,选一家在4公里以内的、用时最短的招商银行,两段行程总时间不要超过2小时,把规划行程记在笔记中我一会看,标题为下午行程,内容为两段行程细节。

演示 3 - 购物

跨应用协作完成任务。

购物演示。
用户指令:在小红书上搜索“timeless earth 2026”,将其中一张商品图片保存到相册,然后使用保存的图片在淘宝上搜索同款商品,并将其加入我的购物车。

演示 4 - 工作

跨应用协作完成任务。

工作演示。
用户指令:我需要紧急出差上海,帮我去12306查询现在最早从杭州西站去上海虹桥、有二等座票的班次,在钉钉前沿技术研讨群里把到达时间同步给大家,再把我和水番的会议日程改到明天同一时间,在群里发消息@他,礼貌解释因为临时出差调整会议时间,询问他明天是否有空

演示 5 - 仅设备端

设备与云端协作完成简单任务,无需调用云端模型。

设备-云端协作演示。
用户指令:去飞猪查询12月25日去,28日回,杭州到三亚的往返机票

演示 6 - 设备-云端协作

设备与云端协作完成复杂任务,当任务超出设备端模型能力时,需调用云端模型。

设备-云端协作演示。
用户指令:去淘票票给我买一张25号下午的疯狂动物城2的电影票,选亲橙里的电影院,中间的座位,加一份可乐和爆米花的单人餐,停在最后的订单界面

🚀 安装与快速入门

第一步:克隆仓库

git clone https://github.com/Tongyi-MAI/MAI-UI.git
cd MAI-UI

第二步:使用 vLLM 启动模型 API 服务

从 HuggingFace 下载模型,并使用 vLLM 部署 API 服务:

HuggingFace 模型路径:

使用 vLLM 部署模型:

# 安装 vLLM
pip install vllm==0.11.0  # vllm==0.11.0 和 transformers>=4.57.0

# 启动 vLLM API 服务器(将 MODEL_PATH 替换为本地模型路径或 HuggingFace 模型 ID)
python -m vllm.entrypoints.openai.api_server \
    --model <huggingface_model_path> \
    --served-model-name MAI-UI-8B \
    --host 0.0.0.0 \
    --port 8000 \
    --tensor-parallel-size 1 \
    --trust-remote-code

💡 提示:

  • 重要提示:必须使用 VLLM=0.11.0
  • 根据您的 GPU 数量调整 --tensor-parallel-size 以进行多 GPU 推理
  • 模型将在 http://localhost:8000/v1 提供服务

第三步:安装依赖

pip install -r requirements.txt

第四步:运行 cookbook 笔记本

我们在 cookbook/ 目录中提供了两个笔记本:

4.1 接地演示

grounding.ipynb 演示如何使用 MAI 接地智能体定位 UI 元素:

cd cookbook
jupyter notebook grounding.ipynb

在运行之前,请更新笔记本中的 API 端点:

agent = MAIGroundingAgent(
    llm_base_url="http://localhost:8000/v1",  # 更新为您的 vLLM 服务器地址
    model_name="MAI-UI-8B",                   # 使用已部署的模型名称
    runtime_conf={
        "history_n": 3,
        "temperature": 0.0,
        "top_k": -1,
        "top_p": 1.0,
        "max_tokens": 2048,
    },
)

4.2 导航智能体演示

run_agent.ipynb 演示完整的 UI 导航智能体:

cd cookbook
jupyter notebook run_agent.ipynb

同样,更新 API 端点配置:

agent = MAIUINaivigationAgent(
    llm_base_url="http://localhost:8000/v1",  # 更新为您的 vLLM 服务器地址
    model_name="MAI-UI-8B",                   # 使用已部署的模型名称
    runtime_conf={
        "history_n": 3,
        "temperature": 0.0,
        "top_k": -1,
        "top_p": 1.0,
        "max_tokens": 2048,
    },
)

📝 引用

如果您觉得本项目对您的研究有所帮助,请考虑引用我们的工作:

@misc{zhou2025maiuitechnicalreportrealworld,
      title={MAI-UI 技术报告:以现实世界为中心的基础 GUI 智能体}, 
      author={周汉章、张旭、童攀荣、张佳楠、陈亮宇、孔秋雨、蔡承霖、刘晨、王悦、周景仁、史蒂文·霍伊},
      year={2025},
      eprint={2512.22047},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2512.22047}, 
}
@misc{chen2025uiinsenhancingguigrounding,
      title={UI-Ins:通过多视角指令推理增强 GUI 接地能力}, 
      author={陈亮宇、周汉章、蔡承霖、张佳楠、童攀荣、孔秋雨、张旭、刘晨、刘宇奇、王文轩、王悦、金琴、史蒂文·霍伊},
      year={2025},
      eprint={2510.20286},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.20286}, 
}
@misc{kong2025mobileworldbenchmarkingautonomousmobile,
      title={MobileWorld:在智能体-用户交互及 MCP 增强环境中评估自主移动智能体}, 
      author={孔秋雨、张旭、杨振宇、高诺兰、刘晨、童攀荣、蔡承霖、周汉章、张佳楠、陈亮宇、刘志丹、史蒂文·霍伊、王悦},
      year={2025},
      eprint={2512.19432},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2512.19432}, 
}

📧 联系方式

如有任何问题或需要支持,请联系:

📄 许可证

MAI-UI Mobile 是由阿里云开发的基础 GUI 智能体,采用 Apache 许可证(版本 2.0)授权。

本产品包含多种受其他开源许可证保护的第三方组件。 更多信息请参阅 NOTICE 文件。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

145.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|3天前
开发框架图像Agent