OpenCUA
OpenCUA 是一个专为“电脑使用代理”(Computer-Use Agents)打造的开源基础框架,旨在让 AI 像人类一样操作电脑。它通过提供大规模数据集、标注工具、评估基准及预训练模型,解决了当前 AI 在跨操作系统和复杂应用环境中难以精准执行任务、缺乏高质量训练数据以及评估标准不统一的痛点。
这套框架非常适合 AI 研究人员、开发者以及对自动化代理感兴趣的技术团队使用。研究人员可利用其涵盖 3 种操作系统、200+ 应用的 AgentNet 数据集进行模型训练;开发者则能借助 AgentNetTool 高效采集人类操作演示,并利用 AgentNetBench 对模型动作进行离线精准评估。
OpenCUA 的核心亮点在于其端到端的基础模型系列(如 OpenCUA-7B/32B/72B),这些模型不仅具备强大的任务规划能力,还能在图形界面中实现高精度的视觉定位(Grounding),直接生成可执行的操作指令。其中,OpenCUA-72B 曾在权威榜单 OSWorld-Verified 中位居榜首。此外,项目生态活跃,已支持 vLLM 加速推理及低显存量化版本,大大降低了部署门槛,是推动通用电脑操作代理发展的坚实基石。
使用场景
某电商运营团队需要每日跨 Windows 和 macOS 系统,在后台管理系统、ERP 软件及多个网页间重复执行数据核对与报表生成任务。
没有 OpenCUA 时
- 开发成本高昂:为每个特定软件界面编写自动化脚本(如 Selenium 或 PyAutoGUI)耗时费力,一旦 UI 微调脚本即刻失效。
- 跨平台能力缺失:团队成员混用不同操作系统,需维护两套完全不同的自动化逻辑,难以统一调度。
- 泛化能力极弱:传统规则机器人无法理解未见过的新页面布局,遇到弹窗或动态元素往往直接卡死。
- 数据标注困难:缺乏高效工具记录人工操作轨迹,导致无法积累高质量的“电脑使用”训练数据来优化内部模型。
使用 OpenCUA 后
- 端到端智能执行:OpenCUA 模型直接理解屏幕图像与自然语言指令,自动规划点击、输入等底层动作,无需硬编码具体坐标。
- 统一跨系统适配:基于 AgentNet 数据集训练的 OpenCUA 天然支持多操作系统与数百种应用,一套模型即可覆盖全员设备。
- 强鲁棒性与泛化:凭借 SOTA 级的视觉定位能力,即使界面布局变更或出现未知弹窗,OpenCUA 也能像人类一样灵活调整操作策略。
- 闭环数据迭代:利用 AgentNetTool 无缝捕获员工演示过程,快速转化为训练数据,持续微调 OpenCUA 以适应公司特有软件环境。
OpenCUA 将繁琐的界面自动化从“写代码”升级为“教模型”,让智能体真正具备像人类一样操作任意电脑的通用能力。
运行环境要求
- Linux
- macOS
- Windows
- 运行推理推荐 NVIDIA GPU
- OpenCUA-7B 单卡即可
- OpenCUA-32B 需 4 卡张量并行
- OpenCUA-72B 推荐 8 卡(2 卡张量并行 +4 数据并行)
- 显存需求取决于模型大小及量化版本(如 exllamav2 可降低显存),具体未说明,但需配合 --gpu-memory-utilization 参数调整
未说明

快速开始
OpenCUA:面向计算机使用代理的开源基础模型
  🌐 官网   |   📑 论文   |   🤗 数据集   |   🔎 数据查看器   |   🤖 模型   |   🔧 工具   |   🎮 模型演示  
📢 最新动态
2026-01-17:🎉 vLLM现已全面支持OpenCUA-7B、OpenCUA-32B和OpenCUA-72B! 感谢美团EvoCUA团队对vLLM集成所做的贡献。使用方法请参阅vLLM Serve。
2025-12-17:您现在可以通过AgentNet数据查看器在线查看AgentNet数据集轨迹,或使用
data/vis/中的代码可视化您自己的轨迹数据。使用说明请参阅vis/README.md。我们还在此处汇总了AgentNet的元数据Metadata json。2025-11-28:OpenCUA的vLLM支持已在[Model] Add OpenCUA-7B support #29068中提供。非常感谢lim4349!
2025-10-12:OpenCUA-7B-exl2现已上线! ⚡️
感谢Sujit Vasanth制作了OpenCUA-7B的量化exllamav2版本——这使得推理速度更快,同时降低了显存占用。2025-10-03:全新OpenCUA模型!🔥 OpenCUA-72B目前在OSWorld-Verified排行榜上排名第一。它还具有强大的场景理解能力,在UI-Vision上的准确率为37.3%(SOTA),在ScreenSpot-Pro上的准确率为60.8%。
简介
OpenCUA是一个用于扩展CUA数据和基础模型的综合性开源框架,包括:
- AgentNet:首个大规模计算机使用任务数据集,覆盖3个操作系统和200多个应用及网站;
- AgentNetTool:一个能够无缝捕捉人类计算机使用示范的标注基础设施;
- AgentNetBench:一个离线评估工具,用于将模型预测的低级动作与真实轨迹进行对比。
- OpenCUA模型:端到端的计算机使用基础模型,能够在计算机环境中生成可执行的操作,并具备出色的规划和场景理解能力。
借助OpenCUA框架,我们的端到端代理模型在CUA基准测试中表现出色。特别是,OpenCUA-72B在OSWorld-Verified上的平均成功率达到45.0%,在开源模型中树立了新的SOTA记录。
🚀 OpenCUA模型快速入门
为与我们的训练基础设施保持一致,我们在两个方面对模型进行了修改:
- 1. 多模态旋转位置嵌入(M-RoPE)已被1D RoPE取代。
- 2. 使用与Kimi-VL相同的分词器和聊天模板。
- 请勿使用默认的transformers和vllm类加载模型。如果要训练这些模型,分词器和聊天模板必须保持一致。
安装与下载
首先,安装所需的transformers依赖项:
conda create -n opencua python=3.10
conda activate opencua
pip install -r requirement.txt
从Hugging Face下载模型权重:
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="xlangai/OpenCUA-7B",
local_dir="OpenCUA-7B",
local_dir_use_symlinks=False
)
🚀 vLLM服务
我们建议使用vLLM进行生产部署。需要vllm>=0.12.0,并启用--trust-remote-code选项。
# OpenCUA-7B(单GPU)
vllm serve xlangai/OpenCUA-7B \
--trust-remote-code \
--served-model-name opencua-7b \
--host 0.0.0.0 \
--port 8000
# OpenCUA-32B(4 GPU,张量并行)
vllm serve xlangai/OpenCUA-32B \
--trust-remote-code \
--tensor-parallel-size 4 \
--served-model-name opencua-32b \
--host 0.0.0.0 \
--port 8000
# OpenCUA-72B,采用数据并行(tp=2,dp=4,共4个实例,分布在8张GPU上)
vllm serve xlangai/OpenCUA-72B \
--trust-remote-code \
--tensor-parallel-size 2 \
--data-parallel-size 4 \
--gpu-memory-utilization 0.85 \
--host 0.0.0.0 \
--port 8000
请根据您的硬件配置调整--tensor-parallel-size、--data-parallel-size和--gpu-memory-utilization参数。
更多示例和推理代码,请参阅model/inference/vllm_inference.py。
🎯 GUI场景理解
首先启动vLLM服务器(以OpenCUA-7B为例):
vllm serve xlangai/OpenCUA-7B \
--trust-remote-code \
--served-model-name opencua-7b \
--host 0.0.0.0 \
--port 8000
然后运行场景理解示例:
cd ./model/inference/
python vllm_inference.py
或者使用Hugging Face Transformers(无需服务器):
python huggingface_inference.py
🖥️ 计算机使用智能体
OpenCUAAgent 是在 OSWorld 环境中基于 OpenCUA 模型开发的。它通过截屏迭代地感知环境,生成反思性的长链式思维作为内部独白,并预测下一步要执行的动作。OpenCUA 代理默认使用 3 张图像和 L2 格式的 CoT。
在 OSWorld 中运行 OpenCUA-7B 和 OpenCUA-32B 的命令如下:
python run_multienv_opencua.py \
--headless \
--observation_type screenshot \
--model OpenCUA-32B \
--result_dir ./results --test_all_meta_path evaluation_examples/test_all_no_gdrive.json \
--max_steps 100 \
--num_envs 30 \
--coordinate_type qwen25
性能
在线智能体评估
OpenCUA 模型在 OSWorld-Verified 上表现出色。 OPENCUA-32B 以平均 34.8% 的成功率位居所有开源模型之首,大幅超越了之前的基线模型。 同时,它也缩小了与专有 Claude 模型之间的差距。
| 模型 | 15 步 | 50 步 | 100 步 |
|---|---|---|---|
| 专有模型 | |||
| OpenAI CUA | 26.0 | 31.3 | 31.4 |
| Seed 1.5-VL | 27.9 | — | 34.1 |
| Claude 3.7 Sonnet | 27.1 | 35.8 | 35.9 |
| Claude 4 Sonnet | 31.2 | 43.9 | 41.5 |
| 开源模型 | |||
| Qwen 2.5-VL-32B-Instruct | 3.0 | — | 3.9 |
| Qwen 2.5-VL-72B-Instruct | 4.4 | — | 5.0 |
| Kimi-VL-A3B | 9.7 | — | 10.3 |
| UI-TARS-72B-DPO | 24.0 | 25.8 | 27.1 |
| UI-TARS-1.5-7B | 24.5 | 27.3 | 27.4 |
| OpenCUA-7B (我们) | 24.3 | 27.9 | 26.6 |
| OpenCUA-32B (我们) | 29.7 | 34.1 | 34.8 |
| OpenCUA-72B(我们)** | 39.0 | 44.9 | 45.0 |
OpenCUA 的得分是 3 次独立运行的平均值。
GUI 定位性能
| 模型 | OSWorld-G | ScreenSpot-V2 | ScreenSpot-Pro | UI-Vision |
|---|---|---|---|---|
| Qwen2.5-VL-7B | 31.4 | 88.8 | 27.6 | 0.85 |
| Qwen2.5-VL-32B | 46.5 | 87.0 | 39.4 | - |
| UI-TARS-72B | 57.1 | 90.3 | 38.1 | 25.5 |
| OpenCUA-7B | 55.3 | 92.3 | 50.0 | 29.7 |
| OpenCUA-32B | 59.6 | 93.4 | 55.3 | 33.3 |
| OpenCUA-72B | 59.2 | 92.9 | 60.8 | 37.3 |
AgentNetBench(离线评估)
| 模型 | 坐标动作 | 内容动作 | 功能动作 | 平均 |
|---|---|---|---|---|
| Qwen2.5-VL-7B | 50.7 | 40.8 | 3.1 | 48.0 |
| Qwen2.5-VL-32B | 66.6 | 47.2 | 41.5 | 64.8 |
| Qwen2.5-VL-72B | 67.2 | 52.6 | 50.5 | 67.0 |
| OpenAI CUA | 71.7 | 57.3 | 80.0 | 73.1 |
| OpenCUA-7B | 79.0 | 62.0 | 44.3 | 75.2 |
| OpenCUA-32B | 81.9 | 66.1 | 55.7 | 79.1 |
AgentNet 数据集——大规模计算机使用数据集
AgentNet 是首个大规模桌面计算机使用智能体轨迹数据集,包含 22,600 个由人工标注的 Windows、macOS 和 Ubuntu 系统上的计算机使用任务。
在这里下载数据集:
pip install -U huggingface_hub
huggingface-cli download xlangai/AgentNet --repo-type dataset --local-dir ./AgentNet
使用以下命令解压文件(例如 Ubuntu 数据):
cd path_to_your_zip_files
# 合并所有压缩包
zip -s 0 images.zip --out images-full.zip
# 解压
unzip images-full.zip -d path_to_your_target_dir
收集计算机使用智能体训练数据需要 3 个步骤:
- 使用 AgentNetTool 展示人类的计算机使用任务;
- 使用 动作简化与状态-动作匹配 对演示进行预处理;
- 针对每一步,合成反思性的长链式思维。
1 AgentNetTool – 标注与验证工具
我们的 AgentNetTool 是一款跨平台的 GUI 录制工具,可在标注者的设备上无感运行。它会捕获同步的 屏幕视频、鼠标/键盘事件 和 可访问性树,然后提供一个浏览器内界面用于查看、修剪和提交演示。AgentNet Tool 支持 Windows、macOS 和 Ubuntu。
2 DataProcessor – 动作简化与状态–动作匹配
原始演示可能包含数千个低层级事件,过于密集,不适合模型训练。
DataProcessor 模块(./data/data-process/)执行两个关键步骤:
- 动作简化 — 将细粒度的信号合并为简洁、语义明确的 PyAutoGUI 动作(例如,将连续的鼠标移动归并为单次点击,整合滚动操作,将按键序列分组为文本或快捷键)。
- 状态–动作匹配 — 将每个简化的动作与该动作开始 之前 的 最后一个视觉上不同的帧 进行对齐,避免未来信息泄露,从而生成紧凑的状态–动作对。
这些经过处理的轨迹是所有下游训练和评估的基础。
3 CoTGenerator – 合成反思性的长链式思维内部独白
为了提升鲁棒性和可解释性,我们在每条轨迹中加入了 反思性的长链式思维(CoT)推理。
CoTGenerator 流程(./data/cot-generator/)会合成逐步的反思内容,包括:
- 反思前一步的动作,
- 根据当前观察和历史记录解释为何选择该动作,
- 提及可能的替代方案,
- 预测预期的下一状态。
经验表明,使用这些丰富的 CoT 训练的模型能够更好地适应数据规模,并在未见过的应用场景中实现更好的泛化能力。
AgentNetBench
AgentNetBench (./AgentNetBench/) 提供了一个用于操作系统代理轨迹的真实离线评估器。它将模型预测的低层操作(点击、移动到、输入、按键、滚动、终止等)与人类的真实操作进行对比,并报告详细的指标。
👉 请参阅 AgentNetBench/README.md 获取使用说明。
待办事项
vLLM 支持 ✅
- vLLM 现已完全支持 OpenCUA-7B、OpenCUA-32B 和 OpenCUA-72B。
- 使用说明请参阅 vLLM Serve 部分。
- 感谢美团 EvoCUA 团队的贡献!
训练代码
- OpenCUA 模型基于 Kimi 团队的训练基础设施开发。
- 目前正在基于开源基础设施开发训练流水线。
星标历史
致谢
我们感谢 Yu Su、Caiming Xiong 以及匿名审稿人提供的富有洞见的讨论和宝贵反馈。 我们衷心感谢 Moonshot AI 提供的训练基础设施和标注数据。 同时,我们也真诚地感谢 Kimi 团队的 Hao Yang、Zhengtao Wang 和 Yanxu Chen 提供的强大基础设施支持和有益指导。 此外,我们还要感谢来自 美团 EvoCUA 团队的 Chong Peng、Taofeng Xue 和 Qiumian Huang 在 vLLM 集成方面的贡献。 我们的工具开发基于开源项目——DuckTrack 和 OpenAdapt。 我们非常感激他们对开源社区的奉献精神。最后,我们要向所有标注人员致以最深切的谢意,感谢他们为本项目付出的巨大努力和贡献。
研究与商业用途
OpenCUA(包括模型、数据集、工具和代码)可在 MIT 许可证 下用于 研究、教育和商业目的(详见 LICENSE 文件)。
引用与致谢
如果您在任何 报告、技术报告、出版物、论文、演示文稿、博客文章、文档或其他公开分享的材料 中使用了 OpenCUA 模型 和/或 AgentNet 数据集,我们诚恳地请求您在正文中明确注明致谢,并引用 OpenCUA 论文。
禁止用途
- 该模型、数据集、工具和代码不得用于任何违反任何司法管辖区适用法律或法规的目的或活动。
- 严禁将其用于非法、不道德或有害的活动。
免责声明
- 作者、贡献者及版权所有者对软件的任何非法、不道德或有害使用,以及由此产生的任何直接或间接损害概不负责。
- 未经另行书面许可,使用“OpenCUA”名称、标志或商标并不意味着任何形式的背书或隶属关系。
- 用户应自行确保其使用符合相关法律法规。
引用
如果您在研究中使用 OpenCUA,请引用我们的工作:
@misc{wang2025opencuaopenfoundationscomputeruse,
title={OpenCUA: Open Foundations for Computer-Use Agents},
author={Xinyuan Wang and Bowen Wang and Dunjie Lu and Junlin Yang and Tianbao Xie and Junli Wang and Jiaqi Deng and Xiaole Guo and Yiheng Xu and Chen Henry Wu and Zhennan Shen and Zhuokai Li and Ryan Li and Xiaochuan Li and Junda Chen and Boyuan Zheng and Peihang Li and Fangyu Lei and Ruisheng Cao and Yeqiao Fu and Dongchan Shin and Martin Shin and Jiarui Hu and Yuyan Wang and Jixuan Chen and Yuxiao Ye and Danyang Zhang and Dikang Du and Hao Hu and Huarong Chen and Zaida Zhou and Haotian Yao and Ziwei Chen and Qizheng Gu and Yipu Wang and Heng Wang and Diyi Yang and Victor Zhong and Flood Sung and Y. Charles and Zhilin Yang and Tao Yu},
year={2025},
eprint={2508.09123},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2508.09123},
}
版本历史
v1.0.02025/08/11常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
