self-operating-computer
self-operating-computer 是一个让多模态大模型直接操作电脑的开源框架。它能让 AI 像人类一样“看”屏幕,并自主决定鼠标点击和键盘输入等操作,从而完成指定任务。作为早期实现“全自动电脑操控”的项目之一,它解决了传统自动化脚本灵活性差、难以应对复杂图形界面的痛点,让 AI 能真正理解并交互于真实的桌面环境。
该工具适合开发者、AI 研究人员以及希望探索大模型实际应用能力的技术爱好者使用。无论是测试不同模型的操控能力,还是构建更智能的自动化工作流,self-operating-computer 都提供了便捷的实验平台。其核心亮点在于广泛的模型兼容性,不仅支持 OpenAI 的 GPT-4o、o1 系列,还集成了谷歌 Gemini、Anthropic Claude 3、阿里通义千问 VL 以及本地部署的 LLaVa 等多种主流多模态模型。用户只需通过简单的命令行指令即可切换不同模型进行对比测试,同时项目对 macOS 系统的屏幕录制与辅助功能权限做了细致适配,降低了上手门槛。如果你好奇 AI 如何独立操作电脑,或想验证不同视觉模型在真实场景中的表现,这是一个值得尝试的实用工具。
使用场景
一位数据分析师需要在每天早晨从多个内部网页系统中抓取最新销售数据,整理成 Excel 报表并发送给团队,这一过程涉及复杂的跨应用操作。
没有 self-operating-computer 时
- 重复劳动耗时:人工依次打开浏览器、登录不同系统、复制粘贴数据,每天耗费约 45 分钟在机械性操作上。
- 易出错风险高:在频繁切换窗口和手动复制过程中,容易选错单元格或遗漏关键数据行,导致报表准确性下降。
- 流程难以标准化:若需临时增加一个数据源或调整格式,必须重新编写复杂的自动化脚本(如 Selenium),维护成本极高。
- 无法处理动态界面:传统 RPA 工具难以应对网页布局的微小变化或弹窗验证,一旦界面更新,自动化流程即刻失效。
- 夜间任务受限:由于需要人工介入处理突发验证码或异常弹窗,无法真正实现全天候无人值守运行。
使用 self-operating-computer 后
- 全自动执行:只需输入“获取昨日销售数据并生成报表”,self-operating-computer 即可像人一样观察屏幕,自动完成点击、输入和文件保存全流程,耗时缩短至 5 分钟。
- 智能纠错与适应:基于多模态模型视觉能力,它能识别界面元素而非固定坐标,即使网页布局微调或出现意外弹窗,也能自主判断并正确操作。
- 零代码灵活调整:变更需求时仅需修改自然语言指令(如“增加利润率列”),无需重写底层代码,极大降低了维护门槛。
- 跨应用无缝协同:自如地在浏览器、Excel 和邮件客户端之间切换,模拟真实人类操作逻辑,完美解决跨软件数据流转难题。
- 真正无人值守:结合定时任务,可在凌晨自动唤醒执行,遇到复杂验证也能尝试自主解决,实现完整的端到端自动化。
self-operating-computer 将原本依赖人工经验的碎片化操作,转化为由多模态模型驱动的智能自主工作流,彻底释放了重复性电脑操作的生产力。
运行环境要求
- macOS
- Windows
- Linux
未说明
未说明

快速开始
ome
自操作计算机框架
一个使多模态模型能够操作计算机的框架。
模型以与人类操作员相同的输入和输出方式,通过观察屏幕并决定一系列鼠标和键盘操作来达成目标。该自操作计算机框架于2023年11月发布,是最早实现完整计算机使用的示例之一。
核心特性
- 兼容性:专为多种多模态模型设计。
- 集成:目前已集成 GPT-4o、GPT-4.1、o1、Gemini Pro Vision、Claude 3、Qwen-VL 和 LLaVa。
- 未来计划:支持更多模型。
演示
运行 自操作计算机
- 安装项目
pip install self-operating-computer
- 运行项目
operate
- 输入您的 OpenAI 密钥:如果您没有密钥,可以在此处获取 OpenAI 密钥。如果需要在之后更改密钥,请运行
vim .env打开.env文件并替换旧密钥。
- 授予终端应用所需权限:最后一步,终端应用会在 Mac 的“系统偏好设置”中的“安全性与隐私”页面中请求“屏幕录制”和“辅助功能”的权限。
使用 operate 模式
OpenAI 模型
项目的默认模型是 gpt-4o,您只需输入 operate 即可使用。要尝试运行 OpenAI 的新 o1 模型,请使用以下命令:
operate -m o1-with-ocr
要体验 OpenAI 最新的 gpt-4.1 模型,请运行:
operate -m gpt-4.1-with-ocr
多模态模型 -m
请按照以下步骤尝试 Google 的 gemini-pro-vision。使用 Gemini 模型启动 operate:
operate -m gemini-pro-vision
当终端提示时,请输入您的 Google AI Studio API 密钥。如果您没有密钥,可以在设置好 Google AI Studio 账户后在此处获取密钥 Google AI Studio。您可能还需要为桌面应用程序授权凭据 Google AI OAuth 快速入门。我花了一段时间才让它正常工作,如果有更简单的方法,请提交 PR。
尝试 Claude -m claude-3
使用带有视觉功能的 Claude 3 来看看它在操作计算机方面如何与 GPT-4-Vision 相比。前往 Claude 控制台获取 API 密钥,并运行以下命令进行尝试:
operate -m claude-3
尝试 Qwen -m qwen-vl
使用带有视觉功能的 Qwen-vl 来查看它在操作计算机方面如何与 GPT-4-Vision 相比。前往 Qwen 控制台获取 API 密钥,并运行以下命令进行尝试:
operate -m qwen-vl
尝试 LLaVA 通过 Ollama 托管 -m llava
如果您希望在自己的机器上使用 LLaVA 来试验自操作计算机框架,可以通过 Ollama 实现!
注意:Ollama 目前仅支持 MacOS 和 Linux。Windows 现已进入预览阶段
首先,从 https://ollama.ai/download 在您的机器上安装 Ollama。
Ollama 安装完成后,拉取 LLaVA 模型:
ollama pull llava
这将在您的机器上下载模型,大约占用 5 GB 存储空间。
当 Ollama 完成拉取 LLaVA 后,启动服务器:
ollama serve
就是这样!现在启动 operate 并选择 LLaVA 模型:
operate -m llava
重要提示:使用 LLaVA 时错误率非常高。这只是为了作为基础,以便在未来本地多模态模型改进时继续构建。
更多关于 Ollama 的信息,请访问其 GitHub 仓库
语音模式 --voice
该框架支持通过语音输入目标。请按照以下步骤尝试语音功能。
克隆仓库到您电脑上的一个目录:
git clone https://github.com/OthersideAI/self-operating-computer.git
进入目录:
cd self-operating-computer
安装额外的 requirements-audio.txt
pip install -r requirements-audio.txt
安装设备依赖 对于 Mac 用户:
brew install portaudio
对于 Linux 用户:
sudo apt install portaudio19-dev python3-pyaudio
以语音模式运行:
operate --voice
光学字符识别模式 -m gpt-4-with-ocr
自操作计算机框架现已将光学字符识别 (OCR) 功能集成到 gpt-4-with-ocr 模式中。此模式为 GPT-4 提供了一个基于坐标的可点击元素哈希表。GPT-4 可以根据文本决定点击哪些元素,然后代码会参考该哈希表来获取 GPT-4 想要点击的那个元素的坐标。
根据最近的测试,OCR 的表现优于 som 和普通的 GPT-4,因此我们将其设为项目的默认模式。要使用 OCR 模式,您可以直接输入:
operate 或者 operate -m gpt-4-with-ocr 也同样适用。
集合标记提示 -m gpt-4-with-som
自操作计算机框架现在支持集合标记(SoM)提示,可通过 gpt-4-with-som 命令实现。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。
有关 SoM 提示的更多信息,请参阅详细的 arXiv 论文:这里。
对于这个初始版本,我们训练了一个简单的 YOLOv8 模型用于按钮检测,并将 best.pt 文件包含在 model/weights/ 目录下。鼓励用户替换为自己的 best.pt 文件,以评估性能提升。如果您训练的模型优于现有模型,请通过创建拉取请求 (PR) 来贡献。
使用 SoM 模型启动 operate:
operate -m gpt-4-with-som
欢迎贡献!:
如果您想亲自贡献,请参阅 CONTRIBUTING.md。
反馈
如需对本项目提出任何改进建议,请随时通过 Twitter 联系 Josh。
加入我们的 Discord 社区
如需实时讨论和社区支持,请加入我们的 Discord 服务器。
- 如果您已经是成员,请在 #self-operating-computer 频道参与讨论。
- 如果您是新用户,请先 加入我们的 Discord 服务器,然后前往 #self-operating-computer 频道。
关注 HyperWriteAI 以获取更多更新
随时掌握最新动态:
光盘兼容性
- 本项目兼容 macOS、Windows 和 Linux(需安装 X 服务器)。
OpenAI 速率限制说明
需要使用 gpt-4o 模型。要解锁该模型的访问权限,您的账户需在 API 信用额度上至少消费 5 美元。如果您尚未达到最低消费额,提前预付这些费用即可解锁访问权限。
了解更多信息 请点击此处
版本历史
v1.5.82025/02/28v1.5.72025/01/23v1.5.62025/01/23v1.5.52024/12/19v1.5.12024/12/18v1.5.02024/12/18v1.4.62024/07/09v1.4.52024/03/21v1.4.22024/03/20v1.4.12024/03/20v1.4.02024/03/20v1.3.22024/02/17v1.3.12024/02/09v1.3.02024/02/09v1.2.92024/02/02v1.2.82024/01/25v1.2.72024/01/24v1.2.62024/01/24v1.2.52024/01/19v1.2.42024/01/19常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。