[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-OthersideAI--self-operating-computer":3,"similar-OthersideAI--self-operating-computer":171},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":19,"owner_website":18,"owner_url":20,"languages":21,"stars":26,"forks":27,"last_commit_at":28,"license":29,"difficulty_score":30,"env_os":31,"env_gpu":32,"env_ram":32,"env_deps":33,"category_tags":39,"github_topics":41,"view_count":30,"oss_zip_url":18,"oss_zip_packed_at":18,"status":45,"created_at":46,"updated_at":47,"faqs":48,"releases":74},4550,"OthersideAI\u002Fself-operating-computer","self-operating-computer","A framework to enable multimodal models to operate a computer.","self-operating-computer 是一个让多模态大模型直接操作电脑的开源框架。它能让 AI 像人类一样“看”屏幕，并自主决定鼠标点击和键盘输入等操作，从而完成指定任务。作为早期实现“全自动电脑操控”的项目之一，它解决了传统自动化脚本灵活性差、难以应对复杂图形界面的痛点，让 AI 能真正理解并交互于真实的桌面环境。\n\n该工具适合开发者、AI 研究人员以及希望探索大模型实际应用能力的技术爱好者使用。无论是测试不同模型的操控能力，还是构建更智能的自动化工作流，self-operating-computer 都提供了便捷的实验平台。其核心亮点在于广泛的模型兼容性，不仅支持 OpenAI 的 GPT-4o、o1 系列，还集成了谷歌 Gemini、Anthropic Claude 3、阿里通义千问 VL 以及本地部署的 LLaVa 等多种主流多模态模型。用户只需通过简单的命令行指令即可切换不同模型进行对比测试，同时项目对 macOS 系统的屏幕录制与辅助功能权限做了细致适配，降低了上手门槛。如果你好奇 AI 如何独立操作电脑，或想验证不同视觉模型在真实场景中的表现，这是一个值得尝试的","self-operating-computer 是一个让多模态大模型直接操作电脑的开源框架。它能让 AI 像人类一样“看”屏幕，并自主决定鼠标点击和键盘输入等操作，从而完成指定任务。作为早期实现“全自动电脑操控”的项目之一，它解决了传统自动化脚本灵活性差、难以应对复杂图形界面的痛点，让 AI 能真正理解并交互于真实的桌面环境。\n\n该工具适合开发者、AI 研究人员以及希望探索大模型实际应用能力的技术爱好者使用。无论是测试不同模型的操控能力，还是构建更智能的自动化工作流，self-operating-computer 都提供了便捷的实验平台。其核心亮点在于广泛的模型兼容性，不仅支持 OpenAI 的 GPT-4o、o1 系列，还集成了谷歌 Gemini、Anthropic Claude 3、阿里通义千问 VL 以及本地部署的 LLaVa 等多种主流多模态模型。用户只需通过简单的命令行指令即可切换不同模型进行对比测试，同时项目对 macOS 系统的屏幕录制与辅助功能权限做了细致适配，降低了上手门槛。如果你好奇 AI 如何独立操作电脑，或想验证不同视觉模型在真实场景中的表现，这是一个值得尝试的实用工具。","ome\n\u003Ch1 align=\"center\">Self-Operating Computer Framework\u003C\u002Fh1>\n\n\u003Cp align=\"center\">\n  \u003Cstrong>A framework to enable multimodal models to operate a computer.\u003C\u002Fstrong>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  Using the same inputs and outputs as a human operator, the model views the screen and decides on a series of mouse and keyboard actions to reach an objective. Released Nov 2023, the Self-Operating Computer Framework was one of the first examples of full computer-use. \n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_a17ee7eb5fc2.png\" width=\"750\"  style=\"margin: 10px;\"\u002F>\n\u003C\u002Fdiv>\n\n\u003C!--\n:rotating_light: **OUTAGE NOTIFICATION: gpt-4o**\n**This model is currently experiencing an outage so the self-operating computer may not work as expected.**\n-->\n\n\n## Key Features\n- **Compatibility**: Designed for various multimodal models.\n- **Integration**: Currently integrated with **GPT-4o, GPT-4.1, o1, Gemini Pro Vision, Claude 3, Qwen-VL and LLaVa.**\n- **Future Plans**: Support for additional models.\n\n## Demo\nhttps:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fassets\u002F42594239\u002F9e8abc96-c76a-46fb-9b13-03678b3c67e0\n\n\n## Run `Self-Operating Computer`\n\n1. **Install the project**\n```\npip install self-operating-computer\n```\n2. **Run the project**\n```\noperate\n```\n3. **Enter your OpenAI Key**: If you don't have one, you can obtain an OpenAI key [here](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys). If you need you change your key at a later point, run `vim .env` to open the `.env` and replace the old key. \n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_1125179c52a9.png\" width=\"300\"  style=\"margin: 10px;\"\u002F>\n\u003C\u002Fdiv>\n\n4. **Give Terminal app the required permissions**: As a last step, the Terminal app will ask for permission for \"Screen Recording\" and \"Accessibility\" in the \"Security & Privacy\" page of Mac's \"System Preferences\".\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_362fd5990d84.png\" width=\"300\"  style=\"margin: 10px;\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_c6aa368050c5.png\" width=\"300\"  style=\"margin: 10px;\"\u002F>\n\u003C\u002Fdiv>\n\n## Using `operate` Modes\n\n#### OpenAI models\n\nThe default model for the project is gpt-4o which you can use by simply typing `operate`. To try running OpenAI's new `o1` model, use the command below.\n\n```\noperate -m o1-with-ocr\n```\n\nTo experiment with OpenAI's latest `gpt-4.1` model, run:\n\n```\noperate -m gpt-4.1-with-ocr\n```\n\n\n### Multimodal Models  `-m`\nTry Google's `gemini-pro-vision` by following the instructions below. Start `operate` with the Gemini model\n```\noperate -m gemini-pro-vision\n```\n\n**Enter your Google AI Studio API key when terminal prompts you for it** If you don't have one, you can obtain a key [here](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey) after setting up your Google AI Studio account. You may also need [authorize credentials for a desktop application](https:\u002F\u002Fai.google.dev\u002Fpalm_docs\u002Foauth_quickstart). It took me a bit of time to get it working, if anyone knows a simpler way, please make a PR.\n\n#### Try Claude `-m claude-3`\nUse Claude 3 with Vision to see how it stacks up to GPT-4-Vision at operating a computer. Navigate to the [Claude dashboard](https:\u002F\u002Fconsole.anthropic.com\u002Fdashboard) to get an API key and run the command below to try it. \n\n```\noperate -m claude-3\n```\n\n#### Try qwen `-m qwen-vl`\nUse Qwen-vl with Vision to see how it stacks up to GPT-4-Vision at operating a computer. Navigate to the [Qwen dashboard](https:\u002F\u002Fbailian.console.aliyun.com\u002F) to get an API key and run the command below to try it. \n\n```\noperate -m qwen-vl\n```\n\n#### Try LLaVa Hosted Through Ollama `-m llava`\nIf you wish to experiment with the Self-Operating Computer Framework using LLaVA on your own machine, you can with Ollama!   \n*Note: Ollama currently only supports MacOS and Linux. Windows now in Preview*   \n\nFirst, install Ollama on your machine from https:\u002F\u002Follama.ai\u002Fdownload.   \n\nOnce Ollama is installed, pull the LLaVA model:\n```\nollama pull llava\n```\nThis will download the model on your machine which takes approximately 5 GB of storage.   \n\nWhen Ollama has finished pulling LLaVA, start the server:\n```\nollama serve\n```\n\nThat's it! Now start `operate` and select the LLaVA model:\n```\noperate -m llava\n```   \n**Important:** Error rates when using LLaVA are very high. This is simply intended to be a base to build off of as local multimodal models improve over time.\n\nLearn more about Ollama at its [GitHub Repository](https:\u002F\u002Fwww.github.com\u002Follama\u002Follama)\n\n### Voice Mode `--voice`\nThe framework supports voice inputs for the objective. Try voice by following the instructions below. \n**Clone the repo** to a directory on your computer:\n```\ngit clone https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer.git\n```\n**Cd into directory**:\n```\ncd self-operating-computer\n```\nInstall the additional `requirements-audio.txt`\n```\npip install -r requirements-audio.txt\n```\n**Install device requirements**\nFor mac users:\n```\nbrew install portaudio\n```\nFor Linux users:\n```\nsudo apt install portaudio19-dev python3-pyaudio\n```\nRun with voice mode\n```\noperate --voice\n```\n\n### Optical Character Recognition Mode `-m gpt-4-with-ocr`\nThe Self-Operating Computer Framework now integrates Optical Character Recognition (OCR) capabilities with the `gpt-4-with-ocr` mode. This mode gives GPT-4 a hash map of clickable elements by coordinates. GPT-4 can decide to `click` elements by text and then the code references the hash map to get the coordinates for that element GPT-4 wanted to click. \n\nBased on recent tests, OCR performs better than `som` and vanilla GPT-4 so we made it the default for the project. To use the OCR mode you can simply write: \n\n `operate` or `operate -m gpt-4-with-ocr` will also work. \n\n### Set-of-Mark Prompting `-m gpt-4-with-som`\nThe Self-Operating Computer Framework now supports Set-of-Mark (SoM) Prompting with the `gpt-4-with-som` command. This new visual prompting method enhances the visual grounding capabilities of large multimodal models.\n\nLearn more about SoM Prompting in the detailed arXiv paper: [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11441).\n\nFor this initial version, a simple YOLOv8 model is trained for button detection, and the `best.pt` file is included under `model\u002Fweights\u002F`. Users are encouraged to swap in their `best.pt` file to evaluate performance improvements. If your model outperforms the existing one, please contribute by creating a pull request (PR).\n\nStart `operate` with the SoM model\n\n```\noperate -m gpt-4-with-som\n```\n\n\n\n## Contributions are Welcomed!:\n\nIf you want to contribute yourself, see [CONTRIBUTING.md](https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fblob\u002Fmain\u002FCONTRIBUTING.md).\n\n## Feedback\n\nFor any input on improving this project, feel free to reach out to [Josh](https:\u002F\u002Ftwitter.com\u002Fjosh_bickett) on Twitter. \n\n## Join Our Discord Community\n\nFor real-time discussions and community support, join our Discord server. \n- If you're already a member, join the discussion in [#self-operating-computer](https:\u002F\u002Fdiscord.com\u002Fchannels\u002F877638638001877052\u002F1181241785834541157).\n- If you're new, first [join our Discord Server](https:\u002F\u002Fdiscord.gg\u002FYqaKtyBEzM) and then navigate to the [#self-operating-computer](https:\u002F\u002Fdiscord.com\u002Fchannels\u002F877638638001877052\u002F1181241785834541157).\n\n## Follow HyperWriteAI for More Updates\n\nStay updated with the latest developments:\n- Follow HyperWriteAI on [Twitter](https:\u002F\u002Ftwitter.com\u002FHyperWriteAI).\n- Follow HyperWriteAI on [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fcompany\u002Fothersideai\u002F).\n\n## Compatibility\n- This project is compatible with Mac OS, Windows, and Linux (with X server installed).\n\n## OpenAI Rate Limiting Note\nThe ```gpt-4o``` model is required. To unlock access to this model, your account needs to spend at least \\$5 in API credits. Pre-paying for these credits will unlock access if you haven't already spent the minimum \\$5.   \nLearn more **[here](https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fguides\u002Frate-limits?context=tier-one)**\n","ome\n\u003Ch1 align=\"center\">自操作计算机框架\u003C\u002Fh1>\n\n\u003Cp align=\"center\">\n  \u003Cstrong>一个使多模态模型能够操作计算机的框架。\u003C\u002Fstrong>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n  模型以与人类操作员相同的输入和输出方式，通过观察屏幕并决定一系列鼠标和键盘操作来达成目标。该自操作计算机框架于2023年11月发布，是最早实现完整计算机使用的示例之一。\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_a17ee7eb5fc2.png\" width=\"750\"  style=\"margin: 10px;\"\u002F>\n\u003C\u002Fdiv>\n\n\u003C!--\n:rotating_light: **中断通知：gpt-4o**\n**该模型目前出现中断，因此自操作计算机可能无法按预期工作。**\n-->\n\n\n## 核心特性\n- **兼容性**：专为多种多模态模型设计。\n- **集成**：目前已集成 **GPT-4o、GPT-4.1、o1、Gemini Pro Vision、Claude 3、Qwen-VL 和 LLaVa**。\n- **未来计划**：支持更多模型。\n\n## 演示\nhttps:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fassets\u002F42594239\u002F9e8abc96-c76a-46fb-9b13-03678b3c67e0\n\n\n## 运行 `自操作计算机`\n\n1. **安装项目**\n```\npip install self-operating-computer\n```\n2. **运行项目**\n```\noperate\n```\n3. **输入您的 OpenAI 密钥**：如果您没有密钥，可以在此处获取 [OpenAI 密钥](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys)。如果需要在之后更改密钥，请运行 `vim .env` 打开 `.env` 文件并替换旧密钥。\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_1125179c52a9.png\" width=\"300\"  style=\"margin: 10px;\"\u002F>\n\u003C\u002Fdiv>\n\n4. **授予终端应用所需权限**：最后一步，终端应用会在 Mac 的“系统偏好设置”中的“安全性与隐私”页面中请求“屏幕录制”和“辅助功能”的权限。\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_362fd5990d84.png\" width=\"300\"  style=\"margin: 10px;\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_readme_c6aa368050c5.png\" width=\"300\"  style=\"margin: 10px;\"\u002F>\n\u003C\u002Fdiv>\n\n## 使用 `operate` 模式\n\n#### OpenAI 模型\n\n项目的默认模型是 gpt-4o，您只需输入 `operate` 即可使用。要尝试运行 OpenAI 的新 `o1` 模型，请使用以下命令：\n\n```\noperate -m o1-with-ocr\n```\n\n要体验 OpenAI 最新的 `gpt-4.1` 模型，请运行：\n\n```\noperate -m gpt-4.1-with-ocr\n```\n\n\n### 多模态模型 `-m`\n请按照以下步骤尝试 Google 的 `gemini-pro-vision`。使用 Gemini 模型启动 `operate`：\n\n```\noperate -m gemini-pro-vision\n```\n\n**当终端提示时，请输入您的 Google AI Studio API 密钥**。如果您没有密钥，可以在设置好 Google AI Studio 账户后在此处获取密钥 [Google AI Studio](https:\u002F\u002Fmakersuite.google.com\u002Fapp\u002Fapikey)。您可能还需要为桌面应用程序授权凭据 [Google AI OAuth 快速入门](https:\u002F\u002Fai.google.dev\u002Fpalm_docs\u002Foauth_quickstart)。我花了一段时间才让它正常工作，如果有更简单的方法，请提交 PR。\n\n#### 尝试 Claude `-m claude-3`\n使用带有视觉功能的 Claude 3 来看看它在操作计算机方面如何与 GPT-4-Vision 相比。前往 [Claude 控制台](https:\u002F\u002Fconsole.anthropic.com\u002Fdashboard)获取 API 密钥，并运行以下命令进行尝试：\n\n```\noperate -m claude-3\n```\n\n#### 尝试 Qwen `-m qwen-vl`\n使用带有视觉功能的 Qwen-vl 来查看它在操作计算机方面如何与 GPT-4-Vision 相比。前往 [Qwen 控制台](https:\u002F\u002Fbailian.console.aliyun.com\u002F)获取 API 密钥，并运行以下命令进行尝试：\n\n```\noperate -m qwen-vl\n```\n\n#### 尝试 LLaVA 通过 Ollama 托管 `-m llava`\n如果您希望在自己的机器上使用 LLaVA 来试验自操作计算机框架，可以通过 Ollama 实现！   \n*注意：Ollama 目前仅支持 MacOS 和 Linux。Windows 现已进入预览阶段*   \n\n首先，从 https:\u002F\u002Follama.ai\u002Fdownload 在您的机器上安装 Ollama。   \n\nOllama 安装完成后，拉取 LLaVA 模型：\n```\nollama pull llava\n```\n这将在您的机器上下载模型，大约占用 5 GB 存储空间。   \n\n当 Ollama 完成拉取 LLaVA 后，启动服务器：\n```\nollama serve\n```\n\n就是这样！现在启动 `operate` 并选择 LLaVA 模型：\n```\noperate -m llava\n```   \n**重要提示**：使用 LLaVA 时错误率非常高。这只是为了作为基础，以便在未来本地多模态模型改进时继续构建。\n\n更多关于 Ollama 的信息，请访问其 [GitHub 仓库](https:\u002F\u002Fwww.github.com\u002Follama\u002Follama)\n\n### 语音模式 `--voice`\n该框架支持通过语音输入目标。请按照以下步骤尝试语音功能。  \n**克隆仓库**到您电脑上的一个目录：\n```\ngit clone https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer.git\n```\n**进入目录**：\n```\ncd self-operating-computer\n```\n安装额外的 `requirements-audio.txt`\n```\npip install -r requirements-audio.txt\n```\n**安装设备依赖**\n对于 Mac 用户：\n```\nbrew install portaudio\n```\n对于 Linux 用户：\n```\nsudo apt install portaudio19-dev python3-pyaudio\n```\n以语音模式运行：\n```\noperate --voice\n```\n\n### 光学字符识别模式 `-m gpt-4-with-ocr`\n自操作计算机框架现已将光学字符识别 (OCR) 功能集成到 `gpt-4-with-ocr` 模式中。此模式为 GPT-4 提供了一个基于坐标的可点击元素哈希表。GPT-4 可以根据文本决定点击哪些元素，然后代码会参考该哈希表来获取 GPT-4 想要点击的那个元素的坐标。\n\n根据最近的测试，OCR 的表现优于 `som` 和普通的 GPT-4，因此我们将其设为项目的默认模式。要使用 OCR 模式，您可以直接输入：\n\n`operate` 或者 `operate -m gpt-4-with-ocr` 也同样适用。\n\n### 集合标记提示 `-m gpt-4-with-som`\n自操作计算机框架现在支持集合标记（SoM）提示，可通过 `gpt-4-with-som` 命令实现。这种新的视觉提示方法增强了大型多模态模型的视觉定位能力。\n\n有关 SoM 提示的更多信息，请参阅详细的 arXiv 论文：[这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11441)。\n\n对于这个初始版本，我们训练了一个简单的 YOLOv8 模型用于按钮检测，并将 `best.pt` 文件包含在 `model\u002Fweights\u002F` 目录下。鼓励用户替换为自己的 `best.pt` 文件，以评估性能提升。如果您训练的模型优于现有模型，请通过创建拉取请求 (PR) 来贡献。\n\n使用 SoM 模型启动 `operate`：\n\n```\noperate -m gpt-4-with-som\n```\n\n\n\n## 欢迎贡献！:\n\n如果您想亲自贡献，请参阅 [CONTRIBUTING.md](https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fblob\u002Fmain\u002FCONTRIBUTING.md)。\n\n## 反馈\n\n如需对本项目提出任何改进建议，请随时通过 Twitter 联系 [Josh](https:\u002F\u002Ftwitter.com\u002Fjosh_bickett)。\n\n## 加入我们的 Discord 社区\n\n如需实时讨论和社区支持，请加入我们的 Discord 服务器。\n- 如果您已经是成员，请在 [#self-operating-computer](https:\u002F\u002Fdiscord.com\u002Fchannels\u002F877638638001877052\u002F1181241785834541157) 频道参与讨论。\n- 如果您是新用户，请先 [加入我们的 Discord 服务器](https:\u002F\u002Fdiscord.gg\u002FYqaKtyBEzM)，然后前往 [#self-operating-computer](https:\u002F\u002Fdiscord.com\u002Fchannels\u002F877638638001877052\u002F1181241785834541157) 频道。\n\n## 关注 HyperWriteAI 以获取更多更新\n\n随时掌握最新动态：\n- 在 [Twitter](https:\u002F\u002Ftwitter.com\u002FHyperWriteAI) 上关注 HyperWriteAI。\n- 在 [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fcompany\u002Fothersideai\u002F) 上关注 HyperWriteAI。\n\n## 光盘兼容性\n- 本项目兼容 macOS、Windows 和 Linux（需安装 X 服务器）。\n\n## OpenAI 速率限制说明\n需要使用 ```gpt-4o``` 模型。要解锁该模型的访问权限，您的账户需在 API 信用额度上至少消费 5 美元。如果您尚未达到最低消费额，提前预付这些费用即可解锁访问权限。\n了解更多信息 **[请点击此处](https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fguides\u002Frate-limits?context=tier-one)**","# Self-Operating Computer 快速上手指南\n\nSelf-Operating Computer 是一个让多模态大模型能够像人类一样操作计算机的框架。模型通过“看”屏幕内容，自主决定鼠标和键盘操作序列以完成指定目标。\n\n## 环境准备\n\n### 系统要求\n本项目支持以下操作系统：\n- **macOS** (推荐，权限配置最简便)\n- **Linux** (需安装 X server)\n- **Windows** (预览版支持)\n\n### 前置依赖与权限\n在运行前，请确保终端应用拥有以下系统权限（以 macOS 为例）：\n1. 打开 **系统设置** > **隐私与安全性**。\n2. 授予终端应用 **屏幕录制 (Screen Recording)** 权限。\n3. 授予终端应用 **辅助功能 (Accessibility)** 权限。\n\n> **注意**：若使用 OpenAI 模型，您的账户需至少消耗 $5 API 额度以解锁 `gpt-4o` 访问权限。\n\n## 安装步骤\n\n1. **安装项目包**\n   使用 pip 直接安装：\n   ```bash\n   pip install self-operating-computer\n   ```\n\n2. **（可选）语音模式额外依赖**\n   如果您需要使用语音输入功能，需克隆仓库并安装音频依赖：\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer.git\n   cd self-operating-computer\n   pip install -r requirements-audio.txt\n   ```\n   *系统级依赖安装：*\n   - macOS: `brew install portaudio`\n   - Linux: `sudo apt install portaudio19-dev python3-pyaudio`\n\n## 基本使用\n\n### 1. 启动程序\n在终端输入以下命令启动框架：\n```bash\noperate\n```\n\n### 2. 配置 API Key\n首次运行时，程序会提示您输入 API Key：\n- **OpenAI**: 输入您的 OpenAI API Key。如需修改，可运行 `vim .env` 编辑配置文件。\n- **其他模型**: 根据提示输入对应厂商（Google, Anthropic, Aliyun 等）的 API Key。\n\n### 3. 授权确认\n启动后，系统可能会弹出权限请求窗口，请点击“允许”授予屏幕录制和辅助功能权限。\n\n### 4. 开始操作\n权限配置完成后，直接在终端输入您的自然语言目标（例如：“打开浏览器并搜索 AI 新闻”），模型将自动接管屏幕进行操作。\n\n---\n\n### 常用模型切换示例\n\n默认使用 `gpt-4o` 模型。您可以通过 `-m` 参数切换其他支持的模型：\n\n- **使用 OpenAI o1 模型**:\n  ```bash\n  operate -m o1-with-ocr\n  ```\n\n- **使用 Google Gemini Pro Vision**:\n  ```bash\n  operate -m gemini-pro-vision\n  ```\n\n- **使用 Claude 3**:\n  ```bash\n  operate -m claude-3\n  ```\n\n- **使用通义千问 (Qwen-VL)**:\n  ```bash\n  operate -m qwen-vl\n  ```\n\n- **使用本地 LLaVA (需先安装 Ollama)**:\n  ```bash\n  # 拉取模型\n  ollama pull llava\n  # 启动服务\n  ollama serve\n  # 运行框架\n  operate -m llava\n  ```\n\n- **启用语音输入模式**:\n  ```bash\n  operate --voice\n  ```","一位数据分析师需要在每天早晨从多个内部网页系统中抓取最新销售数据，整理成 Excel 报表并发送给团队，这一过程涉及复杂的跨应用操作。\n\n### 没有 self-operating-computer 时\n- **重复劳动耗时**：人工依次打开浏览器、登录不同系统、复制粘贴数据，每天耗费约 45 分钟在机械性操作上。\n- **易出错风险高**：在频繁切换窗口和手动复制过程中，容易选错单元格或遗漏关键数据行，导致报表准确性下降。\n- **流程难以标准化**：若需临时增加一个数据源或调整格式，必须重新编写复杂的自动化脚本（如 Selenium），维护成本极高。\n- **无法处理动态界面**：传统 RPA 工具难以应对网页布局的微小变化或弹窗验证，一旦界面更新，自动化流程即刻失效。\n- **夜间任务受限**：由于需要人工介入处理突发验证码或异常弹窗，无法真正实现全天候无人值守运行。\n\n### 使用 self-operating-computer 后\n- **全自动执行**：只需输入“获取昨日销售数据并生成报表”，self-operating-computer 即可像人一样观察屏幕，自动完成点击、输入和文件保存全流程，耗时缩短至 5 分钟。\n- **智能纠错与适应**：基于多模态模型视觉能力，它能识别界面元素而非固定坐标，即使网页布局微调或出现意外弹窗，也能自主判断并正确操作。\n- **零代码灵活调整**：变更需求时仅需修改自然语言指令（如“增加利润率列”），无需重写底层代码，极大降低了维护门槛。\n- **跨应用无缝协同**：自如地在浏览器、Excel 和邮件客户端之间切换，模拟真实人类操作逻辑，完美解决跨软件数据流转难题。\n- **真正无人值守**：结合定时任务，可在凌晨自动唤醒执行，遇到复杂验证也能尝试自主解决，实现完整的端到端自动化。\n\nself-operating-computer 将原本依赖人工经验的碎片化操作，转化为由多模态模型驱动的智能自主工作流，彻底释放了重复性电脑操作的生产力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOthersideAI_self-operating-computer_8e908edd.png","OthersideAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOthersideAI_99248c66.jpg","We create technology to help the world communicate more effectively.",null,"othersideai","https:\u002F\u002Fgithub.com\u002FOthersideAI",[22],{"name":23,"color":24,"percentage":25},"Python","#3572A5",100,10207,1413,"2026-04-06T11:57:43","MIT",2,"macOS, Windows, Linux","未说明",{"notes":34,"python":32,"dependencies":35},"1. macOS 用户需在系统设置中授予终端应用“屏幕录制”和“辅助功能”权限。2. Linux 用户需安装 X server。3. 若使用本地 LLaVA 模型，需通过 Ollama 下载约 5GB 模型文件。4. 使用 OpenAI 模型需账户至少消费 5 美元 API 额度以解锁访问。5. 语音模式需额外安装 audio 依赖及 portaudio 库。",[6,36,37,38],"ollama (可选，用于本地运行 LLaVA)","portaudio (语音模式必需)","YOLOv8 (SoM 模式必需)",[40],"Agent",[42,43,44],"automation","openai","pyautogui","ready","2026-03-27T02:49:30.150509","2026-04-07T01:47:01.238588",[49,54,59,64,69],{"id":50,"question_zh":51,"answer_zh":52,"source_url":53},20704,"遇到 'NoneType' object has no attribute 'chat' 或 JSON 解析错误怎么办？","这通常是因为 OpenAI API Key 配置问题。在版本 1.2.5 中已修复，主要问题是实例化 client 后才分配 api_key。请运行 `pip install` 升级到最新版本。新版本会在操作后检查 key 是否存在，若不存在会提示用户输入。确保代码中初始化方式为：`client = OpenAI(api_key=api_key)`。","https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fissues\u002F128",{"id":55,"question_zh":56,"answer_zh":57,"source_url":58},20705,"模型推断的鼠标指针 X\u002FY 坐标不准确，无法正确点击目标（如地址栏）怎么办？","该问题已通过引入 OCR（光学字符识别）方法得到部分解决。项目默认不再依赖纯坐标推断，而是结合 OCR 技术来定位屏幕元素。请确保您使用的是包含 OCR 功能的最新版本。","https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fissues\u002F102",{"id":60,"question_zh":61,"answer_zh":62,"source_url":63},20706,"是否支持使用自托管的开源大语言模型（而非 OpenAI）？","是的，目前项目已支持 LLaVa 模型。此外，您可以搭建一个兼容 OpenAI 接口的自托管 API（例如使用 llama-cpp-python 的多模态模型服务），然后将本项目指向该本地 API 地址即可替代直接使用 OpenAI。","https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fissues\u002F86",{"id":65,"question_zh":66,"answer_zh":67,"source_url":68},20707,"如何在不强制使用 Google Chrome 的情况下运行程序（支持其他浏览器）？","在 macOS 上，可以通过在搜索栏直接输入 \"browser\" 来打开默认浏览器，而无需硬编码为 \"Google Chrome\"。由于大多数浏览器的地址栏位置相似，您可以利用这一特性修改代码，使其适配用户的默认浏览器设置，从而实现对 Firefox 等其他浏览器的支持。","https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fissues\u002F60",{"id":70,"question_zh":71,"answer_zh":72,"source_url":73},20708,"项目是否支持 YOLO 等物体检测模型来辅助定位？","社区曾提议使用 YOLO-WORLD 或 SAM 等模型进行物体检测以获取坐标。但目前项目默认采用 OCR 方法。如果您开发了能提升性能的 YOLO 模型或 SOM（屏幕对象映射）技术，欢迎提交 PR 贡献代码。","https:\u002F\u002Fgithub.com\u002FOthersideAI\u002Fself-operating-computer\u002Fissues\u002F12",[75,79,83,87,92,97,102,106,111,116,121,126,131,136,141,146,151,156,161,166],{"id":76,"version":77,"summary_zh":18,"released_at":78},126659,"v1.5.8","2025-02-28T22:54:05",{"id":80,"version":81,"summary_zh":18,"released_at":82},126660,"v1.5.7","2025-01-23T01:59:46",{"id":84,"version":85,"summary_zh":18,"released_at":86},126661,"v1.5.6","2025-01-23T01:52:09",{"id":88,"version":89,"summary_zh":90,"released_at":91},126662,"v1.5.5","OAI 更改了他们的 API 规范。","2024-12-19T01:11:09",{"id":93,"version":94,"summary_zh":95,"released_at":96},126663,"v1.5.1","移除打印","2024-12-18T05:08:30",{"id":98,"version":99,"summary_zh":100,"released_at":101},126664,"v1.5.0","添加 `o1`","2024-12-18T05:05:22",{"id":103,"version":104,"summary_zh":18,"released_at":105},126665,"v1.4.6","2024-07-09T16:14:50",{"id":107,"version":108,"summary_zh":109,"released_at":110},126666,"v1.4.5","对 Claude 的小错误修复","2024-03-21T14:44:59",{"id":112,"version":113,"summary_zh":114,"released_at":115},126667,"v1.4.2","需要对 `Config.py` 进行修复，以适配对 `Claude` 的微调。","2024-03-20T15:25:17",{"id":117,"version":118,"summary_zh":119,"released_at":120},126668,"v1.4.1","这个新版本新增了对 `Claude` 模型的支持。","2024-03-20T14:56:12",{"id":122,"version":123,"summary_zh":124,"released_at":125},126669,"v1.4.0","添加 `Claude` 作为模型选项","2024-03-20T14:49:58",{"id":127,"version":128,"summary_zh":129,"released_at":130},126670,"v1.3.2","改进 `print` 和 `prompt`","2024-02-17T01:15:28",{"id":132,"version":133,"summary_zh":134,"released_at":135},126671,"v1.3.1","修复 `requirements.txt`","2024-02-09T20:31:41",{"id":137,"version":138,"summary_zh":139,"released_at":140},126672,"v1.3.0","添加了 `LlaVa`","2024-02-09T05:28:51",{"id":142,"version":143,"summary_zh":144,"released_at":145},126673,"v1.2.9","prompt improvements, etc. ","2024-02-02T22:47:04",{"id":147,"version":148,"summary_zh":149,"released_at":150},126674,"v1.2.8","Prompt fixes and more","2024-01-25T16:30:43",{"id":152,"version":153,"summary_zh":154,"released_at":155},126675,"v1.2.7","Fixes a bug with the new mode","2024-01-24T17:02:12",{"id":157,"version":158,"summary_zh":159,"released_at":160},126676,"v1.2.6","This version adds a new `ocr` mode","2024-01-24T16:50:01",{"id":162,"version":163,"summary_zh":164,"released_at":165},126677,"v1.2.5","Found a big bug in the prompts","2024-01-19T21:51:56",{"id":167,"version":168,"summary_zh":169,"released_at":170},126678,"v1.2.4","Fix stubborn `openai` config bug","2024-01-19T20:45:23",[172,184,192,201,209,217],{"id":173,"name":174,"github_repo":175,"description_zh":176,"stars":177,"difficulty_score":178,"last_commit_at":179,"category_tags":180,"status":45},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[40,181,182,183],"开发框架","图像","数据工具",{"id":185,"name":186,"github_repo":187,"description_zh":188,"stars":189,"difficulty_score":178,"last_commit_at":190,"category_tags":191,"status":45},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[181,182,40],{"id":193,"name":194,"github_repo":195,"description_zh":196,"stars":197,"difficulty_score":30,"last_commit_at":198,"category_tags":199,"status":45},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,"2026-04-06T11:32:54",[181,40,200],"语言模型",{"id":202,"name":203,"github_repo":204,"description_zh":205,"stars":206,"difficulty_score":30,"last_commit_at":207,"category_tags":208,"status":45},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[181,182,40],{"id":210,"name":211,"github_repo":212,"description_zh":213,"stars":214,"difficulty_score":178,"last_commit_at":215,"category_tags":216,"status":45},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[200,182,40,181],{"id":218,"name":219,"github_repo":220,"description_zh":221,"stars":222,"difficulty_score":178,"last_commit_at":223,"category_tags":224,"status":45},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[181,182,40,225],"视频"]