open-computer-use

2k 234 简单 1 次阅读今天Apache-2.0语言模型Agent图像开发框架

AI 解读由 AI 自动生成，仅供参考

open-computer-use 是一个基于开源大语言模型（LLM）和 E2B 桌面沙盒技术的智能代理工具，旨在让 AI 像人类一样操作电脑。它能在云端构建一个安全的 Linux 虚拟环境，通过模拟键盘、鼠标输入及执行 shell 命令来完成任务，并将操作画面实时流式传输给用户。

该工具主要解决了传统 AI 仅能生成文本或代码、无法直接操控图形界面软件的局限，同时利用沙盒技术确保了操作过程的安全隔离，避免对本地系统造成潜在风险。其核心亮点在于极高的灵活性与开放性：支持超过 10 种主流大模型（如 Llama 3.3、Gemini 2.0、GPT-4o 等），并允许用户自由组合不同模型分别负责视觉识别、动作决策和屏幕定位；此外，用户在任务执行过程中可随时暂停并介入指导，实现了人机协作的闭环。

open-computer-use 特别适合开发者、AI 研究人员以及希望探索自动化工作流的技术爱好者使用。无论是需要测试多模态模型在真实操作系统中的表现，还是希望构建能够自主浏览网页、处理文档的智能助手，它都提供了一个低成本、可定制且安全可靠的实验平台。只需简单的配置即可启动，让用户轻松体验下一代“具身智能”在数字世界中的应用潜力。

使用场景

某初创公司的数据分析师需要在隔离的云端环境中，快速从多个新闻网站抓取并整理非结构化的市场情报报告。

没有 open-computer-use 时

开发周期冗长：工程师需手动编写复杂的 Selenium 或 Playwright 脚本以应对不同网站的动态加载和反爬机制，耗时数天。
环境维护困难：本地运行爬虫易受操作系统差异影响，且难以在保证安全的前提下处理潜在的恶意网页代码。
灵活性极差：一旦目标网站调整 UI 布局或增加验证码，原有脚本立即失效，必须人工介入重新调试代码。
无法处理复杂交互：对于需要登录、弹窗确认或非标准控件的操作，传统 API 抓取方式往往束手无策。

使用 open-computer-use 后

自然语言驱动：分析师直接输入“打开浏览器，访问指定新闻站，下载最新 PDF 报告”，open-computer-use 即可调用开源大模型自主规划操作。
沙箱安全执行：所有操作均在 E2B Desktop Sandbox 提供的隔离 Linux 环境中进行，利用键盘鼠标模拟真实用户行为，彻底规避安全风险。
自适应能力强：基于视觉模型（如 OS-Atlas），open-computer-use 能像人类一样“看”懂屏幕元素，网站改版后无需修改代码即可自动适应新界面。
实时干预与监控：用户可通过直播流实时观察 Agent 操作，并在关键时刻暂停并下达新指令，实现人机协同的灵活控制。

open-computer-use 将繁琐的自动化脚本开发转化为直观的自然语言交互，让非技术人员也能安全、高效地操控云端计算机完成复杂任务。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具主要基于云端 E2B Desktop Sandbox 运行，本地仅需作为客户端。必须配置 E2B API Key 以及所选大模型提供商（如 Groq, OpenAI, Anthropic 等）的 API Key。若使用 Hugging Face Spaces 模型，需提供 HF_TOKEN 以绕过速率限制。安装依赖需使用 Poetry 包管理器。

python3.10+

poetry

ffmpeg

e2b-desktop-sandbox

快速开始

开放式计算机使用

一台由 E2B Desktop Sandbox 提供支持、并由开源大语言模型控制的安全云端 Linux 计算机。

https://github.com/user-attachments/assets/3837c4f6-45cb-43f2-9d51-a45f742424d4

功能特性

使用 E2B 实现安全的桌面沙盒
通过键盘、鼠标和 Shell 命令操作计算机
支持 10 多种大语言模型，包括 OS-Atlas/ShowUI，以及您希望集成的任何其他模型！
将沙盒中的显示画面实时流式传输到客户端计算机
用户可以随时暂停并提示智能体
使用 Ubuntu 系统，但设计上可兼容任何操作系统

设计架构

开放式计算机使用架构图

设计细节已在本文中详细说明：我是如何教会 AI 使用计算机的

大语言模型支持

开放式计算机使用旨在方便用户轻松替换不同的大语言模型。智能体所使用的模型在 config.py 中以如下方式指定：

grounding_model = providers.OSAtlasProvider()
vision_model = providers.GroqProvider("llama3.2")
action_model = providers.GroqProvider("llama3.3")

这些提供者均从 providers.py 中导入，包含以下内容：

Fireworks、OpenRouter、Llama API：
- Llama 3.2（仅视觉）、Llama 3.3（仅行动）
Groq：
- Llama 3.2（视觉 + 行动）、Llama 3.3（仅行动）
DeepSeek：
- DeepSeek（仅行动）
Google：
- Gemini 2.0 Flash（视觉 + 行动）
OpenAI：
- GPT-4o 和 GPT-4o mini（视觉 + 行动）
Anthropic：
- Claude（视觉 + 行动）
HuggingFace Spaces：
- OS-Atlas（接地）
- ShowUI（接地）
Moonshot
Mistral AI（Pixtral 用于视觉，Mistral Large 用于行动）

如果您添加了新的模型或提供者，请务必向本仓库提交拉取请求，更新 providers.py 文件！

快速入门

前置条件

Python 3.10 或更高版本
git
E2B API 密钥
您所使用的任意大语言模型提供商的 API 密钥（见上文）

1. 安装前置工具

在终端中运行以下命令：

brew install poetry ffmpeg

2. 克隆代码库

在终端中执行：

git clone https://github.com/e2b-dev/open-computer-use/

3. 设置环境变量

进入项目目录：

cd open-computer-use

在 open-computer-use 目录下创建一个 .env 文件，并设置如下内容：

# 在 https://e2b.dev 获取您的 API 密钥：
E2B_API_KEY="your-e2b-api-key"

此外，还需添加您正在使用的任何大语言模型提供商的 API 密钥：

# 您只需为 config.py 中选定的提供商提供 API 密钥：
# Hugging Face Spaces 不需要 API 密钥。
FIREWORKS_API_KEY=...
OPENROUTER_API_KEY=...
LLAMA_API_KEY=...
GROQ_API_KEY=...
GEMINI_API_KEY=...
OPENAI_API_KEY=...
ANTHROPIC_API_KEY=...
MOONSHOT_API_KEY=...
# 必需：提供您的 Hugging Face 令牌以绕过 Gradio 的速率限制。
HF_TOKEN=...

4. 启动 Web 界面

运行以下命令以启动智能体：

poetry install

poetry run start

智能体会启动并提示您输入第一条指令。

若要使用指定的提示词启动智能体，可运行：

poetry run start --prompt "use the web browser to get the current weather in sf"

Python 程序启动后几秒钟内，您应该就能看到显示画面的实时流。

Open Computer Use 快速上手指南

Open Computer Use 是一个基于 E2B Desktop Sandbox 构建的安全云端 Linux 计算机，可由开源大语言模型（LLM）通过键盘、鼠标和 shell 命令进行控制。它支持实时串流桌面画面，并允许用户随时暂停并与智能体交互。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：支持 Ubuntu，同时也兼容 macOS 和 Windows（需配置相应环境）。
Python 版本：Python 3.10 或更高版本。
必备工具：
- Git
- Poetry (Python 依赖管理工具)
- ffmpeg (用于处理视频流)
API 密钥：
- E2B API Key：用于启动云端沙箱。
- LLM 提供商 API Key：根据您选择的模型（如 Groq, OpenAI, Anthropic, DeepSeek 等）准备对应的密钥。注：Hugging Face Spaces 模型无需 API Key，但建议提供 HF Token 以绕过速率限制。

安装步骤

1. 安装系统依赖

在终端中运行以下命令安装必要工具（macOS 用户）：

brew install poetry ffmpeg

Linux/Windows 用户请通过各自包管理器安装 poetry 和 ffmpeg。

2. 克隆项目代码

将仓库克隆到本地：

git clone https://github.com/e2b-dev/open-computer-use/

进入项目目录：

cd open-computer-use

3. 配置环境变量

在项目根目录下创建 .env 文件，并填入您的 API 密钥。

必填项：

# 获取地址：https://e2b.dev/
E2B_API_KEY="your-e2b-api-key"

选填项（根据 config.py 中选择的模型提供商填写）：

# 仅需填写您在 config.py 中启用的提供商密钥
# Hugging Face Spaces 不需要 API Key，但推荐填写 HF_TOKEN
FIREWORKS_API_KEY=...
OPENROUTER_API_KEY=...
LLAMA_API_KEY=...
GROQ_API_KEY=...
GEMINI_API_KEY=...
OPENAI_API_KEY=...
ANTHROPIC_API_KEY=...
MOONSHOT_API_KEY=...
HF_TOKEN=...

提示：默认配置位于 os_computer_use/config.py，您可以在此文件中切换不同的 LLM 提供商（如 Groq, OpenAI, Fireworks 等）。

4. 安装依赖并启动

使用 Poetry 安装项目依赖：

poetry install

基本使用

启动交互式代理

运行以下命令启动 Web 界面和智能体。程序启动几秒后，您将看到沙箱桌面的实时视频流，并可输入第一条指令：

poetry run start

带预设指令启动

如果您希望直接让智能体执行特定任务，可以使用 --prompt 参数：

poetry run start --prompt "use the web browser to get the current weather in sf"

启动后，智能体将自动操作云端电脑完成指定任务（如打开浏览器查询天气），您可以在界面上实时观看操作过程。

常见问题

llm.py 文件在哪里？

遇到 Gradio 应用报错'GPU 配额已用尽 (exceeded your GPU quota)'如何解决？

如何正确配置和使用 Gemini 模型？

启动 Sandbox 时立即关闭或崩溃怎么办？

遇到 'desktop-dev-v2' 模板无效或 504/404 错误如何处理？

项目是否支持添加 Gemini 作为视觉模型提供商？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架