[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-e2b-dev--open-computer-use":3,"tool-e2b-dev--open-computer-use":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":23,"env_os":98,"env_gpu":99,"env_ram":99,"env_deps":100,"category_tags":107,"github_topics":108,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":115,"updated_at":116,"faqs":117,"releases":148},3761,"e2b-dev\u002Fopen-computer-use","open-computer-use","AI computer use powered by open source LLMs and E2B Desktop Sandbox","open-computer-use 是一个基于开源大语言模型（LLM）和 E2B 桌面沙盒技术的智能代理工具，旨在让 AI 像人类一样操作电脑。它能在云端构建一个安全的 Linux 虚拟环境，通过模拟键盘、鼠标输入及执行 shell 命令来完成任务，并将操作画面实时流式传输给用户。\n\n该工具主要解决了传统 AI 仅能生成文本或代码、无法直接操控图形界面软件的局限，同时利用沙盒技术确保了操作过程的安全隔离，避免对本地系统造成潜在风险。其核心亮点在于极高的灵活性与开放性：支持超过 10 种主流大模型（如 Llama 3.3、Gemini 2.0、GPT-4o 等），并允许用户自由组合不同模型分别负责视觉识别、动作决策和屏幕定位；此外，用户在任务执行过程中可随时暂停并介入指导，实现了人机协作的闭环。\n\nopen-computer-use 特别适合开发者、AI 研究人员以及希望探索自动化工作流的技术爱好者使用。无论是需要测试多模态模型在真实操作系统中的表现，还是希望构建能够自主浏览网页、处理文档的智能助手，它都提供了一个低成本、可定制且安全可靠的实验平台。只需简单的配置即可启动，让用户轻松体验","open-computer-use 是一个基于开源大语言模型（LLM）和 E2B 桌面沙盒技术的智能代理工具，旨在让 AI 像人类一样操作电脑。它能在云端构建一个安全的 Linux 虚拟环境，通过模拟键盘、鼠标输入及执行 shell 命令来完成任务，并将操作画面实时流式传输给用户。\n\n该工具主要解决了传统 AI 仅能生成文本或代码、无法直接操控图形界面软件的局限，同时利用沙盒技术确保了操作过程的安全隔离，避免对本地系统造成潜在风险。其核心亮点在于极高的灵活性与开放性：支持超过 10 种主流大模型（如 Llama 3.3、Gemini 2.0、GPT-4o 等），并允许用户自由组合不同模型分别负责视觉识别、动作决策和屏幕定位；此外，用户在任务执行过程中可随时暂停并介入指导，实现了人机协作的闭环。\n\nopen-computer-use 特别适合开发者、AI 研究人员以及希望探索自动化工作流的技术爱好者使用。无论是需要测试多模态模型在真实操作系统中的表现，还是希望构建能够自主浏览网页、处理文档的智能助手，它都提供了一个低成本、可定制且安全可靠的实验平台。只需简单的配置即可启动，让用户轻松体验下一代“具身智能”在数字世界中的应用潜力。","# Open Computer Use\n\nA secure cloud Linux computer powered by [E2B Desktop Sandbox](https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fdesktop\u002F) and controlled by open-source LLMs.\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F3837c4f6-45cb-43f2-9d51-a45f742424d4\n\n## Features\n\n- Uses [E2B](https:\u002F\u002Fe2b.dev) for secure [Desktop Sandbox](https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fdesktop)\n- Operates the computer via the keyboard, mouse, and shell commands\n- Supports 10+ LLMs, [OS-Atlas](https:\u002F\u002Fosatlas.github.io\u002F)\u002F[ShowUI](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShowUI) and [any other models you want to integrate](#llm-support)!\n- Live streams the display of the sandbox on the client computer\n- User can pause and prompt the agent at any time\n- Uses Ubuntu, but designed to work with any operating system\n\n## Design\n\n![Open Computer Use Architecture](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fe2b-dev_open-computer-use_readme_9359d8445606.png)\n![Open Computer Use Architecture](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fe2b-dev_open-computer-use_readme_06de89ecc117.png)\n\nThe details of the design are laid out in this article: [How I taught an AI to use a computer](https:\u002F\u002Fblog.jamesmurdza.com\u002Fhow-i-taught-an-ai-to-use-a-computer)\n\n## LLM support\n\nOpen Computer Use is designed to make it easy to swap in and out new LLMs. The LLMs used by the agent are specified in [config.py](\u002Fos_computer_use\u002Fconfig.py) like this:\n\n```\ngrounding_model = providers.OSAtlasProvider()\nvision_model = providers.GroqProvider(\"llama3.2\")\naction_model = providers.GroqProvider(\"llama3.3\")\n```\n\nThe providers are imported from [providers.py](\u002Fos_computer_use\u002Fproviders.py) and include:\n\n- Fireworks, OpenRouter, Llama API:\n  - Llama 3.2 (vision only), Llama 3.3 (action only)\n- Groq:\n  - Llama 3.2 (vision + action), Llama 3.3 (action only)\n- DeepSeek:\n  - DeepSeek (action only)\n- Google:\n  - Gemini 2.0 Flash (vision + action)\n- OpenAI:\n  - GPT-4o and GPT-4o mini (vision + action)\n- Anthropic:\n  - Claude (vision + action)\n- HuggingFace Spaces:\n  - OS-Atlas (grounding)\n  - ShowUI (grounding)\n- Moonshot\n- Mistral AI (Pixtral for vision, Mistral Large for actions)\n\nIf you add a new model or provider, please [make a PR](..\u002F..\u002Fpulls) to this repository with the updated providers.py!\n\n## Get started\n\n### Prerequisites\n\n- Python 3.10 or later\n- [git](https:\u002F\u002Fgit-scm.com\u002F)\n- [E2B API key](https:\u002F\u002Fe2b.dev\u002Fdashboard?tab=keys)\n- API key for an LLM provider (see above)\n\n### 1. Install the prerequisites\n\nIn your terminal:\n\n```sh\nbrew install poetry ffmpeg\n```\n\n### 2. Clone the repository\n\nIn your terminal:\n\n```sh\ngit clone https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002F\n```\n\n### 3. Set the environment variables\n\nEnter the project directory:\n\n```\ncd open-computer-use\n```\n\nCreate a `.env` file in `open-computer-use` and set the following:\n\n```sh\n# Get your API key here: https:\u002F\u002Fe2b.dev\u002F\nE2B_API_KEY=\"your-e2b-api-key\"\n```\n\nAdditionally, add API key(s) for any LLM providers you're using:\n```\n# You only need the API key for the provider(s) selected in config.py:\n# Hugging Face Spaces do not require an API key.\nFIREWORKS_API_KEY=...\nOPENROUTER_API_KEY=...\nLLAMA_API_KEY=...\nGROQ_API_KEY=...\nGEMINI_API_KEY=...\nOPENAI_API_KEY=...\nANTHROPIC_API_KEY=...\nMOONSHOT_API_KEY=...\n# Required: Provide your Hugging Face token to bypass Gradio rate limits.\nHF_TOKEN=...\n```\n\n### 4. Start the web interface\n\nRun the following command to start the agent:\n\n```sh\npoetry install\n```\n\n```sh\npoetry run start\n```\n\nThe agent will open and prompt you for its first instruction.\n\nTo start the agent with a specified prompt, run:\n\n```sh\npoetry run start --prompt \"use the web browser to get the current weather in sf\"\n```\n\nThe display stream should be visible a few seconds after the Python program starts.\n\n","# 开放式计算机使用\n\n一台由 [E2B Desktop Sandbox](https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fdesktop\u002F) 提供支持、并由开源大语言模型控制的安全云端 Linux 计算机。\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F3837c4f6-45cb-43f2-9d51-a45f742424d4\n\n## 功能特性\n\n- 使用 [E2B](https:\u002F\u002Fe2b.dev) 实现安全的 [桌面沙盒](https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fdesktop)\n- 通过键盘、鼠标和 Shell 命令操作计算机\n- 支持 10 多种大语言模型，包括 [OS-Atlas](https:\u002F\u002Fosatlas.github.io\u002F)\u002F[ShowUI](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShowUI)，以及 [您希望集成的任何其他模型](#llm-support)！\n- 将沙盒中的显示画面实时流式传输到客户端计算机\n- 用户可以随时暂停并提示智能体\n- 使用 Ubuntu 系统，但设计上可兼容任何操作系统\n\n## 设计架构\n\n![开放式计算机使用架构图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fe2b-dev_open-computer-use_readme_9359d8445606.png)\n![开放式计算机使用架构图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fe2b-dev_open-computer-use_readme_06de89ecc117.png)\n\n设计细节已在本文中详细说明：[我是如何教会 AI 使用计算机的](https:\u002F\u002Fblog.jamesmurdza.com\u002Fhow-i-taught-an-ai-to-use-a-computer)\n\n## 大语言模型支持\n\n开放式计算机使用旨在方便用户轻松替换不同的大语言模型。智能体所使用的模型在 [config.py](\u002Fos_computer_use\u002Fconfig.py) 中以如下方式指定：\n\n```\ngrounding_model = providers.OSAtlasProvider()\nvision_model = providers.GroqProvider(\"llama3.2\")\naction_model = providers.GroqProvider(\"llama3.3\")\n```\n\n这些提供者均从 [providers.py](\u002Fos_computer_use\u002Fproviders.py) 中导入，包含以下内容：\n\n- Fireworks、OpenRouter、Llama API：\n  - Llama 3.2（仅视觉）、Llama 3.3（仅行动）\n- Groq：\n  - Llama 3.2（视觉 + 行动）、Llama 3.3（仅行动）\n- DeepSeek：\n  - DeepSeek（仅行动）\n- Google：\n  - Gemini 2.0 Flash（视觉 + 行动）\n- OpenAI：\n  - GPT-4o 和 GPT-4o mini（视觉 + 行动）\n- Anthropic：\n  - Claude（视觉 + 行动）\n- HuggingFace Spaces：\n  - OS-Atlas（接地）\n  - ShowUI（接地）\n- Moonshot\n- Mistral AI（Pixtral 用于视觉，Mistral Large 用于行动）\n\n如果您添加了新的模型或提供者，请务必向本仓库提交 [拉取请求](..\u002F..\u002Fpulls)，更新 `providers.py` 文件！\n\n## 快速入门\n\n### 前置条件\n\n- Python 3.10 或更高版本\n- [git](https:\u002F\u002Fgit-scm.com\u002F)\n- [E2B API 密钥](https:\u002F\u002Fe2b.dev\u002Fdashboard?tab=keys)\n- 您所使用的任意大语言模型提供商的 API 密钥（见上文）\n\n### 1. 安装前置工具\n\n在终端中运行以下命令：\n\n```sh\nbrew install poetry ffmpeg\n```\n\n### 2. 克隆代码库\n\n在终端中执行：\n\n```sh\ngit clone https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002F\n```\n\n### 3. 设置环境变量\n\n进入项目目录：\n\n```\ncd open-computer-use\n```\n\n在 `open-computer-use` 目录下创建一个 `.env` 文件，并设置如下内容：\n\n```sh\n# 在 https:\u002F\u002Fe2b.dev 获取您的 API 密钥：\nE2B_API_KEY=\"your-e2b-api-key\"\n```\n\n此外，还需添加您正在使用的任何大语言模型提供商的 API 密钥：\n```\n# 您只需为 config.py 中选定的提供商提供 API 密钥：\n# Hugging Face Spaces 不需要 API 密钥。\nFIREWORKS_API_KEY=...\nOPENROUTER_API_KEY=...\nLLAMA_API_KEY=...\nGROQ_API_KEY=...\nGEMINI_API_KEY=...\nOPENAI_API_KEY=...\nANTHROPIC_API_KEY=...\nMOONSHOT_API_KEY=...\n# 必需：提供您的 Hugging Face 令牌以绕过 Gradio 的速率限制。\nHF_TOKEN=...\n```\n\n### 4. 启动 Web 界面\n\n运行以下命令以启动智能体：\n\n```sh\npoetry install\n```\n\n```sh\npoetry run start\n```\n\n智能体会启动并提示您输入第一条指令。\n\n若要使用指定的提示词启动智能体，可运行：\n\n```sh\npoetry run start --prompt \"use the web browser to get the current weather in sf\"\n```\n\nPython 程序启动后几秒钟内，您应该就能看到显示画面的实时流。","# Open Computer Use 快速上手指南\n\nOpen Computer Use 是一个基于 E2B Desktop Sandbox 构建的安全云端 Linux 计算机，可由开源大语言模型（LLM）通过键盘、鼠标和 shell 命令进行控制。它支持实时串流桌面画面，并允许用户随时暂停并与智能体交互。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：支持 Ubuntu，同时也兼容 macOS 和 Windows（需配置相应环境）。\n*   **Python 版本**：Python 3.10 或更高版本。\n*   **必备工具**：\n    *   [Git](https:\u002F\u002Fgit-scm.com\u002F)\n    *   [Poetry](https:\u002F\u002Fpython-poetry.org\u002F) (Python 依赖管理工具)\n    *   `ffmpeg` (用于处理视频流)\n*   **API 密钥**：\n    *   [E2B API Key](https:\u002F\u002Fe2b.dev\u002Fdashboard?tab=keys)：用于启动云端沙箱。\n    *   **LLM 提供商 API Key**：根据您选择的模型（如 Groq, OpenAI, Anthropic, DeepSeek 等）准备对应的密钥。*注：Hugging Face Spaces 模型无需 API Key，但建议提供 HF Token 以绕过速率限制。*\n\n## 安装步骤\n\n### 1. 安装系统依赖\n\n在终端中运行以下命令安装必要工具（macOS 用户）：\n\n```sh\nbrew install poetry ffmpeg\n```\n\n*Linux\u002FWindows 用户请通过各自包管理器安装 `poetry` 和 `ffmpeg`。*\n\n### 2. 克隆项目代码\n\n将仓库克隆到本地：\n\n```sh\ngit clone https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002F\n```\n\n进入项目目录：\n\n```sh\ncd open-computer-use\n```\n\n### 3. 配置环境变量\n\n在项目根目录下创建 `.env` 文件，并填入您的 API 密钥。\n\n**必填项：**\n```sh\n# 获取地址：https:\u002F\u002Fe2b.dev\u002F\nE2B_API_KEY=\"your-e2b-api-key\"\n```\n\n**选填项（根据 `config.py` 中选择的模型提供商填写）：**\n```sh\n# 仅需填写您在 config.py 中启用的提供商密钥\n# Hugging Face Spaces 不需要 API Key，但推荐填写 HF_TOKEN\nFIREWORKS_API_KEY=...\nOPENROUTER_API_KEY=...\nLLAMA_API_KEY=...\nGROQ_API_KEY=...\nGEMINI_API_KEY=...\nOPENAI_API_KEY=...\nANTHROPIC_API_KEY=...\nMOONSHOT_API_KEY=...\nHF_TOKEN=...\n```\n\n> **提示**：默认配置位于 `os_computer_use\u002Fconfig.py`，您可以在此文件中切换不同的 LLM 提供商（如 Groq, OpenAI, Fireworks 等）。\n\n### 4. 安装依赖并启动\n\n使用 Poetry 安装项目依赖：\n\n```sh\npoetry install\n```\n\n## 基本使用\n\n### 启动交互式代理\n\n运行以下命令启动 Web 界面和智能体。程序启动几秒后，您将看到沙箱桌面的实时视频流，并可输入第一条指令：\n\n```sh\npoetry run start\n```\n\n### 带预设指令启动\n\n如果您希望直接让智能体执行特定任务，可以使用 `--prompt` 参数：\n\n```sh\npoetry run start --prompt \"use the web browser to get the current weather in sf\"\n```\n\n启动后，智能体将自动操作云端电脑完成指定任务（如打开浏览器查询天气），您可以在界面上实时观看操作过程。","某初创公司的数据分析师需要在隔离的云端环境中，快速从多个新闻网站抓取并整理非结构化的市场情报报告。\n\n### 没有 open-computer-use 时\n- **开发周期冗长**：工程师需手动编写复杂的 Selenium 或 Playwright 脚本以应对不同网站的动态加载和反爬机制，耗时数天。\n- **环境维护困难**：本地运行爬虫易受操作系统差异影响，且难以在保证安全的前提下处理潜在的恶意网页代码。\n- **灵活性极差**：一旦目标网站调整 UI 布局或增加验证码，原有脚本立即失效，必须人工介入重新调试代码。\n- **无法处理复杂交互**：对于需要登录、弹窗确认或非标准控件的操作，传统 API 抓取方式往往束手无策。\n\n### 使用 open-computer-use 后\n- **自然语言驱动**：分析师直接输入“打开浏览器，访问指定新闻站，下载最新 PDF 报告”，open-computer-use 即可调用开源大模型自主规划操作。\n- **沙箱安全执行**：所有操作均在 E2B Desktop Sandbox 提供的隔离 Linux 环境中进行，利用键盘鼠标模拟真实用户行为，彻底规避安全风险。\n- **自适应能力强**：基于视觉模型（如 OS-Atlas），open-computer-use 能像人类一样“看”懂屏幕元素，网站改版后无需修改代码即可自动适应新界面。\n- **实时干预与监控**：用户可通过直播流实时观察 Agent 操作，并在关键时刻暂停并下达新指令，实现人机协同的灵活控制。\n\nopen-computer-use 将繁琐的自动化脚本开发转化为直观的自然语言交互，让非技术人员也能安全、高效地操控云端计算机完成复杂任务。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fe2b-dev_open-computer-use_b542d437.png","e2b-dev","E2B | Cloud for AI Agents","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fe2b-dev_e286365d.png","Open-source, secure environment with real-world tools for enterprise-grade agents.",null,"hello@e2b.dev","e2b","https:\u002F\u002Fe2b.dev\u002Fdocs","https:\u002F\u002Fgithub.com\u002Fe2b-dev",[86,90],{"name":87,"color":88,"percentage":89},"Python","#3572A5",98.8,{"name":91,"color":92,"percentage":93},"HTML","#e34c26",1.2,1953,234,"2026-04-05T09:11:57","Apache-2.0","Linux, macOS, Windows","未说明",{"notes":101,"python":102,"dependencies":103},"该工具主要基于云端 E2B Desktop Sandbox 运行，本地仅需作为客户端。必须配置 E2B API Key 以及所选大模型提供商（如 Groq, OpenAI, Anthropic 等）的 API Key。若使用 Hugging Face Spaces 模型，需提供 HF_TOKEN 以绕过速率限制。安装依赖需使用 Poetry 包管理器。","3.10+",[104,105,106],"poetry","ffmpeg","e2b-desktop-sandbox",[26,15,14,13],[109,110,111,112,113,114],"agent","ai","anthropic","claude","computer-use","llm","2026-03-27T02:49:30.150509","2026-04-06T05:16:18.583265",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},17223,"llm.py 文件在哪里？","该文件已被移除。现在项目支持多种 LLM 提供商，相关配置已移至 `providers.py` 文件中定义。","https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002Fissues\u002F10",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},17224,"遇到 Gradio 应用报错'GPU 配额已用尽 (exceeded your GPU quota)'如何解决？","这是因为 Hugging Face 的免费配额限制。解决方案是创建一个 Hugging Face 账户并获取 Token，在配置中使用该 Token 即可绕过 Gradio 的速率限制并获得更多使用配额。","https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002Fissues\u002F28",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},17225,"如何正确配置和使用 Gemini 模型？","不能通过 Fireworks API 访问 Gemini 模型。必须直接使用 Gemini API。注意该项目使用了三个不同的模型协同工作，仅替换其中一个可能无法达到预期效果，需确保整体代理逻辑兼容。","https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002Fissues\u002F1",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},17226,"启动 Sandbox 时立即关闭或崩溃怎么办？","此问题通常与分支版本有关。如果您在使用 `gemini` 分支，请尝试切换回 `master` 分支并相应调整 Gemini 密钥配置。维护者已针对此类报告进行了修复，请确保代码为最新版本。","https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002Fissues\u002F18",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},17227,"遇到 'desktop-dev-v2' 模板无效或 504\u002F404 错误如何处理？","该模板可能已被移除或更新。此问题已在提交记录 `1885f126f49ec68d97576119f7cc049a8b2d8193` 中修复。请拉取最新代码，如果模板确实被移除，可能需要联系维护者获取创建新模板的脚本。","https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002Fissues\u002F17",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},17228,"项目是否支持添加 Gemini 作为视觉模型提供商？","是的，Gemini 提供商功能已经实现并合并到主分支中。您可以直接查看相关提交记录来确认其可用性，无需再提交功能请求。","https:\u002F\u002Fgithub.com\u002Fe2b-dev\u002Fopen-computer-use\u002Fissues\u002F14",[]]