Open-Interface

2.6k 270 简单 1 次阅读今天GPL-3.0语言模型Agent开发框架

AI 解读由 AI 自动生成，仅供参考

Open-Interface 是一款能让大语言模型（LLM）直接操控你电脑的开源工具。只需输入自然语言指令，它就能像“自动驾驶”一样，自动规划步骤并模拟键盘和鼠标操作来完成任务，例如解字谜游戏、在文档中制定计划甚至编写网页应用。

它主要解决了传统自动化工具门槛高、灵活性差的问题。用户无需编写复杂的脚本或代码，即可让 AI 理解屏幕内容并执行跨应用的复杂工作流。其核心技术亮点在于“闭环反馈”机制：Open-Interface 在执行过程中会不断截取屏幕画面发送给大模型，根据实时进展自动修正操作路径，确保任务准确完成。目前该工具已支持 macOS、Linux 和 Windows 主流系统，并兼容 GPT-4o、Gemini 等多种后端模型。

这款软件非常适合希望提升工作效率的普通用户、想要探索 AI 代理潜力的研究人员，以及寻求快速原型验证的开发者。无论你是想自动化日常琐事，还是研究多模态智能体如何与图形界面交互，Open-Interface 都提供了一个直观且强大的实验平台，让每个人都能轻松体验由 AI 接管电脑操作的未来工作方式。

使用场景

一位数据分析师需要在每周一早晨从公司内部多个遗留系统中提取销售数据，整理成 Excel 报表并发送邮件给管理层，这些系统大多没有 API 接口，只能手动操作。

没有 Open-Interface 时

员工必须提前半小时到岗，机械地重复点击、复制、粘贴等操作，极易因疲劳产生人为错误。
一旦某个系统界面微调或弹出意外窗口，整个流程中断，需要人工介入排查，导致报表交付延迟。
跨系统操作繁琐，需要在不同软件间频繁切换，注意力分散，无法同时处理其他高价值任务。
遇到复杂的多步骤逻辑（如“如果数据异常则截图标记”），难以通过传统脚本自动化，只能靠人脑判断。

使用 Open-Interface 后

只需对 Open-Interface 说出“生成上周销售周报”，它便能自主调用大模型规划步骤，模拟键鼠自动完成所有系统的登录、查询和导出。
Open-Interface 会实时截取屏幕画面反馈给大模型，若遇到弹窗或界面变化，能自动调整操作策略，无需人工干预即可完成任务。
整个过程在后台静默运行，员工可利用这段时间进行数据分析洞察，显著提升了工作产出比。
面对复杂的条件判断逻辑，Open-Interface 凭借大模型的理解能力，能像真人一样识别屏幕内容并执行相应的分支操作。

Open-Interface 将原本耗时耗力的重复性 GUI 操作转化为简单的自然语言指令，真正实现了跨应用、跨平台的电脑全自动驾驶。

运行环境要求

操作系统

macOS
Linux
Windows

GPU

未说明

内存

未说明

依赖

notes1. 核心功能依赖云端 LLM (如 GPT-4o, Gemini)，需配置 API Key 并充值至少 5 美元以解锁 GPT-4o。 2. macOS 用户必须授予应用“辅助功能”(控制键鼠) 和“屏幕录制”(截图) 权限；Intel Mac 可能需在安全设置中点击“仍然打开”。 3. Linux 版本已在 Ubuntu 20.04 上测试通过。 4. Windows 版本已在 Windows 10 上测试通过。 5. 多显示器环境下，工具仅能识别主显示器，若焦点在副屏可能导致操作失败。 6. 可通过拖动鼠标到屏幕角落或点击停止按钮随时中断运行。

python3.12.2 (示例版本，建议使用虚拟环境)

requirements.txt 中定义的依赖 (具体列表未在 README 中展示)

快速开始

开放接口

使用大语言模型控制您的电脑

开放接口

通过将您的请求发送至大语言模型后端（如GPT-4o、Gemini等），自动规划出完成任务所需的步骤，从而实现对电脑的自主操作。
通过模拟键盘和鼠标输入，自动执行这些步骤。
根据需要向大语言模型后端发送更新的屏幕截图，以进行过程中的修正和调整。

利用大语言模型实现所有电脑的完全自动驾驶

GitHub 代码大小（字节） GitHub 仓库星级 GitHub 许可证

演示 💻

“解决今天的Wordle”

截取并放大2倍

更多演示

“在Google文档中为我制定一份餐计划”
“编写一个Web应用”

安装 💽

MacOS

从最新的发布页面下载 MacOS 二进制文件。
解压文件，并将 Open Interface 移动到“应用程序”文件夹。

苹果自研 M 系列芯片的 Mac 电脑

Open Interface 会请求获取辅助功能权限，以便为您操作键盘和鼠标；同时还需要屏幕录制权限，用于截取屏幕以评估其运行进度。
如果未自动弹出权限请求，请手动通过系统设置 -> 隐私与安全性添加这些权限。

英特尔芯片的 Mac 电脑

从“应用程序”文件夹启动该应用。
您可能会遇到标准的 Mac 错误“无法打开 Open Interface”。

在这种情况下，点击"取消"。
然后前往系统偏好设置 -> 安全性与隐私 -> 仍要打开。

Open Interface 还需要辅助功能权限来操作您的键盘和鼠标，以及屏幕录制权限来截屏以评估其进展。

最后，请查看设置部分，将 Open Interface 连接到大语言模型（如 OpenAI GPT-4V）。

Linux

目前 Linux 二进制文件已在 Ubuntu 20.04 上测试通过。
从最新的发布页面下载 Linux 压缩包。
解压可执行文件，并参考设置部分，将 Open Interface 连接到大语言模型，例如 OpenAI GPT-4V。

Windows

Windows 二进制文件已在 Windows 10 上测试通过。
从最新的发布页面下载 Windows 压缩包。
解压文件夹，将 exe 文件移动到您希望的位置，双击即可打开，大功告成。
请参阅设置部分，将 Open Interface 连接到大语言模型（如 OpenAI GPT-4V）。

作为脚本运行

克隆仓库：git clone https://github.com/AmberSahdev/Open-Interface.git
进入目录：cd Open-Interface
可选使用 Python 虚拟环境
- 注意：pyenv 对 tkinter 的安装处理方式较为特殊，您可能需要根据自身系统进行调试。
- pyenv local 3.12.2
- python -m venv .venv
- source .venv/bin/activate
安装依赖：pip install -r requirements.txt
运行应用：python app/app.py

设置 🛠️

设置 OpenAI API 密钥

获取你的 OpenAI API 密钥
- Open Interface 需要访问 GPT-4o 才能执行用户请求。GPT-4o 的密钥可以在你的 OpenAI 账户中下载，地址是 platform.openai.com/settings/organization/api-keys。
- 按照这里的步骤为你的 OpenAI 账户充值。要解锁 GPT-4o，至少需要支付 5 美元。
- 更多信息
将 API 密钥保存在 Open Interface 设置中
- 在 Open Interface 中，前往右上角的“设置”菜单，将你从 OpenAI 收到的密钥输入到文本框中，如下所示：
首次设置 API 密钥后，你需要重启应用。

设置 Google Gemini API 密钥

前往“设置”->“高级设置”，选择你想要使用的 Gemini 模型。
从 https://aistudio.google.com/app/apikey 获取你的 Google Gemini API 密钥。
将 API 密钥保存在 Open Interface 设置中。
保存设置并重启应用。

可选：设置自定义 LLM

Open Interface 支持使用其他 OpenAI API 风格的 LLM（如 Llava）作为后端，并且可以在“高级设置”窗口中轻松配置。
在“高级设置”窗口中输入自定义的基础 URL 和模型名称，在“设置”窗口中根据需要输入 API 密钥。
注意——如果你使用的是 Llama：
- 你可能需要在 API 密钥输入框中输入一个随机字符串，比如“xxx”。
- 你可能需要在基础 URL 后面加上 /v1/。
如果你的 LLM 不支持 OpenAI 风格的 API，你可以使用像这个这样的库将其转换为兼容格式。
这些更改完成后，你需要重启应用。

目前容易出错的地方 😬

准确的空间推理，从而精确点击按钮。
在表格类环境中（如 Excel 和 Google Sheets）保持自身状态，原因与上述类似。
在复杂的 GUI 富应用中导航，例如《反恐精英》、Spotify、GarageBand 等，因为这些应用高度依赖光标操作。

未来 🔮

(随着基于视频教程等数据训练出更优秀的模型)

“帮我用 GarageBand 为我最新的项目制作几个低音采样。”
“阅读这份新功能的设计文档，在 GitHub 上编辑代码，并提交审核。”
“从 Spotify 上找到我朋友的音乐品味，为今晚的派对制作一个播放列表。”
“把我在太浩湖旅行时拍的照片整理出来，在 iMovie 中制作一个《白莲花》风格的蒙太奇。”

备注 📝

成本估算：每次 LLM 请求的成本为 0.0005 至 0.002 美元，具体取决于所使用的模型。
（用户请求可能需要两到几十次不等的 LLM 后端调用，具体取决于请求的复杂性。）
你可以随时通过按下“停止”按钮，或者将光标拖动到屏幕的任意角落来中断应用。
当使用多台显示器时，Open Interface 只能看到你的主显示器。因此，如果光标或焦点位于副屏幕上，它可能会不断重复相同的动作，因为它无法看到自己的进展。

系统架构图 🖼️

+----------------------------------------------------+
| 应用                                                |
|                                                    |
|    +-------+                                       |
|    |  GUI  |                                       |
|    +-------+                                       |
|        ^                                           |
|        |                                           |
|        v                                           |
|  +-----------+  (截图 + 目标)  +-----------+ |
|  |           | --------------------> |           | |
|  |    核心   |                       |    LLM    | |
|  |           | <-------------------- |  (GPT-4o) | |
|  +-----------+    (指令)     +-----------+ |
|        |                                           |
|        v                                           |
|  +-------------+                                   |
|  | 解释器    |                                   |
|  +-------------+                                   |
|        |                                           |
|        v                                           |
|  +-------------+                                   |
|  | 执行器    |                                   |
|  +-------------+                                   |
+----------------------------------------------------+

星标历史 ⭐️

链接 🔗

更多我的项目请访问 AmberSah.dev。
其他演示和新闻资料可在 MEDIA.md 中找到。

Open-Interface 快速上手指南

Open-Interface 是一款利用大语言模型（LLM）实现电脑全自动控制的开源工具。它能接收自然语言指令，自动规划步骤，并通过模拟键盘和鼠标操作来执行任务，同时通过屏幕截图进行自我修正。

环境准备

系统要求

支持以下操作系统（已测试版本）：

macOS: Intel 芯片或 Apple Silicon (M 系列) 芯片
Linux: Ubuntu 20.04 及以上
Windows: Windows 10 及以上

前置依赖与权限

API Key: 需准备 OpenAI (GPT-4o)、Google Gemini 或其他兼容 OpenAI 格式的 LLM API Key。
系统权限 (运行前必须配置):
- macOS: 需在 系统设置 -> 隐私与安全性 中授予 辅助功能 (Accessibility) (控制键鼠) 和 屏幕录制 (Screen Recording) (截取进度) 权限。
- Linux/Windows: 确保当前用户有执行二进制文件或脚本的权限。
Python 环境 (仅源码运行需要): Python 3.12+ (推荐), pip, git。

安装步骤

您可以选择下载预编译的二进制文件（推荐）或从源码运行。

方式一：使用预编译二进制文件

下载安装包 访问 GitHub Releases 下载对应系统的压缩包。
解压与移动
- macOS: 解压后将 Open Interface 应用拖入 应用程序 (Applications) 文件夹。
- Windows: 解压文件夹，将 .exe 文件移至任意位置。
- Linux: 解压并提取可执行文件。
首次运行配置 (macOS 特有)
- Intel Mac: 若出现“无法打开”提示，请前往 系统偏好设置 -> 安全性与隐私 -> 点击 仍要打开。
- 所有 Mac: 启动后按提示授予辅助功能和屏幕录制权限，若未自动弹出，请手动在系统设置中添加。

方式二：从源码运行 (跨平台)

适合开发者或需要自定义环境的用户。

# 1. 克隆仓库
git clone https://github.com/AmberSahdev/Open-Interface.git
cd Open-Interface

# 2. (可选) 创建虚拟环境 (推荐 Python 3.12+)
# 注意：pyenv 处理 tkinter 可能需额外调试
python -m venv .venv
source .venv/bin/activate  # Windows 用户使用: .venv\Scripts\activate

# 3. 安装依赖
pip install -r requirements.txt

# 4. 启动应用
python app/app.py

基本使用

1. 配置 LLM API

启动应用后，需先连接大模型后端：

点击右上角 Settings (设置) 菜单。
OpenAI 用户:
- 获取 Key: 访问 platform.openai.com (需充值至少 $5 以解锁 GPT-4o)。
- 在设置界面的文本框中粘贴 API Key。
Gemini 用户:
- 进入 Settings -> Advanced Settings 选择 Gemini 模型。
- 获取 Key: 访问 aistudio.google.com。
- 在设置中保存 Key。
自定义模型:
- 在 Advanced Settings 中输入 Base URL 和模型名称 (如本地部署的 Llama)，API Key 处若无需求可填任意字符串 (如 "xxx")。
重启应用: 配置完成后必须重启软件生效。

2. 执行任务

配置完成后，即可通过自然语言控制电脑：

在输入框中输入指令，例如：
- "Solve Today's Wordle" (解决今天的 Wordle 游戏)
- "Make me a meal plan in Google Docs" (在 Google 文档中制定一份膳食计划)
- "Write a Web App" (编写一个 Web 应用)
按下回车，Open-Interface 将自动分析屏幕、规划步骤并执行操作。

3. 中断操作

如需停止当前任务，可点击界面上的 Stop 按钮，或将鼠标光标迅速拖动至屏幕任意角落。

注意:

每次请求成本约为 $0.0005 - $0.002，复杂任务可能调用多次 LLM。

多显示器环境下，工具仅能识别主显示器；若焦点在副屏，可能导致操作循环失败。

版本历史

v0.9.02025/03/16

v0.8.02025/01/12

0.7.02024/12/13

0.6.12024/11/09

0.6.02024/07/21

0.5.22024/05/05

0.5.12024/04/14

0.5.02024/04/08

0.4.02024/03/13

0.3.02024/03/01

v0.2.02024/02/29

v0.1.12024/02/28

v0.1.02024/02/28

常见问题

Windows Defender 将程序标记为病毒 (Trojan) 并删除 .exe 文件，如何处理？

提交指令后没有任何反应（屏幕无操作但可能有提示音），如何解决？

使用本地 LLM（如 Ollama）时启动报错 'Unsupported model type' 且应用无法打开怎么办？

在 Linux 上运行时报错 '_tkinter.TclError: invalid command name "::msgcat::mcmset"' 导致启动失败？

使用 Ollama 或 LM Studio 后端时提示 'Unable to execute the request - steps' 是什么意思？

在 MacBook (M1/M3 芯片) 上应用启动后立即消失或无法打开，有什么解决办法？

如何支持自托管模型（如 Ollama）或非 OpenAI 兼容的 API？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 146.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent