macOSpilot-ai-assistant

1.2k 48 较难 1 次阅读 1周前语言模型图像音频Agent其他

AI 解读由 AI 自动生成，仅供参考

macOSpilot 是一款专为 macOS 打造的智能语音视觉助手，旨在让你在不切换窗口的情况下，即时获取当前应用中任何内容的解答。无论是面对复杂的代码编辑器、设计软件还是文档工具，只需按下快捷键，对着麦克风提问或直接输入文字，它就能结合屏幕截图上下文，迅速以文字和语音形式反馈答案。

这款工具主要解决了用户在多任务处理时频繁切换窗口、打断工作流的痛点。通过“所见即所问”的交互模式，它将人工智能的视觉理解能力无缝融入操作系统，让用户能专注于手头任务，无需分心查找资料或复制粘贴内容。

macOSpilot 非常适合希望提升工作效率的开发者、设计师、研究人员以及各类 macOS 重度用户。对于需要频繁查阅文档、调试代码或分析界面信息的专业人士而言，它就像一位随时待命的贴身专家。

其核心技术亮点在于融合了 OpenAI 的多项前沿能力：利用 GPT-4 Vision 模型“看懂”当前屏幕内容，通过 Whisper API 将语音精准转为文字，再借助 TTS 技术将回答转化为自然流畅的语音播报。整个流程基于 Electron 构建，配置灵活，让本地操作与云端智能完美结合，为用户带来高效、自然的沉浸式辅助体验。

使用场景

资深数据分析师正在使用复杂的 Excel 宏处理财务报表，同时需要参考 Safari 浏览器中的最新会计准则文档，却因不熟悉某个特定函数的参数而卡壳。

没有 macOSpilot-ai-assistant 时

频繁切换窗口打断心流：必须手动最小化 Excel，切换到浏览器搜索函数用法，再切回表格，反复操作严重破坏专注度。
视觉对照繁琐低效：需要一边盯着屏幕上的报错单元格，一边在另一个窗口核对文档说明，肉眼来回比对极易出错。
双手占用无法记录：双手正忙于键盘输入和数据调整，难以腾出手来打字查询或复制粘贴帮助信息。
阅读解释增加认知负荷：在高度紧张的报表截止日前，还要费力阅读枯燥的文字教程，增加了额外的脑力负担。

使用 macOSpilot-ai-assistant 后

原地唤醒无需切换：只需按下快捷键，macOSpilot-ai-assistant 直接截取当前 Excel 界面，无需离开当前工作窗口即可发起提问。
视觉上下文智能理解：工具自动将屏幕截图与语音问题发送给 AI，它能“看见”具体的报错单元格和公式，提供针对性的修正建议。
纯语音交互解放双手：直接口述“这个 VLOOKUP 为什么返回错误”，说完再次按键即可，全程无需敲击键盘或移动鼠标。
音频播报即时反馈：解决方案不仅显示在浮窗中，还会通过 TTS 语音直接读出来，让用户边听边改，大幅降低阅读压力。

macOSpilot-ai-assistant 通过“所见即所问”的语音视觉融合能力，将跨应用的知识查询转化为零中断的即时辅助，极大提升了复杂任务下的工作流效率。

运行环境要求

操作系统

macOS
Windows
Linux

GPU

未说明

内存

未说明

依赖

notes该工具基于 NodeJS/Electron 开发，非本地运行大模型，无需 GPU。主要依赖 OpenAI API（Vision, Whisper, TTS），需在配置文件中填入 API Key。在 macOS 上运行时需授予屏幕录制、麦克风及文件读写权限，首次运行可能需要重启终端或应用。虽然提供了 Windows 和 Linux 的打包命令，但作者明确表示仅在 Mac (Apple Silicon 和 Intel) 上进行了测试。

python未说明

NodeJS

Electron

yarn 或 npm

快速开始

macOSpilot：您的个人 macOS AI 助手

macOSpilot 可以在任何应用程序中回答您提出的任何问题。无需切换到其他窗口。只需使用键盘快捷键触发助手，说出或输入您的问题，它就会在几秒钟内以情境化的方式并以语音形式给出答案。在后台，macOSpilot 会在被触发时截取当前活动窗口的屏幕截图，并将其连同您问题的转录文本一起发送给 OpenAI GPT Vision。随后，答案将以文本形式显示，并通过 OpenAI TTS（文本转语音）技术转换为语音。

https://github.com/elfvingralf/macOSpilot-ai-assistant/assets/94417497/5a9e9288-0479-4def-9a87-451dddd783af

适用于 macOS 中的任何应用程序： macOSpilot 不依赖于特定的应用程序，当您触发助手时，它只会截取当前活动窗口的屏幕截图。
通过键盘快捷键触发，直接提问： 无需在多个窗口之间切换，只需按下快捷键并说出您的问题即可。如果您更喜欢打字，也可以直接输入。
情境化且语音化的回答： 您的问题答案会以一个小窗口的形式叠加在您当前活动的窗口之上显示，并通过文本转语音功能以语音形式播报。

工作原理

macOSpilot 基于 NodeJS 和 Electron 构建。只需安装 NodeJS 项目及其依赖项（见下文），并在 index.js 中进行必要的配置。然后您可以选择在终端中运行 yarn start，或者按照以下说明使用 Electron 打包应用，添加您的 OpenAI API 密钥，并让应用程序在后台运行。
当您需要使用 macOSpilot 时，按下您已配置的键盘快捷键（默认为 Command+Shift+'）。macOSpilot 将截取您当前 macOS 应用程序窗口的屏幕截图，并激活麦克风。
向麦克风说出您的问题，然后再次按下相同的键盘快捷键以结束录音。如果您启用了文本输入功能，则可以直接输入问题并按 Enter 键，而无需说话。
macOSpilot 会将您的问题发送至 OpenAI 的 Whisper API 进行转录，并将转录结果与屏幕截图一同发送至 OpenAI 的 Vision API。
Vision API 返回的答案将在您当前 macOS 应用程序窗口上方显示在一个小通知窗口中，并由 OpenAI 的 TTS（文本转语音）API 处理后朗读出来。
当前会话中您提出的所有问题及其答案的历史记录都会保存在另一个窗口中，您可以将其隐藏或最小化。

最近一次的屏幕截图、音频录音和 TTS 回答会被存储在您的设备上，部分用于调试目的。每次都会使用相同的文件名覆盖这些文件，但关闭或删除应用程序并不会自动删除它们。

快速入门

视频教程

如果您更喜欢视频，请前往 YouTube 观看关于如何开始使用、应用程序的工作原理以及其底层机制的简要说明。

安装

请确保您的设备上已安装 NodeJS。然后克隆仓库并按照以下步骤操作。

git clone https://github.com/elfvingralf/macOSpilot-ai-assistant.git

进入该文件夹，在终端中运行 yarn install 或 npm install。这将安装所有依赖项。接着运行 yarn start 或 npm start。由于应用程序需要访问您的屏幕、麦克风、读写文件等权限，您可能需要授予这些权限，并重新启动终端。

配置

请务必在主窗口右上角的设置图标中添加您的 OpenAI API 密钥。（请注意，该密钥并未加密存储！）

如果您想更改默认值，可以考虑修改以下内容，所有更改均需在 index.js 中进行：

键盘快捷键： 默认的键盘快捷键 keyboardShortcut 设置为 “CommandOrControl+Shift+'”（因为这个组合很少被其他应用程序使用）。
OpenAI Vision 提示词： conversationHistory 中的 OpenAI Vision API 系统提示词目前仅设置为 “您正在根据屏幕截图帮助用户解答关于 macOS 应用程序的问题，回答应尽量控制在一句话以内。”
VisionAPI 图像尺寸： 为了节省成本，我在 callVisionAPI() 中提供了一个调整图像大小的示例（我发现使用该功能后效果反而变差）。
应用程序窗口尺寸及设置： 主窗口的宽度和高度：mainWindowWidth 和 mainWindowHeight。始终置顶的通知窗口的宽度和高度：notificationWidth 和 notificationHeight。
更多通知窗口设置： 通知窗口的透明度：notificationOpacity。通知窗口在激活时相对于当前窗口的位置：位于 positionNotificationAtTopRight() 函数中（命名确实不太理想，我知道）。

使用 Electron 打包成 .app 文件

想要创建一个可执行的 .app 文件，而不是从终端运行吗？

首先打开 index.js，将 const useElectronPackager 由 false 改为 true。

根据您使用的平台，在终端中运行以下命令之一：

npm run package-mac
npm run package-win
npm run package-linux

请注意，我目前只在 Mac（Apple Silicon 和 Intel 芯片）上进行了测试。进入项目文件夹中的 /release-builds/，选择对应您平台的文件夹。其中包含一个可执行文件，如果是 Mac 用户，则是一个 .app 文件。双击即可打开应用，首次启动可能需要几秒钟，请耐心等待。应用打开后，按下您设置的键盘快捷键。系统会提示您授予隐私和安全权限。您可能需要重复一两次此操作，以确保所有权限正常生效，并重启应用。

改进建议：

以下是一些我希望改进的功能，不分先后顺序：

实现会话之间的对话状态保存功能（即打开/关闭应用程序时仍能保持上下文）。
使用缓冲区代替将屏幕截图和音频文件写入/读取磁盘的操作。
在 UI 中增加对助手语音的自定义选项（例如语速调节、是否启用播放等功能）。
在 UI 中增加对始终置顶窗口的自定义选项（例如切换固定位置、启用/禁用功能）。
在 UI 中增加对截图区域的自定义选项（例如选择特定区域或截取整个屏幕）。
~~修复作为 .app 文件时麦克风无法正常工作的问题~~ 已经由 @claar 解决。
~~支持文本输入而非仅限语音输入~~

关于/联系

我是一名自学成才的开发者，非常喜欢动手拼凑各种有趣的项目。我编写的代码功能实用，但可能既不美观也不高效，我还是愿意分享出来，希望能对其他人有所帮助。

你可以在 Twitter/X 上找到我：@ralfelfving。如果你喜欢这个项目，不妨去看看我在 YouTube 频道 @ralfelfving 上的教程吧。

macOSpilot AI 助手快速上手指南

macOSpilot 是一款运行在 macOS 上的个人 AI 助手。它能在任何应用程序中通过快捷键唤醒，截取当前屏幕画面并结合你的语音或文字提问，利用 OpenAI GPT-4 Vision 和 TTS 技术，在几秒钟内以图文和音频形式提供上下文相关的解答。

环境准备

操作系统：macOS（已在 Apple Silicon 和 Intel 芯片上测试）。
前置依赖：
- 已安装 Node.js。
- 已安装 yarn 或 npm 包管理器。
- OpenAI API Key：你需要拥有可用的 OpenAI 账户及 API 密钥（需支持 Whisper、GPT-4 Vision 和 TTS 接口）。
- 网络环境：由于需要连接 OpenAI 服务，请确保你的网络环境能够稳定访问相关 API。

安装步骤

克隆项目仓库 在终端中执行以下命令下载源码：

git clone https://github.com/elfvingralf/macOSpilot-ai-assistant.git

进入目录并安装依赖 进入项目文件夹并安装所需依赖包：
```
cd macOSpilot-ai-assistant
yarn install
# 或者使用 npm
# npm install
```
配置 API 密钥
- 运行应用后，在主窗口右上角点击设置图标。
- 输入你的 OpenAI API Key。
- 注意：根据开发者说明，该密钥未加密存储，请妥善保管。
授予系统权限 首次运行时，macOS 会提示你授予以下权限，请务必在“系统设置”->“隐私与安全性”中允许：
- 屏幕录制（用于截取当前窗口）
- 麦克风（用于语音输入）
- 辅助功能（用于模拟键盘操作等）
- 提示：可能需要重启终端或应用多次以生效所有权限。

基本使用

1. 启动应用

在终端中运行以下命令启动开发版：

yarn start
# 或者
# npm start

(可选：若想打包成 .app 独立应用，请参考原文 "Turn it into an .app with Electron" 章节修改 index.js 并运行 npm run package-mac)

2. 唤起助手

确保当前处于任意你想要询问的应用窗口中，按下默认快捷键：

Command + Shift + ' (单引号)

3. 提问与获取答案

语音模式（默认）：
1. 按下快捷键后，对着麦克风说出你的问题（例如：“这个报错是什么意思？”或“如何在这个界面导出数据？”）。
2. 说完后，再次按下相同的快捷键 (Command + Shift + ') 结束录音。
文本模式：如果在配置中启用了文本输入，按下快捷键后可直接打字提问并按回车。

4. 查看结果

视觉反馈：一个小型的通知窗口将悬浮在当前应用上方，显示 AI 的文字回答。
听觉反馈：系统将自动朗读回答内容（基于 OpenAI TTS）。
历史记录：你可以最小化主窗口，其中保留了当前会话的问答历史。

提示：默认的截图和提示词配置位于 index.js 文件中，高级用户可根据需要修改快捷键、Prompt 内容或窗口尺寸。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架