macos-automator-mcp

758 54 中等 1 次阅读 2天前MITAgent插件

AI 解读由 AI 自动生成，仅供参考

macos-automator-mcp 是一款专为 macOS 设计的模型上下文协议（MCP）服务器，旨在让 AI 助手能够直接执行 AppleScript 和 JavaScript for Automation (JXA) 脚本。它解决了大语言模型通常只能“动口”无法“动手”的痛点，赋予 AI 实际操作系统的能力，如自动点击按钮、切换深色模式、从浏览器提取数据或控制各类应用程序。

该工具内置了超过 200 种预置自动化场景，用户无需手动编写复杂代码即可调用，极大地降低了自动化门槛。其核心技术亮点在于通过标准的 MCP 接口，将本地 Mac 的系统控制权安全地开放给 AI 工作流，实现了从对话到行动的闭环。不过，出于系统安全考虑，首次使用时需在 macOS 设置中手动授予运行环境（如终端）相应的“自动化”与“辅助功能”权限。

macos-automator-mcp 特别适合希望提升工作效率的开发者、自动化测试人员以及热衷于探索 AI 代理能力的极客用户。对于普通用户而言，若希望通过自然语言指令让电脑自动完成重复性任务，它也是一个强大的桥梁工具，让 Mac 真正成为懂你意图的智能助手。

使用场景

一位 macOS 上的全栈开发者正试图让本地大模型助手自动整理每日的 Safari 浏览记录并生成日报，同时根据内容自动归档文件。

没有 macos-automator-mcp 时

只能动口不能动手：AI 助手虽然能写出完美的 AppleScript 代码，但无法直接执行，开发者必须手动复制粘贴到脚本编辑器运行，打断心流。
重复劳动繁琐：每次需要提取当前网页标题、保存截图或移动文件时，都要重新向 AI 请求代码并手动操作，效率极低。
应用控制割裂：AI 无法感知或控制 Finder、Safari 等原生应用的状态，导致工作流在“对话”与“操作”之间强行断裂。
权限配置迷茫：手动配置 macOS 自动化和辅助功能权限时容易出错，且缺乏统一的调试反馈，排查问题耗时耗力。

使用 macos-automator-mcp 后

指令即行动：开发者只需对 AI 说“把当前 Safari 标签页归档”，macos-automator-mcp 立即调用 JXA 脚本后台执行，无需任何人工干预。
复杂流程一键通：通过内置的 200+ 自动化模板，AI 能串联起“抓取链接 - 保存截图 - 移动文件 - 更新日志”的全套动作，实现真正的端到端自动化。
深度应用集成：macos-automator-mcp 赋予 AI 操控系统级应用的能力，使其能像真实员工一样点击按钮、模拟按键，彻底打通软件壁垒。
安全可控的执行环境：工具在配置好的权限沙箱中运行，提供清晰的调试日志，让自动化过程既强大又透明可追溯。

macos-automator-mcp 将 AI 从单纯的“聊天顾问”升级为能直接操控 macOS 系统的“超级实习生”，真正实现了自然语言到系统行动的无缝转化。

运行环境要求

操作系统

macOS

GPU

未说明

内存

未说明

依赖

notes该工具仅支持 macOS 系统。运行前必须在系统设置中手动授予宿主应用（如终端）两项关键权限：1. '隐私与安全性' > '自动化'：允许控制 Finder、Safari 等其他应用；2. '隐私与安全性' > '辅助功能'：允许进行 UI 脚本操作（模拟点击和按键）。首次运行时可能会再次弹出确认提示。

python未说明

Node.js >= 18.0.0

AppleScript

JavaScript for Automation (JXA)

快速开始

macOS Automator MCP 🤖 - 您贴心的机器人脚本员™

macOS Automator MCP 服务器

🎯 任务控制中心：自2024年起教机器人点击按钮

欢迎来到自动化未来，您的 Mac 终于能按您说的去做事了！这个模型上下文协议（MCP）服务器会将您的 AI 助手变成一个懂 AppleScript 和 JavaScript for Automation (JXA) 的硅基实习生。

再也不用像原始人一样复制粘贴脚本——让机器人来做机器人该做的事吧！我们的知识库包含超过 200 个预编程的自动化流程，加载速度比您喊出“嘿 Siri，你为什么不这样工作？”还要快！

🚀 为什么让机器人来操控您的 Mac？

远程控制现实：通过 MCP 执行 AppleScript/JXA 脚本——就像在您的 Mac 内部安插了一个小机器人！
强大的知识库：200 多种预制自动化方案。从“切换深色模式”到“从 Safari 中提取所有 URL”——我们能满足您对机器人的各种需求。
应用调音师：以编程方式控制任何 macOS 应用程序。让 Finder 跳舞、Safari 唱歌，而 Terminal……嗯，就负责“终结”事情吧。
AI 工作流集成：将您的 Mac 连接到 AI 革命中。您的大型语言模型现在不仅能“说”，还能真正“做”事情！

🔧 机器人要求（先决条件）

Node.js（版本 >=18.0.0）——因为机器人也需要运行时环境
macOS——抱歉 Windows 用户，这可是苹果专属派对 🍎
⚠️ 重要：自动化权限（您 Mac 的信任问题）：
- 运行此 MCP 服务器的应用程序（例如终端、您的 Node.js 应用程序）需要在运行服务器的 macOS 设备上获得用户的明确授权。
- 自动化权限：用于控制其他应用程序（Finder、Safari、Mail 等）。
  - 前往：系统设置 > 隐私与安全性 > 自动化。
  - 在列表中找到运行服务器的应用程序（例如终端）。
  - 确保其对所有需要控制的应用程序都勾选了复选框。
  - 参见示例：docs/automation-permissions-example.png（占位图）。
- 辅助功能权限：用于通过“系统事件”进行 UI 脚本编写（例如模拟点击、按键操作）。
  - 前往：系统设置 > 隐私与安全性 > 辅助功能。
  - 将运行服务器的应用程序（例如终端）添加到列表中，并确保其复选框被勾选。
- 即使已提前授权，首次尝试控制新应用程序或使用辅助功能时，仍可能会弹出 macOS 的确认提示。服务器本身无法授予这些权限。

🏃‍♂️ 快速开始：释放机器人军团！

部署您的自动化大军最简单的方式就是使用 npx。无需安装——纯粹的机器人魔法！

将以下内容添加到您的 MCP 客户端的 mcp.json 文件中，即可见证自动化开始：

{
  "mcpServers": {
    "macos_automator": {
      "command": "npx",
      "args": [
        "-y",
        "@steipete/macos-automator-mcp@latest"
      ]
    }
  }
}

🛠️ 机器人车间模式（本地开发）

想亲手改造机器人的“大脑”吗？克隆仓库，成为一名机器人外科医生吧！

克隆仓库：

git clone https://github.com/steipete/macos-automator-mcp.git
cd macos-automator-mcp
npm install # 确保依赖项已安装

配置您的 MCP 客户端： 更新您的 MCP 客户端配置，使其指向您克隆仓库中 start.sh 脚本的绝对路径。

示例 mcp.json 配置片段：
```
{
  "mcpServers": {
    "macos_automator_local": {
      "command": "/绝对路径/到/您的/克隆/仓库/macos-automator-mcp/start.sh",
      "env": {
        "LOG_LEVEL": "DEBUG"
      }
    }
  }
}
```
重要提示：请将 /绝对路径/到/您的/克隆/仓库/macos-automator-mcp/start.sh 替换为您系统上的正确绝对路径。

start.sh 脚本会自动使用 tsx 直接运行 TypeScript 源代码（如果未找到编译版本），或者在存在编译版本的情况下直接运行 dist/ 中的文件。它会尊重 LOG_LEVEL 环境变量。

开发者注意：特别是当 start.sh 脚本被修改为在执行前删除任何已存在的编译版 dist/server.js（例如添加 rm -f dist/server.js）时，该脚本旨在确保您始终通过 tsx 运行来自 src/ 目录的最新 TypeScript 代码。这对于开发来说非常理想，可以避免因旧版本构建而导致的问题。而在生产部署时（例如发布到 npm），通常会有一个构建过程生成确定性的 dist/server.js，作为已发布包的入口点。

🤖 机器人工具箱

1. `execute_script` - 脚本启动器 9000

这是你的机器人在 macOS 上实现掌控的首选利器。只需为其提供 AppleScript 或 JXA 脚本，即可见证神奇效果！脚本可以通过内联内容（script_content）、绝对文件路径（script_path）提供，也可以通过引用内置知识库中的唯一 kb_script_id 来调用预定义脚本。

脚本来源（互斥）：

script_content（字符串）：原始脚本代码。
script_path（字符串）：指向脚本文件的绝对 POSIX 路径（例如 .applescript、.scpt、.js）。
kb_script_id（字符串）：服务器知识库中预定义脚本的唯一标识符。可使用 get_scripting_tips 工具来发现可用的脚本 ID 及其功能。

语言规范：

language（枚举：'applescript' | 'javascript'，可选）：指定脚本语言。
- 如果使用 kb_script_id，语言将从知识库脚本中推断得出。
- 如果使用 script_content 或 script_path 且未指定 language，则默认为 'applescript'。

向脚本传递参数：

arguments（字符串数组，可选）：
- 对于 script_path：作为标准参数传递给脚本的 on run argv（AppleScript）或 run(argv)（JXA）处理程序。
- 对于 kb_script_id：如果预定义脚本设计为接受位置参数（例如替换 --MCP_ARG_1、--MCP_ARG_2 等占位符），则会使用这些参数。请参考 get_scripting_tips 返回的脚本 argumentsPrompt。
input_data（JSON 对象，可选）：
- 主要用于设计为接受命名结构化输入的 kb_script_id 脚本。
- 此对象中的值会替换脚本中的占位符（例如 --MCP_INPUT:yourKeyName）。请参阅 get_scripting_tips 返回的 argumentsPrompt。
- 值（字符串、数字、布尔值、简单数组/对象）会被转换为对应的 AppleScript 字面量。

其他选项：

timeout_seconds（整数，可选，默认：60）：最大执行时间。
output_format_mode（枚举，可选，默认：'auto'）：控制 osascript 的输出格式标志。
- 'auto'：（默认）对于 AppleScript 使用人类可读格式（-s h），而对于 JXA 则直接输出（不使用 -s 标志）。
- 'human_readable'：强制使用 -s h（人类可读输出，主要用于 AppleScript）。
- 'structured_error'：强制使用 -s s（结构化错误报告，主要用于 AppleScript）。
- 'structured_output_and_error'：强制使用 -s ss（主结果和错误均以结构化形式输出，主要用于 AppleScript）。
- 'direct'：不使用任何 -s 标志（推荐用于 JXA，也是 auto 模式下 JXA 的行为）。
include_executed_script_in_output（布尔值，可选，默认：false）：若为真，输出将包含完整的脚本内容（针对知识库脚本会先进行占位符替换）或被执行的脚本路径。该内容将以额外文本部分的形式追加到输出内容数组中。
include_substitution_logs（布尔值，可选，默认：false）：若为真，输出中将包含对知识库脚本执行占位符替换的详细日志。这有助于调试 input_data 和 arguments 如何被处理并插入脚本中。成功时，日志会前置到脚本输出；失败时，则会追加到错误信息中。
report_execution_time（布尔值，可选，默认：false）：若为真，响应内容数组中将包含一条格式化的脚本执行时间信息。

安全警告及 macOS 权限：（与之前关于任意脚本执行以及 macOS 自动化/辅助功能权限的严重警告相同）

示例：

（现有内联/文件路径示例仍然适用）

使用知识库脚本 ID：

{
  "toolName": "execute_script",
  "input": {
    "kb_script_id": "safari_get_active_tab_url",
    "timeout_seconds": 10
  }
}

使用知识库脚本 ID 并传入 input_data：

{
  "toolName": "execute_script",
  "input": {
    "kb_script_id": "finder_create_folder_at_path",
    "input_data": {
      "folder_name": "New MCP Folder",
      "parent_path": "~/Desktop"
    }
  }
}

响应格式：

execute_script 工具返回如下格式的响应：

{
  content: Array<{
    type: 'text';
    text: string;
  }>;
  isError?: boolean;
}

content：包含脚本输出的文本内容数组。
isError：（布尔值，可选）当脚本执行产生错误时设置为 true。此标志会在以下情况下被设置：
- 脚本输出（stdout）以“Error”开头（不区分大小写）。
- 这有助于客户端无需解析输出文本即可轻松判断执行是否失败。

成功响应示例：

{
  "content": [{
    "type": "text",
    "text": "脚本执行成功"
  }]
}

错误响应示例：

{
  "content": [{
    "type": "text",
    "text": "错误：无法找到应用程序 'Safari'"
  }],
  "isError": true
}

2. `get_scripting_tips` - 机器人的自动化百科全书

你的私人自动化图书管理员！它能比你谷歌搜索“如何编写 AppleScript”还要快地检索出 200 多个预构建脚本。当你需要灵感时，它将是你的最佳选择。

参数：

list_categories（布尔值，可选，默认：false）：若为真，仅返回可用知识库分类及其描述列表。此参数会覆盖其他参数。
category（字符串，可选）：按特定类别 ID（例如“finder”、“safari”）筛选提示。
search_term（字符串，可选）：在提示标题、描述、脚本内容、关键词或 ID 中搜索关键字。
refresh_database（布尔值，可选，默认：false）：若为真，将在处理请求前强制从磁盘重新加载整个知识库。这在开发过程中非常有用，如果你正在积极修改知识库文件，并希望确保使用最新版本而无需重启服务器。
limit（整数，可选，默认：10）：返回的最大结果数量。

输出：

返回一个 Markdown 格式的字符串，包含所请求的提示，包括其标题、描述、脚本内容、语言、可运行 ID（如适用）、参数提示及备注。

使用示例：

列出所有类别： { "toolName": "get_scripting_tips", "input": { "list_categories": true } }
获取“safari”类别下的提示： { "toolName": "get_scripting_tips", "input": { "category": "safari" } }
搜索与“剪贴板”相关的提示： { "toolName": "get_scripting_tips", "input": { "search_term": "clipboard" } }

3. `accessibility_query` - UI 的 X 光眼

为你的机器人赋予超级英雄般的技能，让它能够查看并点击任何应用中的任意按钮！这款工具利用 macOS 的辅助功能框架，深入窥探 macOS 应用程序的内部结构。它由神秘的 ax 二进制文件驱动，就像拥有了用户界面的 X 光透视能力。

ax 二进制文件（以及本工具）可以通过多种方式接收 JSON 命令输入：

直接 JSON 字符串参数： 如果 ax 被调用时仅提供一个命令行参数，且该参数不是有效的文件路径，则会尝试将其解析为完整的 JSON 字符串。
文件路径参数： 如果 ax 被调用时仅提供一个有效的文件路径作为命令行参数，则会从该文件中读取完整的 JSON 命令。
标准输入： 如果 ax 没有命令行参数，则会从标准输入中读取完整的 JSON 命令（可以是多行格式）。

本工具暴露了完整的 macOS 辅助功能 API 功能，允许对 UI 元素及其属性进行详细检查。它特别适用于自动化那些没有强大 AppleScript 支持的应用程序交互，或者在需要详细检查 UI 结构时使用。

输入参数：

command（枚举：'query' | 'perform'，必填）：要执行的操作。
- query：获取 UI 元素的相关信息。
- perform：对 UI 元素执行操作（例如点击按钮）。
locator（对象，必填）：用于查找目标元素的规范。
- app（字符串，必填）：目标应用程序，可通过捆绑包 ID 或显示名称指定（例如：“Safari”、“com.apple.Safari”）。
- role（字符串，必填）：目标元素的辅助功能角色（例如：“AXButton”、“AXStaticText”）。
- match（对象，必填）：用于匹配的属性键值对。如果不需要，可为空（{}）。
- navigation_path_hint（字符串数组，可选）：在应用程序层级结构中导航的路径（例如：["window[1]", "toolbar[1]"]）。
return_all_matches（布尔值，可选）：当设置为 true 时，返回所有匹配的元素，而不仅仅是第一个匹配项。默认为 false。
attributes_to_query（字符串数组，可选）：要查询的匹配元素的特定属性。如果未提供，则会包含常见属性。示例：["AXRole", "AXTitle", "AXValue"]
required_action_name（字符串，可选）：筛选仅支持特定操作的元素（例如：“AXPress”表示可点击的元素）。
action_to_perform（字符串，可选，当 command="perform" 时必填）：要在匹配的元素上执行的辅助功能操作（例如：“AXPress”用于点击按钮）。
report_execution_time（布尔值，可选）：如果设置为 true，工具将返回一条额外的消息，其中包含格式化的脚本执行时间。默认为 false。
limit（整数，可选）：输出中最多返回的行数。默认为 500 行。如果超过此限制，输出将被截断。
max_elements（整数，可选）：对于 return_all_matches: true 的查询，此参数指定 ax 二进制文件将完全处理并返回属性的最大 UI 元素数量。如果省略，则使用内部默认值（例如 200）。这有助于在查询具有大量匹配元素的 UI 时（如复杂网页上的众多文本字段）控制性能。这与 limit 不同，后者是基于行数对最终文本输出进行截断。
debug_logging（布尔值，可选）：如果设置为 true，则启用底层 ax 二进制文件的详细调试日志记录。这些诊断信息将包含在响应中，有助于排查复杂的查询或意外行为。默认为 false。
output_format（枚举：'smart' | 'verbose' | 'text_content'，可选，默认：'smart'）：控制 ax 二进制文件返回属性的格式和详细程度。
- 'smart'：（默认）优化为易读性。省略值为空或占位符的属性。返回键值对。
- 'verbose'：最大程度的细节。包括所有属性，即使是空值或占位符。以键值形式呈现。最适合调试元素属性。
- 'text_content'：高度紧凑，用于提取文本。仅返回常见文本属性（如 AXValue、AXTitle）的拼接文本值。不返回键名。非常适合快速获取元素中的所有文本；在此模式下，attributes_to_query 参数将被忽略。

查询示例（注意：键名已改为小写蛇形命名）：

查找当前 Safari 窗口中的所有文本元素：

{
  "command": "query",
  "return_all_matches": true,
  "locator": {
    "app": "Safari",
    "role": "AXStaticText",
    "match": {},
    "navigation_path_hint": ["window[1]"]
  }
}

查找并点击具有特定标题的按钮：

{
  "command": "perform",
  "locator": {
    "app": "系统设置",
    "role": "AXButton",
    "match": {"AXTitle": "通用"}
  },
  "action_to_perform": "AXPress"
}

获取焦点 UI 元素的详细信息：

{
  "command": "query",
  "locator": {
    "app": "邮件",
    "role": "AXTextField",
    "match": {"AXFocused": "true"}
  },
  "attributes_to_query": ["AXRole", "AXTitle", "AXValue", "AXDescription", "AXHelp", "AXPosition", "AXSize"]
}

注意： 使用此工具需要确保运行本服务器的应用程序在 macOS 系统设置 > 隐私与安全性 > 辅助功能中拥有必要的辅助功能权限。

🎮 机器人游乐场：你新朋友能做的酷事

应用程序控制（教会应用程序谁是老大）：
- 获取 Safari 中的当前 URL：{ "input": { "script_content": "tell application \"Safari\" to get URL of front document" } }
- 获取 Mail 中未读邮件的主题：{ "input": { "script_content": "tell application \"Mail\" to get subject of messages of inbox whose read status is false" } }
文件系统操作（数字家务管理）：
- 列出桌面上的文件：{ "input": { "script_content": "tell application \"Finder\" to get name of every item of desktop" } }
- 创建新文件夹：{ "input": { "script_content": "tell application \"Finder\" to make new folder at desktop with properties {name:\"Robot's Secret Stash\"}" } }
系统交互（Mac 心灵控制）：
- 显示系统通知：{ "input": { "script_content": "display notification \"🤖 Beep boop! Task complete!\" with title \"Robot Report\"" } }
- 设置系统音量：{ "input": { "script_content": "set volume output volume 50" } }（0–100）
- 获取当前剪贴板内容：{ "input": { "script_content": "the clipboard" } }

🔧 当机器人叛乱时（故障排除）

“访问被拒绝”闹剧： 你的机器人缺少权限！请检查系统设置 > 隐私与安全。给你的终端授予最高权限。
脚本语法悲伤： 即使是机器人也会打错字。先在脚本编辑器中测试脚本——这就像自动化版的拼写检查。
超时发脾气： 有些任务需要时间。如果你的机器人完成任务需要超过60秒，请增加 timeout_seconds 的值。
文件未找到大乌龙： 机器人需要绝对路径，而不是相对路径。机器人世界里没有捷径！
JXA 输出怪现象： JavaScript 机器人很挑剔。使用 output_format_mode: 'direct'，或者让 'auto' 模式自动处理。

🎛️ 机器人控制面板（配置）

通过以下环境变量，微调你的机器人的行为：

LOG_LEVEL：你的机器人应该有多健谈？
- DEBUG：机器人会告诉你所有内容（信息过载模式）
- INFO：正常交流模式
- WARN：只报告重要信息
- ERROR：静默模式（只有出问题时才会说话）
- 示例：LOG_LEVEL=DEBUG npx @steipete/macos-automator-mcp@latest
KB_PARSING：机器人何时加载知识库？
- lazy（默认）：按需加载知识（启动快，但懒惰）
- eager：启动时一次性加载所有内容（启动慢，但随时待命）
- 示例：KB_PARSING=eager ./start.sh

👨‍🔬 欢迎机器人科学家！

想升级你的机器人吗？查看 DEVELOPMENT.md，获取完整的技术手册，教你如何为自动化助手教授新技能。

🧠 教你的机器人新技能（本地知识库）

你的机器人可以学习自定义技能！创建属于你自己的自动化配方，见证你的机器人不断进化。

默认情况下，应用程序会在 ~/.macos-automator/knowledge_base 查找本地知识库。你可以通过设置 LOCAL_KB_PATH 环境变量来更改此路径。

示例：

假设你在 /Users/yourname/my-custom-kb 有一个本地知识库。设置环境变量： export LOCAL_KB_PATH=/Users/yourname/my-custom-kb

或者，如果你正在运行验证脚本，可以使用 --local-kb-path 参数： npm run validate:kb -- --local-kb-path /Users/yourname/my-custom-kb

结构与覆盖规则：

你的本地知识库应与主 knowledge_base 的分类结构保持一致（例如 01_applescript_core、05_web_browsers/safari 等）。
你可以添加新的 .md 技巧文件或 _shared_handlers 文件（如 .applescript 或 .js 文件）。
如果你的本地知识库中的某个技巧 ID（无论是来自 frontmatter 的 id:，还是由文件名/路径生成）与嵌入式知识库中的 ID 相匹配，则你的本地版本将覆盖嵌入式版本。
同样地，在你的本地 _shared_handlers 目录中，如果存在与嵌入式知识库同名且同语言的共享处理器（例如 my_utility.applescript），则它将覆盖同一类别中（或全局范围内，若放置于本地 KB 的 _shared_handlers 根目录下）的嵌入式版本。
你本地 KB 中的 _category_info.md 文件中的分类描述也可以覆盖嵌入式 KB 中相同分类的描述。

这样可以在不修改核心应用文件的情况下，个性化和扩展可用的自动化脚本和技巧。

🤝 加入机器人革命！

发现 bug 了吗？有酷炫的自动化点子吗？你的机器人军团正等着你加入！请在 GitHub 仓库提交问题和拉取请求。

💪 机器人超能力展示

以下是你的新硅基小伙伴开箱即用的能力：

🖥️ 终端驯兽师

命令行魔法： 打开新标签页、执行命令、捕获输出——你的机器人能流利地说“bash”！

{ "input": { "kb_script_id": "terminal_app_run_command_new_tab", "input_data": { "command": "echo '🤖 Hello World!'" } } }

🌐 浏览器小精灵

网页自动化大师： 像木偶戏大师一样操控 Chrome 和 Safari！
```
{ "input": { "kb_script_id": "safari_get_front_tab_url" } }
```
JavaScript 注入： 让网页按照机器人的指令翩翩起舞
截图狙击手： 比你说“茄子”还快就截好图

⚙️ 系统魔法师

暗黑模式切换： 因为机器人也有敏感的光学传感器

{ "input": { "kb_script_id": "systemsettings_toggle_dark_mode_ui" } }

剪贴板指挥官： 复制、粘贴、操作剪贴板，像专业人士一样
通知忍者： 发送真正能引起注意的提醒

📁 文件系统风水师

文件夹创造者 3000： 用机器人般的精准整理你的数字生活

{ "input": { "kb_script_id": "finder_create_new_folder_desktop", "input_data": { "folder_name": "Robot Paradise" } } }

文本文件心灵感应： 以人类无法企及的速度读写文件

📱 应用程序低语者

日历指挥家： 在你熟睡时安排会议
邮件自动化大师： 不用动一根手指就能发送邮件

音乐大师： 编程控制你的播放列表

{ "input": { "kb_script_id": "music_playback_controls", "input_data": { "action": "play" } } }

🎯 实用小贴士： 使用 get_scripting_tips 来发现全部 200 多种自动化配方！

📜 法律声明（机器人权利）

本项目采用 MIT 许可证授权——这意味着你的机器人可以自由活动！详细条款请参阅 LICENSE 文件。

🤖 请记住： 强大的自动化能力伴随着巨大的责任。请明智地使用你的机器人！

macOS Automator MCP 快速上手指南

macOS Automator MCP 是一个基于模型上下文协议（MCP）的服务器，它能让你的 AI 助手直接通过 AppleScript 或 JavaScript for Automation (JXA) 控制 macOS 系统。内置超过 200 个预置自动化脚本，涵盖文件管理、浏览器操作等场景。

环境准备

在开始之前，请确保满足以下系统和权限要求：

1. 系统与依赖

操作系统：仅限 macOS（不支持 Windows 或 Linux）。
Node.js：版本需 >= 18.0.0。
```
node -v # 检查版本
```

2. ⚠️ 关键权限配置（必须执行）

macOS 的安全机制要求运行此工具的终端或应用必须获得明确授权，否则无法控制其他应用。

步骤 A：授予“自动化”权限

打开 系统设置 > 隐私与安全性 > 自动化。
在列表中找到运行该服务的程序（例如：终端、iTerm2 或你的 IDE）。
勾选该程序需要控制的所有应用（如 Finder, Safari, Mail 等），或直接全选。

步骤 B：授予“辅助功能”权限

打开 系统设置 > 隐私与安全性 > 辅助功能。
点击"+"号或开关，将运行该服务的程序（例如：终端）添加到列表中并启用。

注意：首次尝试控制新应用时，macOS 可能会再次弹出确认对话框，请点击“好”允许。

安装步骤

推荐使用 npx 方式直接运行，无需手动克隆代码或编译，最适合快速集成。

在你的 MCP 客户端配置文件（通常为 mcp.json）中添加以下配置：

{
  "mcpServers": {
    "macos_automator": {
      "command": "npx",
      "args": [
        "-y",
        "@steipete/macos-automator-mcp@latest"
      ]
    }
  }
}

保存配置后重启你的 MCP 客户端（如 Cursor、Windsurf 或其他支持 MCP 的编辑器），即可自动加载该服务。

国内开发者提示：如果 npx 下载缓慢，可临时设置淘宝镜像源：
export NPM_CONFIG_REGISTRY=https://registry.npmmirror.com
然后在启动命令前加上该环境变量，或在 .npmrc 文件中永久配置。

基本使用

配置完成后，你可以在对话中直接让 AI 调用工具执行自动化任务。以下是两个最典型的使用场景：

场景 1：调用内置脚本（推荐）

利用内置的 200+ 知识库脚本，无需编写代码即可完成任务。例如获取当前 Safari 标签页的 URL：

用户指令示例：

“帮我获取当前 Safari 浏览器活动标签页的网址。”

底层工具调用逻辑（供参考）：

{
  "toolName": "execute_script",
  "input": {
    "kb_script_id": "safari_get_active_tab_url",
    "timeout_seconds": 10
  }
}

场景 2：执行自定义 AppleScript

如果需要执行特定逻辑，可以直接传入脚本内容。例如在桌面创建一个文件夹：

用户指令示例：

“在桌面上创建一个名为 'MCP_Test' 的文件夹。”

底层工具调用逻辑（供参考）：

{
  "toolName": "execute_script",
  "input": {
    "language": "applescript",
    "script_content": "tell application \"Finder\" to make new folder at desktop with name \"MCP_Test\""
  }
}

探索更多能力

如果你不知道有哪些可用脚本，可以询问 AI：

“列出所有关于 Finder 操作的自动化脚本。”

这将触发 get_scripting_tips 工具，返回相关脚本的 ID 和功能描述，方便你进一步调用。

版本历史

v0.4.12025/05/19

v0.4.02025/05/19

v0.3.02025/05/19

v0.2.22025/05/16

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 macos-automator-mcp 时

使用 macos-automator-mcp 后

运行环境要求

快速开始

macOS Automator MCP 🤖 - 您贴心的机器人脚本员™

🎯 任务控制中心：自2024年起教机器人点击按钮

🚀 为什么让机器人来操控您的 Mac？

🔧 机器人要求（先决条件）

🏃‍♂️ 快速开始：释放机器人军团！

🛠️ 机器人车间模式（本地开发）

🤖 机器人工具箱

1. execute_script - 脚本启动器 9000

2. get_scripting_tips - 机器人的自动化百科全书

3. accessibility_query - UI 的 X 光眼

🎮 机器人游乐场：你新朋友能做的酷事

🔧 当机器人叛乱时（故障排除）

🎛️ 机器人控制面板（配置）

👨‍🔬 欢迎机器人科学家！

🧠 教你的机器人新技能（本地知识库）

🤝 加入机器人革命！

💪 机器人超能力展示

🖥️ 终端驯兽师

🌐 浏览器小精灵

⚙️ 系统魔法师

📁 文件系统风水师

📱 应用程序低语者

📜 法律声明（机器人权利）

macOS Automator MCP 快速上手指南

环境准备

1. 系统与依赖

2. ⚠️ 关键权限配置（必须执行）

安装步骤

基本使用

场景 1：调用内置脚本（推荐）

场景 2：执行自定义 AppleScript

探索更多能力

版本历史

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

1. `execute_script` - 脚本启动器 9000

2. `get_scripting_tips` - 机器人的自动化百科全书

3. `accessibility_query` - UI 的 X 光眼