macos-automator-mcp
macos-automator-mcp 是一款专为 macOS 设计的模型上下文协议(MCP)服务器,旨在让 AI 助手能够直接执行 AppleScript 和 JavaScript for Automation (JXA) 脚本。它解决了大语言模型通常只能“动口”无法“动手”的痛点,赋予 AI 实际操作系统的能力,如自动点击按钮、切换深色模式、从浏览器提取数据或控制各类应用程序。
该工具内置了超过 200 种预置自动化场景,用户无需手动编写复杂代码即可调用,极大地降低了自动化门槛。其核心技术亮点在于通过标准的 MCP 接口,将本地 Mac 的系统控制权安全地开放给 AI 工作流,实现了从对话到行动的闭环。不过,出于系统安全考虑,首次使用时需在 macOS 设置中手动授予运行环境(如终端)相应的“自动化”与“辅助功能”权限。
macos-automator-mcp 特别适合希望提升工作效率的开发者、自动化测试人员以及热衷于探索 AI 代理能力的极客用户。对于普通用户而言,若希望通过自然语言指令让电脑自动完成重复性任务,它也是一个强大的桥梁工具,让 Mac 真正成为懂你意图的智能助手。
使用场景
一位 macOS 上的全栈开发者正试图让本地大模型助手自动整理每日的 Safari 浏览记录并生成日报,同时根据内容自动归档文件。
没有 macos-automator-mcp 时
- 只能动口不能动手:AI 助手虽然能写出完美的 AppleScript 代码,但无法直接执行,开发者必须手动复制粘贴到脚本编辑器运行,打断心流。
- 重复劳动繁琐:每次需要提取当前网页标题、保存截图或移动文件时,都要重新向 AI 请求代码并手动操作,效率极低。
- 应用控制割裂:AI 无法感知或控制 Finder、Safari 等原生应用的状态,导致工作流在“对话”与“操作”之间强行断裂。
- 权限配置迷茫:手动配置 macOS 自动化和辅助功能权限时容易出错,且缺乏统一的调试反馈,排查问题耗时耗力。
使用 macos-automator-mcp 后
- 指令即行动:开发者只需对 AI 说“把当前 Safari 标签页归档”,macos-automator-mcp 立即调用 JXA 脚本后台执行,无需任何人工干预。
- 复杂流程一键通:通过内置的 200+ 自动化模板,AI 能串联起“抓取链接 - 保存截图 - 移动文件 - 更新日志”的全套动作,实现真正的端到端自动化。
- 深度应用集成:macos-automator-mcp 赋予 AI 操控系统级应用的能力,使其能像真实员工一样点击按钮、模拟按键,彻底打通软件壁垒。
- 安全可控的执行环境:工具在配置好的权限沙箱中运行,提供清晰的调试日志,让自动化过程既强大又透明可追溯。
macos-automator-mcp 将 AI 从单纯的“聊天顾问”升级为能直接操控 macOS 系统的“超级实习生”,真正实现了自然语言到系统行动的无缝转化。
运行环境要求
- macOS
未说明
未说明

快速开始
macOS Automator MCP 🤖 - 您贴心的机器人脚本员™

🎯 任务控制中心:自2024年起教机器人点击按钮
欢迎来到自动化未来,您的 Mac 终于能按您说的去做事了!这个模型上下文协议(MCP)服务器会将您的 AI 助手变成一个懂 AppleScript 和 JavaScript for Automation (JXA) 的硅基实习生。
再也不用像原始人一样复制粘贴脚本——让机器人来做机器人该做的事吧!我们的知识库包含超过 200 个预编程的自动化流程,加载速度比您喊出“嘿 Siri,你为什么不这样工作?”还要快!
🚀 为什么让机器人来操控您的 Mac?
- 远程控制现实:通过 MCP 执行 AppleScript/JXA 脚本——就像在您的 Mac 内部安插了一个小机器人!
- 强大的知识库:200 多种预制自动化方案。从“切换深色模式”到“从 Safari 中提取所有 URL”——我们能满足您对机器人的各种需求。
- 应用调音师:以编程方式控制任何 macOS 应用程序。让 Finder 跳舞、Safari 唱歌,而 Terminal……嗯,就负责“终结”事情吧。
- AI 工作流集成:将您的 Mac 连接到 AI 革命中。您的大型语言模型现在不仅能“说”,还能真正“做”事情!
🔧 机器人要求(先决条件)
- Node.js(版本 >=18.0.0)——因为机器人也需要运行时环境
- macOS——抱歉 Windows 用户,这可是苹果专属派对 🍎
- ⚠️ 重要:自动化权限(您 Mac 的信任问题):
- 运行此 MCP 服务器的应用程序(例如终端、您的 Node.js 应用程序)需要在运行服务器的 macOS 设备上获得用户的明确授权。
- 自动化权限:用于控制其他应用程序(Finder、Safari、Mail 等)。
- 前往:系统设置 > 隐私与安全性 > 自动化。
- 在列表中找到运行服务器的应用程序(例如终端)。
- 确保其对所有需要控制的应用程序都勾选了复选框。
- 参见示例:
docs/automation-permissions-example.png(占位图)。
- 辅助功能权限:用于通过“系统事件”进行 UI 脚本编写(例如模拟点击、按键操作)。
- 前往:系统设置 > 隐私与安全性 > 辅助功能。
- 将运行服务器的应用程序(例如终端)添加到列表中,并确保其复选框被勾选。
- 即使已提前授权,首次尝试控制新应用程序或使用辅助功能时,仍可能会弹出 macOS 的确认提示。服务器本身无法授予这些权限。
🏃♂️ 快速开始:释放机器人军团!
部署您的自动化大军最简单的方式就是使用 npx。无需安装——纯粹的机器人魔法!
将以下内容添加到您的 MCP 客户端的 mcp.json 文件中,即可见证自动化开始:
{
"mcpServers": {
"macos_automator": {
"command": "npx",
"args": [
"-y",
"@steipete/macos-automator-mcp@latest"
]
}
}
}
🛠️ 机器人车间模式(本地开发)
想亲手改造机器人的“大脑”吗?克隆仓库,成为一名机器人外科医生吧!
克隆仓库:
git clone https://github.com/steipete/macos-automator-mcp.git cd macos-automator-mcp npm install # 确保依赖项已安装配置您的 MCP 客户端: 更新您的 MCP 客户端配置,使其指向您克隆仓库中
start.sh脚本的绝对路径。示例
mcp.json配置片段:{ "mcpServers": { "macos_automator_local": { "command": "/绝对路径/到/您的/克隆/仓库/macos-automator-mcp/start.sh", "env": { "LOG_LEVEL": "DEBUG" } } } }重要提示:请将
/绝对路径/到/您的/克隆/仓库/macos-automator-mcp/start.sh替换为您系统上的正确绝对路径。start.sh脚本会自动使用tsx直接运行 TypeScript 源代码(如果未找到编译版本),或者在存在编译版本的情况下直接运行dist/中的文件。它会尊重LOG_LEVEL环境变量。开发者注意:特别是当
start.sh脚本被修改为在执行前删除任何已存在的编译版dist/server.js(例如添加rm -f dist/server.js)时,该脚本旨在确保您始终通过tsx运行来自src/目录的最新 TypeScript 代码。这对于开发来说非常理想,可以避免因旧版本构建而导致的问题。而在生产部署时(例如发布到 npm),通常会有一个构建过程生成确定性的dist/server.js,作为已发布包的入口点。
🤖 机器人工具箱
1. execute_script - 脚本启动器 9000
这是你的机器人在 macOS 上实现掌控的首选利器。只需为其提供 AppleScript 或 JXA 脚本,即可见证神奇效果!脚本可以通过内联内容(script_content)、绝对文件路径(script_path)提供,也可以通过引用内置知识库中的唯一 kb_script_id 来调用预定义脚本。
脚本来源(互斥):
script_content(字符串):原始脚本代码。script_path(字符串):指向脚本文件的绝对 POSIX 路径(例如.applescript、.scpt、.js)。kb_script_id(字符串):服务器知识库中预定义脚本的唯一标识符。可使用get_scripting_tips工具来发现可用的脚本 ID 及其功能。
语言规范:
language(枚举:'applescript' | 'javascript',可选):指定脚本语言。- 如果使用
kb_script_id,语言将从知识库脚本中推断得出。 - 如果使用
script_content或script_path且未指定language,则默认为 'applescript'。
- 如果使用
向脚本传递参数:
arguments(字符串数组,可选):- 对于
script_path:作为标准参数传递给脚本的on run argv(AppleScript)或run(argv)(JXA)处理程序。 - 对于
kb_script_id:如果预定义脚本设计为接受位置参数(例如替换--MCP_ARG_1、--MCP_ARG_2等占位符),则会使用这些参数。请参考get_scripting_tips返回的脚本argumentsPrompt。
- 对于
input_data(JSON 对象,可选):- 主要用于设计为接受命名结构化输入的
kb_script_id脚本。 - 此对象中的值会替换脚本中的占位符(例如
--MCP_INPUT:yourKeyName)。请参阅get_scripting_tips返回的argumentsPrompt。 - 值(字符串、数字、布尔值、简单数组/对象)会被转换为对应的 AppleScript 字面量。
- 主要用于设计为接受命名结构化输入的
其他选项:
timeout_seconds(整数,可选,默认:60):最大执行时间。output_format_mode(枚举,可选,默认:'auto'):控制osascript的输出格式标志。'auto':(默认)对于 AppleScript 使用人类可读格式(-s h),而对于 JXA 则直接输出(不使用-s标志)。'human_readable':强制使用-s h(人类可读输出,主要用于 AppleScript)。'structured_error':强制使用-s s(结构化错误报告,主要用于 AppleScript)。'structured_output_and_error':强制使用-s ss(主结果和错误均以结构化形式输出,主要用于 AppleScript)。'direct':不使用任何-s标志(推荐用于 JXA,也是auto模式下 JXA 的行为)。
include_executed_script_in_output(布尔值,可选,默认:false):若为真,输出将包含完整的脚本内容(针对知识库脚本会先进行占位符替换)或被执行的脚本路径。该内容将以额外文本部分的形式追加到输出内容数组中。include_substitution_logs(布尔值,可选,默认:false):若为真,输出中将包含对知识库脚本执行占位符替换的详细日志。这有助于调试input_data和arguments如何被处理并插入脚本中。成功时,日志会前置到脚本输出;失败时,则会追加到错误信息中。report_execution_time(布尔值,可选,默认:false):若为真,响应内容数组中将包含一条格式化的脚本执行时间信息。
安全警告及 macOS 权限:(与之前关于任意脚本执行以及 macOS 自动化/辅助功能权限的严重警告相同)
示例:
- (现有内联/文件路径示例仍然适用)
- 使用知识库脚本 ID:
{ "toolName": "execute_script", "input": { "kb_script_id": "safari_get_active_tab_url", "timeout_seconds": 10 } } - 使用知识库脚本 ID 并传入
input_data:{ "toolName": "execute_script", "input": { "kb_script_id": "finder_create_folder_at_path", "input_data": { "folder_name": "New MCP Folder", "parent_path": "~/Desktop" } } }
响应格式:
execute_script 工具返回如下格式的响应:
{
content: Array<{
type: 'text';
text: string;
}>;
isError?: boolean;
}
content:包含脚本输出的文本内容数组。isError:(布尔值,可选)当脚本执行产生错误时设置为true。此标志会在以下情况下被设置:- 脚本输出(stdout)以“Error”开头(不区分大小写)。
- 这有助于客户端无需解析输出文本即可轻松判断执行是否失败。
成功响应示例:
{
"content": [{
"type": "text",
"text": "脚本执行成功"
}]
}
错误响应示例:
{
"content": [{
"type": "text",
"text": "错误:无法找到应用程序 'Safari'"
}],
"isError": true
}
2. get_scripting_tips - 机器人的自动化百科全书
你的私人自动化图书管理员!它能比你谷歌搜索“如何编写 AppleScript”还要快地检索出 200 多个预构建脚本。当你需要灵感时,它将是你的最佳选择。
参数:
list_categories(布尔值,可选,默认:false):若为真,仅返回可用知识库分类及其描述列表。此参数会覆盖其他参数。category(字符串,可选):按特定类别 ID(例如“finder”、“safari”)筛选提示。search_term(字符串,可选):在提示标题、描述、脚本内容、关键词或 ID 中搜索关键字。refresh_database(布尔值,可选,默认:false):若为真,将在处理请求前强制从磁盘重新加载整个知识库。这在开发过程中非常有用,如果你正在积极修改知识库文件,并希望确保使用最新版本而无需重启服务器。limit(整数,可选,默认:10):返回的最大结果数量。
输出:
- 返回一个 Markdown 格式的字符串,包含所请求的提示,包括其标题、描述、脚本内容、语言、可运行 ID(如适用)、参数提示及备注。
使用示例:
- 列出所有类别:
{ "toolName": "get_scripting_tips", "input": { "list_categories": true } } - 获取“safari”类别下的提示:
{ "toolName": "get_scripting_tips", "input": { "category": "safari" } } - 搜索与“剪贴板”相关的提示:
{ "toolName": "get_scripting_tips", "input": { "search_term": "clipboard" } }
3. accessibility_query - UI 的 X 光眼
为你的机器人赋予超级英雄般的技能,让它能够查看并点击任何应用中的任意按钮!这款工具利用 macOS 的辅助功能框架,深入窥探 macOS 应用程序的内部结构。它由神秘的 ax 二进制文件驱动,就像拥有了用户界面的 X 光透视能力。
ax 二进制文件(以及本工具)可以通过多种方式接收 JSON 命令输入:
- 直接 JSON 字符串参数: 如果
ax被调用时仅提供一个命令行参数,且该参数不是有效的文件路径,则会尝试将其解析为完整的 JSON 字符串。 - 文件路径参数: 如果
ax被调用时仅提供一个有效的文件路径作为命令行参数,则会从该文件中读取完整的 JSON 命令。 - 标准输入: 如果
ax没有命令行参数,则会从标准输入中读取完整的 JSON 命令(可以是多行格式)。
本工具暴露了完整的 macOS 辅助功能 API 功能,允许对 UI 元素及其属性进行详细检查。它特别适用于自动化那些没有强大 AppleScript 支持的应用程序交互,或者在需要详细检查 UI 结构时使用。
输入参数:
command(枚举:'query' | 'perform',必填):要执行的操作。query:获取 UI 元素的相关信息。perform:对 UI 元素执行操作(例如点击按钮)。
locator(对象,必填):用于查找目标元素的规范。app(字符串,必填):目标应用程序,可通过捆绑包 ID 或显示名称指定(例如:“Safari”、“com.apple.Safari”)。role(字符串,必填):目标元素的辅助功能角色(例如:“AXButton”、“AXStaticText”)。match(对象,必填):用于匹配的属性键值对。如果不需要,可为空({})。navigation_path_hint(字符串数组,可选):在应用程序层级结构中导航的路径(例如:["window[1]", "toolbar[1]"])。
return_all_matches(布尔值,可选):当设置为true时,返回所有匹配的元素,而不仅仅是第一个匹配项。默认为false。attributes_to_query(字符串数组,可选):要查询的匹配元素的特定属性。如果未提供,则会包含常见属性。示例:["AXRole", "AXTitle", "AXValue"]required_action_name(字符串,可选):筛选仅支持特定操作的元素(例如:“AXPress”表示可点击的元素)。action_to_perform(字符串,可选,当command="perform"时必填):要在匹配的元素上执行的辅助功能操作(例如:“AXPress”用于点击按钮)。report_execution_time(布尔值,可选):如果设置为true,工具将返回一条额外的消息,其中包含格式化的脚本执行时间。默认为false。limit(整数,可选):输出中最多返回的行数。默认为 500 行。如果超过此限制,输出将被截断。max_elements(整数,可选):对于return_all_matches: true的查询,此参数指定ax二进制文件将完全处理并返回属性的最大 UI 元素数量。如果省略,则使用内部默认值(例如 200)。这有助于在查询具有大量匹配元素的 UI 时(如复杂网页上的众多文本字段)控制性能。这与limit不同,后者是基于行数对最终文本输出进行截断。debug_logging(布尔值,可选):如果设置为true,则启用底层ax二进制文件的详细调试日志记录。这些诊断信息将包含在响应中,有助于排查复杂的查询或意外行为。默认为false。output_format(枚举:'smart' | 'verbose' | 'text_content',可选,默认:'smart'):控制ax二进制文件返回属性的格式和详细程度。'smart':(默认)优化为易读性。省略值为空或占位符的属性。返回键值对。'verbose':最大程度的细节。包括所有属性,即使是空值或占位符。以键值形式呈现。最适合调试元素属性。'text_content':高度紧凑,用于提取文本。仅返回常见文本属性(如 AXValue、AXTitle)的拼接文本值。不返回键名。非常适合快速获取元素中的所有文本;在此模式下,attributes_to_query参数将被忽略。
查询示例(注意:键名已改为小写蛇形命名):
查找当前 Safari 窗口中的所有文本元素:
{ "command": "query", "return_all_matches": true, "locator": { "app": "Safari", "role": "AXStaticText", "match": {}, "navigation_path_hint": ["window[1]"] } }查找并点击具有特定标题的按钮:
{ "command": "perform", "locator": { "app": "系统设置", "role": "AXButton", "match": {"AXTitle": "通用"} }, "action_to_perform": "AXPress" }获取焦点 UI 元素的详细信息:
{ "command": "query", "locator": { "app": "邮件", "role": "AXTextField", "match": {"AXFocused": "true"} }, "attributes_to_query": ["AXRole", "AXTitle", "AXValue", "AXDescription", "AXHelp", "AXPosition", "AXSize"] }
注意: 使用此工具需要确保运行本服务器的应用程序在 macOS 系统设置 > 隐私与安全性 > 辅助功能中拥有必要的辅助功能权限。
🎮 机器人游乐场:你新朋友能做的酷事
- 应用程序控制(教会应用程序谁是老大):
- 获取 Safari 中的当前 URL:
{ "input": { "script_content": "tell application \"Safari\" to get URL of front document" } } - 获取 Mail 中未读邮件的主题:
{ "input": { "script_content": "tell application \"Mail\" to get subject of messages of inbox whose read status is false" } }
- 获取 Safari 中的当前 URL:
- 文件系统操作(数字家务管理):
- 列出桌面上的文件:
{ "input": { "script_content": "tell application \"Finder\" to get name of every item of desktop" } } - 创建新文件夹:
{ "input": { "script_content": "tell application \"Finder\" to make new folder at desktop with properties {name:\"Robot's Secret Stash\"}" } }
- 列出桌面上的文件:
- 系统交互(Mac 心灵控制):
- 显示系统通知:
{ "input": { "script_content": "display notification \"🤖 Beep boop! Task complete!\" with title \"Robot Report\"" } } - 设置系统音量:
{ "input": { "script_content": "set volume output volume 50" } }(0–100) - 获取当前剪贴板内容:
{ "input": { "script_content": "the clipboard" } }
- 显示系统通知:
🔧 当机器人叛乱时(故障排除)
- “访问被拒绝”闹剧: 你的机器人缺少权限!请检查系统设置 > 隐私与安全。给你的终端授予最高权限。
- 脚本语法悲伤: 即使是机器人也会打错字。先在脚本编辑器中测试脚本——这就像自动化版的拼写检查。
- 超时发脾气: 有些任务需要时间。如果你的机器人完成任务需要超过60秒,请增加
timeout_seconds的值。 - 文件未找到大乌龙: 机器人需要绝对路径,而不是相对路径。机器人世界里没有捷径!
- JXA 输出怪现象: JavaScript 机器人很挑剔。使用
output_format_mode: 'direct',或者让'auto'模式自动处理。
🎛️ 机器人控制面板(配置)
通过以下环境变量,微调你的机器人的行为:
LOG_LEVEL:你的机器人应该有多健谈?DEBUG:机器人会告诉你所有内容(信息过载模式)INFO:正常交流模式WARN:只报告重要信息ERROR:静默模式(只有出问题时才会说话)- 示例:
LOG_LEVEL=DEBUG npx @steipete/macos-automator-mcp@latest
KB_PARSING:机器人何时加载知识库?lazy(默认):按需加载知识(启动快,但懒惰)eager:启动时一次性加载所有内容(启动慢,但随时待命)- 示例:
KB_PARSING=eager ./start.sh
👨🔬 欢迎机器人科学家!
想升级你的机器人吗?查看 DEVELOPMENT.md,获取完整的技术手册,教你如何为自动化助手教授新技能。
🧠 教你的机器人新技能(本地知识库)
你的机器人可以学习自定义技能!创建属于你自己的自动化配方,见证你的机器人不断进化。
默认情况下,应用程序会在 ~/.macos-automator/knowledge_base 查找本地知识库。你可以通过设置 LOCAL_KB_PATH 环境变量来更改此路径。
示例:
假设你在 /Users/yourname/my-custom-kb 有一个本地知识库。设置环境变量:
export LOCAL_KB_PATH=/Users/yourname/my-custom-kb
或者,如果你正在运行验证脚本,可以使用 --local-kb-path 参数:
npm run validate:kb -- --local-kb-path /Users/yourname/my-custom-kb
结构与覆盖规则:
- 你的本地知识库应与主
knowledge_base的分类结构保持一致(例如01_applescript_core、05_web_browsers/safari等)。 - 你可以添加新的
.md技巧文件或_shared_handlers文件(如.applescript或.js文件)。 - 如果你的本地知识库中的某个技巧 ID(无论是来自 frontmatter 的
id:,还是由文件名/路径生成)与嵌入式知识库中的 ID 相匹配,则你的本地版本将 覆盖 嵌入式版本。 - 同样地,在你的本地
_shared_handlers目录中,如果存在与嵌入式知识库同名且同语言的共享处理器(例如my_utility.applescript),则它将覆盖同一类别中(或全局范围内,若放置于本地 KB 的_shared_handlers根目录下)的嵌入式版本。 - 你本地 KB 中的
_category_info.md文件中的分类描述也可以覆盖嵌入式 KB 中相同分类的描述。
这样可以在不修改核心应用文件的情况下,个性化和扩展可用的自动化脚本和技巧。
🤝 加入机器人革命!
发现 bug 了吗?有酷炫的自动化点子吗?你的机器人军团正等着你加入!请在 GitHub 仓库 提交问题和拉取请求。
💪 机器人超能力展示
以下是你的新硅基小伙伴开箱即用的能力:
🖥️ 终端驯兽师
- 命令行魔法: 打开新标签页、执行命令、捕获输出——你的机器人能流利地说“bash”!
{ "input": { "kb_script_id": "terminal_app_run_command_new_tab", "input_data": { "command": "echo '🤖 Hello World!'" } } }
🌐 浏览器小精灵
- 网页自动化大师: 像木偶戏大师一样操控 Chrome 和 Safari!
{ "input": { "kb_script_id": "safari_get_front_tab_url" } } - JavaScript 注入: 让网页按照机器人的指令翩翩起舞
- 截图狙击手: 比你说“茄子”还快就截好图
⚙️ 系统魔法师
- 暗黑模式切换: 因为机器人也有敏感的光学传感器
{ "input": { "kb_script_id": "systemsettings_toggle_dark_mode_ui" } } - 剪贴板指挥官: 复制、粘贴、操作剪贴板,像专业人士一样
- 通知忍者: 发送真正能引起注意的提醒
📁 文件系统风水师
- 文件夹创造者 3000: 用机器人般的精准整理你的数字生活
{ "input": { "kb_script_id": "finder_create_new_folder_desktop", "input_data": { "folder_name": "Robot Paradise" } } } - 文本文件心灵感应: 以人类无法企及的速度读写文件
📱 应用程序低语者
- 日历指挥家: 在你熟睡时安排会议
- 邮件自动化大师: 不用动一根手指就能发送邮件
- 音乐大师: 编程控制你的播放列表
{ "input": { "kb_script_id": "music_playback_controls", "input_data": { "action": "play" } } }
🎯 实用小贴士: 使用 get_scripting_tips 来发现全部 200 多种自动化配方!
📜 法律声明(机器人权利)
本项目采用 MIT 许可证授权——这意味着你的机器人可以自由活动!详细条款请参阅 LICENSE 文件。
🤖 请记住: 强大的自动化能力伴随着巨大的责任。请明智地使用你的机器人!
版本历史
v0.4.12025/05/19v0.4.02025/05/19v0.3.02025/05/19v0.2.22025/05/16相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器