Windows-MCP

5k 634 简单 1 次阅读今天MIT图像开发框架Agent

AI 解读由 AI 自动生成，仅供参考

Windows-MCP 是一款轻量级开源项目，旨在搭建大语言模型（LLM）与 Windows 操作系统之间的桥梁。它作为 MCP 服务器运行，让 AI 智能体能够像真实用户一样直接操作电脑，执行文件管理、应用控制、界面交互及自动化测试等任务。

这一工具解决了传统自动化方案依赖复杂计算机视觉技术或特定微调模型的痛点。Windows-MCP 无需额外的视觉识别模块，即可兼容任意大语言模型，显著降低了部署难度和系统资源消耗。其独特亮点包括支持“文档对象模型（DOM）模式”以高效处理浏览器自动化，以及低至 0.2 秒的实时交互响应速度。此外，它还提供了丰富的键盘鼠标模拟工具，并允许开发者根据需求灵活扩展功能。

Windows-MCP 非常适合希望将 AI 能力落地到桌面端的开发者、研究人员及自动化测试工程师。无论是构建复杂的自主智能体，还是探索人机交互的新范式，它都提供了一个基于 MIT 协议、易于安装且高度可定制的坚实基础。目前该工具已支持从 Windows 7 到 Windows 11 的全系列系统，并可通过 Python 环境快速部署。

使用场景

某金融分析师需要在每天收盘后，从多个本地 Excel 报表中提取数据，汇总并录入到内部的 Windows 桌面端财务系统中，同时生成日报文档。

没有 Windows-MCP 时

人工操作繁琐易错：分析师必须手动打开十几个 Excel 文件，复制粘贴数据到财务软件，重复性高且极易因疲劳导致录入错误。
跨应用协作断裂：AI 助手只能提供代码建议或文本分析，无法直接操控鼠标点击财务软件的特定输入框或菜单，形成“能想不能做”的断层。
自动化门槛极高：若要编写传统 RPA 脚本，需针对特定分辨率和 UI 控件编写大量脆弱代码，一旦软件更新或窗口位置微调，脚本即刻失效。
视觉依赖重：现有的智能自动化工具往往依赖复杂的计算机视觉模型来识别屏幕元素，配置环境复杂且运行速度缓慢。

使用 Windows-MCP 后

端到端自动执行：Windows-MCP 让 AI 代理直接接管鼠标和键盘，自动遍历文件夹打开 Excel，读取数据后精准点击财务软件界面完成录入，全程无需人工干预。
原生系统级集成：借助其原生 Windows UI 交互能力，AI 能像真实用户一样识别窗口状态、切换应用并处理弹窗，完美打通数据源与业务系统。
灵活适配无需重训：不依赖特定的视觉模型或微调，Windows-MCP 利用 LLM 的理解能力动态适应界面变化，即使财务软件界面小幅调整也能稳定运行。
毫秒级实时响应：凭借 0.2 至 0.9 秒的低延迟操作特性，整个汇总流程从过去的 2 小时缩短至 15 分钟，且支持在后台虚拟机中高效并发处理。

Windows-MCP 通过将大语言模型的决策能力转化为对 Windows 系统的实际操控力，彻底消除了数字任务中“最后一公里”的人工操作瓶颈。

运行环境要求

操作系统

Windows

GPU

未说明

内存

未说明

依赖

notes1. 仅支持 Windows 7 至 Windows 11 操作系统。 2. 必须安装 UV 包管理器（可通过 pip 或脚本安装）。 3. 强烈建议将 Windows 系统默认语言设置为英语；若使用其他语言，需在 MCP 服务器配置中禁用 'App-Tool'。 4. 若在 Claude Desktop MSIX (Windows Store) 版本中使用，需配置 uv.exe 的绝对路径，且配置文件需保存为无 BOM 的 UTF-8 格式。 5. 首次安装依赖可能需要 1-2 分钟，初次运行若超时可忽略并重启服务器。

python3.13+

uv (Package Manager)

快速开始

🪟 Windows-MCP

Windows-MCP 是一个轻量级的开源项目，能够实现 AI 代理与 Windows 操作系统之间的无缝集成。作为 MCP 服务器，它弥合了大型语言模型与 Windows 操作系统之间的鸿沟，使代理能够执行诸如 文件导航、应用程序控制、UI 交互、QA 测试 等任务。

mcp-name: io.github.CursorTouch/Windows-MCP

更新

为 Windows-MCP 添加了虚拟机支持。更多详情请访问 (windowsmcp.io)[https://windowsmcp.io/]。
Windows-MCP 在 Claude Desktop 扩展中用户数已突破 200万。
试试使用 Windows-MCP 构建的代理 🪟Windows-Use。
Windows-MCP 现已在 PyPI 上发布（因此支持 uvx windows-mcp）。
Windows-MCP 已被添加到 MCP 注册表。

支持的操作系统

Windows 7
Windows 8、8.1
Windows 10
Windows 11

🎥 演示

https://github.com/user-attachments/assets/d0e7ed1d-6189-4de6-838a-5ef8e1cad54e

https://github.com/user-attachments/assets/d2b372dc-8d00-4d71-9677-4c64f5987485

✨ 核心特性

无缝 Windows 集成
可原生与 Windows UI 元素交互，打开应用、控制窗口、模拟用户输入等。
兼容任意 LLM（可选视觉功能） 与许多自动化工具不同，Windows-MCP 不依赖传统的计算机视觉技术或特定的微调模型；它可与任何 LLM 配合使用，从而降低复杂性和设置时间。
丰富的 UI 自动化工具集
包括用于基本键盘、鼠标操作以及捕获窗口/UI 状态的工具。
轻量级且开源
依赖项极少，安装简单，源代码完全开放，采用 MIT 许可证。
可定制且可扩展
轻松调整或扩展工具，以满足您独特的自动化或 AI 集成需求。
实时交互
操作之间的典型延迟（例如从一次鼠标点击到下一次）通常在 0.2 至 0.9 秒 之间，具体数值会因当前运行的应用程序数量、系统负载以及 LLM 的推理速度而略有变化。
浏览器自动化 DOM 模式
State-Tool 提供特殊的 use_dom=True 模式，专门针对网页内容，过滤掉浏览器 UI 元素，从而实现更简洁高效的网页自动化。

🛠️ 安装

注意： 首次安装此 MCP 服务器时，可能需要一两分钟来安装 pyproject.toml 中的依赖项。首次运行时，服务器可能会超时，请忽略并重新启动。

前置条件

Python 3.13+
Astra 提供的包管理器 UV，可通过 pip install uv 或 curl -LsSf https://astral.sh/uv/install.sh | sh 安装。
Windows 系统中将默认语言设置为 English；否则，在使用其他语言的 Windows MCP 服务器上，请禁用 App-Tool 功能。

在 Claude Desktop 中安装

安装 Claude Desktop，然后运行以下命令：

npm install -g @anthropic-ai/mcpb

配置扩展：

选项 A：从 PyPI 安装（推荐）

使用 uvx 直接从 PyPI 运行最新版本。

将以下内容添加到你的 claude_desktop_config.json 文件中：

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ]
    }
  }
}

选项 B：从源代码安装

克隆仓库：

git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

将以下内容添加到你的 claude_desktop_config.json 文件中：

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "<windows-mcp 目录路径>",
        "run",
        "windows-mcp"
      ]
    }
  }
}

打开 Claude Desktop，尽情享受吧！🥳
愉快使用 🥳。

Claude Desktop MSIX（Windows 商店版）

MSIX 打包的 Claude Desktop 会虚拟化 %APPDATA%。配置文件位于： %LOCALAPPDATA%\Packages\Claude_pzs8sxrjxfjjc\LocalCache\Roaming\Claude\claude_desktop_config.json （而非 %APPDATA%\Claude\）。此时，“编辑配置”按钮可能会打开错误的文件。

Electron 应用也不会继承系统 PATH，因此 uv/uvx 可能会因 spawn ENOENT 而失败。请使用 uv.exe 的完整绝对路径：

{
  "mcpServers": {
    "windows-mcp": {
      "command": "C:\\Users\\<user>\\.local\\bin\\uv.exe",
      "args": [
        "--directory",
        "C:\\Users\\<user>\\AppData\\Local\\Packages\\Claude_pzs8sxrjxfjjc\\LocalCache\\Roaming\\Claude\\Claude Extensions\\ant.dir.cursortouch.windows-mcp",
        "run",
        "windows-mcp"
      ]
    }
  }
}

请将 <user> 替换为你的用户名。要找到 uv.exe，可在终端中运行 where uv；常见位置是 %USERPROFILE%\.local\bin\uv.exe。若采用 PyPI 安装，则使用 args: ["run", "windows-mcp"]，而非 --directory/路径。保存时务必使用 无 BOM 的 UTF-8 编码（PowerShell 的 Set-Content -Encoding UTF8 会添加 BOM，导致 JSON 解析器出错）。

如需进一步排查 Claude Desktop 集成问题，请参阅 MCP 文档。

在 Perplexity Desktop 中安装

安装 Perplexity Desktop：
克隆仓库。

git clone https://github.com/CursorTouch/Windows-MCP.git

cd Windows-MCP

打开 Perplexity Desktop：

前往 Settings->Connectors->Add Connector->Advanced

输入名称为 Windows-MCP，然后将以下 JSON 粘贴到文本框中。

选项 A：从 PyPI 安装（推荐）

{
  "command": "uvx",
  "args": [
    "windows-mcp"
  ]
}

选项 B：从源代码安装

{
  "command": "uv",
  "args": [
    "--directory",
    "<windows-mcp 目录路径>",
    "run",
    "windows-mcp"
  ]
}

点击 Save 并享受吧 🥳。

如需进一步排查 Claude Desktop 集成问题，请参阅 Perplexity MCP 支持文档。该文档包含检查日志和解决常见问题的实用技巧。

在 Gemini CLI 中安装

安装 Gemini CLI：

npm install -g @google/gemini-cli

在 %USERPROFILE%/.gemini/settings.json 中配置服务器：
打开文件资源管理器，进入 %USERPROFILE%/.gemini，并打开 settings.json。
在 settings.json 中添加 windows-mcp 配置，并保存。

{
  "theme": "Default",
  ...
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ]
    }
  }
}

注：若从源代码运行，需将命令替换为 uv，并将参数改为 ["--directory", "<路径>", "run", "windows-mcp"]。

在终端中重新运行 Gemini CLI。尽情享受吧 🥳

在 Qwen Code 中安装

1. 安装 Qwen Code：

npm install -g @qwen-code/qwen-code@latest

在 %USERPROFILE%/.qwen/settings.json 中配置服务器：
打开 %USERPROFILE%/.qwen/settings.json。
在 settings.json 中添加 windows-mcp 配置，并保存。

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ]
    }
  }
}

注：若从源代码运行，需将命令替换为 uv，并将参数改为 ["--directory", "<路径>", "run", "windows-mcp"]。

在终端中重新运行 Qwen Code。尽情享受吧 🥳

在 Codex CLI 中安装

1. 安装 Codex CLI：

npm install -g @openai/codex

在 %USERPROFILE%/.codex/config.toml 中配置服务器：
打开 %USERPROFILE%/.codex/config.toml。
在 config.toml 中添加 windows-mcp 配置，并保存。

[mcp_servers.windows-mcp]
command="uvx"
args=[
  "windows-mcp"
]

注：若从源代码运行，需将命令替换为 uv，并将参数改为 ["--directory", "<路径>", "run", "windows-mcp"]。

在终端中重新运行 Codex CLI。尽情享受吧 🥳

在 Claude Code 中安装

安装 Claude Code：

npm install -g @anthropic-ai/claude-code

配置服务器：

选项 A：从 PyPI 安装（推荐）

使用 uvx 直接从 PyPI 运行最新版本。

claude mcp add --transport stdio windows-mcp -- uvx windows-mcp

选项 B：从源代码安装

先克隆仓库：

git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

在终端中运行以下命令：

claude mcp add --transport stdio windows-mcp -- uv --directory "<路径>" run windows-mcp

注：若希望该服务器对所有项目可用，可在命令中添加 --scope user。

在终端中重新运行 Claude Code。尽情享受吧 🥳。

注意：在 Windows 系统上，如果遇到“连接已关闭”的错误，请使用 uvx.exe 的完整路径：

claude mcp add --transport stdio windows-mcp -- C:\Users\<user>\.local\bin\uvx.exe windows-mcp

要验证服务器是否已注册，可运行 claude mcp list。在 Claude Code 内部，可以使用 /mcp 来查看服务器状态。

🖥️ 模式

Windows-MCP 支持两种运行模式：本地（默认）和远程。

本地模式（默认）

在本地模式下，Windows-MCP 直接在您的 Windows 设备上运行，并将其工具暴露给连接的 MCP 客户端。这是个人使用的标准配置。

# 使用 stdio 传输（默认）
uvx windows-mcp

# 或者使用 SSE/可流式 HTTP 进行网络访问
uvx windows-mcp --transport sse --host localhost --port 8000
uvx windows-mcp --transport streamable-http --host localhost --port 8000

您可以设置可选的环境变量来自定义行为——请参阅下方的环境变量。

远程模式

在远程模式下，Windows-MCP 充当一个代理，连接到 windowsmcp.io，从而实现云端托管的 Windows 自动化。此模式适用于 MCP 客户端位于远程并通过仪表板连接的情况，仪表板会将请求路由到运行 Windows-MCP 的 Windows 虚拟机。

作为桌面扩展安装时，远程模式应保持在轻量级代理路径上，且在启动前无需构建本地 Windows 自动化依赖项。

必需的环境变量：

变量	描述
`MODE`	设置为 `remote`
`SANDBOX_ID`	来自仪表板的沙箱/虚拟机标识符
`API_KEY`	您的 Windows-MCP API 密钥

示例配置：

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ],
      "env": {
        "MODE": "remote",
        "SANDBOX_ID": "your-sandbox-id",
        "API_KEY": "your-api-key"
      }
    }
  }
}

传输选项

传输方式	标志	使用场景
`stdio`（默认）	`--transport stdio`	由 Claude Desktop、Cursor 等 MCP 客户端直接连接
`sse`	`--transport sse --host HOST --port PORT`	通过服务器发送事件实现网络访问
`streamable-http`	`--transport streamable-http --host HOST --port PORT`	通过 HTTP 流媒体实现网络访问（推荐用于生产环境）

⚙️ 环境变量

除非另有说明，所有变量均为可选。您可以通过 claude_desktop_config.json（或您的 MCP 客户端等效配置文件）中的 env 键进行设置。

截图与快照

变量	默认值	描述
`WINDOWS_MCP_SCREENSHOT_SCALE`	`1.0`	在编码前应用于截图的比例因子。接受范围为 `0.1`–`1.0` 的浮点数。在高分辨率显示器（1440p、4K）上，使用默认设置生成的图像可能会超过 Claude Desktop 的 1 MB 工具结果限制。将其设置为 `0.5` 可以使图像的两个维度减半，从而将文件大小缩小四分之一。
`WINDOWS_MCP_SCREENSHOT_BACKEND`	`auto`	截图捕获后端。可选值：`auto`（依次尝试 dxcam → mss → pillow）、`dxcam`、`mss`、`pillow`。如果 `dxcam` 不可用或在您的 GPU 上导致问题，请使用 `mss` 或 `pillow`。
`WINDOWS_MCP_PROFILE_SNAPSHOT`	(已禁用)	设置为 `1`、`true`、`yes` 或 `on`，以输出针对截图/快照调用的各阶段计时日志。有助于诊断捕获速度慢的问题。

遥测

变量	默认值	描述
`ANONYMIZED_TELEMETRY`	`true`	设置为 `false` 可禁用匿名使用遥测。无论此设置如何，绝不会收集任何个人数据、工具参数或输出。

调试

变量	默认值	描述
`WINDOWS_MCP_DEBUG`	`false`	设置为 `1`、`true`、`yes` 或 `on` 启用调试模式，将日志级别设置为 DEBUG 以获取详细输出。也可通过 `--debug` CLI 标志启用。

远程模式

变量	默认值	描述
`MODE`	`local`	设置为 `remote` 以作为 windowsmcp.io 的代理运行。
`SANDBOX_ID`	(无)	远程模式必需。来自仪表板的沙箱/虚拟机标识符。
`API_KEY`	(无)	远程模式必需。您的 Windows-MCP API 密钥。

包含所有本地模式选项的 claude_desktop_config.json 示例：

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ],
      "env": {
        "WINDOWS_MCP_SCREENSHOT_SCALE": "0.5",
        "WINDOWS_MCP_SCREENSHOT_BACKEND": "auto",
        "WINDOWS_MCP_PROFILE_SNAPSHOT": "false",
        "ANONYMIZED_TELEMETRY": "true",
        "WINDOWS_MCP_DEBUG": "false"
      }
    }
  }
}

🔨 MCP 工具

MCP 客户端可以使用以下工具与 Windows 交互：

Click: 在指定坐标处单击屏幕。
Type: 在元素上输入文本（可选择性地清除现有文本）。
Scroll: 在窗口或特定区域中垂直或水平滚动。
Move: 将鼠标指针移动到指定坐标，或拖动（设置 drag=True）。
Shortcut: 按下键盘快捷键（如 Ctrl+c、Alt+Tab 等）。
Wait: 暂停指定时长。
Screenshot: 快速截取桌面并显示光标位置、当前活动/打开的窗口以及图像。为提高速度，跳过 UI 树提取，因此在主要需要视觉上下文时应作为首次调用。支持 display=[0] 或 display=[0,1] 以捕获特定屏幕。
Snapshot: 捕获完整的桌面状态，适用于需要交互式元素 ID、可滚动区域或 use_dom=True 浏览器提取的工作流。支持 use_vision=True 以包含截图，并支持 display=[0] 或 display=[0,1] 以将返回的快照信息限制在特定屏幕上。
App: 从开始菜单启动应用程序、调整窗口大小或位置，以及在应用程序之间切换。
Shell: 执行 PowerShell 命令。
Scrape: 抓取整个网页的信息。
MultiSelect: 多选多个项目（文件、文件夹、复选框），可选择性按住 Ctrl 键。
MultiEdit: 在指定坐标处同时向多个输入字段输入文本。
Clipboard: 读取或设置 Windows 剪贴板内容。
Process: 列出正在运行的进程，或根据 PID 或名称终止进程。
Notification: 发送带有标题和消息的 Windows 通知气泡。
Registry: 读取、写入、删除或列出 Windows 注册表的值和键。

🤝 与我们联系

关注我们以获取最新资讯并加入社区：

📢 在 X 关注我们，了解最新动态
💬 加入我们的 Discord 社区

星标历史

👥 贡献者

感谢所有为 Windows-MCP 做出贡献的杰出人士！🎉

我们感谢每一份贡献，无论是代码、文档、错误报告还是功能建议。想参与贡献吗？请查看我们的贡献指南!

🔒 安全

重要提示：Windows-MCP 具有对系统的完全访问权限，并可执行不可逆的操作。请在部署前仔细阅读我们的全面安全指南。

有关详细的安全信息，包括：

工具特定的风险评估
部署建议
漏洞报告流程
合规与审计指南

请阅读我们的安全政策。

📊 遥测

Windows-MCP 会收集使用数据，以帮助改进 MCP 服务器。我们不会跟踪任何个人信息、工具参数或输出内容。

如需禁用遥测，请在您的 MCP 客户端配置中将 ANONYMIZED_TELEMETRY 设置为 false：

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ],
      "env": {
        "ANONYMIZED_TELEMETRY": "false"
      }
    }
  }
}

有关所有可配置选项的完整列表，请参阅环境变量部分。

如需详细了解所收集的数据及其处理方式，请参阅我们的安全政策中的遥测与数据隐私章节。

📝 限制

由于 MCP 依赖于辅助功能树，因此无法选择段落中的特定文本部分。（⌛ 正在解决中。）
Type-Tool 旨在用于输入文本，而非在 IDE 中进行编程，因为它会将整个程序一次性输入到文件中。（⌛ 正在解决中。）
此 MCP 服务器无法用于玩视频游戏 🎮。

🪪 许可证

本项目采用 MIT 许可证授权——详情请参阅LICENSE文件。

🙏 致谢

Windows-MCP 使用了多个优秀的开源项目来支持其 Windows 自动化功能：

在此向这些库的维护者和贡献者致以衷心的感谢，感谢他们卓越的工作和开源精神。

🤝 贡献

欢迎贡献！请参阅CONTRIBUTING以获取设置说明和开发指南。

由 CursorTouch 用心打造 ❤️

引用

@software{
  author       = {CursorTouch},
  title        = {Windows-MCP：用于将 LLM 代理与 Windows 集成的轻量级开源项目},
  year         = {2024},
  publisher    = {GitHub},
  url={https://github.com/CursorTouch/Windows-MCP}
}

Windows-MCP 快速上手指南

Windows-MCP 是一个轻量级开源项目，作为 MCP 服务器桥接大语言模型（LLM）与 Windows 操作系统。它允许 AI 智能体直接执行文件导航、应用控制、UI 交互、自动化测试等任务，无需依赖复杂的计算机视觉技术。

环境准备

在开始之前，请确保满足以下系统要求：

操作系统：Windows 7, 8, 8.1, 10, 或 11。
Python 版本：Python 3.13 或更高版本。

包管理器：UV (由 Astral 开发)。

安装命令 (任选其一)：

pip install uv
# 或
curl -LsSf https://astral.sh/uv/install.sh | sh

语言设置：建议将 Windows 系统默认语言设置为 English。如果使用其他语言，可能需要在 MCP 配置中禁用 App-Tool 以避免兼容性问题。

注意：首次安装时，由于需要安装 pyproject.toml 中的依赖项，启动可能需要 1-2 分钟。如果首次运行超时，请忽略错误并重新启动服务器。

安装步骤

以下以最常用的 Claude Desktop 和 命令行直接运行 为例介绍安装方法。

方式一：在 Claude Desktop 中集成 (推荐)

安装 Claude Desktop 并确保证已安装全局 MCP 工具：
```
npm install -g @anthropic-ai/mcpb
```
配置文件位置：
- 普通版：%APPDATA%\Claude\claude_desktop_config.json
- Microsoft Store (MSIX) 版：%LOCALAPPDATA%\Packages\Claude_pzs8sxrjxfjjc\LocalCache\Roaming\Claude\claude_desktop_config.json
- 提示：如果是 MSIX 版本且遇到 spawn ENOENT 错误，请使用 uv.exe 的绝对路径。
编辑配置文件：打开 claude_desktop_config.json，添加以下配置（推荐使用 PyPI 源）：
```
{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ]
    }
  }
}
```
保存文件时请确保编码为 UTF-8 without BOM。
重启 Claude Desktop 即可生效。

方式二：其他客户端 (Gemini CLI / Qwen Code / Codex CLI 等)

大多数支持 MCP 的 CLI 工具配置逻辑相似，只需在对应的配置文件中添加服务器定义。

Gemini CLI: 编辑 %USERPROFILE%/.gemini/settings.json
Qwen Code: 编辑 %USERPROFILE%/.qwen/settings.json
Codex CLI: 编辑 %USERPROFILE%/.codex/config.toml

JSON 配置示例 (适用于 Gemini/Qwen):

{
  "mcpServers": {
    "windows-mcp": {
      "command": "uvx",
      "args": [
        "windows-mcp"
      ]
    }
  }
}

TOML 配置示例 (适用于 Codex):

[mcp_servers.windows-mcp]
command="uvx"
args=[
  "windows-mcp"
]

方式三：从源码安装 (高级用户)

如果需要修改代码或使用最新开发版：

克隆仓库：

git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

在客户端配置中将 command 设为 uv，args 设为：

["--directory", "<你的本地仓库绝对路径>", "run", "windows-mcp"]

基本使用

安装完成后，Windows-MCP 会自动作为后台服务运行，等待 AI 智能体调用。你无需手动运行额外的启动脚本（除非使用远程模式）。

1. 启动验证

在支持的 AI 客户端（如 Claude Desktop）中，通常可以通过输入 /mcp 命令查看服务器状态，确认 windows-mcp 已连接且状态正常。

2. 简单使用示例

在聊天窗口中，你可以直接用自然语言指示 AI 操作 Windows。例如：

文件操作：

"请列出我桌面上所有的 PDF 文件，并将它们移动到一个名为 'Documents' 的新文件夹中。"
应用控制：

"打开记事本，输入 'Hello World'，然后保存文件到桌面，文件名为 test.txt。"
UI 交互：

"点击屏幕左下角的开始菜单，搜索 '计算器' 并打开它。"

3. 特殊模式：浏览器自动化 (DOM Mode)

当需要操作浏览器时，可以指定使用 DOM 模式以获得更干净的状态捕获（过滤掉浏览器自身的 UI 元素）：

"使用 use_dom=True 模式访问 google.com，搜索 'AI tools' 并提取前三个结果的标题。"

4. 运行模式说明

本地模式 (Local)：默认模式。直接在当前机器运行，控制当前系统的 UI 和文件。
远程模式 (Remote)：需设置环境变量 MODE=remote 并提供 SANDBOX_ID 和 API_KEY。此模式用于连接云端 Windows 虚拟机进行自动化，适合无头服务器场景。

版本历史

v0.7.12026/03/29

v0.7.02026/03/17

v0.6.92026/03/13

v0.6.22026/02/04

v0.6.02026/01/30

v0.5.82026/01/17

v0.5.42025/12/12

v0.32025/08/25

v0.22025/08/03

v0.12025/06/04

常见问题

State-Tool 报错 'Taskbar' 错误或鼠标点击位置偏移怎么办？

在 Windows 11 上 State-Tool 无法工作且遇到各种工具错误，如何排查和解决？

如何在中文 Windows 系统环境下正确使用该工具？

use_vision 功能在多显示器设置下只能识别主屏幕怎么办？

运行最新代码时出现 'ModuleNotFoundError: No module named fuzzywuzzy' 错误如何解决？

为什么按钮点击不准确，经常点不到或点在错误位置？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架