WindowsAgentArena

854 96 较难 1 次阅读昨天MIT其他Agent图像开发框架

AI 解读由 AI 自动生成，仅供参考

Windows Agent Arena 是一个专为测试和评估多模态 AI 智能体而设计的可扩展 Windows 操作系统平台。它主要解决了当前 AI 研究缺乏真实、可复现的桌面环境难题，让开发者能够在接近真实的 Windows 系统中验证智能体处理复杂任务的能力，而非仅停留在理论或简化模拟阶段。

该平台特别适合人工智能研究人员、算法工程师以及致力于开发桌面自动化助手的开发者使用。其核心亮点在于强大的规模化部署能力：依托 Azure ML 云基础设施，Windows Agent Arena 支持并行运行数百个智能体，能在几分钟内完成大量任务的基准测试，将原本需要数天的评估工作大幅提速。此外，平台近期还更新了“困难模式”，要求智能体自主初始化任务环境（如自行查找并打开所需软件），从而更严格地考验其独立操作与规划能力。结合微软开源的顶尖屏幕理解模型 Omniparser，Windows Agent Arena 为构建和评估能像人类一样操作电脑的智能体提供了高效、专业的实验场。

使用场景

某大型科技公司的 AI 研发团队正致力于开发一款能自动处理复杂办公流程的多模态桌面助手，急需在真实 Windows 环境中验证其操作能力。

没有 WindowsAgentArena 时

环境搭建繁琐：研究人员需手动配置多台物理机或虚拟机来模拟不同用户场景，耗时数天且难以保证环境一致性。
测试效率低下：串行执行数百个测试任务（如“整理 Excel 报表并发送邮件”）需要数周时间，严重拖慢迭代节奏。
评估标准不一：缺乏统一的基准测试集，不同团队对“任务成功”的定义模糊，导致模型性能对比困难。
复杂场景缺失：难以模拟需要 Agent 自主启动软件、查找文件等“高难度”初始化操作，模型在真实落地时频频失效。

使用 WindowsAgentArena 后

一键部署环境：基于 Docker 和 Azure ML 基础设施，分钟级即可拉起可复现的真实 Windows OS 容器，彻底消除环境差异。
大规模并行评测：支持成百上千个 Agent 并行运行，原本需数周的数百项任务测试现在仅需几分钟即可产出结果。
标准化基准打分：内置多样化的预定义任务库和统一评分机制，让团队能客观量化模型在多模态理解与操作上的进步。
挑战模式进阶：通过切换至"hard"难度模式，强制 Agent 自主完成应用启动与环境设置，有效提升了模型应对真实未知场景的鲁棒性。

WindowsAgentArena 将原本耗时数周的桌面智能体验证过程压缩至分钟级，为多模态 AI 从实验室走向真实办公场景提供了不可或缺的加速引擎。

运行环境要求

操作系统

Linux
Windows (需通过 WSL 2)

GPU

非必需
若运行高性能代理（如 Omniparser），建议使用支持 CUDA 的 NVIDIA GPU
具体型号和显存未说明

内存

未说明（但生成 Windows 11 黄金镜像需约 30GB 磁盘空间，ISO 文件约 6GB）

依赖

notes1. 必须安装并运行 Docker 守护进程，Windows 用户推荐使用 Docker Desktop 配合 WSL 2。 2. 需要 OpenAI 或 Azure OpenAI 的 API 密钥。 3. 强烈建议使用 Conda 创建名为 'winarena' 的 Python 3.9 环境。 4. 首次运行需下载约 6GB 的 Windows 11 企业版评估镜像，并自动化构建约 30GB 的虚拟机快照（耗时约 20 分钟）。 5. 若在 WSL2 中遇到脚本解释器错误，需将 bash 脚本从 DOS 格式转换为 Unix 格式。

python3.9

Docker

OpenAI API 或 Azure OpenAI API Key

requirements.txt 中定义的库

快速开始

3. 准备 Windows 11 虚拟机

3.1 下载 Windows 11 评估版 .iso 文件：

访问 Microsoft 评估中心，接受服务条款，并下载一个 Windows 11 企业版评估版（90 天试用，英语，美国） ISO 文件 [约 6GB]。
下载完成后，将文件重命名为 setup.iso，并将其复制到目录 WindowsAgentArena/src/win-arena-container/vm/image。

3.2 自动设置 Windows 11 黄金镜像：

在运行 Arena 之前，您需要准备一个新的 WAA 快照（也称为 WAA 黄金镜像）。这个 30GB 的快照代表一个功能齐全的 Windows 11 虚拟机，其中包含运行基准测试所需的所有程序。该虚拟机还托管了一个 Python 服务器，用于接收并执行代理命令。要了解相关组件的更多信息，请参阅我们的本地和云组件示意图。

要准备黄金快照，请仅运行一次以下命令：

cd ./scripts
./run-local.sh --prepare-image true

您可以在 http://localhost:8006 监控进度。准备过程完全自动化，大约需要 20 分钟。

请勿在虚拟机准备过程中进行任何操作。当配置过程完成时，虚拟机会自动关闭。

最后，您应该会看到名为 winarena 的 Docker 容器按预期正常终止，如下所示的日志所示。

您将在 WindowsAgentArena/src/win-arena-container/vm/storage 中找到 30GB 的 WAA 黄金镜像，它由以下文件组成：

补充说明

在开发过程中，如果您希望将 src/win-arena-container 目录中的任何更改包含到 WAA 黄金镜像中，请确保在 run-local.sh 脚本中指定 --skip-build false 标志（默认为 true）。这将确保构建新的容器镜像，而不是使用预构建的 windowsarena/winarena:latest 镜像。
如果您之前已经运行过安装流程，并希望从头开始重新进行，请务必删除 storage 目录中的内容。
我们建议将此 storage 文件夹复制到仓库外部的安全位置，以防您或代理在某个时刻意外损坏虚拟机，从而避免重新设置。
根据您的 Docker 设置，您可能需要使用 sudo 来运行上述命令。
如果您正在使用 WSL2？如果遇到 /bin/bash: bad interpreter: No such file or directory 错误，我们建议将 Bash 脚本从 DOS/Windows 格式转换为 Unix 格式：

cd ./scripts
find . -maxdepth 1 -type f -exec dos2unix {} +

4. 在 Arena 中部署代理

4.1 运行基础基准测试

现在您已准备好启动评估。要运行基准代理以完成所有基准任务，请执行以下命令：

cd scripts
./run-local.sh
# 如需查看客户端/代理选项：
# ./run-local.sh --help

打开 http://localhost:8006，您将看到运行代理的 Windows 虚拟机。如果您拥有一台性能强劲的电脑，也可以通过以下命令运行我们论文中最强的代理配置：

./run-local.sh --gpu-enabled true --som-origin mixed-omni --a11y-backend uia

运行结束后，您可以使用以下命令显示结果：

cd src/win-arena-container/client
python show_results.py --result_dir <results_folder_path>

可用配置

以下是我们在研究中使用的 Navi 代理各种超参数组合的比较，您可以通过在运行 run-local.sh 脚本时指定 --som-origin <som_origin> --a11y-backend <a11y_backend> 来覆盖这些配置：

命令	描述	备注
`./run-local.sh --som-origin mixed-omni --a11y-backend uia`	将 Omniparser 与辅助功能树信息结合	⭐推荐用于最佳效果
`./run-local.sh --som-origin omni`	使用 Omniparser 进行屏幕理解
`./run-local.sh --som-origin oss`	使用 webparse、groundingdino 和 OCR（TesseractOCR）	🌲基线
`./run-local.sh --som-origin a11y --a11y-backend uia`	使用更慢但更准确的辅助功能树
`./run-local.sh --som-origin a11y --a11y-backend win32`	使用更快但准确性较低的辅助功能树	🐇最快
`./run-local.sh --som-origin mixed-oss --a11y-backend uia`	将 OSS 检测结果与辅助功能树结合

--som-origin 决定 Navi 代理如何检测屏幕元素。
--a11y-backend 指定辅助功能后端类型（在使用 a11y 或混合模式时）。

4.2 本地开发提示

乍一看，在 Docker 容器内运行的代码似乎难以开发和调试。不过，我们提供了一些技巧来简化这一过程。有关更多详细信息，请参阅开发提示文档，例如：

如何将 VSCode 窗口（带调试器）附加到正在运行的容器；
如何从本地机器修改代理和 Windows 服务器代码，并实时查看容器中的更改。

🌐 Azure 部署 -> 并行化基准测试

我们提供了一种无缝方式，可在 Azure ML 计算虚拟机上运行 Windows Agent Arena。此选项可显著缩短在所有基准任务中测试您的代理所需的时间，从数小时/数天缩短至几分钟。

1. 设置 Azure 资源组：

如果您还没有 Azure 订阅，可以开始免费试用。请记下订阅 ID，我们将在第 3 部分中将其用作 AZURE_SUBSCRIPTION_ID。
在 Azure 门户中，在您选择的区域创建一个新的资源组（例如 agents）。请记下资源组名称，我们将在第 3 部分中将其用作 AZURE_ML_RESOURCE_GROUP。
在此资源组中，创建一个 Azure 机器学习资源（例如命名为 agents_ml）。请记下机器学习工作区名称，我们将在第 3 部分中将其用作 AZURE_ML_WORKSPACE_NAME。在创建向导中，请确保勾选自动创建以下内容的选项：
- 存储账户。注意： 请记下存储账户名称，我们将在第 2 部分中使用它来上传黄金镜像。
- 密钥保管库。
- Application Insights。
- 【可选】容器注册表。您可以使用 Azure 容器注册表私密地存储自定义 Docker 镜像，而无需将其推送到公共的 Docker Hub。

创建完成后，导航到 Azure 机器学习门户，并单击您的工作区（agents）。

在工作区中，导航到“笔记本”选项卡。在您的用户分配文件夹中（如图所示），创建一个名为 compute-instance-startup.sh 的新 Bash (.sh) 文件。将 scripts/azure_files/compute-instance-startup.sh 文件的内容复制到该文件中并保存。每次在 Azure 中启动新的虚拟机时，都会运行此脚本以应用一些基础配置。请记下您保存文件的路径（格式为 Users/<YOUR_USER>/compute-instance-startup.sh），我们将在第 3 部分中使用该路径来运行此脚本。

【可选】根据您的需求，您可能需要为所在区域申请更多的计算配额。您可以通过导航到 Azure 配额页面来进行申请。作为参考，我们目前在基准测试中使用 Standard_D8_v3 虚拟机规格，该规格属于 Standard Dv3 系列专用 vCPU 类别。每台虚拟机使用 8 个核心。请确保您使用的机器类型支持【嵌套虚拟化】(https://learn.microsoft.com/en-us/answers/questions/813416/how-do-i-know-what-size-azure-vm-supports-nested-v)。

2. 将 Windows 11 和 Docker 镜像上传到 Azure

将 Windows 11 存储文件夹上传到与默认数据存储关联的 Blob 容器中。默认情况下，Azure 机器学习工作区的基础数据由存储账户通过一个或多个机器学习数据存储提供支持。名为 workspaceblobstore 的默认数据存储是在设置工作区时创建的，并链接到 Azure 存储账户下的 Blob 容器。您可以通过访问 Azure 机器学习数据存储来查看数据存储和容器之间的关联。找到后，您可以通过多种方式上传存储文件夹：
- 下载 Azure 存储资源管理器程序，登录并选择 Blob 容器。在完成本地设置步骤后，从您的本地计算机上传 WindowsAgentArena/src/win-arena-container/vm/storage 文件夹。
- 或者，您也可以使用 Azure CLI 上传文件夹。要安装 CLI，请按照此处提供的步骤操作。安装完成后，可以使用以下命令：
```
az login --use-device-code # 仅在提示时需要
az storage blob upload-batch --account-name <STORAGE_ACCOUNT_NAME> --destination <CONTAINER_NAME> --source <LOCAL_FOLDER>
# 参数列表请参阅：https://docs.microsoft.com/en-us/cli/azure/storage/blob?view=azure-cli-latest
```
- 或者，使用 Azure 门户界面上传文件夹。导航到存储账户，单击“存储浏览器→Blob 容器”，选择您的容器，然后上传文件夹。由于连接可能会不稳定，不建议对大文件使用此方法。

【可选】如果您不使用默认的 windowsarena/winarena:latest 镜像，可以将自定义镜像上传到 Azure 容器注册表。您可以按照 Azure 容器注册表文档操作：

az login --use-device-code
# 如果以下命令不起作用，可能需要执行：az acr login --name <ACR_NAME>
docker login # 系统会提示您输入 ACR 凭据（用户名 + 密码，可在 Azure 门户中找到）
docker tag <IMAGE_NAME> <ACR_NAME>.azurecr.io/<IMAGE_NAME>:<TAG>
docker push <ACR_NAME>.azurecr.io/<IMAGE_NAME>:<TAG>

3. 环境配置与部署

将以下额外的键添加到项目根目录下的 config.json 文件中：

{
    ... // 您之前的配置

    "AZURE_SUBSCRIPTION_ID": "<YOUR_AZURE_SUBSCRIPTION_ID>", 
    "AZURE_ML_RESOURCE_GROUP": "<YOUR_AZURE_ML_RESOURCE_GROUP>",
    "AZURE_ML_WORKSPACE_NAME": "<YOUR_AZURE_ML_WORKSPACE_NAME>"
}

创建一个名为 experiments.json 的新文件，用于指定每次实验运行所需的参数，包括要部署的代理和使用的底层 LLM 模型。您可以在 scripts/experiments.json 中找到一个包含多个实验的参考 experiments.json：

{
  "experiment_1": {
    "ci_startup_script_path": "Users/<YOUR_USER>/compute-instance-startup.sh", // 如第 1 节所示
    "agent": "navi",
    "datastore_input_path": "storage",
    "docker_img_name": "windowsarena/winarena:latest",
    "exp_name": "experiment_1",
    "num_workers": 4,
    "use_managed_identity": false,
    "json_name": "evaluation_examples_windows/test_all.json",
    "model_name": "gpt-4-1106-vision-preview",
    "som_origin": "oss", // 或 a11y，或 mixed-oss
    "a11y_backend": "win32" // 或 uia
  }
  // ...
}

（可选）您也可以使用 run_azure.py 的 --experiments_json 和 --update_json 参数来生成 experiments.json，上述 JSON 等价于以下命令：

cd scripts
python run_azure.py --experiments_json "experiments.json" --update_json --exp_name "experiment_1" --ci_startup_script_path "Users/<YOUR_USER>/compute-instance-startup.sh" --agent "navi" --json_name "evaluation_examples_windows/test_all.json" --num_workers 4 --som_origin oss --a11y_backend win32

通过运行以下命令，在 Azure ML Compute 上部署代理：

az login --use-device-code # https://learn.microsoft.com/en-us/cli/azure/install-azure-cli
# 如果有多个租户或订阅，请确保选择正确的租户和订阅：
# az login --use-device-code --tenant "<YOUR_AZURE_AD_TENANT_ID>"
# az account set --subscription "<YOUR_AZURE_AD_TENANT_ID>"

# 确保已在您的 conda 环境中安装 Python 依赖项
# conda activate winarena
# pip install -r requirements.txt

# 在激活的 conda 环境中：
cd scripts
python run_azure.py --experiments_json "experiments.json"

对于 experiments.json 中未完成的实验，脚本将执行以下操作：

创建 <num_workers 个 Azure Compute Instance VM。
每个 VM 运行一个名为 <exp_name> 的 ML 训练作业。
作业完成后销毁这些 VM。

运行日志将保存在您上传 Windows 11 镜像的同一 Blob 容器中的 agent_outputs 文件夹中。您可以将 agent_outputs 文件夹下载到本地，并运行 show_azure.py 脚本，以 Markdown 表格的形式查看每个实验的结果。

cd scripts
python show_azure.py --json_config "experiments.json" --result_dir <path_to_downloaded_agent_outputs_folder>

🤖 BYOA：自带你的代理

想在 Windows Agent Arena 中测试您自己的代理吗？您可以使用我们的默认代理作为模板，在 src/win-arena-container/client/mm_agents 下创建您自己的文件夹。您只需确保您的 agent.py 文件包含 predict() 和 reset() 函数即可。有关代理开发的更多信息，请参阅 BYOA 文档。

👩‍💻 开源贡献

我们欢迎对 Windows Agent Arena 项目的贡献。特别是，我们欢迎：

新的开源代理加入基准测试
向现有类别添加新任务，或直接创建新的类别

如果您有兴趣参与贡献，请查看我们的任务开发指南。

❓ 常见问题解答

基准测试的大致运行时间和成本是多少？

组件	成本	时间
Azure Standard_D8_v3 VM	~$8 ($0.38/小时 * 40 * 0.5小时)
GPT-4V	$100	~35分钟，使用 40 个 VM
GPT-4o	$100	~35分钟，使用 40 个 VM
GPT-4o-mini	$15	~30分钟，使用 40 个 VM

如何自定义本地运行的资源分配？

默认情况下，run-local.sh 脚本会尝试创建一个具有 8 GB 内存和 8 个 CPU 核心的 QEMU VM。如果您的系统资源有限，可以通过指定所需的内存和 CPU 分配来覆盖这些默认值：

./run-local.sh --ram-size 4G --cpu-cores 4

如何切换 KVM 加速支持？

如果您的系统不支持 KVM 加速，可以通过指定 --use-kvm false 标志来禁用它：

./run-local.sh --use-kvm false

请注意，由于性能问题，不建议在没有 KVM 加速的情况下在本地运行基准测试。在这种情况下，我们建议您准备黄金镜像，以便稍后在 Azure 上运行基准测试。

👏 致谢

OS World 提供了原始的基准测试任务框架。
Dockur 提供了 WAA 底层的 Docker 基础设施。
GroundingDINO 提供了我们 Navi 代理中的目标检测模块。
NotebookLM 提供了我们的人工智能生成播客。

🤝 参与贡献

本项目欢迎贡献和建议。大多数贡献都需要您同意一份贡献者许可协议 (CLA)，声明您有权并确实授予我们使用您贡献的权利。有关详细信息，请访问 https://cla.opensource.microsoft.com。

当您提交拉取请求时，CLA 机器人会自动确定您是否需要提供 CLA，并相应地为 PR 添加标记（例如状态检查、评论）。请按照机器人提供的说明操作。您只需在整个使用我们 CLA 的仓库中进行一次此操作即可。

本项目已采用微软开源行为准则。有关更多信息，请参阅行为准则常见问题解答，或如有任何其他疑问或意见，请联系 opencode@microsoft.com。

🛡️ 商标

本项目可能包含用于项目、产品或服务的商标或标识。微软商标或标识的授权使用须遵守并严格执行微软商标与品牌指南。在本项目的修改版本中使用微软商标或标识，不得造成混淆或暗示微软的赞助关系。任何第三方商标或标识的使用均应遵循该第三方的相关政策。

Windows Agent Arena 快速上手指南

Windows Agent Arena (WAA) 是一个可扩展的 Windows AI 智能体平台，用于测试和基准评估多模态桌面 AI 智能体。它提供了一个可复现且真实的 Windows 操作系统环境，支持在 Azure ML 云基础设施上大规模并行运行智能体。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux 或 Windows (推荐使用 WSL 2)。
- Windows 用户提示: 请务必安装 Docker Desktop with WSL 2。
Docker: 已安装并正在运行 Docker Daemon。
Python: 版本 3.9。
- 推荐使用 Conda 创建独立环境：conda create -n winarena python=3.9
API Key: 需要 OpenAI 或 Azure OpenAI 的 API 密钥。
磁盘空间: 建议预留至少 40GB 可用空间（用于存放 Windows 11 镜像和容器数据）。

安装步骤

1. 克隆项目与安装依赖

git clone https://github.com/microsoft/WindowsAgentArena.git
cd WindowsAgentArena

# 激活 conda 环境 (如果已创建)
# conda activate winarena

# 安装 Python 依赖
pip install -r requirements.txt

2. 配置 API 密钥

在项目根目录创建 config.json 文件，填入您的 API 密钥：

{
    "OPENAI_API_KEY": "<您的_OPENAI_API_KEY>", 
    "AZURE_API_KEY": "<您的_AZURE_API_KEY>",  
    "AZURE_ENDPOINT": "https://<您的端点>.openai.azure.com/" 
}

注：根据您使用的服务类型，只需填写对应的字段即可。

3. 构建 Docker 镜像

首先拉取基础镜像，然后构建本地运行所需的完整镜像：

# 拉取基础镜像
docker pull windowsarena/winarena-base:latest

# 进入脚本目录并构建
cd scripts
./build-container-image.sh

注意：如果在 WSL2 中遇到 /bin/bash: bad interpreter 错误，请先执行 find . -maxdepth 1 -type f -exec dos2unix {} + 转换脚本格式。

4. 准备 Windows 11 黄金镜像 (Golden Image)

这是最关键的一步，系统将自动下载 Windows 11 评估版 ISO 并配置环境（耗时约 20 分钟）。

前置操作：

访问 Microsoft Evaluation Center 下载 Windows 11 Enterprise Evaluation (90-day trial, English, United States) ISO 文件 (~6GB)。
将下载的文件重命名为 setup.iso。
将其移动到目录：WindowsAgentArena/src/win-arena-container/vm/image

执行初始化：

cd ./scripts
./run-local.sh --prepare-image true

可通过浏览器访问 http://localhost:8006 监控进度。
请勿干扰正在准备的虚拟机，完成后它将自动关闭。
成功后，30GB 的镜像文件将生成在 src/win-arena-container/vm/storage 目录下（建议备份此文件夹以便后续重用）。

基本使用

完成上述步骤后，即可启动基准测试。

运行基准测试

在 scripts 目录下执行以下命令启动默认智能体测试：

cd scripts
./run-local.sh

启动后，访问 http://localhost:8006 即可在浏览器中实时观察 Windows 虚拟机中智能体的操作过程。

高级配置示例

若要使用论文中表现最佳的配置（结合 Omniparser 和辅助功能树），请运行：

./run-local.sh --gpu-enabled true --som-origin mixed-omni --a11y-backend uia

查看结果

测试结束后，使用以下命令查看结果报告：

cd src/win-arena-container/client
python show_results.py --result_dir <结果文件夹路径>

常用参数说明

参数	说明	推荐场景
`--som-origin mixed-omni`	结合 Omniparser 与辅助功能树	⭐ 最佳效果
`--som-origin oss`	使用开源模型 (webparse, groundingdino, OCR)	🌲 基线测试
`--som-origin a11y --a11y-backend win32`	仅使用 Win32 辅助功能树	🐇 最快速度

版本历史

v0.0.42024/09/28

v0.0.32024/09/10

v0.0.22024/09/10

v0.0.12024/09/06

常见问题

运行基准测试任务时终端长时间无响应或卡住怎么办？

运行 run-local.sh 时遇到 'Failed to connect to QMP' 错误如何解决？

运行脚本时出现 'exec: bash: no such file or directory' 或 Docker 启动失败错误？

如何运行特定的基准测试任务子集或指定类别？

构建 'agentarena/windows-local' 镜像使用的是哪个 Dockerfile？

准备 Windows 11 镜像时提示 'A media driver your computer needs is missing' 或找不到 'dockerbridge' 设备怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像