AIOpsLab

850 152 较难 1 次阅读 2天前MIT开发框架Agent其他

AI 解读由 AI 自动生成，仅供参考

AIOpsLab 是一个专为设计、开发和评估自主 AIOps（智能运维）智能体而打造的全方位框架。它致力于解决当前智能运维领域缺乏标准化、可复现且可扩展基准测试的痛点，让研究人员和开发者能够在一个可控的环境中验证算法效果。

通过 AIOpsLab，用户可以轻松部署微服务云环境、模拟各类故障注入、生成复杂工作负载并导出遥测数据。框架不仅协调这些组件的运行，还提供了统一的交互接口，内置了一套丰富的基准测试套件，支持对智能体进行交互式评估，且可根据特定需求灵活扩展。

这款工具特别适合从事系统可靠性工程的研究人员、开发自主运维代理的工程师，以及需要构建标准化评测体系的团队。其独特的技术亮点在于将环境仿真、故障模拟与智能体评估无缝集成，支持本地模拟集群（基于 Kind）等多种部署方式，确保了实验的高度可复现性与互操作性。无论是学术探索还是工业界落地，AIOpsLab 都能为构建更聪明的运维助手提供坚实基石。

使用场景

某大型电商平台的 SRE 团队需要在微服务架构上线前，验证其新研发的“故障自愈 Agent"能否准确识别并修复复杂的级联故障。

没有 AIOpsLab 时

环境搭建耗时极长：团队需手动配置 Kubernetes 集群、部署微服务应用及监控探针，每次测试准备耗时数天。
故障复现困难且不安全：难以在生产环境中安全地注入特定网络延迟或数据库宕机故障，导致测试场景单一，无法覆盖极端情况。
评估标准不统一：缺乏标准化的基准测试集，不同版本的 Agent 性能对比依赖人工观察日志，结果主观且不可复现。
数据孤岛严重：故障注入、工作负载生成与遥测数据分散在不同工具中，难以关联分析 Agent 的决策链路。

使用 AIOpsLab 后

一键部署仿真环境：利用 AIOpsLab 内置的 Kind 集群编排能力，几分钟内即可在本地拉起包含完整微服务链路的仿真云环境。
标准化故障注入：直接调用内置基准套件，精准注入如“支付服务超时”或“缓存雪崩”等复杂故障，安全且可重复执行。
自动化量化评估：AIOpsLab 自动记录 Agent 从发现故障到恢复服务的全流程指标，提供客观的评分报告，实现版本间的公平对比。
全链路数据闭环：框架自动协调故障生成与遥测数据导出，为 Agent 提供连贯的训练与评估数据流，大幅缩短调试周期。

AIOpsLab 将原本需要数周才能完成的闭环验证压缩至小时级，为自主运维智能体的研发提供了可复现、标准化的核心基础设施。

运行环境要求

操作系统

Linux
macOS

GPU

未说明（本地运行 LLM 代理如 vLLM 时通常需要 GPU，但文档未指定具体型号或显存要求）

内存

未说明（运行 Kubernetes 集群和微服务环境通常建议 16GB+）

依赖

notes该工具主要用于部署和评估 AIOps 代理，核心依赖是 Kubernetes 环境。用户可选择在本地使用 kind 模拟集群，或在远程/云端（如 Azure）部署真实集群。若需在本地运行大语言模型（LLM）代理，需额外配置 vLLM 并注意代理设置（SOCKS5 需转为 HTTP）。推荐使用 Poetry 管理 Python 依赖，严禁使用 apt 安装过时的 Poetry 版本。

python>=3.11

Helm

Poetry

kind

kubectl

Docker

Ansible (可选)

Terraform (可选)

vLLM (可选)

快速开始

AIOpsLab

🤖概览 | 🚀快速入门 | 📦安装 | ⚙️使用 | 📂项目结构 | 📄如何引用

🤖 概述

alt text

AIOpsLab 是一个整体框架，旨在支持自主 AIOps 代理的设计、开发和评估，同时用于构建可复现、标准化、可互操作且可扩展的基准测试。AIOpsLab 可以部署微服务云环境、注入故障、生成工作负载并导出遥测数据，同时编排这些组件，并提供与代理交互及评估的接口。

此外，AIOpsLab 还内置了一套基准测试套件，包含一系列问题，可在交互式环境中评估 AIOps 代理。该套件可以轻松扩展以满足用户特定需求。有关问题列表，请参阅此处。

📦 安装

要求

Python >= 3.11
Helm
Poetry（推荐）或 pip
其他要求取决于所选的部署选项，将在下一节中说明

第一步：安装 Python 3.11

sudo apt update
sudo apt install python3.11 python3.11-venv python3.11-dev -y

第二步：安装 Poetry（官方安装程序）

# 使用官方安装程序（不要使用 apt - apt 版本已过时）
curl -sSL https://install.python-poetry.org | python3.11 -
export PATH="$HOME/.local/bin:$PATH"

# 添加到您的 shell 配置文件以保持持久性
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc

警告：请勿使用 sudo apt install python3-poetry - 它会安装一个过时的版本，可能无法与锁定文件兼容。

第三步：克隆并安装

git clone --recurse-submodules <CLONE_PATH_TO_THE_REPO>
cd AIOpsLab
poetry env use python3.11
poetry install
eval $(poetry env activate)

故障排除：如果出现“锁定文件不兼容”的错误，请先运行 poetry lock，再运行 poetry install。

使用 pip 的替代安装方法：

pip install -e .

🚀 快速入门

选择 a) 或 b) 来设置您的集群，然后继续执行后续步骤。

a) 本地模拟集群

AIOpsLab 可以在您本地机器上使用 kind 在本地模拟集群上运行。请参阅此 README 以获取先决条件列表。

# 对于 x86 机器
kind create cluster --config kind/kind-config-x86.yaml

# 对于 ARM 机器
kind create cluster --config kind/kind-config-arm.yaml

如果您遇到问题，可以考虑按照此 README 为您的机器构建 Docker 镜像。如有需要，请提交问题。

[提示]

如果您使用代理运行 AIOpsLab，请注意不要将 HTTP 代理地址设置为 172.17.0.1。创建 kind 集群时，集群中的所有节点都会继承主机环境和 Docker 容器的代理设置。

172.17.0.1 地址用于与宿主机通信。更多详情请参阅官方指南：配置 Kind 使用代理。

此外，Docker 不直接支持 SOCKS5 代理。如果您使用 SOCKS5 协议进行代理，可能需要使用 Privoxy 将 SOCKS5 转换为 HTTP。

如果您在本地运行 VLLM 和 LLM 代理，Privoxy 默认会代理 localhost，这会导致错误。为避免此问题，您应设置以下环境变量：

export no_proxy=localhost

完成集群创建后，继续执行下一步“更新 config.yml”。

b) 远程集群（使用 Ansible 手动设置）

AIOpsLab 支持任何您已配置 kubectl 上下文的远程 Kubernetes 集群，无论是来自云提供商的集群，还是您自己搭建的集群。我们提供了一些 Ansible 剧本，可用于在 CloudLab 等云平台以及我们自己的机器上设置集群。请按照此 README 设置您自己的集群，然后继续执行下一步“更新 config.yml”。

c) 使用 Terraform + Ansible 的 Azure VM（推荐用于云端）

只需一条命令即可 provision VM、设置 K8s 并配置 AIOpsLab：

# 模式 B（AIOpsLab 在笔记本电脑上，远程 kubectl）：
python3 scripts/terraform/deploy.py --apply --resource-group <your-rg> --workers 2 --mode B

# 模式 A（AIOpsLab 在控制器 VM 上，完全支持故障注入）：
python3 scripts/terraform/deploy.py --apply --resource-group <your-rg> --workers 2 --mode A

有关所有选项（--allowed-ips、--dev、--setup-only 等），请参阅 Terraform README。

注意：模式 B 便于开发，但某些故障注入器（例如 VirtualizationFaultInjector）需要在本地机器上运行 Docker。如需完整功能，请使用模式 A。

更新 `config.yml`

cd aiopslab
cp config.yml.example config.yml

请更新您的 config.yml，使 k8s_host 成为您集群控制平面节点的主机名。将 k8s_user 更新为您在控制平面节点上的用户名。如果您使用的是 kind 集群，您的 k8s_host 应为 kind。如果您在集群上运行 AIOpsLab，您的 k8s_host 应为 localhost。

在本地运行代理

由人类担任代理：

python3 cli.py
(aiopslab) $ start misconfig_app_hotel_res-detection-1 # 或选择您想解决的任何问题
# ... 等待设置 ...
(aiopslab) $ submit("Yes") # 提交解决方案

运行 GPT-4 基线代理：

# 如果项目根目录下没有 .env 文件，则创建一个
echo "OPENAI_API_KEY=<YOUR_OPENAI_API_KEY>" > .env
# 如有需要，可添加更多 API 密钥：
# echo "QWEN_API_KEY=<YOUR_QWEN_API_KEY>" >> .env

# echo "DEEPSEEK_API_KEY=<YOUR_DEEPSEEK_API_KEY>" >> .env

python3 clients/gpt.py # 你也可以在 main() 函数中更改要解决的问题

我们的仓库预集成多种代理，其中包括支持使用基于身份的访问权限对 Azure OpenAI 终端节点进行安全认证的代理。请查看 Clients，以获取所有已实现客户端的完整列表。

客户端会自动从你的 .env 文件中加载 API 密钥。

你可以使用 k9s 或其他集群监控工具方便地检查集群的运行状态。

要在 W&B 应用程序中以表格形式浏览你记录的 session_id 值：

确保你已安装并配置好 W&B。

设置 USE_WANDB 环境变量：

# 添加到你的 .env 文件
echo "USE_WANDB=true" >> .env

在 W&B Web UI 中，打开任意运行，点击“Tables”→“Add Query Panel”。
在 key 字段中输入 runs.summary 并点击“Run”，你将看到结果以表格形式显示。

⚙️ 使用方法

AIOpsLab 可以通过以下方式使用：

将你的代理接入 AIOpsLab
向 AIOpsLab 添加新应用
向 AIOpsLab 添加新问题

远程运行代理

你可以在具有更大计算资源的远程机器上运行 AIOpsLab。本节将指导你如何在远程设置和使用 AIOpsLab。

在远程机器上启动 AIOpsLab 服务：

SERVICE_HOST=<YOUR_HOST> SERVICE_PORT=<YOUR_PORT> SERVICE_WORKERS=<YOUR_WORKERS> python service.py

从本地机器测试连接：在你的本地机器上，可以使用 curl 测试与远程 AIOpsLab 服务的连接：

# 检查服务是否运行
curl http://<YOUR_HOST>:<YOUR_PORT>/health

# 列出可用问题
curl http://<YOUR_HOST>:<YOUR_PORT>/problems

# 列出可用代理
curl http://<YOUR_HOST>:<YOUR_PORT>/agents

在远程机器上运行 vLLM（如果使用 vLLM 代理）： 如果你使用的是 vLLM 代理，务必在远程机器上启动 vLLM 服务器：
```
# 在远程机器上
chmod +x ./clients/launch_vllm.sh
./clients/launch_vllm.sh
```
你可以在运行前编辑 launch_vllm.sh 来自定义模型。

运行代理：在你的本地机器上，可以使用以下命令运行代理：

curl -X POST http://<YOUR_HOST>:<YOUR_PORT>/simulate \
  -H "Content-Type: application/json" \
  -d '{
    "problem_id": "misconfig_app_hotel_res-mitigation-1",
    "agent_name": "vllm",
    "max_steps": 10,
    "temperature": 0.7,
    "top_p": 0.9
  }'

如何将你的代理接入 AIOpsLab？

AIOpsLab 使得开发和评估你的代理变得极其简单。你可以通过以下三个简单步骤将你的代理接入 AIOpsLab：

创建你的代理：你可以自由选择任何框架来开发代理。唯一的要求是：
- 将你的代理封装在一个 Python 类中，例如 Agent。
- 为该类添加一个异步方法 get_action：
```
# 根据当前状态返回代理的动作
async def get_action(self, state: str) -> str:
    # <你的代理逻辑在这里>
```

将你的代理注册到 AIOpsLab：现在你可以将代理注册到 AIOpsLab 的编排器中。编排器将管理你的代理与环境之间的交互：

from aiopslab.orchestrator import Orchestrator

agent = Agent()             # 创建你的代理实例
orch = Orchestrator()       # 获取 AIOpsLab 的编排器
orch.register_agent(agent)  # 将你的代理注册到 AIOpsLab

在某个问题上评估你的代理：
1. 初始化一个问题：AIOpsLab 提供了一系列你可以用来评估代理的问题。你可以在这里或使用 orch.probs.get_problem_ids() 查看可用问题列表。现在根据问题 ID 初始化一个问题：
```
problem_desc, instructs, apis = orch.init_problem("k8s_target_port-misconfig-mitigation-1")
```
2. 设置代理上下文：使用问题描述、指令和可用的 API 为你的代理设置上下文。（这一步取决于你的代理设计，由用户自行决定）
3. 开始解决问题：调用 start_problem 方法开始解决问题。你还可以指定最大步骤数：
```
import asyncio
asyncio.run(orch.start_problem(max_steps=30))
```

此过程将在编排器中创建一个 Session，代理将在其中解决问题。编排器会评估你的代理解决方案，并提供结果（存储在 data/results/ 下）。你可以利用这些结果来改进你的代理。

如何向 AIOpsLab 添加新应用？

AIOpsLab 提供了一个默认的应用列表，用于评估代理在运维任务中的表现。然而，作为开发者，你也可以向 AIOpsLab 添加新应用，并围绕这些应用设计问题。

注意：对于某些支持 K8S 自动部署的应用，我们集成了 Helm 图表（你也可以使用 kubectl 来安装，例如 HotelRes 应用）。有关 Helm 的更多信息请参见这里。

要通过 Helm 向 AIOpsLab 添加新应用，你需要：

添加应用元数据
- 应用元数据是一个描述该应用的 JSON 对象。
- 可以包含任何字段，如应用名称、描述、命名空间等。
- 我们建议同时包含一个特殊的 Helm Config 字段，如下所示：
```
"Helm Config": {
    "release_name": "<用于部署的 Helm 发布名称>",
    "chart_path": "<应用的 Helm 图表路径>",
    "namespace": "<应用应部署的 K8S 命名空间>"
}
```
  注意：Helm Config 由编排器使用，以便在与该应用相关的问题启动时自动部署你的应用。
  
  注意：编排器会自动为与该应用相关的所有问题提供上下文信息给代理。
创建一个包含这些元数据的 JSON 文件，并将其保存在 metadata 目录中。例如，social-network 应用：social-network.json
添加应用类

在 apps 目录下的新 Python 文件中扩展基类：
```
from aiopslab.service.apps.base import Application

class MyApp(Application):
    def __init__(self):
        super().__init__("<应用元数据 JSON 的路径>")
```
Application 类提供了应用的基础实现。你可以根据需要覆盖方法或添加新方法以满足你的应用需求，但对于大多数应用来说，基类已经足够。

如何向 AIOpsLab 添加新问题？

与应用类似，AIOpsLab 提供了一个默认的问题列表，用于评估代理的表现。然而，作为开发者，你也可以向 AIOpsLab 添加新问题，并围绕你的应用来设计这些问题。

AIOpsLab 中的每个问题包含 5 个组成部分：

应用：问题所基于的应用。
任务：代理需要执行的 AIOps 任务。目前我们支持：检测、定位、分析和缓解。
故障：在应用中引入的故障。
工作负载：为应用生成的工作负载。
评估者：用于检查代理表现的评估者。

要向 AIOpsLab 添加新问题，在 problems 目录下创建一个新的 Python 文件，步骤如下：

设置。导入你选择的应用（例如 MyApp）和任务（例如 LocalizationTask）：

from aiopslab.service.apps.myapp import MyApp
from aiopslab.orchestrator.tasks.localization import LocalizationTask

定义。要定义一个问题，创建一个继承自你所选 Task 的类，并定义 3 个方法：start_workload、inject_fault 和 eval：

class MyProblem(LocalizationTask):
    def __init__(self):
        self.app = MyApp()
    
    def start_workload(self):
        # <你的工作负载逻辑在这里>
    
    def inject_fault(self)
        # <你的故障注入逻辑在这里>
    
    def eval(self, soln、trace、duration):
        # <你的评估逻辑在这里>

完整的问题示例请参见这里。

点击以查看问题的详细描述

start_workload：启动应用的工作负载。可以使用你自己的生成器，也可以使用 AIOpsLab 的默认生成器，该生成器基于 wrk2：
```
from aiopslab.generator.workload.wrk import Wrk

wrk = Wrk(rate=100, duration=10)
wrk.start_workload(payload="<wrk 负载脚本>", url="<应用 URL>")
```
相关代码：aiopslab/generators/workload/wrk.py
inject_fault：在应用中引入故障。可以使用你自己的注入器，也可以使用 AIOpsLab 内置的注入器，并且还可以对其进行扩展。例如，K8S 层的配置错误：
```
from aiopslab.generators.fault.inject_virtual import *

inj = VirtualizationFaultInjector(testbed="<命名空间>")
inj.inject_fault(microservices=["<服务名称>"]，fault_type="misconfig")
```
相关代码：aiopslab/generators/fault
eval：使用 3 个参数评估代理的解决方案：(1) soln：代理提交的解决方案（如果有），(2) trace：代理的操作轨迹，以及 (3) duration：代理所花费的时间。

在这里，你可以使用每个任务的内置默认评估器，也可以添加自定义评估。结果会存储在 self.results 中：
```
def eval(self, soln、trace、duration) -> dict:
    super().eval(soln、trace、duration)     # 默认评估
    self.add_result("myMetric", my_metric(...))     # 添加自定义指标
    return self.results
```
注意：当代理开始一个问题时，编排器会创建一个 Session 对象来存储代理的交互记录。trace 参数就是这个会话记录的轨迹。

相关代码：aiopslab/orchestrator/evaluators/

📂 项目结构

aiopslab

生成器

  generators - AIOpsLab 的问题生成器
  ├── fault - 按故障注入级别组织的故障生成器
  │   ├── base.py
  │   ├── inject_app.py
  │  ...
  │   └── inject_virtual.py
  └── workload - 按工作负载类型组织的工作负载生成器
      └── wrk.py - wrk 工具接口

编排器

  orchestrator
  ├── orchestrator.py - 主要的编排引擎
  ├── parser.py - 用于解析智能体响应的解析器
  ├── evaluators - 系统中的评估指标
  │   ├── prompts.py - 用于LLM作为评判者的提示模板
  │   ├── qualitative.py - 定性指标
  │   └── quantitative.py - 定量指标
  ├── problems - aiopslab中的问题定义
  │   ├── k8s_target_port_misconfig - 例如，K8S TargetPort配置错误问题
  │  ...
  │   └── registry.py
  ├── actions - 按照AIOps任务类型组织的智能体可执行动作
  │   ├── base.py
  │   ├── detection.py
  │   ├── localization.py
  │   ├── analysis.py
  │   └── mitigation.py
  └── tasks - 智能体需要解决的单个AIOps任务定义
      ├── base.py
      ├── detection.py
      ├── localization.py
      ├── analysis.py
      └── mitigation.py

服务

  service
  ├── apps - 各应用的接口/实现
  ├── helm.py - 与集群交互的Helm接口
  ├── kubectl.py - 与集群交互的kubectl接口
  ├── shell.py - 与集群交互的Shell接口
  ├── metadata - 各应用的元数据和配置
  └── telemetry - 观测性工具（除observer外），例如用于智能体的内存日志观测

观察者

  observer
  ├── filebeat - Filebeat安装
  ├── logstash - Logstash安装
  ├── prometheus - Prometheus安装
  ├── log_api.py - 用于将日志数据存储到磁盘的API
  ├── metric_api.py - 用于将指标数据存储到磁盘的API
  └── trace_api.py - 用于将追踪数据存储到磁盘的API

工具

  ├── config.yml - aiopslab配置文件
  ├── config.py - 配置解析器
  ├── paths.py - 路径和常量
  ├── session.py - aiopslab会话管理器
  └── utils
      ├── actions.py - 智能体可执行动作的帮助函数
      ├── cache.py - 缓存管理器
      └── status.py - aiopslab的状态、错误和警告信息

cli.py: 用于与AIOpsLab交互的命令行界面，例如供人工操作员使用。

📄 如何引用

@inproceedings{
chen2025aiopslab,
title={{AIO}psLab: A Holistic Framework to Evaluate {AI} Agents for Enabling Autonomous Clouds},
author={Yinfang Chen and Manish Shetty and Gagan Somashekar and Minghua Ma and Yogesh Simmhan and Jonathan Mace and Chetan Bansal and Rujia Wang and Saravan Rajmohan},
booktitle={Eighth Conference on Machine Learning and Systems},
year={2025},
url={https://openreview.net/forum?id=3EXBLwGxtq}
}
@inproceedings{shetty2024building,
  title = {Building AI Agents for Autonomous Clouds: Challenges and Design Principles},
  author = {Shetty, Manish and Chen, Yinfang and Somashekar, Gagan and Ma, Minghua and Simmhan, Yogesh and Zhang, Xuchao and Mace, Jonathan and Vandevoorde, Dax and Las-Casas, Pedro and Gupta, Shachee Mishra and Nath, Suman and Bansal, Chetan and Rajmohan, Saravan},
  year = {2024},
  booktitle = {Proceedings of 15th ACM Symposium on Cloud Computing},
}

行为准则

本项目已采用微软开源行为准则。更多信息请参阅行为准则常见问题解答，或如有任何其他疑问或意见，请联系opencode@microsoft.com。

许可证

根据MIT许可证授权。

商标

本项目可能包含项目、产品或服务的商标或标识。未经授权使用微软商标或标识须遵守并遵循微软商标与品牌指南。在本项目的修改版本中使用微软商标或标识不得造成混淆或暗示微软的赞助。任何第三方商标或标识的使用均应遵守该第三方的相关政策。

AIOpsLab 快速上手指南

AIOpsLab 是一个用于设计、开发和评估自主 AIOps 智能体的综合框架。它支持部署微服务云环境、注入故障、生成工作负载并导出遥测数据，同时提供标准化的基准测试套件。

环境准备

系统要求

操作系统: Linux (推荐 Ubuntu) 或 macOS
Python: >= 3.11 (必须)
包管理: Poetry (推荐) 或 pip
容器编排: Helm
集群工具: Kind (用于本地模拟) 或任意远程 Kubernetes 集群

前置依赖安装

请确保已安装 Docker 和 kubectl。

1. 安装 Python 3.11

sudo apt update
sudo apt install python3.11 python3.11-venv python3.11-dev -y

2. 安装 Poetry (官方安装方式)

⚠️ 注意: 请勿使用 apt 安装 Poetry，版本过旧可能导致兼容性问题。

curl -sSL https://install.python-poetry.org | python3.11 -
export PATH="$HOME/.local/bin:$PATH"
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

3. 安装 Helm

curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash

安装步骤

1. 克隆项目

git clone --recurse-submodules <CLONE_PATH_TO_THE_REPO>
cd AIOpsLab

2. 配置虚拟环境并安装依赖

poetry env use python3.11
poetry install
eval $(poetry env activate)

故障排查: 若遇到 "lock file not compatible" 错误，请先运行 poetry lock，再执行 poetry install。

备选方案 (使用 pip):

pip install -e .

基本使用

第一步：搭建集群

你可以选择在本机运行模拟集群，或使用远程集群。

选项 A：本地模拟集群 (推荐新手) 适用于 x86 架构机器：

kind create cluster --config kind/kind-config-x86.yaml

(ARM 架构机器请使用 kind-config-arm.yaml)

代理提示: 若使用代理，请注意 Kind 节点会继承主机代理设置。若使用 SOCKS5 代理，建议通过 Privoxy 转为 HTTP，并设置 export no_proxy=localhost 以避免本地 LLM 服务出错。

选项 B：远程集群 (Azure/CloudLab 等) 若使用 Azure VM，可通过脚本一键部署：

# Mode B: 本地运行 AIOpsLab，远程运行 K8s
python3 scripts/terraform/deploy.py --apply --resource-group <your-rg> --workers 2 --mode B

第二步：配置文件

复制并编辑配置文件，确保 k8s_host 指向控制平面节点。

本地 Kind 集群：设置为 kind
在集群内部运行：设置为 localhost

cd aiopslab
cp config.yml.example config.yml
# 使用编辑器修改 config.yml 中的 k8s_host 和 k8s_user

第三步：运行智能体

1. 准备 API Key 在项目根目录创建 .env 文件并填入密钥：

echo "OPENAI_API_KEY=<YOUR_OPENAI_API_KEY>" > .env
# 如需其他模型可追加:
# echo "QWEN_API_KEY=<YOUR_QWEN_API_KEY>" >> .env

2. 启动交互式会话 (人类作为智能体)

python3 cli.py

在交互界面中：

(aiopslab) $ start misconfig_app_hotel_res-detection-1
# ... 等待环境 setup 完成 ...
(aiopslab) $ submit("Yes")

3. 运行 GPT-4 基准智能体

python3 clients/gpt.py

4. 监控状态 推荐使用 k9s 查看集群实时状态：

k9s

5. (可选) 启用 W&B 实验追踪 在 .env 中添加 USE_WANDB=true，即可在 W&B 面板中以表格形式查看 session_id 和运行结果。

常见问题

为什么在运行场景时会出现 'Timeout: Not all pods in namespace openebs reached the Ready state' 错误？

AIOpsLab 中功能性故障（functional faults）和症状性故障（symptomatic faults）在任务级别上有什么区别？

在缓解（Mitigation）任务中，如何判定操作是否成功？

使用 Chaos Mesh 进行 Pod 杀死实验时，为什么 Pod 被杀死后立即重启了？

如何在本地机器（Mac/Linux/Windows）或 AKS 上部署和运行 AIOpsLab？

项目是否有 CI 流水线？它是如何配置的？

遇到 MongoDB 启动时的竞态条件错误（No suitable servers found）怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

使用场景

没有 AIOpsLab 时

使用 AIOpsLab 后

运行环境要求

快速开始

AIOpsLab

🤖 概述

📦 安装

要求

第一步：安装 Python 3.11

第二步：安装 Poetry（官方安装程序）

第三步：克隆并安装

🚀 快速入门

a) 本地模拟集群

[提示]

b) 远程集群（使用 Ansible 手动设置）

c) 使用 Terraform + Ansible 的 Azure VM（推荐用于云端）

更新 config.yml

在本地运行代理

⚙️ 使用方法

远程运行代理

如何将你的代理接入 AIOpsLab？

如何向 AIOpsLab 添加新应用？

如何向 AIOpsLab 添加新问题？

📂 项目结构

📄 如何引用

行为准则

许可证

商标

AIOpsLab 快速上手指南

环境准备

系统要求

前置依赖安装

安装步骤

基本使用

第一步：搭建集群

第二步：配置文件

第三步：运行智能体

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch

更新 `config.yml`