codefuse-devops-eval

GitHub
652 47 简单 1 次阅读 4天前NOASSERTION语言模型其他
AI 解读 由 AI 自动生成,仅供参考

codefuse-devops-eval 是专为运维开发(DevOps)与智能运维(AIOps)领域打造的大模型评估基准。它旨在解决当前通用大模型在垂直行业应用中缺乏专业、量化评估标准的问题,帮助开发者精准追踪模型进步并分析其优势与短板。

该工具主要面向大模型研究人员、算法工程师以及致力于提升运维效率的技术团队。其核心亮点在于构建了工业级的评测体系,包含总计 7486 道选择题,覆盖 8 大通用类别。特别是在专业性极强的子领域,它提供了 2840 个 AIOps 样本,涵盖日志解析、时序异常检测、故障根因分析等关键场景;同时收录了 1509 个工具学习(ToolLearning)样本,涉及 59 个领域的 239 种工具场景。通过提供零样本及少样本的准确率排行榜,codefuse-devops-eval 让模型在复杂运维任务中的表现一目了然,是推动大模型在运维领域落地的重要参考标尺。

使用场景

某大型金融科技公司正在自研一款面向运维团队的“智能故障诊断助手”,旨在利用大模型自动分析系统日志并定位根因。

没有 codefuse-devops-eval 时

  • 评估标准缺失:团队只能使用通用的代码或问答数据集测试模型,无法准确衡量其在“日志解析”或“时间序列异常检测”等垂直领域的真实能力。
  • 盲区难以发现:模型可能在通用对话中表现流畅,但在具体的“根因分析”场景中频繁出错,团队缺乏细粒度的指标来定位这些专业短板。
  • 选型决策盲目:在对比不同基座模型(如 Qwen 与 Baichuan)时,缺乏统一的 DevOps 行业基准,导致技术选型依赖主观经验而非客观数据。
  • 工具集成困难:对于模型是否能正确调用运维工具(ToolLearning),缺乏覆盖 59 个领域、239 种工具场景的测试集,上线风险极高。

使用 codefuse-devops-eval 后

  • 精准能力画像:利用其包含的 2840 个 AIOps 样本,团队能精确量化模型在日志处理和故障预测上的准确率,快速建立专业能力基线。
  • 短板定向优化:通过细分维度的评测报告,迅速发现模型在“时间序列分类”任务上的不足,从而针对性地补充训练数据或调整提示词。
  • 科学模型选型:参考官方 Leaderboard 中各模型在 Deploy、Monitor 等 8 大环节的零样本/少样本得分,以数据为依据选出了最适合的基座模型。
  • 工具调用验证:借助 1509 个 ToolLearning 测试题,全面验证了模型对各类运维工具的调用逻辑,确保智能助手能安全、准确地执行操作指令。

codefuse-devops-eval 将模糊的模型直觉转化为可量化的工业级指标,让运维大模型的落地从“盲目试错”走向“精准导航”。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具主要是一个评估数据集和评测脚本集合,用于评估大模型在 DevOps、AIOps 和 ToolLearning 领域的表现。README 中未明确列出具体的运行环境配置(如操作系统、GPU、内存、Python 版本等)。用户可通过 pandas 读取本地 CSV 文件,或使用 Hugging Face datasets / ModelScope 库直接加载数据集进行评测。
python未说明
pandas
datasets
codefuse-devops-eval hero image

快速开始

🤗 Hugging Face • ⏬ 数据 • 📖 教程
中文 | 英文

DevOps-Eval 是一套专为 DevOps 领域的基础模型设计的全面评估工具集。我们希望 DevOps-Eval 能够帮助开发者,尤其是 DevOps 领域的从业者,跟踪其模型的进展,并分析其重要的优势与不足之处。

📚 本仓库包含与 DevOps 相关的问题和练习,涵盖 AIOps、ToolLearning 等领域;

💥️ 目前共有 7486 道多选题,覆盖 8 个不同的通用类别,如下所示 下方

🔥 AIOps 子类别中总计有 2840 个样本,涵盖了 日志解析时间序列异常检测时间序列分类时间序列预测以及 根因分析等场景。

🔧 ToolLearning 子类别中总计有 1509 个样本,覆盖了 59 个领域的 239 种工具场景。

🔔 新闻

  • [2023.12.27] 增加 1509 个 ToolLearning 样本,覆盖 59 个领域的 239 种工具类别;发布相关评估排行榜;
  • [2023.11.27] 增加 487 个运维场景样本和 640 个时间序列预测样本;更新排行榜;
  • [2023.10.30] 增加 AIOps 排行榜。
  • [2023.10.25] 增加 AIOps 样本,包括日志解析、时间序列异常检测、时间序列分类和根因分析。
  • [2023.10.18] 更新初始排行榜...

📜 目录

🏆 排行榜

以下是我们在首次发布时评估的模型所得到的零样本和五样本准确率。值得注意的是,对于许多经过指令微调的模型而言,五样本性能优于零样本。

👀 DevOps

零样本

模型名称 规划 编码 构建 测试 发布 部署 运维 监控 平均
DevOpsPal-14B-Chat 60.61 78.35 84.86 84.65 87.26 82.75 69.89 79.17 78.23
DevOpsPal-14B-Base 54.55 77.82 83.49 85.96 86.32 81.96 71.18 82.41 78.23
Qwen-14B-Chat 60.61 75.4 85.32 84.21 89.62 82.75 69.57 80.56 77.18
Qwen-14B-Base 57.58 73.81 84.4 85.53 86.32 81.18 70.05 80.09 76.19
Baichuan2-13B-Base 60.61 69.42 79.82 79.82 82.55 81.18 70.37 83.8 73.73
Baichuan2-13B-Chat 60.61 68.43 77.98 80.7 81.6 83.53 67.63 84.72 72.9
DevOpsPal-7B-Chat 54.55 69.11 83.94 82.02 76.89 80 64.73 77.78 71.92
DevOpsPal-7B-Base 54.55 68.96 82.11 78.95 80.66 76.47 65.54 78.7 71.69
Qwen-7B-Base 53.03 68.13 78.9 75.44 80.19 80 65.06 80.09 71.09
Qwen-7B-Chat 57.58 66.01 80.28 79.82 76.89 77.65 62.64 79.17 69.75
Baichuan2-7B-Chat 54.55 63.66 77.98 76.32 71.7 73.33 59.42 79.63 66.97
Internlm-7B-Chat 60.61 62.15 77.06 76.32 66.98 74.51 60.39 78.24 66.27
Baichuan2-7B-Base 56.06 62.45 75.69 70.61 74.06 69.8 61.67 75.93 66.21
Internlm-7B-Base 54.55 58.29 79.36 78.95 77.83 70.59 65.86 75.93 65.99

五样本

模型名称 规划 编码 构建 测试 发布 部署 运维 监控 平均
DevOpsPal-14B-Chat 63.64 79.49 81.65 85.96 86.79 86.67 72.95 81.48 79.69
DevOpsPal-14B-Base 62.12 80.55 82.57 85.53 85.85 84.71 71.98 80.09 79.63
Qwen-14B-Chat 65.15 76 82.57 85.53 84.91 84.31 70.85 81.48 77.81
Qwen-14B-Base 66.67 76.15 84.4 85.53 86.32 80.39 72.46 80.56 77.56
Baichuan2-13B-Base 63.64 71.39 80.73 82.46 81.13 84.31 73.75 85.19 75.8
Qwen-7B-Base 75.76 72.52 78.9 81.14 83.96 81.18 70.37 81.94 75.36
Baichuan2-13B-Chat 62.12 69.95 76.61 84.21 83.49 79.61 71.98 80.56 74.12
DevOpsPal-7B-Chat 66.67 69.95 83.94 81.14 80.19 82.75 68.6 76.85 73.6利
DevOpsPal-7B-Base 69.7 69.49 82.11 81.14 82.55 82.35 67.15 79.17 73.35
Qwen-7B-Chat 65.15 66.54 82.57 81.58 81.6 81.18 65.38 81.02 71.6义
Baichuan2-7B-Base 60.61 67.22 76.61 75 77.83 78.43 67.31 79.63 70.我
Internlm-7B-Chat 60.61 63.06 79.82 80.26 67.92 75.69 60.06 77.深思熟虑的 69.2意
Baichuan2-7B-Chat 60.61 64.95 81.19 75.88 71.23 75.69 64.我 79.我 69.我
Internlm-7B-Base 62.12 65.25 77.我 80.我 74.我 63.我 75.我 6我 我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的......

🤗 Hugging Face • ⏬ 数据 • 📖 教程
中文 | 英文

DevOps-Eval 是一套专为 DevOps 领域的基础模型设计的全面评估工具集。我们希望 DevOps-Eval 能够帮助开发者,尤其是 DevOps 领域的从业者,跟踪其模型的进步,并分析其重要的优势与不足之处。

📚 本仓库包含与 DevOps 相关的问题和练习,涵盖 AIOps、ToolLearning 等领域;

💥️ 目前共有 7486 道多选题,覆盖 8 个不同的通用类别,如下所示 下方

🔥 AIOps 子类别中总计有 2840 个样本,涵盖了 日志解析时间序列异常检测时间序列分类时间序列预测以及 根因分析等场景。

🔧 ToolLearning 子类别中总计有 1509 个样本,覆盖了 59 个领域的 239 种工具场景。

🔔 新闻

  • [2023.12.27] 增加 1509 个 ToolLearning 样本,覆盖 59 个领域的 239 种工具类别;发布相关评估排行榜;
  • [2023.11.27] 增加 487 个运维场景样本和 640 个时间序列预测样本;更新排行榜;
  • [2023.10.30] 增加 AIOps 排行榜。
  • [2023.10.25] 增加 AIOps 样本,包括日志解析、时间序列异常检测、时间序列分类和根因分析。
  • [2023.10.18] 更新初始排行榜...

📜 目录

🏆 排行榜

以下是我们在首次发布时评估的模型所取得的零样本和五样本准确率。值得注意的是,对于许多经过指令微调的模型而言,五样本性能优于零样本。

👀 DevOps

零样本

模型名称 规划 编码 构建 测试 发布 部署 运维 监控 平均
DevOpsPal-14B-Chat 60.61 78.35 84.86 84.65 87.26 82.75 69.89 79.17 78.23
DevOpsPal-14B-Base 54.55 77.82 83.49 85.96 86.32 81.96 71.18 82.41 78.23
Qwen-14B-Chat 60.61 75.4 85.32 84.21 89.62 82.75 69.57 80.56 77.18
Qwen-14B-Base 57.58 73.81 84.4 85.53 86.32 81.18 70.05 80.09 76.19
Baichuan2-13B-Base 60.61 69.42 79.82 79.82 82.55 81.18 70.37 83.8 73.73
Baichuan2-13B-Chat 60.61 68.43 77.98 80.7 81.6 83.53 67.63 84.72 72.9
DevOpsPal-7B-Chat 54.55 69.11 83.94 82.02 76.89 80 64.73 77.78 71.92
DevOpsPal-7B-Base 54.55 68.96 82.11 78.95 80.66 76.47 65.54 78.7 71.69
Qwen-7B-Base 53.03 68.13 78.9 75.44 80.19 80 65.06 80.09 71.09
Qwen-7B-Chat 57.58 66.01 80.28 79.82 76.89 77.65 62.64 79.17 69.75
Baichuan2-7B-Chat 54.55 63.66 77.98 76.32 71.7 73.33 59.42 79.63 66.97
Internlm-7B-Chat 60.61 62.15 77.06 76.32 66.98 74.51 60.39 78.24 66.27
Baichuan2-7B-Base 56.06 62.45 75.69 70.61 74.06 69.8 61.67 75.93 66.21
Internlm-7B-Base 54.55 58.29 79.36 78.95 77.83 70.59 65.86 75.93 65.99

五样本

模型名称 规划 编码 构建 测试 发布 部署 运维 监控 平均
DevOpsPal-14B-Chat 63.64 79.49 81.65 85.96 86.79 86.67 72.95 81.48 79.69
DevOpsPal-14B-Base 62.12 80.55 82.57 85.53 85.85 84.71 71.98 80.09 79.63
Qwen-14B-Chat 65.15 76 82.57 85.53 84.91 84.31 70.85 81.48 77.81
Qwen-14B-Base 66.67 76.15 84.4 85.53 86.32 80.39 72.46 80.56 77.56
Baichuan2-13B-Base 63.64 71.39 80.73 82.46 81.13 84.31 73.75 85.19 75.拉
Qwen-7B-Base 75.76 72.52 78.9 81.14 83.96 81.18 70.37 81.的金丝雀 75.36
Baichuan2-13B-Chat 62.12 69.95 76.61 84.21 83.49 79.6利 71.98 80.的金丝雀 74.12
DevOpsPal-7B-Chat 66.6义 69.95 83.94 81.14 80.的金丝雀 82.的金丝雀 68.的金丝雀 76.的金丝雀 73.6利
DevOpsPal-7B-Base 69.7 69.49 82.11 81.的金丝雀 82.的金丝雀 67.的金丝雀 79.的金丝雀 73.利
Qwen-7B-Chat 65.1义 66.5义 82.的金丝雀 81.的金丝雀 81.的金丝雀 65.的金丝雀 81.的金丝雀 71.利
Baichuan2-7B-Base 60.6义 67.的金丝雀 76.的金丝雀 75的金丝雀 78.的金丝雀 67.的金丝雀 79.的金丝雀 70.利
Internlm-7B-Chat 60.6义 63.的金丝雀 79.的金丝雀 80.的金丝雀 67.的金丝雀 75.利 60.的金丝雀 77.利
Baichuan2-7B-Chat 60.6义 64.的金丝雀 81.的金丝雀 75.利 76.利 64.的金丝雀 79.的金丝雀 70.利
Internlm-7B-Base 62.的金丝雀 65.利 77.利 80.利 74.利 63.的金丝雀 75.利 67.利 75.利

🔥 AIOps

零样本

模型名称 日志解析 根因分析 时间序列异常检测 时间序列分类 时间序列预测 平均
Qwen-14B-Base 66.29 58.8 25.33 43.5 62.5 52.25
DevOpsPal-14B—Base 63.14 53.6 23.33 43.5 64.06 50.49
Qwen-14B-Chat 64.57 51.6 22.67 36 62.5 48.94
DevOpsPal-14B—Chat 60 56 24 43 57.81 48.8
Qwen-7B-Base 50 39.2 22.67 54 43.75 41.48
DevOpsPal-7B—Chat 56.57 30.4 25.33 45 44.06 40.92
Baichuan2-13B-Chat 64 18 21.33 37.5 46.88 39.3
Qwen-7B-Chat 57.43 38.8 22.33 39.5 25.31 36.97
Internlm-7B—Chat 58.86 8.8 22.33 28.5 51.25 36.34
Baichuan2-7B-Chat 60.86 10 28 34.5 39.06 36.34
Baichuan2-7B-Base 53.43 12.8 27.67 36.5 40.31 35.49
Baichuan2-13B-Base 54 12.4 23 34.5 42.81 34.86
DevOpsPal-7B—Base 46.57 20.8 25 34 38.75 33.94
Internlm-7B—Base 48.57 18.8 23.33 37.5 33.75 33.1

单样本

模型名称 日志解析 根因分析 时间序列异常检测 时间序列分类 时间序列预测 平均
DevOpsPal-14B—Chat 66.29 80.8 23.33 44.5 56.25 54.44
DevOpsPal-14B—Base 60 74 25.33 43.5 52.5 51.13
Qwen-14B-Base 64.29 74.4 28 48.5 40.31 50.77
Qwen-7B-Base 56 60.8 27.67 44 57.19 49.44
Qwen-14B-Chat 49.71 65.6 28.67 48 42.19 46.13
Baichuan2-13B-Base 56 43.2 24.33 41 46.88 42.89
Baichuan2-7B-Chat 58.57 31.6 27 31.5 51.88 41.83
DevOpsPal-7B—Base 52.86 44.4 28 44.5 36.25 41.2
Baichuan2-7B-Base 48.29 40.4 27 42 40.94 39.86
Qwen-7B-Chat 54.57 52 29.67 26.5 27.19 38.73
Baichuan2-13B-Chat 57.43 44.4 25 25.5 30.63 37.75
DevOpsPal-7B—Chat 56.57 27.2 25.33 41.5 33.44 37.46
Internlm-7B—Chat 62.57 12.8 22.33 21 50.31 36.69
Internlm-7B—Base 48 33.2 29 35 31.56 35.85

🔧 工具学习

FuncCall-Filler 数据集名称 fccr 1-fcffr 1-fcfnr 1-fcfnir aar
Qwen-14b-chat luban 61 100 97.68 63.32 100
Qwen-7b-chat luban 50.58 100 98.07 52.51 100
Baichuan-7b-chat luban 60.23 100 97.3 62.93 99.61
Internlm-chat-7b luban 47.88 100 96.14 51.74 99.61
Qwen-14b-chat fc_data 98.37 99.73 99.86 98.78 100
Qwen-7b-chat fc_data 99.46 99.86 100 99.59 100
Baichuan-7b-chat fc_data 97.96 99.32 100 98.64 100
Internlm-chat-7b fc_data 94.29 95.78 100 98.5 100
CodeLLaMa-7b fc_data 98.78 99.73 100 99.05 100
CodeLLaMa-7b-16 fc_data 98.1 99.87 99.73 98.5 100
CodeFuse-7b-4k fc_data 98.91 99.87 99.87 99.18 100

⏬ 数据

下载

  • 方法1:下载zip文件(你也可以直接用浏览器打开以下链接):

    wget https://huggingface.co/datasets/codefuse-admin/devopseval-exam/resolve/main/devopseval-exam.zip
    

    然后解压,你可以用pandas加载数据:

    import os
    import pandas as pd
    
    File_Dir="devopseval-exam"
    test_df=pd.read_csv(os.path.join(File_Dir,"test","UnitTesting.csv"))
    
  • 方法2:直接使用Hugging Face datasets加载数据集:

    from datasets import load_dataset
    dataset=load_dataset(r"DevOps-Eval/devopseval-exam",name="UnitTesting")
    
    print(dataset['val'][0])
    # {"id": 1, "question": "单元测试应该覆盖以下哪些方面?", "A": "正常路径", "B": "异常路径", "C": "边界值条件","D": 所有以上,"answer": "D", "explanation": ""}  ```
    
  • 方法3:直接使用ModelScope datasets加载数据集:

    from modelscope.msdatasets import MsDataset
    MsDataset.clone_meta(dataset_work_dir='./xxx', dataset_id='codefuse-ai/devopseval-exam')
    

👀 注意事项

为了方便使用,我们整理了55个子类别的类别名称处理规则以及对应的英文和中文名称。详细信息请参阅category_mapping.json。格式如下:

{
  "UnitTesting.csv": [
    "unit testing",
    "单元测试",
    {"dev": 5, "test": 32}
    "TEST"
  ],
  ...
  "file_name":[
  "英文名称",
  "中文名称",
  "样本数量",
  "大类标签(PLAN,CODE,BUILD,TEST,RELEASE,DEPOLY,OPERATE,MONITOR,从8个选项中选择1个)"
  ]
}

每个子类别包含两个划分:dev和test。每个子类别的dev集合包含五个示例,并附有解释,用于少样本评估。而test集合则用于模型评估。test划分上的标签也已公开。

以下是来自“版本控制”的一个dev示例:

id: 4
question: 如何找到Git特定提交中已更改的文件列表?
A: 使用命令 `git diff --name-only SHA`
B: 使用命令 `git log --name-only SHA`
C: 使用命令 `git commit --name-only SHA`
D: 使用命令 `git clone --name-only SHA`
answer: A
explanation: 
分析原因:
git diff --name-only SHA命令会显示与SHA参数对应的提交中已修改的文件列表。参数--name-only让命令只输出文件名,而忽略其他信息。其它选项中的命令并不能实现此功能。

🔥 AIOps 样本示例

👀 👀 以日志解析时间序列异常检测为例,以下是AIOps样本的简要展示:

日志解析

id: 0
question:
这里有一些运行日志
 0 04:21:15,429 WARN Cannot open channel to 2 at election address /10.10.34.12:3888
 1 19:18:56,377 WARN ******* GOODBYE /10.10.34.11:52703 ********
 2 19:13:46,128 WARN ******* GOODBYE /10.10.34.11:52308 ********
 3 19:16:26,268 WARN ******* GOODBYE /10.10.34.11:52502 ********
 4 09:11:16,012 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
 5 16:37:13,837 WARN Cannot open channel to 2 at election address /10.10.34.12:3888
 6 09:09:16,008 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
 7 15:27:03,681 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
日志的前三个部分分别是索引、时间戳和日志级别。不考虑这三部分,假设日志中的变量用'<*>'表示,各标记之间用空格分隔。那么上述日志的具体模板是什么?
A: Notification time out: <*> 和 Connection broken for id <*>, my id = <*>, error =
B: Send worker leaving thread 和 Connection broken for id <*>, my id = <*>, error =
C: Received connection request /<*>:<*> 和 Interrupting SendWorker
D: Cannot open channel to <*> at election address /<*>:<*> 和 ******* GOODBYE /<*>:<*> ********
answer: D
explanation: 日志中包含了固定的模板片段“Cannot open channel to <> at election address /<>:</>”和“****** GOODBYE /<>:<> ********”,这两者都出现在选项D中。而其他选项中的模板片段与日志内容不符。因此,选项D最符合日志模板。

时间序列异常检测

id: 0
question:
分析以下时间序列
[50,62,74,84,92,97,99,98,94,87,77,65,265,40,28,17,8,3,0,0,4,10,20,31,43,56,68,79,89,95,99,99,99,96,91,82,71,59,46,34,22,12,5,1,0,2,7,15,25,37,49]
请找出明显异常点的索引。异常点通常是指显著偏离数据整体趋势的数据点。
A: 46
B: 0
C: 37
D: 12
answer: D
explanation: 经过分析,给定时间序列中12点处的数值265明显大于周围的数据,表明出现了突然的大幅增长现象。因此,选择D是正确的。

🔧 ToolLearning 样本示例

👀 👀ToolLearning样本的数据格式与OpenAI的Function Calling兼容。

详细信息请参阅tool_learning_info.md

🚀 如何评估

如果您需要测试自己的 Hugging Face 格式模型,整体步骤如下:

  1. 编写该模型的加载函数。
  2. 编写该模型的上下文构建函数。
  3. 在配置文件中注册该模型。
  4. 运行测试脚本。 如果模型在加载后无需任何特殊处理,且输入也不需要转换为特定格式(例如 chatml 格式或其他人机交互格式),您可以直接跳到第 4 步开始测试。

1. 编写加载函数

如果模型在加载后需要额外处理(例如调整分词器),您需要继承 src.context_builder.context_builder_family.py 中的 ModelAndTokenizerLoader 类,并重写相应的 load_modelload_tokenizer 函数。可以参考以下示例:

class QwenModelAndTokenizerLoader(ModelAndTokenizerLoader):
    def __init__(self):
        super().__init__()
        pass
    
    @override
    def load_model(self, model_path: str):
    # 方法实现
        pass
    
    @override
    def load_tokenizer(self, model_path: str):
    # 方法实现
        pass

2. 编写模型的上下文构建函数

如果输入需要转换为特定格式(例如 chatml 格式或其他人机交互格式),您需要继承 src.context_builder.context_builder_family 中的 ContextBuilder 类,并重写 make_context 函数。该函数用于将输入转换为所需的相应格式。示例如下:

class QwenChatContextBuilder(ContextBuilder):
    def __init__(self):
        super().__init__()
        
    @override
    def make_context(self, model, tokenizer, query: str, system: str = "hello!"):
    # 方法实现
        pass

3. 在配置文件中注册模型

前往 conf 目录下的 model_conf.json 文件,注册对应的模型名称以及将用于该模型的加载器和上下文构建器。只需填写在第一步和第二步中定义的加载器和上下文构建器的类名即可。示例如下:

{
  "Qwen-Chat": {
  "loader": "QwenModelAndTokenizerLoader",
  "context_builder": "QwenChatContextBuilder"
  }
}

4. 执行测试脚本

运行以下代码以启动测试:

python src/run_eval.py \
--model_path 模型路径 \
--model_name 配置文件中的模型名称 \
--model_conf_path 模型配置文件路径 \
--eval_dataset_list all \
--eval_dataset_fp_conf_path 数据集配置文件路径 \
--eval_dataset_type test \
--data_path 下载的 DevOps 评估数据路径 \
--k_shot 0

👀 👀 具体评估流程如下 📖 评估教程


🧭 待办事项

  • 添加 AIOps 示例。
  • 添加 AIOps 场景 时间序列预测
  • 添加 工具学习 示例。
  • 增加样本数量。
  • 添加难度等级为困难的样本。
  • 添加英文版样本。


🏁 许可证

本项目采用 Apache License (Version 2.0) 许可证。

😃 引用

如果您使用我们的数据集,请引用我们的论文。

即将发布...

🗂 其他信息

📱 联系我们

图片

✨ 星标历史

星标历史图表

🤝 友情链接

  • Codefuse-ChatBot
    • Codefuse-ChatBot 是一款开源的 AI 智能助手,旨在通过对话式访问工具、知识和平台集成来支持软件开发生命周期。
  • Awesome AIGC 教程
    • Awesome AIGC 教程 收录了涵盖大型语言模型、AI 绘画及相关领域的精选教程和资源。

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

142.7k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|2天前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|3天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

75k|★★★☆☆|今天
语言模型图像开发框架