codefuse-devops-eval

652 47 简单 1 次阅读 4天前NOASSERTION语言模型其他

AI 解读由 AI 自动生成，仅供参考

codefuse-devops-eval 是专为运维开发（DevOps）与智能运维（AIOps）领域打造的大模型评估基准。它旨在解决当前通用大模型在垂直行业应用中缺乏专业、量化评估标准的问题，帮助开发者精准追踪模型进步并分析其优势与短板。

该工具主要面向大模型研究人员、算法工程师以及致力于提升运维效率的技术团队。其核心亮点在于构建了工业级的评测体系，包含总计 7486 道选择题，覆盖 8 大通用类别。特别是在专业性极强的子领域，它提供了 2840 个 AIOps 样本，涵盖日志解析、时序异常检测、故障根因分析等关键场景；同时收录了 1509 个工具学习（ToolLearning）样本，涉及 59 个领域的 239 种工具场景。通过提供零样本及少样本的准确率排行榜，codefuse-devops-eval 让模型在复杂运维任务中的表现一目了然，是推动大模型在运维领域落地的重要参考标尺。

使用场景

某大型金融科技公司正在自研一款面向运维团队的“智能故障诊断助手”，旨在利用大模型自动分析系统日志并定位根因。

没有 codefuse-devops-eval 时

评估标准缺失：团队只能使用通用的代码或问答数据集测试模型，无法准确衡量其在“日志解析”或“时间序列异常检测”等垂直领域的真实能力。
盲区难以发现：模型可能在通用对话中表现流畅，但在具体的“根因分析”场景中频繁出错，团队缺乏细粒度的指标来定位这些专业短板。
选型决策盲目：在对比不同基座模型（如 Qwen 与 Baichuan）时，缺乏统一的 DevOps 行业基准，导致技术选型依赖主观经验而非客观数据。
工具集成困难：对于模型是否能正确调用运维工具（ToolLearning），缺乏覆盖 59 个领域、239 种工具场景的测试集，上线风险极高。

使用 codefuse-devops-eval 后

精准能力画像：利用其包含的 2840 个 AIOps 样本，团队能精确量化模型在日志处理和故障预测上的准确率，快速建立专业能力基线。
短板定向优化：通过细分维度的评测报告，迅速发现模型在“时间序列分类”任务上的不足，从而针对性地补充训练数据或调整提示词。
科学模型选型：参考官方 Leaderboard 中各模型在 Deploy、Monitor 等 8 大环节的零样本/少样本得分，以数据为依据选出了最适合的基座模型。
工具调用验证：借助 1509 个 ToolLearning 测试题，全面验证了模型对各类运维工具的调用逻辑，确保智能助手能安全、准确地执行操作指令。

codefuse-devops-eval 将模糊的模型直觉转化为可量化的工业级指标，让运维大模型的落地从“盲目试错”走向“精准导航”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具主要是一个评估数据集和评测脚本集合，用于评估大模型在 DevOps、AIOps 和 ToolLearning 领域的表现。README 中未明确列出具体的运行环境配置（如操作系统、GPU、内存、Python 版本等）。用户可通过 pandas 读取本地 CSV 文件，或使用 Hugging Face datasets / ModelScope 库直接加载数据集进行评测。

python未说明

pandas

datasets

快速开始

🤗 Hugging Face • ⏬ 数据 • 📖 教程
 中文 | 英文

DevOps-Eval 是一套专为 DevOps 领域的基础模型设计的全面评估工具集。我们希望 DevOps-Eval 能够帮助开发者，尤其是 DevOps 领域的从业者，跟踪其模型的进展，并分析其重要的优势与不足之处。

📚 本仓库包含与 DevOps 相关的问题和练习，涵盖 AIOps、ToolLearning 等领域；

💥️ 目前共有 7486 道多选题，覆盖 8 个不同的通用类别，如下所示下方。

🔥 AIOps 子类别中总计有 2840 个样本，涵盖了 日志解析、时间序列异常检测、时间序列分类、时间序列预测以及 根因分析等场景。

🔧 ToolLearning 子类别中总计有 1509 个样本，覆盖了 59 个领域的 239 种工具场景。

🔔 新闻

[2023.12.27] 增加 1509 个 ToolLearning 样本，覆盖 59 个领域的 239 种工具类别；发布相关评估排行榜；
[2023.11.27] 增加 487 个运维场景样本和 640 个时间序列预测样本；更新排行榜；
[2023.10.30] 增加 AIOps 排行榜。
[2023.10.25] 增加 AIOps 样本，包括日志解析、时间序列异常检测、时间序列分类和根因分析。
[2023.10.18] 更新初始排行榜...

🏆 排行榜

以下是我们在首次发布时评估的模型所得到的零样本和五样本准确率。值得注意的是，对于许多经过指令微调的模型而言，五样本性能优于零样本。

👀 DevOps

零样本

模型名称	规划	编码	构建	测试	发布	部署	运维	监控	平均
DevOpsPal-14B-Chat	60.61	78.35	84.86	84.65	87.26	82.75	69.89	79.17	78.23
DevOpsPal-14B-Base	54.55	77.82	83.49	85.96	86.32	81.96	71.18	82.41	78.23
Qwen-14B-Chat	60.61	75.4	85.32	84.21	89.62	82.75	69.57	80.56	77.18
Qwen-14B-Base	57.58	73.81	84.4	85.53	86.32	81.18	70.05	80.09	76.19
Baichuan2-13B-Base	60.61	69.42	79.82	79.82	82.55	81.18	70.37	83.8	73.73
Baichuan2-13B-Chat	60.61	68.43	77.98	80.7	81.6	83.53	67.63	84.72	72.9
DevOpsPal-7B-Chat	54.55	69.11	83.94	82.02	76.89	80	64.73	77.78	71.92
DevOpsPal-7B-Base	54.55	68.96	82.11	78.95	80.66	76.47	65.54	78.7	71.69
Qwen-7B-Base	53.03	68.13	78.9	75.44	80.19	80	65.06	80.09	71.09
Qwen-7B-Chat	57.58	66.01	80.28	79.82	76.89	77.65	62.64	79.17	69.75
Baichuan2-7B-Chat	54.55	63.66	77.98	76.32	71.7	73.33	59.42	79.63	66.97
Internlm-7B-Chat	60.61	62.15	77.06	76.32	66.98	74.51	60.39	78.24	66.27
Baichuan2-7B-Base	56.06	62.45	75.69	70.61	74.06	69.8	61.67	75.93	66.21
Internlm-7B-Base	54.55	58.29	79.36	78.95	77.83	70.59	65.86	75.93	65.99

五样本

模型名称	规划	编码	构建	测试	发布	部署	运维	监控	平均
DevOpsPal-14B-Chat	63.64	79.49	81.65	85.96	86.79	86.67	72.95	81.48	79.69
DevOpsPal-14B-Base	62.12	80.55	82.57	85.53	85.85	84.71	71.98	80.09	79.63
Qwen-14B-Chat	65.15	76	82.57	85.53	84.91	84.31	70.85	81.48	77.81
Qwen-14B-Base	66.67	76.15	84.4	85.53	86.32	80.39	72.46	80.56	77.56
Baichuan2-13B-Base	63.64	71.39	80.73	82.46	81.13	84.31	73.75	85.19	75.8
Qwen-7B-Base	75.76	72.52	78.9	81.14	83.96	81.18	70.37	81.94	75.36
Baichuan2-13B-Chat	62.12	69.95	76.61	84.21	83.49	79.61	71.98	80.56	74.12
DevOpsPal-7B-Chat	66.67	69.95	83.94	81.14	80.19	82.75	68.6	76.85	73.6利
DevOpsPal-7B-Base	69.7	69.49	82.11	81.14	82.55	82.35	67.15	79.17	73.35
Qwen-7B-Chat	65.15	66.54	82.57	81.58	81.6	81.18	65.38	81.02	71.6义
Baichuan2-7B-Base	60.61	67.22	76.61	75	77.83	78.43	67.31	79.63	70.我
Internlm-7B-Chat	60.61	63.06	79.82	80.26	67.92	75.69	60.06	77.深思熟虑的	69.2意
Baichuan2-7B-Chat	60.61	64.95	81.19	75.88	71.23	75.69	64.我	79.我	69.我
Internlm-7B-Base	62.12	65.25	77.我	80.我	74.我	63.我	75.我	6我	我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的......

🤗 Hugging Face • ⏬ 数据 • 📖 教程
 中文 | 英文

DevOps-Eval 是一套专为 DevOps 领域的基础模型设计的全面评估工具集。我们希望 DevOps-Eval 能够帮助开发者，尤其是 DevOps 领域的从业者，跟踪其模型的进步，并分析其重要的优势与不足之处。

📚 本仓库包含与 DevOps 相关的问题和练习，涵盖 AIOps、ToolLearning 等领域；

💥️ 目前共有 7486 道多选题，覆盖 8 个不同的通用类别，如下所示下方。

🔥 AIOps 子类别中总计有 2840 个样本，涵盖了 日志解析、时间序列异常检测、时间序列分类、时间序列预测以及 根因分析等场景。

🔧 ToolLearning 子类别中总计有 1509 个样本，覆盖了 59 个领域的 239 种工具场景。

🔔 新闻

[2023.12.27] 增加 1509 个 ToolLearning 样本，覆盖 59 个领域的 239 种工具类别；发布相关评估排行榜；
[2023.11.27] 增加 487 个运维场景样本和 640 个时间序列预测样本；更新排行榜；
[2023.10.30] 增加 AIOps 排行榜。
[2023.10.25] 增加 AIOps 样本，包括日志解析、时间序列异常检测、时间序列分类和根因分析。
[2023.10.18] 更新初始排行榜...

📜 目录

🏆 排行榜
⏬ 数据
🚀 如何评估
🧭 待办事项
🏁 许可证
😃 引用
🗂 杂项

🏆 排行榜

以下是我们在首次发布时评估的模型所取得的零样本和五样本准确率。值得注意的是，对于许多经过指令微调的模型而言，五样本性能优于零样本。

👀 DevOps

零样本

模型名称	规划	编码	构建	测试	发布	部署	运维	监控	平均
DevOpsPal-14B-Chat	60.61	78.35	84.86	84.65	87.26	82.75	69.89	79.17	78.23
DevOpsPal-14B-Base	54.55	77.82	83.49	85.96	86.32	81.96	71.18	82.41	78.23
Qwen-14B-Chat	60.61	75.4	85.32	84.21	89.62	82.75	69.57	80.56	77.18
Qwen-14B-Base	57.58	73.81	84.4	85.53	86.32	81.18	70.05	80.09	76.19
Baichuan2-13B-Base	60.61	69.42	79.82	79.82	82.55	81.18	70.37	83.8	73.73
Baichuan2-13B-Chat	60.61	68.43	77.98	80.7	81.6	83.53	67.63	84.72	72.9
DevOpsPal-7B-Chat	54.55	69.11	83.94	82.02	76.89	80	64.73	77.78	71.92
DevOpsPal-7B-Base	54.55	68.96	82.11	78.95	80.66	76.47	65.54	78.7	71.69
Qwen-7B-Base	53.03	68.13	78.9	75.44	80.19	80	65.06	80.09	71.09
Qwen-7B-Chat	57.58	66.01	80.28	79.82	76.89	77.65	62.64	79.17	69.75
Baichuan2-7B-Chat	54.55	63.66	77.98	76.32	71.7	73.33	59.42	79.63	66.97
Internlm-7B-Chat	60.61	62.15	77.06	76.32	66.98	74.51	60.39	78.24	66.27
Baichuan2-7B-Base	56.06	62.45	75.69	70.61	74.06	69.8	61.67	75.93	66.21
Internlm-7B-Base	54.55	58.29	79.36	78.95	77.83	70.59	65.86	75.93	65.99

五样本

模型名称	规划	编码	构建	测试	发布	部署	运维	监控	平均
DevOpsPal-14B-Chat	63.64	79.49	81.65	85.96	86.79	86.67	72.95	81.48	79.69
DevOpsPal-14B-Base	62.12	80.55	82.57	85.53	85.85	84.71	71.98	80.09	79.63
Qwen-14B-Chat	65.15	76	82.57	85.53	84.91	84.31	70.85	81.48	77.81
Qwen-14B-Base	66.67	76.15	84.4	85.53	86.32	80.39	72.46	80.56	77.56
Baichuan2-13B-Base	63.64	71.39	80.73	82.46	81.13	84.31	73.75	85.19	75.拉
Qwen-7B-Base	75.76	72.52	78.9	81.14	83.96	81.18	70.37	81.的金丝雀	75.36
Baichuan2-13B-Chat	62.12	69.95	76.61	84.21	83.49	79.6利	71.98	80.的金丝雀	74.12
DevOpsPal-7B-Chat	66.6义	69.95	83.94	81.14	80.的金丝雀	82.的金丝雀	68.的金丝雀	76.的金丝雀	73.6利
DevOpsPal-7B-Base	69.7	69.49	82.11	81.的金丝雀	82.的金丝雀	67.的金丝雀	79.的金丝雀	73.利
Qwen-7B-Chat	65.1义	66.5义	82.的金丝雀	81.的金丝雀	81.的金丝雀	65.的金丝雀	81.的金丝雀	71.利
Baichuan2-7B-Base	60.6义	67.的金丝雀	76.的金丝雀	75的金丝雀	78.的金丝雀	67.的金丝雀	79.的金丝雀	70.利
Internlm-7B-Chat	60.6义	63.的金丝雀	79.的金丝雀	80.的金丝雀	67.的金丝雀	75.利	60.的金丝雀	77.利
Baichuan2-7B-Chat	60.6义	64.的金丝雀	81.的金丝雀	75.利	76.利	64.的金丝雀	79.的金丝雀	70.利
Internlm-7B-Base	62.的金丝雀	65.利	77.利	80.利	74.利	63.的金丝雀	75.利	67.利	75.利

🔥 AIOps

零样本

模型名称	日志解析	根因分析	时间序列异常检测	时间序列分类	时间序列预测	平均
Qwen-14B-Base	66.29	58.8	25.33	43.5	62.5	52.25
DevOpsPal-14B—Base	63.14	53.6	23.33	43.5	64.06	50.49
Qwen-14B-Chat	64.57	51.6	22.67	36	62.5	48.94
DevOpsPal-14B—Chat	60	56	24	43	57.81	48.8
Qwen-7B-Base	50	39.2	22.67	54	43.75	41.48
DevOpsPal-7B—Chat	56.57	30.4	25.33	45	44.06	40.92
Baichuan2-13B-Chat	64	18	21.33	37.5	46.88	39.3
Qwen-7B-Chat	57.43	38.8	22.33	39.5	25.31	36.97
Internlm-7B—Chat	58.86	8.8	22.33	28.5	51.25	36.34
Baichuan2-7B-Chat	60.86	10	28	34.5	39.06	36.34
Baichuan2-7B-Base	53.43	12.8	27.67	36.5	40.31	35.49
Baichuan2-13B-Base	54	12.4	23	34.5	42.81	34.86
DevOpsPal-7B—Base	46.57	20.8	25	34	38.75	33.94
Internlm-7B—Base	48.57	18.8	23.33	37.5	33.75	33.1

单样本

模型名称	日志解析	根因分析	时间序列异常检测	时间序列分类	时间序列预测	平均
DevOpsPal-14B—Chat	66.29	80.8	23.33	44.5	56.25	54.44
DevOpsPal-14B—Base	60	74	25.33	43.5	52.5	51.13
Qwen-14B-Base	64.29	74.4	28	48.5	40.31	50.77
Qwen-7B-Base	56	60.8	27.67	44	57.19	49.44
Qwen-14B-Chat	49.71	65.6	28.67	48	42.19	46.13
Baichuan2-13B-Base	56	43.2	24.33	41	46.88	42.89
Baichuan2-7B-Chat	58.57	31.6	27	31.5	51.88	41.83
DevOpsPal-7B—Base	52.86	44.4	28	44.5	36.25	41.2
Baichuan2-7B-Base	48.29	40.4	27	42	40.94	39.86
Qwen-7B-Chat	54.57	52	29.67	26.5	27.19	38.73
Baichuan2-13B-Chat	57.43	44.4	25	25.5	30.63	37.75
DevOpsPal-7B—Chat	56.57	27.2	25.33	41.5	33.44	37.46
Internlm-7B—Chat	62.57	12.8	22.33	21	50.31	36.69
Internlm-7B—Base	48	33.2	29	35	31.56	35.85

🔧 工具学习

FuncCall-Filler	数据集名称	fccr	1-fcffr	1-fcfnr	1-fcfnir	aar
Qwen-14b-chat	luban	61	100	97.68	63.32	100
Qwen-7b-chat	luban	50.58	100	98.07	52.51	100
Baichuan-7b-chat	luban	60.23	100	97.3	62.93	99.61
Internlm-chat-7b	luban	47.88	100	96.14	51.74	99.61
Qwen-14b-chat	fc_data	98.37	99.73	99.86	98.78	100
Qwen-7b-chat	fc_data	99.46	99.86	100	99.59	100
Baichuan-7b-chat	fc_data	97.96	99.32	100	98.64	100
Internlm-chat-7b	fc_data	94.29	95.78	100	98.5	100
CodeLLaMa-7b	fc_data	98.78	99.73	100	99.05	100
CodeLLaMa-7b-16	fc_data	98.1	99.87	99.73	98.5	100
CodeFuse-7b-4k	fc_data	98.91	99.87	99.87	99.18	100

⏬ 数据

下载

方法1：下载zip文件（你也可以直接用浏览器打开以下链接）：

wget https://huggingface.co/datasets/codefuse-admin/devopseval-exam/resolve/main/devopseval-exam.zip

然后解压，你可以用pandas加载数据：

import os
import pandas as pd

File_Dir="devopseval-exam"
test_df=pd.read_csv(os.path.join(File_Dir,"test","UnitTesting.csv"))

方法2：直接使用Hugging Face datasets加载数据集：

from datasets import load_dataset
dataset=load_dataset(r"DevOps-Eval/devopseval-exam",name="UnitTesting")

print(dataset['val'][0])
# {"id": 1, "question": "单元测试应该覆盖以下哪些方面？", "A": "正常路径", "B": "异常路径", "C": "边界值条件"，"D": 所有以上，"answer": "D", "explanation": ""}  ```

方法3：直接使用ModelScope datasets加载数据集：

from modelscope.msdatasets import MsDataset
MsDataset.clone_meta(dataset_work_dir='./xxx', dataset_id='codefuse-ai/devopseval-exam')

👀 注意事项

为了方便使用，我们整理了55个子类别的类别名称处理规则以及对应的英文和中文名称。详细信息请参阅category_mapping.json。格式如下：

{
  "UnitTesting.csv": [
    "unit testing",
    "单元测试",
    {"dev": 5, "test": 32}
    "TEST"
  ],
  ...
  "file_name":[
  "英文名称",
  "中文名称",
  "样本数量",
  "大类标签(PLAN,CODE,BUILD,TEST,RELEASE,DEPOLY,OPERATE,MONITOR，从8个选项中选择1个)"
  ]
}

每个子类别包含两个划分：dev和test。每个子类别的dev集合包含五个示例，并附有解释，用于少样本评估。而test集合则用于模型评估。test划分上的标签也已公开。

以下是来自“版本控制”的一个dev示例：

id: 4
question: 如何找到Git特定提交中已更改的文件列表？
A: 使用命令 `git diff --name-only SHA`
B: 使用命令 `git log --name-only SHA`
C: 使用命令 `git commit --name-only SHA`
D: 使用命令 `git clone --name-only SHA`
answer: A
explanation: 
分析原因：
git diff --name-only SHA命令会显示与SHA参数对应的提交中已修改的文件列表。参数--name-only让命令只输出文件名，而忽略其他信息。其它选项中的命令并不能实现此功能。

🔥 AIOps 样本示例

👀 👀 以日志解析和时间序列异常检测为例，以下是AIOps样本的简要展示：

日志解析

id: 0
question:
这里有一些运行日志
 0 04:21:15,429 WARN Cannot open channel to 2 at election address /10.10.34.12:3888
 1 19:18:56,377 WARN ******* GOODBYE /10.10.34.11:52703 ********
 2 19:13:46,128 WARN ******* GOODBYE /10.10.34.11:52308 ********
 3 19:16:26,268 WARN ******* GOODBYE /10.10.34.11:52502 ********
 4 09:11:16,012 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
 5 16:37:13,837 WARN Cannot open channel to 2 at election address /10.10.34.12:3888
 6 09:09:16,008 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
 7 15:27:03,681 WARN Cannot open channel to 3 at election address /10.10.34.13:3888
日志的前三个部分分别是索引、时间戳和日志级别。不考虑这三部分，假设日志中的变量用'<*>'表示，各标记之间用空格分隔。那么上述日志的具体模板是什么？
A: Notification time out: <*> 和 Connection broken for id <*>, my id = <*>, error =
B: Send worker leaving thread 和 Connection broken for id <*>, my id = <*>, error =
C: Received connection request /<*>:<*> 和 Interrupting SendWorker
D: Cannot open channel to <*> at election address /<*>:<*> 和 ******* GOODBYE /<*>:<*> ********
answer: D
explanation: 日志中包含了固定的模板片段“Cannot open channel to <> at election address /<>:</>”和“****** GOODBYE /<>:<> ********”，这两者都出现在选项D中。而其他选项中的模板片段与日志内容不符。因此，选项D最符合日志模板。

时间序列异常检测

id: 0
question:
分析以下时间序列
[50,62,74,84,92,97,99,98,94,87,77,65,265,40,28,17,8,3,0,0,4,10,20,31,43,56,68,79,89,95,99,99,99,96,91,82,71,59,46,34,22,12,5,1,0,2,7,15,25,37,49]
请找出明显异常点的索引。异常点通常是指显著偏离数据整体趋势的数据点。
A: 46
B: 0
C: 37
D: 12
answer: D
explanation: 经过分析，给定时间序列中12点处的数值265明显大于周围的数据，表明出现了突然的大幅增长现象。因此，选择D是正确的。

🔧 ToolLearning 样本示例

👀 👀ToolLearning样本的数据格式与OpenAI的Function Calling兼容。

详细信息请参阅tool_learning_info.md。

🚀 如何评估

如果您需要测试自己的 Hugging Face 格式模型，整体步骤如下：

编写该模型的加载函数。
编写该模型的上下文构建函数。
在配置文件中注册该模型。
运行测试脚本。如果模型在加载后无需任何特殊处理，且输入也不需要转换为特定格式（例如 chatml 格式或其他人机交互格式），您可以直接跳到第 4 步开始测试。

1. 编写加载函数

如果模型在加载后需要额外处理（例如调整分词器），您需要继承 src.context_builder.context_builder_family.py 中的 ModelAndTokenizerLoader 类，并重写相应的 load_model 和 load_tokenizer 函数。可以参考以下示例：

class QwenModelAndTokenizerLoader(ModelAndTokenizerLoader):
    def __init__(self):
        super().__init__()
        pass
    
    @override
    def load_model(self, model_path: str):
    # 方法实现
        pass
    
    @override
    def load_tokenizer(self, model_path: str):
    # 方法实现
        pass

2. 编写模型的上下文构建函数

如果输入需要转换为特定格式（例如 chatml 格式或其他人机交互格式），您需要继承 src.context_builder.context_builder_family 中的 ContextBuilder 类，并重写 make_context 函数。该函数用于将输入转换为所需的相应格式。示例如下：

class QwenChatContextBuilder(ContextBuilder):
    def __init__(self):
        super().__init__()
        
    @override
    def make_context(self, model, tokenizer, query: str, system: str = "hello！"):
    # 方法实现
        pass

3. 在配置文件中注册模型

前往 conf 目录下的 model_conf.json 文件，注册对应的模型名称以及将用于该模型的加载器和上下文构建器。只需填写在第一步和第二步中定义的加载器和上下文构建器的类名即可。示例如下：

{
  "Qwen-Chat": {
  "loader": "QwenModelAndTokenizerLoader",
  "context_builder": "QwenChatContextBuilder"
  }
}

4. 执行测试脚本

运行以下代码以启动测试：

python src/run_eval.py \
--model_path 模型路径 \
--model_name 配置文件中的模型名称 \
--model_conf_path 模型配置文件路径 \
--eval_dataset_list all \
--eval_dataset_fp_conf_path 数据集配置文件路径 \
--eval_dataset_type test \
--data_path 下载的 DevOps 评估数据路径 \
--k_shot 0

👀 👀 具体评估流程如下 📖 评估教程

🧭 待办事项

添加 AIOps 示例。
添加 AIOps 场景 时间序列预测。
添加 工具学习 示例。
增加样本数量。
添加难度等级为困难的样本。
添加英文版样本。

🏁 许可证

本项目采用 Apache License (Version 2.0) 许可证。

😃 引用

如果您使用我们的数据集，请引用我们的论文。

即将发布...

🗂 其他信息

📱 联系我们

✨ 星标历史

🤝 友情链接

Codefuse-ChatBot
- Codefuse-ChatBot 是一款开源的 AI 智能助手，旨在通过对话式访问工具、知识和平台集成来支持软件开发生命周期。
Awesome AIGC 教程
- Awesome AIGC 教程收录了涵盖大型语言模型、AI 绘画及相关领域的精选教程和资源。

CodeFuse-DevOps-Eval 快速上手指南

CodeFuse-DevOps-Eval 是专为 DevOps 领域基础模型设计的综合评估套件，涵盖 AIOps（日志解析、时序异常检测等）和 ToolLearning（工具学习）等场景。本指南将帮助您快速下载数据并加载数据集进行评估。

环境准备

系统要求：Linux / macOS / Windows
前置依赖：
- Python >= 3.8
- pandas (用于处理 CSV 数据)
- datasets (Hugging Face 库，可选)
- modelscope (魔搭社区库，可选，推荐国内用户使用)

安装基础依赖：

pip install pandas

若使用 Hugging Face 加载数据：

pip install datasets

若使用 ModelScope 加载数据（国内推荐）：

pip install modelscope

安装与数据获取

本项目主要提供评估数据集，无需安装复杂的软件包，只需下载数据文件或通过代码库直接加载。以下提供三种获取方式：

方法一：直接下载数据包（通用）

通过 wget 下载 zip 压缩包并解压：

wget https://huggingface.co/datasets/codefuse-admin/devopseval-exam/resolve/main/devopseval-exam.zip
unzip devopseval-exam.zip

方法二：使用 Hugging Face Datasets 加载

from datasets import load_dataset

# 加载特定子集，例如 "UnitTesting"
dataset = load_dataset("codefuse-admin/devopseval-exam", name="UnitTesting")

# 查看验证集第一条数据
print(dataset['val'][0])

方法三：使用 ModelScope 加载（国内加速推荐）

对于国内开发者，推荐使用阿里魔搭社区（ModelScope）进行加速加载：

from modelscope.msdatasets import MsDataset

# 克隆数据集元数据到本地目录
MsDataset.clone_meta(dataset_work_dir='./devopseval-data', dataset_id='codefuse-ai/devopseval-exam')

基本使用

1. 读取本地 CSV 数据

如果您选择了方法一下载了 zip 包，可以使用 pandas 直接读取测试集或开发集数据：

import os
import pandas as pd

# 设置数据目录
File_Dir = "devopseval-exam"

# 读取单元测试子集的测试数据
test_df = pd.read_csv(os.path.join(File_Dir, "test", "UnitTesting.csv"))

# 预览前 5 行
print(test_df.head())

2. 理解数据结构

每个子类别（如 UnitTesting）包含 dev（开发集，含 5 个带解释的示例，用于 Few-shot）和 test（测试集，用于模型评估）两个部分。

数据字段说明：

id: 题目编号
question: 问题内容
A, B, C, D: 选项
answer: 正确答案
explanation: 答案解析（主要在 dev 集中提供）

Dev 集示例内容：

id: 4
question: 如何找到 Git 特定提交中已更改的文件列表？
A: 使用命令 `git diff --name-only SHA`
B: 使用命令 `git log --name-only SHA`
C: 使用命令 `git commit --name-only SHA`
D: 使用命令 `git clone --name-only SHA`
answer: A
explanation: 
分析原因：
git diff --name-only SHA 命令会显示与 SHA 参数对应的提交中已修改的文件列表...

3. 查看类别映射

项目提供了详细的类别映射文件 category_mapping.json，包含 55 个子类别的中英文名称及所属的大类标签（PLAN, CODE, BUILD, TEST, RELEASE, DEPLOY, OPERATE, MONITOR）。在构建评估脚本时，可参考此文件对结果进行分类统计。

常见问题

Hugging Face 上的模型或数据链接失效（404）了怎么办？

项目是否支持多种开源模型的 Prompt 格式？

数据集中存在错误（如“机器学习”类别的数据），是否有清洗计划？

未来有计划增加对其他模型（如 deepseek-coder 33B）的比较支持吗？

fcdata-zh-luban 和 fcdata-zh-codefuse 两个评测集有什么区别？

toollearning 数据集是否可以提供下载？

fcdata-zh-luban 和 fcdata-zh-codefuse 这两个数据集在哪里获取？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|3天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75k|★★★☆☆|今天

语言模型图像开发框架