[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-codefuse-ai--codefuse-devops-eval":3,"tool-codefuse-ai--codefuse-devops-eval":64},[4,17,27,35,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":23,"last_commit_at":54,"category_tags":55,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[14,26,13,15,46],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74991,"2026-04-06T23:16:49",[15,26,13,46],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":10,"env_os":92,"env_gpu":93,"env_ram":93,"env_deps":94,"category_tags":99,"github_topics":77,"view_count":10,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":100,"updated_at":101,"faqs":102,"releases":138},4718,"codefuse-ai\u002Fcodefuse-devops-eval","codefuse-devops-eval","Industrial-first evaluation benchmark for  LLMs in the DevOps\u002FAIOps domain.","codefuse-devops-eval 是专为运维开发（DevOps）与智能运维（AIOps）领域打造的大模型评估基准。它旨在解决当前通用大模型在垂直行业应用中缺乏专业、量化评估标准的问题，帮助开发者精准追踪模型进步并分析其优势与短板。\n\n该工具主要面向大模型研究人员、算法工程师以及致力于提升运维效率的技术团队。其核心亮点在于构建了工业级的评测体系，包含总计 7486 道选择题，覆盖 8 大通用类别。特别是在专业性极强的子领域，它提供了 2840 个 AIOps 样本，涵盖日志解析、时序异常检测、故障根因分析等关键场景；同时收录了 1509 个工具学习（ToolLearning）样本，涉及 59 个领域的 239 种工具场景。通过提供零样本及少样本的准确率排行榜，codefuse-devops-eval 让模型在复杂运维任务中的表现一目了然，是推动大模型在运维领域落地的重要参考标尺。","\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_17c3007279d9.png\" style=\"width: 100%;\" id=\"title-icon\">       \u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam\" target=\"_blank\">Hugging Face\u003C\u002Fa> • ⏬ \u003Ca href=\"#data\" target=\"_blank\">Data\u003C\u002Fa> • 📖 \u003Ca href=\"resources\u002Ftutorial.md\" target=\"_blank\">Tutorial\u003C\u002Fa>\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fblob\u002Fmain\u002FREADME_zh.md\">   中文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fblob\u002Fmain\u002FREADME.md\"> English \u003C\u002Fa>\n\u003C\u002Fp>\n\nDevOps-Eval is a comprehensive evaluation suite specifically designed for foundation models in the DevOps field. We hope DevOps-Eval could help developers, especially in the DevOps field, track the progress and analyze the important strengths\u002Fshortcomings of their models.\n\n\n📚 This repo contains questions and exercises related to DevOps, including the AIOps, ToolLearning;\n\n💥️ There are currently **7486** multiple-choice questions spanning 8 diverse general categories, as shown [below](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_8f19c1dca1fd.png).\n\n🔥 There are a total of **2840** samples in the AIOps subcategory, covering scenarios such as **log parsing**, **time series anomaly detection**, **time series classification**, **time series forecasting**, and **root cause analysis**.\n\n🔧 There are a total of **1509** samples in the ToolLearning subcategory, covering 239 tool scenes across 59 fields.\n\n\u003Cp align=\"center\"> \u003Ca href=\"resources\u002Fdevops_diagram_zh.jpg\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_8f19c1dca1fd.png\" style=\"width: 100%;\" id=\"data_info\">\u003C\u002Fa>\u003C\u002Fp>\n\n\n## 🔔 News\n* **[2023.12.27]** Add 1509 **ToolLearning** samples, covering 239 tool categories across 59 fields; Release the associated evaluation leaderboard;\n* **[2023.11.27]** Add 487 operation scene samples and 640 time series forecasting samples; Update the Leaderboard;\n* **[2023.10.30]** Add the AIOps Leaderboard.\n* **[2023.10.25]** Add the AIOps samples, including log parsing, time series anomaly detection, time series classification and root cause analysis.\n* **[2023.10.18]** Update the initial Leaderboard...\n\u003Cbr>\n\n## 📜 Table of Contents\n\n- [🏆 Leaderboard](#-leaderboard)\n  - [👀 DevOps](#-devops)\n  - [🔥 AIOps](#-aiops)\n  - [🔧 ToolLearning](#-toollearning)\n- [⏬ Data](#-data)\n  - [👀 Notes](#-notes)\n  - [🔥 AIOps Sample Example](#-aiops-sample-example)\n  - [🔧 ToolLearning Sample Example](#-toollearning-sample-example)\n- [🚀 How to Evaluate](#-how-to-evaluate)\n- [🧭 TODO](#-todo)\n- [🏁 Licenses](#-licenses)\n- [😃 Citation](#-citation)\n- [🗂 Miscellaneous](#-miscellaneous)\n  - [📱 Contact Us](#-contact-us)\n  - [✨ Star History](#-star-history)\n  - [🤝 Friendship Links](#-friendship-links)\n## 🏆 Leaderboard\nBelow are zero-shot and five-shot accuracies from the models that we evaluate in the initial release. We note that five-shot performance is better than zero-shot for many instruction-tuned models.\n### 👀 DevOps\n#### Zero Shot\n\n|      **ModelName**       | plan  | code  | build |  test  | release  | deploy | operate | monitor  | **AVG** |\n|:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:-----------:|\n| DevOpsPal-14B-Chat | 60.61 | 78.35 | 84.86 | 84.65 | 87.26 | 82.75 | 69.89 | 79.17 | 78.23 |\n| DevOpsPal-14B-Base | 54.55 | 77.82 | 83.49 | 85.96 | 86.32 | 81.96 | 71.18 | 82.41 | 78.23 |\n| Qwen-14B-Chat | 60.61 | 75.4 | 85.32 | 84.21 | 89.62 | 82.75 | 69.57 | 80.56 | 77.18 |\n| Qwen-14B-Base | 57.58 | 73.81 | 84.4 | 85.53 | 86.32 | 81.18 | 70.05 | 80.09 | 76.19 |\n| Baichuan2-13B-Base | 60.61 | 69.42 | 79.82 | 79.82 | 82.55 | 81.18 | 70.37 | 83.8 | 73.73 |\n| Baichuan2-13B-Chat | 60.61 | 68.43 | 77.98 | 80.7 | 81.6 | 83.53 | 67.63 | 84.72 | 72.9 |\n| DevOpsPal-7B-Chat | 54.55 | 69.11 | 83.94 | 82.02 | 76.89 | 80 | 64.73 | 77.78 | 71.92 |\n| DevOpsPal-7B-Base | 54.55 | 68.96 | 82.11 | 78.95 | 80.66 | 76.47 | 65.54 | 78.7 | 71.69 |\n| Qwen-7B-Base | 53.03 | 68.13 | 78.9 | 75.44 | 80.19 | 80 | 65.06 | 80.09 | 71.09 |\n| Qwen-7B-Chat | 57.58 | 66.01 | 80.28 | 79.82 | 76.89 | 77.65 | 62.64 | 79.17 | 69.75 |\n| Baichuan2-7B-Chat | 54.55 | 63.66 | 77.98 | 76.32 | 71.7 | 73.33 | 59.42 | 79.63 | 66.97 |\n| Internlm-7B-Chat | 60.61 | 62.15 | 77.06 | 76.32 | 66.98 | 74.51 | 60.39 | 78.24 | 66.27 |\n| Baichuan2-7B-Base | 56.06 | 62.45 | 75.69 | 70.61 | 74.06 | 69.8 | 61.67 | 75.93 | 66.21 |\n| Internlm-7B-Base | 54.55 | 58.29 | 79.36 | 78.95 | 77.83 | 70.59 | 65.86 | 75.93 | 65.99 |\n\n\n#### Five Shot\n\n| **ModelName**          | plan  | code  | build | test  | release | deploy | operate | monitor | **AVG** |\n|:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:---------:|\n| DevOpsPal-14B-Chat | 63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 72.95 | 81.48 | 79.69 |\n| DevOpsPal-14B-Base | 62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 71.98 | 80.09 | 79.63 |\n| Qwen-14B-Chat | 65.15 | 76 | 82.57 | 85.53 | 84.91 | 84.31 | 70.85 | 81.48 | 77.81 |\n| Qwen-14B-Base | 66.67 | 76.15 | 84.4 | 85.53 | 86.32 | 80.39 | 72.46 | 80.56 | 77.56 |\n| Baichuan2-13B-Base | 63.64 | 71.39 | 80.73 | 82.46 | 81.13 | 84.31 | 73.75 | 85.19 | 75.8 |\n| Qwen-7B-Base | 75.76 | 72.52 | 78.9 | 81.14 | 83.96 | 81.18 | 70.37 | 81.94 | 75.36 |\n| Baichuan2-13B-Chat | 62.12 | 69.95 | 76.61 | 84.21 | 83.49 | 79.61 | 71.98 | 80.56 | 74.12 |\n| DevOpsPal-7B-Chat | 66.67 | 69.95 | 83.94 | 81.14 | 80.19 | 82.75 | 68.6 | 76.85 | 73.61 |\n| DevOpsPal-7B-Base | 69.7 | 69.49 | 82.11 | 81.14 | 82.55 | 82.35 | 67.15 | 79.17 | 73.35 |\n| Qwen-7B-Chat | 65.15 | 66.54 | 82.57 | 81.58 | 81.6 | 81.18 | 65.38 | 81.02 | 71.69 |\n| Baichuan2-7B-Base | 60.61 | 67.22 | 76.61 | 75 | 77.83 | 78.43 | 67.31 | 79.63 | 70.8 |\n| Internlm-7B-Chat | 60.61 | 63.06 | 79.82 | 80.26 | 67.92 | 75.69 | 60.06 | 77.31 | 69.21 |\n| Baichuan2-7B-Chat | 60.61 | 64.95 | 81.19 | 75.88 | 71.23 | 75.69 | 64.9 | 79.17 | 69.05 |\n| Internlm-7B-Base | 62.12 | 65.25 | 77.52 | 80.7 | 74.06 | 78.82 | 63.45 | 75.46 | 67.17 |\n\n### 🔥 AIOps\n\n\u003Cdetails>\n\n#### Zero Shot\n|    **ModelName**    |  LogParsing  | RootCauseAnalysis  | TimeSeriesAnomalyDetection  |         TimeSeriesClassification          |    TimeSeriesForecasting    | **AVG** |\n|:-------------------:|:------------:|:------------------:|:---------------------------:|:-----------------------------------------:|:---------------------------:|:-------:|\n| Qwen-14B-Base | 66.29 | 58.8 | 25.33 | 43.5 | 62.5 | 52.25 |\n| DevOpsPal-14B—Base | 63.14 | 53.6 | 23.33 | 43.5 | 64.06 | 50.49 |\n| Qwen-14B-Chat | 64.57 | 51.6 | 22.67 | 36 | 62.5 | 48.94 |\n| DevOpsPal-14B—Chat | 60 | 56 | 24 | 43 | 57.81 | 48.8 |\n| Qwen-7B-Base | 50 | 39.2 | 22.67 | 54 | 43.75 | 41.48 |\n| DevOpsPal-7B—Chat | 56.57 | 30.4 | 25.33 | 45 | 44.06 | 40.92 |\n| Baichuan2-13B-Chat | 64 | 18 | 21.33 | 37.5 | 46.88 | 39.3 |\n| Qwen-7B-Chat | 57.43 | 38.8 | 22.33 | 39.5 | 25.31 | 36.97 |\n| Internlm-7B—Chat | 58.86 | 8.8 | 22.33 | 28.5 | 51.25 | 36.34 |\n| Baichuan2-7B-Chat | 60.86 | 10 | 28 | 34.5 | 39.06 | 36.34 |\n| Baichuan2-7B-Base | 53.43 | 12.8 | 27.67 | 36.5 | 40.31 | 35.49 |\n| Baichuan2-13B-Base | 54 | 12.4 | 23 | 34.5 | 42.81 | 34.86 |\n| DevOpsPal-7B—Base | 46.57 | 20.8 | 25 | 34 | 38.75 | 33.94 |\n| Internlm-7B—Base | 48.57 | 18.8 | 23.33 | 37.5 | 33.75 | 33.1 |\n\n#### One Shot\n|    **ModelName**    |  LogParsing  | RootCauseAnalysis  | TimeSeriesAnomalyDetection  |         TimeSeriesClassification          |    TimeSeriesForecasting    | **AVG** |\n|:-------------------:|:------------:|:------------------:|:---------------------------:|:-----------------------------------------:|:---------------------------:|:-------:|\n| DevOpsPal-14B—Chat | 66.29 | 80.8 | 23.33 | 44.5 | 56.25 | 54.44 |\n| DevOpsPal-14B—Base | 60 | 74 | 25.33 | 43.5 | 52.5 | 51.13 |\n| Qwen-14B-Base | 64.29 | 74.4 | 28 | 48.5 | 40.31 | 50.77 |\n| Qwen-7B-Base | 56 | 60.8 | 27.67 | 44 | 57.19 | 49.44 |\n| Qwen-14B-Chat | 49.71 | 65.6 | 28.67 | 48 | 42.19 | 46.13 |\n| Baichuan2-13B-Base | 56 | 43.2 | 24.33 | 41 | 46.88 | 42.89 |\n| Baichuan2-7B-Chat | 58.57 | 31.6 | 27 | 31.5 | 51.88 | 41.83 |\n| DevOpsPal-7B—Base | 52.86 | 44.4 | 28 | 44.5 | 36.25 | 41.2 |\n| Baichuan2-7B-Base | 48.29 | 40.4 | 27 | 42 | 40.94 | 39.86 |\n| Qwen-7B-Chat | 54.57 | 52 | 29.67 | 26.5 | 27.19 | 38.73 |\n| Baichuan2-13B-Chat | 57.43 | 44.4 | 25 | 25.5 | 30.63 | 37.75 |\n| DevOpsPal-7B—Chat | 56.57 | 27.2 | 25.33 | 41.5 | 33.44 | 37.46 |\n| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 50.31 | 36.69 |\n| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 31.56 | 35.85 |\n\n\u003C\u002Fdetails>\n\n\n### 🔧 ToolLearning\n\u003Cdetails>\n\n| **FuncCall-Filler** | dataset_name | fccr | 1-fcffr | 1-fcfnr | 1-fcfpr | 1-fcfnir | aar |\n|:-------------------:| :---: | :---: | :---: | :---: | :---: | :---: | :---: |\n|   Qwen-14b-chat     | luban | 61 | 100 | 97.68 | 63.32 | 100 | 69.46 |\n|     Qwen-7b-chat    | luban | 50.58 | 100 | 98.07 | 52.51 | 100 | 63.59 |\n|   Baichuan-7b-chat  | luban | 60.23 | 100 | 97.3 | 62.93 | 99.61 | 61.12 |\n|   Internlm-chat-7b  | luban | 47.88 | 100 | 96.14 | 51.74 | 99.61 | 61.85 |\n|    Qwen-14b-chat    | fc_data | 98.37 | 99.73 | 99.86 | 98.78 | 100 | 81.58 |\n|    Qwen-7b-chat     | fc_data | 99.46 | 99.86 | 100 | 99.59 | 100 | 79.25 |\n|  Baichuan-7b-chat   | fc_data | 97.96 | 99.32 | 100 | 98.64 | 100 | 89.53 |\n|  Internlm-chat-7b   | fc_data | 94.29 | 95.78 | 100 | 98.5 | 100 | 88.19 |\n|   CodeLLaMa-7b      | fc_data | 98.78 | 99.73 | 100 | 99.05 | 100 | 94.7 |\n|   CodeLLaMa-7b-16   | fc_data | 98.1 | 99.87 | 99.73 | 98.5 | 100 | 93.14 |\n|   CodeFuse-7b-4k    | fc_data | 98.91 | 99.87 | 99.87 | 99.18 | 100 | 89.5 |\n\n\n\u003C\u002Fdetails>\n\n\n## ⏬ Data\n#### Download\n* Method 1: Download the zip file (you can also simply open the following link with the browser):\n  ```\n  wget https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam\u002Fresolve\u002Fmain\u002Fdevopseval-exam.zip\n  ```\n  then unzip it and you may load the data with pandas:\n  ```\n  import os\n  import pandas as pd\n  \n  File_Dir=\"devopseval-exam\"\n  test_df=pd.read_csv(os.path.join(File_Dir,\"test\",\"UnitTesting.csv\"))\n  ```\n* Method 2: Directly load the dataset using [Hugging Face datasets](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam):\n  ```python\n  from datasets import load_dataset\n  dataset=load_dataset(r\"DevOps-Eval\u002Fdevopseval-exam\",name=\"UnitTesting\")\n  \n  print(dataset['val'][0])\n  # {\"id\": 1, \"question\": \"单元测试应该覆盖以下哪些方面？\", \"A\": \"正常路径\", \"B\": \"异常路径\", \"C\": \"边界值条件\"，\"D\": 所有以上，\"answer\": \"D\", \"explanation\": \"\"}  ```\n\n* Method 3: Directly load the datase t using [ModelScope datasets](https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fcodefuse-ai\u002Fdevopseval-exam\u002Ffiles):\n  ```python\n  from modelscope.msdatasets import MsDataset\n  MsDataset.clone_meta(dataset_work_dir='.\u002Fxxx', dataset_id='codefuse-ai\u002Fdevopseval-exam')\n  ```\n\n#### 👀 Notes\nTo facilitate usage, we have organized the category name handlers and English\u002FChinese names corresponding to 55 subcategories. Please refer to [category_mapping.json](resources\u002Fcategroy_mapping.json) for details. The format is:\n\n```\n{\n  \"UnitTesting.csv\": [\n    \"unit testing\",\n    \"单元测试\",\n    {\"dev\": 5, \"test\": 32}\n    \"TEST\"\n  ],\n  ...\n  \"file_name\":[\n  \"English Name\",\n  \"Chinese Name\",\n  \"Sample Number\",\n  \"Supercatagory Label(PLAN,CODE,BUILD,TEST,RELEASE,DEPOLY,OPERATE,MONITOR choose 1 out of 8)\"\n  ]\n}\n```\nEach subcategory consists of two splits: dev and test.  The dev set per subcategory consists of five exemplars with explanations for few-shot evaluation. And the test set is for model evaluation. Labels on the test split are also released.\n\nBelow is a dev example from 'version control':\n\n```\nid: 4\nquestion: 如何找到Git特定提交中已更改的文件列表？\nA: 使用命令 `git diff --name-only SHA`\nB: 使用命令 `git log --name-only SHA`\nC: 使用命令 `git commit --name-only SHA`\nD: 使用命令 `git clone --name-only SHA`\nanswer: A\nexplanation: \n分析原因：\ngit diff --name-only SHA命令会显示与SHA参数对应的提交中已修改的文件列表。参数--name-only让命令只输出文件名，而忽略其他信息。其它选项中的命令并不能实现此功能。\n```\n#### 🔥 AIOps Sample Example\n👀 👀 Taking **log parsing** and **time series anomaly detection** as examples, here is a brief showcase of the AIOps samples:\n\nLogParsing\n```\nid: 0\nquestion:\nHere are some running logs\n 0 04:21:15,429 WARN Cannot open channel to 2 at election address \u002F10.10.34.12:3888\n 1 19:18:56,377 WARN ******* GOODBYE \u002F10.10.34.11:52703 ********\n 2 19:13:46,128 WARN ******* GOODBYE \u002F10.10.34.11:52308 ********\n 3 19:16:26,268 WARN ******* GOODBYE \u002F10.10.34.11:52502 ********\n 4 09:11:16,012 WARN Cannot open channel to 3 at election address \u002F10.10.34.13:3888\n 5 16:37:13,837 WARN Cannot open channel to 2 at election address \u002F10.10.34.12:3888\n 6 09:09:16,008 WARN Cannot open channel to 3 at election address \u002F10.10.34.13:3888\n 7 15:27:03,681 WARN Cannot open channel to 3 at election address \u002F10.10.34.13:3888\nThe first three parts of the log are index, timestamp, and log level. Without considering these three parts, Here we assume that the variables in the logs are represented as '\u003C*>', separated by spaces between tokens. What is the specific log template for the above logs? \nA: Notification time out: \u003C*> 和 Connection broken for id \u003C*>, my id = \u003C*>, error =\nB: Send worker leaving thread 和 Connection broken for id \u003C*>, my id = \u003C*>, error =\nC: Received connection request \u002F\u003C*>:\u003C*> 和 Interrupting SendWorker\nD: Cannot open channel to \u003C*> at election address \u002F\u003C*>:\u003C*> 和 ******* GOODBYE \u002F\u003C*>:\u003C*> ********\nanswer: D\nexplanation: The log includes the fixed template fragments \"Cannot open channel to \u003C> at election address \u002F\u003C>:\u003C>\" and \"****** GOODBYE \u002F\u003C>:\u003C> ********,\" both of which appear in option D. Meanwhile, the template fragments in the other options do not match the content in the log. Therefore, option D is the most consistent with the log template.\n```\nTimeSeriesAnomalyDetection\n```\nid: 0\nquestion:\nAnalyze the following time series\n[50,62,74,84,92,97,99,98,94,87,77,65,265,40,28,17,8,3,0,0,4,10,20,31,43,56,68,79,89,95,99,99,96,91,82,71,59,46,34,22,12,5,1,0,2,7,15,25,37,49]\nPlease identify the indices of obvious outlier points. Outlier points generally refer to points that significantly deviate from the overall trend of the data.\nA: 46\nB: 0\nC: 37\nD: 12\nanswer: D\nexplanation: According to the analysis, the value 265 in the given time series at 12 o'clock is significantly larger than the surrounding data, indicating a sudden increase phenomenon. Therefore, selecting option D is correct.\n```\n#### 🔧 ToolLearning Sample Example\n\n👀 👀The data format of ToolLearning samples is compatible with OpenAI's Function Calling. \n\nPlease refer to [tool_learning_info.md](resources\u002Ftool_learning_info.md) for details.\n\u003Cbr>\n\n## 🚀 How to Evaluate\nIf you need to test your own huggingface-formatted model, the overall steps are as follows:\n1. Write the loader function for the model.\n2. Write the context_builder function for the model.\n3. Register the model in the configuration file.\n4. Run the testing script.\nIf the model does not require any special processing after loading, and the input does not need to be converted to a specific format (e.g. chatml format or other human-bot formats), you can directly proceed to step 4 to initiate the testing.\n\n#### 1. Write the loader function\nIf the model requires additional processing after loading (e.g. adjusting the tokenizer), you need to inherit the `ModelAndTokenizerLoader` class in `src.context_builder.context_builder_family.py` and override the corresponding `load_model` and `load_tokenizer` functions. You can refer to the following example:\n```python\nclass QwenModelAndTokenizerLoader(ModelAndTokenizerLoader):\n    def __init__(self):\n        super().__init__()\n        pass\n    \n    @override\n    def load_model(self, model_path: str):\n    # Implementation of the method\n        pass\n    \n    @override\n    def load_tokenizer(self, model_path: str):\n    # Implementation of the method\n        pass\n```\n\n#### 2. Write the context_builder function for the Model\nIf the input needs to be converted to a specific format (e.g. chatml format or other human-bot formats), you need to inherit the ContextBuilder class in `src.context_builder.context_builder_family` and override the make_context function. This function is used to convert the input to the corresponding required format. An example is shown below:\n```python\nclass QwenChatContextBuilder(ContextBuilder):\n    def __init__(self):\n        super().__init__()\n        \n    @override\n    def make_context(self, model, tokenizer, query: str, system: str = \"hello！\"):\n    # Implementation of the method\n        pass\n```\n\n#### 3. Register the model in the configuration file\nGo to the `model_conf.json` file in the conf directory and register the corresponding model name and the loader and context_builder that will be used for this model. Simply write the class names defined in the first and second steps for the loader and context_builder. Here is an example:\n```json\n{\n  \"Qwen-Chat\": {\n  \"loader\": \"QwenModelAndTokenizerLoader\",\n  \"context_builder\": \"QwenChatContextBuilder\"\n  }\n}\n```\n\n#### 4. Execute the testing script\nRun the following code to initiate the test:\n```Bash\npython src\u002Frun_eval.py \\\n--model_path path_to_model \\\n--model_name model_name_in_conf \\\n--model_conf_path path_to_model_conf \\\n--eval_dataset_list all \\\n--eval_dataset_fp_conf_path path_to_dataset_conf \\\n--eval_dataset_type test \\\n--data_path path_to_downloaded_devops_eval_data \\\n--k_shot 0\n```\n👀 👀 The specific evaluation process is as follows 📖 [**Evaluate Tutorial**](resources\u002Ftutorial.md)\n\n\u003Cbr>\n\n## 🧭 TODO\n- [x] add AIOps samples.\n- [x] add AIOps scenario **time series forecasting**.\n- [x] add **ToolLearning** samples.\n- [ ] increase in sample size.\n- [ ] add samples with the difficulty level set to hard.\n- [ ] add the English version of the samples.\n\u003Cbr>\n\u003Cbr>\n\n\n## 🏁 Licenses\nThis project is licensed under the [Apache License (Version 2.0)](LICENSE.md).\n\u003Cbr>\n\u003Cbr>\n\n## 😃 Citation\n\nPlease cite our paper if you use our dataset.\n\nComing Soon...\n\u003Cbr>\n\u003Cbr>\n\n## 🗂 Miscellaneous\n\n### 📱 Contact Us\n\u003Cdiv align=center>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_3fb71e39242d.png\" alt=\"图片\", width=\"320\">\n\u003C\u002Fdiv>\n\n### ✨ Star History\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_eae1a9824456.png)](https:\u002F\u002Fstar-history.com\u002F#codefuse-ai\u002Fcodefuse-devops-eval&Date)\n\n### 🤝 Friendship Links\n- [Codefuse-ChatBot](https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-chatbot)\n  - Codefuse-ChatBot is an open-source AI smart assistant designed to support the software development lifecycle with conversational access to tools, knowledge, and platform integration.\n- [Awesome AIGC Tutorials](https:\u002F\u002Fgithub.com\u002Fluban-agi\u002FAwesome-AIGC-Tutorials)\n  - Awesome AIGC Tutorials houses a curated collection of tutorials and resources spanning across Large Language Models, AI Painting, and related fields.\n\n","\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_17c3007279d9.png\" style=\"width: 100%;\" id=\"title-icon\">       \u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam\" target=\"_blank\">Hugging Face\u003C\u002Fa> • ⏬ \u003Ca href=\"#data\" target=\"_blank\">数据\u003C\u002Fa> • 📖 \u003Ca href=\"resources\u002Ftutorial.md\" target=\"_blank\">教程\u003C\u002Fa>\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fblob\u002Fmain\u002FREADME_zh.md\"> 中文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fblob\u002Fmain\u002FREADME.md\"> 英文 \u003C\u002Fa>\n\u003C\u002Fp>\n\nDevOps-Eval 是一套专为 DevOps 领域的基础模型设计的全面评估工具集。我们希望 DevOps-Eval 能够帮助开发者，尤其是 DevOps 领域的从业者，跟踪其模型的进展，并分析其重要的优势与不足之处。\n\n\n📚 本仓库包含与 DevOps 相关的问题和练习，涵盖 AIOps、ToolLearning 等领域；\n\n💥️ 目前共有 **7486** 道多选题，覆盖 8 个不同的通用类别，如下所示 [下方](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_8f19c1dca1fd.png)。\n\n🔥 AIOps 子类别中总计有 **2840** 个样本，涵盖了 **日志解析**、**时间序列异常检测**、**时间序列分类**、**时间序列预测**以及 **根因分析**等场景。\n\n🔧 ToolLearning 子类别中总计有 **1509** 个样本，覆盖了 59 个领域的 239 种工具场景。\n\n\u003Cp align=\"center\"> \u003Ca href=\"resources\u002Fdevops_diagram_zh.jpg\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_8f19c1dca1fd.png\" style=\"width: 100%;\" id=\"data_info\">\u003C\u002Fa>\u003C\u002Fp>\n\n\n## 🔔 新闻\n* **[2023.12.27]** 增加 1509 个 **ToolLearning** 样本，覆盖 59 个领域的 239 种工具类别；发布相关评估排行榜；\n* **[2023.11.27]** 增加 487 个运维场景样本和 640 个时间序列预测样本；更新排行榜；\n* **[2023.10.30]** 增加 AIOps 排行榜。\n* **[2023.10.25]** 增加 AIOps 样本，包括日志解析、时间序列异常检测、时间序列分类和根因分析。\n* **[2023.10.18]** 更新初始排行榜...\n\u003Cbr>\n\n## 📜 目录\n\n- [🏆 排行榜](#-leaderboard)\n  - [👀 DevOps](#-devops)\n  - [🔥 AIOps](#-aiops)\n  - [🔧 ToolLearning](#-toollearning)\n- [⏬ 数据](#-data)\n  - [👀 注释](#-notes)\n  - [🔥 AIOps 样本示例](#-aiops-sample-example)\n  - [🔧 ToolLearning 样本示例](#-toollearning-sample-example)\n- [🚀 如何评估](#-how-to-evaluate)\n- [🧭 待办事项](#-todo)\n- [🏁 许可证](#-licenses)\n- [😃 引用](#-citation)\n- [🗂 杂项](#-miscellaneous)\n  - [📱 联系我们](#-contact-us)\n  - [✨ 星标历史](#-star-history)\n  - [🤝 友情链接](#-friendship-links)\n## 🏆 排行榜\n以下是我们在首次发布时评估的模型所得到的零样本和五样本准确率。值得注意的是，对于许多经过指令微调的模型而言，五样本性能优于零样本。\n### 👀 DevOps\n#### 零样本\n\n|      **模型名称**       | 规划  | 编码  | 构建 | 测试  | 发布  | 部署 | 运维 | 监控  | **平均** |\n|:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:-----------:|\n| DevOpsPal-14B-Chat | 60.61 | 78.35 | 84.86 | 84.65 | 87.26 | 82.75 | 69.89 | 79.17 | 78.23 |\n| DevOpsPal-14B-Base | 54.55 | 77.82 | 83.49 | 85.96 | 86.32 | 81.96 | 71.18 | 82.41 | 78.23 |\n| Qwen-14B-Chat | 60.61 | 75.4 | 85.32 | 84.21 | 89.62 | 82.75 | 69.57 | 80.56 | 77.18 |\n| Qwen-14B-Base | 57.58 | 73.81 | 84.4 | 85.53 | 86.32 | 81.18 | 70.05 | 80.09 | 76.19 |\n| Baichuan2-13B-Base | 60.61 | 69.42 | 79.82 | 79.82 | 82.55 | 81.18 | 70.37 | 83.8 | 73.73 |\n| Baichuan2-13B-Chat | 60.61 | 68.43 | 77.98 | 80.7 | 81.6 | 83.53 | 67.63 | 84.72 | 72.9 |\n| DevOpsPal-7B-Chat | 54.55 | 69.11 | 83.94 | 82.02 | 76.89 | 80 | 64.73 | 77.78 | 71.92 |\n| DevOpsPal-7B-Base | 54.55 | 68.96 | 82.11 | 78.95 | 80.66 | 76.47 | 65.54 | 78.7 | 71.69 |\n| Qwen-7B-Base | 53.03 | 68.13 | 78.9 | 75.44 | 80.19 | 80 | 65.06 | 80.09 | 71.09 |\n| Qwen-7B-Chat | 57.58 | 66.01 | 80.28 | 79.82 | 76.89 | 77.65 | 62.64 | 79.17 | 69.75 |\n| Baichuan2-7B-Chat | 54.55 | 63.66 | 77.98 | 76.32 | 71.7 | 73.33 | 59.42 | 79.63 | 66.97 |\n| Internlm-7B-Chat | 60.61 | 62.15 | 77.06 | 76.32 | 66.98 | 74.51 | 60.39 | 78.24 | 66.27 |\n| Baichuan2-7B-Base | 56.06 | 62.45 | 75.69 | 70.61 | 74.06 | 69.8 | 61.67 | 75.93 | 66.21 |\n| Internlm-7B-Base | 54.55 | 58.29 | 79.36 | 78.95 | 77.83 | 70.59 | 65.86 | 75.93 | 65.99 |\n\n\n#### 五样本\n\n| **模型名称**          | 规划  | 编码  | 构建 | 测试  | 发布 | 部署 | 运维 | 监控 | **平均** |\n|:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:---------:|\n| DevOpsPal-14B-Chat | 63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 72.95 | 81.48 | 79.69 |\n| DevOpsPal-14B-Base | 62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 71.98 | 80.09 | 79.63 |\n| Qwen-14B-Chat | 65.15 | 76 | 82.57 | 85.53 | 84.91 | 84.31 | 70.85 | 81.48 | 77.81 |\n| Qwen-14B-Base | 66.67 | 76.15 | 84.4 | 85.53 | 86.32 | 80.39 | 72.46 | 80.56 | 77.56 |\n| Baichuan2-13B-Base | 63.64 | 71.39 | 80.73 | 82.46 | 81.13 | 84.31 | 73.75 | 85.19 | 75.8 |\n| Qwen-7B-Base | 75.76 | 72.52 | 78.9 | 81.14 | 83.96 | 81.18 | 70.37 | 81.94 | 75.36 |\n| Baichuan2-13B-Chat | 62.12 | 69.95 | 76.61 | 84.21 | 83.49 | 79.61 | 71.98 | 80.56 | 74.12 |\n| DevOpsPal-7B-Chat | 66.67 | 69.95 | 83.94 | 81.14 | 80.19 | 82.75 | 68.6 | 76.85 | 73.6利 |\n| DevOpsPal-7B-Base | 69.7 | 69.49 | 82.11 | 81.14 | 82.55 | 82.35 | 67.15 | 79.17 | 73.35 |\n| Qwen-7B-Chat | 65.15 | 66.54 | 82.57 | 81.58 | 81.6 | 81.18 | 65.38 | 81.02 | 71.6义 |\n| Baichuan2-7B-Base | 60.61 | 67.22 | 76.61 | 75 | 77.83 | 78.43 | 67.31 | 79.63 | 70.我 |\n| Internlm-7B-Chat | 60.61 | 63.06 | 79.82 | 80.26 | 67.92 | 75.69 | 60.06 | 77.深思熟虑的 | 69.2意 |\n| Baichuan2-7B-Chat | 60.61 | 64.95 | 81.19 | 75.88 | 71.23 | 75.69 | 64.我 | 79.我 | 69.我 |\n| Internlm-7B-Base | 62.12 | 65.25 | 77.我 | 80.我 | 74.我 | 63.我 | 75.我 | 6我 | 我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的我的......\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_17c3007279d9.png\" style=\"width: 100%;\" id=\"title-icon\">       \u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam\" target=\"_blank\">Hugging Face\u003C\u002Fa> • ⏬ \u003Ca href=\"#data\" target=\"_blank\">数据\u003C\u002Fa> • 📖 \u003Ca href=\"resources\u002Ftutorial.md\" target=\"_blank\">教程\u003C\u002Fa>\n  \u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fblob\u002Fmain\u002FREADME_zh.md\"> 中文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fblob\u002Fmain\u002FREADME.md\"> 英文 \u003C\u002Fa>\n\u003C\u002Fp>\n\nDevOps-Eval 是一套专为 DevOps 领域的基础模型设计的全面评估工具集。我们希望 DevOps-Eval 能够帮助开发者，尤其是 DevOps 领域的从业者，跟踪其模型的进步，并分析其重要的优势与不足之处。\n\n\n📚 本仓库包含与 DevOps 相关的问题和练习，涵盖 AIOps、ToolLearning 等领域；\n\n💥️ 目前共有 **7486** 道多选题，覆盖 8 个不同的通用类别，如下所示 [下方](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_8f19c1dca1fd.png)。\n\n🔥 AIOps 子类别中总计有 **2840** 个样本，涵盖了 **日志解析**、**时间序列异常检测**、**时间序列分类**、**时间序列预测**以及 **根因分析**等场景。\n\n🔧 ToolLearning 子类别中总计有 **1509** 个样本，覆盖了 59 个领域的 239 种工具场景。\n\n\u003Cp align=\"center\"> \u003Ca href=\"resources\u002Fdevops_diagram_zh.jpg\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_8f19c1dca1fd.png\" style=\"width: 100%;\" id=\"data_info\">\u003C\u002Fa>\u003C\u002Fp>\n\n\n## 🔔 新闻\n* **[2023.12.27]** 增加 1509 个 **ToolLearning** 样本，覆盖 59 个领域的 239 种工具类别；发布相关评估排行榜；\n* **[2023.11.27]** 增加 487 个运维场景样本和 640 个时间序列预测样本；更新排行榜；\n* **[2023.10.30]** 增加 AIOps 排行榜。\n* **[2023.10.25]** 增加 AIOps 样本，包括日志解析、时间序列异常检测、时间序列分类和根因分析。\n* **[2023.10.18]** 更新初始排行榜...\n\u003Cbr>\n\n## 📜 目录\n\n- [🏆 排行榜](#-leaderboard)\n  - [👀 DevOps](#-devops)\n  - [🔥 AIOps](#-aiops)\n  - [🔧 ToolLearning](#-toollearning)\n- [⏬ 数据](#-data)\n  - [👀 注释](#-notes)\n  - [🔥 AIOps 样本示例](#-aiops-sample-example)\n  - [🔧 ToolLearning 样本示例](#-toollearning-sample-example)\n- [🚀 如何评估](#-how-to-evaluate)\n- [🧭 待办事项](#-todo)\n- [🏁 许可证](#-licenses)\n- [😃 引用](#-citation)\n- [🗂 杂项](#-miscellaneous)\n  - [📱 联系我们](#-contact-us)\n  - [✨ 星标历史](#-star-history)\n  - [🤝 友情链接](#-friendship-links)\n## 🏆 排行榜\n以下是我们在首次发布时评估的模型所取得的零样本和五样本准确率。值得注意的是，对于许多经过指令微调的模型而言，五样本性能优于零样本。\n### 👀 DevOps\n#### 零样本\n\n|      **模型名称**       | 规划  | 编码  | 构建 | 测试  | 发布  | 部署 | 运维 | 监控  | **平均** |\n|:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:-----------:|\n| DevOpsPal-14B-Chat | 60.61 | 78.35 | 84.86 | 84.65 | 87.26 | 82.75 | 69.89 | 79.17 | 78.23 |\n| DevOpsPal-14B-Base | 54.55 | 77.82 | 83.49 | 85.96 | 86.32 | 81.96 | 71.18 | 82.41 | 78.23 |\n| Qwen-14B-Chat | 60.61 | 75.4 | 85.32 | 84.21 | 89.62 | 82.75 | 69.57 | 80.56 | 77.18 |\n| Qwen-14B-Base | 57.58 | 73.81 | 84.4 | 85.53 | 86.32 | 81.18 | 70.05 | 80.09 | 76.19 |\n| Baichuan2-13B-Base | 60.61 | 69.42 | 79.82 | 79.82 | 82.55 | 81.18 | 70.37 | 83.8 | 73.73 |\n| Baichuan2-13B-Chat | 60.61 | 68.43 | 77.98 | 80.7 | 81.6 | 83.53 | 67.63 | 84.72 | 72.9 |\n| DevOpsPal-7B-Chat | 54.55 | 69.11 | 83.94 | 82.02 | 76.89 | 80 | 64.73 | 77.78 | 71.92 |\n| DevOpsPal-7B-Base | 54.55 | 68.96 | 82.11 | 78.95 | 80.66 | 76.47 | 65.54 | 78.7 | 71.69 |\n| Qwen-7B-Base | 53.03 | 68.13 | 78.9 | 75.44 | 80.19 | 80 | 65.06 | 80.09 | 71.09 |\n| Qwen-7B-Chat | 57.58 | 66.01 | 80.28 | 79.82 | 76.89 | 77.65 | 62.64 | 79.17 | 69.75 |\n| Baichuan2-7B-Chat | 54.55 | 63.66 | 77.98 | 76.32 | 71.7 | 73.33 | 59.42 | 79.63 | 66.97 |\n| Internlm-7B-Chat | 60.61 | 62.15 | 77.06 | 76.32 | 66.98 | 74.51 | 60.39 | 78.24 | 66.27 |\n| Baichuan2-7B-Base | 56.06 | 62.45 | 75.69 | 70.61 | 74.06 | 69.8 | 61.67 | 75.93 | 66.21 |\n| Internlm-7B-Base | 54.55 | 58.29 | 79.36 | 78.95 | 77.83 | 70.59 | 65.86 | 75.93 | 65.99 |\n\n\n#### 五样本\n\n| **模型名称**          | 规划  | 编码  | 构建 | 测试  | 发布 | 部署 | 运维 | 监控 | **平均** |\n|:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:---------:|\n| DevOpsPal-14B-Chat | 63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 72.95 | 81.48 | 79.69 |\n| DevOpsPal-14B-Base | 62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 71.98 | 80.09 | 79.63 |\n| Qwen-14B-Chat | 65.15 | 76 | 82.57 | 85.53 | 84.91 | 84.31 | 70.85 | 81.48 | 77.81 |\n| Qwen-14B-Base | 66.67 | 76.15 | 84.4 | 85.53 | 86.32 | 80.39 | 72.46 | 80.56 | 77.56 |\n| Baichuan2-13B-Base | 63.64 | 71.39 | 80.73 | 82.46 | 81.13 | 84.31 | 73.75 | 85.19 | 75.拉 |\n| Qwen-7B-Base | 75.76 | 72.52 | 78.9 | 81.14 | 83.96 | 81.18 | 70.37 | 81.的金丝雀 | 75.36 |\n| Baichuan2-13B-Chat | 62.12 | 69.95 | 76.61 | 84.21 | 83.49 | 79.6利 | 71.98 | 80.的金丝雀 | 74.12 |\n| DevOpsPal-7B-Chat | 66.6义 | 69.95 | 83.94 | 81.14 | 80.的金丝雀 | 82.的金丝雀 | 68.的金丝雀 | 76.的金丝雀 | 73.6利 |\n| DevOpsPal-7B-Base | 69.7 | 69.49 | 82.11 | 81.的金丝雀 | 82.的金丝雀 | 67.的金丝雀 | 79.的金丝雀 | 73.利 |\n| Qwen-7B-Chat | 65.1义 | 66.5义 | 82.的金丝雀 | 81.的金丝雀 | 81.的金丝雀 | 65.的金丝雀 | 81.的金丝雀 | 71.利 |\n| Baichuan2-7B-Base | 60.6义 | 67.的金丝雀 | 76.的金丝雀 | 75的金丝雀 | 78.的金丝雀 | 67.的金丝雀 | 79.的金丝雀 | 70.利 |\n| Internlm-7B-Chat | 60.6义 | 63.的金丝雀 | 79.的金丝雀 | 80.的金丝雀 | 67.的金丝雀 | 75.利 | 60.的金丝雀 | 77.利 |\n| Baichuan2-7B-Chat | 60.6义 | 64.的金丝雀 | 81.的金丝雀 | 75.利 | 76.利 | 64.的金丝雀 | 79.的金丝雀 | 70.利 |\n| Internlm-7B-Base | 62.的金丝雀 | 65.利 | 77.利 | 80.利 | 74.利 | 63.的金丝雀 | 75.利 | 67.利 | 75.利 |\n\n### 🔥 AIOps\n\n\u003Cdetails>\n\n#### 零样本\n|    **模型名称**    |  日志解析  | 根因分析  | 时间序列异常检测  |         时间序列分类          |    时间序列预测    | **平均** |\n|:-------------------:|:------------:|:------------------:|:---------------------------:|:-----------------------------------------:|:---------------------------:|:-------:|\n| Qwen-14B-Base | 66.29 | 58.8 | 25.33 | 43.5 | 62.5 | 52.25 |\n| DevOpsPal-14B—Base | 63.14 | 53.6 | 23.33 | 43.5 | 64.06 | 50.49 |\n| Qwen-14B-Chat | 64.57 | 51.6 | 22.67 | 36 | 62.5 | 48.94 |\n| DevOpsPal-14B—Chat | 60 | 56 | 24 | 43 | 57.81 | 48.8 |\n| Qwen-7B-Base | 50 | 39.2 | 22.67 | 54 | 43.75 | 41.48 |\n| DevOpsPal-7B—Chat | 56.57 | 30.4 | 25.33 | 45 | 44.06 | 40.92 |\n| Baichuan2-13B-Chat | 64 | 18 | 21.33 | 37.5 | 46.88 | 39.3 |\n| Qwen-7B-Chat | 57.43 | 38.8 | 22.33 | 39.5 | 25.31 | 36.97 |\n| Internlm-7B—Chat | 58.86 | 8.8 | 22.33 | 28.5 | 51.25 | 36.34 |\n| Baichuan2-7B-Chat | 60.86 | 10 | 28 | 34.5 | 39.06 | 36.34 |\n| Baichuan2-7B-Base | 53.43 | 12.8 | 27.67 | 36.5 | 40.31 | 35.49 |\n| Baichuan2-13B-Base | 54 | 12.4 | 23 | 34.5 | 42.81 | 34.86 |\n| DevOpsPal-7B—Base | 46.57 | 20.8 | 25 | 34 | 38.75 | 33.94 |\n| Internlm-7B—Base | 48.57 | 18.8 | 23.33 | 37.5 | 33.75 | 33.1 |\n\n#### 单样本\n|    **模型名称**    |  日志解析  | 根因分析  | 时间序列异常检测  |         时间序列分类          |    时间序列预测    | **平均** |\n|:-------------------:|:------------:|:------------------:|:---------------------------:|:-----------------------------------------:|:---------------------------:|:-------:|\n| DevOpsPal-14B—Chat | 66.29 | 80.8 | 23.33 | 44.5 | 56.25 | 54.44 |\n| DevOpsPal-14B—Base | 60 | 74 | 25.33 | 43.5 | 52.5 | 51.13 |\n| Qwen-14B-Base | 64.29 | 74.4 | 28 | 48.5 | 40.31 | 50.77 |\n| Qwen-7B-Base | 56 | 60.8 | 27.67 | 44 | 57.19 | 49.44 |\n| Qwen-14B-Chat | 49.71 | 65.6 | 28.67 | 48 | 42.19 | 46.13 |\n| Baichuan2-13B-Base | 56 | 43.2 | 24.33 | 41 | 46.88 | 42.89 |\n| Baichuan2-7B-Chat | 58.57 | 31.6 | 27 | 31.5 | 51.88 | 41.83 |\n| DevOpsPal-7B—Base | 52.86 | 44.4 | 28 | 44.5 | 36.25 | 41.2 |\n| Baichuan2-7B-Base | 48.29 | 40.4 | 27 | 42 | 40.94 | 39.86 |\n| Qwen-7B-Chat | 54.57 | 52 | 29.67 | 26.5 | 27.19 | 38.73 |\n| Baichuan2-13B-Chat | 57.43 | 44.4 | 25 | 25.5 | 30.63 | 37.75 |\n| DevOpsPal-7B—Chat | 56.57 | 27.2 | 25.33 | 41.5 | 33.44 | 37.46 |\n| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 50.31 | 36.69 |\n| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 31.56 | 35.85 |\n\n\u003C\u002Fdetails>\n\n\n### 🔧 工具学习\n\u003Cdetails>\n\n| **FuncCall-Filler** | 数据集名称 | fccr | 1-fcffr | 1-fcfnr | 1-fcfnir | aar |\n|:-------------------:| :---: | :---: | :---: | :---: | :---: | :---: |\n|   Qwen-14b-chat     | luban | 61 | 100 | 97.68 | 63.32 | 100 | 69.46 |\n|     Qwen-7b-chat    | luban | 50.58 | 100 | 98.07 | 52.51 | 100 | 63.59 |\n|   Baichuan-7b-chat  | luban | 60.23 | 100 | 97.3 | 62.93 | 99.61 | 61.12 |\n|   Internlm-chat-7b  | luban | 47.88 | 100 | 96.14 | 51.74 | 99.61 | 61.85 |\n|    Qwen-14b-chat    | fc_data | 98.37 | 99.73 | 99.86 | 98.78 | 100 | 81.58 |\n|    Qwen-7b-chat     | fc_data | 99.46 | 99.86 | 100 | 99.59 | 100 | 79.25 |\n|  Baichuan-7b-chat   | fc_data | 97.96 | 99.32 | 100 | 98.64 | 100 | 89.53 |\n|  Internlm-chat-7b   | fc_data | 94.29 | 95.78 | 100 | 98.5 | 100 | 88.19 |\n|   CodeLLaMa-7b      | fc_data | 98.78 | 99.73 | 100 | 99.05 | 100 | 94.7 |\n|   CodeLLaMa-7b-16   | fc_data | 98.1 | 99.87 | 99.73 | 98.5 | 100 | 93.14 |\n|   CodeFuse-7b-4k    | fc_data | 98.91 | 99.87 | 99.87 | 99.18 | 100 | 89.5 |\n\n\n\u003C\u002Fdetails>\n\n## ⏬ 数据\n#### 下载\n* 方法1：下载zip文件（你也可以直接用浏览器打开以下链接）：\n  ```\n  wget https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam\u002Fresolve\u002Fmain\u002Fdevopseval-exam.zip\n  ```\n  然后解压，你可以用pandas加载数据：\n  ```\n  import os\n  import pandas as pd\n  \n  File_Dir=\"devopseval-exam\"\n  test_df=pd.read_csv(os.path.join(File_Dir,\"test\",\"UnitTesting.csv\"))\n  ```\n* 方法2：直接使用[Hugging Face datasets](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam)加载数据集：\n  ```python\n  from datasets import load_dataset\n  dataset=load_dataset(r\"DevOps-Eval\u002Fdevopseval-exam\",name=\"UnitTesting\")\n  \n  print(dataset['val'][0])\n  # {\"id\": 1, \"question\": \"单元测试应该覆盖以下哪些方面？\", \"A\": \"正常路径\", \"B\": \"异常路径\", \"C\": \"边界值条件\"，\"D\": 所有以上，\"answer\": \"D\", \"explanation\": \"\"}  ```\n\n* 方法3：直接使用[ModelScope datasets](https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fcodefuse-ai\u002Fdevopseval-exam\u002Ffiles)加载数据集：\n  ```python\n  from modelscope.msdatasets import MsDataset\n  MsDataset.clone_meta(dataset_work_dir='.\u002Fxxx', dataset_id='codefuse-ai\u002Fdevopseval-exam')\n  ```\n\n#### 👀 注意事项\n为了方便使用，我们整理了55个子类别的类别名称处理规则以及对应的英文和中文名称。详细信息请参阅[category_mapping.json](resources\u002Fcategroy_mapping.json)。格式如下：\n\n```\n{\n  \"UnitTesting.csv\": [\n    \"unit testing\",\n    \"单元测试\",\n    {\"dev\": 5, \"test\": 32}\n    \"TEST\"\n  ],\n  ...\n  \"file_name\":[\n  \"英文名称\",\n  \"中文名称\",\n  \"样本数量\",\n  \"大类标签(PLAN,CODE,BUILD,TEST,RELEASE,DEPOLY,OPERATE,MONITOR，从8个选项中选择1个)\"\n  ]\n}\n```\n每个子类别包含两个划分：dev和test。每个子类别的dev集合包含五个示例，并附有解释，用于少样本评估。而test集合则用于模型评估。test划分上的标签也已公开。\n\n以下是来自“版本控制”的一个dev示例：\n\n```\nid: 4\nquestion: 如何找到Git特定提交中已更改的文件列表？\nA: 使用命令 `git diff --name-only SHA`\nB: 使用命令 `git log --name-only SHA`\nC: 使用命令 `git commit --name-only SHA`\nD: 使用命令 `git clone --name-only SHA`\nanswer: A\nexplanation: \n分析原因：\ngit diff --name-only SHA命令会显示与SHA参数对应的提交中已修改的文件列表。参数--name-only让命令只输出文件名，而忽略其他信息。其它选项中的命令并不能实现此功能。\n```\n#### 🔥 AIOps 样本示例\n👀 👀 以**日志解析**和**时间序列异常检测**为例，以下是AIOps样本的简要展示：\n\n日志解析\n```\nid: 0\nquestion:\n这里有一些运行日志\n 0 04:21:15,429 WARN Cannot open channel to 2 at election address \u002F10.10.34.12:3888\n 1 19:18:56,377 WARN ******* GOODBYE \u002F10.10.34.11:52703 ********\n 2 19:13:46,128 WARN ******* GOODBYE \u002F10.10.34.11:52308 ********\n 3 19:16:26,268 WARN ******* GOODBYE \u002F10.10.34.11:52502 ********\n 4 09:11:16,012 WARN Cannot open channel to 3 at election address \u002F10.10.34.13:3888\n 5 16:37:13,837 WARN Cannot open channel to 2 at election address \u002F10.10.34.12:3888\n 6 09:09:16,008 WARN Cannot open channel to 3 at election address \u002F10.10.34.13:3888\n 7 15:27:03,681 WARN Cannot open channel to 3 at election address \u002F10.10.34.13:3888\n日志的前三个部分分别是索引、时间戳和日志级别。不考虑这三部分，假设日志中的变量用'\u003C*>'表示，各标记之间用空格分隔。那么上述日志的具体模板是什么？\nA: Notification time out: \u003C*> 和 Connection broken for id \u003C*>, my id = \u003C*>, error =\nB: Send worker leaving thread 和 Connection broken for id \u003C*>, my id = \u003C*>, error =\nC: Received connection request \u002F\u003C*>:\u003C*> 和 Interrupting SendWorker\nD: Cannot open channel to \u003C*> at election address \u002F\u003C*>:\u003C*> 和 ******* GOODBYE \u002F\u003C*>:\u003C*> ********\nanswer: D\nexplanation: 日志中包含了固定的模板片段“Cannot open channel to \u003C> at election address \u002F\u003C>:\u003C\u002F>”和“****** GOODBYE \u002F\u003C>:\u003C> ********”，这两者都出现在选项D中。而其他选项中的模板片段与日志内容不符。因此，选项D最符合日志模板。\n```\n时间序列异常检测\n```\nid: 0\nquestion:\n分析以下时间序列\n[50,62,74,84,92,97,99,98,94,87,77,65,265,40,28,17,8,3,0,0,4,10,20,31,43,56,68,79,89,95,99,99,99,96,91,82,71,59,46,34,22,12,5,1,0,2,7,15,25,37,49]\n请找出明显异常点的索引。异常点通常是指显著偏离数据整体趋势的数据点。\nA: 46\nB: 0\nC: 37\nD: 12\nanswer: D\nexplanation: 经过分析，给定时间序列中12点处的数值265明显大于周围的数据，表明出现了突然的大幅增长现象。因此，选择D是正确的。\n```\n#### 🔧 ToolLearning 样本示例\n\n👀 👀ToolLearning样本的数据格式与OpenAI的Function Calling兼容。\n\n详细信息请参阅[tool_learning_info.md](resources\u002Ftool_learning_info.md)。\n\n## 🚀 如何评估\n如果您需要测试自己的 Hugging Face 格式模型，整体步骤如下：\n1. 编写该模型的加载函数。\n2. 编写该模型的上下文构建函数。\n3. 在配置文件中注册该模型。\n4. 运行测试脚本。\n如果模型在加载后无需任何特殊处理，且输入也不需要转换为特定格式（例如 chatml 格式或其他人机交互格式），您可以直接跳到第 4 步开始测试。\n\n#### 1. 编写加载函数\n如果模型在加载后需要额外处理（例如调整分词器），您需要继承 `src.context_builder.context_builder_family.py` 中的 `ModelAndTokenizerLoader` 类，并重写相应的 `load_model` 和 `load_tokenizer` 函数。可以参考以下示例：\n```python\nclass QwenModelAndTokenizerLoader(ModelAndTokenizerLoader):\n    def __init__(self):\n        super().__init__()\n        pass\n    \n    @override\n    def load_model(self, model_path: str):\n    # 方法实现\n        pass\n    \n    @override\n    def load_tokenizer(self, model_path: str):\n    # 方法实现\n        pass\n```\n\n#### 2. 编写模型的上下文构建函数\n如果输入需要转换为特定格式（例如 chatml 格式或其他人机交互格式），您需要继承 `src.context_builder.context_builder_family` 中的 `ContextBuilder` 类，并重写 `make_context` 函数。该函数用于将输入转换为所需的相应格式。示例如下：\n```python\nclass QwenChatContextBuilder(ContextBuilder):\n    def __init__(self):\n        super().__init__()\n        \n    @override\n    def make_context(self, model, tokenizer, query: str, system: str = \"hello！\"):\n    # 方法实现\n        pass\n```\n\n#### 3. 在配置文件中注册模型\n前往 `conf` 目录下的 `model_conf.json` 文件，注册对应的模型名称以及将用于该模型的加载器和上下文构建器。只需填写在第一步和第二步中定义的加载器和上下文构建器的类名即可。示例如下：\n```json\n{\n  \"Qwen-Chat\": {\n  \"loader\": \"QwenModelAndTokenizerLoader\",\n  \"context_builder\": \"QwenChatContextBuilder\"\n  }\n}\n```\n\n#### 4. 执行测试脚本\n运行以下代码以启动测试：\n```Bash\npython src\u002Frun_eval.py \\\n--model_path 模型路径 \\\n--model_name 配置文件中的模型名称 \\\n--model_conf_path 模型配置文件路径 \\\n--eval_dataset_list all \\\n--eval_dataset_fp_conf_path 数据集配置文件路径 \\\n--eval_dataset_type test \\\n--data_path 下载的 DevOps 评估数据路径 \\\n--k_shot 0\n```\n👀 👀 具体评估流程如下 📖 [**评估教程**](resources\u002Ftutorial.md)\n\n\u003Cbr>\n\n## 🧭 待办事项\n- [x] 添加 AIOps 示例。\n- [x] 添加 AIOps 场景 **时间序列预测**。\n- [x] 添加 **工具学习** 示例。\n- [ ] 增加样本数量。\n- [ ] 添加难度等级为困难的样本。\n- [ ] 添加英文版样本。\n\u003Cbr>\n\u003Cbr>\n\n\n## 🏁 许可证\n本项目采用 [Apache License (Version 2.0)](LICENSE.md) 许可证。\n\u003Cbr>\n\u003Cbr>\n\n## 😃 引用\n\n如果您使用我们的数据集，请引用我们的论文。\n\n即将发布...\n\u003Cbr>\n\u003Cbr>\n\n## 🗂 其他信息\n\n### 📱 联系我们\n\u003Cdiv align=center>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_3fb71e39242d.png\" alt=\"图片\", width=\"320\">\n\u003C\u002Fdiv>\n\n### ✨ 星标历史\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_readme_eae1a9824456.png)](https:\u002F\u002Fstar-history.com\u002F#codefuse-ai\u002Fcodefuse-devops-eval&Date)\n\n### 🤝 友情链接\n- [Codefuse-ChatBot](https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-chatbot)\n  - Codefuse-ChatBot 是一款开源的 AI 智能助手，旨在通过对话式访问工具、知识和平台集成来支持软件开发生命周期。\n- [Awesome AIGC 教程](https:\u002F\u002Fgithub.com\u002Fluban-agi\u002FAwesome-AIGC-Tutorials)\n  - Awesome AIGC 教程 收录了涵盖大型语言模型、AI 绘画及相关领域的精选教程和资源。","# CodeFuse-DevOps-Eval 快速上手指南\n\nCodeFuse-DevOps-Eval 是专为 DevOps 领域基础模型设计的综合评估套件，涵盖 AIOps（日志解析、时序异常检测等）和 ToolLearning（工具学习）等场景。本指南将帮助您快速下载数据并加载数据集进行评估。\n\n## 环境准备\n\n*   **系统要求**：Linux \u002F macOS \u002F Windows\n*   **前置依赖**：\n    *   Python >= 3.8\n    *   `pandas` (用于处理 CSV 数据)\n    *   `datasets` (Hugging Face 库，可选)\n    *   `modelscope` (魔搭社区库，可选，推荐国内用户使用)\n\n安装基础依赖：\n```bash\npip install pandas\n```\n\n若使用 Hugging Face 加载数据：\n```bash\npip install datasets\n```\n\n若使用 ModelScope 加载数据（国内推荐）：\n```bash\npip install modelscope\n```\n\n## 安装与数据获取\n\n本项目主要提供评估数据集，无需安装复杂的软件包，只需下载数据文件或通过代码库直接加载。以下提供三种获取方式：\n\n### 方法一：直接下载数据包（通用）\n\n通过 `wget` 下载 zip 压缩包并解压：\n\n```bash\nwget https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fcodefuse-admin\u002Fdevopseval-exam\u002Fresolve\u002Fmain\u002Fdevopseval-exam.zip\nunzip devopseval-exam.zip\n```\n\n### 方法二：使用 Hugging Face Datasets 加载\n\n```python\nfrom datasets import load_dataset\n\n# 加载特定子集，例如 \"UnitTesting\"\ndataset = load_dataset(\"codefuse-admin\u002Fdevopseval-exam\", name=\"UnitTesting\")\n\n# 查看验证集第一条数据\nprint(dataset['val'][0])\n```\n\n### 方法三：使用 ModelScope 加载（国内加速推荐）\n\n对于国内开发者，推荐使用阿里魔搭社区（ModelScope）进行加速加载：\n\n```python\nfrom modelscope.msdatasets import MsDataset\n\n# 克隆数据集元数据到本地目录\nMsDataset.clone_meta(dataset_work_dir='.\u002Fdevopseval-data', dataset_id='codefuse-ai\u002Fdevopseval-exam')\n```\n\n## 基本使用\n\n### 1. 读取本地 CSV 数据\n\n如果您选择了**方法一**下载了 zip 包，可以使用 `pandas` 直接读取测试集或开发集数据：\n\n```python\nimport os\nimport pandas as pd\n\n# 设置数据目录\nFile_Dir = \"devopseval-exam\"\n\n# 读取单元测试子集的测试数据\ntest_df = pd.read_csv(os.path.join(File_Dir, \"test\", \"UnitTesting.csv\"))\n\n# 预览前 5 行\nprint(test_df.head())\n```\n\n### 2. 理解数据结构\n\n每个子类别（如 `UnitTesting`）包含 `dev`（开发集，含 5 个带解释的示例，用于 Few-shot）和 `test`（测试集，用于模型评估）两个部分。\n\n数据字段说明：\n*   `id`: 题目编号\n*   `question`: 问题内容\n*   `A`, `B`, `C`, `D`: 选项\n*   `answer`: 正确答案\n*   `explanation`: 答案解析（主要在 dev 集中提供）\n\n**Dev 集示例内容：**\n```text\nid: 4\nquestion: 如何找到 Git 特定提交中已更改的文件列表？\nA: 使用命令 `git diff --name-only SHA`\nB: 使用命令 `git log --name-only SHA`\nC: 使用命令 `git commit --name-only SHA`\nD: 使用命令 `git clone --name-only SHA`\nanswer: A\nexplanation: \n分析原因：\ngit diff --name-only SHA 命令会显示与 SHA 参数对应的提交中已修改的文件列表...\n```\n\n### 3. 查看类别映射\n\n项目提供了详细的类别映射文件 [category_mapping.json](resources\u002Fcategroy_mapping.json)，包含 55 个子类别的中英文名称及所属的大类标签（PLAN, CODE, BUILD, TEST, RELEASE, DEPLOY, OPERATE, MONITOR）。在构建评估脚本时，可参考此文件对结果进行分类统计。","某大型金融科技公司正在自研一款面向运维团队的“智能故障诊断助手”，旨在利用大模型自动分析系统日志并定位根因。\n\n### 没有 codefuse-devops-eval 时\n- **评估标准缺失**：团队只能使用通用的代码或问答数据集测试模型，无法准确衡量其在“日志解析”或“时间序列异常检测”等垂直领域的真实能力。\n- **盲区难以发现**：模型可能在通用对话中表现流畅，但在具体的“根因分析”场景中频繁出错，团队缺乏细粒度的指标来定位这些专业短板。\n- **选型决策盲目**：在对比不同基座模型（如 Qwen 与 Baichuan）时，缺乏统一的 DevOps 行业基准，导致技术选型依赖主观经验而非客观数据。\n- **工具集成困难**：对于模型是否能正确调用运维工具（ToolLearning），缺乏覆盖 59 个领域、239 种工具场景的测试集，上线风险极高。\n\n### 使用 codefuse-devops-eval 后\n- **精准能力画像**：利用其包含的 2840 个 AIOps 样本，团队能精确量化模型在日志处理和故障预测上的准确率，快速建立专业能力基线。\n- **短板定向优化**：通过细分维度的评测报告，迅速发现模型在“时间序列分类”任务上的不足，从而针对性地补充训练数据或调整提示词。\n- **科学模型选型**：参考官方 Leaderboard 中各模型在 Deploy、Monitor 等 8 大环节的零样本\u002F少样本得分，以数据为依据选出了最适合的基座模型。\n- **工具调用验证**：借助 1509 个 ToolLearning 测试题，全面验证了模型对各类运维工具的调用逻辑，确保智能助手能安全、准确地执行操作指令。\n\ncodefuse-devops-eval 将模糊的模型直觉转化为可量化的工业级指标，让运维大模型的落地从“盲目试错”走向“精准导航”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcodefuse-ai_codefuse-devops-eval_17c30072.png","codefuse-ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fcodefuse-ai_ad46a773.png",null,"https:\u002F\u002Fgithub.com\u002Fcodefuse-ai",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",98.9,{"name":85,"color":86,"percentage":87},"Shell","#89e051",1.1,652,47,"2026-04-03T02:28:47","NOASSERTION","","未说明",{"notes":95,"python":93,"dependencies":96},"该工具主要是一个评估数据集和评测脚本集合，用于评估大模型在 DevOps、AIOps 和 ToolLearning 领域的表现。README 中未明确列出具体的运行环境配置（如操作系统、GPU、内存、Python 版本等）。用户可通过 pandas 读取本地 CSV 文件，或使用 Hugging Face datasets \u002F ModelScope 库直接加载数据集进行评测。",[97,98],"pandas","datasets",[15,46],"2026-03-27T02:49:30.150509","2026-04-07T09:46:43.960154",[103,108,113,118,123,128,133],{"id":104,"question_zh":105,"answer_zh":106,"source_url":107},21456,"Hugging Face 上的模型或数据链接失效（404）了怎么办？","维护者已修复了失效的地址链接，现在原链接应该可以正常使用了。如果仍然遇到 404 错误，建议尝试刷新页面或检查网络连接。","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F8",{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},21457,"项目是否支持多种开源模型的 Prompt 格式？","当前版本已经支持千问（Qwen）、百川（Baichuan）、InternLM 等大模型的 Prompt 格式。如果有特殊想要支持的模型格式，可以直接与维护团队沟通，后续会持续开放更多支持。","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F3",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},21458,"数据集中存在错误（如“机器学习”类别的数据），是否有清洗计划？","针对用户反馈的“机器学习”相关数据错误，团队已经进行了清洗处理。此外，还计划在 12 月份进行一次全样本的人工核对，以进一步保证数据质量。","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F2",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},21459,"未来有计划增加对其他模型（如 deepseek-coder 33B）的比较支持吗？","目前暂时没有立即支持其他新模型的计划。维护者表示如果在 6 月份之后有时间，会考虑增加对更多模型的支持。","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F7",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},21454,"fcdata-zh-luban 和 fcdata-zh-codefuse 两个评测集有什么区别？","两者的主要区别在于数据来源和构建方式：\n- fcdata-zh-luban：是通过 self-instruct 技术生成，并经过 LLM（大语言模型）标注筛选得到的数据集。\n- fcdata-zh-codefuse：是由人工编写并标注完成的数据集。","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F16",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},21455,"toollearning 数据集是否可以提供下载？","可以获取，提供两种方法：\n1. 直接下载：访问 https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fcodefuse-ai\u002Fdevopseval-exam\u002Ffiles\n2. 代码调用：使用 ModelScope 库执行以下代码：\n```python\nfrom modelscope.msdatasets import MsDataset\nMsDataset.clone_meta(dataset_work_dir='.\u002Fxxx', dataset_id='codefuse-ai\u002Fdevopseval-exam')\n```","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F13",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},21453,"fcdata-zh-luban 和 fcdata-zh-codefuse 这两个数据集在哪里获取？","相关数据已托管在 ModelScope 平台，可以通过以下两种方式获取：\n1. 直接下载：用浏览器打开链接 https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fcodefuse-ai\u002Fdevopseval-exam\u002Ffiles\n2. 使用 ModelScope datasets 库函数克隆：\n```python\nfrom modelscope.msdatasets import MsDataset\nMsDataset.clone_meta(dataset_work_dir='.\u002Fxxx', dataset_id='codefuse-ai\u002Fdevopseval-exam')\n```","https:\u002F\u002Fgithub.com\u002Fcodefuse-ai\u002Fcodefuse-devops-eval\u002Fissues\u002F20",[]]