[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-hkust-nlp--ceval":3,"tool-hkust-nlp--ceval":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,2,"2026-04-06T11:09:19",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75054,"2026-04-07T10:38:03",[19,13,20,18],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[20,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65679,"2026-04-07T11:38:52",[20,18,14],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":22},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[20,14,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":46,"env_os":92,"env_gpu":93,"env_ram":94,"env_deps":95,"category_tags":100,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":101,"updated_at":102,"faqs":103,"releases":104},5022,"hkust-nlp\u002Fceval","ceval","Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]","C-Eval 是一套专为评估基础模型中文能力而设计的综合评测基准，由上海交通大学团队开发并发表于 NeurIPS 2023。它旨在解决当前大语言模型在中文语境下缺乏统一、权威且多维度评估标准的问题，帮助开发者准确追踪模型进步并分析其优势与短板。\n\n该工具非常适合人工智能研究人员、大模型开发者以及希望深入了解模型中文表现的技术团队使用。C-Eval 的独特之处在于其构建了一个涵盖 52 个不同学科领域、包含近 1.4 万道选择题的庞大题库，并细分为四个难度等级，能够全面考察模型在 STEM（科学、技术、工程、数学）、社会科学、人文学科及其他领域的知识储备与推理能力。此外，C-Eval 已集成到主流的 lm-evaluation-harness 框架中，支持零样本（zero-shot）和少样本（five-shot）等多种评估模式，方便用户快速上手测试。通过提供公开的排行榜和详细的数据集，C-Eval 已成为衡量中文大模型实力的重要标尺，助力社区共同推动中文人工智能技术的发展。","\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkust-nlp_ceval_readme_7e152b454abf.png\" style=\"width: 85%;\" id=\"title-icon\">       \u003C\u002Fp>\r\n\r\n\u003Cp align=\"center\">\r\n   🌐 \u003Ca href=\"https:\u002F\u002Fcevalbenchmark.com\u002F\" target=\"_blank\">Website\u003C\u002Fa> • 🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam\" target=\"_blank\">Hugging Face\u003C\u002Fa> • ⏬ \u003Ca href=\"#data\" target=\"_blank\">Data\u003C\u002Fa> •   📃 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08322\" target=\"_blank\">Paper\u003C\u002Fa> 📖 \u003Ca href=\"resources\u002Ftutorial.md\" target=\"_blank\">Tutorial (ZH)\u003C\u002Fa>  \u003Cbr>  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSJTU-LIT\u002Fceval\u002Fblob\u002Fmain\u002FREADME_zh.md\">   中文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSJTU-LIT\u002Fceval\u002Fblob\u002Fmain\u002FREADME.md\">English \r\n\u003C\u002Fp>\r\n\r\nC-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice questions spanning 52 diverse disciplines and four difficulty levels, as shown below. Please visit our [website](https:\u002F\u002Fcevalbenchmark.com\u002F) or check our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08322) for more details. \r\n\r\nWe hope C-Eval could help developers track the progress and analyze the important strengths\u002Fshortcomings of their models.\r\n\r\n📝 [Why C-Eval? How did we build it? (in Chinese)](https:\u002F\u002Fyaofu.notion.site\u002FC-Eval-6b79edd91b454e3d8ea41c59ea2af873)\r\n\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkust-nlp_ceval_readme_8fd8c6364bd3.png\" style=\"zoom: 80%;\" >\r\n\r\n## News\r\n* **[2025.7.27]** **We have released the complete C-Eval test set to the community!**\r\n* **[2023.10.26]** C-Eval has been accepted to NeurIPS 2023 🎉🎉🎉\r\n* **[2023.07.17]** C-Eval now has been added into [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness) 🚀🚀🚀 Please refer to [Use Through Evaluation Harness](#use-through-evaluation-harness) for details.\r\n\r\n\r\n\r\n## Table of Contents\r\n\r\n- [Leaderboard](#leaderboard)\r\n- [C-Eval Hard Leaderboard](#c-eval-hard-leaderboard)\r\n- [Results On Validation Split](#results-on-validation-split)\r\n- [Data](#data)\r\n- [How to Evaluate on C-Eval](#how-to-evaluate-on-c-eval)\r\n- [Licenses](#licenses)\r\n- [Citation](#citation)\r\n\r\n\r\n\r\n## Leaderboard\r\n\r\nBelow are zero-shot and five-shot accuracies from the models that we evaluate in the initial release, please visit our official [Leaderboard](https:\u002F\u002Fcevalbenchmark.com\u002Fstatic\u002Fleaderboard.html) for up-to-date models and their detailed results on each subject. We note that zero-shot performance is better than five-shot for many instruction-tuned models.\r\n\r\n#### Zero-shot\r\n| Model               | STEM | Social Science | Humanities | Other | Average |\r\n| ------------------- | :--: | :------------: | :--------: | :---: | :-----: |\r\n| GPT-4               | 65.2 |      74.7      |    62.5    | 64.7  |  66.4   |\r\n| ChatGPT             | 49.0 |      58.0      |    48.8    | 50.4  |  51.0   |\r\n| Claude-v1.3         | 48.5 |      58.6      |    47.3    | 50.1  |  50.5   |\r\n| Bloomz-mt-176B           | 39.1 |      53.0      |    47.7    | 42.7  |  44.3   |\r\n| GLM-130B            | 36.7 |      55.8      |    47.7    | 43.0  |  44.0   |\r\n| Claude-instant-v1.0 | 38.6 |      47.6      |    39.5    | 39.0  |  40.6   |\r\n| ChatGLM-6B          | 33.3 |      48.3      |    41.3    | 38.0  |  38.9   |\r\n| LLaMA-65B           | 32.6 |      41.2      |    34.1    | 33.0  |  34.7   |\r\n| MOSS                | 31.6 |      37.0      |    33.4    | 32.1  |  33.1   |\r\n| Chinese-Alpaca-13B  | 27.4 |      39.2      |    32.5    | 28.0  |  30.9   |\r\n| Chinese-LLaMA-13B   | 28.8 |      32.9      |    29.7    | 28.0  |  29.6   |\r\n\r\n#### Five-shot\r\n| Model               | STEM | Social Science | Humanities | Other | Average |\r\n| ------------------- | :--: | :------------: | :--------: | :---: | :-----: |\r\n| GPT-4               | 67.1 |      77.6      |    64.5    | 67.8  |  68.7   |\r\n| ChatGPT             | 52.9 |      61.8      |    50.9    | 53.6  |  54.4   |\r\n| Claude-v1.3         | 51.9 |      61.7      |    52.1    | 53.7  |  54.2   |\r\n| Claude-instant-v1.0 | 43.1 |      53.8      |    44.2    | 45.4  |  45.9   |\r\n| GLM-130B            | 34.8 |      48.7      |    43.3    | 39.8  |  40.3   |\r\n| Bloomz-mt-176B      | 35.3 |      45.1      |    40.5    | 38.5  |  39.0   |\r\n| LLaMA-65B           | 37.8 |      45.6      |    36.1    | 37.1  |  38.8   |\r\n| ChatGLM-6B          | 30.4 |      39.6      |    37.4    | 34.5  |  34.5   |\r\n| Chinese LLaMA-13B   | 31.6 |      37.2      |    33.6    | 32.8  |  33.3   |\r\n| MOSS                | 28.6 |      36.8      |    31.0    | 30.3  |  31.1   |\r\n| Chinese Alpaca-13B  | 26.0 |      27.2      |    27.8    | 26.4  |  26.7   |\r\n\r\n\r\n\r\n## C-Eval Hard Leaderboard\r\n\r\nWe select 8 challenging math, physics, and chemistry subjects from C-Eval to form a separate benchmark, C-Eval Hard, which includes advanced mathematics, discrete mathematics, probability and statistics, college chemistry, college physics, high school mathematics, high school chemistry, and high school physics. These subjects often involve with complex LaTeX equations and require non-trivial reasoning abilities to solve. Zero-shot and five-shot accuracies are shown below.\r\n\r\n| Model               | Zero-shot | Five-shot |\r\n| ------------------- | :-------: | :-------: |\r\n| GPT-4               |   53.3    |   54.9    |\r\n| Claude-v1.3         |   37.6    |   39.0    |\r\n| ChatGPT             |   36.7    |   41.4    |\r\n| Claude-instant-v1.0 |   32.1    |   35.5    |\r\n| Bloomz-mt           |   30.8    |   30.4    |\r\n| GLM-130B            |   30.7    |   30.3    |\r\n| LLaMA-65B           |   29.8    |   31.7    |\r\n| ChatGLM-6B          |   29.2    |   23.1    |\r\n| MOSS                |   28.4    |   24.0    |\r\n| Chinese-LLaMA-13B   |   27.5    |   27.3    |\r\n| Chinese-Alpaca-13B  |   24.4    |   27.1    |\r\n\r\n\r\n\r\n## Results On Validation Split\r\n\r\nSince we do not publicly release the labels for our test split, we provide the zero-shot and five-shot average accuracy on the validation split as a reference for developers. The validation split comprises a total of 1346 questions. We report the average answer-only accuracy across all subjects in table below. The average validation accuracy closely mirrors the average test accuracy as presented in [Leaderboard](#leaderboard).\r\n\r\n| Model               | Zero-shot | Five-shot |\r\n| ------------------- | :-------: | :-------: |\r\n| GPT-4               |   66.7    |   69.9    |\r\n| Claude-v1.3         |   52.1    |   55.5    |\r\n| ChatGPT             |   50.8    |   53.5    |\r\n| Bloomz-mt           |   45.9    |   38.0    |\r\n| GLM-130B            |   44.2    |   40.8    |\r\n| Claude-instant-v1.0 |   43.2    |   47.4    |\r\n| ChatGLM-6B          |   39.7    |   37.1    |\r\n| LLaMA-65B           |   38.6    |   39.8    |\r\n| MOSS                |   35.1    |   28.9    |\r\n| Chinese-Alpaca-13B  |   32.0    |   27.2    |\r\n| Chinese-LLaMA-13B   |   29.4    |   33.1    |\r\n\r\n\r\n\r\n## Data\r\n\r\n#### Download\r\n\r\n- Method 1: Download the zip file (you can also simply open the following link with the browser):\r\n  ```\r\n  wget https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam\u002Fresolve\u002Fmain\u002Fceval-exam.zip\r\n  ```\r\n  then unzip it and you may load the data with pandas:\r\n  ```python\r\n  import os\r\n  import pandas as pd\r\n  \r\n  File_Dir=\"ceval-exam\"\r\n  test_df=pd.read_csv(os.path.join(File_Dir,\"test\",\"computer_network_test.csv\"))\r\n  ```\r\n\r\n- Method 2: Directly load the dataset using [Hugging Face datasets](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam):\r\n\r\n  ```python\r\n  from datasets import load_dataset\r\n  dataset=load_dataset(r\"ceval\u002Fceval-exam\",name=\"computer_network\")\r\n  \r\n  print(dataset['val'][0])\r\n  # {'id': 0, 'question': '使用位填充方法，以01111110为位首flag，数据为011011111111111111110010，求问传送时要添加几个0____', 'A': '1', 'B': '2', 'C': '3', 'D': '4', 'answer': 'C', 'explanation': ''}\r\n  ```\r\n\r\n#### Notes\r\nTo facilitate usage, we have organized the subject name handlers and English\u002FChinese names corresponding to 52 subjects. Please refer to [subject_mapping.json](https:\u002F\u002Fgithub.com\u002FSJTU-LIT\u002Fceval\u002Fblob\u002Fmain\u002Fsubject_mapping.json) for details. The format is:\r\n\r\n  ```\r\n  # the dict key is the subject handler, and the dict value is (English name, Chinese name, category) tuple \r\n  {\r\n      \"computer_network\": [\r\n          \"Computer Network\",\r\n          \"计算机网络\",\r\n          \"STEM\"\r\n      ],\r\n      ...\r\n      \"filename\":[\r\n          \"English Name\",\r\n          \"Chinese Name\"\r\n          \"Supercatagory Label(STEM, Social Science, Humanities or Other)\"\r\n      ]\r\n  }\r\n  ```\r\n\r\nEach subject consists of three splits: dev, val, and test.  The dev set per subject consists of five exemplars with explanations for few-shot evaluation. The val set is intended to be used for hyperparameter tuning. And the test set is for model evaluation. Labels on the test split are not released, users are required to submit their results to automatically obtain test accuracy. [How to submit?](#how-to-submit) \r\n\r\nBelow is a dev example from computer network:\r\n\r\n  ```\r\nid: 1\r\nquestion: 25 °C时，将pH=2的强酸溶液与pH=13的强碱溶液混合，所得混合液的pH=11，则强酸溶液与强碱溶液 的体积比是(忽略混合后溶液的体积变化)____\r\nA: 11:1\r\nB: 9:1\r\nC: 1:11\r\nD: 1:9\r\nanswer: B\r\nexplanation: \r\n1. pH=13的强碱溶液中c(OH-)=0.1mol\u002FL, pH=2的强酸溶液中c(H+)=0.01mol\u002FL，酸碱混合后pH=11，即c(OH-)=0.001mol\u002FL。\r\n2. 设强酸和强碱溶液的体积分别为x和y，则：c(OH-)=(0.1y-0.01x)\u002F(x+y)=0.001，解得x:y=9:1。\r\n  ```\r\n\r\n\r\n\r\n## How to Evaluate on C-Eval\r\n\r\nNormally you can directly take the model's generations and extract the answer token (i.e. A,B,C,D) from it with simple regular expressions. In few-shot evaluation, the model usually follows the given template thus this is easy. Sometimes, however, especially in zero-shot evaluation for models without experiencing instruction tuning, the model may not follow the instruction well to give a well-formatted generation, in this case we recommend computing the probability of \"A\", \"B\", \"C\", \"D\" and take the most likely one as the answer -- this is a constrained decoding approach and was used in the official [MMLU test code](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest\u002Fblob\u002F4450500f923c49f1fb1dd3d99108a0bd9717b660\u002Fevaluate.py#L88). Such a probability approach is not applicable for chain-of-thought settings. [More detailed evaluation tutorial (in Chinese)](resources\u002Ftutorial.md). \r\n\r\nWe use the following prompt when evaluating the models in our first release:\r\n#### answer-only prompt\r\n```\r\n以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。\r\n\r\n{题目1}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：A\r\n\r\n[k-shot demo, note that k is 0 in the zero-shot case]\r\n\r\n{测试题目}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：\r\n```\r\n\r\n#### chain-of-thought prompt\r\n\r\n```\r\n以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。\r\n\r\n{题目1}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：让我们一步一步思考，\r\n1. {解析过程步骤1}\r\n2. {解析过程步骤2}\r\n3. {解析过程步骤3}\r\n所以答案是A。\r\n\r\n[k-shot demo, note that k is 0 in the zero-shot case]\r\n\r\n{测试题目}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：让我们一步一步思考，\r\n1. \r\n```\r\n\r\n#### Use Through Evaluation Harness\r\n\r\nNow, you can evaluate model on the validation set of C-Eval through [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness), which is a framework for few-shot evaluation of autoregressive language models.  The format of task name is `Ceval-valid-{subject}` ( e.g. `Ceval-valid-computer_network`). For example, to evaluate a model hosted on the [HuggingFace Hub](https:\u002F\u002Fhuggingface.co\u002Fmodels) (e.g. GPT-J-6B) ,you can use the following command:\r\n\r\n```bash\r\npython main.py --model hf-causal --model_args pretrained=EleutherAI\u002Fgpt-j-6B --tasks Ceval-valid-computer_network --device cuda:0\r\n```\r\n\r\nPlease refer to [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness) for more details.\r\n\r\n\r\n## Licenses\r\n\r\n[![MIT license](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-blue.svg)](https:\u002F\u002Flbesson.mit-license.org\u002F)\r\n\r\nThis work is licensed under a [MIT License](https:\u002F\u002Flbesson.mit-license.org\u002F).\r\n\r\n[![CC BY-NC-SA 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC%20BY--NC--SA%204.0-lightgrey.svg)](http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F)\r\n\r\nThe C-Eval dataset is licensed under a\r\n[Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License](http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F).\r\n\r\n\r\n\r\n## Citation\r\n\r\nPlease cite our paper if you use our dataset.\r\n```\r\n@inproceedings{huang2023ceval,\r\ntitle={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, \r\nauthor={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian},\r\nbooktitle={Advances in Neural Information Processing Systems},\r\nyear={2023}\r\n}\r\n```\r\n","\u003Cp align=\"center\"> \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkust-nlp_ceval_readme_7e152b454abf.png\" style=\"width: 85%;\" id=\"title-icon\">       \u003C\u002Fp>\n\n\u003Cp align=\"center\">\n   🌐 \u003Ca href=\"https:\u002F\u002Fcevalbenchmark.com\u002F\" target=\"_blank\">官网\u003C\u002Fa> • 🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam\" target=\"_blank\">Hugging Face\u003C\u002Fa> • ⏬ \u003Ca href=\"#data\" target=\"_blank\">数据集\u003C\u002Fa> •   📃 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08322\" target=\"_blank\">论文\u003C\u002Fa> 📖 \u003Ca href=\"resources\u002Ftutorial.md\" target=\"_blank\">教程（中文）\u003C\u002Fa>  \u003Cbr>  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSJTU-LIT\u002Fceval\u002Fblob\u002Fmain\u002FREADME_zh.md\">   中文\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSJTU-LIT\u002Fceval\u002Fblob\u002Fmain\u002FREADME.md\">英文 \n\u003C\u002Fp>\n\nC-Eval 是一套全面的中文基础模型评估基准，包含 13948 道多项选择题，覆盖 52 个不同学科和四个难度级别，如下所示。更多详情请访问我们的 [官网](https:\u002F\u002Fcevalbenchmark.com\u002F) 或查阅我们的 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.08322)。\n\n我们希望 C-Eval 能帮助开发者跟踪模型进展，并分析其关键优势与不足。\n\n📝 [为什么推出 C-Eval？我们是如何构建它的？（中文）](https:\u002F\u002Fyaofu.notion.site\u002FC-Eval-6b79edd91b454e3d8ea41c59ea2af873)\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkust-nlp_ceval_readme_8fd8c6364bd3.png\" style=\"zoom: 80%;\" >\n\n## 最新动态\n* **[2025.7.27]** **我们已向社区公开完整的 C-Eval 测试集！**\n* **[2023.10.26]** C-Eval 已被 NeurIPS 2023 接收 🎉🎉🎉\n* **[2023.07.17]** C-Eval 现已加入 [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness) 🚀🚀🚀 详情请参阅 [通过评估框架使用](#use-through-evaluation-harness)。\n\n\n\n## 目录\n\n- [排行榜](#leaderboard)\n- [C-Eval Hard 排行榜](#c-eval-hard-leaderboard)\n- [验证集结果](#results-on-validation-split)\n- [数据](#data)\n- [如何在 C-Eval 上进行评估](#how-to-evaluate-on-c-eval)\n- [许可证](#licenses)\n- [引用](#citation)\n\n \n\n## 排行榜\n\n以下是我们在首次发布时评估的模型的零样本和五样本准确率。请访问我们的官方 [排行榜](https:\u002F\u002Fcevalbenchmark.com\u002Fstatic\u002Fleaderboard.html)，以获取最新模型及其各科目的详细结果。值得注意的是，对于许多指令微调模型，零样本性能优于五样本。\n\n#### 零样本\n| 模型               | 理工科 | 社会科学 | 人文科学 | 其他 | 平均 |\n| ------------------- | :--: | :------------: | :--------: | :---: | :-----: |\n| GPT-4               | 65.2 |      74.7      |    62.5    | 64.7  |  66.4   |\n| ChatGPT             | 49.0 |      58.0      |    48.8    | 50.4  |  51.0   |\n| Claude-v1.3         | 48.5 |      58.6      |    47.3    | 50.1  |  50.5   |\n| Bloomz-mt-176B           | 39.1 |      53.0      |    47.7    | 42.7  |  44.3   |\n| GLM-130B            | 36.7 |      55.8      |    47.7    | 43.0  |  44.0   |\n| Claude-instant-v1.0 | 38.6 |      47.6      |    39.5    | 39.0  |  40.6   |\n| ChatGLM-6B          | 33.3 |      48.3      |    41.3    | 38.0  |  38.9   |\n| LLaMA-65B           | 32.6 |      41.2      |    34.1    | 33.0  |  34.7   |\n| MOSS                | 31.6 |      37.0      |    33.4    | 32.1  |  33.1   |\n| Chinese-Alpaca-13B  | 27.4 |      39.2      |    32.5    | 28.0  |  30.9   |\n| Chinese-LLaMA-13B   | 28.8 |      32.9      |    29.7    | 28.0  |  29.6   |\n\n#### 五样本\n| 模型               | 理工科 | 社会科学 | 人文科学 | 其他 | 平均 |\n| ------------------- | :--: | :------------: | :--------: | :---: | :-----: |\n| GPT-4               | 67.1 |      77.6      |    64.5    | 67.8  |  68.7   |\n| ChatGPT             | 52.9 |      61.8      |    50.9    | 53.6  |  54.4   |\n| Claude-v1.3         | 51.9 |      61.7      |    52.1    | 53.7  |  54.2   |\n| Claude-instant-v1.0 | 43.1 |      53.8      |    44.2    | 45.4  |  45.9   |\n| GLM-130B            | 34.8 |      48.7      |    43.3    | 39.8  |  40.3   |\n| Bloomz-mt-176B      | 35.3 |      45.1      |    40.5    | 38.5  |  39.0   |\n| LLaMA-65B           | 37.8 |      45.6      |    36.1    | 37.1  |  38.8   |\n| ChatGLM-6B          | 30.4 |      39.6      |    37.4    | 34.5  |  34.5   |\n| Chinese LLaMA-13B   | 31.6 |      37.2      |    33.6    | 32.8  |  33.3   |\n| MOSS                | 28.6 |      36.8      |    31.0    | 30.3  |  31.1   |\n| Chinese Alpaca-13B  | 26.0 |      27.2      |    27.8    | 26.4  |  26.7   |\n\n\n\n## C-Eval Hard 排行榜\n\n我们从 C-Eval 中选取了 8 门具有挑战性的数学、物理和化学科目，组成独立的基准 C-Eval Hard，涵盖高等数学、离散数学、概率统计、大学化学、大学物理、高中数学、高中化学和高中物理。这些科目通常涉及复杂的 LaTeX 公式，需要较强的推理能力才能解答。以下展示了零样本和五样本的准确率。\n\n| 模型               | 零样本 | 五样本 |\n| ------------------- | :-------: | :-------: |\n| GPT-4               |   53.3    |   54.9    |\n| Claude-v1.3         |   37.6    |   39.0    |\n| ChatGPT             |   36.7    |   41.4    |\n| Claude-instant-v1.0 |   32.1    |   35.5    |\n| Bloomz-mt           |   30.8    |   30.4    |\n| GLM-130B            |   30.7    |   30.3    |\n| LLaMA-65B           |   29.8    |   31.7    |\n| ChatGLM-6B          |   29.2    |   23.1    |\n| MOSS                |   28.4    |   24.0    |\n| Chinese-LLaMA-13B   |   27.5    |   27.3    |\n| Chinese-Alpaca-13B  |   24.4    |   27.1    |\n\n\n\n## 验证集结果\n\n由于我们未公开测试集的答案标签，因此提供验证集上的零样本和五样本平均准确率，供开发者参考。验证集共包含 1346 道题目。下表报告了所有科目中仅基于答案的平均准确率。验证集的平均准确率与 [排行榜](#leaderboard) 中展示的测试集平均准确率非常接近。\n\n| 模型               | 零样本 | 五样本 |\n| ------------------- | :-------: | :-------: |\n| GPT-4               |   66.7    |   69.9    |\n| Claude-v1.3         |   52.1    |   55.5    |\n| ChatGPT             |   50.8    |   53.5    |\n| Bloomz-mt           |   45.9    |   38.0    |\n| GLM-130B            |   44.2    |   40.8    |\n| Claude-instant-v1.0 |   43.2    |   47.4    |\n| ChatGLM-6B          |   39.7    |   37.1    |\n| LLaMA-65B           |   38.6    |   39.8    |\n| MOSS                |   35.1    |   28.9    |\n| Chinese-Alpaca-13B  |   32.0    |   27.2    |\n| Chinese-LLaMA-13B   |   29.4    |   33.1    |\n\n## 数据\r\n\r\n#### 下载\r\n\r\n- 方法 1：下载 zip 文件（你也可以直接用浏览器打开以下链接）：\r\n  ```\r\n  wget https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam\u002Fresolve\u002Fmain\u002Fceval-exam.zip\r\n  ```\r\n  然后解压，即可使用 pandas 加载数据：\r\n  ```python\r\n  import os\r\n  import pandas as pd\r\n  \r\n  File_Dir=\"ceval-exam\"\r\n  test_df=pd.read_csv(os.path.join(File_Dir,\"test\",\"computer_network_test.csv\"))\r\n  ```\r\n\r\n- 方法 2：直接使用 [Hugging Face datasets](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam) 加载数据集：\r\n\r\n  ```python\r\n  from datasets import load_dataset\r\n  dataset=load_dataset(r\"ceval\u002Fceval-exam\",name=\"computer_network\")\r\n  \r\n  print(dataset['val'][0])\r\n  # {'id': 0, 'question': '使用位填充方法，以01111110为位首flag，数据为011011111111111111110010，求问传送时要添加几个0____', 'A': '1', 'B': '2', 'C': '3', 'D': '4', 'answer': 'C', 'explanation': ''}\r\n  ```\r\n\r\n#### 注意事项\r\n为了方便使用，我们整理了 52 个科目的科目名称处理器及其对应的英文和中文名称。详细信息请参阅 [subject_mapping.json](https:\u002F\u002Fgithub.com\u002FSJTU-LIT\u002Fceval\u002Fblob\u002Fmain\u002Fsubject_mapping.json)。格式如下：\r\n\r\n  ```\r\n  # 字典键是科目处理器，字典值是一个包含 (英文名称, 中文名称, 类别) 的元组\r\n  {\r\n      \"computer_network\": [\r\n          \"Computer Network\",\r\n          \"计算机网络\",\r\n          \"STEM\"\r\n      ],\r\n      ...\r\n      \"filename\":[\r\n          \"English Name\",\r\n          \"Chinese Name\"\r\n          \"Supercatagory Label(STEM, Social Science, Humanities or Other)\"\r\n      ]\r\n  }\r\n  ```\r\n\r\n每个科目包含三个划分：dev、val 和 test。每个科目的 dev 集由五个示例组成，并附有解释，用于少样本评估。val 集用于超参数调优。而 test 集则用于模型评估。test 划分上的标签不会公开，用户需要提交结果以自动获取测试准确率。[如何提交？](#how-to-submit) \r\n\r\n以下是计算机网络的一个 dev 示例：\r\n\r\n  ```\r\nid: 1\r\nquestion: 25 °C时，将pH=2的强酸溶液与pH=13的强碱溶液混合，所得混合液的pH=11，则强酸溶液与强碱溶液 的体积比是(忽略混合后溶液的体积变化)____\r\nA: 11:1\r\nB: 9:1\r\nC: 1:11\r\nD: 1:9\r\nanswer: B\r\nexplanation: \r\n1. pH=13的强碱溶液中c(OH-)=0.1mol\u002FL, pH=2的强酸溶液中c(H+)=0.01mol\u002FL，酸碱混合后pH=11，即c(OH-)=0.001mol\u002FL。\r\n2. 设强酸和强碱溶液的体积分别为x和y，则：c(OH-)=(0.1y-0.01x)\u002F(x+y)=0.001，解得x:y=9:1。\r\n  ```\r\n\r\n\r\n\r\n## 如何在 C-Eval 上进行评估\r\n\r\n通常情况下，你可以直接提取模型生成的内容中的答案标记（即 A、B、C、D），使用简单的正则表达式即可。在少样本评估中，模型通常会遵循给定的模板，因此这很容易实现。然而，在零样本评估中，尤其是对于未经过指令微调的模型，模型可能无法很好地遵循指令生成格式良好的回答。在这种情况下，我们建议计算“A”、“B”、“C”、“D”的概率，并选择概率最高的作为答案——这是一种受限解码方法，官方的 [MMLU 测试代码](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest\u002Fblob\u002F4450500f923c49f1fb1dd3d99108a0bd9717b660\u002Fevaluate.py#L88) 中也采用了这种方法。不过，这种概率方法不适用于思维链设置。[更详细的评估教程（中文）](resources\u002Ftutorial.md)。\r\n\r\n我们在首次发布时使用以下提示来评估模型：\r\n#### 仅答案提示\r\n```\r\n以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。\r\n\r\n{题目1}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：A\r\n\r\n[k-shot demo，注意在零样本情况下k为0]\r\n\r\n{测试题目}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：\r\n```\r\n\r\n#### 思维链提示\r\n\r\n```\r\n以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。\r\n\r\n{题目1}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：让我们一步一步思考，\r\n1. {解析过程步骤1}\r\n2. {解析过程步骤2}\r\n3. {解析过程步骤3}\r\n所以答案是A。\r\n\r\n[k-shot demo，注意在零样本情况下k为0]\r\n\r\n{测试题目}\r\nA. {选项A}\r\nB. {选项B}\r\nC. {选项C}\r\nD. {选项D}\r\n答案：让我们一步一步思考，\r\n1. \r\n```\r\n\r\n#### 使用评估框架进行评估\r\n\r\n现在，你可以通过 [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness) 在 C-Eval 的验证集上评估模型，这是一个用于自回归语言模型少样本评估的框架。任务名称的格式为 `Ceval-valid-{subject}`（例如 `Ceval-valid-computer_network`）。例如，要评估托管在 [HuggingFace Hub](https:\u002F\u002Fhuggingface.co\u002Fmodels) 上的模型（如 GPT-J-6B），可以使用以下命令：\r\n\r\n```bash\r\npython main.py --model hf-causal --model_args pretrained=EleutherAI\u002Fgpt-j-6B --tasks Ceval-valid-computer_network --device cuda:0\r\n```\r\n\r\n更多详情请参阅 [lm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness)。\r\n\r\n\r\n## 许可证\r\n\r\n[![MIT 许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-blue.svg)](https:\u002F\u002Flbesson.mit-license.org\u002F)\r\n\r\n本作品采用 [MIT 许可证](https:\u002F\u002Flbesson.mit-license.org\u002F) 许可。\r\n\r\n[![CC BY-NC-SA 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC%20BY--NC--SA%204.0-lightgrey.svg)](http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F)\r\n\r\nC-Eval 数据集采用\r\n[知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议](http:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 许可。\r\n\r\n\r\n\r\n## 引用\r\n\r\n如果您使用我们的数据集，请引用我们的论文。\r\n```\r\n@inproceedings{huang2023ceval,\r\ntitle={C-Eval: 一个面向基础模型的多层级、多学科中文评估套件}, \r\nauthor={黄宇珍、白宇卓、朱志浩、张俊磊、张景涵、苏唐军、刘俊腾、吕传成、张一凯、雷佳怡、傅瑶、孙茂松、何俊贤},\r\nbooktitle={神经信息处理系统进展},\r\nyear={2023}\r\n}\r\n```","# C-Eval 快速上手指南\n\nC-Eval 是一个全面的中文基础模型评估套件，涵盖 52 个学科和四个难度等级的 13,948 道选择题。本指南将帮助您快速获取数据并开始在验证集上进行评估。\n\n## 环境准备\n\n*   **系统要求**：Linux \u002F macOS \u002F Windows (推荐 Linux)\n*   **编程语言**：Python 3.8+\n*   **前置依赖**：\n    *   `pandas` (用于直接读取 CSV 数据)\n    *   `datasets` (用于通过 Hugging Face 加载数据)\n    *   `lm-evaluation-harness` (可选，用于使用官方框架进行评估)\n\n建议先安装基础数据处理库：\n```bash\npip install pandas datasets\n```\n\n若需使用自动化评估框架，请安装：\n```bash\npip install lm-eval\n```\n\n## 安装步骤（获取数据）\n\nC-Eval 数据集托管在 Hugging Face 上，您可以通过以下两种方式获取数据。\n\n### 方法一：直接下载压缩包（推荐国内用户配合加速工具）\n\n您可以直接下载数据集 ZIP 文件并解压。\n\n```bash\nwget https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fceval\u002Fceval-exam\u002Fresolve\u002Fmain\u002Fceval-exam.zip\nunzip ceval-exam.zip\n```\n\n### 方法二：使用 Hugging Face Datasets 库加载\n\n如果您已配置好网络环境或使用镜像源，可直接通过代码加载：\n\n```python\nfrom datasets import load_dataset\n\n# 加载特定科目，例如\"computer_network\"\ndataset = load_dataset(\"ceval\u002Fceval-exam\", name=\"computer_network\")\n\n# 查看验证集第一条数据\nprint(dataset['val'][0])\n```\n\n## 基本使用\n\n### 1. 本地读取数据示例\n\n下载解压后，可以使用 `pandas` 直接读取题目文件。数据结构包含 `id`, `question`, `A\u002FB\u002FC\u002FD` 选项，`answer` 以及 `explanation`（仅 dev 集包含）。\n\n```python\nimport os\nimport pandas as pd\n\nFile_Dir = \"ceval-exam\"\n# 读取计算机网络科目的测试集（注意：test 集不含答案，需提交评测）\ntest_df = pd.read_csv(os.path.join(File_Dir, \"test\", \"computer_network_test.csv\"))\n\nprint(test_df.head())\n```\n\n### 2. 构建评估 Prompt\n\nC-Eval 支持 **Only-Answer**（仅答案）和 **Chain-of-Thought**（思维链）两种评估模式。以下是标准的 Zero-shot 提示词模板：\n\n**Only-Answer Prompt:**\n```text\n以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。\n\n{测试题目}\nA. {选项 A}\nB. {选项 B}\nC. {选项 C}\nD. {选项 D}\n答案：\n```\n\n**Chain-of-Thought Prompt:**\n```text\n以下是中国关于{科目}考试的单项选择题，请选出其中的正确答案。\n\n{测试题目}\nA. {选项 A}\nB. {选项 B}\nC. {选项 C}\nD. {选项 D}\n答案：让我们一步一步思考，\n1. \n```\n\n> **注意**：对于未经过指令微调的模型，建议计算 \"A\", \"B\", \"C\", \"D\" 四个 token 的概率，选择概率最高的作为答案（Constrained Decoding），而非直接解析生成文本。\n\n### 3. 使用 lm-evaluation-harness 进行评测\n\nC-Eval 已集成到 `lm-evaluation-harness` 中，您可以直接对验证集（validation split）运行评测。任务命名格式为 `Ceval-valid-{subject}`。\n\n以下是对 `computer_network` 科目进行评测的命令示例：\n\n```bash\npython -m lm_eval --model hf-causal \\\n    --model_args pretrained=EleutherAI\u002Fgpt-j-6B \\\n    --tasks Ceval-valid-computer_network \\\n    --device cuda:0\n```\n\n*注：由于测试集（test set）标签未公开，开发者通常先在验证集上调优超参数，确认模型表现后，再将测试结果提交至官方网站获取最终排名。*","某国内大模型初创团队在发布新版中文基座模型前，急需验证其在垂直领域的专业能力以应对投资人和客户的质询。\n\n### 没有 ceval 时\n- **评估维度单一**：团队仅依赖通用对话测试或翻译任务，无法量化模型在医学、法律、工程等 52 个具体学科上的知识深度，导致“偏科”问题被掩盖。\n- **缺乏权威对标**：面对竞品宣传的“中文最强”，由于缺少统一的标准化考题和公开排行榜，难以用客观数据证明自身模型的相对优势或差距。\n- **调优方向模糊**：发现模型回答专业问题时表现不佳，但无法定位是逻辑推理弱还是特定领域知识缺失，导致迭代训练时资源分散，效率低下。\n- **信任建立困难**：在向 B 端客户交付时，只能提供主观的演示案例，缺乏类似 NeurIPS 论文背书的严谨评测报告，难以消除客户对模型“幻觉”的顾虑。\n\n### 使用 ceval 后\n- **全景能力画像**：利用覆盖 13948 道题目的全套试题，团队迅速生成了包含 STEM、人文社科等四大维度的详细雷达图，精准锁定了模型在“临床医学”和“电路原理”上的短板。\n- **确立市场坐标**：通过将测试结果上传至官方 Leaderboard，团队直观看到自家模型在零样本（Zero-shot）设置下超越了同量级的开源模型，获得了有力的市场竞争背书。\n- **数据驱动迭代**：基于分学科的准确率反馈，算法工程师针对性地增强了理科类语料的训练权重，仅用一轮微调就将 STEM 类别的平均准确率提升了 8.5%。\n- **交付信心倍增**：在技术白皮书中引用 C-Eval 的标准化评测数据，成功说服了一家三甲医院客户，使其相信模型具备辅助诊疗建议生成的基础能力。\n\nceval 通过提供全方位、高难度的中文学科评测标准，将模糊的模型能力感知转化为可量化、可对比的硬指标，极大加速了国产大模型的精细化迭代与商业化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhkust-nlp_ceval_7e152b45.png","hkust-nlp","NLP Group @ HKUST","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhkust-nlp_83897fa3.jpg","We are a group of NLP researchers in the Hong Kong University of Science and Technology",null,"https:\u002F\u002Fjxhe.github.io\u002Fgroup\u002F","https:\u002F\u002Fgithub.com\u002Fhkust-nlp",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,1833,83,"2026-04-07T05:45:50","MIT","","未说明（取决于具体评估的模型大小，README 中示例命令支持 --device cuda:0）","未说明",{"notes":96,"python":94,"dependencies":97},"C-Eval 本身是一个评估数据集和基准，而非独立的软件工具。它主要通过加载数据并使用现有框架（如 lm-evaluation-harness）或自定义脚本来评估模型。硬件需求完全取决于所评估的基础模型（如 LLaMA-65B 需要大量显存，而小模型需求较低）。测试集标签未公开，需提交结果获取准确率。",[98,99],"pandas","datasets",[18],"2026-03-27T02:49:30.150509","2026-04-07T22:51:03.704224",[],[]]