chain-of-thought-hub

2.8k 143 简单 1 次阅读 3天前MIT语言模型其他

AI 解读由 AI 自动生成，仅供参考

Chain-of-Thought Hub 是一个专注于评估大语言模型复杂推理能力的开源基准平台。面对当前众多模型在简单对话中表现相似，却在处理高难度任务时差距显著的现状，它通过引入“思维链”提示技术，提供了一套严谨的测试标准来衡量模型真正的逻辑思考水平。

该项目解决了缺乏统一、高质量基准来区分模型在数学计算、科学推导、符号逻辑、代码生成及长文本理解等复杂场景下性能差异的问题。它不仅仅是一个数据集列表，更将精心挑选的任务分为核心、实验性和长上下文三类，涵盖了从 GSM8K 数学题到 RepoBench 代码库理解等多个维度，旨在推动大模型成为下一代可靠的计算平台。

Chain-of-Thought Hub 特别适合 AI 研究人员、大模型开发者以及算法工程师使用。对于希望验证新模型推理上限、优化提示工程策略或探索长上下文应用场景的专业人士来说，这里提供的数据和脚本是极具参考价值的行业标尺。其独特亮点在于前瞻性地提出了“思维链提示将是未来的系统调用”这一理念，并持续社区共建，鼓励大家共同完善针对超长上下文推理及复杂工具调用的评测任务，助力整个生态的健康发展。

使用场景

某 AI 初创团队正在研发一款面向高中生的智能理科辅导助手，急需验证其核心模型在处理复杂数学推导和科学推理任务时的真实能力。

没有 chain-of-thought-hub 时

评估标准模糊：团队仅依赖日常对话流畅度或简单问答来测试模型，误以为小参数模型已媲美 GPT-3.5，无法识别其在高难度逻辑任务上的短板。
基准测试零散：需要手动搜集 GSM8K、MATH、HumanEval 等多个数据集的评测脚本，数据格式不统一，整合耗时且容易出错。
优化方向迷失：缺乏系统性的“思维链”提示词（Chain-of-Thought）对比实验，难以判断模型错误是源于知识缺失还是推理逻辑断裂。
长上下文能力未知：面对需要结合长篇科研论文或小说情节进行推理的场景，完全没有可靠的基准数据来评估模型表现。

使用 chain-of-thought-hub 后

精准定位差距：通过内置的 MATH 和 BBH 等高难度基准，迅速发现模型在复杂步骤推理中准确率骤降，明确了与顶尖模型的真实性能鸿沟。
一站式评测体系：直接调用整理好的主流程数据集（如 C-Eval、TheoremQA）和标准化脚本，一天内即可完成跨学科、跨语言的全方位能力摸底。
提示词工程升级：参考库中成熟的思维链提示策略，像编写系统脚本一样优化模型指令，显著提升了多步数学题的解题正确率。
前瞻能力验证：利用长上下文专项数据集（如 Qspr、BkSS），提前验证了模型在处理超长教材内容时的推理稳定性，为后续功能迭代指明方向。

chain-of-thought-hub 将分散的推理评测转化为标准化的“系统调用”，帮助开发者从“闲聊式测试”迈向真正的“复杂逻辑验证”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesREADME 主要介绍了该项目的评估基准、数据集列表（如 GSM8K, MATH, MMLU 等）以及不同大语言模型的性能排行榜。文中提到了部分模型的评估脚本链接（如 MMLU/readme.md），但当前提供的文本内容中并未包含具体的运行环境配置、依赖库列表或硬件需求说明。该项目更像是一个评测结果汇总仓库，而非直接提供单一可执行工具的代码库，具体运行需求需参考其子目录中的独立脚本文档。

python未说明

快速开始

思维链枢纽：衡量大语言模型的推理性能

“一幅幻想风格的插图，描绘了在蓝色夜空中排列成链状的星星，数字艺术，超分辨率”。Midjourney V5

作者：Yao Fu、Litu Ou、Mingyu Chen、Yuhao Wan、Hao Peng、Tushar Khot、Wenhu Chen

来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所、滑铁卢大学

[论文] [博客] [推特]

近来，大语言模型领域取得了诸多进展。许多人声称，参数量不足100亿的小模型就能达到与GPT-3.5相当的性能。真的如此吗？

在日常对话中，GPT-3.5和GPT-4之间的区别可能并不明显。但当***任务的复杂度达到足够高的阈值时***，差异便显现出来——GPT-4更加可靠、富有创造力，并且能够处理比GPT-3.5更为微妙复杂的指令。—— GPT-4发布博文

关键的区别在于模型是否能够完成复杂任务，正如古语所言：“闲聊不值钱，拿出你的推理能力来。”因此，我们整理了一份包含数学（GSM8K）、科学（MATH、TheoremQA）、符号推理（BBH）、知识（MMLU、C-Eval）、编程（HumanEval）、事实推理（SummEdits）以及长上下文理解（RepoBench、Qspr、QALT、BkSS）等复杂推理任务的清单，用以评估模型在挑战性任务上的表现。

更重要的是，我们设想大语言模型将成为下一代计算平台，并催生基于大语言模型的新应用生态系统。届时，思维链提示工程将扮演下一代系统调用和Shell脚本的角色。

思维链枢纽的可信度源于我们精心挑选的数据集和模型，它们能够清晰地推动大语言模型的发展。该枢纽的研究成果及代码已被大语言模型领域的领先企业和学术机构广泛使用和引用。我们将任务分为三大类：主流、实验性和长上下文。

主流：这些数据集稳定可靠，经常被各大模型开发团队所采用。
实验性：这些数据集具有测试未来大语言模型能力的潜力。
长上下文：这些任务要求模型在极长的上下文中进行推理，是未来大语言模型发展的重要方向。

[我们考虑的数据集列表]

版块	数据集	描述
主流	GSM8K	小学水平的数学应用题
主流	MATH	竞赛级别的数学和科学问题
主流	MMLU	多学科知识测试
主流	BBH	挑战性的语言与符号推理任务
主流	HumanEval	Python编程任务
主流	C-Eval	中文多学科知识测试
实验性	TheoremQA	定理证明任务
实验性	SummEdits	事实推理任务
长上下文	Qspr	基于科研论文的问答任务
长上下文	QALT	长篇文章和故事的多项选择题
长上下文	BkSS	小说各章节摘要的重新排序任务

[征集贡献]：诚邀社区成员：

提交PR以填补表格中的缺失数据
开启议题，提出或共同探讨新的、用于衡量长上下文推理能力的任务或基准
开启议题，提出或共同探讨新的、用于衡量复杂API调用与工具使用的任务或基准
开启议题，建议其他能够清晰区分不同模型性能的好任务或基准
开启议题，推荐可加入表格的新模型

[更新 20231210]：

新增Gemini、Yi-34B、DeepSeek 67B
更新长上下文部分——我们将对该版块持续补充新内容
Mistral 7B8E MoE模型结果预览

Mistral 7B 8E的表现大致与Yi34B / LLaMA2 70B / DeepSeek 67B相当

基准	Mistral 7B 密集型	Mistral 7Bx8E=50B	Yi-34B	DeepSeek-67B	LLaMA2 70B
Arc-c	59.98	66.38	64.59	65.44	-
HellaSwag	83.31	86.61	85.69	87.10	-
MMLU	64.16	71.73	76.35	71.78	68.9
TruthfulQA	42.15	48.55	56.23	51.08	50.18
Winogrande	78.37	82.40	83.03	84.14	-
GSM8K	37.83	57.09	50.64	56.71	56.8

[更新 20230620]：

将榜单分为主流（稳定且被广泛引用的数据集）和实验性（具备测试未来大语言模型能力潜力的数据集）两部分。
新增长上下文板块（实验性）

[往期更新]

[更新 20230609]：为LLaMA和Falcon添加MMLU的评估脚本[MMLU/readme.md]

[更新 20230601]：新增SummEdits

[更新 20230527]：新增TheoremQA，并加入Vicuna、Alpaca、InstructCodeT5。

排行榜 - 主要

模型	参数量	类型	GSM8K	MATH	MMLU	BBH	HumanEval	C-Eval
Gemini Ultra	?	基础	-	53.2	83.7	83.6	74.4	-
gpt-4	?	RLHF	92.0	42.5	86.4	-	67.0	68.7*
claude-2	?	RLHF	88	-	78.5	-	71.2	-
Gemini Pro	?	基础	-	32.6	71.8	75.0	67.7	-
claude-v1.3	?	RLHF	81.8*	-	75.6*	67.3*	-	54.2*
PaLM-2-Unicorn	?	基础	80.7	34.3	78.3	78.1	-	-
Mistral MoE	7Bx8E=46B	基础	57.9	-	71.3	-	-	-
DeepSeek	67B	基础	56.7	18.7	71.7	68.7	42.7	66.1
Yi	34B	基础	50.6	-	76.3	54.3	-	81.4
gpt-3.5-turbo	?	RLHF	74.9*	-	67.3*	70.1*	48.1	54.4*
claude-instant	?	RLHF	70.8*	-	61.3*	66.9*	-	45.9*
text-davinci-003	?	RLHF	-	-	64.6	70.7	-	-
code-davinci-002	?	基础	66.6	19.1	64.5	73.7	47.0	-
text-davinci-002	?	SIFT	55.4	-	60.0	67.2	-	-
Minerva	540B	SIFT	58.8	33.6	-	-	-	-
Flan-PaLM	540B	SIFT	-	-	70.9	66.3	-	-
Flan-U-PaLM	540B	SIFT	-	-	69.8	64.9	-	-
PaLM	540B	基础	56.9	8.8	62.9	62.0	26.2	-
LLaMA-2	70B	基础	56.8	-	68.9	51.2	29.9	-
LLaMA	65B	基础	50.9	10.6	63.4	-	23.7	38.8*
PaLM	64B	基础	52.4	4.4	49.0	42.3	-	-
Falcon	40B	基础	-	-	49.0*	-	-	-
Vicuna	33B	SIFT	-	-	59.2	-	-	-
LLaMA	33B	基础	35.6	7.1	57.8	-	21.7	-
InstructCodeT5+	16B	SIFT	-	-	-	-	35.0	-
StarCoder	15B	基础	8.4	15.1	33.9	-	33.6	-
Vicuna	13B	SIFT	-	-	-	52.1	-	-
LLaMA	13B	基础	17.8	3.9	46.9	-	15.8	-
Flan-T5	11B	SIFT	16.1*	-	48.6	41.4	-	-
Alpaca	7B	SIFT	-	-	-	-	-	-
LLaMA	7B	基础	11.0	2.9	35.1	-	10.5	-
Flan-T5	3B	SIFT	13.5*	-	45.5	35.2	-	-

我们称这些数据集为“主要”，是因为它们相当稳定，并且在各大机构的LLM开发中被广泛使用。基础模型指的是预训练检查点。SIFT指的是经过监督指令微调后的检查点。RLHF指的是经过人类反馈强化学习后的检查点。标有星号*的数据来自我们自己的运行，其余则来自多个来源，具体说明见下文。所有方法均以准确率衡量，数值越高越好。

排行榜 - 实验性：长上下文

模型	参数量	上下文长度	类型	Qspr	QALT	BkSS
人类	?	?	?	67.7	93.5	?
gpt-4	?	8K	RLHF	50.7	89.2	60.5
claude-v1.3	?	8K	RLHF	52.3	84.8	47.4
claude-v1.3	?	4K	RLHF	47.7	76.8	37.6
PaLM-2-Unicorn	?	-	基础	-	-	-
PaLM-2-bison	?	-	RLHF	-	-	-
gpt-3.5-turbo	?	4K	RLHF	49.3	66.6	49.8
claude-instant	?	-	RLHF	-	-	-
text-davinci-003	?	4K	RLHF	52.7	69.0	49.5
text-davinci-002	?	-	SIFT	-	-	-
LLaMA	65B	-	基础	-	-	-
Falcon	40B	-	基础	-	-	-
Flan-UL2	20B	8K	SIFT	56.9	75.6	14.0
LLaMA	33B	-	基础	-	-	-
Vicuna	13B	-	SIFT	-	-	-
LLaMA	13B	-	基础	-	-	-
Flan-T5	11B	8K	SIFT	48.3	75.2	15.1
Flan-T5	11B	4K	SIFT	46.5	70.8	16.4
T0pp	11B	8K	SIFT	25.0	21.4	0.0
Alpaca	7B	-	SIFT	-	-	-
LLaMA	7B	-	基础	-	-	-
Flan-T5	3B	8K	SIFT	46.6	69.6	2.2

待办事项：RepoBench：用于基准测试仓库级代码自动补全系统的平台
Qspr、QALT 和 BkSS 的数值来自零滚动测试
我们为何选择这些数据集？请参阅详细文档

与其他重要评估有何不同？

HeLM 使用仅答案提示，而我们采用思维链提示。
HeLM 对所有模型进行全面评估。我们则专注于复杂推理能力，这是大语言模型的核心差异点。
Open LLM Leaderboard 主要评估开源语言模型。我们则涵盖了大多数领先的模型。
- 目前，LLaMA 65B 在 Open LLM Leaderboard 上的得分仅为48.8，远低于论文中报告的63.4分。这引发了对 LLaMA 和 Falcon 模型之间比较结果的质疑。
- 在我们的复现中，使用 MMLU 官方提示、贪婪解码和 fp16 精度，我们得到了61.4分。这一结果支持了原始 LLaMA 的分数，并对 Open LLM Leaderboard 的结果提出了质疑。
- 我们的评估脚本非常简单，大部分参数都采用默认设置，没有复杂的提示工程。我们鼓励社区尝试我们的脚本并复现结果。
- 根据Nathan Lambert的说法，HuggingFace 目前正在重做 Open LLM Leaderboard 的后端系统，因此排名可能会发生变化（2023年6月10日）。
Chatbot Arena 评估聊天机器人模型，更侧重于实际部署中的用户体验。而我们的评估则更面向开发者，不仅关注聊天机器人，也涵盖基础模型。

模型如何排序

如果已知模型规模，我们按规模排序。
如果未知模型规模，则依据 GSM8K 分数进行排序，GSM8K 是衡量思维链数学推理能力的经典基准。
- 当然，这并非唯一指标，但可以理解为“模型在保持其他通用能力的同时，在数学任务上表现如何”——而这本身也非常具有挑战性。
- GPT-4 已经在 GSM8K 训练集上进行了预训练，而其他模型未必如此。因此，GPT-4 在 GSM8K 上的表现属于分布内泛化，而其他模型则是分布外泛化。即便像 FlanT5 这样也在 GSM8K 上训练过的模型，其表现仍然存在差距。
总体而言，由于多种因素（是否在相应训练集上训练、是否包含代码数据、是否优化了提示等），严格比较模型性能非常困难。因此，请将我们的结果视为近似参考。

数据来源

GPT-4 来自其官网及Bubeck 等人 2023年3月的研究。需要注意的是，Bubeck 使用的是 GPT-4 Early 版本，据称比正式发布的 GPT-4 更强大，因为 OpenAI 为了提升安全性付出了大量对齐成本。
*-davinci-00* 和 *PaLM 来自Flan-PaLM论文附录。
- code-davinci-002 是 GPT-3.5 系列的基础模型，但遗憾的是目前已无法访问。
LLaMA 来自LLaMA论文。~~需要注意的是，这些任务中使用的 LLaMA 提示并未公开，因此复现结果可能存在差异，更多讨论请参见这条推文。~~
- ~~我们正在 MMLU 和 BBH 上实现自己的 LLaMA 实现版本，敬请期待。~~
- 我们使用 MMLU 官方提示和 HuggingFace Transformers 默认的 generate() 函数复现了 LLaMA 在 MMLU 上的结果，与官方数据高度一致。详情请参阅[MMLU/readme.md]。
Falcon 在 MMLU 上的得分来自我们自己的脚本这里。
PaLM-2 来自其技术报告。
Claude 是我们自己测试脚本的结果，运行方法见下文。
LLaMA 模型、PaLM 和 StartCoder 的 HumanEval 结果来自HuggingFace 报告。Code-davinci-002 在 HumanEval 上的性能则来自CodeT5+ 论文。
C-Eval 来自其官网。
TheoremQA 来自其GitHub和相关论文。
SummEdits 来自其GitHub和论文。
长上下文部分的数据来自zero-scrolls 论文和排行榜。
Vicuna 在 MMLU 上的得分来自Chatbot Arena。

当前结果

GPT-4 在 GSM8K 和 MMLU 上明显优于其他所有模型。
**65B 规模的 LLaMA 与 text/code-davinci-002 接近，这意味着如果基于该模型正确地进行 SFT 和 RLHF，极有可能以 65B LLaMA 为基础复现 ChatGPT**
Claude 是唯一可与 GPT 系列相媲美的模型家族。
在 GSM8K 上，gpt-3.5-turbo 的表现优于 text-davinci-003，这印证了 OpenAI 2023年1月30日发布的公告中提到的“数学能力提升”。
在 MMLU 上，gpt-3.5-turbo 的表现略好于 text-davinci-003，但这种差距并不显著。
同时要注意，gpt-3.5-turbo 的价格仅为 text-davinci-003 的十分之一。
此外，还需注意 GPT-4/3.5 在 GSM8K 上的表现并非真正的少样本学习——在GPT-4 报告中提到，他们混合了一部分 GSM8K 训练集来训练模型。
LLaMA 在 MMLU 上的表现来自其论文，可能并非基于思维链提示，而是仅答案提示。通常情况下，仅答案提示在 MMLU 上的表现会略好于思维链提示，因此 LLaMA 在 MMLU 上的得分可能被略微高估。

可视化

开源模型与闭源模型之间存在明显差距。
大多数顶尖模型都经过 RLHF 微调。
LLaMA 65B 与 code-davinci-002 非常接近。
现有结果强烈暗示，如果对 LLaMA 正确执行 RLHF，其性能有望接近 ChatGPT-3.5。

关于任务的更多信息

GSM8K：8千道小学数学题。—— 在该数据集上的性能提升会直接转化为与大语言模型交互时的日常数学能力。
MMLU：57个学科下的1.5万道题目，涵盖高中和大学的知识。
MATH（难度高！）：7个类别下的1.2万道题目，涉及非常困难的数学和自然科学问题。目前所有模型都难以应对。
BBH：23个子集中的6500道题目，侧重符号和文本推理。
HumanEval：一个经典的164道Python编程题的手写数据集，用于评估编码能力。
C-Eval：包含52个知识领域的1.3万道选择题的中文知识测试集合。
TheoremQA（难度高！）：800对问答，覆盖数学、电子工程与计算机科学、物理和金融等领域的350多个定理。
SummEdits：10个领域内的6300道事实一致性推理题。

运行

MMLU

cd MMLU
mkdir outputs
API_KEY=<your_api_key>
# GPT-3.5-Turbo
python run_mmlu_gpt_3.5_turbo.py --api_key=${API_KEY}
# Claude-v1.3
python run_mmlu_claude.py --api_key=${API_KEY} --engine=claude-v1.3

# LLaMA
LLAMA_CKPT_DIR=<path to model checkpoints>
PARAM_SIZE=65 # 7, 13, 33, 65
MODEL_TYPE=llama # ["llama", "falcon"] 
python run_mmlu_open_source.py --ckpt_dir ${LLAMA_CKPT_DIR} --param_size ${PARAM_SIZE} --model_type ${MODEL_TYPE}

GSM8k

cd gsm8k 
mkdir outputs

# 运行gpt-3.5
# codex_gsm8k_complex.ipynb         -- code-davinci-002 + 复杂提示
# gpt3.5turbo_gsm8k_complex.ipynb   -- gpt-3.5-turbo + 复杂提示

# 运行claude
python run_gsm8k_claude.py\
  --anthropic_key=${API_KEY}\
  --prompt_file=lib_prompt/prompt_original.txt\
  --engine=claude-v1.3\
  --output_file=outputs/gsm8k_claude_v1.3_original_test.txt

# 运行FlanT5
# flan_t5_11b_gsm8k.ipynb

BBH

cd BBH
mkdir outputs
# 然后运行jupyter notebook查看企鹅数据集示例
cd penguins
# gpt3.5trubo_penguins_original.ipynb

# 或者运行脚本处理所有数据集
API_KEY=<your_api_key>
TASK=<all | multiple_choice | free_form>
python run_bbh_gpt_3.5_turbo.py --api_key=${API_KEY} --task=${TASK} # 默认为all
python run_bbh_claude_v1.3.py --api_key=${API_KEY} --model_index=claude-v1.3 --task=${TASK} # 默认为all

常见问题

模型性能对输入提示非常敏感。
- 不幸的是，这是大语言模型的特性。我们目前正在努力标准化提示（初步进展见[spl/markdown.md]），并将持续更新相关信息。
“基于复杂性的提示”论文中使用的提示是什么？
- 请参阅research/complexity_based_prompting/。
我想尝试一些开源模型。
- 可以从gsm8k/flan_t5_11b_gsm8k.ipynb开始。
有些提示的答案是错误的。
- 是的，但我们保留原样，因为它们源自原始论文。
- 通常情况下，模型对提示扰动具有较强的鲁棒性：即使提示中存在错误，只要提示格式符合相应任务的要求，模型往往会忽略提示中的错误，仅根据格式进行预测。
- 更多关于模型如何忽略提示错误的分析，请参阅https://arxiv.org/abs/2202.12837和https://arxiv.org/abs/2212.10001。

想了解更多关于构建用于推理任务的大语言模型的信息

详细的路线图已在我们的上一篇博客文章中讨论：迈向复杂推理——大型语言模型的北极星。

一般来说，构建强推理能力模型的方法与通用大语言模型相同：预训练、微调和强化学习。以下是一些需要重点关注的重要论文：

预训练/继续训练

Lewkowycz等人，2022年。Minerva：使用语言模型解决定量推理问题
Taylor等人，2022年。Galactica：一款面向科学领域的大型语言模型

微调

强化学习

开发中

CotHub标准提示库
待办事项
文献
详细结果
实验部分和长上下文

Chain-of-Thought Hub 快速上手指南

Chain-of-Thought Hub 是一个专注于评估大语言模型（LLM）在复杂推理任务上性能的开源项目。它通过思维链（Chain-of-Thought, CoT）提示工程，在数学、科学、符号推理、代码生成及长上下文理解等多个维度对模型进行基准测试。

环境准备

本项目主要提供评估脚本、数据集配置及结果汇总，通常依赖 Python 环境运行评估代码。

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS
Python 版本: Python 3.8 或更高版本
前置依赖:
- git: 用于克隆仓库
- pip: Python 包管理工具
- (可选) GPU 环境：若需本地运行大型模型推理，建议安装 CUDA 驱动的 NVIDIA GPU

安装步骤

克隆仓库 将项目代码克隆到本地：

git clone https://github.com/FranxYao/chain-of-thought-hub.git
cd chain-of-thought-hub

安装依赖 虽然主 README 未列出统一的 requirements.txt，但各子任务目录（如 MMLU, GSM8K 等）通常包含独立的评估脚本。建议创建一个虚拟环境并安装通用的 NLP 评估依赖：
```
python -m venv venv
source venv/bin/activate  # Windows 用户使用: venv\Scripts\activate

# 安装基础依赖 (根据具体子目录的 readme 可能需要额外安装)
pip install torch transformers accelerate datasets evaluate
```
提示：具体的评估脚本（如 MMLU 的评估）通常位于对应的子文件夹中（例如 MMLU/readme.md），请进入相应目录查看特定的依赖安装指令。

基本使用

Chain-of-Thought Hub 的核心价值在于其提供的基准测试榜单和评估方法论。使用方式主要分为“参考榜单”和“运行评估”两种。

1. 参考现有榜单

直接查看项目中的 Leaderboard 表格，对比不同模型在核心数据集上的表现。

Main (核心任务): 包含 GSM8K (数学), MATH (竞赛数学), MMLU (多学科知识), BBH (符号推理), HumanEval (代码), C-Eval (中文知识)。
Long Context (长上下文): 包含 Qspr, QALT, BkSS 等需要处理长文本的任务。

2. 运行特定任务评估

以 MMLU 为例，项目提供了针对 LLaMA 和 Falcon 等模型的评估脚本。

进入任务目录:
```
cd MMLU
```
查看具体运行指令: 阅读该目录下的 readme.md 文件，通常包含类似以下的执行命令（示例）：
```
python eval.py --model_name llama-7b --data_dir ../data/mmlu
```
(注：具体参数请以子目录下的实际文档为准)

3. 贡献与新增任务

如果您希望添加新的模型数据或建议新的长上下文/复杂 API 调用基准测试：

提交数据: 发送 Pull Request (PR) 填补表格中的缺失数据。
提出建议: 在 GitHub Issues 中发起讨论，建议新的任务类型（特别是针对超长上下文推理或复杂工具调用的基准）。

更多详细的数据集描述和长上下文测试原理，请参阅项目根目录下的 resources/long_context.md 及各子模块文档。

常见问题

为什么使用此仓库的脚本评估 Falcon 7B 或 LLaMA 的 MMLU 分数，与 Hugging Face Open LLM Leaderboard 上的分数存在巨大差异？

发现示例提示词（Prompt）中的答案标签明显错误（例如 CommonsenseQA 或 GSM8K 中的推导步骤有误），是否需要修复？

GSM8K 数据集中某些复杂提示词的计算过程似乎有误，这会影响模型效果吗？

除了 LLaMA 的分词问题外，为什么 Falcon 7B、MPT 7B 等模型在 Eleuther AI 评估框架下的分数也与此仓库结果不同？

为什么不同的提示词选择会导致模型绝对分数不同，但模型间的相对排名通常保持一致？

《Complexity-Based Prompting for Multi-Step Reasoning》这篇论文具体使用了哪些提示词？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他