[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-FranxYao--chain-of-thought-hub":3,"tool-FranxYao--chain-of-thought-hub":65},[4,17,25,39,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":10,"last_commit_at":23,"category_tags":24,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":26,"name":27,"github_repo":28,"description_zh":29,"stars":30,"difficulty_score":10,"last_commit_at":31,"category_tags":32,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[33,34,35,36,14,37,15,13,38],"图像","数据工具","视频","插件","其他","音频",{"id":40,"name":41,"github_repo":42,"description_zh":43,"stars":44,"difficulty_score":45,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[14,33,13,15,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":45,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[15,33,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[13,37],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":80,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":10,"env_os":98,"env_gpu":99,"env_ram":99,"env_deps":100,"category_tags":103,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":104,"updated_at":105,"faqs":106,"releases":135},2845,"FranxYao\u002Fchain-of-thought-hub","chain-of-thought-hub","Benchmarking large language models' complex reasoning ability with chain-of-thought prompting","Chain-of-Thought Hub 是一个专注于评估大语言模型复杂推理能力的开源基准平台。面对当前众多模型在简单对话中表现相似，却在处理高难度任务时差距显著的现状，它通过引入“思维链”提示技术，提供了一套严谨的测试标准来衡量模型真正的逻辑思考水平。\n\n该项目解决了缺乏统一、高质量基准来区分模型在数学计算、科学推导、符号逻辑、代码生成及长文本理解等复杂场景下性能差异的问题。它不仅仅是一个数据集列表，更将精心挑选的任务分为核心、实验性和长上下文三类，涵盖了从 GSM8K 数学题到 RepoBench 代码库理解等多个维度，旨在推动大模型成为下一代可靠的计算平台。\n\nChain-of-Thought Hub 特别适合 AI 研究人员、大模型开发者以及算法工程师使用。对于希望验证新模型推理上限、优化提示工程策略或探索长上下文应用场景的专业人士来说，这里提供的数据和脚本是极具参考价值的行业标尺。其独特亮点在于前瞻性地提出了“思维链提示将是未来的系统调用”这一理念，并持续社区共建，鼓励大家共同完善针对超长上下文推理及复杂工具调用的评测任务，助力整个生态的健康发展。","\n# Chain-of-Thought Hub: Measuring LLMs' Reasoning Performance\n\n![Title](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFranxYao_chain-of-thought-hub_readme_a28eb1a5fce8.png)\n\"A fantasy graph illustrating a chain of stars in a dark night with blue sky, digital art, super resolution\". Midjourney V5\n\n----\n\n\nBy [Yao Fu](https:\u002F\u002Ffranxyao.github.io\u002F), [Litu Ou](https:\u002F\u002Fgithub.com\u002FLeonard907), [Mingyu Chen](https:\u002F\u002Fgithub.com\u002FSpehhhhh), [Yuhao Wan](https:\u002F\u002Fgithub.com\u002FYuhao-Wan), [Hao Peng](https:\u002F\u002Fhaopeng-nlp.github.io\u002F), [Tushar Khot](https:\u002F\u002Fallenai.org\u002Fteam\u002Ftushark), [Wenhu Chen](https:\u002F\u002Fwenhuchen.github.io\u002F)\n\nFrom University of Edinburgh, University of Washington, Allen Institute for AI, University of Waterloo\n\n[[paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17306)] [[blog](https:\u002F\u002Fyaofu.notion.site\u002FTowards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75)]  [[twitter](https:\u002F\u002Ftwitter.com\u002FFrancis_YAO_\u002Fstatus\u002F1663472109299937280)]\n\nRecently, there are a lot of progress in LLMs. Many claim that a small model less than 10B can achieve comparable performance to GPT-3.5. Really? \n\n> In a casual conversation, the distinction between GPT-3.5 and GPT-4 can be subtle. The difference comes out when **\\*the complexity of the task reaches a sufficient threshold\\*** — GPT-4 is more reliable, creative, and able to handle much more nuanced instructions than GPT-3.5.  --  *GPT-4 release blog*\n\nThe key differentiator is whether a model can do **complex tasks**, like the old saying: \"chit-chat is cheap, show me the reasoning.\" This is why we compile a list of complex reasoning tasks including math (GSM8K), science (MATH, TheoremQA), symbolic (BBH), knowledge (MMLU, C-Eval), coding (HumanEval), factual (SummEdits), and long-context (RepoBench, Qspr, QALT, BkSS) to measure the models' performance on challenging tasks. \n\nMore importantly, we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications.\nWhen this comes, chain-of-thought prompt engineering will be the next-generation system calls and shell scripts. \n\nThe credibility of chain-of-thought hub comes from the very carefully mediculously picked datasets and models that can clearly help the development of LLMs. The resutls and scripts from Chain-of-thought Hub is being used and referred by leading industrial and academic organizations in the space of large language models. We devide the tasks into three categories: main, experimental, and long-context.\n* Main: datasets that are stable and consistently referred by places where LLMs are built.\n* Experimental: datasets that has the potential to test future LLM capabilities.\n* Long-context: datasets that require reasoning over very long context, an important direction of future LLMs.\n\n\u003Cdetails>\n  \u003Csummary>[List of datasets we consider]\u003C\u002Fsummary>\n\n  | Section  | Dataset   | Description | \n  | -------  | -------   | ----------- |\n  | Main     | GSM8K     | Grade-level math word problems |\n  | Main     | MATH      | Competition-level math and science problems |\n  | Main     | MMLU      | Multi-discipline knowledge |\n  | Main     | BBH       | Challenging language and symbolic reasoning |\n  | Main     | HumanEval | Python coding |\n  | Main     | C-Eval    | Chineses multi-discipline knowledge |\n  | Experimental     | TheoremQA | Theorem proving |\n  | Experimental     | SummEdits | Factual reasoning |\n  | Long Ctx | Qspr      | Question answering over research papers |\n  | Long Ctx | QALT      | Multiple-choice questions over long articles and stories | \n  | Long Ctx | BkSS      | Reordering of summaries of parts of novels | \n\u003C\u002Fdetails>\n\n\n**[Call for contribution]**: would love to invite community members to:\n* Send a PR to fill in a missing number in the table\n* Raise an issue to suggest \u002F brainstorm a new task \u002F benchmark that measures **reasoning over very long context**\n* Raise an issue to suggest \u002F brainstorm a new task \u002F benchmark that measures **complex API calls and tool usage**\n* Raise an issue to suggest other good tasks \u002F benchmarks that can clearly differentiate models' performance\n* Raise an issue to suggest a new model that can be added to the table\n\n**[UPDATE 20231210]**: \n* Add [Gemini](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002F#introduction), [Yi-34B](https:\u002F\u002Fgithub.com\u002F01-ai\u002FYi), [DeepSeek 67B](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-LLM) \n* Update long-context -- we will have more updates on this section\n* Preview of Mistral 7B8E MoE model results\n\u003Cdetails>\n  \u003Csummary>Mistral 7B 8E looks approximately comparible with Yi34B \u002F LLaMA2 70B \u002F DeepSeek 67B\u003C\u002Fsummary>\n\n| Benchmark  | Mistral 7B Dense | Mistral 7Bx8E=50B | Yi-34B | DeepSeek-67B | LLaMA2 70B |\n|------------|------------------|-------------------|--------|--------------|------------|\n| Arc-c      | 59.98            | 66.38             | 64.59  | 65.44        | -          |\n| HellaSwag  | 83.31            | 86.61             | 85.69  | 87.10        | -          |\n| MMLU       | 64.16            | 71.73             | 76.35  | 71.78        | 68.9       |\n| TruthfulQA | 42.15            | 48.55             | 56.23  | 51.08        | 50.18      |\n| Winogrande | 78.37            | 82.40             | 83.03  | 84.14        | -          |\n| GSM8K      | 37.83            | 57.09             | 50.64  | 56.71        | 56.8       |\n\n\u003C\u002Fdetails>\n\n**[UPDATE 20230620]**: \n* Seperate main (datasets that are stable and consistently referred by places where LLMs are built) and experimental (datasets that has the potential to test future LLM capabilities) leaderboards. \n* Add long-context section (experimental)\n\n\u003Cdetails>\n  \u003Csummary>[Previous updates]\u003C\u002Fsummary>\n  \n  **[UPDATE 20230609]**: Add [evaluation scripts](MMLU\u002Freadme.md) on MMLU for LLaMA and Falcon\n\n  **[UPDATE 20230601]**: Add SummEdits\n\n  **[UPDATE 20230527]**: Add TheoremQA, add Vicuna, Alpaca, InstructCodeT5.\n\u003C\u002Fdetails>\n\n\n## Leaderboard - Main\n\n| Model            | Param.    | Type | GSM8K | MATH | MMLU | BBH     | HumanEval | C-Eval |\n| ----             | --------- | ---- | ----- | ---- | ---- | ---     | --------- | -----  |\n| Gemini Ultra     | ?         | Base | -     | 53.2 | 83.7 | 83.6    | 74.4      | -      |\n| gpt-4            | ?         | RLHF | 92.0  | 42.5 | 86.4 | -       | 67.0      | 68.7*  |\n| claude-2         | ?         | RLHF | 88    | -    | 78.5 | -       | 71.2      | -      |\n| Gemini Pro       | ?         | Base | -     | 32.6 | 71.8 | 75.0    | 67.7      | -      |\n| claude-v1.3      | ?         | RLHF | 81.8* | -    | 75.6*| 67.3*   | -         | 54.2*  |\n| PaLM-2-Unicorn   | ?         | Base | 80.7  | 34.3 | 78.3 | 78.1    | -         | -      |\n| Mistral MoE      | 7Bx8E=46B | Base | 57.9  | -    | 71.3 | -       | -         | -      |\n| DeepSeek         | 67B       | Base | 56.7  | 18.7 | 71.7 | 68.7    | 42.7      | 66.1   | \n| Yi               | 34B       | Base | 50.6  | -    | 76.3 | 54.3    | -         | 81.4   |\n| gpt-3.5-turbo    | ?         | RLHF | 74.9* | -    | 67.3*| 70.1*   | 48.1      | 54.4*  |\n| claude-instant   | ?         | RLHF | 70.8* | -    | 61.3*| 66.9*   | -         | 45.9*  |\n| text-davinci-003 | ?         | RLHF | -     | -    | 64.6 | 70.7    | -         | -      |\n| code-davinci-002 | ?         | Base | 66.6  | 19.1 | 64.5 | 73.7    | 47.0      | -      |\n| text-davinci-002 | ?         | SIFT | 55.4  | -    | 60.0 | 67.2    | -         | -      |\n| Minerva          | 540B      | SIFT | 58.8  | 33.6 | -    | -       | -         | -      |\n| Flan-PaLM        | 540B      | SIFT | -     | -    | 70.9 | 66.3    | -         | -      |\n| Flan-U-PaLM      | 540B      | SIFT | -     | -    | 69.8 | 64.9    | -         | -      |\n| PaLM             | 540B      | Base | 56.9  | 8.8  | 62.9 | 62.0    | 26.2      | -      |\n| LLaMA-2          | 70B       | Base | 56.8  | -    | 68.9 | 51.2    | 29.9      | -      |\n| LLaMA            | 65B       | Base | 50.9  | 10.6 | 63.4 | -       | 23.7      | 38.8*  |\n| PaLM             | 64B       | Base | 52.4  | 4.4  | 49.0 | 42.3    | -         | -      |\n| Falcon           | 40B       | Base | -     | -    | 49.0*| -       | -         | -      |\n| Vicuna           | 33B       | SIFT | -     | -    | 59.2 | -       | -         | -      |\n| LLaMA            | 33B       | Base | 35.6  | 7.1  | 57.8 | -       | 21.7      | -      |\n| InstructCodeT5+  | 16B       | SIFT | -     | -    | -    | -       | 35.0      | -      |\n| StarCoder        | 15B       | Base | 8.4   | 15.1 | 33.9 | -       | 33.6      | -      |\n| Vicuna           | 13B       | SIFT | -     | -    | -    | 52.1    | -         | -      |\n| LLaMA            | 13B       | Base | 17.8  | 3.9  | 46.9 | -       | 15.8      | -      |\n| Flan-T5          | 11B       | SIFT | 16.1* | -    | 48.6 | 41.4    | -         | -      |\n| Alpaca           | 7B        | SIFT | -     | -    | -    | -       | -         | -      |\n| LLaMA            | 7B        | Base | 11.0  | 2.9  | 35.1 | -       | 10.5      | -      |\n| Flan-T5          | 3B        | SIFT | 13.5* | -    | 45.5 | 35.2    |    -      | -      |\n\nWe call these datasets \"main\" because they are rather stable and widely used in LLM development in major places. Base means the pretrained checkpoint. SIFT means the checkpoint after supervised instruction finetuning. RLHF means the checkpoint after Reinforcement Learning from Human Feedback. Numbers marked with an asterisk * are from our own run, otherwise from multiple sources which we explain below. All methods are measured in accuracy, the higher the better.\n\n\n## Leaderboard - Experimental: Long Context \n\n| Model            | Param. | Ctx. | Type | Qspr      | QALT | BkSS | \n| ----             | ------ | ---- | ---- | --------- | ---- | ---- |\n| Human            | ?      | ?    | ?    | 67.7      | 93.5 | ?    |\n| gpt-4            | ?      | 8K   | RLHF | 50.7      | 89.2 | 60.5 |\n| claude-v1.3      | ?      | 8K   | RLHF | 52.3      | 84.8 | 47.4 |\n| claude-v1.3      | ?      | 4K   | RLHF | 47.7      | 76.8 | 37.6 |\n| PaLM-2-Unicorn   | ?      | -    | Base | -         | -    | -    |\n| PaLM-2-bison     | ?      | -    | RLHF | -         | -    | -    |\n| gpt-3.5-turbo    | ?      | 4K   | RLHF | 49.3      | 66.6 | 49.8 |\n| claude-instant   | ?      | -    | RLHF | -         | -    | -    | \n| text-davinci-003 | ?      | 4K   | RLHF | 52.7      | 69.0 | 49.5 |\n| text-davinci-002 | ?      | -    | SIFT | -         | -    | -    |\n| LLaMA            | 65B    | -    | Base | -         | -    | -    |\n| Falcon           | 40B    | -    | Base | -         | -    | -    |\n| Flan-UL2         | 20B    | 8K   | SIFT | 56.9      | 75.6 | 14.0 |\n| LLaMA            | 33B    | -    | Base | -         | -    | -    |\n| Vicuna           | 13B    | -    | SIFT | -         | -    | -    |\n| LLaMA            | 13B    | -    | Base | -         | -    | -    | \n| Flan-T5          | 11B    | 8K   | SIFT | 48.3      | 75.2 | 15.1 |\n| Flan-T5          | 11B    | 4K   | SIFT | 46.5      | 70.8 | 16.4 |\n| T0pp             | 11B    | 8K   | SIFT | 25.0      | 21.4 | 0.0  |\n| Alpaca           | 7B     | -    | SIFT | -         | -    | -    |\n| LLaMA            | 7B     | -    | Base | -         | -    | -    |\n| Flan-T5          | 3B     | 8K   | SIFT | 46.6      | 69.6 | 2.2  |\n\n* TODO: [RepoBench](https:\u002F\u002Fgithub.com\u002FLeolty\u002Frepobench): benchmarking repository-level code auto-completion systems\n* Qspr, QALT and BkSS numbers are from zero-scrolls\n* Why do we pick these datasets? See [detailed documentation](resources\u002Flong_context.md)\n\n## What's different than other important evaluation? \n* [HeLM](https:\u002F\u002Fcrfm.stanford.edu\u002Fhelm\u002Flatest\u002F) uses answer-only prompting, we use chain-of-thought promoting\n* HeLM evaluates everything. We only focus on complex reasoning, the key differentiator of LLMs' capability.  \n* [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard) evaluates open-sourced language models. We consider most leading models. \n  * Currently, the performance of LLaMA 65B on Open LLM Leaderboard is just 48.8, which is significantly lower than the 63.4 reported in the paper. This casts [doubts](https:\u002F\u002Ftwitter.com\u002Fkarpathy\u002Fstatus\u002F1662209158748442625) on the comparison between LLaMA and Falcon.\n  * In our [reproduction](MMLU\u002Freadme.md), we got 61.4 using the MMLU official prompt + greedy decoding + fp16. Our results favors the original LLaMA number and cast doublts on the results of Open LLM Leaderboard.\n  * Our [evaluation script](MMLU\u002Frun_mmlu_llama.py) is rather straightforward, most parameters are default, no fancy prompt engineering. We encourage the community to try out our scripts and reproduce our results.\n  * According to [Nathan Lambert](https:\u002F\u002Ftwitter.com\u002Fnatolambert\u002Fstatus\u002F1667249342456160257?s=20), HuggingFace is currently redoing the backend of Open LLM Leaderboard, and the results may change (Jun 10 2023).\n* [Chatbot Arena](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-05-03-arena\u002F) evaluates chatbot models, which is more user-oriented at deployment. Our evaluation is more developer-oriented, and we consider on not only chatbots but also base models. \n\n## How the models are ranked \n* If we know model scale, we rank it by scale.\n* If we do not know model scale, we rank it by GSM8K, the classical benchmark measuring chain-of-thought math reasoning performance. \n  * This is definitely not the only metric, but a good interpretation is \"how good the model can do math while maintaining other generic abilities\" -- which is also very hard.\n  * GPT-4 is already pretrained on GSM8k training split, others may not. So for GPT-4, its perf. on GSM8k is in-distribution generalization, while for others are ood. generalization. Yet even for in-dist. FlanT5 is also trained on GSM8k, still shows perf. difference. \n* Generally it is very hard to rigiously compare model perf. due to multiple factors (whether trained on the corresponding training split, whether trained on code, whether optimize prompt .etc). View our results as approximate reference. \n\n## Source of numbers \n* GPT-4 from its [website](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-4) and [Bubeck et al Mar 2023](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712). Note that the version that Bubeck uses is GPT-4 Early which is supposedly to be more powerful than GPT-4 Launch (OpenAI paid a lot of alignment tax to make GPT-4 safer). \n* \\*-davinci-00\\* and \\*PaLM are from the [Flan-PaLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416) paper appendix. \n  * code-davinci-002 is the base model of GPT-3.5 family but unfortunately it can no longer be accessed.\n* LLaMA from [LLaMA](https:\u002F\u002Fresearch.facebook.com\u002Fpublications\u002Fllama-open-and-efficient-foundation-language-models\u002F) paper. ~~Note that the prompt of LLaMA used in these tasks are not released so reproduction may have varied numbers, see [this twitter thread](https:\u002F\u002Ftwitter.com\u002Fkarpathy\u002Fstatus\u002F1662209158748442625) for more discussions.~~\n  * ~~We are doing our own implementation of LLaMA on MMLU and BBH. Stay tuned.~~ \n  * We have reproduced LLaMA on MMLU using the official MMLU prompts and default HuggingFace Transformers `generate()` function, and our results matches the official numbers very well. See [here](MMLU\u002Freadme.md) for more details.\n* Falcon on MMLU is from our own script [here](MMLU\u002Freadme.md). \n* PaLM-2 from [their tech report](https:\u002F\u002Fai.google\u002Fstatic\u002Fdocuments\u002Fpalm2techreport.pdf). \n* Claude is from our own test script, see below about how to run it.\n* The HumanEval results for LLaMA models, PaLM and StartCoder are from [HuggingFace report](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fstarcoder). Code-davinci-002's performance on HumanEval is from [CodeT5+ paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.07922.pdf)\n* C-Eval is from their [website](https:\u002F\u002Fcevalbenchmark.com\u002Fstatic\u002Fleaderboard.html)\n* TheoremQA is from their [github](https:\u002F\u002Fgithub.com\u002Fwenhuchen\u002FTheoremQA)\n* SummEdits is from their [github](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FfactualNLG\u002Ftree\u002Fmaster) and [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14540)\n* Long context section are from [zero-scrolls paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14196) and [leaderboard](https:\u002F\u002Fwww.zero.scrolls-benchmark.com\u002Fleaderboard)\n* Vicuna performance on MMLU is from [Chatbot Arena](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-06-22-leaderboard\u002F)\n\n## Current results\n* GPT-4 clearly outperforms all other models on GSM8K and MMLU.\n* \\*\\***The 65B LLaMA is very close to text\u002Fcode-davinci-002, which means that based on it, if SFT and RLHF are done correctly, it is very likely that we could reproduce ChatGPT based on the 65B LLaMA**\\*\\*\n* Claude is the only model family that is comparable to GPT family. \n* On GSM8K, gpt-3.5-turbo improves over text-davinci-003. This confirms OpenAI's Jan 30 2023 release notes \"improved mathematical capabilities.\"\n* On MMLU, gpt-3.5-turbo is slightly better than text-davinci-003. But this level of margin is NOT SIGNIFICANT\n* Also remember that gpt-3.5-turbo is 10 times cheaper than text-davinci-003\n* Also be careful that GPT-4\u002F 3.5's performance on GSM8K is not true few-shot -- in [GPT-4 report](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4.pdf) they said that they mixed a portion of GSM8K training set to train the model\n* LLaMA performance on MMLU is from their paper and probably not CoT but AO. Generally on MMLU, AO is better than CoT but just slightly better. So the LLaMA numbers on MMLU might be slightly overestimated.\n\n## Visualization \n![Title](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFranxYao_chain-of-thought-hub_readme_ad501bd3be06.png)\n* There is a clear gap between open-source and close. \n* Most top models are after RLHF.\n* LLaMA 65B is very close to code-davinc-002.\n* Existing results strongly suggest that if RLHF is done right on LLaMA, it may be close to ChatGPT-3.5.\n\n## More about the tasks\n* [GSM8K](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903): 8k elementary school math. -- Performance improvements on this dataset directly translate to daily math abilities when interacting with LLMs\n* [MMLU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416):  15k problems under 57 subjects, high school and college knowledge\n* [MATH](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858) (Hard!): 12k problems within 7 categories, very hard math and natural science. All current models struggle. \n* [BBH](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09261): 6.5k problems within 23 subsets, symbolic and text reasoning\n* [HumanEval](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fhuman-eval): a classical handwritten dataset of 164 Python problems for evaluating coding capability. \n* [C-Eval](https:\u002F\u002Fcevalbenchmark.com\u002F): a collection of 13k multi-choice questions spanning  52 disciplines of knowledge test in Chinese. \n* [TheoremQA](https:\u002F\u002Fgithub.com\u002Fwenhuchen\u002FTheoremQA) (Hard!): 800 QA pairs covering 350+ theorems spanning across Math, EE&CS, Physics and Finance. \n* [SummEdits](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FfactualNLG): 6.3k factual consistency reasoning problems within 10 domains. \n\n## Run \n\n### MMLU\n```bash\ncd MMLU\nmkdir outputs\nAPI_KEY=\u003Cyour_api_key>\n# GPT-3.5-Turbo\npython run_mmlu_gpt_3.5_turbo.py --api_key=${API_KEY}\n# Claude-v1.3\npython run_mmlu_claude.py --api_key=${API_KEY} --engine=claude-v1.3\n\n# LLaMA\nLLAMA_CKPT_DIR=\u003Cpath to model checkpoints>\nPARAM_SIZE=65 # 7, 13, 33, 65\nMODEL_TYPE=llama # [\"llama\", \"falcon\"] \npython run_mmlu_open_source.py --ckpt_dir ${LLAMA_CKPT_DIR} --param_size ${PARAM_SIZE} --model_type ${MODEL_TYPE}\n```\n\n### GSM8k\n```bash\ncd gsm8k \nmkdir outputs\n\n# run gpt-3.5\n# codex_gsm8k_complex.ipynb         -- code-davinci-002 + complex prompt\n# gpt3.5turbo_gsm8k_complex.ipynb   -- gpt-3.5-turbo + complex prompt\n\n# run claude\npython run_gsm8k_claude.py\\\n  --anthropic_key=${API_KEY}\\\n  --prompt_file=lib_prompt\u002Fprompt_original.txt\\\n  --engine=claude-v1.3\\\n  --output_file=outputs\u002Fgsm8k_claude_v1.3_original_test.txt\n\n# run FlanT5\n# flan_t5_11b_gsm8k.ipynb\n```\n\n### BBH\n```bash\ncd BBH\nmkdir outputs\n# then run jupyter notebook to see an example penguins dataset\ncd penguins\n# gpt3.5trubo_penguins_original.ipynb\n\n# Or run the script for all datasets\nAPI_KEY=\u003Cyour_api_key>\nTASK=\u003Call | multiple_choice | free_form>\npython run_bbh_gpt_3.5_turbo.py --api_key=${API_KEY} --task=${TASK} # task=all by default\npython run_bbh_claude_v1.3.py --api_key=${API_KEY} --model_index=claude-v1.3 --task=${TASK} # task=all by default\n```\n\n\n## FAQ\n* The sensibility of model performance is very high. \n  * Unfortunately, it is a nature of LLMs. We are currently taking efforts to standardize the prompts (see initial progress [here](spl\u002Fmarkdown.md)) and will update more on it. \n* What are the prompts used in the _complexity-based prompting_ paper?\n  * See `research\u002Fcomplexity_based_prompting\u002F`\n* I want to try some open-sourced model\n  * See `gsm8k\u002Fflan_t5_11b_gsm8k.ipynb` for a place to start\n* There are some prompts that have wrong answer\n  * Yes, but we keep it as they are used in the original papers\n  * Generally the model can be robust under prompt perturbation: even if sometimes there are errors in the prompt, as long as the format of the prompt is about the corresponding task, the model tend to only look at the format, ignore the prompt error, and make its own prediction. \n  * See https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.12837 and https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10001 about more analysis how the model can ignore errors in the prompt\n\n\n## I want to know more about building LLMs for reasoning tasks\nA detailed roadmap is discussed in [our previous blog post](https:\u002F\u002Fyaofu.notion.site\u002FTowards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75).\n\nGenerally, the recipe for building models of strong reasoning is the same as generic LLMs: pretraining, finetuning, reinforcement learning.  Here we list some very important papers that should be considered:\n\n### Pretraining\u002F Continue Training\n\n* Lewkowycz et. al. 2022. Minerva: [Solving Quantitative Reasoning Problems with Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)\n* Taylor et. al. 2022. [Galactica: A Large Language Model for Science](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085)\n\n### Finetuning \n* Chung et. al. 2022. [Scaling Instruction-Finetuned Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)\n* Li et. al. 2022. [Competition-Level Code Generation with AlphaCode](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814)\n* Fu et. al. 2023. [Specializing Smaller Language Models towards Multi-Step Reasoning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12726)\n\n### Reinforcement Learning\n* Uesato et. al. 2022. [Solving math word problems with process- and outcome-based feedback](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.14275)\n* Le et. al. 2022. [CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01780)\n* Lightman et. al. 2023. [Let’s Verify Step by Step](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fimproving-mathematical-reasoning-with-process-supervision)\n\n\n## Under Development\n\n* [CotHub Standard Prompt Library](spl\u002Freadme.md)\n* [TODOs](resources\u002Ftodo.md)\n* [Literature](resources\u002Fliterature.md)\n* [Detailed Results](resources\u002Fdetailed_results.md)\n* Experimental section and long context\n\n","# 思维链枢纽：衡量大语言模型的推理性能\n\n![标题](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFranxYao_chain-of-thought-hub_readme_a28eb1a5fce8.png)\n“一幅幻想风格的插图，描绘了在蓝色夜空中排列成链状的星星，数字艺术，超分辨率”。Midjourney V5\n\n----\n\n\n作者：[Yao Fu](https:\u002F\u002Ffranxyao.github.io\u002F)、[Litu Ou](https:\u002F\u002Fgithub.com\u002FLeonard907)、[Mingyu Chen](https:\u002F\u002Fgithub.com\u002FSpehhhhh)、[Yuhao Wan](https:\u002F\u002Fgithub.com\u002FYuhao-Wan)、[Hao Peng](https:\u002F\u002Fhaopeng-nlp.github.io\u002F)、[Tushar Khot](https:\u002F\u002Fallenai.org\u002Fteam\u002Ftushark)、[Wenhu Chen](https:\u002F\u002Fwenhuchen.github.io\u002F)\n\n来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所、滑铁卢大学\n\n[[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.17306)] [[博客](https:\u002F\u002Fyaofu.notion.site\u002FTowards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75)]  [[推特](https:\u002F\u002Ftwitter.com\u002FFrancis_YAO_\u002Fstatus\u002F1663472109299937280)]\n\n近来，大语言模型领域取得了诸多进展。许多人声称，参数量不足100亿的小模型就能达到与GPT-3.5相当的性能。真的如此吗？\n\n> 在日常对话中，GPT-3.5和GPT-4之间的区别可能并不明显。但当**\\*任务的复杂度达到足够高的阈值时\\***，差异便显现出来——GPT-4更加可靠、富有创造力，并且能够处理比GPT-3.5更为微妙复杂的指令。—— *GPT-4发布博文*\n\n关键的区别在于模型是否能够完成**复杂任务**，正如古语所言：“闲聊不值钱，拿出你的推理能力来。”因此，我们整理了一份包含数学（GSM8K）、科学（MATH、TheoremQA）、符号推理（BBH）、知识（MMLU、C-Eval）、编程（HumanEval）、事实推理（SummEdits）以及长上下文理解（RepoBench、Qspr、QALT、BkSS）等复杂推理任务的清单，用以评估模型在挑战性任务上的表现。\n\n更重要的是，我们设想大语言模型将成为下一代计算平台，并催生基于大语言模型的新应用生态系统。届时，思维链提示工程将扮演下一代系统调用和Shell脚本的角色。\n\n思维链枢纽的可信度源于我们精心挑选的数据集和模型，它们能够清晰地推动大语言模型的发展。该枢纽的研究成果及代码已被大语言模型领域的领先企业和学术机构广泛使用和引用。我们将任务分为三大类：主流、实验性和长上下文。\n\n* 主流：这些数据集稳定可靠，经常被各大模型开发团队所采用。\n* 实验性：这些数据集具有测试未来大语言模型能力的潜力。\n* 长上下文：这些任务要求模型在极长的上下文中进行推理，是未来大语言模型发展的重要方向。\n\n\u003Cdetails>\n  \u003Csummary>[我们考虑的数据集列表]\u003C\u002Fsummary>\n\n  | 版块   | 数据集   | 描述 | \n  | -------  | -------   | ----------- |\n  | 主流     | GSM8K     | 小学水平的数学应用题 |\n  | 主流     | MATH      | 竞赛级别的数学和科学问题 |\n  | 主流     | MMLU      | 多学科知识测试 |\n  | 主流     | BBH       | 挑战性的语言与符号推理任务 |\n  | 主流     | HumanEval | Python编程任务 |\n  | 主流     | C-Eval    | 中文多学科知识测试 |\n  | 实验性     | TheoremQA | 定理证明任务 |\n  | 实验性     | SummEdits | 事实推理任务 |\n  | 长上下文 | Qspr      | 基于科研论文的问答任务 |\n  | 长上下文 | QALT      | 长篇文章和故事的多项选择题 |\n  | 长上下文 | BkSS      | 小说各章节摘要的重新排序任务 |\n\n\u003C\u002Fdetails>\n\n\n**[征集贡献]**：诚邀社区成员：\n* 提交PR以填补表格中的缺失数据\n* 开启议题，提出或共同探讨新的、用于衡量**长上下文推理能力**的任务或基准\n* 开启议题，提出或共同探讨新的、用于衡量**复杂API调用与工具使用**的任务或基准\n* 开启议题，建议其他能够清晰区分不同模型性能的好任务或基准\n* 开启议题，推荐可加入表格的新模型\n\n**[更新 20231210]**：  \n* 新增[Gemini](https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002F#introduction)、[Yi-34B](https:\u002F\u002Fgithub.com\u002F01-ai\u002FYi)、[DeepSeek 67B](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-LLM)  \n* 更新长上下文部分——我们将对该版块持续补充新内容  \n* Mistral 7B8E MoE模型结果预览  \n\u003Cdetails>\n  \u003Csummary>Mistral 7B 8E的表现大致与Yi34B \u002F LLaMA2 70B \u002F DeepSeek 67B相当\u003C\u002Fsummary>\n\n| 基准         | Mistral 7B 密集型 | Mistral 7Bx8E=50B | Yi-34B | DeepSeek-67B | LLaMA2 70B |\n|--------------|------------------|-------------------|--------|--------------|------------|\n| Arc-c        | 59.98            | 66.38             | 64.59  | 65.44        | -          |\n| HellaSwag    | 83.31            | 86.61             | 85.69  | 87.10        | -          |\n| MMLU         | 64.16            | 71.73             | 76.35  | 71.78        | 68.9       |\n| TruthfulQA   | 42.15            | 48.55             | 56.23  | 51.08        | 50.18      |\n| Winogrande   | 78.37            | 82.40             | 83.03  | 84.14        | -          |\n| GSM8K        | 37.83            | 57.09             | 50.64  | 56.71        | 56.8       |\n\n\u003C\u002Fdetails>\n\n**[更新 20230620]**：  \n* 将榜单分为主流（稳定且被广泛引用的数据集）和实验性（具备测试未来大语言模型能力潜力的数据集）两部分。  \n* 新增长上下文板块（实验性）\n\n\u003Cdetails>\n  \u003Csummary>[往期更新]\u003C\u002Fsummary>\n  \n  **[更新 20230609]**：为LLaMA和Falcon添加MMLU的评估脚本[MMLU\u002Freadme.md]\n\n  **[更新 20230601]**：新增SummEdits\n\n  **[更新 20230527]**：新增TheoremQA，并加入Vicuna、Alpaca、InstructCodeT5。\n\u003C\u002Fdetails>\n\n## 排行榜 - 主要\n\n| 模型             | 参数量   | 类型   | GSM8K | MATH | MMLU | BBH     | HumanEval | C-Eval |\n| ----             | --------- | ---- | ----- | ---- | ---- | ---     | --------- | -----  |\n| Gemini Ultra     | ?         | 基础 | -     | 53.2 | 83.7 | 83.6    | 74.4      | -      |\n| gpt-4            | ?         | RLHF | 92.0  | 42.5 | 86.4 | -       | 67.0      | 68.7*  |\n| claude-2         | ?         | RLHF | 88    | -    | 78.5 | -       | 71.2      | -      |\n| Gemini Pro       | ?         | 基础 | -     | 32.6 | 71.8 | 75.0    | 67.7      | -      |\n| claude-v1.3      | ?         | RLHF | 81.8* | -    | 75.6*| 67.3*   | -         | 54.2*  |\n| PaLM-2-Unicorn   | ?         | 基础 | 80.7  | 34.3 | 78.3 | 78.1    | -         | -      |\n| Mistral MoE      | 7Bx8E=46B | 基础 | 57.9  | -    | 71.3 | -       | -         | -      |\n| DeepSeek         | 67B       | 基础 | 56.7  | 18.7 | 71.7 | 68.7    | 42.7      | 66.1   | \n| Yi               | 34B       | 基础 | 50.6  | -    | 76.3 | 54.3    | -         | 81.4   |\n| gpt-3.5-turbo    | ?         | RLHF | 74.9* | -    | 67.3*| 70.1*   | 48.1      | 54.4*  |\n| claude-instant   | ?         | RLHF | 70.8* | -    | 61.3*| 66.9*   | -         | 45.9*  |\n| text-davinci-003 | ?         | RLHF | -     | -    | 64.6 | 70.7    | -         | -      |\n| code-davinci-002 | ?         | 基础 | 66.6  | 19.1 | 64.5 | 73.7    | 47.0      | -      |\n| text-davinci-002 | ?         | SIFT | 55.4  | -    | 60.0 | 67.2    | -         | -      |\n| Minerva          | 540B      | SIFT | 58.8  | 33.6 | -    | -       | -         | -      |\n| Flan-PaLM        | 540B      | SIFT | -     | -    | 70.9 | 66.3    | -         | -      |\n| Flan-U-PaLM      | 540B      | SIFT | -     | -    | 69.8 | 64.9    | -         | -      |\n| PaLM             | 540B      | 基础 | 56.9  | 8.8  | 62.9 | 62.0    | 26.2      | -      |\n| LLaMA-2          | 70B       | 基础 | 56.8  | -    | 68.9 | 51.2    | 29.9      | -      |\n| LLaMA            | 65B       | 基础 | 50.9  | 10.6 | 63.4 | -       | 23.7      | 38.8*  |\n| PaLM             | 64B       | 基础 | 52.4  | 4.4  | 49.0 | 42.3    | -         | -      |\n| Falcon           | 40B       | 基础 | -     | -    | 49.0*| -       | -         | -      |\n| Vicuna           | 33B       | SIFT | -     | -    | 59.2 | -       | -         | -      |\n| LLaMA            | 33B       | 基础 | 35.6  | 7.1  | 57.8 | -       | 21.7      | -      |\n| InstructCodeT5+  | 16B       | SIFT | -     | -    | -    | -       | 35.0      | -      |\n| StarCoder        | 15B       | 基础 | 8.4   | 15.1 | 33.9 | -       | 33.6      | -      |\n| Vicuna           | 13B       | SIFT | -     | -    | -    | 52.1    | -         | -      |\n| LLaMA            | 13B       | 基础 | 17.8  | 3.9  | 46.9 | -       | 15.8      | -      |\n| Flan-T5          | 11B       | SIFT | 16.1* | -    | 48.6 | 41.4    | -         | -      |\n| Alpaca           | 7B        | SIFT | -     | -    | -    | -       | -         | -      |\n| LLaMA            | 7B        | 基础 | 11.0  | 2.9  | 35.1 | -       | 10.5      | -      |\n| Flan-T5          | 3B        | SIFT | 13.5* | -    | 45.5 | 35.2    |    -      | -      |\n\n我们称这些数据集为“主要”，是因为它们相当稳定，并且在各大机构的LLM开发中被广泛使用。基础模型指的是预训练检查点。SIFT指的是经过监督指令微调后的检查点。RLHF指的是经过人类反馈强化学习后的检查点。标有星号*的数据来自我们自己的运行，其余则来自多个来源，具体说明见下文。所有方法均以准确率衡量，数值越高越好。\n\n\n## 排行榜 - 实验性：长上下文\n\n| 模型             | 参数量 | 上下文长度 | 类型   | Qspr      | QALT | BkSS | \n| ----             | ------ | ---- | ---- | --------- | ---- | ---- |\n| 人类             | ?      | ?    | ?    | 67.7      | 93.5 | ?    |\n| gpt-4            | ?      | 8K   | RLHF | 50.7      | 89.2 | 60.5 |\n| claude-v1.3      | ?      | 8K   | RLHF | 52.3      | 84.8 | 47.4 |\n| claude-v1.3      | ?      | 4K   | RLHF | 47.7      | 76.8 | 37.6 |\n| PaLM-2-Unicorn   | ?      | -    | 基础 | -         | -    | -    |\n| PaLM-2-bison     | ?      | -    | RLHF | -         | -    | -    |\n| gpt-3.5-turbo    | ?      | 4K   | RLHF | 49.3      | 66.6 | 49.8 |\n| claude-instant   | ?      | -    | RLHF | -         | -    | -    | \n| text-davinci-003 | ?      | 4K   | RLHF | 52.7      | 69.0 | 49.5 |\n| text-davinci-002 | ?      | -    | SIFT | -         | -    | -    |\n| LLaMA            | 65B    | -    | 基础 | -         | -    | -    |\n| Falcon           | 40B    | -    | 基础 | -         | -    | -    |\n| Flan-UL2         | 20B    | 8K   | SIFT | 56.9      | 75.6 | 14.0 |\n| LLaMA            | 33B    | -    | 基础 | -         | -    | -    |\n| Vicuna           | 13B    | -    | SIFT | -         | -    | -    |\n| LLaMA            | 13B    | -    | 基础 | -         | -    | -    | \n| Flan-T5          | 11B    | 8K   | SIFT | 48.3      | 75.2 | 15.1 |\n| Flan-T5          | 11B    | 4K   | SIFT | 46.5      | 70.8 | 16.4 |\n| T0pp             | 11B    | 8K   | SIFT | 25.0      | 21.4 | 0.0  |\n| Alpaca           | 7B     | -    | SIFT | -         | -    | -    |\n| LLaMA            | 7B     | -    | 基础 | -         | -    | -    |\n| Flan-T5          | 3B     | 8K   | SIFT | 46.6      | 69.6 | 2.2  |\n\n* 待办事项：[RepoBench](https:\u002F\u002Fgithub.com\u002FLeolty\u002Frepobench)：用于基准测试仓库级代码自动补全系统的平台\n* Qspr、QALT 和 BkSS 的数值来自零滚动测试\n* 我们为何选择这些数据集？请参阅[详细文档](resources\u002Flong_context.md)\n\n## 与其他重要评估有何不同？\n* [HeLM](https:\u002F\u002Fcrfm.stanford.edu\u002Fhelm\u002Flatest\u002F) 使用仅答案提示，而我们采用思维链提示。\n* HeLM 对所有模型进行全面评估。我们则专注于复杂推理能力，这是大语言模型的核心差异点。\n* [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard) 主要评估开源语言模型。我们则涵盖了大多数领先的模型。\n  * 目前，LLaMA 65B 在 Open LLM Leaderboard 上的得分仅为48.8，远低于论文中报告的63.4分。这引发了对 LLaMA 和 Falcon 模型之间比较结果的[质疑](https:\u002F\u002Ftwitter.com\u002Fkarpathy\u002Fstatus\u002F1662209158748442625)。\n  * 在我们的[复现](MMLU\u002Freadme.md)中，使用 MMLU 官方提示、贪婪解码和 fp16 精度，我们得到了61.4分。这一结果支持了原始 LLaMA 的分数，并对 Open LLM Leaderboard 的结果提出了质疑。\n  * 我们的[评估脚本](MMLU\u002Frun_mmlu_llama.py)非常简单，大部分参数都采用默认设置，没有复杂的提示工程。我们鼓励社区尝试我们的脚本并复现结果。\n  * 根据[Nathan Lambert](https:\u002F\u002Ftwitter.com\u002Fnatolambert\u002Fstatus\u002F1667249342456160257?s=20)的说法，HuggingFace 目前正在重做 Open LLM Leaderboard 的后端系统，因此排名可能会发生变化（2023年6月10日）。\n* [Chatbot Arena](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-05-03-arena\u002F) 评估聊天机器人模型，更侧重于实际部署中的用户体验。而我们的评估则更面向开发者，不仅关注聊天机器人，也涵盖基础模型。\n\n## 模型如何排序\n* 如果已知模型规模，我们按规模排序。\n* 如果未知模型规模，则依据 GSM8K 分数进行排序，GSM8K 是衡量思维链数学推理能力的经典基准。\n  * 当然，这并非唯一指标，但可以理解为“模型在保持其他通用能力的同时，在数学任务上表现如何”——而这本身也非常具有挑战性。\n  * GPT-4 已经在 GSM8K 训练集上进行了预训练，而其他模型未必如此。因此，GPT-4 在 GSM8K 上的表现属于分布内泛化，而其他模型则是分布外泛化。即便像 FlanT5 这样也在 GSM8K 上训练过的模型，其表现仍然存在差距。\n* 总体而言，由于多种因素（是否在相应训练集上训练、是否包含代码数据、是否优化了提示等），严格比较模型性能非常困难。因此，请将我们的结果视为近似参考。\n\n## 数据来源\n* GPT-4 来自其[官网](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-4)及[Bubeck 等人 2023年3月的研究](https:\u002F\u002Farxiv.org\u002Fabs\u002F2303.12712)。需要注意的是，Bubeck 使用的是 GPT-4 Early 版本，据称比正式发布的 GPT-4 更强大，因为 OpenAI 为了提升安全性付出了大量对齐成本。\n* \\*-davinci-00\\* 和 \\*PaLM 来自[Flan-PaLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)论文附录。\n  * code-davinci-002 是 GPT-3.5 系列的基础模型，但遗憾的是目前已无法访问。\n* LLaMA 来自[LLaMA](https:\u002F\u002Fresearch.facebook.com\u002Fpublications\u002Fllama-open-and-efficient-foundation-language-models\u002F)论文。~~需要注意的是，这些任务中使用的 LLaMA 提示并未公开，因此复现结果可能存在差异，更多讨论请参见[这条推文](https:\u002F\u002Ftwitter.com\u002Fkarpathy\u002Fstatus\u002F1662209158748442625)。~~\n  * ~~我们正在 MMLU 和 BBH 上实现自己的 LLaMA 实现版本，敬请期待。~~\n  * 我们使用 MMLU 官方提示和 HuggingFace Transformers 默认的 `generate()` 函数复现了 LLaMA 在 MMLU 上的结果，与官方数据高度一致。详情请参阅[MMLU\u002Freadme.md]。\n* Falcon 在 MMLU 上的得分来自我们自己的脚本[这里](MMLU\u002Freadme.md)。\n* PaLM-2 来自其[技术报告](https:\u002F\u002Fai.google\u002Fstatic\u002Fdocuments\u002Fpalm2techreport.pdf)。\n* Claude 是我们自己测试脚本的结果，运行方法见下文。\n* LLaMA 模型、PaLM 和 StartCoder 的 HumanEval 结果来自[HuggingFace 报告](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fstarcoder)。Code-davinci-002 在 HumanEval 上的性能则来自[CodeT5+ 论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.07922.pdf)。\n* C-Eval 来自其[官网](https:\u002F\u002Fcevalbenchmark.com\u002Fstatic\u002Fleaderboard.html)。\n* TheoremQA 来自其[GitHub](https:\u002F\u002Fgithub.com\u002Fwenhuchen\u002FTheoremQA)和相关论文。\n* SummEdits 来自其[GitHub](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FfactualNLG\u002Ftree\u002Fmaster)和[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14540)。\n* 长上下文部分的数据来自[zero-scrolls 论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.14196)和[排行榜](https:\u002F\u002Fwww.zero.scrolls-benchmark.com\u002Fleaderboard)。\n* Vicuna 在 MMLU 上的得分来自[Chatbot Arena](https:\u002F\u002Flmsys.org\u002Fblog\u002F2023-06-22-leaderboard\u002F)。\n\n## 当前结果\n* GPT-4 在 GSM8K 和 MMLU 上明显优于其他所有模型。\n* \\*\\***65B 规模的 LLaMA 与 text\u002Fcode-davinci-002 接近，这意味着如果基于该模型正确地进行 SFT 和 RLHF，极有可能以 65B LLaMA 为基础复现 ChatGPT**\\*\\*\n* Claude 是唯一可与 GPT 系列相媲美的模型家族。\n* 在 GSM8K 上，gpt-3.5-turbo 的表现优于 text-davinci-003，这印证了 OpenAI 2023年1月30日发布的公告中提到的“数学能力提升”。\n* 在 MMLU 上，gpt-3.5-turbo 的表现略好于 text-davinci-003，但这种差距并不显著。\n* 同时要注意，gpt-3.5-turbo 的价格仅为 text-davinci-003 的十分之一。\n* 此外，还需注意 GPT-4\u002F3.5 在 GSM8K 上的表现并非真正的少样本学习——在[GPT-4 报告](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fgpt-4.pdf)中提到，他们混合了一部分 GSM8K 训练集来训练模型。\n* LLaMA 在 MMLU 上的表现来自其论文，可能并非基于思维链提示，而是仅答案提示。通常情况下，仅答案提示在 MMLU 上的表现会略好于思维链提示，因此 LLaMA 在 MMLU 上的得分可能被略微高估。\n\n## 可视化\n![标题](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFranxYao_chain-of-thought-hub_readme_ad501bd3be06.png)\n* 开源模型与闭源模型之间存在明显差距。\n* 大多数顶尖模型都经过 RLHF 微调。\n* LLaMA 65B 与 code-davinci-002 非常接近。\n* 现有结果强烈暗示，如果对 LLaMA 正确执行 RLHF，其性能有望接近 ChatGPT-3.5。\n\n## 关于任务的更多信息\n* [GSM8K](https:\u002F\u002Farxiv.org\u002Fabs\u002F2201.11903)：8千道小学数学题。—— 在该数据集上的性能提升会直接转化为与大语言模型交互时的日常数学能力。\n* [MMLU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)：57个学科下的1.5万道题目，涵盖高中和大学的知识。\n* [MATH](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)（难度高！）：7个类别下的1.2万道题目，涉及非常困难的数学和自然科学问题。目前所有模型都难以应对。\n* [BBH](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.09261)：23个子集中的6500道题目，侧重符号和文本推理。\n* [HumanEval](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fhuman-eval)：一个经典的164道Python编程题的手写数据集，用于评估编码能力。\n* [C-Eval](https:\u002F\u002Fcevalbenchmark.com\u002F)：包含52个知识领域的1.3万道选择题的中文知识测试集合。\n* [TheoremQA](https:\u002F\u002Fgithub.com\u002Fwenhuchen\u002FTheoremQA)（难度高！）：800对问答，覆盖数学、电子工程与计算机科学、物理和金融等领域的350多个定理。\n* [SummEdits](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FfactualNLG)：10个领域内的6300道事实一致性推理题。\n\n## 运行\n\n### MMLU\n```bash\ncd MMLU\nmkdir outputs\nAPI_KEY=\u003Cyour_api_key>\n# GPT-3.5-Turbo\npython run_mmlu_gpt_3.5_turbo.py --api_key=${API_KEY}\n# Claude-v1.3\npython run_mmlu_claude.py --api_key=${API_KEY} --engine=claude-v1.3\n\n# LLaMA\nLLAMA_CKPT_DIR=\u003Cpath to model checkpoints>\nPARAM_SIZE=65 # 7, 13, 33, 65\nMODEL_TYPE=llama # [\"llama\", \"falcon\"] \npython run_mmlu_open_source.py --ckpt_dir ${LLAMA_CKPT_DIR} --param_size ${PARAM_SIZE} --model_type ${MODEL_TYPE}\n```\n\n### GSM8k\n```bash\ncd gsm8k \nmkdir outputs\n\n# 运行gpt-3.5\n# codex_gsm8k_complex.ipynb         -- code-davinci-002 + 复杂提示\n# gpt3.5turbo_gsm8k_complex.ipynb   -- gpt-3.5-turbo + 复杂提示\n\n# 运行claude\npython run_gsm8k_claude.py\\\n  --anthropic_key=${API_KEY}\\\n  --prompt_file=lib_prompt\u002Fprompt_original.txt\\\n  --engine=claude-v1.3\\\n  --output_file=outputs\u002Fgsm8k_claude_v1.3_original_test.txt\n\n# 运行FlanT5\n# flan_t5_11b_gsm8k.ipynb\n```\n\n### BBH\n```bash\ncd BBH\nmkdir outputs\n# 然后运行jupyter notebook查看企鹅数据集示例\ncd penguins\n# gpt3.5trubo_penguins_original.ipynb\n\n# 或者运行脚本处理所有数据集\nAPI_KEY=\u003Cyour_api_key>\nTASK=\u003Call | multiple_choice | free_form>\npython run_bbh_gpt_3.5_turbo.py --api_key=${API_KEY} --task=${TASK} # 默认为all\npython run_bbh_claude_v1.3.py --api_key=${API_KEY} --model_index=claude-v1.3 --task=${TASK} # 默认为all\n```\n\n\n## 常见问题\n* 模型性能对输入提示非常敏感。\n  * 不幸的是，这是大语言模型的特性。我们目前正在努力标准化提示（初步进展见[spl\u002Fmarkdown.md]），并将持续更新相关信息。\n* “基于复杂性的提示”论文中使用的提示是什么？\n  * 请参阅`research\u002Fcomplexity_based_prompting\u002F`。\n* 我想尝试一些开源模型。\n  * 可以从`gsm8k\u002Fflan_t5_11b_gsm8k.ipynb`开始。\n* 有些提示的答案是错误的。\n  * 是的，但我们保留原样，因为它们源自原始论文。\n  * 通常情况下，模型对提示扰动具有较强的鲁棒性：即使提示中存在错误，只要提示格式符合相应任务的要求，模型往往会忽略提示中的错误，仅根据格式进行预测。\n  * 更多关于模型如何忽略提示错误的分析，请参阅[https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.12837](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.12837)和[https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10001](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10001)。\n\n## 想了解更多关于构建用于推理任务的大语言模型的信息\n详细的路线图已在我们的上一篇博客文章中讨论：[迈向复杂推理——大型语言模型的北极星](https:\u002F\u002Fyaofu.notion.site\u002FTowards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75)。\n\n一般来说，构建强推理能力模型的方法与通用大语言模型相同：预训练、微调和强化学习。以下是一些需要重点关注的重要论文：\n\n### 预训练\u002F继续训练\n\n* Lewkowycz等人，2022年。Minerva：[使用语言模型解决定量推理问题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.14858)\n* Taylor等人，2022年。[Galactica：一款面向科学领域的大型语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.09085)\n\n### 微调\n* Chung等人，2022年。[指令微调语言模型的扩展](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.11416)\n* Li等人，2022年。[AlphaCode实现竞赛级别的代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.07814)\n* Fu等人，2023年。[将小型语言模型专门化用于多步推理](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.12726)\n\n### 强化学习\n* Uesato等人，2022年。[通过过程和结果反馈解决数学应用题](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.14275)\n* Le等人，2022年。[CodeRL：通过预训练模型和深度强化学习掌握代码生成](https:\u002F\u002Farxiv.org\u002Fabs\u002F2207.01780)\n* Lightman等人，2023年。[让我们逐步验证](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fimproving-mathematical-reasoning-with-process-supervision)\n\n\n## 开发中\n* [CotHub标准提示库](spl\u002Freadme.md)\n* [待办事项](resources\u002Ftodo.md)\n* [文献](resources\u002Fliterature.md)\n* [详细结果](resources\u002Fdetailed_results.md)\n* 实验部分和长上下文","# Chain-of-Thought Hub 快速上手指南\n\nChain-of-Thought Hub 是一个专注于评估大语言模型（LLM）在**复杂推理任务**上性能的开源项目。它通过思维链（Chain-of-Thought, CoT）提示工程，在数学、科学、符号推理、代码生成及长上下文理解等多个维度对模型进行基准测试。\n\n## 环境准备\n\n本项目主要提供评估脚本、数据集配置及结果汇总，通常依赖 Python 环境运行评估代码。\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n*   **Python 版本**: Python 3.8 或更高版本\n*   **前置依赖**:\n    *   `git`: 用于克隆仓库\n    *   `pip`: Python 包管理工具\n    *   (可选) GPU 环境：若需本地运行大型模型推理，建议安装 CUDA 驱动的 NVIDIA GPU\n\n## 安装步骤\n\n1.  **克隆仓库**\n    将项目代码克隆到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FFranxYao\u002Fchain-of-thought-hub.git\n    cd chain-of-thought-hub\n    ```\n\n2.  **安装依赖**\n    虽然主 README 未列出统一的 `requirements.txt`，但各子任务目录（如 `MMLU`, `GSM8K` 等）通常包含独立的评估脚本。建议创建一个虚拟环境并安装通用的 NLP 评估依赖：\n    ```bash\n    python -m venv venv\n    source venv\u002Fbin\u002Factivate  # Windows 用户使用: venv\\Scripts\\activate\n    \n    # 安装基础依赖 (根据具体子目录的 readme 可能需要额外安装)\n    pip install torch transformers accelerate datasets evaluate\n    ```\n\n    > **提示**：具体的评估脚本（如 MMLU 的评估）通常位于对应的子文件夹中（例如 `MMLU\u002Freadme.md`），请进入相应目录查看特定的依赖安装指令。\n\n## 基本使用\n\nChain-of-Thought Hub 的核心价值在于其提供的**基准测试榜单**和**评估方法论**。使用方式主要分为“参考榜单”和“运行评估”两种。\n\n### 1. 参考现有榜单\n直接查看项目中的 Leaderboard 表格，对比不同模型在核心数据集上的表现。\n*   **Main (核心任务)**: 包含 GSM8K (数学), MATH (竞赛数学), MMLU (多学科知识), BBH (符号推理), HumanEval (代码), C-Eval (中文知识)。\n*   **Long Context (长上下文)**: 包含 Qspr, QALT, BkSS 等需要处理长文本的任务。\n\n### 2. 运行特定任务评估\n以 **MMLU** 为例，项目提供了针对 LLaMA 和 Falcon 等模型的评估脚本。\n\n*   **进入任务目录**:\n    ```bash\n    cd MMLU\n    ```\n*   **查看具体运行指令**:\n    阅读该目录下的 `readme.md` 文件，通常包含类似以下的执行命令（示例）：\n    ```bash\n    python eval.py --model_name llama-7b --data_dir ..\u002Fdata\u002Fmmlu\n    ```\n    *(注：具体参数请以子目录下的实际文档为准)*\n\n### 3. 贡献与新增任务\n如果您希望添加新的模型数据或建议新的长上下文\u002F复杂 API 调用基准测试：\n*   **提交数据**: 发送 Pull Request (PR) 填补表格中的缺失数据。\n*   **提出建议**: 在 GitHub Issues 中发起讨论，建议新的任务类型（特别是针对**超长上下文推理**或**复杂工具调用**的基准）。\n\n---\n*更多详细的数据集描述和长上下文测试原理，请参阅项目根目录下的 `resources\u002Flong_context.md` 及各子模块文档。*","某 AI 初创团队正在研发一款面向高中生的智能理科辅导助手，急需验证其核心模型在处理复杂数学推导和科学推理任务时的真实能力。\n\n### 没有 chain-of-thought-hub 时\n- **评估标准模糊**：团队仅依赖日常对话流畅度或简单问答来测试模型，误以为小参数模型已媲美 GPT-3.5，无法识别其在高难度逻辑任务上的短板。\n- **基准测试零散**：需要手动搜集 GSM8K、MATH、HumanEval 等多个数据集的评测脚本，数据格式不统一，整合耗时且容易出错。\n- **优化方向迷失**：缺乏系统性的“思维链”提示词（Chain-of-Thought）对比实验，难以判断模型错误是源于知识缺失还是推理逻辑断裂。\n- **长上下文能力未知**：面对需要结合长篇科研论文或小说情节进行推理的场景，完全没有可靠的基准数据来评估模型表现。\n\n### 使用 chain-of-thought-hub 后\n- **精准定位差距**：通过内置的 MATH 和 BBH 等高难度基准，迅速发现模型在复杂步骤推理中准确率骤降，明确了与顶尖模型的真实性能鸿沟。\n- **一站式评测体系**：直接调用整理好的主流程数据集（如 C-Eval、TheoremQA）和标准化脚本，一天内即可完成跨学科、跨语言的全方位能力摸底。\n- **提示词工程升级**：参考库中成熟的思维链提示策略，像编写系统脚本一样优化模型指令，显著提升了多步数学题的解题正确率。\n- **前瞻能力验证**：利用长上下文专项数据集（如 Qspr、BkSS），提前验证了模型在处理超长教材内容时的推理稳定性，为后续功能迭代指明方向。\n\nchain-of-thought-hub 将分散的推理评测转化为标准化的“系统调用”，帮助开发者从“闲聊式测试”迈向真正的“复杂逻辑验证”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FFranxYao_chain-of-thought-hub_42d7925d.png","FranxYao","Yao Fu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FFranxYao_2bbbbc49.png","Know me through my code",null,"London","Francis_YAO_","yaofu.notion.site","https:\u002F\u002Fgithub.com\u002FFranxYao",[86,90],{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",97.8,{"name":91,"color":92,"percentage":93},"Python","#3572A5",2.2,2771,143,"2026-04-03T00:12:50","MIT","","未说明",{"notes":101,"python":99,"dependencies":102},"README 主要介绍了该项目的评估基准、数据集列表（如 GSM8K, MATH, MMLU 等）以及不同大语言模型的性能排行榜。文中提到了部分模型的评估脚本链接（如 MMLU\u002Freadme.md），但当前提供的文本内容中并未包含具体的运行环境配置、依赖库列表或硬件需求说明。该项目更像是一个评测结果汇总仓库，而非直接提供单一可执行工具的代码库，具体运行需求需参考其子目录中的独立脚本文档。",[],[15,37],"2026-03-27T02:49:30.150509","2026-04-06T08:49:22.769915",[107,112,117,122,127,131],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},13149,"为什么使用此仓库的脚本评估 Falcon 7B 或 LLaMA 的 MMLU 分数，与 Hugging Face Open LLM Leaderboard 上的分数存在巨大差异？","这种差异主要源于评估实现的不同。Hugging Face 排行榜早期使用的 Eleuther AI LM Evaluation Harness 存在一个与 LLaMA 分词相关的 Bug，导致分数偏低；同时其提示词（prompt）设计与官方 MMLU 论文不一致，导致部分模型（如 Falcon 7B）分数虚高。本仓库严格遵循官方 MMLU 论文的提示词设计进行复现，因此结果更为准确可靠。目前 Hugging Face 已承认该问题并正在修正后端以更新排行榜。建议以遵循官方论文实现的评估结果为准。","https:\u002F\u002Fgithub.com\u002FFranxYao\u002Fchain-of-thought-hub\u002Fissues\u002F37",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},13150,"发现示例提示词（Prompt）中的答案标签明显错误（例如 CommonsenseQA 或 GSM8K 中的推导步骤有误），是否需要修复？","维护者决定保留这些已知的错误而不进行修复。研究表明，大语言模型对提示词的“形式”（form）比“含义”（meaning）更敏感。只要提示词的结构形式正确，能够引导模型进入相应的任务模式（如数学推理模式），即使示例中包含错误的标签或推导步骤，模型通常仍能鲁棒地生成正确的预测。相关论文（如 arXiv:2202.12837）也证实了模型对提示词错误的不敏感性。为了保持与原论文实验设置的一致性，这些错误被故意保留。","https:\u002F\u002Fgithub.com\u002FFranxYao\u002Fchain-of-thought-hub\u002Fissues\u002F4",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},13151,"GSM8K 数据集中某些复杂提示词的计算过程似乎有误，这会影响模型效果吗？","不会影响显著效果。这些提示词直接沿用自《Complexity-Based Prompting for Multi-Step Reasoning》原论文的设置。虽然计算细节可能存在人为错误，但实验证明模型具有强大的鲁棒性，能够忽略提示词中的具体数值错误，仅根据提示词的格式结构来执行推理任务。修正这些错误反而会导致与原论文结果不一致，因此维持原样。","https:\u002F\u002Fgithub.com\u002FFranxYao\u002Fchain-of-thought-hub\u002Fissues\u002F3",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},13152,"除了 LLaMA 的分词问题外，为什么 Falcon 7B、MPT 7B 等模型在 Eleuther AI 评估框架下的分数也与此仓库结果不同？","这是因为 Eleuther AI 的 lm-evaluation-harness 工具在提示词构建上与标准实现存在细微差别（例如提示词稍短或格式不同），导致分数偏差。对于 Falcon 7B 等模型，这种实现差异可能导致分数被高估（例如排行榜显示 0.35 而实际约为 0.26-0.27）。建议参考 Hugging Face 官方博客关于评估 MMLU 排行榜的调查文章，或直接使用本仓库中严格遵循官方论文的实现以获得公平对比。","https:\u002F\u002Fgithub.com\u002FFranxYao\u002Fchain-of-thought-hub\u002Fissues\u002F40",{"id":128,"question_zh":129,"answer_zh":130,"source_url":111},13153,"为什么不同的提示词选择会导致模型绝对分数不同，但模型间的相对排名通常保持一致？","MMLU 是一个相对稳定和鲁棒的基准测试。虽然不同的提示词设计可能会导致所有模型的绝对分数发生波动（整体变高或变低），但它们之间的相对性能排名通常在各种提示词选择下保持一致。不太可能出现某套提示词 drastically 改变模型性能排序的情况（即让原本弱的模型突然超过强的模型）。因此，关注相对排名比纠结于绝对分数的微小差异更有意义。",{"id":132,"question_zh":133,"answer_zh":134,"source_url":121},13154,"《Complexity-Based Prompting for Multi-Step Reasoning》这篇论文具体使用了哪些提示词？","该论文使用的提示词包含在本仓库的 `gsm8k\u002Flib_prompt\u002F` 目录下，具体文件为 `prompt_hardest.txt`。这些提示词专门设计用于展示复杂的推理步骤，以激发模型的多步推理能力。尽管其中个别示例的计算过程可能存在前述的微小错误，但其整体结构和复杂度设计是论文实验的核心部分。",[]]