llm_benchmark

925 8 非常简单 1 次阅读 2天前语言模型其他

AI 解读由 AI 自动生成，仅供参考

llm_benchmark 是一个专注于追踪大语言模型长期进化趋势的个人测评项目。它不依赖互联网公开题目，而是通过每月滚动更新的私有题库，持续考察模型在逻辑推理、数学计算、编程实现及人类直觉等核心领域的表现。

该项目主要解决了当前评测体系缺乏长期跟踪视角、过度依赖静态公开数据集的问题。通过构建包含魔方旋转、复杂代码编写、长文本指令遵循及日志分析等 30 道精选试题（共约 240 个用例），llm_benchmark 能够更敏锐地捕捉模型能力的细微变化与真实水平。其独特的技术亮点在于严格的评分机制：不仅要求答案正确，还强制验证推导过程，对违反约束（如多余解释或违规编程）的行为实行零分制，并采用多次测试取最高分的策略以减少随机性干扰。

llm_benchmark 特别适合开发者、AI 研究人员以及需要深度选型的企业技术决策者使用。对于希望透过营销宣传，从侧面客观观察各大模型实际能力边界与迭代趋势的用户而言，这份榜单提供了极具价值的参考视角，帮助大家避免盲信单一评测结果，根据自身需求做出更明智的选择。

使用场景

某 AI 应用团队在选型大模型以构建自动化数据分析助手时，面临如何在众多候选模型中精准识别逻辑推理与代码生成能力的难题。

没有 llm_benchmark 时

盲目依赖通用榜单：团队仅参考主流综合排行榜，忽略了该场景对“数学规律推导”和“复杂约束编程”的特殊高要求，导致选出的模型在处理具体业务逻辑时频频出错。
缺乏深度能力验证：无法有效评估模型在面对“长文本指令遵循”或“多步骤工具组合”时的真实表现，往往在集成测试阶段才发现模型会胡乱输出解释或忽略关键约束。
评测成本高昂且主观：自行构建涵盖魔方旋转、管道疏通等多样化逻辑题的测试集耗时耗力，且因缺乏统一的评分标准（如推导过程正确性判定），难以客观对比不同模型的细微差距。

使用 llm_benchmark 后

精准匹配垂直能力：通过查阅 llm_benchmark 中针对“数字规律”、“函数求交”及“程序编写”等专项得分，团队迅速锁定了在逻辑推理和代码生成上表现最优的模型，大幅提升了任务成功率。
规避指令遵循陷阱：借助其严格的“零分机制”（即多余解释或违反约束直接记 0 分）评测数据，提前排除了那些看似聪明但无法严格遵守“不写解释”等硬性指令的模型，减少了后期调试成本。
获得动态进化视角：利用 llm_benchmark 每月滚动的私有题库更新机制，团队不仅看到了模型的当前实力，还掌握了其长期进化趋势，避免了因题目泄露或过拟合导致的分数虚高误导。

llm_benchmark 通过聚焦逻辑、数学与编程的深度专项评测，帮助开发者透过综合分数的迷雾，精准锁定真正具备解决复杂问题能力的模型。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具并非本地运行的开源代码库，而是一套基于官方 API 或 OpenRouter 中转的大模型测评方法论与记录榜单。评测过程通过调用云端接口完成，不涉及本地 GPU、显存、CUDA 版本或特定 Python 依赖库的安装需求。题目题库私有且不公开，主要侧重于逻辑、数学、编程及指令遵循能力的测试。

python未说明

快速开始

大模型测评记录

榜单查询

简介

本评测是个人性质，使用滚动更新的私有题库进行长期跟踪评测。
本评测侧重模型对逻辑，数学，编程，人类直觉等问题的测试。不够权威，不够全面。仅从一个侧面观察各个大模型的长期进化趋势。
本评测的题库规模不大，长期维持在30题/240个用例以内，不使用任何互联网公开题目。题目每月会有滚动更新。题目不公开，意图是分享一种评测思路，以及个人见解。每个人应该根据自己所需，对大模型进行考察。不可盲信任何评测。
因为题目会每月增减，每个模型的成绩在每个月榜单中会有正负4分左右的变化，属于正常现象。大致排序保持稳定。

评测方法

每道题设置若干个得分点，有些题目每个用例通过记1分，有些题目每答出一个符合要求的数据/文本记1分。每题有至少1个得分点。最终得分是计分除以得分点总数，再乘以10。（即每道题满分10分）
每题要求推导过程必须正确，猜对的答案不得分。部分题目有额外要求，输出多余答案会扣分，避免枚举。
要求回答必须完全符合题目要求，如果明确要求不写解释，不得编程等，而回答包含了解释或编程部分，即使正确，也记0分。
评测统一使用官方API或OpenRouter中转。官方有明确建议的温度值，使用官方温度，否则使用默认温度值0.1，推理模型限制思考长度30K，输出长度10K，无法分别设置的模型，设置总输出为40K。非推理模型设置输出长度10K。模型支持的MaxToken达不到上限，就按模型上限。其他参数均默认。部分不提供API的模型使用官网问答。每道题测3遍，取最高分。

题目大纲

4、魔方旋转：按规则拧魔方后求魔方颜色
11、岛屿面积：给定字符形式地图，求图中岛屿面积
24、数字规律：给2个示例，找数字变换规律
28、符号定义：重新定义数学符号含义，求数学计算式值
30、日记整理：阅读长文本，按给定条件和多个要求整理文本，考察指令遵循
31、棋盘图案：求经过棋盘上给定2个点的最大面积等腰三角形顶点
32、干支纪年：天干中删除部分，求历史某一年的干支
37、投影问题：给三维投影视图，求对应的立方体体积
38、函数求交：给多个函数求所有交点
39、火车售票：多个车次，多人次操作购票退票，求最终售票情况
41、交织文本解读：从多段交织混合文本中寻找问题答案
42、长文本总结：从文本中提炼关键数据，输出核心摘要
43、目标数：通过数学运算将给定数字组合，计算得到目标数字
44、工具组合：给定若干工具，通过使用工具，得到指定输出
45、程序编写：完成复杂约束下的python编程
48、字符处理：根据规则对一段文本进行字符级别处理和统计
49、激光布局：根据条件约束，在10x10空间中部署满足要求的激光器
50、日志分析：在约20K的生产服务器日志中找到有效线索进行归纳
51、复杂计算：综合考察K12范围内的数学公式和计算能力
52、观棋不语：从一场没有解说的对局中归纳游戏规则
53、管道疏通：使用一定手段使阻塞的管道通畅
54、高级拼图：从多块拼图中选择部分拼图完成图形
55、寻路问题：在给出的地图中寻找符合条件的通路
56、年会抽奖：在多重规则下和复杂文本下找到年会中奖者
57、单词组合：从数百个单词中找到满足条件的N个词
58、规则推导：给给出的计算示范中推导计算规则
59、代码阅读：复现约300行的算法代码的计算结果
60、程序编写：完成有多个相互影响条件的程序编写

更新机制

新模型测试后，总榜实时更新
每月底做一次成绩归档
每个模型的详细评测首发在知乎个人号: 知乎主页，和微信公众号：大模型观测员

qrcode_for_gh_ced94128890d_258

llm_benchmark 快速上手指南

注意：llm_benchmark 是一个用于记录和分析大模型在逻辑、数学、编程等维度表现的评测数据集与方法论项目，而非一个可直接通过 pip install 安装的命令行工具。本指南旨在帮助开发者理解其评测机制，并基于提供的题目大纲自行构建评测脚本或参与测试。

环境准备

本项目主要涉及大模型 API 调用与结果分析，无复杂的系统依赖。

操作系统：Windows / macOS / Linux 均可
编程语言：推荐 Python 3.8+（用于编写调用脚本和解析结果）
前置依赖：
- 有效的各大模型官方 API Key 或 OpenRouter API Key
- 网络连接（需访问模型服务商接口）
- 基础文本处理能力（用于构造 Prompt 和解析输出）

安装步骤

由于本项目是开源的评测记录与题库思路分享，无需执行传统的安装命令。

获取题库思路 克隆仓库或下载题目大纲（参考 README 中的“题目大纲”部分），根据描述的逻辑自行构造测试用例。
```
git clone https://github.com/llm2014/llm_benchmark.git
```
准备评测脚本 使用 Python 编写简单的评测脚本，核心逻辑需遵循以下规则：
- 构造符合题目要求的 Prompt（严格限制输出格式，如“不写解释”、“不得编程”）。
- 调用模型 API（温度设置：官方建议值或默认 0.1）。
- 针对推理模型限制思考长度（30K）和输出长度（10K），非推理模型输出长度设为 10K。
- 每道题重复测试 3 次，取最高分。

基本使用

本项目的核心在于复现评测逻辑。以下是一个基于 Python 的简易评测流程示例，演示如何针对“题目 24：数字规律”进行单次测试。

1. 构造测试请求

根据评测方法，设置参数并发送请求。

import openai  # 或其他模型 SDK

def evaluate_model(prompt, api_key, base_url):
    client = openai.OpenAI(api_key=api_key, base_url=base_url)
    
    # 评测参数设置
    temperature = 0.1  # 默认温度
    max_tokens = 10000 # 非推理模型输出上限
    
    try:
        response = client.chat.completions.create(
            model="target-model-name",
            messages=[{"role": "user", "content": prompt}],
            temperature=temperature,
            max_tokens=max_tokens,
            # 推理模型需额外控制思考长度，此处为示例
            extra_body={"max_reasoning_tokens": 30000} 
        )
        return response.choices[0].message.content
    except Exception as e:
        return f"Error: {str(e)}"

# 示例：题目 24 数字规律 (假设题目内容)
test_prompt = """
给定以下数字变换规律：
输入 2 -> 输出 6
输入 5 -> 输出 20
请计算：输入 8 -> 输出？
要求：直接输出数字，不要包含任何解释或推导过程。
"""

# 执行测试
result = evaluate_model(test_prompt, "YOUR_API_KEY", "https://api.openrouter.ai/v1")
print(f"模型回答：{result}")

2. 评分逻辑

根据项目规则手动或自动评分：

得分点检查：答案是否正确（本例应为特定数值）。
格式检查：若回答中包含“解释”、“推导”等多余内容，即使答案正确也记 0 分。
最终计分：单题满分 10 分，多题平均分即为模型得分。

3. 查看榜单

完成测试后，可将数据与官方榜单对比，或访问项目主页查看最新排名趋势：

榜单查询：https://llm2014.github.io/llm_benchmark/
详细解读：关注知乎主页 toyama 或微信公众号“大模型观测员”。

常见问题

为什么评测榜单中没有包含 Kimi 模型？

在哪里可以查看题目的具体考察点描述？

编程榜中 Doubao-Seed-1.6 的排序似乎有误，是否已修复？

前端页面布局太宽导致换行别扭，能否调整最大宽度？

最终成绩表格中是否增加了序号以便查看排名？

Web 语言平均成绩数据集中出现注释被误识别为数据的情况，如何处理？

是否可以在 README 中直接展示最新的榜单结果？

编程部分的测评是否支持按不同编程语言分别显示得分？

相似工具推荐

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.7k|★★☆☆☆|今天

开发框架Agent语言模型

DeepSeek-V3

DeepSeek-V3 是一款由深度求索推出的开源混合专家（MoE）大语言模型，旨在以极高的效率提供媲美顶尖闭源模型的智能服务。它拥有 6710 亿总参数，但在处理每个 token 时仅激活 370 亿参数，这种设计巧妙解决了大规模模型推理成本高、速度慢的难题，让高性能 AI 更易于部署和应用。这款模型特别适合开发者、研究人员以及需要构建复杂 AI 应用的企业团队使用。无论是进行代码生成、逻辑推理还是多轮对话开发，DeepSeek-V3 都能提供强大的支持。其独特之处在于采用了无辅助损失的负载均衡策略和多令牌预测训练目标，前者在提升计算效率的同时避免了性能损耗，后者则显著增强了模型表现并加速了推理过程。此外，模型在 14.8 万亿高质量令牌上完成预训练，且整个训练过程异常稳定，未出现不可恢复的损失尖峰。凭借仅需 278.8 万 H800 GPU 小时即可完成训练的高效特性，DeepSeek-V3 为开源社区树立了一个兼顾性能与成本效益的新标杆。

★ 102.7k|★★★★★|今天

语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|3天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2周前

开发框架语言模型