llm_benchmark
llm_benchmark 是一个专注于追踪大语言模型长期进化趋势的个人测评项目。它不依赖互联网公开题目,而是通过每月滚动更新的私有题库,持续考察模型在逻辑推理、数学计算、编程实现及人类直觉等核心领域的表现。
该项目主要解决了当前评测体系缺乏长期跟踪视角、过度依赖静态公开数据集的问题。通过构建包含魔方旋转、复杂代码编写、长文本指令遵循及日志分析等 30 道精选试题(共约 240 个用例),llm_benchmark 能够更敏锐地捕捉模型能力的细微变化与真实水平。其独特的技术亮点在于严格的评分机制:不仅要求答案正确,还强制验证推导过程,对违反约束(如多余解释或违规编程)的行为实行零分制,并采用多次测试取最高分的策略以减少随机性干扰。
llm_benchmark 特别适合开发者、AI 研究人员以及需要深度选型的企业技术决策者使用。对于希望透过营销宣传,从侧面客观观察各大模型实际能力边界与迭代趋势的用户而言,这份榜单提供了极具价值的参考视角,帮助大家避免盲信单一评测结果,根据自身需求做出更明智的选择。
使用场景
某 AI 应用团队在选型大模型以构建自动化数据分析助手时,面临如何在众多候选模型中精准识别逻辑推理与代码生成能力的难题。
没有 llm_benchmark 时
- 盲目依赖通用榜单:团队仅参考主流综合排行榜,忽略了该场景对“数学规律推导”和“复杂约束编程”的特殊高要求,导致选出的模型在处理具体业务逻辑时频频出错。
- 缺乏深度能力验证:无法有效评估模型在面对“长文本指令遵循”或“多步骤工具组合”时的真实表现,往往在集成测试阶段才发现模型会胡乱输出解释或忽略关键约束。
- 评测成本高昂且主观:自行构建涵盖魔方旋转、管道疏通等多样化逻辑题的测试集耗时耗力,且因缺乏统一的评分标准(如推导过程正确性判定),难以客观对比不同模型的细微差距。
使用 llm_benchmark 后
- 精准匹配垂直能力:通过查阅 llm_benchmark 中针对“数字规律”、“函数求交”及“程序编写”等专项得分,团队迅速锁定了在逻辑推理和代码生成上表现最优的模型,大幅提升了任务成功率。
- 规避指令遵循陷阱:借助其严格的“零分机制”(即多余解释或违反约束直接记 0 分)评测数据,提前排除了那些看似聪明但无法严格遵守“不写解释”等硬性指令的模型,减少了后期调试成本。
- 获得动态进化视角:利用 llm_benchmark 每月滚动的私有题库更新机制,团队不仅看到了模型的当前实力,还掌握了其长期进化趋势,避免了因题目泄露或过拟合导致的分数虚高误导。
llm_benchmark 通过聚焦逻辑、数学与编程的深度专项评测,帮助开发者透过综合分数的迷雾,精准锁定真正具备解决复杂问题能力的模型。
运行环境要求
未说明
未说明

快速开始
大模型测评记录
简介
- 本评测是个人性质,使用滚动更新的私有题库进行长期跟踪评测。
- 本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试。不够权威,不够全面。仅从一个侧面观察各个大模型的长期进化趋势。
- 本评测的题库规模不大,长期维持在30题/240个用例以内,不使用任何互联网公开题目。题目每月会有滚动更新。题目不公开,意图是分享一种评测思路,以及个人见解。每个人应该根据自己所需,对大模型进行考察。不可盲信任何评测。
- 因为题目会每月增减,每个模型的成绩在每个月榜单中会有正负4分左右的变化,属于正常现象。大致排序保持稳定。
评测方法
- 每道题设置若干个得分点,有些题目每个用例通过记1分,有些题目每答出一个符合要求的数据/文本记1分。每题有至少1个得分点。最终得分是计分除以得分点总数,再乘以10。(即每道题满分10分)
- 每题要求推导过程必须正确,猜对的答案不得分。部分题目有额外要求,输出多余答案会扣分,避免枚举。
- 要求回答必须完全符合题目要求,如果明确要求不写解释,不得编程等,而回答包含了解释或编程部分,即使正确,也记0分。
- 评测统一使用官方API或OpenRouter中转。官方有明确建议的温度值,使用官方温度,否则使用默认温度值0.1,推理模型限制思考长度30K,输出长度10K,无法分别设置的模型,设置总输出为40K。非推理模型设置输出长度10K。模型支持的MaxToken达不到上限,就按模型上限。其他参数均默认。部分不提供API的模型使用官网问答。每道题测3遍,取最高分。
题目大纲
4、魔方旋转:按规则拧魔方后求魔方颜色
11、岛屿面积:给定字符形式地图,求图中岛屿面积
24、数字规律:给2个示例,找数字变换规律
28、符号定义:重新定义数学符号含义,求数学计算式值
30、日记整理:阅读长文本,按给定条件和多个要求整理文本,考察指令遵循
31、棋盘图案:求经过棋盘上给定2个点的最大面积等腰三角形顶点
32、干支纪年:天干中删除部分,求历史某一年的干支
37、投影问题:给三维投影视图,求对应的立方体体积
38、函数求交:给多个函数求所有交点
39、火车售票:多个车次,多人次操作购票退票,求最终售票情况
41、交织文本解读:从多段交织混合文本中寻找问题答案
42、长文本总结:从文本中提炼关键数据,输出核心摘要
43、目标数:通过数学运算将给定数字组合,计算得到目标数字
44、工具组合:给定若干工具,通过使用工具,得到指定输出
45、程序编写:完成复杂约束下的python编程
48、字符处理:根据规则对一段文本进行字符级别处理和统计
49、激光布局:根据条件约束,在10x10空间中部署满足要求的激光器
50、日志分析:在约20K的生产服务器日志中找到有效线索进行归纳
51、复杂计算:综合考察K12范围内的数学公式和计算能力
52、观棋不语:从一场没有解说的对局中归纳游戏规则
53、管道疏通:使用一定手段使阻塞的管道通畅
54、高级拼图:从多块拼图中选择部分拼图完成图形
55、寻路问题:在给出的地图中寻找符合条件的通路
56、年会抽奖:在多重规则下和复杂文本下找到年会中奖者
57、单词组合:从数百个单词中找到满足条件的N个词
58、规则推导:给给出的计算示范中推导计算规则
59、代码阅读:复现约300行的算法代码的计算结果
60、程序编写:完成有多个相互影响条件的程序编写
更新机制
- 新模型测试后,总榜实时更新
- 每月底做一次成绩归档
- 每个模型的详细评测首发在知乎个人号: 知乎主页,和微信公众号:大模型观测员

常见问题
相似工具推荐
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
DeepSeek-V3
DeepSeek-V3 是一款由深度求索推出的开源混合专家(MoE)大语言模型,旨在以极高的效率提供媲美顶尖闭源模型的智能服务。它拥有 6710 亿总参数,但在处理每个 token 时仅激活 370 亿参数,这种设计巧妙解决了大规模模型推理成本高、速度慢的难题,让高性能 AI 更易于部署和应用。 这款模型特别适合开发者、研究人员以及需要构建复杂 AI 应用的企业团队使用。无论是进行代码生成、逻辑推理还是多轮对话开发,DeepSeek-V3 都能提供强大的支持。其独特之处在于采用了无辅助损失的负载均衡策略和多令牌预测训练目标,前者在提升计算效率的同时避免了性能损耗,后者则显著增强了模型表现并加速了推理过程。此外,模型在 14.8 万亿高质量令牌上完成预训练,且整个训练过程异常稳定,未出现不可恢复的损失尖峰。凭借仅需 278.8 万 H800 GPU 小时即可完成训练的高效特性,DeepSeek-V3 为开源社区树立了一个兼顾性能与成本效益的新标杆。
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
spec-kit
Spec Kit 是一款专为提升软件开发效率而设计的开源工具包,旨在帮助团队快速落地“规格驱动开发”(Spec-Driven Development)模式。传统开发中,需求文档往往与代码实现脱节,导致沟通成本高且结果不可控;而 Spec Kit 通过将规格说明书转化为可执行的指令,让 AI 直接依据明确的业务场景生成高质量代码,从而减少从零开始的随意编码,确保产出结果的可预测性。 该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程,用户只需通过简单的命令行操作,即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念,支持社区扩展与预设模板,允许用户根据特定技术栈定制开发流程。此外,Spec Kit 强调官方维护的安全性,提供稳定的版本管理,帮助开发者在享受 AI 红利的同时,依然牢牢掌握架构设计的主动权,真正实现从“凭感觉写代码”到“按规格建系统”的转变。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。