Awesome-LLM-Eval

627 54 非常简单 1 次阅读 1周前MIT其他数据工具语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

Awesome-LLM-Eval 是一个专注于大语言模型（LLM）评测的精选资源库，旨在帮助社区探索生成式 AI 的技术边界。面对当前大模型评估标准分散、维度单一的痛点，它系统性地整合了评测工具、基准数据集、演示案例、权威排行榜、前沿论文以及各类模型列表，为用户提供了一站式的导航服务。

该资源库不仅涵盖了通用能力评估，还深入细分领域，包括代码生成、智能体协作、检索增强生成（RAG）、长上下文处理及多模态交互等关键场景。其独特的技术亮点在于引入了“拟人化与价值导向”的评估路线图，主张超越传统的分数比拼，从更接近人类认知和价值观的维度审视模型能力，并持续更新如 LightEval、OpenCompass 等主流评测框架。

Awesome-LLM-Eval 非常适合 AI 研究人员、算法工程师及技术决策者使用。无论是需要复现最新研究成果的学者，还是致力于优化模型性能的开发者，都能在此快速找到所需的评估方案与数据支持，从而更高效地推动大模型技术的落地与迭代。

使用场景

某金融科技公司算法团队正急需为即将上线的智能投顾大模型进行全方位能力评估，以确保其在专业问答、逻辑推理及安全性上符合监管要求。

没有 Awesome-LLM-Eval 时

资源搜集低效：团队成员需花费数天在 GitHub、Hugging Face 和论文网站间手动搜索分散的评测工具与数据集，极易遗漏关键基准。
评测维度单一：仅依赖通用的准确率指标，缺乏针对金融领域（如 FinEval）、长上下文理解及 Agent 自主决策能力的专项评估方案。
选型盲目：面对层出不穷的新模型，缺乏权威的排行榜（Leaderboard）和横向对比数据，难以判断哪个开源模型最适合业务场景。
标准不统一：不同成员采用的评测脚本和数据处理方式各异，导致评估结果无法复现，团队内部对模型性能争议不断。

使用 Awesome-LLM-Eval 后

一站式获取资源：直接利用其精选列表，快速定位到 ColossalEval、OpenCompass 等成熟工具及 OpenFinData 等专业数据集，将准备周期从数天缩短至几小时。
构建多维评估体系：参考其分类架构，迅速搭建涵盖通用能力、金融垂直领域、RAG 检索增强及安全对齐的全方位评测框架，无死角探查模型边界。
科学决策选型：依托集成的最新排行榜和论文综述，精准锁定在金融推理任务上表现最优的开源模型，大幅降低试错成本。
统一评测规范：采纳社区公认的评测范式与文档，确保团队内部测试流程标准化，输出结果具备高度可比性和说服力。

Awesome-LLM-Eval 通过整合碎片化的评测生态，帮助团队从“盲目摸索”转向“科学度量”，显著提升了大模型落地的效率与可靠性。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesAwesome-LLM-Eval 是一个 curated list（精选列表）项目，主要收录用于大语言模型评估的工具、数据集、基准测试、论文和模型等资源清单。该项目本身不是一个可执行的软件工具或框架，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库安装要求。用户若需使用列表中提到的具体评估工具（如 OpenCompass, AlpacaEval, DeepEval 等），请参考各工具独立的文档以获取相应的运行环境需求。

python未说明

快速开始

强大的大语言模型评估

English | 中文

Awesome-LLM-Eval：一个精心整理的工具、数据集/基准测试、演示、排行榜、论文、文档和模型列表，主要用于对大型语言模型进行评估，并探索生成式人工智能的边界与局限。

这是我们的综述文章的官方项目：《超越基准：以拟人化和价值导向的路线图评估大语言模型》（arxiv.org/abs/2508.18646）。

注意： 由于我们无法实时更新 arXiv 论文，请参考此仓库获取最新信息，论文可能会在稍后更新。我们也欢迎任何拉取请求或问题，帮助我们改进这项工作。您的贡献将在致谢部分被提及。

如果您觉得我们的综述有用，请引用我们的论文：

@misc{wang2025llmevalroadmap,
      title={Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap}, 
      author={Jun Wang and Ninglun Gu and Kailai Zhang and Zijiao Zhang and Yelun Bao and Jin Yang and Xu Yin and Liwei Liu and Yihuan Liu and Pengyong Li and Gary G. Yen and Junchi Yan},
      year={2025},
      eprint={2508.18646},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.18646}, 
}

新闻

[2025年8月20日] 我们新增了拟人化分类法部分。
[2024年4月26日] 我们新增了推理速度部分。
[2024年2月26日] 我们新增了编程评估部分。
[2024年2月8日] 我们加入了来自 Hugging Face 的 lighteval 工具。
[2024年1月15日] 我们新增了 CRUXEval（arxiv.org/abs/2401.03065）、DebugBench（github.com/thunlp/DebugBench）、OpenFinData（opencompass.org.cn）以及 LAiW（github.com/Dai-shen/LAiW）。
[2023年12月20日] 我们新增了RAG-评估部分。
[2023年11月15日] 我们新增了用于评估大语言模型指令遵循能力的 Instruction-Following-Evaluation（google-research/google-research/tree/master/instruction_following_eval）和 LLMBar（github.com/princeton-nlp/LLMBar）。
[2023年10月20日] 我们新增了用于大语言模型智能体评估的 SuperCLUE-Agent（github.com/CLUEbenchmark/SuperCLUE-Agent）。
[2023年9月25日] 我们加入了来自 Colossal-AI 的 ColossalEval（github.com/hpcaitech/ColossalAI/tree/main/applications/ColossalEval）。
[2023年9月22日] 我们新增了排行榜查找器章节。
[2023年9月20日] 我们新增了来自 CLUEbenchmark 的 DeepEval（github.com/mr-gpt/deepeval）、FinEval（github.com/SUFE-AIFLM-Lab/FinEval）以及 SuperCLUE-Safety（github.com/CLUEbenchmark/SuperCLUE-Safety）。
[2023年9月18日] 我们新增了来自上海人工智能实验室的 OpenCompass（github.com/InternLM/opencompass/tree/main）。
[2023年8月3日] 我们新增了两款中国大语言模型：Baichuan（github.com/baichuan-inc/Baichuan-13B）和 Qwen（github.com/QwenLM/Qwen-7B）。
[2023年6月28日] 我们新增了 AlpacaEval（github.com/tatsu-lab/alpaca_eval）以及多个工具。
[2023年4月26日] 我们发布了包含多个基准测试的 V0.1 版本评估列表。

拟人化分类法

典型智商（IQ）——通用智能评估基准

名称	年份	任务类型	机构	评估重点	数据集	链接
MMLU-Pro	2024	多选题知识测试	TIGER-AI-Lab	细致推理，减少噪声	MMLU-Pro	链接
DyVal	2024	动态评估	Microsoft	数据污染，复杂度控制	DyVal	链接
PertEval	2024	通用	USTC	知识容量	PertEval	链接
LV-Eval	2024	长文本问答	Infinigence-AI	长度多样性，事实准确性	11个子集	链接
LLM-Uncertainty-Bench	2024	NLP任务	Tencent	不确定性量化	5个NLP任务	链接
CommonGen-Eval	2024	生成	AI2	常识	CommonGen-lite	链接
MathBench	2024	数学	上海AI实验室	理论与实践相结合问题解决	各种	链接
AIME	2024	数学	MAA	美国邀请数学竞赛	各种	链接
FrontierMath	2024	数学	Epoch AI	原创、具有挑战性的数学问题	各种	链接
FELM	2023	事实性	HKUST	事实性	847个问题	链接
Just-Eval-Instruct	2023	通用	AI2 Mosaic	有用性，可解释性	各种	链接
MLAgentBench	2023	机器学习研究	snap-stanford	端到端机器学习任务	15个任务	链接
UltraEval	2023	通用	OpenBMB	轻量、灵活、快速	各种	链接
FMTI	2023	透明性	斯坦福大学	模型透明性	100项指标	链接
BAMBOO	2023	长文本	RUCAIBox	长文本建模	10个数据集	链接
TRACE	2023	持续学习	复旦大学	持续学习	8个数据集	链接
ColossalEval	2023	通用	Colossal-AI	统一评估	各种	链接
LLMEval²	2023	通用	AlibabaResearch	广泛而深入的评估	2,553个样本	链接
BigBench	2023	通用	Google	知识、语言、推理	各种	链接
LucyEval	2023	通用	Oracle	成熟度评估	各种	链接
Zhujiu	2023	通用	IACAS	综合评估	51个任务	链接
ChatEval	2023	聊天	THU-NLP	类人评估	各种	链接
FlagEval	2023	通用	THU	主观与客观评分	各种	链接
AlpacaEval	2023	通用	tatsu-lab	自动评估	各种	链接
GPQA	2023	通用	NYU	研究生级别的谷歌认证问答	各种	链接
MuSR	2023	推理	Zayne Sprague	基于叙事的推理	756个	链接
FreshQA	2023	知识	FreshLLMs	当今世界知识	599个	链接
AGIEval	2023	通用	Microsoft	以人为中心的推理	NA	链接
SummEdits	2023	通用	Salesforce	不一致性检测	6,348个	链接
ScienceQA	2022	推理	UCLA	科学推理	21,208个	链接
e-CARE	2022	推理	HIT	可解释的因果关系	21,000个	链接
BigBench Hard	2022	推理	BigBench	具有挑战性的子任务	6,500个	链接
PlanBench	2022	推理	ASU	行动规划	11,113个	链接
MGSM	2022	数学	Google	小学数学问题，涵盖10种语言	各种	链接
MATH	2021	数学	UC Berkeley	数学问题解决	各种	链接
GSM8K	2021	数学	OpenAI	多样化的小学数学应用题	各种	链接
SVAMP	2021	数学	Microsoft	算术推理	1,000个	链接
SpartQA	2021	推理	MSU	文本空间问答	510个	链接
MLSUM	2020	通用	Thomas Scialom	新闻摘要	535,062个	链接
Natural Questions	2019	语言、推理	Google	基于搜索的问答	300,000个	链接
ANLI	2019	语言、推理	Facebook AI	对抗性推理	169,265个	链接
BoolQ	2019	语言、推理	Google	二元问答	16,000个	链接
SuperGLUE	2019	语言、推理	NYU	高级GLUE任务	NA	链接
DROP	2019	语言、推理	UCI NLP	段落级推理	96,000个	链接
HellaSwag	2019	语言、推理	AI2	常识推理	59,950个	链接
Winogrande	2019	语言、推理	AI2	代词消歧义	44,000个	链接
PIQA	2019	语言、推理	AI2	物理交互问答	18,000个	链接
HotpotQA	2018	语言、推理	HotpotQA	可解释的问答	113,000个	链接
GLUE	2018	语言、推理	NYU	基础NLU任务	NA	链接
OpenBookQA	2018	语言、推理	AI2	开放书本考试	12,000个	链接
SQuAD2.0	2018	语言、推理	斯坦福大学	无法回答的问题	150,000个	链接
ARC	2018	语言、推理	AI2	AI2推理挑战	7,787个	链接
SWAG	2018	语言、推理	AI2	对抗性的常识推理	113,000个	链接
CommonsenseQA	2018	语言、推理	AI2	常识推理	12,102个	链接
RACE	2017	语言、推理	CMU	考试形式的问答	100,000个	链接
SciQ	2017	语言、推理	AI2	群众贡献的科学知识	13,700个	链接
TriviaQA	2017	语言、推理	AI2	远程监督	650,000个	链接
MultiNLI	2017	语言、推理	NYU	跨类型蕴含关系	433,000个	链接
SQuAD	2016	语言、推理	斯坦福大学	基于维基百科的问答	100,000个	链接
LAMBADA	2016	语言、推理	CIMEC	话语上下文	12,684个	链接
MS MARCO	2016	语言、推理	Microsoft	基于搜索的问答	1,112,939个	链接

典型职业商数（PQ）——职业专业能力评估基准

领域	名称	机构	任务范围	独特贡献	链接
	BLURB	Mindrank AI	六种多样化的NLP任务，十三个数据集	所有任务上的宏平均得分	链接
	Seismometer	Epic	使用本地数据和工作流程	患者人口统计学特征、临床干预及治疗结果	链接
医疗保健	Medbench	OpenMEDLab	强调科学严谨性和公平性	来自医学考试和报告的40,041个问题	链接
	GenMedicalEval	E	16个专业领域，3个训练阶段，6种临床场景	开放式指标和自动化评估模型	链接
	PsyEval	SJTU	六个子任务，涵盖三个维度	面向心理健康大语言模型的定制化基准测试	链接
	Fin-Eva	蚂蚁集团	财富管理、保险、投资研究	同时包含工业界和学术界的金融评估	链接
金融	FinEval	SUFE-AIFLM-Lab	关于金融、经济学和会计的选择题问答	专注于高质量的评估题目	链接
	OpenFinData	上海人工智能实验室	多场景金融任务	首个全面的金融评估数据集	链接
	FinBen	FinAI	23项金融任务中的35个数据集	归纳推理、定量推理	链接
	LAiW	四川大学	13项基础法律NLP任务	将法律NLP能力划分为三大核心能	链接
法律	LawBench	南京大学	法律实体识别、阅读理解	真实世界任务，“弃权率”指标	链接
	LegalBench	斯坦福大学	162项任务，涵盖六种法律推理类型	促进跨学科对话	链接
	LexEval	清华大学	组织不同任务的法律认知能力	更大的法律评估数据集，探讨伦理问题	链接
	SPEC5G	普渡大学	安全相关的文本分类与摘要生成	5G协议分析自动化	链接
电信	TeleQnA	华为（巴黎）	通用电信咨询	精通电信相关问题	链接
	OpsEval	清华大学	有线网络运维、5G、数据库运维	专注于AIOps，评估熟练程度	链接
	TelBench	SK电信	数学建模、开放式问答、代码生成	电信领域的整体评估	链接
	TelecomGPT	阿联酋	电信数学建模、开放式问答和代码任务	电信领域的整体评估	链接
	Linguistic	皇后大学	多项以语言为中心的任务	零样本评估	链接
	TelcoLM	Orange	多项选择题问卷	领域特定数据（8亿token，8万条指令）	链接
	ORAN-Bench-13K	GMU	多项选择题	开放式无线接入网（O-RAN）	链接
	Open-Telco Benchmarks	GSMA	多项以语言为中心的任务	零样本评估	链接
	FullStackBench	字节跳动	代码编写、调试、代码审查	汇集了最新的Stack Overflow问答	链接
编程	StackEval	Prosus AI	11个真实场景，16种编程语言	在多样化且实用的编程环境中进行评估	链接
	CodeBenchGen	多家机构	基于执行的代码生成任务	基准规模随大小和复杂度扩展	链接
	HumanEval	华盛顿大学	严格的测试	对生成代码正确性的评估采用更严格的协议	链接
	APPS	加州大学	来自竞技平台的编码挑战	检查生成代码在测试用例上的解题能力	链接
	MBPP	谷歌研究院	来自不同来源的编程问题	多样化的编程任务	链接
	ClassEval	清华大学	类级别的代码生成	手工制作，面向对象编程概念	链接
	CoderEval	北京大学	实用的代码生成	能够针对描述的问题生成有效的代码补丁	链接
	MultiPL-E	普林斯顿大学	神经网络代码生成	用于基准测试神经网络代码生成模型	链接
	CodeXGLUE	微软	代码智能	涵盖广泛的任务：代码-代码、文本-代码、代码-文本以及文本-文本	链接
	EvoCodeBench	北京大学	进化型代码生成基准	与真实世界的代码库对齐，并随时间不断进化	链接

典型的情感商数（EQ）对齐能力评估基准

名称	年份	任务类型	机构	类别	数据集	链接
DiffAware	2025	偏差	斯坦福大学	通用偏差	8个数据集	链接
CASE-Bench	2025	安全性	剑桥大学	上下文感知安全性	CASE-Bench	链接
Fairness	2025	公平性	宾夕法尼亚州立大学	分配公平性	-	-
HarmBench	2024	安全性	伊利诺伊大学厄巴纳-香槟分校	对抗性行为	510	链接
SimpleQA	2024	安全性	OpenAI	事实准确性	4,326	链接
AgentHarm	2024	安全性	英国商业、能源及工业战略部	恶意代理任务	110	链接
StrongReject	2024	安全性	dsbowen	抗攻击性	不适用	链接
LLMBar	2024	指令遵循	普林斯顿大学	指令遵循	419个实例	链接
AIR-Bench	2024	安全性	斯坦福大学	监管对齐	5,694	链接
TrustLLM	2024	通用	TrustLLM	可信度	30+	链接
RewardBench	2024	对齐	AIAI	人类偏好	RewardBench	链接
EQ-Bench	2024	情感	Paech	情商	171个问题	链接
Forbidden	2023	安全性	CISPA	越狱检测	15,140	链接
MaliciousInstruct	2023	安全性	普林斯顿大学	恶意意图	100	链接
SycophancyEval	2023	安全性	Anthropic	观点对齐	不适用	链接
DecodingTrust	2023	安全性	伊利诺伊大学厄巴纳-香槟分校	可信度	243,877	链接
AdvBench	2023	安全性	卡内基梅隆大学	对抗性攻击	1,000	链接
XSTest	2023	安全性	博科尼大学	安全性过度	450	链接
OpinionQA	2023	安全性	tatsu-lab	人口统计学对齐	1,498	链接
SafetyBench	2023	安全性	清华大学	内容安全	11,435	链接
HarmfulQA	2023	安全性	declare-lab	有害主题	1,960	链接
QHarm	2023	安全性	vinid	安全抽样	100	链接
BeaverTails	2023	安全性	北京大学	红队测试	334,000	链接
DoNotAnswer	2023	安全性	Libr-AI	安全机制	939	链接
AlignBench	2023	对齐	THUDM	对齐、可靠性	各种	链接
IFEval	2023	指令遵循	谷歌	指令遵循	500个提示	链接
ToxiGen	2022	安全性	微软	毒性检测	274,000	链接
HHH	2022	安全性	Anthropic	人类偏好	44,849	链接
RedTeam	2022	安全性	Anthropic	红队测试	38,921	链接
BOLD	2021	偏差	亚马逊	生成中的偏差	23,679	链接
BBQ	2021	偏差	纽约大学	社会偏见	58,492	链接
StereoSet	2020	偏差	麦吉尔大学	刻板印象检测	4,229	链接
ETHICS	2020	伦理	伯克利大学	道德判断	134,400	链接
ToxicityPrompt	2020	安全性	AllenAI	毒性评估	99,442	链接
CrowS-Pairs	2020	偏差	纽约大学	刻板印象测量	1,508	链接
SEAT	2019	偏差	普林斯顿大学	编码器偏见	不适用	链接
WinoGender	2018	偏差	马萨诸塞大学	性别偏见	720	链接

工具

名称	组织机构	网站	描述
prometheus-eval	prometheus-eval	prometheus-eval	PROMETHEUS开源评估专用语言模型，性能较其前代版本更强大。它能够高度模拟人类及GPT-4的判断结果。此外，该模型支持直接评分和成对排序两种评估格式，并可结合用户自定义的评估标准使用。在四项直接评分基准和四项成对排序基准上，PROMETHEUS 2与人类评估者及专有语言模型的相关性和一致性均位居所有已测试的开源评估语言模型之首（2024年5月4日）。
athina-evals	athina-ai	athina-ai	Athina-ai是一个开源库，提供即插即用的预设评估工具以及模块化、可扩展的框架，用于编写和运行评估任务。它帮助工程师通过评估驱动的开发方法，系统性地提升大型语言模型的可靠性和性能。Athina-ai提供了一套评估驱动的开发体系，克服了传统工作流程的局限性，支持快速实验，并为用户提供具有统一指标的可定制评估器。
LeaderboardFinder	Huggingface	LeaderboardFinder	LeaderboardFinder可以帮助您为特定场景找到合适的排行榜，堪称“排行榜中的排行榜”（2024年4月2日）。
LightEval	Huggingface	lighteval	LightEval是Hugging Face开发的一个轻量级大型语言模型（LLM）评估框架。最初作为内部工具，用于评估Hugging Face新发布的LLM数据处理库datatrove和LLM训练库nanotron，现已开源供社区使用和改进。LightEval的主要特点包括：(1) 轻量化设计，易于使用和集成；(2) 支持多任务和多模型的评估套件；(3) 兼容CPU或GPU上的评估，并可与Hugging Face的加速库Accelerate以及Nanotron等框架集成；(4) 支持分布式评估，尤其适用于大型模型的评估；(5) 可应用于Open LLM Leaderboard上的所有基准；(6) 可定制性，允许用户添加新的指标和任务以满足特定的评估需求（2024年2月8日）。
LLM Comparator	Google	LLM Comparator	一种用于比较和评估大型语言模型（LLM）的可视化分析工具。相较于传统的手工评估方法，该工具提供了一种可扩展的自动化比较评估方案。它利用另一款LLM作为评估者，展示不同模型之间的质量差异，并解释这些差异的原因。通过交互式表格和摘要可视化，LLM Comparator帮助用户理解模型在特定情境下表现优异或不佳的原因，以及模型响应之间的定性差异。该工具由Google的研究人员和工程师合作开发，在Google内部得到广泛应用，三个月内吸引了超过400名用户，评估了超过1,000个实验（2024年2月16日）。
Arthur Bench	Arthur-AI	Arthur Bench	Arthur Bench是一款开源评估工具，旨在比较和分析大型语言模型（LLM）的性能。它支持多种评估任务，包括问答、摘要、翻译和代码生成，并提供关于LLM在这些任务中表现的详细报告。Arthur Bench的关键特性与优势包括：(1) 模型比较功能，可评估不同供应商、不同版本以及不同训练数据集的LLM；(2) 提示词和超参数评估，考察不同提示词对LLM性能的影响，并测试通过各种超参数设置来控制模型行为的效果；(3) 任务定义与模型选择，允许用户自定义评估任务，并从一系列支持的LLM模型中选择评估对象；(4) 参数配置功能，使用户能够调整提示词和超参数以精细控制LLM的行为；(5) 自动化评估流程，简化评估任务的执行；(6) 应用场景涵盖模型选择与验证、预算与隐私优化，以及将学术基准转化为实际性能评估。此外，它还提供全面的评分指标，支持本地和云端版本，并鼓励社区协作与项目发展（2023年10月6日）。
llm-benchmarker-suite	FormulaMonks	llm-benchmarker-suite	这项开源计划旨在解决LLM基准测试领域的碎片化和模糊性问题。该套件提供结构化的评估方法、多样化的基准集合以及工具包，以简化LLM性能的评估过程。通过提供一个通用平台，该项目致力于促进自然语言处理领域的协作、透明度和高质量研究。
autoevals	braintrust	autoevals	AutoEvals是一款AI模型输出评估工具，采用最佳实践快速简便地评估AI模型的输出。它集成了多种自动评估方法，支持自定义评估提示和自定义评分器，简化了模型输出的评估流程。Autoevals包含针对各类主观任务的模型评分评估，如事实核查、安全性等。其中许多评估基于OpenAI优秀的evals项目，但以灵活的方式实现，允许用户调整提示并调试输出。
EVAL	OPENAI	EVAL	EVAL是OpenAI开发的一款用于评估大型语言模型（LLM）的工具。它可以测试模型在不同任务和数据集上的性能及泛化能力。
lm-evaluation-harness	EleutherAI	lm-evaluation-harness	lm-evaluation-harness是EleutherAI开发的一款用于评估大型语言模型（LLM）的工具。它可以测试模型在不同任务和数据集上的性能及泛化能力。
lm-evaluation	AI21Labs	lm-evaluation	对Jurassic-1技术论文原文中的结果进行评估和复现，目前支持通过AI21 Studio API和OpenAI的GPT-3 API同时运行任务。
OpenCompass	上海人工智能实验室	OpenCompass	OpenCompass是一个用于评估大型模型的一站式平台。其主要特点包括：开源且可复现的评估方案；覆盖五大领域的综合能力维度，拥有超过50个数据集和约30万道题目，用于评估模型能力；支持超过20种Hugging Face和API模型；支持分布式高效评估，可通过一行命令完成任务拆分并进行分布式评估，从而在数小时内完成万亿参数模型的全面评估；提供多样化的评估范式，支持零样本、少样本和思维链式评估，并配备标准或对话式提示模板，以轻松激发模型的最佳性能。
Phase AI提供的大型语言模型评估与工作流框架	wgryc	phasellm	Phase AI提供的一套用于评估和管理LLM的框架，帮助用户选择合适的模型、数据集和指标，并对结果进行可视化和分析。
LLM评估基准	FreedomIntelligence	LLMZoo	LLMZoo是由FreedomIntelligence开发的LLM评估基准，包含多个领域和任务的数据集、指标以及带有结果的预训练模型。
语言模型整体评估（HELM）	斯坦福大学	HELM	HELM是由斯坦福大学研究团队提出的一种综合性LLM评估方法，综合考虑模型的语言能力、知识、推理、公平性和安全性等多个方面。
用于问答的轻量级评估工具	Langchain	auto-evaluator	auto-evaluator是Langchain开发的一款用于评估问答系统的轻量级工具。它可以自动生成问答题目，并计算模型的准确率、召回率和F1分数等指标。
PandaLM	WeOpenML	PandaLM	PandaLM是WeOpenML开发的一款LLM评估工具，用于自动化和可重复的评估。它允许用户根据自身需求和偏好选择合适的数据集、指标和模型，并生成报告和图表。
FlagEval	清华大学	FlagEval	FlagEval是清华大学开发的LLM评估平台，提供多项任务和数据集，以及在线测试、排行榜和分析功能。
AlpacaEval	tatsu-lab	alpaca_eval	AlpacaEval是tatsu-lab开发的一款LLM评估工具，能够测试模型在多种语言、领域和任务中的表现，并提供可解释性、鲁棒性和可信度等指标。
Prompt flow	微软	promptflow	这是一套由微软设计的开发工具，旨在简化基于LLM的AI应用的端到端开发周期，从构思、原型制作、测试和评估，到生产部署和监控。它使提示工程更加容易，并支持开发产品级的LLM应用程序。
DeepEval	mr-gpt	DeepEval	DeepEval是一个简单易用的开源LLM评估框架。它类似于Pytest，但专门用于LLM输出的单元测试，结合最新研究成果，依据G-Eval、幻觉、答案相关性、RAGAS等指标对LLM输出进行评估，利用本地运行的LLM及其他NLP模型进行评估。
CONNER	腾讯AI实验室	CONNER	CONNER是一个全面的大模型知识评估框架，旨在从六个关键视角——真实性、相关性、连贯性、信息量、实用性和有效性——系统地自动评估生成的信息。

数据集或基准

一般

名称	组织	网站	描述
MMLU-Pro	TIGER-AI-Lab	MMLU-Pro	MMLU-Pro 是 MMLU 数据集的改进版本。长期以来，MMLU 一直是多项选择知识测试的参考标准。然而，近期研究表明，该数据集存在噪声（部分问题无法解答）且难度偏低（由于模型能力的进步及污染增加所致）。MMLU-Pro 将选项数量从四个增至十个，在更多题目中要求推理，并经过专家评审以减少噪声。其质量和挑战性均高于原始版本。MMLU-Pro 还降低了提示变化对模型性能的影响，而这一问题在前代基准 MMLU 中较为常见。研究显示，采用“思维链”推理的模型在此新基准上的表现更佳，表明 MMLU-Pro 更适合评估 AI 的细微推理能力。（2024-05-20）
TrustLLM 基准	TrustLLM	TrustLLM	TrustLLM 是一个用于评估大型语言模型可信度的基准。它涵盖六个可信度维度，包含超过30个数据集，全面评估 LLM 的功能能力，从简单的分类任务到复杂的生成任务。每个数据集都具有独特的挑战，并已对16种主流 LLM（包括商业和开源模型）进行了基准测试。
DyVal	Microsoft	DyVal	人们一直担忧 LLM 庞大的训练语料库可能存在数据污染问题。此外，当前基准测试的静态特性和固定复杂度可能无法充分衡量 LLM 不断发展的能力。DyVal 是一种通用且灵活的动态评估 LLM 的协议。利用有向无环图的优势，DyVal 可动态生成复杂度可控的评估样本。它为数学、逻辑推理和算法问题等推理任务创建了具有挑战性的评估集。从 Flan-T5-large 到 GPT-3.5-Turbo 和 GPT-4，多种 LLM 都接受了评估。实验表明，LLM 在 DyVal 生成的不同复杂度样本上表现更差，凸显了动态评估的重要性。作者还分析了不同提示方法的失败案例和结果。此外，DyVal 生成的样本不仅可用作评估集，还能帮助微调模型，从而提升其在现有基准上的表现。（2024-04-20）
RewardBench	AIAI	RewardBench	RewardBench 是一个用于评估语言模型奖励模型的基准，旨在考察各类模型的优势与不足。它揭示了现有模型在推理和指令遵循方面仍存在显著缺陷。该基准包括一个排行榜、代码和数据集（2024-03-20）。
LV-Eval	Infinigence-AI	LVEval	LV-Eval 是一个长文本评估基准，设有五个长度等级（16k、32k、64k、128k 和 256k），最长文本测试长度可达 256k。LV-Eval 的平均文本长度为 102,380 字符，最小/最大文本长度分别为 11,896/387,406 字符。LV-Eval 主要包含两类评估任务：单跳问答和多跳问答，涵盖中文和英文的 11 个子数据集。在设计过程中，LV-Eval 引入了三项关键技术：混淆事实插入（CFI）以增强挑战性；关键词和短语替换（KPR）以减少信息泄露；以及基于答案关键词的评估指标（结合答案关键词和黑名单词汇），以提高评估结果的客观性。（2024-02-06）
LLM-Uncertainty-Bench	Tencent	LLM-Uncertainty-Bench	一种新的 LLM 基准方法被引入，将不确定性量化纳入其中。基于五项代表性 NLP 任务中测试的九种 LLM，研究发现：I）更准确的 LLM 可能表现出较低的确定性；II）规模更大的 LLM 可能比小型模型表现出更高的不确定性；III）指令微调往往会增加 LLM 的不确定性。这些发现强调了在 LLM 评估中纳入不确定性的重要性。（2024-01-22）
心理测量评估	Microsoft Research Asia	心理测量评估	微软亚洲研究院提出了一种基于心理测量学的 AI 通用评估方法，旨在解决传统评估方法在预测能力、信息量和测试工具质量方面的局限性。该方法借鉴心理测量理论，识别 AI 的关键心理构念，设计针对性测试，并应用项目反应理论进行精确评分。同时引入信度和效度的概念，以确保评估的可靠性和准确性。这一框架将心理测量方法扩展至评估 AI 处理未知复杂任务的能力，但也面临一些开放性问题，例如区分 AI 的“个体”与“群体”、应对提示敏感性以及评估人类与 AI 构念之间的差异。（2023-10-19）
CommonGen-Eval	AllenAI	CommonGen-Eval	一项使用 CommonGen-lite 数据集评估 LLM 的研究，采用 GPT-4 进行评估并比较不同模型的表现，结果列于排行榜上。（2024-01-04）
felm	HKUST	felm	FELM 是一个用于评估大型语言模型事实判断能力的元基准。该基准包含 847 个问题，覆盖五个不同领域：世界知识、科学/技术、写作/推荐、推理和数学。各领域的提示来自多种来源，包括 TruthfulQA 等标准数据集、GitHub 仓库等在线平台、ChatGPT 生成的提示，或由作者自行拟定。对于每份回答，均采用细粒度的分段标注，包括参考链接、标注者识别出的错误类型及其原因。（2023-10-03）
just-eval	AI2 Mosaic	just-eval	一款基于 GPT 的多维度、可解释的 LLM 评估工具，能够评估帮助性、清晰度、事实性、深度和参与度等方面。（2023-12-05）
EQ-Bench	EQ-Bench	EQ-Bench	一个用于评估语言模型情商的基准，包含 171 个问题（相比 v1 的 60 个有所增加），并采用了新的评分体系，能更好地区分不同模型的表现差异。（2023-12-20）
CRUXEval	MIT CSAIL	CRUXEval	CRUXEval 是一个用于评估代码推理、理解和执行能力的基准。它包含 800 个 Python 函数及其输入输出对，测试输入预测和输出预测任务。许多在 HumanEval 上表现优异的模型，在 CRUXEval 上却表现不佳，这凸显了提升代码推理能力的必要性。最佳模型 GPT-4 结合思维链（CoT）分别在输入预测和输出预测任务中取得了 75% 和 81% 的通过率。该基准暴露了开源与闭源模型之间的差距。GPT-4 并未完全通过 CRUXEval，这为其局限性及改进方向提供了洞见。（2024-01-05）
MLAgentBench	snap-stanford	MLAgentBench	MLAgentBench 是一套端到端机器学习（ML）研究任务，用于评估 AI 研究代理。这些代理旨在根据给定的数据集和 ML 任务描述，自主开发或改进 ML 模型。每个任务都代表一个交互式环境，直接反映人类研究人员所面临的场景。代理可以读取可用文件、在计算集群上运行多次实验，并分析结果以实现既定的研究目标。具体而言，它包括 15 种不同的 ML 工程任务，可通过尝试不同的 ML 方法、数据处理、架构和训练过程来完成。（2023-10-05）
AlignBench	THUDM	AlignBench	AlignBench 是一个全面且多维度的基准，用于评估中文大型语言模型的对齐性能。它构建了人机协作的数据生成流程，以确保数据的动态更新。AlignBench 采用多维度、基于规则的模型评估方法（LLM-as-Judge），并结合思维链（CoT）生成多维度分析及最终综合评分，从而提升评估的可靠性和可解释性。（2023-12-01）
UltraEval	OpenBMB	UltraEval	UltraEval 是一个开源的基础模型能力评估框架，提供轻量级且易于使用的评估系统，支持主流大模型性能评估。其主要特点包括：(1) 轻量级、用户友好的评估框架，设计直观、依赖少、部署简单且可扩展，适用于各种评估场景；(2) 灵活多样的评估方法，统一的提示模板和丰富的评估指标，支持自定义；(3) 高效快速的推理部署，支持多种模型部署方案，包括 torch 和 vLLM，并可进行多实例部署以加速评估进程；(4) 透明开放的排行榜，评估结果公开可查、可追溯且可重复，由社区驱动以确保透明度；(5) 官方权威的评估数据，采用广泛认可的官方数据集，保证评估的公平性和标准化，确保结果的可比性和可重复性。（2023-11-24）
IFEval	google-research	Instruction Following Eval	按照自然语言指令行事是大型语言模型的核心能力。然而，对此能力的评估缺乏标准化：人工评估成本高、速度慢且缺乏客观可重复性，而基于 LLM 的自动化评估则可能受到评估用 LLM 自身能力或局限性的偏倚影响。为解决这些问题，谷歌的研究人员推出了指令遵循评估（IFEval），这是一个简单且可重复的基准，专注于一组“可验证指令”，例如“撰写超过400字”和“至少提及 AI 关键词3次”。IFEval 确定了25条此类可验证指令，并构建了约500个提示，每个提示都包含一条或多条可验证指令。（2023-11-15）
LLMBar	princeton-nlp	LLMBar	LLMBar 是一个具有挑战性的元评估基准，旨在测试 LLM 评估者识别指令遵循输出的能力。它包含419个实例，每个实例由一条指令和两个输出组成：一个忠实且正确地遵循指令，另一个则偏离指令。每个实例还附有黄金标签，标明哪份输出在客观上更好。（2023-10-29）
HalluQA	复旦大学、上海人工智能实验室	HalluQA	HalluQA 是一个中文 LLM 幻觉评估基准，包含450个数据点，其中包括175个误导性条目、69个难以辨别误导性的条目以及206个基于知识的条目。每个问题平均标注了2.8个正确和错误的答案。为提升 HalluQA 的实用性，作者设计了一套基于 GPT-4 的评估方法。具体来说，将幻觉判定标准和正确答案作为指令输入 GPT-4，由其评估模型的回答是否包含幻觉。
FMTI	斯坦福大学	FMTI	基础模型透明度指数（FMTI）从数据、计算资源和人力等100个指标评估开发者在模型训练和部署中的透明度。对10家公司旗舰模型的评估显示，平均透明度得分仅为37/100，表明仍有较大改进空间。
ColossalEval	Colossal-AI	ColossalEval	Colossal-AI 推出的一项项目，提供统一的评估工作流，可用于在公共数据集或自定义数据集上使用传统指标和 GPT 辅助评估来评估语言模型。
LLMEval²-WideDeep	阿里巴巴研究	LLMEval²	作为面向 LLM 评估者的最大、最多样化的英语评估基准，包含15个任务、8种能力以及2,553个样本。实验结果表明，网络越广泛（涉及多名评审员）、层次越多（一轮讨论），效果越好，Kappa 相关系数可从0.28提升至0.34。WideDeep 也被用于辅助评估中文 LLM，使评估效率提升4.6倍，成本降低60%。
Aviary	Ray Project	Aviary	允许在一个平台上与多种大型语言模型（LLMs）互动。支持直接比较不同模型的输出、按质量排名，以及获取成本和延迟估算。尤其支持托管在 Hugging Face 上的模型，在许多情况下也支持 DeepSpeed 推理加速。
Do-Not-Answer	Libr-AI	Do-Not-Answer	一个开源数据集，旨在以低成本评估 LLM 的安全机制。它由负责任的语言模型不应回应的提示组成。除人工标注外，还实施了基于模型的评估，其中经过6亿次微调的 BERT 类似评估器，其结果与人类和 GPT-4 相当。
LucyEval	Oracle	LucyEval	中国 LLM 成熟度评估——LucyEval 可客观地测试模型能力的各个方面，识别模型的不足之处，帮助设计师和工程师更精准地调整和训练模型，助力 LLM 向更高智能迈进。
Zhujiu	中国科学院自动化研究所	Zhujiu	涵盖七种能力维度和51项任务；采用三种互补的评估方法；提供全面的中文基准测试，并具备英文评估能力。
ChatEval	THU-NLP	ChatEval	ChatEval 旨在简化生成文本的人工评估流程。针对不同的文本片段，ChatEval 中的角色（由硕士研究生扮演）可以自主讨论细微差别和差异，根据各自指定的角色作出判断。
FlagEval	Zhiyuan/清华大学	FlagEval	由智源研究院出品，结合主观和客观评分，提供 LLM 分数排名。
InfoQ 综合 LLM 评估	InfoQ	InfoQ 评估	面向中国的排名：ChatGPT > 文心一言 > Claude > 星火。
Chain-of-Thought 评估	Yao Fu	COT 评估	包括 GSM8k 和 MATH 复杂问题的排名。
Z-Bench	True Fund	Z-Bench	表明国内中文模型的可编程性相对较低，各模型之间性能差异较小。两款 ChatGLM 版本则显示出显著进步。
CMU 聊天机器人评估	CMU	zeno-build	在对话训练场景中，排名显示 ChatGPT > Vicuna > 其他。
lmsys-arena	伯克利	lmsys 排名	采用 Elo 评分机制，排名显示 GPT4 > Claude > GPT3.5 > Vicuna > 其他。
Huggingface 开放 LLM 排行榜	Huggingface	HF 开放 LLM 排行榜	由 Huggingface 组织，评估多个主流开源 LLM。评估主要集中在四个数据集上：AI2 理性挑战、HellaSwag、MMLU 和 TruthfulQA，内容以英语为主。
AlpacaEval	tatsu-lab	AlpacaEval	开源模型领导者，Vicuna、OpenChat 和 WizardLM 在基于 LLM 的自动评估中处于领先地位。
Chinese-LLM-Benchmark	jeinlee1991	llm-benchmark	中国 LLM 能力评估排名，涵盖百度文心一言、ChatGPT、阿里巴巴通义千问、科大讯飞星火，以及 Belle 和 ChatGLM6B 等开源模型。提供能力评分排名和原始模型输出结果。
开放 LLM 排行榜	HuggingFace	排行榜	由 Huggingface 组织，用于评估多个主流开源 LLM。评估主要集中在四个数据集上：AI2 理性挑战、HellaSwag、MMLU 和 TruthfulQA，内容以英语为主。
斯坦福问答数据集（SQuAD）	斯坦福 NLP 团队	SQuAD	评估模型在阅读理解任务上的表现。
多文体自然语言推理（MultiNLI）	纽约大学、DeepMind、Facebook AI 研究、艾伦人工智能研究所、谷歌 AI 语言	MultiNLI	评估模型在不同文本体裁间理解句子关系的能力。
LogiQA	清华大学和微软亚洲研究院	LogiQA	评估模型的逻辑推理能力。
HellaSwag	华盛顿大学和艾伦人工智能研究所	HellaSwag	评估模型的推理能力。
LAMBADA 数据集	特伦托大学和布鲁诺·凯斯勒基金会	LAMBADA	评估模型预测段落最后一词的能力，反映其长期理解能力。
CoQA	斯坦福 NLP 团队	CoQA	评估模型在对话情境下理解文本段落并回答一系列相关问题的能力。
ParlAI	Facebook AI 研究	ParlAI	评估模型在准确性、F1 分数、困惑度（模型预测序列中下一个词的能力）、人工评估（相关性、流畅性和连贯性）、速度和资源利用率、鲁棒性（模型在嘈杂输入、对抗性攻击或数据质量变化等不同条件下表现）以及泛化能力等方面的表现。
语言可解释性工具（LIT）	Google	LIT	提供一个平台，允许根据用户自定义的指标评估模型，分析模型的优势、劣势和潜在偏见。
对抗性 NLI（ANLI）	Facebook AI 研究、纽约大学、约翰霍普金斯大学、马里兰大学、艾伦人工智能研究所	对抗性 NLI（ANLI)	评估模型的鲁棒性、泛化能力、推理解释能力、一致性以及资源效率（内存使用、推理时间和训练时间）。

域名

名称	机构	领域	URL	简介
地震仪	Epic	医疗健康	seismomete	地震仪是一款面向医疗领域的AI模型性能评估工具，提供标准化的评估标准，帮助基于本地数据和工作流程做出决策。它支持对模型性能的持续监控。尽管可用于任何领域的模型，但其设计重点在于医疗AI模型的验证，因为本地验证需要交叉参考患者相关数据（如人口统计学特征、临床干预措施和患者预后）以及模型性能。（2024-05-22）
医学基准	OpenMEDLab	医疗健康	medbench	MedBench致力于为中国医学大模型创建科学、公平且严谨的评估体系和开放平台。基于权威的医学标准，它不断更新和维护高质量的医疗数据集，以全面、多维度地量化模型在各个医学维度上的能力。MedBench包含来自真实考试题和各医学分支临床报告的40,041道题目，由四个关键部分组成：中国医师资格考试、住院医师规范化培训考试、主治医师资格考试，以及涵盖检查、诊断和治疗的真实临床病例。（2023-12-20）
金融评测	蚂蚁集团、上海财经大学	金融	Fin-Eva	由蚂蚁集团和上海财经大学联合推出的Fin-Eva 1.0版本，覆盖财富管理、保险、投研等多个金融场景及金融专业学科，共包含超过13,000道评估题目。蚂蚁集团的数据来源包括各业务领域数据及公开互联网数据，经过数据脱敏、文本聚类、语料筛选和数据重写等处理，并结合金融专家评审构建数据集。上海财经大学的数据主要基于相关领域权威考试中的真题和模拟题，遵循知识大纲要求。蚂蚁集团部分涵盖金融认知、金融知识、金融逻辑、内容生成和安全合规五大能力，细分为33个子维度，包含8,445道评估题目；上海财经大学部分则覆盖金融、经济、会计和证书四大领域，包含34个不同学科的4,661道题目。Fin-Eva 1.0采用固定答案的选择题形式，并配有相应指令，使模型能够以标准格式输出。（2023-12-20）
GenMedicalEval	上海交通大学	医疗健康	GenMedicalEval	1. 大规模综合性能评估：GenMedicalEval基于四万余道医学考试真题和五万五千余份三甲医院患者病历，构建了涵盖16个主要科室、3个医生培训阶段、6个医疗临床应用场景的共计十万余条医疗评估数据。该数据集从医学基础知识、临床应用和安全标准等方面全面评估大模型在真实复杂医疗场景下的整体表现，弥补了现有评估基准未能覆盖诸多医疗实践挑战的不足。2. 深入多维度场景评估：GenMedicalEval整合了医生的临床记录和医学影像资料，围绕检查、诊断和治疗等关键医疗场景构建了一系列主题丰富、形式多样的生成式评估题目。这为现有的问答式评估提供了有力补充，使其更贴近真实的开放式诊断环境。3. 创新的开放性评估指标与自动化评估模型：针对开放式生成任务缺乏有效评估指标的难题，GenMedicalEval采用先进的结构化提取和术语对齐技术，构建了一套创新的生成式评估指标体系。该体系能够准确衡量生成答案的医学知识准确性。此外，基于自建知识库训练了一款医学自动评估模型，其评估结果与人工评估高度相关。该模型可提供多维度的医学评分及评估理由，具有无数据泄露、可控性强等特点，相较于GPT-4等其他模型具有独特优势。（2023-12-08）
开放金融数据	上海人工智能实验室	金融	OpenFinData	由上海人工智能实验室发布的“OpenCompass”框架下首个全场景金融评估数据集——OpenFinData，包含六个模块和十九个金融任务维度，覆盖多层次数据类型和多样化的金融场景。每一条数据均源自真实的金融业务场景。（2024-01-04）
LAiW	四川大学	法律	LAiW	从法律视角和可行性出发，LAIW将法律NLP的能力划分为三大能力，共包含13项基础任务：(1) 法律NLP基础能力：评估法律基础任务、NLP基础任务以及法律信息抽取能力，包括法律条款推荐、要素识别、命名实体识别、裁判要点归纳和案件识别等五项基础任务；(2) 法律应用基础能力：评估大模型在法律领域的基础应用能力，包括争议焦点挖掘、案件匹配、刑事判决预测、民事判决预测和法律问答等五项基础任务；(3) 法律应用复杂能力：评估大模型在法律领域的复杂应用能力，包括司法推理生成、案件理解和法律咨询等三项基础任务。（2023-10-08）
法律基准	南京大学	法律	LawBench	LawBench精心设计，旨在精准评估大型语言模型的法律能力。在设计测试任务时，它模拟了司法认知的三个维度，并选取20项任务来评估大模型的能力。与一些仅包含选择题的现有基准相比，LawBench增加了更多与实际应用密切相关的任务类型，如法律实体识别、阅读理解、犯罪金额计算和法律咨询等。LawBench认识到，当前大模型的安全策略可能导致其拒绝回答某些法律问题或难以理解指令而无法作答，因此专门开发了一种“回避率”评估指标，用于衡量模型拒绝回答或未能正确理解指令的频率。研究人员已在LawBench上评估了51种大型语言模型的表现，其中包括20种多语言模型、22种中文模型和9种法律专用大型语言模型。（2023-09-28）
心理评估	上海交通大学	心理	PsyEval	在心理健康研究中，大型语言模型（LLMs）的应用日益受到关注，尤其是在疾病检测方面的显著能力。研究人员专门设计了首个心理健康领域的综合性基准，以系统地评估LLMs在该领域的能力。该基准包含六个子任务，覆盖三个维度，全面评估LLMs在心理健康方面的能力。每个子任务都设计了简洁的提示词，并对八种先进LLMs进行了全面评估。（2023-11-15）
PPTC	微软、北京大学	办公	PPTC	PPTC是一个用于测试大模型PPT生成能力的基准，包含279轮多轮对话，覆盖不同主题和数百条涉及多模态操作的指令。研究团队还提出了PPTX-Match评估体系，该体系根据预测文件而非标签API序列来评估大语言模型是否完成了指令，因此支持各种LLM生成的API序列。目前，PPT生成面临三大挑战：多轮对话中的误差累积、长PPT模板的处理以及多模态感知问题。（2023-11-04）
LLMRec	阿里巴巴	推荐	LLMRec	对流行的LLM（如ChatGPT、LLaMA、ChatGLM等）进行了五个推荐相关任务的基准测试，包括评分预测、序列推荐、直接推荐、解释生成和评论摘要。此外，还研究了监督微调对提升LLM指令跟随能力的效果。（2023-10-08）
LAiW	Dai-shen	法律	LAiW	面对法律大语言模型的快速发展，首个基于法律能力的中国法律大语言模型基准被提出。法律能力被划分为三个层次：基础法律自然语言处理能力、基础法律应用能力和复杂法律应用能力。第一阶段的评估已完成，重点是基础法律自然语言处理能力的评估。评估结果显示，虽然部分法律大语言模型的表现优于其基础模型，但仍与ChatGPT存在差距。（2023-10-25）
运维评估	清华大学	AIOps	OpsEval	OpsEval是面向大型语言模型的综合性任务导向AIOps基准测试，评估LLM在有线网络运维、5G通信运维和数据库运维三个关键场景中的熟练程度。这些场景涉及不同的能力层级，包括知识回忆、分析思维和实际应用。该基准包含7,200道选择题和问答题，支持英语和中文两种语言。（2023-10-02）
SWE-bench	princeton-nlp	软件	SWE-bench	SWE-bench是一个用于评估大型语言模型在GitHub上收集的真实软件问题上表现的基准。给定一个代码仓库和一个问题，语言模型的任务是生成一个能够解决所述问题的补丁。
BLURB	Mindrank AI	医疗健康	BLURB	BLURB包含基于PubMed的生物医学自然语言处理应用的综合性基准测试，以及用于跟踪社区进展的排行榜。BLURB由六项多样化任务和十三个公开可用的数据集组成。为避免过度强调拥有大量数据集的任务（如命名实体识别NER），BLURB以所有任务的宏观平均值作为主要得分。BLURB排行榜不依赖于具体模型，任何能够使用相同训练和开发数据生成测试预测的系统均可参与。BLURB的主要目标是降低参与生物医学自然语言处理的门槛，助力这一对社会和人类具有积极影响的重要领域加速发展。
智能游戏	微软	游戏	SmartPlay	SmartPlay是一款专为易用性设计的大语言模型（LLM）基准，提供多种游戏用于测试。
金融评估	SUFE-AIFLM-Lab	金融	FinEval	FinEval：一系列高质量的选择题集合，涵盖金融、经济、会计和证书等领域。
GSM8K	OpenAI	数学	GSM8K	GSM8K是一个包含8,500道高质量、语言多样化的小学数学文字应用题的数据集。GSM8K将其分为7,500道训练题和1,000道测试题。这些题目通常需要2至8步才能解答，解题过程主要涉及一系列基本算术运算（+ - / *）以得出最终答案。

RAG-評估

名稱	機構	網址	簡介
BERGEN	NAVER	BERGEN	BERGEN：一個專注於問答（QA）任務的RAG系統基準測試庫，旨在增強對RAG管道中各組件影響的理解與比較。它通過HuggingFace簡化了新數據集和模型的可重現性及整合過程。BERGEN（BEnchmarking Retrieval-augmented GENeration）是一個用於基準測試RAG系統的庫，特別關注問答任務。不一致的基準測試是比較不同方法以及理解RAG管道中各組件影響的主要挑戰。BERGEN的設計旨在借助HuggingFace，簡化新數據集和模型的可重現性與整合工作（2024年5月31日）
CRAG	Meta Reality Labs	CRAG	CRAG是一個包含近4,500組問答對及模擬API的RAG基準測試，涵蓋廣泛的領域和問題類型，以激勵研究人員提升問答系統的可靠性和精確度。這是一個由4,409組問答對及模擬API組成的事實型問答基準測試，用以模擬網絡和知識圖譜（KG）搜索。CRAG旨在囊括五個領域和八種問題類別中的多樣化問題，反映從熱門到長尾的不同實體受歡迎程度，以及從數年到數秒不等的時間動態變化（2024年6月7日）
raga-llm-hub	RAGA-AI	raga-llm-hub	raga-llm-hub是一個全面的語言與學習模型（LLM）評估工具包。它擁有超過100個精心設計的評估指標，是目前最全面的平台，使開發者和組織能夠有效評估和比較LLM，並為LLM及檢索增強生成（RAG）應用建立基礎安全保障。這些測試涵蓋相關性與理解力、內容品質、幻覺現象、安全性與偏見、上下文相關性、安全機制及漏洞掃描等多個方面，同時提供一系列基於指標的定量分析測試（2024年3月10日）
ARES	斯坦福大學	ARES	ARES是一個用於檢索增強生成系統的自動評估框架，包含三個組件：(1) 一組帶有人工偏好驗證的查詢-文檔-答案三元組，用於評估上下文相關性、答案忠實度和/或答案相關性等標準。至少應有50個示例，但最好有數百個。(2) 一小組用於評分您系統中上下文相關性、答案忠實度和/或答案相關性的示例。(3) 由您的RAG系統生成的大量未註釋查詢-文檔-答案三元組，用於打分。ARES的訓練過程包括三個步驟：(1) 根據特定領域的段落生成合成查詢和答案。(2) 通過使用合成數據訓練LLM評估員，使其能夠評分RAG系統。(3) 將準備好的LLM評估員部署到您的RAG系統上，以關鍵指標評估其性能（2023年9月27日）
RGB	中科院	RGB	RGB是一個用於評估英語和中文RAG的新語料庫/基準測試（RGB）。它分析了不同大型語言模型在RAG所需的四項基本能力方面的表現，包括抗噪能力、否定拒絕能力、信息整合能力和反事實魯棒性。RGB根據這些基本能力將基準測試中的實例劃分為四個獨立的測試集，以針對不同場景進行測試。隨後，RGB對六種具有代表性的LLM進行了評估，以診斷當前LLM在應用RAG時所面臨的挑戰。評估結果顯示，雖然LLM在抗噪能力方面表現出一定水平，但在否定拒絕、信息整合以及處理虛假資訊等方面仍面臨重大困難。上述評估結果表明，將RAG有效應用於LLM仍有很長的路要走（2023年9月4日）
tvalmetrics	TonicAI	tvalmetrics	Tonic Validate Metrics中的指標採用LLM輔助評估方式，即利用LLM（例如gpt-4）對RAG應用輸出的不同方面進行打分。這些指標結合具體對象與LLM輔助評估，回答有關RAG應用的問題。(1) 答案相似度分數：RAG答案與正確答案應有多接近？(2) 檢索精確度：檢索到的上下文是否與問題相關？(3) 增強精確度：答案中是否包含與問題相關的檢索上下文？(4) 增強準確度：答案中檢索上下文的比例是多少？(5) 答案一致性（二元）：答案中是否存在檢索上下文之外的信息？(6) 檢索k召回率：對於排名前k的上下文向量，檢索到的上下文是否為前k上下文向量的子集，且所有相關上下文是否都包含在檢索到的上下文之中？（2023年11月11日）

代理能力

名稱	機構	網址	簡介
SuperCLUE-Agent	CLUE	SuperCLUE-Agent	SuperCLUE-Agent是一個多維度的基準測試，專注於代理能力，涵蓋三大核心能力和十項基本任務。它可以用於評估大型語言模型在代理核心能力方面的表現，包括工具使用、任務規劃以及長短期記憶等。對16種支持中文的大型語言模型進行評估後發現，GPT-4模型在中文任務的代理核心能力方面領先顯著。而國內代表性模型，包括開源和閉源模型，則正在接近GPT-3.5的水平（2023年10月20日）
AgentBench	清華大學	AgentBench	AgentBench是一套系統化的基準測試工具，用於評估LLM作為智能代理的表現，突顯商業LLM與開源競爭對手之間的性能差距（2023年8月1日）
AgentBench推理與決策能力評估排行榜	THUDM	AgentBench	由清華大學與多所大學聯合推出，涵蓋不同任務環境下模型的推理與決策能力，例如購物、居家和作業系統等場景
ToolBench工具調用評估	智源/清華	ToolBench	與工具微調模型及ChatGPT進行對比，提供評估腳本

代码能力

名称	机构	网址	简介
McEval	北航	McEval	为了更全面地探索大型语言模型的代码能力，本研究提出了一项大规模多语言多任务代码评估基准（McEval），涵盖40种编程语言，包含16,000个测试样本。评估结果表明，开源模型在多语言编程能力方面与GPT-4相比仍存在显著差距，大多数开源模型甚至无法超越GPT-3.5。此外，测试还显示，Codestral、DeepSeek-Coder、CodeQwen等开源模型及其一些衍生模型也表现出卓越的多语言能力。McEval是一个大规模多语言代码基准，覆盖40种编程语言，包含16,000个测试样本，极大地推动了代码LLM在多语言场景下的极限。该基准包括具有挑战性的代码补全、理解和生成评估任务，并配备了精心策划的大规模多语言指令语料库McEval-Instruct。McEval排行榜可在此查看这里（2024年6月11日）
HumanEval-XL	FloatAI	SuperCLUE-Agent	现有的基准主要集中在将英文提示翻译成多语言代码，或仅限于非常有限的自然语言。这些基准忽略了大规模多语言NL到多语言代码生成这一广阔领域，从而在评估多语言LLM方面留下了重要空白。为应对这一挑战，作者提出了HumanEval-XL，这是一个旨在填补这一空白的大规模多语言代码生成基准。HumanEval-XL建立了23种自然语言与12种编程语言之间的联系，共包含22,080个提示，每个提示平均有8.33个测试用例。通过确保跨多种NL和PL的平行数据，HumanEval-XL为多语言LLM提供了一个全面的评估平台，能够评估其对不同NL的理解能力。这项工作是解决多语言代码生成中NL泛化评估空白的开创性一步（2024年2月26日）
DebugBench	清华大学	DebugBench	DebugBench是一个LLM调试基准，包含4,253个实例，覆盖C++、Java和Python中的四大类漏洞和18个小类。为了构建DebugBench，作者从LeetCode社区收集了代码片段，利用GPT-4向源数据中植入漏洞，并进行了严格的质量检查（2024年1月9日）

多模态/跨模态

名称	机构	网址	简介
ChartVLM	上海人工智能实验室	ChartVLM	ChartX是一个多模态评估集，包含18种图表类型、7个图表任务、22个主题领域以及高质量的图表数据。此外，本文作者还开发了ChartVLM，为处理依赖于可解释模式的多模态任务提供了新的视角，例如图表或几何图像领域的推理任务（2024年2月19日）
ReForm-Eval	复旦DISC	ReForm-Eval	ReForm-Eval是一个用于全面评估大型视觉语言模型的基准数据集。通过以不同任务格式重构现有的多模态基准数据集，ReForm-Eval构建了一个统一格式的基准数据集，适用于大型模型的评估。所构建的ReForm-Eval具有以下特点：它涵盖了八个评估维度，每个维度都提供了充足的评估数据（平均每维超过4,000条）；采用统一的评估问题格式（包括选择题和文本生成题）；使用方便且高效，评估方法可靠，不依赖于ChatGPT等外部服务；能够高效利用现有数据资源，无需额外的人工标注，并可进一步扩展到更多数据集（2023年10月24日）
LVLM-eHub	OpenGVLab	LVLM-eHub	“多模态竞技场”是一个用于大型多模态模型的评估平台。继Fastchat之后，两个匿名模型在视觉问答任务上被并排比较。“多模态竞技场”允许在提供图像输入的同时对视觉语言模型进行并列基准测试。它支持多种模型，如MiniGPT-4、LLaMA-Adapter V2、LLaVA和BLIP-2

长上下文

名称	机构	网址	简介
InfiniteBench	OpenBMB	InfiniteBench	理解和处理长文本是大型模型迈向更深层次理解和交互的重要能力。尽管一些大型模型声称可以处理10万+序列，但缺乏标准化的基准数据集。InfiniteBench通过构建一个针对10万+序列的基准来解决这一问题，重点关注大型模型在处理长文本方面的五项关键能力：检索、数学、编码、问答和摘要。（1）长上下文：InfiniteBench测试数据的平均上下文长度为19.5万，远超现有基准。（2）多领域、多语言：该基准包含中英文双语的12项任务，覆盖上述五个领域。（3）前瞻性和挑战性：InfiniteBench的任务设计旨在匹配当前最强模型的能力，如GPT-4和Claude 2。（4）现实与合成场景：InfiniteBench既包含了真实世界的数据，用于测试模型处理实际问题的能力，也包含了合成数据，以便扩展上下文窗口进行测试。InfiniteBench是首个平均数据长度超过10万token的LLM基准。它由中英文双语的合成与现实任务组成，涵盖多个领域。InfiniteBench的任务要求对上下文中长距离依赖关系有深入理解，仅仅从上下文中检索少量段落已不足以完成这些任务。（2024年3月19日）

推理速度

名称	机构	网址	简介
llmperf	Ray	llmperf	一个用于检查和基准测试大语言模型性能的库。它测量诸如首个 token 生成时间（TTFT）、token 间延迟（ITL）以及在 3 秒内无数据返回的请求数等指标。此外，它还会验证 LLM 输出的正确性，主要检查是否存在跨请求现象（例如请求 A 收到了请求 B 的响应）。设计时考虑了输入和输出 token 长度的变化，以更好地反映真实场景。目前支持的端点包括与 OpenAI 兼容的端点（如 Anyscale 端点、私有端点、OpenAI、Fireworks 等）、Together、Vertex AI 和 SageMaker。（2023-11-03）
llm-analysis	Databricks	llm-analysis	变换器模型训练与推理的延迟及内存分析。
llm-inference-benchmark	南开大学	llm-inference-benchmark	大语言模型推理框架基准测试。
llm-inference-bench	CentML	llm-inference-bench	该基准测试完全独立于任何服务框架运行，易于扩展和修改。它提供多种统计信息和剖析模式。作为一款独立工具，它可以针对特定的输入/输出分布进行精确的基准测试，并得出具有统计意义的结果。每个请求仅包含一个提示和一次解码步骤。
GPU-Benchmarks-on-LLM-Inference	UIUC	GPU-Benchmarks-on-LLM-Inference	使用 llama.cpp 测试 LLaMA 模型在不同 GPU 上的推理速度，包括 RunPod、16 英寸 M1 Max MacBook Pro、M2 Ultra Mac Studio、14 英寸 M3 MacBook Pro 和 16 英寸 M3 Max MacBook Pro。

量化与压缩

名称	机构	网址	简介
LLM-QBench	北航/商汤科技	LLM-QBench	LLM-QBench 是一个用于大语言模型训练后量化的基准测试工具，同时也是一种高效的 LLM 压缩工具，提供了多种先进的压缩方法。它支持多种推理后端。（2024-05-09）

演示

Chat Arena：匿名模型同台竞技，投票选出更优者 - 一个开源的 AI 大语言模型“匿名”竞技场！在这里，你可以担任评委，在不知晓模型身份的情况下对两组模型的回答进行评分，评分结束后会揭晓模型的真实身份。参与的模型包括 Vicuna、Koala、OpenAssistant (oasst)、Dolly、ChatGLM、StableLM、Alpaca、LLaMA 等。

排行榜

平台	访问
ACLUE	[源码
AgentBench	[源码]
AlpacaEval	[源码]
ANGO	[源码]
BeHonest	[源码]
Big Code Models Leaderboard	[源码]
Chatbot Arena	[源码]
Chinese Large Model Leaderboard	[源码]
CLEVA	[源码]
CompassRank	[源码]
CompMix	[源码]
C-Eval	[源码]
DreamBench++	[源码]
FELM	[源码]
FlagEval	[源码]
Hallucination Leaderboard	[源码]
HELM	[源码]
Huggingface Open LLM Leaderboard	[源码]
Huggingface LLM Perf Leaderboard	[源码]
Indico LLM Leaderboard	[源码]
InfiBench	[源码]
InterCode	[源码]
LawBench	[源码]
LLMEval	[源码]
LLM Rankings	[源码]
LLM Use Case Leaderboard	[源码]
LucyEval	[源码]
M3CoT	[源码]
MMLU by Task Leaderboard	[源码]
MMToM-QA	[源码]
MathEval	[源码]
OlympicArena	[源码]
OpenEval	[源码]
Open Multilingual LLM Eval	[源码]
PubMedQA	[源码]
SafetyBench	[源码]
SciBench	[源码]
SciKnowEval	[源码]
SEED-Bench	[源码]
SuperBench	[源码]
SuperCLUE	[源码]
SuperGLUE	[源码]
SuperLim	[源码]
TAT-DQA	[源码]
TAT-QA	[源码]
TheoremOne LLM Benchmarking Metrics	[源码]
Toloka	[源码]
Toolbench	[源码]
VisualWebArena	[源码]
We-Math	[源码]
WHOOPS!	[源码]

流行提供商排行榜（性能与成本，2024年5月14日）

提供商（定价链接）	OpenAI	OpenAI	Anthropic	Google	Replicate	DeepSeek	Mistral	Anthropic	Google	Mistral	Cohere	Anthropic	Mistral	Replicate	Mistral	OpenAI		Groq	OpenAI	Mistral	Anthropic	Groq	Anthropic	Anthropic	Microsoft	Microsoft	Mistral
模型名称	GPT-4o	GPT-4 Turbo	Claude 3 Opus	Gemini 1.5 Pro	Llama 3 70B	DeepSeek-V2	Mixtral 8x22B	Claude 3 Sonnet	Gemini 1.5 Flash	Mistral Large	Command R+	Claude 3 Haiku	Mistral Small	Llama 3 8B	Mixtral 8x7B	GPT-3.5 Turbo		Llama 3 70B (Groq)	GPT-4	Mistral Medium	Claude 2.0	Mixtral 8x7B (Groq)	Claude 2.1	Claude Instant	Phi-Medium 4k	Phi-3-Small 8k	Mistral 7B
列最后更新	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月20日	2024年5月20日	2024年5月20日	2024年5月14日	2024年5月14日	2024年5月20日	2024年5月20日	2024年5月14日	2024年5月20日	2024年5月21日	2024年5月14日	2024年5月14日		2024年5月14日	2024年5月14日	2024年5月20日	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月21日	2024年5月21日	2024年5月22日
能力																											39
LMSys聊天机器人竞技场ELO	1310	1257	1256	1249	1208			1204		1158	1193	1182		1154	1114	1102		1208	1189	1148	1126	1114	1115	1104			1006

通用知识：
MMLU	88.70	86.40	86.80	81.90	82.00	78.50	77.75	79.00	78.90	81.20	75.70	75.20	72.20	68.40	70.60	70.00		82.00	86.40	75.30	78.50	70.60		73.40	78.00	75.70	62.50
数学：
MATH	76.60	73.40	60.10	58.50	50.40			43.10	54.90	45.00		38.90		30.00		34.10		50.40	52.90								62.50
MGSM / GSM8K	90.50	88.60	95.00		93.00			92.30				88.90		79.60		57.10		93.00	92.00	62.50	89.00	88.60	62.50
推理：																											66.60
GPQA	53.60	49.10	50.40	41.50	39.50			40.40	39.50			33.30		34.20		28.10		39.50	35.70	62.50	89.00	86.70	85.50	77.00	62.50
BIG-BENCH-HARD			86.80	84.00				82.90	85.50			73.70				66.60			83.10	62.50	86.70	85.50	77.00	62.50
DROP, F1分数	83.40	85.40	83.10					78.90				78.40				64.10			80.90	62.50	78.40	77.00	62.50
HellaSwag			95.40					89.00		89.20		85.90	86.90		86.70	85.50			95.30	88.00	86.70	85.50	77.00	62.50
代码：																											77.70
HumanEval	90.20	87.60	84.90	71.90	81.70			73.00				75.90		62.20		48.10		81.70	67.00	62.20	61.00	78.50	62.50
Natural2Code				77.70					77.20	62.50										62.50	77.20	77.00	62.50	77.00	62.50	62.50	77.00
------------------------------------------------------------	------------------------------------	------------------------------------	------------------------------------------	------------------------------------------------------------	------------------------------------------------------------	------------------------------------------------------------	------------------------------------------------------------	------------------------------------------	------------------------------------------------------------	----------------------------------------------------	------------------------------------------------------------	------------------------------------------	----------------------------------------------------	------------------------------------------------------------	------------------------------------------------------------	------------------------------------	----	-----------------------------	------------------------------------	----------------------------------------------------	------------------------------------------	-----------------------------	------------------------------------------	------------------------------------------	------------------------------------------------------------	------------------------------------------------------------	----------------------------------------------------
模型名称	GPT-4o	GPT-4 Turbo	Claude 3 Opus	Gemini 1.5 Pro	Llama 3 70B	DeepSeek-V2	Mixtral 8x22B	Claude 3 Sonnet	Gemini 1.5 Flash	Mistral Large	Command R+	Claude 3 Haiku	Mistral Small	Llama 3 8B	Mixtral 8x7B	GPT-3.5 Turbo		Llama 3 70B (Groq)	GPT-4	Mistral Medium	Claude 2.0	Mixtral 8x7B (Groq)	Claude 2.1	Claude Instant	Phi-Medium 4k	Phi-3-Small 8k	Mistral 7B
列最后更新	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月20日	2024年5月20日	2024年5月20日	2024年5月14日	2024年5月14日	2024年5月20日	2024年5月20日	2024年5月14日	2024年5月20日	2024年5月21日	2024年5月14日	2024年5月14日		2024年5月14日	2024年5月14日	2024年5月20日	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月14日	2024年5月21日	2024年5月21日	2024年5月22日
能力																											39
LMSys聊天机器人竞技场ELO	1310	1257	1256	1249	1208			1204		1158	1193	1182		1154	1114	1102		1208	1189	1148	1126	1114	1115	1104			1006

通用知识：
MMLU	88.70	86.40	86.80	81.90	82.00	78.50	77.75	79.00	78.90	81.20	75.70	75.20	72.20	68.40	70.60	70.00		82.00	86.40	75.30	78.50	70.60		73.40	78.00	75.70	62.50
数学：
MATH	76.60	73.40	60.10	58.50	50.40			43.10	54.90	45.00		38.90		30.00		34.10		50.40	52.90
MGSM / GSM8K	90.50	88.60	95.00		93.00			92.30				88.90		79.60		57.10		93.00	92.00	62.20	61.00	60.00	59.72	68.40	77.00	65.45
推理：
GPQA	53.60	49.10	50.40	41.50	39.50			40.40	39.50			33.30		34.20		28.10		39.50	35.70	62.20	61.00	60.00	59.72	68.40	77.00	65.45
BIG-BENCH-HARD			86.80	84.00				82.90	85.50			73.70				66.60			83.10	62.20	61.00	60.00	59.72	68.40	77.00	65.45
DROP, F1分数	83.40	85.40	83.10					78.90				78.40				64.10			80.90	62.20	61.00	60.00	59.72	68.40	77.00	65.45
HellaSwag			95.40					89.00		89.20		85.90	86.90		86.70	85.50			95.30	88.00	86.70	85.50	78.40	77.00	65.45
代码：
HumanEval	90.20	87.60	84.90	71.90	81.70			73.00				75.90		62.20		48.10		81.70	67.00	62.20	61.00	60.00	59.72	68.40	77.00	65.45
Natural2Code				77.70					77.20	62.20	61.00	59.72	68.40	77.00	65.45	62.20	61.00	60.00	59.72	68.40	77.00	65.45
对话：
MT Bench		93.20								62.20	61.00	59.72	58.40	57.72	56.72	55.72	54.72	53.72	52.72	51.72	50.72	49.72	48.72	47.72	46.72	45.72	44.72

论文

超越事实性：大型语言模型作为知识生成器的全面评估，
作者：Liang Chen、Yang Deng、Yatao Bian 等
深入探讨基于大型语言模型的自动评估，
作者：Cheng-han Chiang、Hungyi Li
大型语言模型评估综述，
作者：Yupeng Chang、Xu Wang、Jindong Wang、Yuan Wu、Linyi Yang、Kaijie Zhu、Hao Chen、Xiaoyuan Yi 等
G-Eval：使用 GPT-4 进行更符合人类预期的 NLG 评估，
作者：Yang Liu、Dan Iter、Yichong Xu、Shuohang Wang、Ruochen Xu、Chenguang Zhu
ChatGPT 在推理、幻觉和交互性方面的多任务、多语言、多模态评估，
作者：Yejin Bang、Samuel Cahyawijaya、Nayeon Lee、Wenliang Dai、Dan Su、Bryan Wilie、Holy Lovenia、Ziwei Ji 等
超越事实性：大型语言模型作为知识生成器的全面评估，
作者：Liang Chen、Yang Deng、Yatao Bian、Zeyu Qin、Bingzhe Wu、Tat-Seng Chua、Kam-Fai Wong
ChatGPT 是通用自然语言处理任务求解器吗？，
作者：Qin、Chengwei、Zhang、Aston、Zhang、Zhuosheng、Chen、Jiaao、Yasunaga、Michihiro 和 Yang、Diyi
ChatGPT 对比传统知识图谱问答系统：现状及迈向知识图谱聊天机器人的未来方向，
作者：Reham Omar、Omij Mangukiya、Panos Kalnis 和 Essam Mansour
ChatGPT 的数学能力，
作者：Simon Frieder、Luca Pinchetti、Ryan-Rhys Griffiths、Tommaso Salvatori、Thomas Lukasiewicz、Philipp Christian Petersen、Alexis Chevalier 和 Julius Berner
探索 ChatGPT 在基于查询或方面的文本摘要方面的极限，
作者：Xianjun Yang、Yan Li、Xinlu Zhang、Haifeng Chen 和 Wei Cheng
关于 ChatGPT 的鲁棒性：对抗性和分布外视角，
作者：Jindong Wang、Xixu Hu、Wenxin Hou、Hao Chen、Runkai Zheng、Yidong Wang、Linyi Yang、Haojun Huang 等
ChatGPT 并非万能：大型生成式 AI 模型的最新进展综述，
作者：Roberto Gozalo-Brizuela 和 Eduardo C. Garrido-Merch'an
ChatGPT 能否真正理解？ChatGPT 与微调后的 BERT 的比较研究，
作者：Qihuang Zhong、Liang Ding、Juhua Liu、Bo Du 和 Dacheng Tao
ChatGPT 作为复杂问题问答系统的评估，
作者：Yiming Tan、Dehai Min、Yu Li、Wenbo Li、Nan Hu、Yongrui Chen 和 Guilin Qi
ChatGPT 是一位博学但缺乏经验的解题者：对大型语言模型中常识问题的探究，
作者：Ning Bian、Xianpei Han、Le Sun、Hongyu Lin、Yaojie Lu 和 Ben He
语言模型的整体评估，
作者：Percy Liang、Rishi Bommasani、Tony Lee、Dimitris Tsipras、Dilara Soylu、Michihiro Yasunaga、Yian Zhang、Deepak Narayanan 等
评估大型语言模型的文本到 SQL 能力，
作者：Nitarshan Rajkumar、Raymond Li 和 Dzmitry Bahdanau
视觉-语言模型是常识知识库吗？，
作者：Hsiu-Yu Yang 和 Carina Silberer
GPT-3 是精神病患者吗？从心理学视角评估大型语言模型，
作者：Xingxuan Li、Yutong Li、Linlin Liu、Lidong Bing 和 Shafiq R. Joty
GeoMLAMA：针对多语言预训练语言模型的地理多样性常识探测，
作者：Da Yin、Hritik Bansal、Masoud Monajatipoor、Liunian Harold Li 和 Kai-Wei Chang
RobustLR：用于评估演绎推理者逻辑鲁棒性的诊断基准，
作者：Soumya Sanyal、Zeyi Liao 和 Xiang Ren
代码领域大型语言模型的系统性评估，
作者：Frank F. Xu、Uri Alon、Graham Neubig 和 Vincent J. Hellendoorn
评估基于代码训练的大型语言模型，
作者：Mark Chen、Jerry Tworek、Heewoo Jun、Qiming Yuan、Henrique Pond'e de Oliveira Pinto、Jared Kaplan、Harrison Edwards、Yuri Burda 等
GLGE：一种新的通用语言生成评估基准，
作者：Dayiheng Liu、Yu Yan、Yeyun Gong、Weizhen Qi、Hang Zhang、Jian Jiao、Weizhu Chen、Jie Fu 等
评估预训练模型在软件工程用户反馈分析中的应用：以应用评论分类为例的研究，
作者：Mohammad Abdul Hadi 和 Fatemeh H. Fard
语言模型能否进行可泛化的常识推理？，
作者：Peifeng Wang、Filip Ilievski、Muhao Chen 和 Xiang Ren
RICA：基于常识公理的鲁棒推理能力评估，
作者：Pei Zhou、Rahul Khanna、Seyeon Lee、Bill Yuchen Lin、Daniel Ho、Jay Pujara 和 Xiang Ren
文本生成评估：综述，
作者：Asli Celikyilmaz、Elizabeth Clark 和 Jianfeng Gao
神经网络语言生成：形式化、方法与评估，
作者：Cristina Garbacea 和 Qiaozhu Mei
BERTScore：使用 BERT 评估文本生成，
作者：Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger 和 Yoav Artzi

LLM 列表

典型 LLM 详情

模型	参数量	层数	注意力头数	维度	学习率	批量大小	训练 token 数
LLaMA2	67亿	32	32	4096	3.00E-04	400万	1.0万亿
LLaMA2	130亿	40	40	5120	3.00E-04	400万	1.0万亿
LLaMA2	325亿	60	52	6656	1.50E-04	400万	1.4万亿
LLaMA2	652亿	80	64	8192	1.50E-04	400万	1.4万亿
nano-GPT	85,584	3	3	768	3.00E-04
GPT2-small	1.2亿	12	12	768	2.50E-04
GPT2-XL	15亿	48	25	1600	1.50E-04
GPT3	175亿	96	96	12288	1.50E-04		0.5万亿

预训练 LLM

模型	规模	架构	访问	日期	来源
Switch Transformer	1.6T	解码器(MOE)	-	2021-01	论文
GLaM	1.2T	解码器(MOE)	-	2021-12	论文
PaLM	540B	解码器	-	2022-04	论文
MT-NLG	530B	解码器	-	2022-01	论文
J1-Jumbo	178B	解码器	API	2021-08	论文
OPT	175B	解码器	API \| 检查点	2022-05	论文
BLOOM	176B	解码器	API \| 检查点	2022-11	论文
GPT 3.0	175B	解码器	API	2020-05	论文
LaMDA	137B	解码器	-	2022-01	论文
GLM	130B	解码器	检查点	2022-10	论文
YaLM	100B	解码器	检查点	2022-06	博客
LLaMA	65B	解码器	检查点	2022-09	论文
GPT-NeoX	20B	解码器	检查点	2022-04	论文
UL2	20B	不分架构	检查点	2022-05	论文
T5	11B	编码器-解码器	检查点	2019-10	论文
CPM-Bee	10B	解码器	API	2022-10	论文
rwkv-4	7B	RWKV	检查点	2022-09	GitHub
GPT-J	6B	解码器	检查点	2022-09	GitHub
GPT-Neo	2.7B	解码器	检查点	2021-03	GitHub
GPT-Neo	1.3B	解码器	检查点	2021-03	GitHub

指令微调的大模型

模型	规模	架构	访问	日期	来源
Flan-PaLM	540B	解码器	-	2022-10	论文
BLOOMZ	176B	解码器	检查点	2022-11	论文
InstructGPT	175B	解码器	API	2022-03	论文
Galactica	120B	解码器	检查点	2022-11	论文
OpenChatKit	20B	-	检查点	2023-3	-
Flan-UL2	20B	解码器	检查点	2023-03	博客
Gopher	-	-	-	-	-
Chinchilla	-	-	-	-	-
Flan-T5	11B	编码器-解码器	检查点	2022-10	论文
T0	11B	编码器-解码器	检查点	2021-10	论文
Alpaca	7B	解码器	演示	2023-03	GitHub

对齐的大模型

模型	规模	架构	访问	日期	来源
GPT 4	-	-	-	2023-03	博客
ChatGPT	-	解码器	演示\|API	2022-11	博客
Sparrow	70B	-	-	2022-09	论文
Claude	-	-	演示\|API	2023-03	博客

开源大模型

LLaMA - 一个基础的、拥有650亿参数的大语言模型。LLaMA.cpp Lit-LLaMA
- Alpaca - 基于LLaMA 7B模型，在5.2万条指令遵循示例上微调得到的模型。Alpaca.cpp Alpaca-LoRA
- Flan-Alpaca - 由人类和机器共同进行的指令微调。
- Baize - Baize是一个使用LoRA训练的开源聊天模型，它使用了让ChatGPT与自身对话生成的10万条对话数据。
- Cabrita - 一个葡萄牙语微调的指令型LLaMA模型。
- Vicuna - 一款开源聊天机器人，其性能可媲美ChatGPT，质量达到ChatGPT的90%。
- Llama-X - 关于改进LLaMA以达到当前最优水平的大模型的开放学术研究。
- Chinese-Vicuna - 一个基于LLaMA的中文指令遵循模型。
- GPTQ-for-LLaMA - 使用GPTQ对LLaMA进行4位量化。
- GPT4All - 提供演示、数据和代码，用于训练基于GPT-J和LLaMA的开源助手型大语言模型。
- Koala - 一个用于学术研究的对话模型。
- BELLE - 成为每个人的大语言模型引擎。
- StackLLaMA - 一份使用RLHF训练LLaMA的实践指南。
- RedPajama - 一个开源配方，用于重现LLaMA的训练数据集。
- Chimera - 拉丁凤凰。
BLOOM - BigScience大型开源多语言语言模型 BLOOM-LoRA
- BLOOMZ&mT0 - 一系列能够在零样本情况下用数十种语言理解并执行人类指令的模型。
- Phoenix
T5 - 文本到文本迁移变换器
- T0 - 多任务提示训练使模型能够实现零样本任务泛化。
OPT - 开放式预训练Transformer语言模型。
UL2 - 一种统一的框架，用于预训练在不同数据集和设置中都通用有效的模型。
GLM- GLM是一种通用语言模型，采用自回归填空目标进行预训练，可用于各种自然语言理解和生成任务的微调。
RWKV - 可并行化的RNN，具有Transformer级别的大模型性能。
- ChatRWKV - ChatRWKV类似于ChatGPT，但由我的RWKV（100% RNN）语言模型驱动。
StableLM - Stability AI语言模型。
YaLM - 一个类似GPT的神经网络，用于生成和处理文本。全球开发者和研究人员均可免费使用。
GPT-Neo - 使用mesh-tensorflow库实现的、具备模型并行和数据并行能力的GPT3类模型。
GPT-J - 一个拥有60亿参数的自回归文本生成模型，基于The Pile数据集训练而成。
- Dolly - 一个成本低廉、却展现出惊人指令遵循能力的LLM，其表现堪比ChatGPT。
Pythia - 解读跨时间和规模的自回归Transformer模型
- Dolly 2.0 - 第一个开源、指令微调的LLM，基于获准用于科研和商业用途的人工指令数据集进行微调。
OpenFlamingo - DeepMind Flamingo模型的开源复现版本。
Cerebras-GPT - 一系列开源、计算高效的大型语言模型。
GALACTICA - GALACTICA系列模型是在大规模科学语料库上训练而成。
- GALPACA - 在Alpaca数据集上微调的GALACTICA 30B模型。
Palmyra - Palmyra Base主要以英文文本进行预训练。
Camel - 一款最先进的指令遵循大型语言模型，旨在提供卓越的性能和多功能性。
h2oGPT
PanGu-α - PanGu-α是华为诺亚方舟实验室、MindSpore团队和鹏城实验室联合开发的2000亿参数自回归中文语言模型。
Open-Assistant - 一个旨在让每个人都能使用优秀的基于聊天的大语言模型的项目。
HuggingChat - 由Open Assistant最新模型驱动——目前最好的开源聊天模型，并通过@huggingface推理API提供服务。
Baichuan - 由百川智能科技公司在Baichuan-7B的基础上开发的开源、商用大型语言模型，包含130亿个参数。（2023年7月15日）
Qwen - Qwen-7B是阿里巴巴云提出的Qwen（通义千问）系列大语言模型中的70亿参数版本。Qwen-7B是一个基于Transformer的大语言模型，已在大量数据上进行预训练，包括网页文本、书籍、代码等。（2023年8月3日）

流行大模型

模型	作者数量	链接	参数量	基础模型	层数	编码器	解码器	预训练 token 数	微调样本数	RLHF
GPT3-Ada	brown2020language	https://platform.openai.com/docs/models/gpt-3	0.35B	-	24	-	24	-	-	-
Pythia-1B	biderman2023pythia	https://huggingface.co/EleutherAI/pythia-1b	1B	-	16	-	16	300B tokens	-	-
GPT3-Babbage	brown2020language	https://platform.openai.com/docs/models/gpt-3	1.3B	-	24	-	24	-	-	-
GPT2-XL	radford2019language	https://huggingface.co/gpt2-xl	1.5B	-	48	-	48	40B tokens	-	-
BLOOM-1b7	scao2022bloom	https://huggingface.co/bigscience/bloom-1b7	1.7B	-	24	-	24	350B tokens	-	-
BLOOMZ-1b7	muennighoff2022crosslingual	https://huggingface.co/bigscience/bloomz-1b7	1.7B	BLOOM-1b7	24	-	24	-	8.39B tokens	-
Dolly-v2-3b	2023dolly	https://huggingface.co/databricks/dolly-v2-3b	2.8B	Pythia-2.8B	32	-	32	-	15K	-
Pythia-2.8B	biderman2023pythia	https://huggingface.co/EleutherAI/pythia-2.8b	2.8B	-	32	-	32	300B tokens	-	-
BLOOM-3b	scao2022bloom	https://huggingface.co/bigscience/bloom-3b	3B	-	30	-	30	350B tokens	-	-
BLOOMZ-3b	muennighoff2022crosslingual	https://huggingface.co/bigscience/bloomz-3b	3B	BLOOM-3b	30	-	30	-	8.39B tokens	-
StableLM-Base-Alpha-3B	2023StableLM	https://huggingface.co/stabilityai/stablelm-base-alpha-3b	3B	-	16	-	16	800B tokens	-	-
StableLM-Tuned-Alpha-3B	2023StableLM	https://huggingface.co/stabilityai/stablelm-tuned-alpha-3b	3B	StableLM-Base-Alpha-3B	16	-	16	-	632K	-
ChatGLM-6B	zeng2023glm-130b,du2022glm	https://huggingface.co/THUDM/chatglm-6b	6B	-	28	28	28	1T tokens	\checkmark	\checkmark
DoctorGLM	xiong2023doctorglm	https://github.com/xionghonglin/DoctorGLM	6B	ChatGLM-6B	28	28	28	-	6.38M	-
ChatGLM-Med	ChatGLM-Med	https://github.com/SCIR-HI/Med-ChatGLM	6B	ChatGLM-6B	28	28	28	-	8K	-
GPT3-Curie	brown2020language	https://platform.openai.com/docs/models/gpt-3	6.7B	-	32	-	32	-	-	-
MPT-7B-Chat	MosaicML2023Introducing	https://huggingface.co/mosaicml/mpt-7b-chat	6.7B	MPT-7B	32	-	32	-	360K	-
MPT-7B-Instruct	MosaicML2023Introducing	https://huggingface.co/mosaicml/mpt-7b-instruct	6.7B	MPT-7B	32	-	32	-	59.3K	-
MPT-7B-StoryWriter-65k+	MosaicML2023Introducing	https://huggingface.co/mosaicml/mpt-7b-storywriter	6.7B	MPT-7B	32	-	32	-	\checkmark	-
Dolly-v2-7b	2023dolly	https://huggingface.co/databricks/dolly-v2-7b	6.9B	Pythia-6.9B	32	-	32	-	15K	-
h2ogpt-oig-oasst1-512-6.9b	2023h2ogpt	https://huggingface.co/h2oai/h2ogpt-oig-oasst1-512-6.9b	6.9B	Pythia-6.9B	32	-	32	-	398K	-
Pythia-6.9B	biderman2023pythia	https://huggingface.co/EleutherAI/pythia-6.9b	6.9B	-	32	-	32	300B tokens	-	-
Alpaca-7B	alpaca	https://huggingface.co/tatsu-lab/alpaca-7b-wdiff	7B	LLaMA-7B	32	-	32	-	52K	-
Alpaca-LoRA-7B	2023alpacalora	https://huggingface.co/tloen/alpaca-lora-7b	7B	LLaMA-7B	32	-	32	-	52K	-
Baize-7B	xu2023baize	https://huggingface.co/project-baize/baize-lora-7B	7B	LLaMA-7B	32	-	32	-	263K	-
Baize Healthcare-7B	xu2023baize	https://huggingface.co/project-baize/baize-healthcare-lora-7B	7B	LLaMA-7B	32	-	32	-	201K	-
ChatDoctor	yunxiang2023chatdoctor	https://github.com/Kent0n-Li/ChatDoctor	7B	LLaMA-7B	32	-	32	-	167K	-
HuaTuo	wang2023huatuo	https://github.com/scir-hi/huatuo-llama-med-chinese	7B	LLaMA-7B	32	-	32	-	8K	-
Koala-7B	koala_blogpost_2023	https://huggingface.co/young-geng/koala	7B	LLaMA-7B	32	-	32	-	472K	-
LLaMA-7B	touvron2023llama	https://huggingface.co/decapoda-research/llama-7b-hf	7B	-	32	-	32	1T tokens	-	-
Luotuo-lora-7b-0.3	luotuo	https://huggingface.co/silk-road/luotuo-lora-7b-0.3	7B	LLaMA-7B	32	-	32	-	152K	-
StableLM-Base-Alpha-7B	2023StableLM	https://huggingface.co/stabilityai/stablelm-base-alpha-7b	7B	-	16	-	16	800B tokens	-	-
StableLM-Tuned-Alpha-7B	2023StableLM	https://huggingface.co/stabilityai/stablelm-tuned-alpha-7b	7B	StableLM-Base-Alpha-7B	16	-	16	-	632K	-
Vicuna-7b-delta-v1.1	vicuna2023	https://github.com/lm-sys/FastChat\#vicuna-weights	7B	LLaMA-7B	32	-	32	-	70K	-
BELLE-7B-0.2M /0.6M /1M /2M	belle2023exploring	https://huggingface.co/BelleGroup/BELLE-7B-2M	7.1B	Bloomz-7b1-mt	30	-	30	-	0.2M/0.6M/1M/2M	-
BLOOM-7b1	scao2022bloom	https://huggingface.co/bigscience/bloom-7b1	7.1B	-	30	-	30	350B tokens	-	-
BLOOMZ-7b1 /mt /p3	muennighoff2022crosslingual	https://huggingface.co/bigscience/bloomz-7b1-p3	7.1B	BLOOM-7b1	30	-	30	-	4.19B tokens	-
Dolly-v2-12b	2023dolly	https://huggingface.co/databricks/dolly-v2-12b	12B	Pythia-12B	36	-	36	-	15K	-
h2ogpt-oasst1-512-12b	2023h2ogpt	https://huggingface.co/h2oai/h2ogpt-oasst1-512-12b	12B	Pythia-12B	36	-	36	-	94.6K	-
Open-Assistant-SFT-4-12B	2023openassistant	https://huggingface.co/OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5	12B	Pythia-12B-deduped	36	-	36	-	161K	-
Pythia-12B	biderman2023pythia	https://huggingface.co/EleutherAI/pythia-12b	12B	-	36	-	36	300B tokens	-	-
Baize-13B	xu2023baize	https://huggingface.co/project-baize/baize-lora-13B	13B	LLaMA-13B	40	-	40	-	263K	-
Koala-13B	koala_blogpost_2023	https://huggingface.co/young-geng/koala	13B	LLaMA-13B	40	-	40	-	472K	-
LLaMA-13B	touvron2023llama	https://huggingface.co/decapoda-research/llama-13b-hf	13B	-	40	-	40	1T tokens	-	-
StableVicuna-13B	2023StableLM	https://huggingface.co/CarperAI/stable-vicuna-13b-delta	13B	Vicuna-13B v0	40	-	40	-	613K	\checkmark
Vicuna-13b-delta-v1.1	vicuna2023	https://github.com/lm-sys/FastChat\#vicuna-weights	13B	LLaMA-13B	40	-	40	-	70K	-
moss-moon-003-sft	2023moss	https://huggingface.co/fnlp/moss-moon-003-sft	16B	moss-moon-003-base	34	-	34	-	1.1M	-
moss-moon-003-sft-plugin	2023moss	https://huggingface.co/fnlp/moss-moon-003-sft-plugin	16B	moss-moon-003-base	34	-	34	-	1.4M	-
GPT-NeoX-20B	gptneox	https://huggingface.co/EleutherAI/gpt-neox-20b	20B	-	44	-	44	825GB	-	-
h2ogpt-oasst1-512-20b	2023h2ogpt	https://huggingface.co/h2oai/h2ogpt-oasst1-512-20b	20B	GPT-NeoX-20B	44	-	44	-	94.6K	-
Baize-30B	xu2023baize	https://huggingface.co/project-baize/baize-lora-30B	33B	LLaMA-30B	60	-	60	-	263K	-
LLaMA-30B	touvron2023llama	https://huggingface.co/decapoda-research/llama-30b-hf	33B	-	60	-	60	1.4T tokens	-	-
LLaMA-65B	touvron2023llama	https://huggingface.co/decapoda-research/llama-65b-hf	65B	-	80	-	80	1.4T tokens	-	-
GPT3-Davinci	brown2020language	https://platform.openai.com/docs/models/gpt-3	175B	-	96	-	96	300B tokens	-	-
BLOOM	scao2022bloom	https://huggingface.co/bigscience/bloom	176B	-	70	-	70	366B tokens	-	-
BLOOMZ /mt /p3	muennighoff2022crosslingual	https://huggingface.co/bigscience/bloomz-p3	176B	BLOOM	70	-	70	-	2.09B tokens	-
ChatGPT~(2023.05.01)	openaichatgpt	https://platform.openai.com/docs/models/gpt-3-5	-	GPT-3.5	-	-	-	-	\checkmark	\checkmark
GPT-4~(2023.05.01)	openai2023gpt4	https://platform.openai.com/docs/models/gpt-4	-	-	-	-	-	-	\checkmark	\checkmark

训练框架

Accelerate - 🚀 一种简单的方法，用于在多 GPU、TPU 和混合精度下训练和使用 PyTorch 模型。
Apache MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架，具有动态、支持变异的数据流依赖调度器。
Caffe - 一个快速的开源深度学习框架。
ColossalAI - 一个集成的大规模模型训练系统，采用高效的并行化技术。
DeepSpeed - DeepSpeed 是一个深度学习优化库，使分布式训练和推理变得简单、高效且有效。
Horovod - 面向 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式训练框架。
Jax - 用于高性能机器学习研究的自动微分和 XLA。
Kedro - Kedro 是一个开源 Python 框架，用于创建可复现、可维护且模块化的数据科学代码。
Keras - Keras 是用 Python 编写的深度学习 API，运行在机器学习平台 TensorFlow 之上。
LightGBM - 基于决策树算法的快速、分布式、高性能梯度提升（GBT、GBDT、GBRT、GBM 或 MART）框架，用于排序、分类以及许多其他机器学习任务。
MegEngine - MegEngine 是一个快速、可扩展且易于使用的深度学习框架，支持自动微分。
metric-learn - Python 中的度量学习算法。
MindSpore - MindSpore 是一个新的开源深度学习训练/推理框架，可用于移动、边缘和云场景。
Oneflow - OneFlow 是一个以性能为中心的开源深度学习框架。
PaddlePaddle - 来自工业实践的机器学习框架。
PyTorch - 在 Python 中使用张量和动态神经网络，并具有强大的 GPU 加速功能。
PyTorch Lightning - 一种深度学习框架，用于闪电般快速地训练、部署和交付 AI 产品。
XGBoost - 可扩展、可移植且分布式的梯度提升（GBDT、GBRT 或 GBM）库。
scikit-learn - Python 中的机器学习。
TensorFlow - 一个面向所有人的开源机器学习框架。
VectorFlow - 一个针对稀疏数据和单机环境优化的极简神经网络库。

大语言模型运维

名称	星标数	描述
Byzer-LLM		Byzer-LLM 是一套全面的大模型基础设施，支持预训练、微调、部署和推理等大模型相关能力。Byzer-Retrieval 是专为大模型打造的存储基础设施，支持多种数据源的批量导入、实时单条更新以及全文检索、向量检索和混合检索等功能，从而简化 Byzer-LLM 的数据使用流程。Byzer-SQL/Python 提供了友好的交互式 API，降低了用户使用上述产品的门槛。
agenta		一个用于构建强大 LLM 应用的 LLMOps 平台。它允许轻松试验和评估不同的提示词、模型和工作流，以构建健壮的应用程序。
Arize-Phoenix		面向 LLM、视觉、语言和表格数据模型的机器学习可观测性平台。
BudgetML		使用不到 10 行代码，在有限预算下部署 ML 推理服务。
CometLLM		一个开源的 LLMOps 平台，用于记录、管理和可视化 LLM 提示词及链路。它可以跟踪提示模板、变量、执行时长、令牌使用情况等元数据，并对提示输出进行评分，同时在单一 UI 中可视化聊天历史。
deeplake		流式传输大型多模态数据集，实现接近 100% 的 GPU 利用率。支持数据查询、可视化和版本控制，无需重新计算嵌入即可访问数据，便于模型微调。
Dify		一个开源框架，使开发者（甚至非开发者）能够快速构建基于大型语言模型的实用应用，确保这些应用具有可见性、可操作性和可改进性。
Dstack		在任何云环境中（AWS、GCP、Azure、Lambda 等）经济高效地开发 LLM。
Embedchain		一个用于基于数据集创建类似 ChatGPT 机器人的工作框架。
GPTCache		构建语义缓存，用于存储 LLM 查询的响应。
Haystack		快速构建包含 LLM 代理、语义搜索、问答等功能的应用程序。
langchain		通过组件化方式构建 LLM 应用。
LangFlow		一种无需繁琐操作的方式，通过拖放组件和聊天界面来试验和原型化 LangChain 流程。
LangKit		一个开箱即用的 LLM 遥测收集库，能够提取 LLM 性能随时间变化的指标、提示词、响应及元数据，从而大规模识别问题。
LiteLLM 🚅		一个简单轻量的 100 行包，用于标准化跨 OpenAI、Azure、Cohere、Anthropic、Replicate 等多个 API 端点的 LLM API 调用。
LlamaIndex		提供一个中心化接口，将您的 LLM 与外部数据连接起来。
LLMApp		LLM App 是一个 Python 库，只需几行代码即可帮助您构建实时的 LLM 驱动数据管道。
LLMFlows		LLMFlows 是一个用于构建简单、清晰且透明的 LLM 应用程序的框架，例如聊天机器人、问答系统和智能代理。
LLMonitor		面向 AI 应用和智能代理的可观测性与监控工具。通过强大的追踪和日志功能调试智能代理，利用分析工具深入请求历史。提供易于集成到 LangChain 的开发者友好模块。
magentic		将 LLM 无缝集成为 Python 函数。使用类型注解指定结构化输出。将 LLM 查询和函数调用与常规 Python 代码结合，以创建复杂的 LLM 驱动功能。
Pezzo 🕹️		Pezzo 是一个面向开发者和团队的开源 LLMOps 平台。只需两行代码，即可轻松排查 AI 运营中的问题，协作管理提示词，并从一处即时部署更改。
promptfoo		一个开源的工具，用于测试和评估提示词质量。创建测试用例，自动检查输出质量，并捕捉回归问题，从而降低评估成本。
prompttools		一个开源的工具，用于测试和尝试提示词。其核心理念是让开发者能够使用熟悉的界面，如代码和笔记本，来评估提示词。只需几行代码，即可在不同模型上测试提示词和参数（无论您使用的是 OpenAI、Anthropic 还是 LLaMA 模型）。甚至还可以评估向量数据库检索的准确性。
TrueFoundry	无 GitHub 链接	在您自己的 Kubernetes（EKS、AKS、GKE、本地部署）基础设施上部署 LLMOps 工具，包括向量数据库、嵌入式服务器等。这涵盖了用于部署、微调、提示词跟踪以及提供完整数据安全和优化 GPU 管理的开源 LLM 模型。采用最佳软件工程实践，以生产规模训练并上线您的 LLM 应用。
ReliableGPT 💪		处理生产级 LLM 应用中遇到的 OpenAI 错误（OpenAI 服务器过载、密钥轮换或上下文窗口错误）。
Weights & Biases (Prompts)	无 GitHub 链接	W&B MLOps 平台中面向开发者的一套 LLMOps 工具。使用 W&B Prompts 可以可视化和检查 LLM 执行流程，跟踪输入和输出，查看中间结果，并管理提示词及 LLM 链配置。
xTuring		使用快速高效的微调技术构建和控制您自己的 LLM。
ZenML		一个开源框架，用于编排、实验和部署生产级机器学习解决方案，内置 `langchain` 和 `llama_index` 集成。

课程

大语言模型课程notebooks集-Large Language Model Course - 一门包含路线图和notebooks的课程，帮助你入门大型语言模型（LLMs）。
全栈LLM训练营 - LLM相关学习/应用资源集。

其他精选列表

Awesome LLM - 一份精心整理的大语言模型相关论文列表。
高效LLM精选 - 针对高效大型语言模型的精选资源列表。
生产级机器学习精选 - 用于部署、监控、版本管理和扩展机器学习模型的优秀开源库精选列表。
营销数据科学精选 - 有用的LLM、分析和数据科学资源精选列表。
LLM工具精选 - 有用的LLM工具精选列表。
LLM压缩精选 - 针对高效LLM压缩技术的精选资源列表。
多模态大语言模型精选 - 多模态大语言模型的精选资源列表。
LLMOps精选 - 为开发者提供的最佳LLMOps工具的精选列表。
MLOps精选 - MLOps（机器学习运维）相关参考资料的精选列表。
ChatGPT提示词精选 - 一系列可用于ChatGPT模型的提示词示例集合。
中文版ChatGPT提示词精选 - 一系列可用于ChatGPT模型的中文提示词示例集合。
ChatGPT精选 - OpenAI旗下ChatGPT和GPT-3相关资源的精选列表。
思维链论文集 - 以“通过思维链提示激发大型语言模型的推理能力”为开端的趋势相关论文集合。
指令微调论文集 - 以Natrural-Instruction（ACL 2022）、FLAN（ICLR 2022）和T0（ICLR 2022）为起点的趋势相关论文集合。
LLM阅读清单 - 大型语言模型相关的论文和资源清单。
利用语言模型进行推理 - 关于利用语言模型进行推理的论文和资源集合。
思维链中心 - 用于评估大型语言模型推理性能的平台。
GPT精选 - 与GPT、ChatGPT、OpenAI、LLM等相关的优秀项目和资源的精选列表。
GPT-3精选 - 一系列关于OpenAI GPT-3 API的演示和文章集合。

许可证

MIT许可证。

知识共享署名-非商业性使用-相同方式共享4.0国际许可协议。

引用

@misc{llm-eval-anthropomorphic,
      title={超越基准：基于拟人化与价值导向的大型语言模型评估路线图}, 
      author={Jun Wang, Ninglun Gu, Kailai Zhang, Zijiao Zhang, Yelun Bao, Jin Yang, Xu Yin, Liwei Liu, Yihuan Liu, Pengyong Li, Gary G. Yen, Junchi Yan},
      year={2025},
      eprint={2508.18646},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.18646}, 
}

Awesome-LLM-Eval 快速上手指南

Awesome-LLM-Eval 并非一个单一的 Python 包或可执行工具，而是一个精选资源列表（Curated List）。它汇集了用于大语言模型（LLM）评估的工具、数据集、基准测试、论文、排行榜及模型列表。

本指南将帮助你如何利用该仓库快速找到适合的评估方案，并演示如何安装和使用其中收录的典型评估框架（以 OpenCompass 和 LightEval 为例）。

1. 环境准备

由于本仓库包含多种不同技术栈的评估工具，建议根据你的具体需求准备环境。通用推荐配置如下：

操作系统: Linux (Ubuntu 20.04+) 或 macOS
Python 版本: 3.8 - 3.10 (大多数 LLM 工具推荐 3.9)
硬件要求:
- CPU: 仅运行轻量级指标计算时可用。
- GPU: 运行本地模型推理评估时，推荐 NVIDIA GPU (显存 >= 16GB 用于 7B-13B 模型，>= 24GB 用于更大模型)。
前置依赖:
- Git
- Conda 或 venv (强烈建议使用虚拟环境隔离不同工具)
- CUDA Toolkit (如需 GPU 加速)

2. 获取资源与安装示例

步骤一：克隆仓库

首先获取完整的评估资源列表：

git clone https://github.com/your-repo/Awesome-LLM-Eval.git
cd Awesome-LLM-Eval

步骤二：选择并安装具体评估工具

浏览仓库中的 Tools 或 Datasets / Benchmark 章节，选择适合你的工具。以下是两个主流工具的安裝命令（优先使用国内镜像源加速）：

方案 A：安装 OpenCompass (上海人工智能实验室出品，中文支持好)

适用于综合性能评估，支持大量中文数据集。

# 创建虚拟环境
conda create -n opencompass python=3.9 -y
conda activate opencompass

# 使用清华源安装 opencompass
pip install opencompass -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装额外依赖（如需评测特定任务）
pip install datasets pandas tqdm -i https://pypi.tuna.tsinghua.edu.cn/simple

方案 B：安装 LightEval (Hugging Face 出品，轻量级)

适用于快速基准测试，兼容 Hugging Face 生态。

# 创建虚拟环境
conda create -n lighteval python=3.9 -y
conda activate lighteval

# 使用阿里源安装 lighteval
pip install lighteval -i https://mirrors.aliyun.com/pypi/simple/

# 安装 accelerate 用于多卡推理
pip install accelerate -i https://mirrors.aliyun.com/pypi/simple/

3. 基本使用示例

以下展示如何使用上述工具进行最简单的模型评估。请确保你已下载模型权重或知道模型的 Hugging Face ID。

示例 1：使用 OpenCompass 评估模型

创建一个配置文件 config_demo.py：

from mmengine.config import read_base

with read_base():
    from opencompass.configs.summarizers.medium import summarizer
    from opencompass.configs.datasets.mmlu.mmlu_gen import mmlu_datasets

datasets = mmlu_datasets
models = [
    dict(
        type=HuggingFaceCausalLM,
        abbr='qwen-7b-demo',
        path="Qwen/Qwen-7B", # 替换为你要评估的模型路径
        model_kwargs=dict(
            device_map='auto',
            trust_remote_code=True,
        ),
        batch_size=8,
        max_out_len=100,
        max_seq_len=2048,
        run_cfg=dict(num_gpus=1),
    )
]

summarizers = [summarizer]

运行评估命令：

opencompass config_demo.py --work-dir ./outputs

示例 2：使用 LightEval 评估 MMLU 基准

直接使用命令行调用，评估 meta-llama/Llama-2-7b-hf 模型：

lighteval \
  --model_args "pretrained=meta-llama/Llama-2-7b-hf" \
  --tasks "mmlu" \
  --batch_size 4 \
  --limit 10 \
  --output_dir "./eval_results"

下一步行动

回到 Awesome-LLM-Eval 仓库目录，查看 README.md 中的以下章节以获取更多专项资源：

RAG-Evaluation: 检索增强生成评估工具。
Agent-Capabilities: 智能体能力评估基准。
Coding-Capabilities: 代码生成与调试能力评估。
Leaderboards: 查看最新的模型排行榜数据。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架