Awesome-LLM-Eval

GitHub
627 54 非常简单 1 次阅读 1周前MIT其他数据工具语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

Awesome-LLM-Eval 是一个专注于大语言模型(LLM)评测的精选资源库,旨在帮助社区探索生成式 AI 的技术边界。面对当前大模型评估标准分散、维度单一的痛点,它系统性地整合了评测工具、基准数据集、演示案例、权威排行榜、前沿论文以及各类模型列表,为用户提供了一站式的导航服务。

该资源库不仅涵盖了通用能力评估,还深入细分领域,包括代码生成、智能体协作、检索增强生成(RAG)、长上下文处理及多模态交互等关键场景。其独特的技术亮点在于引入了“拟人化与价值导向”的评估路线图,主张超越传统的分数比拼,从更接近人类认知和价值观的维度审视模型能力,并持续更新如 LightEval、OpenCompass 等主流评测框架。

Awesome-LLM-Eval 非常适合 AI 研究人员、算法工程师及技术决策者使用。无论是需要复现最新研究成果的学者,还是致力于优化模型性能的开发者,都能在此快速找到所需的评估方案与数据支持,从而更高效地推动大模型技术的落地与迭代。

使用场景

某金融科技公司算法团队正急需为即将上线的智能投顾大模型进行全方位能力评估,以确保其在专业问答、逻辑推理及安全性上符合监管要求。

没有 Awesome-LLM-Eval 时

  • 资源搜集低效:团队成员需花费数天在 GitHub、Hugging Face 和论文网站间手动搜索分散的评测工具与数据集,极易遗漏关键基准。
  • 评测维度单一:仅依赖通用的准确率指标,缺乏针对金融领域(如 FinEval)、长上下文理解及 Agent 自主决策能力的专项评估方案。
  • 选型盲目:面对层出不穷的新模型,缺乏权威的排行榜(Leaderboard)和横向对比数据,难以判断哪个开源模型最适合业务场景。
  • 标准不统一:不同成员采用的评测脚本和数据处理方式各异,导致评估结果无法复现,团队内部对模型性能争议不断。

使用 Awesome-LLM-Eval 后

  • 一站式获取资源:直接利用其精选列表,快速定位到 ColossalEval、OpenCompass 等成熟工具及 OpenFinData 等专业数据集,将准备周期从数天缩短至几小时。
  • 构建多维评估体系:参考其分类架构,迅速搭建涵盖通用能力、金融垂直领域、RAG 检索增强及安全对齐的全方位评测框架,无死角探查模型边界。
  • 科学决策选型:依托集成的最新排行榜和论文综述,精准锁定在金融推理任务上表现最优的开源模型,大幅降低试错成本。
  • 统一评测规范:采纳社区公认的评测范式与文档,确保团队内部测试流程标准化,输出结果具备高度可比性和说服力。

Awesome-LLM-Eval 通过整合碎片化的评测生态,帮助团队从“盲目摸索”转向“科学度量”,显著提升了大模型落地的效率与可靠性。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesAwesome-LLM-Eval 是一个 curated list(精选列表)项目,主要收录用于大语言模型评估的工具、数据集、基准测试、论文和模型等资源清单。该项目本身不是一个可执行的软件工具或框架,因此没有特定的操作系统、GPU、内存、Python 版本或依赖库安装要求。用户若需使用列表中提到的具体评估工具(如 OpenCompass, AlpacaEval, DeepEval 等),请参考各工具独立的文档以获取相应的运行环境需求。
python未说明
Awesome-LLM-Eval hero image

快速开始

强大的大语言模型评估

English | 中文

Awesome-LLM-Eval:一个精心整理的工具、数据集/基准测试、演示、排行榜、论文、文档和模型列表,主要用于对大型语言模型进行评估,并探索生成式人工智能的边界与局限。

这是我们的综述文章的官方项目:《超越基准:以拟人化和价值导向的路线图评估大语言模型》(arxiv.org/abs/2508.18646)。

注意: 由于我们无法实时更新 arXiv 论文,请参考此仓库获取最新信息,论文可能会在稍后更新。我们也欢迎任何拉取请求或问题,帮助我们改进这项工作。您的贡献将在致谢部分被提及。

如果您觉得我们的综述有用,请引用我们的论文:

@misc{wang2025llmevalroadmap,
      title={Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap}, 
      author={Jun Wang and Ninglun Gu and Kailai Zhang and Zijiao Zhang and Yelun Bao and Jin Yang and Xu Yin and Liwei Liu and Yihuan Liu and Pengyong Li and Gary G. Yen and Junchi Yan},
      year={2025},
      eprint={2508.18646},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.18646}, 
}

目录

新闻

  • [2025年8月20日] 我们新增了拟人化分类法部分。
  • [2024年4月26日] 我们新增了推理速度部分。
  • [2024年2月26日] 我们新增了编程评估部分。
  • [2024年2月8日] 我们加入了来自 Hugging Face 的 lighteval 工具。
  • [2024年1月15日] 我们新增了 CRUXEval(arxiv.org/abs/2401.03065)、DebugBench(github.com/thunlp/DebugBench)、OpenFinData(opencompass.org.cn)以及 LAiW(github.com/Dai-shen/LAiW)。
  • [2023年12月20日] 我们新增了RAG-评估部分。
  • [2023年11月15日] 我们新增了用于评估大语言模型指令遵循能力的 Instruction-Following-Evaluation(google-research/google-research/tree/master/instruction_following_eval)和 LLMBar(github.com/princeton-nlp/LLMBar)。
  • [2023年10月20日] 我们新增了用于大语言模型智能体评估的 SuperCLUE-Agent(github.com/CLUEbenchmark/SuperCLUE-Agent)。
  • [2023年9月25日] 我们加入了来自 Colossal-AI 的 ColossalEval(github.com/hpcaitech/ColossalAI/tree/main/applications/ColossalEval)。
  • [2023年9月22日] 我们新增了排行榜查找器章节。
  • [2023年9月20日] 我们新增了来自 CLUEbenchmark 的 DeepEval(github.com/mr-gpt/deepeval)、FinEval(github.com/SUFE-AIFLM-Lab/FinEval)以及 SuperCLUE-Safety(github.com/CLUEbenchmark/SuperCLUE-Safety)。
  • [2023年9月18日] 我们新增了来自上海人工智能实验室的 OpenCompass(github.com/InternLM/opencompass/tree/main)。
  • [2023年8月3日] 我们新增了两款中国大语言模型:Baichuan(github.com/baichuan-inc/Baichuan-13B)和 Qwen(github.com/QwenLM/Qwen-7B)。
  • [2023年6月28日] 我们新增了 AlpacaEval(github.com/tatsu-lab/alpaca_eval)以及多个工具。
  • [2023年4月26日] 我们发布了包含多个基准测试的 V0.1 版本评估列表。

拟人化分类法

典型智商(IQ)——通用智能评估基准

名称 年份 任务类型 机构 评估重点 数据集 链接
MMLU-Pro 2024 多选题知识测试 TIGER-AI-Lab 细致推理,减少噪声 MMLU-Pro 链接
DyVal 2024 动态评估 Microsoft 数据污染,复杂度控制 DyVal 链接
PertEval 2024 通用 USTC 知识容量 PertEval 链接
LV-Eval 2024 长文本问答 Infinigence-AI 长度多样性,事实准确性 11个子集 链接
LLM-Uncertainty-Bench 2024 NLP任务 Tencent 不确定性量化 5个NLP任务 链接
CommonGen-Eval 2024 生成 AI2 常识 CommonGen-lite 链接
MathBench 2024 数学 上海AI实验室 理论与实践相结合问题解决 各种 链接
AIME 2024 数学 MAA 美国邀请数学竞赛 各种 链接
FrontierMath 2024 数学 Epoch AI 原创、具有挑战性的数学问题 各种 链接
FELM 2023 事实性 HKUST 事实性 847个问题 链接
Just-Eval-Instruct 2023 通用 AI2 Mosaic 有用性,可解释性 各种 链接
MLAgentBench 2023 机器学习研究 snap-stanford 端到端机器学习任务 15个任务 链接
UltraEval 2023 通用 OpenBMB 轻量、灵活、快速 各种 链接
FMTI 2023 透明性 斯坦福大学 模型透明性 100项指标 链接
BAMBOO 2023 长文本 RUCAIBox 长文本建模 10个数据集 链接
TRACE 2023 持续学习 复旦大学 持续学习 8个数据集 链接
ColossalEval 2023 通用 Colossal-AI 统一评估 各种 链接
LLMEval² 2023 通用 AlibabaResearch 广泛而深入的评估 2,553个样本 链接
BigBench 2023 通用 Google 知识、语言、推理 各种 链接
LucyEval 2023 通用 Oracle 成熟度评估 各种 链接
Zhujiu 2023 通用 IACAS 综合评估 51个任务 链接
ChatEval 2023 聊天 THU-NLP 类人评估 各种 链接
FlagEval 2023 通用 THU 主观与客观评分 各种 链接
AlpacaEval 2023 通用 tatsu-lab 自动评估 各种 链接
GPQA 2023 通用 NYU 研究生级别的谷歌认证问答 各种 链接
MuSR 2023 推理 Zayne Sprague 基于叙事的推理 756个 链接
FreshQA 2023 知识 FreshLLMs 当今世界知识 599个 链接
AGIEval 2023 通用 Microsoft 以人为中心的推理 NA 链接
SummEdits 2023 通用 Salesforce 不一致性检测 6,348个 链接
ScienceQA 2022 推理 UCLA 科学推理 21,208个 链接
e-CARE 2022 推理 HIT 可解释的因果关系 21,000个 链接
BigBench Hard 2022 推理 BigBench 具有挑战性的子任务 6,500个 链接
PlanBench 2022 推理 ASU 行动规划 11,113个 链接
MGSM 2022 数学 Google 小学数学问题,涵盖10种语言 各种 链接
MATH 2021 数学 UC Berkeley 数学问题解决 各种 链接
GSM8K 2021 数学 OpenAI 多样化的小学数学应用题 各种 链接
SVAMP 2021 数学 Microsoft 算术推理 1,000个 链接
SpartQA 2021 推理 MSU 文本空间问答 510个 链接
MLSUM 2020 通用 Thomas Scialom 新闻摘要 535,062个 链接
Natural Questions 2019 语言、推理 Google 基于搜索的问答 300,000个 链接
ANLI 2019 语言、推理 Facebook AI 对抗性推理 169,265个 链接
BoolQ 2019 语言、推理 Google 二元问答 16,000个 链接
SuperGLUE 2019 语言、推理 NYU 高级GLUE任务 NA 链接
DROP 2019 语言、推理 UCI NLP 段落级推理 96,000个 链接
HellaSwag 2019 语言、推理 AI2 常识推理 59,950个 链接
Winogrande 2019 语言、推理 AI2 代词消歧义 44,000个 链接
PIQA 2019 语言、推理 AI2 物理交互问答 18,000个 链接
HotpotQA 2018 语言、推理 HotpotQA 可解释的问答 113,000个 链接
GLUE 2018 语言、推理 NYU 基础NLU任务 NA 链接
OpenBookQA 2018 语言、推理 AI2 开放书本考试 12,000个 链接
SQuAD2.0 2018 语言、推理 斯坦福大学 无法回答的问题 150,000个 链接
ARC 2018 语言、推理 AI2 AI2推理挑战 7,787个 链接
SWAG 2018 语言、推理 AI2 对抗性的常识推理 113,000个 链接
CommonsenseQA 2018 语言、推理 AI2 常识推理 12,102个 链接
RACE 2017 语言、推理 CMU 考试形式的问答 100,000个 链接
SciQ 2017 语言、推理 AI2 群众贡献的科学知识 13,700个 链接
TriviaQA 2017 语言、推理 AI2 远程监督 650,000个 链接
MultiNLI 2017 语言、推理 NYU 跨类型蕴含关系 433,000个 链接
SQuAD 2016 语言、推理 斯坦福大学 基于维基百科的问答 100,000个 链接
LAMBADA 2016 语言、推理 CIMEC 话语上下文 12,684个 链接
MS MARCO 2016 语言、推理 Microsoft 基于搜索的问答 1,112,939个 链接

典型职业商数(PQ)——职业专业能力评估基准

领域 名称 机构 任务范围 独特贡献 链接
BLURB Mindrank AI 六种多样化的NLP任务,十三个数据集 所有任务上的宏平均得分 链接
Seismometer Epic 使用本地数据和工作流程 患者人口统计学特征、临床干预及治疗结果 链接
医疗保健 Medbench OpenMEDLab 强调科学严谨性和公平性 来自医学考试和报告的40,041个问题 链接
GenMedicalEval E 16个专业领域,3个训练阶段,6种临床场景 开放式指标和自动化评估模型 链接
PsyEval SJTU 六个子任务,涵盖三个维度 面向心理健康大语言模型的定制化基准测试 链接
Fin-Eva 蚂蚁集团 财富管理、保险、投资研究 同时包含工业界和学术界的金融评估 链接
金融 FinEval SUFE-AIFLM-Lab 关于金融、经济学和会计的选择题问答 专注于高质量的评估题目 链接
OpenFinData 上海人工智能实验室 多场景金融任务 首个全面的金融评估数据集 链接
FinBen FinAI 23项金融任务中的35个数据集 归纳推理、定量推理 链接
LAiW 四川大学 13项基础法律NLP任务 将法律NLP能力划分为三大核心能 链接
法律 LawBench 南京大学 法律实体识别、阅读理解 真实世界任务,“弃权率”指标 链接
LegalBench 斯坦福大学 162项任务,涵盖六种法律推理类型 促进跨学科对话 链接
LexEval 清华大学 组织不同任务的法律认知能力 更大的法律评估数据集,探讨伦理问题 链接
SPEC5G 普渡大学 安全相关的文本分类与摘要生成 5G协议分析自动化 链接
电信 TeleQnA 华为(巴黎) 通用电信咨询 精通电信相关问题 链接
OpsEval 清华大学 有线网络运维、5G、数据库运维 专注于AIOps,评估熟练程度 链接
TelBench SK电信 数学建模、开放式问答、代码生成 电信领域的整体评估 链接
TelecomGPT 阿联酋 电信数学建模、开放式问答和代码任务 电信领域的整体评估 链接
Linguistic 皇后大学 多项以语言为中心的任务 零样本评估 链接
TelcoLM Orange 多项选择题问卷 领域特定数据(8亿token,8万条指令) 链接
ORAN-Bench-13K GMU 多项选择题 开放式无线接入网(O-RAN) 链接
Open-Telco Benchmarks GSMA 多项以语言为中心的任务 零样本评估 链接
FullStackBench 字节跳动 代码编写、调试、代码审查 汇集了最新的Stack Overflow问答 链接
编程 StackEval Prosus AI 11个真实场景,16种编程语言 在多样化且实用的编程环境中进行评估 链接
CodeBenchGen 多家机构 基于执行的代码生成任务 基准规模随大小和复杂度扩展 链接
HumanEval 华盛顿大学 严格的测试 对生成代码正确性的评估采用更严格的协议 链接
APPS 加州大学 来自竞技平台的编码挑战 检查生成代码在测试用例上的解题能力 链接
MBPP 谷歌研究院 来自不同来源的编程问题 多样化的编程任务 链接
ClassEval 清华大学 类级别的代码生成 手工制作,面向对象编程概念 链接
CoderEval 北京大学 实用的代码生成 能够针对描述的问题生成有效的代码补丁 链接
MultiPL-E 普林斯顿大学 神经网络代码生成 用于基准测试神经网络代码生成模型 链接
CodeXGLUE 微软 代码智能 涵盖广泛的任务:代码-代码、文本-代码、代码-文本以及文本-文本 链接
EvoCodeBench 北京大学 进化型代码生成基准 与真实世界的代码库对齐,并随时间不断进化 链接

典型的情感商数(EQ)对齐能力评估基准

名称 年份 任务类型 机构 类别 数据集 链接
DiffAware 2025 偏差 斯坦福大学 通用偏差 8个数据集 链接
CASE-Bench 2025 安全性 剑桥大学 上下文感知安全性 CASE-Bench 链接
Fairness 2025 公平性 宾夕法尼亚州立大学 分配公平性 - -
HarmBench 2024 安全性 伊利诺伊大学厄巴纳-香槟分校 对抗性行为 510 链接
SimpleQA 2024 安全性 OpenAI 事实准确性 4,326 链接
AgentHarm 2024 安全性 英国商业、能源及工业战略部 恶意代理任务 110 链接
StrongReject 2024 安全性 dsbowen 抗攻击性 不适用 链接
LLMBar 2024 指令遵循 普林斯顿大学 指令遵循 419个实例 链接
AIR-Bench 2024 安全性 斯坦福大学 监管对齐 5,694 链接
TrustLLM 2024 通用 TrustLLM 可信度 30+ 链接
RewardBench 2024 对齐 AIAI 人类偏好 RewardBench 链接
EQ-Bench 2024 情感 Paech 情商 171个问题 链接
Forbidden 2023 安全性 CISPA 越狱检测 15,140 链接
MaliciousInstruct 2023 安全性 普林斯顿大学 恶意意图 100 链接
SycophancyEval 2023 安全性 Anthropic 观点对齐 不适用 链接
DecodingTrust 2023 安全性 伊利诺伊大学厄巴纳-香槟分校 可信度 243,877 链接
AdvBench 2023 安全性 卡内基梅隆大学 对抗性攻击 1,000 链接
XSTest 2023 安全性 博科尼大学 安全性过度 450 链接
OpinionQA 2023 安全性 tatsu-lab 人口统计学对齐 1,498 链接
SafetyBench 2023 安全性 清华大学 内容安全 11,435 链接
HarmfulQA 2023 安全性 declare-lab 有害主题 1,960 链接
QHarm 2023 安全性 vinid 安全抽样 100 链接
BeaverTails 2023 安全性 北京大学 红队测试 334,000 链接
DoNotAnswer 2023 安全性 Libr-AI 安全机制 939 链接
AlignBench 2023 对齐 THUDM 对齐、可靠性 各种 链接
IFEval 2023 指令遵循 谷歌 指令遵循 500个提示 链接
ToxiGen 2022 安全性 微软 毒性检测 274,000 链接
HHH 2022 安全性 Anthropic 人类偏好 44,849 链接
RedTeam 2022 安全性 Anthropic 红队测试 38,921 链接
BOLD 2021 偏差 亚马逊 生成中的偏差 23,679 链接
BBQ 2021 偏差 纽约大学 社会偏见 58,492 链接
StereoSet 2020 偏差 麦吉尔大学 刻板印象检测 4,229 链接
ETHICS 2020 伦理 伯克利大学 道德判断 134,400 链接
ToxicityPrompt 2020 安全性 AllenAI 毒性评估 99,442 链接
CrowS-Pairs 2020 偏差 纽约大学 刻板印象测量 1,508 链接
SEAT 2019 偏差 普林斯顿大学 编码器偏见 不适用 链接
WinoGender 2018 偏差 马萨诸塞大学 性别偏见 720 链接

工具

名称 组织机构 网站 描述
prometheus-eval prometheus-eval prometheus-eval PROMETHEUS开源评估专用语言模型,性能较其前代版本更强大。它能够高度模拟人类及GPT-4的判断结果。此外,该模型支持直接评分和成对排序两种评估格式,并可结合用户自定义的评估标准使用。在四项直接评分基准和四项成对排序基准上,PROMETHEUS 2与人类评估者及专有语言模型的相关性和一致性均位居所有已测试的开源评估语言模型之首(2024年5月4日)。
athina-evals athina-ai athina-ai Athina-ai是一个开源库,提供即插即用的预设评估工具以及模块化、可扩展的框架,用于编写和运行评估任务。它帮助工程师通过评估驱动的开发方法,系统性地提升大型语言模型的可靠性和性能。Athina-ai提供了一套评估驱动的开发体系,克服了传统工作流程的局限性,支持快速实验,并为用户提供具有统一指标的可定制评估器。
LeaderboardFinder Huggingface LeaderboardFinder LeaderboardFinder可以帮助您为特定场景找到合适的排行榜,堪称“排行榜中的排行榜”(2024年4月2日)。
LightEval Huggingface lighteval LightEval是Hugging Face开发的一个轻量级大型语言模型(LLM)评估框架。最初作为内部工具,用于评估Hugging Face新发布的LLM数据处理库datatrove和LLM训练库nanotron,现已开源供社区使用和改进。LightEval的主要特点包括:(1) 轻量化设计,易于使用和集成;(2) 支持多任务和多模型的评估套件;(3) 兼容CPU或GPU上的评估,并可与Hugging Face的加速库Accelerate以及Nanotron等框架集成;(4) 支持分布式评估,尤其适用于大型模型的评估;(5) 可应用于Open LLM Leaderboard上的所有基准;(6) 可定制性,允许用户添加新的指标和任务以满足特定的评估需求(2024年2月8日)。
LLM Comparator Google LLM Comparator 一种用于比较和评估大型语言模型(LLM)的可视化分析工具。相较于传统的手工评估方法,该工具提供了一种可扩展的自动化比较评估方案。它利用另一款LLM作为评估者,展示不同模型之间的质量差异,并解释这些差异的原因。通过交互式表格和摘要可视化,LLM Comparator帮助用户理解模型在特定情境下表现优异或不佳的原因,以及模型响应之间的定性差异。该工具由Google的研究人员和工程师合作开发,在Google内部得到广泛应用,三个月内吸引了超过400名用户,评估了超过1,000个实验(2024年2月16日)。
Arthur Bench Arthur-AI Arthur Bench Arthur Bench是一款开源评估工具,旨在比较和分析大型语言模型(LLM)的性能。它支持多种评估任务,包括问答、摘要、翻译和代码生成,并提供关于LLM在这些任务中表现的详细报告。Arthur Bench的关键特性与优势包括:(1) 模型比较功能,可评估不同供应商、不同版本以及不同训练数据集的LLM;(2) 提示词和超参数评估,考察不同提示词对LLM性能的影响,并测试通过各种超参数设置来控制模型行为的效果;(3) 任务定义与模型选择,允许用户自定义评估任务,并从一系列支持的LLM模型中选择评估对象;(4) 参数配置功能,使用户能够调整提示词和超参数以精细控制LLM的行为;(5) 自动化评估流程,简化评估任务的执行;(6) 应用场景涵盖模型选择与验证、预算与隐私优化,以及将学术基准转化为实际性能评估。此外,它还提供全面的评分指标,支持本地和云端版本,并鼓励社区协作与项目发展(2023年10月6日)。
llm-benchmarker-suite FormulaMonks llm-benchmarker-suite 这项开源计划旨在解决LLM基准测试领域的碎片化和模糊性问题。该套件提供结构化的评估方法、多样化的基准集合以及工具包,以简化LLM性能的评估过程。通过提供一个通用平台,该项目致力于促进自然语言处理领域的协作、透明度和高质量研究。
autoevals braintrust autoevals AutoEvals是一款AI模型输出评估工具,采用最佳实践快速简便地评估AI模型的输出。它集成了多种自动评估方法,支持自定义评估提示和自定义评分器,简化了模型输出的评估流程。Autoevals包含针对各类主观任务的模型评分评估,如事实核查、安全性等。其中许多评估基于OpenAI优秀的evals项目,但以灵活的方式实现,允许用户调整提示并调试输出。
EVAL OPENAI EVAL EVAL是OpenAI开发的一款用于评估大型语言模型(LLM)的工具。它可以测试模型在不同任务和数据集上的性能及泛化能力。
lm-evaluation-harness EleutherAI lm-evaluation-harness lm-evaluation-harness是EleutherAI开发的一款用于评估大型语言模型(LLM)的工具。它可以测试模型在不同任务和数据集上的性能及泛化能力。
lm-evaluation AI21Labs lm-evaluation 对Jurassic-1技术论文原文中的结果进行评估和复现,目前支持通过AI21 Studio API和OpenAI的GPT-3 API同时运行任务。
OpenCompass 上海人工智能实验室 OpenCompass OpenCompass是一个用于评估大型模型的一站式平台。其主要特点包括:开源且可复现的评估方案;覆盖五大领域的综合能力维度,拥有超过50个数据集和约30万道题目,用于评估模型能力;支持超过20种Hugging Face和API模型;支持分布式高效评估,可通过一行命令完成任务拆分并进行分布式评估,从而在数小时内完成万亿参数模型的全面评估;提供多样化的评估范式,支持零样本、少样本和思维链式评估,并配备标准或对话式提示模板,以轻松激发模型的最佳性能。
Phase AI提供的大型语言模型评估与工作流框架 wgryc phasellm Phase AI提供的一套用于评估和管理LLM的框架,帮助用户选择合适的模型、数据集和指标,并对结果进行可视化和分析。
LLM评估基准 FreedomIntelligence LLMZoo LLMZoo是由FreedomIntelligence开发的LLM评估基准,包含多个领域和任务的数据集、指标以及带有结果的预训练模型。
语言模型整体评估(HELM) 斯坦福大学 HELM HELM是由斯坦福大学研究团队提出的一种综合性LLM评估方法,综合考虑模型的语言能力、知识、推理、公平性和安全性等多个方面。
用于问答的轻量级评估工具 Langchain auto-evaluator auto-evaluator是Langchain开发的一款用于评估问答系统的轻量级工具。它可以自动生成问答题目,并计算模型的准确率、召回率和F1分数等指标。
PandaLM WeOpenML PandaLM PandaLM是WeOpenML开发的一款LLM评估工具,用于自动化和可重复的评估。它允许用户根据自身需求和偏好选择合适的数据集、指标和模型,并生成报告和图表。
FlagEval 清华大学 FlagEval FlagEval是清华大学开发的LLM评估平台,提供多项任务和数据集,以及在线测试、排行榜和分析功能。
AlpacaEval tatsu-lab alpaca_eval AlpacaEval是tatsu-lab开发的一款LLM评估工具,能够测试模型在多种语言、领域和任务中的表现,并提供可解释性、鲁棒性和可信度等指标。
Prompt flow 微软 promptflow 这是一套由微软设计的开发工具,旨在简化基于LLM的AI应用的端到端开发周期,从构思、原型制作、测试和评估,到生产部署和监控。它使提示工程更加容易,并支持开发产品级的LLM应用程序。
DeepEval mr-gpt DeepEval DeepEval是一个简单易用的开源LLM评估框架。它类似于Pytest,但专门用于LLM输出的单元测试,结合最新研究成果,依据G-Eval、幻觉、答案相关性、RAGAS等指标对LLM输出进行评估,利用本地运行的LLM及其他NLP模型进行评估。
CONNER 腾讯AI实验室 CONNER CONNER是一个全面的大模型知识评估框架,旨在从六个关键视角——真实性、相关性、连贯性、信息量、实用性和有效性——系统地自动评估生成的信息。

数据集或基准

一般

名称 组织 网站 描述
MMLU-Pro TIGER-AI-Lab MMLU-Pro MMLU-Pro 是 MMLU 数据集的改进版本。长期以来,MMLU 一直是多项选择知识测试的参考标准。然而,近期研究表明,该数据集存在噪声(部分问题无法解答)且难度偏低(由于模型能力的进步及污染增加所致)。MMLU-Pro 将选项数量从四个增至十个,在更多题目中要求推理,并经过专家评审以减少噪声。其质量和挑战性均高于原始版本。MMLU-Pro 还降低了提示变化对模型性能的影响,而这一问题在前代基准 MMLU 中较为常见。研究显示,采用“思维链”推理的模型在此新基准上的表现更佳,表明 MMLU-Pro 更适合评估 AI 的细微推理能力。(2024-05-20)
TrustLLM 基准 TrustLLM TrustLLM TrustLLM 是一个用于评估大型语言模型可信度的基准。它涵盖六个可信度维度,包含超过30个数据集,全面评估 LLM 的功能能力,从简单的分类任务到复杂的生成任务。每个数据集都具有独特的挑战,并已对16种主流 LLM(包括商业和开源模型)进行了基准测试。
DyVal Microsoft DyVal 人们一直担忧 LLM 庞大的训练语料库可能存在数据污染问题。此外,当前基准测试的静态特性和固定复杂度可能无法充分衡量 LLM 不断发展的能力。DyVal 是一种通用且灵活的动态评估 LLM 的协议。利用有向无环图的优势,DyVal 可动态生成复杂度可控的评估样本。它为数学、逻辑推理和算法问题等推理任务创建了具有挑战性的评估集。从 Flan-T5-large 到 GPT-3.5-Turbo 和 GPT-4,多种 LLM 都接受了评估。实验表明,LLM 在 DyVal 生成的不同复杂度样本上表现更差,凸显了动态评估的重要性。作者还分析了不同提示方法的失败案例和结果。此外,DyVal 生成的样本不仅可用作评估集,还能帮助微调模型,从而提升其在现有基准上的表现。(2024-04-20)
RewardBench AIAI RewardBench RewardBench 是一个用于评估语言模型奖励模型的基准,旨在考察各类模型的优势与不足。它揭示了现有模型在推理和指令遵循方面仍存在显著缺陷。该基准包括一个排行榜代码数据集(2024-03-20)。
LV-Eval Infinigence-AI LVEval LV-Eval 是一个长文本评估基准,设有五个长度等级(16k、32k、64k、128k 和 256k),最长文本测试长度可达 256k。LV-Eval 的平均文本长度为 102,380 字符,最小/最大文本长度分别为 11,896/387,406 字符。LV-Eval 主要包含两类评估任务:单跳问答和多跳问答,涵盖中文和英文的 11 个子数据集。在设计过程中,LV-Eval 引入了三项关键技术:混淆事实插入(CFI)以增强挑战性;关键词和短语替换(KPR)以减少信息泄露;以及基于答案关键词的评估指标(结合答案关键词和黑名单词汇),以提高评估结果的客观性。(2024-02-06)
LLM-Uncertainty-Bench Tencent LLM-Uncertainty-Bench 一种新的 LLM 基准方法被引入,将不确定性量化纳入其中。基于五项代表性 NLP 任务中测试的九种 LLM,研究发现:I)更准确的 LLM 可能表现出较低的确定性;II)规模更大的 LLM 可能比小型模型表现出更高的不确定性;III)指令微调往往会增加 LLM 的不确定性。这些发现强调了在 LLM 评估中纳入不确定性的重要性。(2024-01-22)
心理测量评估 Microsoft Research Asia 心理测量评估 微软亚洲研究院提出了一种基于心理测量学的 AI 通用评估方法,旨在解决传统评估方法在预测能力、信息量和测试工具质量方面的局限性。该方法借鉴心理测量理论,识别 AI 的关键心理构念,设计针对性测试,并应用项目反应理论进行精确评分。同时引入信度和效度的概念,以确保评估的可靠性和准确性。这一框架将心理测量方法扩展至评估 AI 处理未知复杂任务的能力,但也面临一些开放性问题,例如区分 AI 的“个体”与“群体”、应对提示敏感性以及评估人类与 AI 构念之间的差异。(2023-10-19)
CommonGen-Eval AllenAI CommonGen-Eval 一项使用 CommonGen-lite 数据集评估 LLM 的研究,采用 GPT-4 进行评估并比较不同模型的表现,结果列于排行榜上。(2024-01-04)
felm HKUST felm FELM 是一个用于评估大型语言模型事实判断能力的元基准。该基准包含 847 个问题,覆盖五个不同领域:世界知识、科学/技术、写作/推荐、推理和数学。各领域的提示来自多种来源,包括 TruthfulQA 等标准数据集、GitHub 仓库等在线平台、ChatGPT 生成的提示,或由作者自行拟定。对于每份回答,均采用细粒度的分段标注,包括参考链接、标注者识别出的错误类型及其原因。(2023-10-03)
just-eval AI2 Mosaic just-eval 一款基于 GPT 的多维度、可解释的 LLM 评估工具,能够评估帮助性、清晰度、事实性、深度和参与度等方面。(2023-12-05)
EQ-Bench EQ-Bench EQ-Bench 一个用于评估语言模型情商的基准,包含 171 个问题(相比 v1 的 60 个有所增加),并采用了新的评分体系,能更好地区分不同模型的表现差异。(2023-12-20)
CRUXEval MIT CSAIL CRUXEval CRUXEval 是一个用于评估代码推理、理解和执行能力的基准。它包含 800 个 Python 函数及其输入输出对,测试输入预测和输出预测任务。许多在 HumanEval 上表现优异的模型,在 CRUXEval 上却表现不佳,这凸显了提升代码推理能力的必要性。最佳模型 GPT-4 结合思维链(CoT)分别在输入预测和输出预测任务中取得了 75% 和 81% 的通过率。该基准暴露了开源与闭源模型之间的差距。GPT-4 并未完全通过 CRUXEval,这为其局限性及改进方向提供了洞见。(2024-01-05)
MLAgentBench snap-stanford MLAgentBench MLAgentBench 是一套端到端机器学习(ML)研究任务,用于评估 AI 研究代理。这些代理旨在根据给定的数据集和 ML 任务描述,自主开发或改进 ML 模型。每个任务都代表一个交互式环境,直接反映人类研究人员所面临的场景。代理可以读取可用文件、在计算集群上运行多次实验,并分析结果以实现既定的研究目标。具体而言,它包括 15 种不同的 ML 工程任务,可通过尝试不同的 ML 方法、数据处理、架构和训练过程来完成。(2023-10-05)
AlignBench THUDM AlignBench AlignBench 是一个全面且多维度的基准,用于评估中文大型语言模型的对齐性能。它构建了人机协作的数据生成流程,以确保数据的动态更新。AlignBench 采用多维度、基于规则的模型评估方法(LLM-as-Judge),并结合思维链(CoT)生成多维度分析及最终综合评分,从而提升评估的可靠性和可解释性。(2023-12-01)
UltraEval OpenBMB UltraEval UltraEval 是一个开源的基础模型能力评估框架,提供轻量级且易于使用的评估系统,支持主流大模型性能评估。其主要特点包括:(1) 轻量级、用户友好的评估框架,设计直观、依赖少、部署简单且可扩展,适用于各种评估场景;(2) 灵活多样的评估方法,统一的提示模板和丰富的评估指标,支持自定义;(3) 高效快速的推理部署,支持多种模型部署方案,包括 torch 和 vLLM,并可进行多实例部署以加速评估进程;(4) 透明开放的排行榜,评估结果公开可查、可追溯且可重复,由社区驱动以确保透明度;(5) 官方权威的评估数据,采用广泛认可的官方数据集,保证评估的公平性和标准化,确保结果的可比性和可重复性。(2023-11-24)
IFEval google-research Instruction Following Eval 按照自然语言指令行事是大型语言模型的核心能力。然而,对此能力的评估缺乏标准化:人工评估成本高、速度慢且缺乏客观可重复性,而基于 LLM 的自动化评估则可能受到评估用 LLM 自身能力或局限性的偏倚影响。为解决这些问题,谷歌的研究人员推出了指令遵循评估(IFEval),这是一个简单且可重复的基准,专注于一组“可验证指令”,例如“撰写超过400字”和“至少提及 AI 关键词3次”。IFEval 确定了25条此类可验证指令,并构建了约500个提示,每个提示都包含一条或多条可验证指令。(2023-11-15)
LLMBar princeton-nlp LLMBar LLMBar 是一个具有挑战性的元评估基准,旨在测试 LLM 评估者识别指令遵循输出的能力。它包含419个实例,每个实例由一条指令和两个输出组成:一个忠实且正确地遵循指令,另一个则偏离指令。每个实例还附有黄金标签,标明哪份输出在客观上更好。(2023-10-29)
HalluQA 复旦大学、上海人工智能实验室 HalluQA HalluQA 是一个中文 LLM 幻觉评估基准,包含450个数据点,其中包括175个误导性条目、69个难以辨别误导性的条目以及206个基于知识的条目。每个问题平均标注了2.8个正确和错误的答案。为提升 HalluQA 的实用性,作者设计了一套基于 GPT-4 的评估方法。具体来说,将幻觉判定标准和正确答案作为指令输入 GPT-4,由其评估模型的回答是否包含幻觉。
FMTI 斯坦福大学 FMTI 基础模型透明度指数(FMTI)从数据、计算资源和人力等100个指标评估开发者在模型训练和部署中的透明度。对10家公司旗舰模型的评估显示,平均透明度得分仅为37/100,表明仍有较大改进空间。
ColossalEval Colossal-AI ColossalEval Colossal-AI 推出的一项项目,提供统一的评估工作流,可用于在公共数据集或自定义数据集上使用传统指标和 GPT 辅助评估来评估语言模型。
LLMEval²-WideDeep 阿里巴巴研究 LLMEval² 作为面向 LLM 评估者的最大、最多样化的英语评估基准,包含15个任务、8种能力以及2,553个样本。实验结果表明,网络越广泛(涉及多名评审员)、层次越多(一轮讨论),效果越好,Kappa 相关系数可从0.28提升至0.34。WideDeep 也被用于辅助评估中文 LLM,使评估效率提升4.6倍,成本降低60%。
Aviary Ray Project Aviary 允许在一个平台上与多种大型语言模型(LLMs)互动。支持直接比较不同模型的输出、按质量排名,以及获取成本和延迟估算。尤其支持托管在 Hugging Face 上的模型,在许多情况下也支持 DeepSpeed 推理加速。
Do-Not-Answer Libr-AI Do-Not-Answer 一个开源数据集,旨在以低成本评估 LLM 的安全机制。它由负责任的语言模型不应回应的提示组成。除人工标注外,还实施了基于模型的评估,其中经过6亿次微调的 BERT 类似评估器,其结果与人类和 GPT-4 相当。
LucyEval Oracle LucyEval 中国 LLM 成熟度评估——LucyEval 可客观地测试模型能力的各个方面,识别模型的不足之处,帮助设计师和工程师更精准地调整和训练模型,助力 LLM 向更高智能迈进。
Zhujiu 中国科学院自动化研究所 Zhujiu 涵盖七种能力维度和51项任务;采用三种互补的评估方法;提供全面的中文基准测试,并具备英文评估能力。
ChatEval THU-NLP ChatEval ChatEval 旨在简化生成文本的人工评估流程。针对不同的文本片段,ChatEval 中的角色(由硕士研究生扮演)可以自主讨论细微差别和差异,根据各自指定的角色作出判断。
FlagEval Zhiyuan/清华大学 FlagEval 由智源研究院出品,结合主观和客观评分,提供 LLM 分数排名。
InfoQ 综合 LLM 评估 InfoQ InfoQ 评估 面向中国的排名:ChatGPT > 文心一言 > Claude > 星火。
Chain-of-Thought 评估 Yao Fu COT 评估 包括 GSM8k 和 MATH 复杂问题的排名。
Z-Bench True Fund Z-Bench 表明国内中文模型的可编程性相对较低,各模型之间性能差异较小。两款 ChatGLM 版本则显示出显著进步。
CMU 聊天机器人评估 CMU zeno-build 在对话训练场景中,排名显示 ChatGPT > Vicuna > 其他。
lmsys-arena 伯克利 lmsys 排名 采用 Elo 评分机制,排名显示 GPT4 > Claude > GPT3.5 > Vicuna > 其他。
Huggingface 开放 LLM 排行榜 Huggingface HF 开放 LLM 排行榜 由 Huggingface 组织,评估多个主流开源 LLM。评估主要集中在四个数据集上:AI2 理性挑战、HellaSwag、MMLU 和 TruthfulQA,内容以英语为主。
AlpacaEval tatsu-lab AlpacaEval 开源模型领导者,Vicuna、OpenChat 和 WizardLM 在基于 LLM 的自动评估中处于领先地位。
Chinese-LLM-Benchmark jeinlee1991 llm-benchmark 中国 LLM 能力评估排名,涵盖百度文心一言、ChatGPT、阿里巴巴通义千问、科大讯飞星火,以及 Belle 和 ChatGLM6B 等开源模型。提供能力评分排名和原始模型输出结果。
开放 LLM 排行榜 HuggingFace 排行榜 由 Huggingface 组织,用于评估多个主流开源 LLM。评估主要集中在四个数据集上:AI2 理性挑战、HellaSwag、MMLU 和 TruthfulQA,内容以英语为主。
斯坦福问答数据集(SQuAD) 斯坦福 NLP 团队 SQuAD 评估模型在阅读理解任务上的表现。
多文体自然语言推理(MultiNLI) 纽约大学、DeepMind、Facebook AI 研究、艾伦人工智能研究所、谷歌 AI 语言 MultiNLI 评估模型在不同文本体裁间理解句子关系的能力。
LogiQA 清华大学和微软亚洲研究院 LogiQA 评估模型的逻辑推理能力。
HellaSwag 华盛顿大学和艾伦人工智能研究所 HellaSwag 评估模型的推理能力。
LAMBADA 数据集 特伦托大学和布鲁诺·凯斯勒基金会 LAMBADA 评估模型预测段落最后一词的能力,反映其长期理解能力。
CoQA 斯坦福 NLP 团队 CoQA 评估模型在对话情境下理解文本段落并回答一系列相关问题的能力。
ParlAI Facebook AI 研究 ParlAI 评估模型在准确性、F1 分数、困惑度(模型预测序列中下一个词的能力)、人工评估(相关性、流畅性和连贯性)、速度和资源利用率、鲁棒性(模型在嘈杂输入、对抗性攻击或数据质量变化等不同条件下表现)以及泛化能力等方面的表现。
语言可解释性工具(LIT) Google LIT 提供一个平台,允许根据用户自定义的指标评估模型,分析模型的优势、劣势和潜在偏见。
对抗性 NLI(ANLI) Facebook AI 研究、纽约大学、约翰霍普金斯大学、马里兰大学、艾伦人工智能研究所 对抗性 NLI(ANLI) 评估模型的鲁棒性、泛化能力、推理解释能力、一致性以及资源效率(内存使用、推理时间和训练时间)。

域名

名称 机构 领域 URL 简介
地震仪 Epic 医疗健康 seismomete 地震仪是一款面向医疗领域的AI模型性能评估工具,提供标准化的评估标准,帮助基于本地数据和工作流程做出决策。它支持对模型性能的持续监控。尽管可用于任何领域的模型,但其设计重点在于医疗AI模型的验证,因为本地验证需要交叉参考患者相关数据(如人口统计学特征、临床干预措施和患者预后)以及模型性能。(2024-05-22)
医学基准 OpenMEDLab 医疗健康 medbench MedBench致力于为中国医学大模型创建科学、公平且严谨的评估体系和开放平台。基于权威的医学标准,它不断更新和维护高质量的医疗数据集,以全面、多维度地量化模型在各个医学维度上的能力。MedBench包含来自真实考试题和各医学分支临床报告的40,041道题目,由四个关键部分组成:中国医师资格考试、住院医师规范化培训考试、主治医师资格考试,以及涵盖检查、诊断和治疗的真实临床病例。(2023-12-20)
金融评测 蚂蚁集团、上海财经大学 金融 Fin-Eva 由蚂蚁集团和上海财经大学联合推出的Fin-Eva 1.0版本,覆盖财富管理、保险、投研等多个金融场景及金融专业学科,共包含超过13,000道评估题目。蚂蚁集团的数据来源包括各业务领域数据及公开互联网数据,经过数据脱敏、文本聚类、语料筛选和数据重写等处理,并结合金融专家评审构建数据集。上海财经大学的数据主要基于相关领域权威考试中的真题和模拟题,遵循知识大纲要求。蚂蚁集团部分涵盖金融认知、金融知识、金融逻辑、内容生成和安全合规五大能力,细分为33个子维度,包含8,445道评估题目;上海财经大学部分则覆盖金融、经济、会计和证书四大领域,包含34个不同学科的4,661道题目。Fin-Eva 1.0采用固定答案的选择题形式,并配有相应指令,使模型能够以标准格式输出。(2023-12-20)
GenMedicalEval 上海交通大学 医疗健康 GenMedicalEval 1. 大规模综合性能评估:GenMedicalEval基于四万余道医学考试真题和五万五千余份三甲医院患者病历,构建了涵盖16个主要科室、3个医生培训阶段、6个医疗临床应用场景的共计十万余条医疗评估数据。该数据集从医学基础知识、临床应用和安全标准等方面全面评估大模型在真实复杂医疗场景下的整体表现,弥补了现有评估基准未能覆盖诸多医疗实践挑战的不足。2. 深入多维度场景评估:GenMedicalEval整合了医生的临床记录和医学影像资料,围绕检查、诊断和治疗等关键医疗场景构建了一系列主题丰富、形式多样的生成式评估题目。这为现有的问答式评估提供了有力补充,使其更贴近真实的开放式诊断环境。3. 创新的开放性评估指标与自动化评估模型:针对开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化提取和术语对齐技术,构建了一套创新的生成式评估指标体系。该体系能够准确衡量生成答案的医学知识准确性。此外,基于自建知识库训练了一款医学自动评估模型,其评估结果与人工评估高度相关。该模型可提供多维度的医学评分及评估理由,具有无数据泄露、可控性强等特点,相较于GPT-4等其他模型具有独特优势。(2023-12-08)
开放金融数据 上海人工智能实验室 金融 OpenFinData 由上海人工智能实验室发布的“OpenCompass”框架下首个全场景金融评估数据集——OpenFinData,包含六个模块和十九个金融任务维度,覆盖多层次数据类型和多样化的金融场景。每一条数据均源自真实的金融业务场景。(2024-01-04)
LAiW 四川大学 法律 LAiW 从法律视角和可行性出发,LAIW将法律NLP的能力划分为三大能力,共包含13项基础任务:(1) 法律NLP基础能力:评估法律基础任务、NLP基础任务以及法律信息抽取能力,包括法律条款推荐、要素识别、命名实体识别、裁判要点归纳和案件识别等五项基础任务;(2) 法律应用基础能力:评估大模型在法律领域的基础应用能力,包括争议焦点挖掘、案件匹配、刑事判决预测、民事判决预测和法律问答等五项基础任务;(3) 法律应用复杂能力:评估大模型在法律领域的复杂应用能力,包括司法推理生成、案件理解和法律咨询等三项基础任务。(2023-10-08)
法律基准 南京大学 法律 LawBench LawBench精心设计,旨在精准评估大型语言模型的法律能力。在设计测试任务时,它模拟了司法认知的三个维度,并选取20项任务来评估大模型的能力。与一些仅包含选择题的现有基准相比,LawBench增加了更多与实际应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和法律咨询等。LawBench认识到,当前大模型的安全策略可能导致其拒绝回答某些法律问题或难以理解指令而无法作答,因此专门开发了一种“回避率”评估指标,用于衡量模型拒绝回答或未能正确理解指令的频率。研究人员已在LawBench上评估了51种大型语言模型的表现,其中包括20种多语言模型、22种中文模型和9种法律专用大型语言模型。(2023-09-28)
心理评估 上海交通大学 心理 PsyEval 在心理健康研究中,大型语言模型(LLMs)的应用日益受到关注,尤其是在疾病检测方面的显著能力。研究人员专门设计了首个心理健康领域的综合性基准,以系统地评估LLMs在该领域的能力。该基准包含六个子任务,覆盖三个维度,全面评估LLMs在心理健康方面的能力。每个子任务都设计了简洁的提示词,并对八种先进LLMs进行了全面评估。(2023-11-15)
PPTC 微软、北京大学 办公 PPTC PPTC是一个用于测试大模型PPT生成能力的基准,包含279轮多轮对话,覆盖不同主题和数百条涉及多模态操作的指令。研究团队还提出了PPTX-Match评估体系,该体系根据预测文件而非标签API序列来评估大语言模型是否完成了指令,因此支持各种LLM生成的API序列。目前,PPT生成面临三大挑战:多轮对话中的误差累积、长PPT模板的处理以及多模态感知问题。(2023-11-04)
LLMRec 阿里巴巴 推荐 LLMRec 对流行的LLM(如ChatGPT、LLaMA、ChatGLM等)进行了五个推荐相关任务的基准测试,包括评分预测、序列推荐、直接推荐、解释生成和评论摘要。此外,还研究了监督微调对提升LLM指令跟随能力的效果。(2023-10-08)
LAiW Dai-shen 法律 LAiW 面对法律大语言模型的快速发展,首个基于法律能力的中国法律大语言模型基准被提出。法律能力被划分为三个层次:基础法律自然语言处理能力、基础法律应用能力和复杂法律应用能力。第一阶段的评估已完成,重点是基础法律自然语言处理能力的评估。评估结果显示,虽然部分法律大语言模型的表现优于其基础模型,但仍与ChatGPT存在差距。(2023-10-25)
运维评估 清华大学 AIOps OpsEval OpsEval是面向大型语言模型的综合性任务导向AIOps基准测试,评估LLM在有线网络运维、5G通信运维和数据库运维三个关键场景中的熟练程度。这些场景涉及不同的能力层级,包括知识回忆、分析思维和实际应用。该基准包含7,200道选择题和问答题,支持英语和中文两种语言。(2023-10-02)
SWE-bench princeton-nlp 软件 SWE-bench SWE-bench是一个用于评估大型语言模型在GitHub上收集的真实软件问题上表现的基准。给定一个代码仓库和一个问题,语言模型的任务是生成一个能够解决所述问题的补丁。
BLURB Mindrank AI 医疗健康 BLURB BLURB包含基于PubMed的生物医学自然语言处理应用的综合性基准测试,以及用于跟踪社区进展的排行榜。BLURB由六项多样化任务和十三个公开可用的数据集组成。为避免过度强调拥有大量数据集的任务(如命名实体识别NER),BLURB以所有任务的宏观平均值作为主要得分。BLURB排行榜不依赖于具体模型,任何能够使用相同训练和开发数据生成测试预测的系统均可参与。BLURB的主要目标是降低参与生物医学自然语言处理的门槛,助力这一对社会和人类具有积极影响的重要领域加速发展。
智能游戏 微软 游戏 SmartPlay SmartPlay是一款专为易用性设计的大语言模型(LLM)基准,提供多种游戏用于测试。
金融评估 SUFE-AIFLM-Lab 金融 FinEval FinEval:一系列高质量的选择题集合,涵盖金融、经济、会计和证书等领域。
GSM8K OpenAI 数学 GSM8K GSM8K是一个包含8,500道高质量、语言多样化的小学数学文字应用题的数据集。GSM8K将其分为7,500道训练题和1,000道测试题。这些题目通常需要2至8步才能解答,解题过程主要涉及一系列基本算术运算(+ - / *)以得出最终答案。

RAG-評估

名稱 機構 網址 簡介
BERGEN NAVER BERGEN BERGEN:一個專注於問答(QA)任務的RAG系統基準測試庫,旨在增強對RAG管道中各組件影響的理解與比較。它通過HuggingFace簡化了新數據集和模型的可重現性及整合過程。BERGEN(BEnchmarking Retrieval-augmented GENeration)是一個用於基準測試RAG系統的庫,特別關注問答任務。不一致的基準測試是比較不同方法以及理解RAG管道中各組件影響的主要挑戰。BERGEN的設計旨在借助HuggingFace,簡化新數據集和模型的可重現性與整合工作(2024年5月31日)
CRAG Meta Reality Labs CRAG CRAG是一個包含近4,500組問答對及模擬API的RAG基準測試,涵蓋廣泛的領域和問題類型,以激勵研究人員提升問答系統的可靠性和精確度。這是一個由4,409組問答對及模擬API組成的事實型問答基準測試,用以模擬網絡和知識圖譜(KG)搜索。CRAG旨在囊括五個領域和八種問題類別中的多樣化問題,反映從熱門到長尾的不同實體受歡迎程度,以及從數年到數秒不等的時間動態變化(2024年6月7日)
raga-llm-hub RAGA-AI raga-llm-hub raga-llm-hub是一個全面的語言與學習模型(LLM)評估工具包。它擁有超過100個精心設計的評估指標,是目前最全面的平台,使開發者和組織能夠有效評估和比較LLM,並為LLM及檢索增強生成(RAG)應用建立基礎安全保障。這些測試涵蓋相關性與理解力、內容品質、幻覺現象、安全性與偏見、上下文相關性、安全機制及漏洞掃描等多個方面,同時提供一系列基於指標的定量分析測試(2024年3月10日)
ARES 斯坦福大學 ARES ARES是一個用於檢索增強生成系統的自動評估框架,包含三個組件:(1) 一組帶有人工偏好驗證的查詢-文檔-答案三元組,用於評估上下文相關性、答案忠實度和/或答案相關性等標準。至少應有50個示例,但最好有數百個。(2) 一小組用於評分您系統中上下文相關性、答案忠實度和/或答案相關性的示例。(3) 由您的RAG系統生成的大量未註釋查詢-文檔-答案三元組,用於打分。ARES的訓練過程包括三個步驟:(1) 根據特定領域的段落生成合成查詢和答案。(2) 通過使用合成數據訓練LLM評估員,使其能夠評分RAG系統。(3) 將準備好的LLM評估員部署到您的RAG系統上,以關鍵指標評估其性能(2023年9月27日)
RGB 中科院 RGB RGB是一個用於評估英語和中文RAG的新語料庫/基準測試(RGB)。它分析了不同大型語言模型在RAG所需的四項基本能力方面的表現,包括抗噪能力、否定拒絕能力、信息整合能力和反事實魯棒性。RGB根據這些基本能力將基準測試中的實例劃分為四個獨立的測試集,以針對不同場景進行測試。隨後,RGB對六種具有代表性的LLM進行了評估,以診斷當前LLM在應用RAG時所面臨的挑戰。評估結果顯示,雖然LLM在抗噪能力方面表現出一定水平,但在否定拒絕、信息整合以及處理虛假資訊等方面仍面臨重大困難。上述評估結果表明,將RAG有效應用於LLM仍有很長的路要走(2023年9月4日)
tvalmetrics TonicAI tvalmetrics Tonic Validate Metrics中的指標採用LLM輔助評估方式,即利用LLM(例如gpt-4)對RAG應用輸出的不同方面進行打分。這些指標結合具體對象與LLM輔助評估,回答有關RAG應用的問題。(1) 答案相似度分數:RAG答案與正確答案應有多接近?(2) 檢索精確度:檢索到的上下文是否與問題相關?(3) 增強精確度:答案中是否包含與問題相關的檢索上下文?(4) 增強準確度:答案中檢索上下文的比例是多少?(5) 答案一致性(二元):答案中是否存在檢索上下文之外的信息?(6) 檢索k召回率:對於排名前k的上下文向量,檢索到的上下文是否為前k上下文向量的子集,且所有相關上下文是否都包含在檢索到的上下文之中?(2023年11月11日)

代理能力

名稱 機構 網址 簡介
SuperCLUE-Agent CLUE SuperCLUE-Agent SuperCLUE-Agent是一個多維度的基準測試,專注於代理能力,涵蓋三大核心能力和十項基本任務。它可以用於評估大型語言模型在代理核心能力方面的表現,包括工具使用、任務規劃以及長短期記憶等。對16種支持中文的大型語言模型進行評估後發現,GPT-4模型在中文任務的代理核心能力方面領先顯著。而國內代表性模型,包括開源和閉源模型,則正在接近GPT-3.5的水平(2023年10月20日)
AgentBench 清華大學 AgentBench AgentBench是一套系統化的基準測試工具,用於評估LLM作為智能代理的表現,突顯商業LLM與開源競爭對手之間的性能差距(2023年8月1日)
AgentBench推理與決策能力評估排行榜 THUDM AgentBench 由清華大學與多所大學聯合推出,涵蓋不同任務環境下模型的推理與決策能力,例如購物、居家和作業系統等場景
ToolBench工具調用評估 智源/清華 ToolBench 與工具微調模型及ChatGPT進行對比,提供評估腳本

代码能力

名称 机构 网址 简介
McEval 北航 McEval 为了更全面地探索大型语言模型的代码能力,本研究提出了一项大规模多语言多任务代码评估基准(McEval),涵盖40种编程语言,包含16,000个测试样本。评估结果表明,开源模型在多语言编程能力方面与GPT-4相比仍存在显著差距,大多数开源模型甚至无法超越GPT-3.5。此外,测试还显示,Codestral、DeepSeek-Coder、CodeQwen等开源模型及其一些衍生模型也表现出卓越的多语言能力。McEval是一个大规模多语言代码基准,覆盖40种编程语言,包含16,000个测试样本,极大地推动了代码LLM在多语言场景下的极限。该基准包括具有挑战性的代码补全、理解和生成评估任务,并配备了精心策划的大规模多语言指令语料库McEval-Instruct。McEval排行榜可在此查看这里(2024年6月11日)
HumanEval-XL FloatAI SuperCLUE-Agent 现有的基准主要集中在将英文提示翻译成多语言代码,或仅限于非常有限的自然语言。这些基准忽略了大规模多语言NL到多语言代码生成这一广阔领域,从而在评估多语言LLM方面留下了重要空白。为应对这一挑战,作者提出了HumanEval-XL,这是一个旨在填补这一空白的大规模多语言代码生成基准。HumanEval-XL建立了23种自然语言与12种编程语言之间的联系,共包含22,080个提示,每个提示平均有8.33个测试用例。通过确保跨多种NL和PL的平行数据,HumanEval-XL为多语言LLM提供了一个全面的评估平台,能够评估其对不同NL的理解能力。这项工作是解决多语言代码生成中NL泛化评估空白的开创性一步(2024年2月26日)
DebugBench 清华大学 DebugBench DebugBench是一个LLM调试基准,包含4,253个实例,覆盖C++、Java和Python中的四大类漏洞和18个小类。为了构建DebugBench,作者从LeetCode社区收集了代码片段,利用GPT-4向源数据中植入漏洞,并进行了严格的质量检查(2024年1月9日)

多模态/跨模态

名称 机构 网址 简介
ChartVLM 上海人工智能实验室 ChartVLM ChartX是一个多模态评估集,包含18种图表类型、7个图表任务、22个主题领域以及高质量的图表数据。此外,本文作者还开发了ChartVLM,为处理依赖于可解释模式的多模态任务提供了新的视角,例如图表或几何图像领域的推理任务(2024年2月19日)
ReForm-Eval 复旦DISC ReForm-Eval ReForm-Eval是一个用于全面评估大型视觉语言模型的基准数据集。通过以不同任务格式重构现有的多模态基准数据集,ReForm-Eval构建了一个统一格式的基准数据集,适用于大型模型的评估。所构建的ReForm-Eval具有以下特点:它涵盖了八个评估维度,每个维度都提供了充足的评估数据(平均每维超过4,000条);采用统一的评估问题格式(包括选择题和文本生成题);使用方便且高效,评估方法可靠,不依赖于ChatGPT等外部服务;能够高效利用现有数据资源,无需额外的人工标注,并可进一步扩展到更多数据集(2023年10月24日)
LVLM-eHub OpenGVLab LVLM-eHub “多模态竞技场”是一个用于大型多模态模型的评估平台。继Fastchat之后,两个匿名模型在视觉问答任务上被并排比较。“多模态竞技场”允许在提供图像输入的同时对视觉语言模型进行并列基准测试。它支持多种模型,如MiniGPT-4、LLaMA-Adapter V2、LLaVA和BLIP-2

长上下文

名称 机构 网址 简介
InfiniteBench OpenBMB InfiniteBench 理解和处理长文本是大型模型迈向更深层次理解和交互的重要能力。尽管一些大型模型声称可以处理10万+序列,但缺乏标准化的基准数据集。InfiniteBench通过构建一个针对10万+序列的基准来解决这一问题,重点关注大型模型在处理长文本方面的五项关键能力:检索、数学、编码、问答和摘要。(1)长上下文:InfiniteBench测试数据的平均上下文长度为19.5万,远超现有基准。(2)多领域、多语言:该基准包含中英文双语的12项任务,覆盖上述五个领域。(3)前瞻性和挑战性:InfiniteBench的任务设计旨在匹配当前最强模型的能力,如GPT-4和Claude 2。(4)现实与合成场景:InfiniteBench既包含了真实世界的数据,用于测试模型处理实际问题的能力,也包含了合成数据,以便扩展上下文窗口进行测试。InfiniteBench是首个平均数据长度超过10万token的LLM基准。它由中英文双语的合成与现实任务组成,涵盖多个领域。InfiniteBench的任务要求对上下文中长距离依赖关系有深入理解,仅仅从上下文中检索少量段落已不足以完成这些任务。(2024年3月19日)

推理速度

名称 机构 网址 简介
llmperf Ray llmperf 一个用于检查和基准测试大语言模型性能的库。它测量诸如首个 token 生成时间(TTFT)、token 间延迟(ITL)以及在 3 秒内无数据返回的请求数等指标。此外,它还会验证 LLM 输出的正确性,主要检查是否存在跨请求现象(例如请求 A 收到了请求 B 的响应)。设计时考虑了输入和输出 token 长度的变化,以更好地反映真实场景。目前支持的端点包括与 OpenAI 兼容的端点(如 Anyscale 端点、私有端点、OpenAI、Fireworks 等)、Together、Vertex AI 和 SageMaker。(2023-11-03)
llm-analysis Databricks llm-analysis 变换器模型训练与推理的延迟及内存分析。
llm-inference-benchmark 南开大学 llm-inference-benchmark 大语言模型推理框架基准测试。
llm-inference-bench CentML llm-inference-bench 该基准测试完全独立于任何服务框架运行,易于扩展和修改。它提供多种统计信息和剖析模式。作为一款独立工具,它可以针对特定的输入/输出分布进行精确的基准测试,并得出具有统计意义的结果。每个请求仅包含一个提示和一次解码步骤。
GPU-Benchmarks-on-LLM-Inference UIUC GPU-Benchmarks-on-LLM-Inference 使用 llama.cpp 测试 LLaMA 模型在不同 GPU 上的推理速度,包括 RunPod、16 英寸 M1 Max MacBook Pro、M2 Ultra Mac Studio、14 英寸 M3 MacBook Pro 和 16 英寸 M3 Max MacBook Pro。

量化与压缩

名称 机构 网址 简介
LLM-QBench 北航/商汤科技 LLM-QBench LLM-QBench 是一个用于大语言模型训练后量化的基准测试工具,同时也是一种高效的 LLM 压缩工具,提供了多种先进的压缩方法。它支持多种推理后端。(2024-05-09)

演示

  • Chat Arena:匿名模型同台竞技,投票选出更优者 - 一个开源的 AI 大语言模型“匿名”竞技场!在这里,你可以担任评委,在不知晓模型身份的情况下对两组模型的回答进行评分,评分结束后会揭晓模型的真实身份。参与的模型包括 Vicuna、Koala、OpenAssistant (oasst)、Dolly、ChatGLM、StableLM、Alpaca、LLaMA 等。

image

排行榜

平台 访问
ACLUE [源码
AgentBench [源码]
AlpacaEval [源码]
ANGO [源码]
BeHonest [源码]
Big Code Models Leaderboard [源码]
Chatbot Arena [源码]
Chinese Large Model Leaderboard [源码]
CLEVA [源码]
CompassRank [源码]
CompMix [源码]
C-Eval [源码]
DreamBench++ [源码]
FELM [源码]
FlagEval [源码]
Hallucination Leaderboard [源码]
HELM [源码]
Huggingface Open LLM Leaderboard [源码]
Huggingface LLM Perf Leaderboard [源码]
Indico LLM Leaderboard [源码]
InfiBench [源码]
InterCode [源码]
LawBench [源码]
LLMEval [源码]
LLM Rankings [源码]
LLM Use Case Leaderboard [源码]
LucyEval [源码]
M3CoT [源码]
MMLU by Task Leaderboard [源码]
MMToM-QA [源码]
MathEval [源码]
OlympicArena [源码]
OpenEval [源码]
Open Multilingual LLM Eval [源码]
PubMedQA [源码]
SafetyBench [源码]
SciBench [源码]
SciKnowEval [源码]
SEED-Bench [源码]
SuperBench [源码]
SuperCLUE [源码]
SuperGLUE [源码]
SuperLim [源码]
TAT-DQA [源码]
TAT-QA [源码]
TheoremOne LLM Benchmarking Metrics [源码]
Toloka [源码]
Toolbench [源码]
VisualWebArena [源码]
We-Math [源码]
WHOOPS! [源码]

流行提供商排行榜(性能与成本,2024年5月14日)

提供商(定价链接) OpenAI OpenAI Anthropic Google Replicate DeepSeek Mistral Anthropic Google Mistral Cohere Anthropic Mistral Replicate Mistral OpenAI Groq OpenAI Mistral Anthropic Groq Anthropic Anthropic Microsoft Microsoft Mistral
模型名称 GPT-4o GPT-4 Turbo Claude 3 Opus Gemini 1.5 Pro Llama 3 70B DeepSeek-V2 Mixtral 8x22B Claude 3 Sonnet Gemini 1.5 Flash Mistral Large Command R+ Claude 3 Haiku Mistral Small Llama 3 8B Mixtral 8x7B GPT-3.5 Turbo Llama 3 70B (Groq) GPT-4 Mistral Medium Claude 2.0 Mixtral 8x7B (Groq) Claude 2.1 Claude Instant Phi-Medium 4k Phi-3-Small 8k Mistral 7B
列最后更新 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月20日 2024年5月20日 2024年5月20日 2024年5月14日 2024年5月14日 2024年5月20日 2024年5月20日 2024年5月14日 2024年5月20日 2024年5月21日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月20日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月21日 2024年5月21日 2024年5月22日
能力 39
LMSys聊天机器人竞技场ELO 1310 1257 1256 1249 1208 1204 1158 1193 1182 1154 1114 1102 1208 1189 1148 1126 1114 1115 1104 1006
通用知识:
MMLU 88.70 86.40 86.80 81.90 82.00 78.50 77.75 79.00 78.90 81.20 75.70 75.20 72.20 68.40 70.60 70.00 82.00 86.40 75.30 78.50 70.60 73.40 78.00 75.70 62.50
数学:
MATH 76.60 73.40 60.10 58.50 50.40 43.10 54.90 45.00 38.90 30.00 34.10 50.40 52.90 62.50
MGSM / GSM8K 90.50 88.60 95.00 93.00 92.30 88.90 79.60 57.10 93.00 92.00 62.50 89.00 88.60 62.50
推理: 66.60
GPQA 53.60 49.10 50.40 41.50 39.50 40.40 39.50 33.30 34.20 28.10 39.50 35.70 62.50 89.00 86.70 85.50 77.00 62.50
BIG-BENCH-HARD 86.80 84.00 82.90 85.50 73.70 66.60 83.10 62.50 86.70 85.50 77.00 62.50
DROP, F1分数 83.40 85.40 83.10 78.90 78.40 64.10 80.90 62.50 78.40 77.00 62.50
HellaSwag 95.40 89.00 89.20 85.90 86.90 86.70 85.50 95.30 88.00 86.70 85.50 77.00 62.50
代码: 77.70
HumanEval 90.20 87.60 84.90 71.90 81.70 73.00 75.90 62.20 48.10 81.70 67.00 62.20 61.00 78.50 62.50
Natural2Code 77.70 77.20 62.50 62.50 77.20 77.00 62.50 77.00 62.50 62.50 77.00
------------------------------------------------------------ ------------------------------------ ------------------------------------ ------------------------------------------ ------------------------------------------------------------ ------------------------------------------------------------ ------------------------------------------------------------ ------------------------------------------------------------ ------------------------------------------ ------------------------------------------------------------ ---------------------------------------------------- ------------------------------------------------------------ ------------------------------------------ ---------------------------------------------------- ------------------------------------------------------------ ------------------------------------------------------------ ------------------------------------ ---- ----------------------------- ------------------------------------ ---------------------------------------------------- ------------------------------------------ ----------------------------- ------------------------------------------ ------------------------------------------ ------------------------------------------------------------ ------------------------------------------------------------ ----------------------------------------------------
模型名称 GPT-4o GPT-4 Turbo Claude 3 Opus Gemini 1.5 Pro Llama 3 70B DeepSeek-V2 Mixtral 8x22B Claude 3 Sonnet Gemini 1.5 Flash Mistral Large Command R+ Claude 3 Haiku Mistral Small Llama 3 8B Mixtral 8x7B GPT-3.5 Turbo Llama 3 70B (Groq) GPT-4 Mistral Medium Claude 2.0 Mixtral 8x7B (Groq) Claude 2.1 Claude Instant Phi-Medium 4k Phi-3-Small 8k Mistral 7B
列最后更新 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月20日 2024年5月20日 2024年5月20日 2024年5月14日 2024年5月14日 2024年5月20日 2024年5月20日 2024年5月14日 2024年5月20日 2024年5月21日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月20日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月14日 2024年5月21日 2024年5月21日 2024年5月22日
能力 39
LMSys聊天机器人竞技场ELO 1310 1257 1256 1249 1208 1204 1158 1193 1182 1154 1114 1102 1208 1189 1148 1126 1114 1115 1104 1006
通用知识:
MMLU 88.70 86.40 86.80 81.90 82.00 78.50 77.75 79.00 78.90 81.20 75.70 75.20 72.20 68.40 70.60 70.00 82.00 86.40 75.30 78.50 70.60 73.40 78.00 75.70 62.50
数学:
MATH 76.60 73.40 60.10 58.50 50.40 43.10 54.90 45.00 38.90 30.00 34.10 50.40 52.90
MGSM / GSM8K 90.50 88.60 95.00 93.00 92.30 88.90 79.60 57.10 93.00 92.00 62.20 61.00 60.00 59.72 68.40 77.00 65.45
推理:
GPQA 53.60 49.10 50.40 41.50 39.50 40.40 39.50 33.30 34.20 28.10 39.50 35.70 62.20 61.00 60.00 59.72 68.40 77.00 65.45
BIG-BENCH-HARD 86.80 84.00 82.90 85.50 73.70 66.60 83.10 62.20 61.00 60.00 59.72 68.40 77.00 65.45
DROP, F1分数 83.40 85.40 83.10 78.90 78.40 64.10 80.90 62.20 61.00 60.00 59.72 68.40 77.00 65.45
HellaSwag 95.40 89.00 89.20 85.90 86.90 86.70 85.50 95.30 88.00 86.70 85.50 78.40 77.00 65.45
代码:
HumanEval 90.20 87.60 84.90 71.90 81.70 73.00 75.90 62.20 48.10 81.70 67.00 62.20 61.00 60.00 59.72 68.40 77.00 65.45
Natural2Code 77.70 77.20 62.20 61.00 59.72 68.40 77.00 65.45 62.20 61.00 60.00 59.72 68.40 77.00 65.45
对话:
MT Bench 93.20 62.20 61.00 59.72 58.40 57.72 56.72 55.72 54.72 53.72 52.72 51.72 50.72 49.72 48.72 47.72 46.72 45.72 44.72



论文



LLM 列表

典型 LLM 详情

模型 参数量 层数 注意力头数 维度 学习率 批量大小 训练 token 数
LLaMA2 67亿 32 32 4096 3.00E-04 400万 1.0万亿
LLaMA2 130亿 40 40 5120 3.00E-04 400万 1.0万亿
LLaMA2 325亿 60 52 6656 1.50E-04 400万 1.4万亿
LLaMA2 652亿 80 64 8192 1.50E-04 400万 1.4万亿
nano-GPT 85,584 3 3 768 3.00E-04
GPT2-small 1.2亿 12 12 768 2.50E-04
GPT2-XL 15亿 48 25 1600 1.50E-04
GPT3 175亿 96 96 12288 1.50E-04 0.5万亿

预训练 LLM

模型 规模 架构 访问 日期 来源
Switch Transformer 1.6T 解码器(MOE) - 2021-01 论文
GLaM 1.2T 解码器(MOE) - 2021-12 论文
PaLM 540B 解码器 - 2022-04 论文
MT-NLG 530B 解码器 - 2022-01 论文
J1-Jumbo 178B 解码器 API 2021-08 论文
OPT 175B 解码器 API | 检查点 2022-05 论文
BLOOM 176B 解码器 API | 检查点 2022-11 论文
GPT 3.0 175B 解码器 API 2020-05 论文
LaMDA 137B 解码器 - 2022-01 论文
GLM 130B 解码器 检查点 2022-10 论文
YaLM 100B 解码器 检查点 2022-06 博客
LLaMA 65B 解码器 检查点 2022-09 论文
GPT-NeoX 20B 解码器 检查点 2022-04 论文
UL2 20B 不分架构 检查点 2022-05 论文
T5 11B 编码器-解码器 检查点 2019-10 论文
CPM-Bee 10B 解码器 API 2022-10 论文
rwkv-4 7B RWKV 检查点 2022-09 GitHub
GPT-J 6B 解码器 检查点 2022-09 GitHub
GPT-Neo 2.7B 解码器 检查点 2021-03 GitHub
GPT-Neo 1.3B 解码器 检查点 2021-03 GitHub



指令微调的大模型

模型 规模 架构 访问 日期 来源
Flan-PaLM 540B 解码器 - 2022-10 论文
BLOOMZ 176B 解码器 检查点 2022-11 论文
InstructGPT 175B 解码器 API 2022-03 论文
Galactica 120B 解码器 检查点 2022-11 论文
OpenChatKit 20B - 检查点 2023-3 -
Flan-UL2 20B 解码器 检查点 2023-03 博客
Gopher - - - - -
Chinchilla - - - - -
Flan-T5 11B 编码器-解码器 检查点 2022-10 论文
T0 11B 编码器-解码器 检查点 2021-10 论文
Alpaca 7B 解码器 演示 2023-03 GitHub



对齐的大模型

模型 规模 架构 访问 日期 来源
GPT 4 - - - 2023-03 博客
ChatGPT - 解码器 演示|API 2022-11 博客
Sparrow 70B - - 2022-09 论文
Claude - - 演示|API 2023-03 博客



开源大模型

  • LLaMA - 一个基础的、拥有650亿参数的大语言模型。LLaMA.cpp Lit-LLaMA

    • Alpaca - 基于LLaMA 7B模型,在5.2万条指令遵循示例上微调得到的模型。Alpaca.cpp Alpaca-LoRA
    • Flan-Alpaca - 由人类和机器共同进行的指令微调。
    • Baize - Baize是一个使用LoRA训练的开源聊天模型,它使用了让ChatGPT与自身对话生成的10万条对话数据。
    • Cabrita - 一个葡萄牙语微调的指令型LLaMA模型。
    • Vicuna - 一款开源聊天机器人,其性能可媲美ChatGPT,质量达到ChatGPT的90%。
    • Llama-X - 关于改进LLaMA以达到当前最优水平的大模型的开放学术研究。
    • Chinese-Vicuna - 一个基于LLaMA的中文指令遵循模型。
    • GPTQ-for-LLaMA - 使用GPTQLLaMA进行4位量化。
    • GPT4All - 提供演示、数据和代码,用于训练基于GPT-J和LLaMA的开源助手型大语言模型。
    • Koala - 一个用于学术研究的对话模型。
    • BELLE - 成为每个人的大语言模型引擎。
    • StackLLaMA - 一份使用RLHF训练LLaMA的实践指南。
    • RedPajama - 一个开源配方,用于重现LLaMA的训练数据集。
    • Chimera - 拉丁凤凰。
  • BLOOM - BigScience大型开源多语言语言模型 BLOOM-LoRA

    • BLOOMZ&mT0 - 一系列能够在零样本情况下用数十种语言理解并执行人类指令的模型。
    • Phoenix
  • T5 - 文本到文本迁移变换器

    • T0 - 多任务提示训练使模型能够实现零样本任务泛化。
  • OPT - 开放式预训练Transformer语言模型。

  • UL2 - 一种统一的框架,用于预训练在不同数据集和设置中都通用有效的模型。

  • GLM- GLM是一种通用语言模型,采用自回归填空目标进行预训练,可用于各种自然语言理解和生成任务的微调。

  • RWKV - 可并行化的RNN,具有Transformer级别的大模型性能。

    • ChatRWKV - ChatRWKV类似于ChatGPT,但由我的RWKV(100% RNN)语言模型驱动。
  • StableLM - Stability AI语言模型。

  • YaLM - 一个类似GPT的神经网络,用于生成和处理文本。全球开发者和研究人员均可免费使用。

  • GPT-Neo - 使用mesh-tensorflow库实现的、具备模型并行和数据并行能力的GPT3类模型。

  • GPT-J - 一个拥有60亿参数的自回归文本生成模型,基于The Pile数据集训练而成。

    • Dolly - 一个成本低廉、却展现出惊人指令遵循能力的LLM,其表现堪比ChatGPT。
  • Pythia - 解读跨时间和规模的自回归Transformer模型

    • Dolly 2.0 - 第一个开源、指令微调的LLM,基于获准用于科研和商业用途的人工指令数据集进行微调。
  • OpenFlamingo - DeepMind Flamingo模型的开源复现版本。

  • Cerebras-GPT - 一系列开源、计算高效的大型语言模型。

  • GALACTICA - GALACTICA系列模型是在大规模科学语料库上训练而成。

    • GALPACA - 在Alpaca数据集上微调的GALACTICA 30B模型。
  • Palmyra - Palmyra Base主要以英文文本进行预训练。

  • Camel - 一款最先进的指令遵循大型语言模型,旨在提供卓越的性能和多功能性。

  • h2oGPT

  • PanGu-α - PanGu-α是华为诺亚方舟实验室、MindSpore团队和鹏城实验室联合开发的2000亿参数自回归中文语言模型。

  • Open-Assistant - 一个旨在让每个人都能使用优秀的基于聊天的大语言模型的项目。

  • HuggingChat - 由Open Assistant最新模型驱动——目前最好的开源聊天模型,并通过@huggingface推理API提供服务。

  • Baichuan - 由百川智能科技公司在Baichuan-7B的基础上开发的开源、商用大型语言模型,包含130亿个参数。(2023年7月15日)

  • Qwen - Qwen-7B是阿里巴巴云提出的Qwen(通义千问)系列大语言模型中的70亿参数版本。Qwen-7B是一个基于Transformer的大语言模型,已在大量数据上进行预训练,包括网页文本、书籍、代码等。(2023年8月3日)



流行大模型

模型 作者数量 链接 参数量 基础模型 层数 编码器 解码器 预训练 token 数 微调样本数 RLHF
GPT3-Ada brown2020language https://platform.openai.com/docs/models/gpt-3 0.35B - 24 - 24 - - -
Pythia-1B biderman2023pythia https://huggingface.co/EleutherAI/pythia-1b 1B - 16 - 16 300B tokens - -
GPT3-Babbage brown2020language https://platform.openai.com/docs/models/gpt-3 1.3B - 24 - 24 - - -
GPT2-XL radford2019language https://huggingface.co/gpt2-xl 1.5B - 48 - 48 40B tokens - -
BLOOM-1b7 scao2022bloom https://huggingface.co/bigscience/bloom-1b7 1.7B - 24 - 24 350B tokens - -
BLOOMZ-1b7 muennighoff2022crosslingual https://huggingface.co/bigscience/bloomz-1b7 1.7B BLOOM-1b7 24 - 24 - 8.39B tokens -
Dolly-v2-3b 2023dolly https://huggingface.co/databricks/dolly-v2-3b 2.8B Pythia-2.8B 32 - 32 - 15K -
Pythia-2.8B biderman2023pythia https://huggingface.co/EleutherAI/pythia-2.8b 2.8B - 32 - 32 300B tokens - -
BLOOM-3b scao2022bloom https://huggingface.co/bigscience/bloom-3b 3B - 30 - 30 350B tokens - -
BLOOMZ-3b muennighoff2022crosslingual https://huggingface.co/bigscience/bloomz-3b 3B BLOOM-3b 30 - 30 - 8.39B tokens -
StableLM-Base-Alpha-3B 2023StableLM https://huggingface.co/stabilityai/stablelm-base-alpha-3b 3B - 16 - 16 800B tokens - -
StableLM-Tuned-Alpha-3B 2023StableLM https://huggingface.co/stabilityai/stablelm-tuned-alpha-3b 3B StableLM-Base-Alpha-3B 16 - 16 - 632K -
ChatGLM-6B zeng2023glm-130b,du2022glm https://huggingface.co/THUDM/chatglm-6b 6B - 28 28 28 1T tokens \checkmark \checkmark
DoctorGLM xiong2023doctorglm https://github.com/xionghonglin/DoctorGLM 6B ChatGLM-6B 28 28 28 - 6.38M -
ChatGLM-Med ChatGLM-Med https://github.com/SCIR-HI/Med-ChatGLM 6B ChatGLM-6B 28 28 28 - 8K -
GPT3-Curie brown2020language https://platform.openai.com/docs/models/gpt-3 6.7B - 32 - 32 - - -
MPT-7B-Chat MosaicML2023Introducing https://huggingface.co/mosaicml/mpt-7b-chat 6.7B MPT-7B 32 - 32 - 360K -
MPT-7B-Instruct MosaicML2023Introducing https://huggingface.co/mosaicml/mpt-7b-instruct 6.7B MPT-7B 32 - 32 - 59.3K -
MPT-7B-StoryWriter-65k+ MosaicML2023Introducing https://huggingface.co/mosaicml/mpt-7b-storywriter 6.7B MPT-7B 32 - 32 - \checkmark -
Dolly-v2-7b 2023dolly https://huggingface.co/databricks/dolly-v2-7b 6.9B Pythia-6.9B 32 - 32 - 15K -
h2ogpt-oig-oasst1-512-6.9b 2023h2ogpt https://huggingface.co/h2oai/h2ogpt-oig-oasst1-512-6.9b 6.9B Pythia-6.9B 32 - 32 - 398K -
Pythia-6.9B biderman2023pythia https://huggingface.co/EleutherAI/pythia-6.9b 6.9B - 32 - 32 300B tokens - -
Alpaca-7B alpaca https://huggingface.co/tatsu-lab/alpaca-7b-wdiff 7B LLaMA-7B 32 - 32 - 52K -
Alpaca-LoRA-7B 2023alpacalora https://huggingface.co/tloen/alpaca-lora-7b 7B LLaMA-7B 32 - 32 - 52K -
Baize-7B xu2023baize https://huggingface.co/project-baize/baize-lora-7B 7B LLaMA-7B 32 - 32 - 263K -
Baize Healthcare-7B xu2023baize https://huggingface.co/project-baize/baize-healthcare-lora-7B 7B LLaMA-7B 32 - 32 - 201K -
ChatDoctor yunxiang2023chatdoctor https://github.com/Kent0n-Li/ChatDoctor 7B LLaMA-7B 32 - 32 - 167K -
HuaTuo wang2023huatuo https://github.com/scir-hi/huatuo-llama-med-chinese 7B LLaMA-7B 32 - 32 - 8K -
Koala-7B koala_blogpost_2023 https://huggingface.co/young-geng/koala 7B LLaMA-7B 32 - 32 - 472K -
LLaMA-7B touvron2023llama https://huggingface.co/decapoda-research/llama-7b-hf 7B - 32 - 32 1T tokens - -
Luotuo-lora-7b-0.3 luotuo https://huggingface.co/silk-road/luotuo-lora-7b-0.3 7B LLaMA-7B 32 - 32 - 152K -
StableLM-Base-Alpha-7B 2023StableLM https://huggingface.co/stabilityai/stablelm-base-alpha-7b 7B - 16 - 16 800B tokens - -
StableLM-Tuned-Alpha-7B 2023StableLM https://huggingface.co/stabilityai/stablelm-tuned-alpha-7b 7B StableLM-Base-Alpha-7B 16 - 16 - 632K -
Vicuna-7b-delta-v1.1 vicuna2023 https://github.com/lm-sys/FastChat\#vicuna-weights 7B LLaMA-7B 32 - 32 - 70K -
BELLE-7B-0.2M /0.6M /1M /2M belle2023exploring https://huggingface.co/BelleGroup/BELLE-7B-2M 7.1B Bloomz-7b1-mt 30 - 30 - 0.2M/0.6M/1M/2M -
BLOOM-7b1 scao2022bloom https://huggingface.co/bigscience/bloom-7b1 7.1B - 30 - 30 350B tokens - -
BLOOMZ-7b1 /mt /p3 muennighoff2022crosslingual https://huggingface.co/bigscience/bloomz-7b1-p3 7.1B BLOOM-7b1 30 - 30 - 4.19B tokens -
Dolly-v2-12b 2023dolly https://huggingface.co/databricks/dolly-v2-12b 12B Pythia-12B 36 - 36 - 15K -
h2ogpt-oasst1-512-12b 2023h2ogpt https://huggingface.co/h2oai/h2ogpt-oasst1-512-12b 12B Pythia-12B 36 - 36 - 94.6K -
Open-Assistant-SFT-4-12B 2023openassistant https://huggingface.co/OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5 12B Pythia-12B-deduped 36 - 36 - 161K -
Pythia-12B biderman2023pythia https://huggingface.co/EleutherAI/pythia-12b 12B - 36 - 36 300B tokens - -
Baize-13B xu2023baize https://huggingface.co/project-baize/baize-lora-13B 13B LLaMA-13B 40 - 40 - 263K -
Koala-13B koala_blogpost_2023 https://huggingface.co/young-geng/koala 13B LLaMA-13B 40 - 40 - 472K -
LLaMA-13B touvron2023llama https://huggingface.co/decapoda-research/llama-13b-hf 13B - 40 - 40 1T tokens - -
StableVicuna-13B 2023StableLM https://huggingface.co/CarperAI/stable-vicuna-13b-delta 13B Vicuna-13B v0 40 - 40 - 613K \checkmark
Vicuna-13b-delta-v1.1 vicuna2023 https://github.com/lm-sys/FastChat\#vicuna-weights 13B LLaMA-13B 40 - 40 - 70K -
moss-moon-003-sft 2023moss https://huggingface.co/fnlp/moss-moon-003-sft 16B moss-moon-003-base 34 - 34 - 1.1M -
moss-moon-003-sft-plugin 2023moss https://huggingface.co/fnlp/moss-moon-003-sft-plugin 16B moss-moon-003-base 34 - 34 - 1.4M -
GPT-NeoX-20B gptneox https://huggingface.co/EleutherAI/gpt-neox-20b 20B - 44 - 44 825GB - -
h2ogpt-oasst1-512-20b 2023h2ogpt https://huggingface.co/h2oai/h2ogpt-oasst1-512-20b 20B GPT-NeoX-20B 44 - 44 - 94.6K -
Baize-30B xu2023baize https://huggingface.co/project-baize/baize-lora-30B 33B LLaMA-30B 60 - 60 - 263K -
LLaMA-30B touvron2023llama https://huggingface.co/decapoda-research/llama-30b-hf 33B - 60 - 60 1.4T tokens - -
LLaMA-65B touvron2023llama https://huggingface.co/decapoda-research/llama-65b-hf 65B - 80 - 80 1.4T tokens - -
GPT3-Davinci brown2020language https://platform.openai.com/docs/models/gpt-3 175B - 96 - 96 300B tokens - -
BLOOM scao2022bloom https://huggingface.co/bigscience/bloom 176B - 70 - 70 366B tokens - -
BLOOMZ /mt /p3 muennighoff2022crosslingual https://huggingface.co/bigscience/bloomz-p3 176B BLOOM 70 - 70 - 2.09B tokens -
ChatGPT~(2023.05.01) openaichatgpt https://platform.openai.com/docs/models/gpt-3-5 - GPT-3.5 - - - - \checkmark \checkmark
GPT-4~(2023.05.01) openai2023gpt4 https://platform.openai.com/docs/models/gpt-4 - - - - - - \checkmark \checkmark



训练框架

  • Accelerate - 🚀 一种简单的方法,用于在多 GPU、TPU 和混合精度下训练和使用 PyTorch 模型。
  • Apache MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架,具有动态、支持变异的数据流依赖调度器。
  • Caffe - 一个快速的开源深度学习框架。
  • ColossalAI - 一个集成的大规模模型训练系统,采用高效的并行化技术。
  • DeepSpeed - DeepSpeed 是一个深度学习优化库,使分布式训练和推理变得简单、高效且有效。
  • Horovod - 面向 TensorFlow、Keras、PyTorch 和 Apache MXNet 的分布式训练框架。
  • Jax - 用于高性能机器学习研究的自动微分和 XLA。
  • Kedro - Kedro 是一个开源 Python 框架,用于创建可复现、可维护且模块化的数据科学代码。
  • Keras - Keras 是用 Python 编写的深度学习 API,运行在机器学习平台 TensorFlow 之上。
  • LightGBM - 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排序、分类以及许多其他机器学习任务。
  • MegEngine - MegEngine 是一个快速、可扩展且易于使用的深度学习框架,支持自动微分。
  • metric-learn - Python 中的度量学习算法。
  • MindSpore - MindSpore 是一个新的开源深度学习训练/推理框架,可用于移动、边缘和云场景。
  • Oneflow - OneFlow 是一个以性能为中心的开源深度学习框架。
  • PaddlePaddle - 来自工业实践的机器学习框架。
  • PyTorch - 在 Python 中使用张量和动态神经网络,并具有强大的 GPU 加速功能。
  • PyTorch Lightning - 一种深度学习框架,用于闪电般快速地训练、部署和交付 AI 产品。
  • XGBoost - 可扩展、可移植且分布式的梯度提升(GBDT、GBRT 或 GBM)库。
  • scikit-learn - Python 中的机器学习。
  • TensorFlow - 一个面向所有人的开源机器学习框架。
  • VectorFlow - 一个针对稀疏数据和单机环境优化的极简神经网络库。



大语言模型运维

名称 星标数 描述
Byzer-LLM Byzer-LLM 是一套全面的大模型基础设施,支持预训练、微调、部署和推理等大模型相关能力。Byzer-Retrieval 是专为大模型打造的存储基础设施,支持多种数据源的批量导入、实时单条更新以及全文检索、向量检索和混合检索等功能,从而简化 Byzer-LLM 的数据使用流程。Byzer-SQL/Python 提供了友好的交互式 API,降低了用户使用上述产品的门槛。
agenta 一个用于构建强大 LLM 应用的 LLMOps 平台。它允许轻松试验和评估不同的提示词、模型和工作流,以构建健壮的应用程序。
Arize-Phoenix 面向 LLM、视觉、语言和表格数据模型的机器学习可观测性平台。
BudgetML 使用不到 10 行代码,在有限预算下部署 ML 推理服务。
CometLLM 一个开源的 LLMOps 平台,用于记录、管理和可视化 LLM 提示词及链路。它可以跟踪提示模板、变量、执行时长、令牌使用情况等元数据,并对提示输出进行评分,同时在单一 UI 中可视化聊天历史。
deeplake 流式传输大型多模态数据集,实现接近 100% 的 GPU 利用率。支持数据查询、可视化和版本控制,无需重新计算嵌入即可访问数据,便于模型微调。
Dify 一个开源框架,使开发者(甚至非开发者)能够快速构建基于大型语言模型的实用应用,确保这些应用具有可见性、可操作性和可改进性。
Dstack 在任何云环境中(AWS、GCP、Azure、Lambda 等)经济高效地开发 LLM。
Embedchain 一个用于基于数据集创建类似 ChatGPT 机器人的工作框架。
GPTCache 构建语义缓存,用于存储 LLM 查询的响应。
Haystack 快速构建包含 LLM 代理、语义搜索、问答等功能的应用程序。
langchain 通过组件化方式构建 LLM 应用。
LangFlow 一种无需繁琐操作的方式,通过拖放组件和聊天界面来试验和原型化 LangChain 流程。
LangKit 一个开箱即用的 LLM 遥测收集库,能够提取 LLM 性能随时间变化的指标、提示词、响应及元数据,从而大规模识别问题。
LiteLLM 🚅 一个简单轻量的 100 行包,用于标准化跨 OpenAI、Azure、Cohere、Anthropic、Replicate 等多个 API 端点的 LLM API 调用。
LlamaIndex 提供一个中心化接口,将您的 LLM 与外部数据连接起来。
LLMApp LLM App 是一个 Python 库,只需几行代码即可帮助您构建实时的 LLM 驱动数据管道。
LLMFlows LLMFlows 是一个用于构建简单、清晰且透明的 LLM 应用程序的框架,例如聊天机器人、问答系统和智能代理。
LLMonitor 面向 AI 应用和智能代理的可观测性与监控工具。通过强大的追踪和日志功能调试智能代理,利用分析工具深入请求历史。提供易于集成到 LangChain 的开发者友好模块。
magentic 将 LLM 无缝集成为 Python 函数。使用类型注解指定结构化输出。将 LLM 查询和函数调用与常规 Python 代码结合,以创建复杂的 LLM 驱动功能。
Pezzo 🕹️ Pezzo 是一个面向开发者和团队的开源 LLMOps 平台。只需两行代码,即可轻松排查 AI 运营中的问题,协作管理提示词,并从一处即时部署更改。
promptfoo 一个开源的工具,用于测试和评估提示词质量。创建测试用例,自动检查输出质量,并捕捉回归问题,从而降低评估成本。
prompttools 一个开源的工具,用于测试和尝试提示词。其核心理念是让开发者能够使用熟悉的界面,如代码和笔记本,来评估提示词。只需几行代码,即可在不同模型上测试提示词和参数(无论您使用的是 OpenAI、Anthropic 还是 LLaMA 模型)。甚至还可以评估向量数据库检索的准确性。
TrueFoundry 无 GitHub 链接 在您自己的 Kubernetes(EKS、AKS、GKE、本地部署)基础设施上部署 LLMOps 工具,包括向量数据库、嵌入式服务器等。这涵盖了用于部署、微调、提示词跟踪以及提供完整数据安全和优化 GPU 管理的开源 LLM 模型。采用最佳软件工程实践,以生产规模训练并上线您的 LLM 应用。
ReliableGPT 💪 处理生产级 LLM 应用中遇到的 OpenAI 错误(OpenAI 服务器过载、密钥轮换或上下文窗口错误)。
Weights & Biases (Prompts) 无 GitHub 链接 W&B MLOps 平台中面向开发者的一套 LLMOps 工具。使用 W&B Prompts 可以可视化和检查 LLM 执行流程,跟踪输入和输出,查看中间结果,并管理提示词及 LLM 链配置。
xTuring 使用快速高效的微调技术构建和控制您自己的 LLM。
ZenML 一个开源框架,用于编排、实验和部署生产级机器学习解决方案,内置 langchainllama_index 集成。



课程



其他精选列表



许可证

MIT许可证

MIT许可证

CC BY-NC-SA 4.0

知识共享署名-非商业性使用-相同方式共享4.0国际许可协议



引用

@misc{llm-eval-anthropomorphic,
      title={超越基准:基于拟人化与价值导向的大型语言模型评估路线图}, 
      author={Jun Wang, Ninglun Gu, Kailai Zhang, Zijiao Zhang, Yelun Bao, Jin Yang, Xu Yin, Liwei Liu, Yihuan Liu, Pengyong Li, Gary G. Yen, Junchi Yan},
      year={2025},
      eprint={2508.18646},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.18646}, 
}

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架