arena-hard-auto

1k 150 简单 1 次阅读 3天前Apache-2.0语言模型其他

AI 解读由 AI 自动生成，仅供参考

Arena-Hard-Auto 是一款专为指令微调大语言模型设计的自动化评测工具，旨在帮助开发者和研究人员在模型正式部署前，高效预测其在真实用户场景（如 LMArena Chatbot Arena）中的表现排名。

传统的大模型评测往往依赖昂贵且耗时的人工投票，或者使用相关性较低的静态数据集。Arena-Hard-Auto 解决了这一痛点，它通过精心筛选的 500 个高难度真实世界查询（涵盖软件工程、数学推理等）以及 250 个创意写作任务，构建了一套极具挑战性的测试集。其核心亮点在于利用 GPT-4.1 和 Gemini-2.5 等先进模型作为“自动裁判”，以更低成本和更快速度模拟人类偏好判断。研究显示，该工具在开放域基准中与人类实际投票结果具有最高的相关性和模型区分度。

此外，最新版本 Arena-Hard-v2.0 还引入了风格控制功能，进一步提升了评估的精细度。无论是希望优化模型性能的算法工程师，还是需要客观对比不同模型能力的科研人员，都可以利用 Arena-Hard-Auto 获得可靠、及时的反馈，从而更自信地推进模型迭代与应用落地。

使用场景

某 AI 初创团队在发布自研大模型前，急需验证其在真实复杂场景下的表现，以预测用户在 Chatbot Arena 中的偏好排名。

没有 arena-hard-auto 时

评估成本高昂：依赖人工标注或众包平台对数百个高难度提示词进行打分，耗时数周且费用昂贵，严重拖慢迭代节奏。
反馈周期滞后：模型微调后需等待漫长的人工评估结果才能知晓效果，导致开发团队无法快速试错和优化。
相关性存疑：使用的静态基准测试（如 MMLU）分数虽高，但与真实用户投票产生的 LMArena 排行榜相关性低，出现“刷榜”却不受用户欢迎的尴尬局面。
缺乏风格控制：难以量化评估模型在特定写作风格或指令遵循上的细微差别，只能凭主观感觉调整。

使用 arena-hard-auto 后

自动化高效评测：利用 GPT-4.1 和 Gemini-2.5 作为自动裁判，几分钟内即可完成对 500+ 个高难度真实用户查询的评估，成本降低九成以上。
即时迭代闭环：每次代码提交后自动运行评测，团队能立即看到模型在“硬提示词”集上的得分变化，实现天级别的快速迭代。
精准预测排名：凭借与 LMArena 人类偏好高度相关的特性，团队能在模型上线前准确预判其市场竞争力，避免无效部署。
细粒度风格调优：借助新增的风格控制功能，针对性地优化模型在创意写作或工程代码领域的表现，显著提升用户满意度。

arena-hard-auto 将原本昂贵滞后的人类偏好评估转化为低成本、高相关性的自动化流程，成为大模型上线前不可或缺的“实战演习场”。

运行环境要求

操作系统

未说明

GPU

非必需
若使用本地模型推理（如 SGLang），需根据模型大小配置相应 GPU
若仅调用 API（OpenAI/Anthropic/Vertex AI）则无需本地 GPU

内存

未说明

依赖

notes该工具主要作为自动评估框架，默认通过 API 调用外部模型（如 GPT-4.1, Gemini-2.5）作为裁判或被测模型，因此对本地硬件无硬性要求。若需本地部署被测模型或裁判模型，需自行配置对应的推理引擎（如 vLLM 或 SGLang）及相应显存。运行前需安装 git-lfs 以下载预生成的答案和评判数据。

python未说明

requirements.txt 中定义的依赖

requirements-optional.txt (可选，如 anthropic sdk)

vLLM (可选，用于托管本地模型)

SGLang (可选，用于内置快速推理)

git-lfs (用于下载数据集)

快速开始

Arena-Hard-Auto

新闻 • 排行榜 • 安装 • 评估 • 演示 • 引用

新闻

[2025年4月23日] 🎉 Arena-Hard-v2.0 终于来了！更好的评判者、新的高难度提示，以及针对创意写作的额外评估。
[2024年10月14日] 🎉 风格控制 现在已支持在 Arena-Hard-Auto 中使用。

关于

Arena-Hard-Auto 是一个用于指令微调型大语言模型的自动化评估工具。在众多开放式大语言模型基准测试中，Arena-Hard-Auto 与 LMArena（聊天机器人竞技场）的相关性和区分度最高（参见论文）。如果您想在部署之前了解自己的模型在 LMArena 上的表现如何，我们建议您尝试 Arena-Hard-Auto 的最新评估集——Arena-Hard-v2.0-预览版。

V2.0 包含 500 条全新的、具有挑战性的真实用户查询（如开放式软件工程问题、数学题等）以及 250 条来自 Chatbot Arena 的创意写作查询。我们采用自动评判者 GPT-4.1 和 Gemini-2.5，作为更经济、更快速的人类偏好近似工具。

尽管 Arena-Hard-Auto 和 Chatbot Arena 的 Hard 类别（参见博客）都采用了类似的流程来筛选高难度提示，但 Arena-Hard-Auto 使用自动评判者作为更经济、更快速的人类偏好近似工具。请查看 BenchBuilder 文件夹，获取有关我们如何策划 Arena-Hard-Auto 的代码和资源。在论文中，我们还提出了诸如模型区分度和与人类偏好一致率等指标，用于评估基准测试对模型进行排名的能力（更多信息和代码请参阅评估基准）。

排行榜

Arena-Hard-v2.0-预览版

困难提示、风格控制，以及Gemini 2.5作为评判者 （官方配置）：

                                      模型  分数 (%)         置信区间 (%)
0                             o3-2025-04-16        85.9  (-0.8 / +0.9)
1                   o4-mini-2025-04-16-high        79.1  (-1.4 / +1.2)
2                                gemini-2.5        79.0  (-2.1 / +1.8)
3                        o4-mini-2025-04-16        74.6  (-1.8 / +1.6)
4                          gemini-2.5-flash        68.6  (-1.6 / +1.6)
5                   o3-mini-2025-01-31-high        66.1  (-1.5 / +2.1)
6                        o1-2024-12-17-high        61.0  (-2.0 / +2.1)
7   claude-3-7-sonnet-20250219-thinking-16k        59.8  (-2.0 / +1.8)
8                           Qwen3-235B-A22B        58.4  (-1.9 / +2.1)
9                               deepseek-r1        58.0  (-2.2 / +2.0)
10                            o1-2024-12-17        55.9  (-2.2 / +1.8)
11                          gpt-4.5-preview        50.0  (-1.9 / +2.0)
12                       o3-mini-2025-01-31        50.0  (-0.0 / +0.0)
13                                  gpt-4.1        50.0  (-1.9 / +1.7)
14                             gpt-4.1-mini        46.9  (-2.4 / +2.1)
15                                Qwen3-32B        44.5  (-2.2 / +2.1)
16                                  QwQ-32B        43.5  (-2.5 / +2.1)
17                            Qwen3-30B-A3B        33.9  (-1.6 / +1.5)
18               claude-3-5-sonnet-20241022        33.0  (-2.3 / +1.8)
19                                 s1.1-32B        22.3  (-1.7 / +1.5)
20           llama4-maverick-instruct-basic        17.2  (-1.5 / +1.2)
21                           Athene-V2-Chat        16.4  (-1.4 / +1.4)
22                           gemma-3-27b-it        15.0  (-1.4 / +1.0)
23                                 Qwen3-4B        15.0  (-1.1 / +1.5)
24                             gpt-4.1-nano        13.7  (-1.1 / +1.0)
25       Llama-3.1-Nemotron-70B-Instruct-HF        10.3  (-0.8 / +1.0)
26                     Qwen2.5-72B-Instruct        10.1  (-0.9 / +1.3)
27                         OpenThinker2-32B         3.2  (-0.3 / +0.3)

困难提示、风格控制，以及GPT-4.1作为评判者 （若偏好使用OpenAI API）

                                      模型  分数 (%)         置信区间 (%)
0                             o3-2025-04-16        87.0  (-1.0 / +1.0)
1                   o4-mini-2025-04-16-high        81.7  (-1.2 / +1.2)
2                        o4-mini-2025-04-16        78.0  (-1.3 / +1.4)
3                   o3-mini-2025-01-31-high        64.8  (-2.1 / +1.9)
4                        o1-2024-12-17-high        58.7  (-2.3 / +2.1)
5                                   gpt-4.1        58.3  (-2.0 / +2.3)
6                             o1-2024-12-17        50.2  (-2.2 / +1.8)
7                        o3-mini-2025-01-31        50.0  (-0.0 / +0.0)
8                                gemini-2.5        49.1  (-2.5 / +2.4)
9                              gpt-4.1-mini        48.6  (-2.7 / +1.9)
10                              deepseek-r1        48.0  (-2.6 / +2.3)
11  claude-3-7-sonnet-20250219-thinking-16k        47.0  (-1.9 / +2.3)
12                          Qwen3-235B-A22B        46.7  (-1.9 / +2.4)
13                         gemini-2.5-flash        45.1  (-2.7 / +2.1)
14                          gpt-4.5-preview        43.0  (-1.9 / +2.2)
15                                  QwQ-32B        36.1  (-2.0 / +2.2)
16                                Qwen3-32B        35.8  (-2.1 / +2.2)
17                            Qwen3-30B-A3B        28.7  (-1.4 / +2.1)
18               claude-3-5-sonnet-20241022        25.8  (-1.7 / +1.8)
19                                 s1.1-32B        18.3  (-2.3 / +2.2)
20                             gpt-4.1-nano        15.4  (-1.1 / +1.2)
21                           Athene-V2-Chat        12.6  (-1.2 / +1.3)
22                                 Qwen3-4B        12.6  (-1.1 / +1.5)
23           llama4-maverick-instruct-basic        12.0  (-1.0 / +1.2)
24                           gemma-3-27b-it         9.7  (-0.9 / +1.1)
25                     Qwen2.5-72B-Instruct         8.0  (-0.7 / +0.9)
26       Llama-3.1-Nemotron-70B-Instruct-HF         6.8  (-0.6 / +0.8)
27                         OpenThinker2-32B         2.3  (-0.2 / +0.3)

创意写作，由GPT-4.1和Gemini 2.5共同担任评委 （最适合创意写作的配置）

                                      模型  分数 (%)         置信区间 (%)
0                                gemini-2.5        90.8  (-1.2 / +1.3)
1                             o3-2025-04-16        88.8  (-1.1 / +1.0)
2                          gemini-2.5-flash        83.9  (-1.3 / +1.4)
3                               deepseek-r1        77.0  (-2.0 / +1.4)
4                           Qwen3-235B-A22B        73.5  (-1.8 / +1.5)
5                            gemma-3-27b-it        69.9  (-1.9 / +1.7)
6   claude-3-7-sonnet-20250219-thinking-16k        63.9  (-1.7 / +1.9)
7                                   gpt-4.1        61.5  (-1.9 / +1.9)
8                                   QwQ-32B        60.9  (-2.0 / +1.6)
9                        o1-2024-12-17-high        59.9  (-2.1 / +1.7)
10                  o4-mini-2025-04-16-high        58.7  (-1.8 / +1.9)
11                            o1-2024-12-17        56.6  (-1.8 / +1.8)
12                       o4-mini-2025-04-16        55.6  (-1.8 / +2.0)
13                                Qwen3-32B        53.3  (-1.9 / +1.6)
14                          gpt-4.5-preview        51.4  (-1.9 / +2.0)
15                     gemini-2.0-flash-001        50.0  (-0.0 / +0.0)
16                  o3-mini-2025-01-31-high        43.0  (-1.7 / +2.1)
17                            Qwen3-30B-A3B        34.9  (-2.0 / +1.6)
18                             gpt-4.1-mini        28.2  (-1.8 / +1.8)
19       Llama-3.1-Nemotron-70B-Instruct-HF        26.9  (-2.0 / +1.8)
20               claude-3-5-sonnet-20241022        24.2  (-1.5 / +1.5)
21                         OpenThinker2-32B        23.6  (-1.5 / +1.3)
22                           Athene-V2-Chat        18.1  (-1.6 / +1.5)
23                                 Qwen3-4B        13.2  (-1.2 / +1.2)
24                             gpt-4.1-nano        10.7  (-1.1 / +1.1)
25           llama4-maverick-instruct-basic        10.5  (-1.1 / +1.0)
26                     Qwen2.5-72B-Instruct        10.2  (-1.1 / +1.1)
27                                 s1.1-32B         8.2  (-0.9 / +0.

如需查看较早的排行榜，例如Arena-Hard-v0.1，请参阅 past-leaderboards。

安装依赖

git clone https://github.com/lmarena/arena-hard-auto.git
cd arena-hard
pip install -r requirements.txt
pip install -r requirements-optional.txt  # 可选依赖（例如Anthropic SDK）

下载数据集

我们预先生成了许多热门模型的回答和评判结果。您可以通过在线演示浏览这些结果，或者在安装了git-lfs的情况下，通过以下命令下载：

> git lfs install
> git clone git@hf.co:datasets/lmarena-ai/arena-hard-auto arena-hard-data
// 将 answers/judgments 复制到 data 目录
> cp -r arena-hard-data/data .

然后运行：

> python show_result.py
                                      模型  得分 (%)         置信区间 (%)
0                             o3-2025-04-16        87.6  (-0.8 / +1.0)
1                   o4-mini-2025-04-16-high        82.7  (-1.4 / +1.3)
2                        o4-mini-2025-04-16        78.9  (-1.6 / +1.6)

评估

第一步：配置您的模型端点

在config/api_config.yaml中填写您的API端点。我们支持与OpenAI兼容的API服务器、Anthropic、Vertex AI等。您可以在config/api_config.yaml中找到相关示例。

您可以使用诸如vLLM或SGLang之类的推理引擎来托管您的模型，并提供与OpenAI兼容的API服务。

我们还内置了对SGLang快速推理的支持，相关示例见config/api_config.yaml，实现代码位于utils/completion.py中。环境搭建请参考misc/sglang_setup.bash。

第二步：生成模型回答

在config/gen_answer_config.yaml中，在model_list里添加您的模型名称。

运行以下命令生成回答：

> python gen_answer.py

系统实现了缓存功能。当针对同一提示已有现成的回答或评判时，代码会跳过重新生成步骤（此功能不适用于内置的SGLang服务器）。

第三步：生成评判

在config/arena-hard-v2.0.yaml中，在model_list里添加您的模型名称。

...
# 在下方添加您的模型以进行评估
model_list:
  - deepseek-r1
  - [YOUR-MODEL-NAME]

我们推荐使用GPT-4.1作为裁判，以实现快速且稳定的评判推理。若要使用Gemini-2.5，请注释掉以下内容：

judge_model: gpt-4.1
temperature: 0.0
max_tokens: 16000

并取消注释：

judge_model: gemini-2.5
temperature: 1.0
max_tokens: 32000

运行以下命令生成评判：

> python gen_judgment.py

对于“集成裁判”方案，我们建议分别独立地调用两位裁判进行推理，并在展示排行榜时汇总结果（参见第4步）。

评判结果也支持缓存。如果某条评判已存在，或缺少其中一位模型的回答，则会跳过该条目的生成。

第四步：展示结果

输出**Arena-Hard-v2.0-预览版（高难度提示、风格控制、GPT-4.1为裁判）**的模型胜率：

> python show_result.py --judge-names gpt-4.1 --control-features markdown length

输出**Arena-Hard-v2.0-预览版（创意写作、GPT-4.1和Gemini 2.5联合裁判）**的模型胜率：

> python show_result.py --judge-names gpt-4.1 gemini-2.5 --category creative_writing

第五步：基准评测查看器

您可以通过我们的Gradio脚本（gradio>=5.25.2）查看回答和评判结果：

> python qa_browser.py --share

风格控制

继Chatbot Arena引入风格控制之后，我们现在也在Arena Hard Auto中推出了风格控制！我们采用了与博客文章中相同的风格控制方法。有关方法论和技术背景，请参阅该博客文章。

在应用风格控制之前，请确保您的模型回答已生成适当的风格属性。您可以从Hugging Face仓库拉取最新数据，或者运行以下脚本！

要为您的模型回答添加风格属性，请使用add_markdown_info.py。以下命令会从--dir目录读取模型回答，附加风格属性（token长度、标题数量等），并将新回答保存到--output-dir目录。

> python add_markdown_info.py --dir data/arena-hard-v0.1/model_answer --output-dir data/arena-hard-v0.1/model_answer

要控制风格（token长度和Markdown元素），请在运行show_result.py时使用--control-features或-f选项。

> python show_result.py -f markdown length # 风格控制
> python show_result.py -f markdown # 仅控制Markdown密度
> python show_result.py -f length # 仅控制长度

评估基准测试

我们概述了旨在近似人类偏好的基准测试应具备的两项关键属性，以提供模型之间的有意义比较：

可区分性：基准测试应能高置信度地区分不同模型。
与人类偏好的一致性：基准测试应与人类偏好保持一致。

尽管以往的研究主要关注一致性，但在比较质量相近的模型时（例如来自同一训练运行的不同检查点），可区分性同样至关重要。然而，由于提示设计的局限性以及大语言模型评估中固有的变异性，实现高置信度的可区分性颇具挑战。过于简单的提示无法有效区分不同模型，而人类和大语言模型判断中的随机性则会导致预测结果不一致。因此，通常很难确定模型的表面表现是否反映了其能力的真实差异，还是仅仅是噪声观测的结果，这凸显了需要开发方法来验证基准测试能否可靠地区分相似模型。

在 AlpacaEval（Li 等，2023）等基准测试中常用的统计指标，如皮尔逊相关系数（Pearson, 1895）和斯皮尔曼相关系数（Spearman, 1961），用于衡量与人类偏好排序的相关性，但可能无法充分解决模型可区分性和排序稳定性问题。此外，这些指标仅提供排序相关性的粗略信号，而无法量化模型对之间性能差异的大小。为解决这些问题，我们开发了三项新指标：置信度下的可区分性、置信度下的一致性和成对排名布里尔评分。

置信度下的可区分性通过自助法计算基准测试在不同随机种子下预测模型对胜负的一致性，从而量化基准测试的置信度。具体而言，该指标计算基准测试得分的置信区间互不重叠的模型对所占的比例。比例越高，表明基准测试越有信心区分不同模型的性能，因为它们的得分置信区间没有重叠。

关于置信度下的一致性和成对排名布里尔评分，请参阅我们的论文第3节。计算这些指标的代码可在本Colab 笔记本中找到。

与 Amazon Bedrock API 的集成

我们现在已将 arena-hard 扩展至支持在 Amazon Bedrock 上托管的大语言模型的基准测试。具体来说，在 utils/completion.py 中添加了 Amazon Bedrock 调用 API，使您能够使用 Arena-Hard 测试 Amazon Bedrock 上托管的各种模型。

目前我们支持以下模型：

Anthropic 模型：Claude 3 Haiku、Claude 3 Sonnet、Claude 3.5 Sonnet、Claude 3 Opus、Claude 3.5 Sonnet v2、Claude 3.7 Sonnet
Mistral 模型：Mistral 7B Instruct、Mistral 8x7B Instruct、Mistral Large v1、Mistral Large v2、Mistral Small、Pixtral Large
Meta Llama 模型：LLaMA 3 8B Instruct、LLaMA 3 70B Instruct、LLaMA 3.1 8B Instruct、LLaMA 3.1 70B Instruct、LLaMA 3.1 405B Instruct、LLaMA 3.2 1B Instruct、LLaMA 3.2 3B Instruct、LLaMA 3.2 11B Instruct、LLaMA 3.2 90B Instruct、LLaMA 2 Chat 13B、LLaMA 2 Chat 70B
Amazon Nova 模型：Amazon Nova Lite、Amazon Nova Pro、Amazon Nova Micro、Amazon Nova Premier
DeepSeek-R1

要添加一个托管在 Amazon Bedrock 上的新模型，您需要更新两个文件：config/api_config.yaml 和 utils/completion.py。

1. 更新 `config/api_config.yaml`

为该模型定义一个新的条目，填写正确的 model_id、api_type 和生成参数。

示例：

aws_nova_light_v1:
  model: aws_nova_light_v1
  model_id: us.amazon.nova-lite-v1:0
  endpoints: null
  api_type: aws_nova
  parallel: 8
  max_tokens: 4096
  temperature: 0.0

关键字段：

model：用于引用此配置的内部别名。
model_id：Bedrock 特定的模型标识符。
api_type：api_type 应通过 utils/completion.py 注册。
endpoints：对于默认的 Bedrock 端点设置为 null，或使用自定义端点覆盖。
parallel：控制并行推理调用次数（根据吞吐量调整）。
max_tokens：最大输出标记数。
temperature：控制生成的随机性（0.0 表示确定性）。

更多示例请参见 config/api_config_bedrock_models.yaml。有关模型 ID 和功能，请参考 Amazon Bedrock 文档（https://docs.aws.amazon.com/bedrock/latest/userguide/models-supported.html）。

2. 在 `utils/completion.py` 中注册模型处理器

创建一个带有 @register_api("<api_type>") 装饰器的新函数，定义如何格式化输入、使用 boto3 将请求发送到 Bedrock，以及如何解析响应。

您可以使用现有示例作为模板：

> @register_api("aws_llama") 处理 LLaMA 模型
> @register_api("aws_nova") 处理 Nova 模型

这些函数通常会使用诸如 create_llama3_body() 或 create_nova_messages() 等辅助函数，并通过 Bedrock 的 invoke_model API 发送请求。

请注意：

> `api_config.yaml` 中的 `api_type` 必须与 `@register_api(...)` 装饰器中使用的名称一致。
> 输入格式化（例如提示结构、消息列表）
> 参数映射（温度、max_tokens、model_id）
> 响应解析（例如生成内容与嵌套输出.message.content）

遵循上述两步流程，用户可以轻松扩展对任何符合兼容调用结构的 Bedrock 托管模型的支持。有关示例，请参阅仓库中现有的 Claude、LLaMA 和 Amazon Nova 处理程序。

社区贡献

欢迎提交 PR 或打开议题！

如果您希望将自己的模型加入排行榜，请将以下信息发送给我：

您模型的 OpenAI 兼容端点。
用于我进行推理判断的 OpenAI API 密钥。

由此带来的不便敬请谅解！由于 Arena-Hard-Auto 是开放数据，我们希望避免有人在排行榜上作弊。若发现任何可疑行为，我们保留不将您的模型加入排行榜的权利。

引用

本仓库中的代码基于以下论文开发而成。如果您觉得本仓库有所帮助，请引用：

@article{li2024crowdsourced,
  title={从众包数据到高质量基准：Arena-Hard 和 BenchBuilder 流水线},
  author={李天乐、蒋伟霖、弗里克·埃文、邓拉普·丽莎、吴天浩、朱邦华、冈萨雷斯·约瑟夫·E、斯托伊卡·伊昂},
  journal={arXiv 预印本 arXiv:2406.11939},
  year={2024}
}
@misc{arenahard2024,
    title = {从实时数据到高质量基准：Arena-Hard 流水线},
    url = {https://lmsys.org/blog/2024-04-19-arena-hard/},
    author = {李天乐*、蒋伟霖*、弗里克·埃文、邓拉普·丽莎、朱邦华、约瑟夫·E·冈萨雷斯、伊昂·斯托伊卡},
    month = {四月},
    year = {2024}
}

Arena-Hard-Auto 快速上手指南

Arena-Hard-Auto 是一个用于评估指令微调大语言模型（LLM）的自动化工具。它在开放式 LLM 基准测试中与 LMArena (Chatbot Arena) 具有最高的相关性和区分度，适合在部署前快速验证模型在真实世界高难度问题上的表现。

环境准备

系统要求：Linux 或 macOS 环境，推荐具备 GPU 以加速本地推理（若使用 API 则非必须）。
前置依赖：
- Python 3.8+
- git 和 git-lfs (用于下载数据集)
- pip 包管理器
API 密钥：若使用云端模型作为裁判（Judge）或被测模型，需准备相应的 API Key（如 OpenAI, Anthropic, Google Vertex AI 等）。

安装步骤

克隆仓库

git clone https://github.com/lmarena/arena-hard-auto.git
cd arena-hard-auto

安装依赖 建议配置国内 pip 镜像源（如清华源）以加速安装：
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -r requirements-optional.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
```
注：requirements-optional.txt 包含 Anthropic SDK 等可选依赖，按需安装。
下载数据集 需要安装 git-lfs 并拉取预生成的模型回答和评判数据：
```
git lfs install
git clone git@hf.co:datasets/lmarena-ai/arena-hard-auto arena-hard-data
cp -r arena-hard-data/data .
```
若无法访问 HuggingFace，可尝试通过镜像站下载或使用代理。

基本使用

以下流程展示如何评估一个自定义模型（假设该模型已通过兼容 OpenAI 格式的 API 提供服务，例如使用 vLLM 或 SGLang 部署）。

第一步：配置 API 端点

编辑 config/api_config.yaml，填入你的模型服务地址和 API Key。支持 OpenAI 兼容接口、Anthropic 等。

# config/api_config.yaml 示例
openai_api_key: "sk-your-key"
openai_api_base: "http://localhost:8000/v1" # 替换为你的本地或远程服务地址
# 其他配置参考文件内注释

第二步：生成模型回答

编辑 config/gen_answer_config.yaml，在 model_list 中添加你的模型名称。

# config/gen_answer_config.yaml
model_list:
  - deepseek-r1
  - your-model-name  # 替换为你的模型名称

运行生成命令：

python gen_answer.py

工具会自动跳过已存在的缓存结果。

第三步：生成评判结果 (Judgments)

编辑评测配置文件（如 config/arena-hard-v2.0.yaml），确保 model_list 中包含待测模型。

# config/arena-hard-v2.0.yaml
model_list:
  - deepseek-r1
  - your-model-name

默认使用 GPT-4.1 作为裁判。若需使用 Gemini-2.5，请在配置文件中取消相应注释。

运行评判命令：

python gen_judgment.py

第四步：查看结果

运行脚本查看最终得分和置信区间：

python show_result.py

输出示例：

                                      Model  Scores (%)         CI (%)
0                             o3-2025-04-16        87.6  (-0.8 / +1.0)
1                   your-model-name        XX.X  (-X.X / +X.X)

常见问题

运行 show_result.py 时出现逻辑回归不收敛的警告（STOP: TOTAL NO. of ITERATIONS REACHED LIMIT），这会影响结果吗？

如何将本地部署的模型配置为裁判模型（Judge Model）？

是否有开源模型可以替代 GPT-4 作为裁判模型以降低成本？

切换不同版本的 GPT 裁判模型（如从 gpt-4-1106 切换到 gpt-4-0125）会导致评分出现巨大差异吗？

是否支持设置除 temperature 以外的其他生成采样参数（如 repetition_penalty）？

在评估 Qwen3 等具有“思考模式”的模型时，得分与官方报告不符怎么办？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|2天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

使用场景

没有 arena-hard-auto 时

使用 arena-hard-auto 后

运行环境要求

快速开始

Arena-Hard-Auto

新闻

关于

排行榜

Arena-Hard-v2.0-预览版

安装依赖

下载数据集

评估

第一步：配置您的模型端点

第二步：生成模型回答

第三步：生成评判

第四步：展示结果

第五步：基准评测查看器

风格控制

评估基准测试

与 Amazon Bedrock API 的集成

1. 更新 config/api_config.yaml

2. 在 utils/completion.py 中注册模型处理器

社区贡献

引用

Arena-Hard-Auto 快速上手指南

环境准备

安装步骤

基本使用

第一步：配置 API 端点

第二步：生成模型回答

第三步：生成评判结果 (Judgments)

第四步：查看结果

常见问题

相似工具推荐

everything-claude-code

LLMs-from-scratch

spec-kit

NextChat

ML-For-Beginners

funNLP

1. 更新 `config/api_config.yaml`

2. 在 `utils/completion.py` 中注册模型处理器