hallucination-leaderboard
hallucination-leaderboard 是一个专注于评估大语言模型(LLM)在文档摘要任务中“幻觉”表现的公开排行榜。所谓“幻觉”,指的是模型在生成内容时编造事实或偏离原文的现象,这是当前 AI 应用落地的一大痛点。该榜单通过 Vectara 研发的专用评估模型 HHEM,量化测试了各大主流模型在总结短文时的胡说八道频率,并据此计算出幻觉率、事实一致性比率等关键指标。
这一工具主要解决了开发者与研究者在选型时缺乏客观、统一的事实准确性评估标准的难题。以往大家往往只关注模型的流畅度或推理能力,而忽视了其输出内容的真实可靠性。hallucination-leaderboard 提供了直观的数据对比,帮助用户识别哪些模型更值得信赖,从而降低因 AI 胡编乱造带来的业务风险。
它非常适合 AI 研究人员、大模型应用开发者以及需要高准确度信息处理的企业技术团队使用。无论是构建智能客服、新闻摘要系统还是法律文档分析工具,都能从中获得宝贵的参考数据。其独特之处在于采用了自动化的专业评估模型 HHEM 进行大规模测试,并承诺随模型迭代定期更新榜单,确保数据的时效性与权威性。对于追求高质量输出的普通用户而言,这也是一个了解不同模型“诚实度”的有趣窗口。
使用场景
某金融合规团队正在构建自动化的财报摘要系统,需要确保大模型生成的结论严格基于原始文档,绝不能出现虚构数据或事实错误。
没有 hallucination-leaderboard 时
- 选型盲目依赖名气:团队仅凭模型参数量或通用排行榜选择模型,误以为“越大越强”,结果选用了幻觉率高达 9% 的模型,导致摘要中频繁出现虚构的营收数字。
- 缺乏量化评估标准:内部测试全靠人工抽检,效率低下且主观性强,无法准确量化不同模型在“事实一致性”上的具体差距,难以向管理层汇报风险。
- 试错成本高昂:为了找到低幻觉模型,工程师不得不花费数周时间逐一部署和微调多个候选模型,严重拖慢了项目上线进度。
- 潜在合规风险不可控:由于无法预知模型在特定总结任务中的幻觉概率,系统上线后可能因生成误导性信息而引发监管处罚。
使用 hallucination-leaderboard 后
- 精准锁定低幻觉模型:团队直接查阅榜单,迅速发现
antgroup/finix_s1_32b的幻觉率仅为 1.8%,远低于其他热门模型,立即将其定为首选基座。 - 数据驱动决策透明:利用榜单提供的“事实一致性比率”和“平均摘要长度”等多维数据,团队用客观指标证明了选型合理性,轻松通过内部风控审核。
- 大幅缩短研发周期:无需再进行大规模的盲测,直接基于榜单前几名模型进行小规模验证,将模型筛选时间从数周压缩至两天。
- 显著降低业务风险:在开发初期就规避了高幻觉模型,从源头上保证了财报摘要的准确性,避免了后续因数据造假带来的法律纠纷。
hallucination-leaderboard 通过将抽象的“可信度”转化为可视化的量化指标,帮助企业在关键业务场景中快速甄选出最诚实可靠的 AI 模型。
运行环境要求
未说明
未说明

快速开始
幻觉排行榜
由 Vectara 的幻觉评估模型(HHEM)计算得出的公开大型语言模型排行榜。该模型用于评估大型语言模型在总结文档时引入幻觉的频率。随着我们的模型和各语言模型的不断更新,我们计划定期对本排行榜进行更新。
欢迎前往 Hugging Face 查看交互式幻觉排行榜。
如果您对本排行榜的早期版本感兴趣:
- 基于 HHEM-1.0 的第一个版本可在此处查看:HHEM-1.0 最终版
- 基于旧数据集的最新版本可在此处查看:HHEM-2.3 旧数据集版
|
深切缅怀 西蒙·马克·休斯…… |
最后更新日期:2026年3月20日

| 模型 | 幻觉率 | 事实一致性率 | 回答率 | 平均摘要长度(词数) |
|---|---|---|---|---|
| antgroup/finix_s1_32b | 1.8 % | 98.2 % | 99.5 % | 172.4 |
| openai/gpt-5.4-nano-2026-03-17 | 3.1 % | 96.9 % | 100.0 % | 144.4 |
| google/gemini-2.5-flash-lite | 3.3 % | 96.7 % | 99.5 % | 95.7 |
| microsoft/Phi-4 | 3.7 % | 96.3 % | 80.7 % | 120.9 |
| meta-llama/Llama-3.3-70B-Instruct-Turbo | 4.1 % | 95.9 % | 99.5 % | 64.6 |
| snowflake/snowflake-arctic-instruct | 4.3 % | 95.7 % | 62.7 % | 81.4 |
| google/gemma-3-12b-it | 4.4 % | 95.6 % | 97.4 % | 89.7 |
| mistralai/mistral-large-2411 | 4.5 % | 95.5 % | 99.9 % | 85.0 |
| qwen/qwen3-8b | 4.8 % | 95.2 % | 99.9 % | 83.6 |
| amazon/nova-pro-v1:0 | 5.1 % | 94.9 % | 99.3 % | 66.2 |
| amazon/nova-2-lite-v1:0 | 5.1 % | 94.9 % | 99.6 % | 94.1 |
| mistralai/mistral-small-2501 | 5.1 % | 94.9 % | 97.9 % | 98.8 |
| ibm-granite/granite-4.0-h-small | 5.2 % | 94.8 % | 100.0 % | 107.4 |
| ai21labs/jamba-mini-2 | 5.3 % | 94.7 % | 99.6 % | 109.4 |
| deepseek-ai/DeepSeek-V3.2-Exp | 5.3 % | 94.7 % | 96.6 % | 64.6 |
| qwen/qwen3-14b | 5.4 % | 94.6 % | 99.9 % | 111.1 |
| amazon/nova-micro-v1:0 | 5.5 % | 94.5 % | 100.0 % | 100.0 |
| deepseek-ai/DeepSeek-V3.1 | 5.5 % | 94.5 % | 94.5 % | 63.7 |
| openai/gpt-5.4-mini-2026-03-17 | 5.5 % | 94.5 % | 100.0 % | 54.7 |
| openai/gpt-4.1-2025-04-14 | 5.6 % | 94.4 % | 99.9 % | 91.7 |
| qwen/qwen3-4b | 5.7 % | 94.3 % | 99.9 % | 104.7 |
| xai-org/grok-3 | 5.8 % | 94.2 % | 93.0 % | 95.9 |
| qwen/qwen3-32b | 5.9 % | 94.1 % | 99.9 % | 115.8 |
| amazon/nova-lite-v1:0 | 6.1 % | 93.9 % | 99.9 % | 91.8 |
| deepseek-ai/DeepSeek-V3 | 6.1 % | 93.9 % | 97.5 % | 81.7 |
| deepseek-ai/DeepSeek-V3.2 | 6.3 % | 93.7 % | 92.6 % | 62.0 |
| google/gemma-3-4b-it | 6.4 % | 93.6 % | 67.3 % | 77.4 |
| CohereLabs/command-r-plus-08-2024 | 6.9 % | 93.1 % | 95.0 % | 91.5 |
| arcee-ai/trinity-large-preview | 6.9 % | 93.1 % | 99.0 % | 117.3 |
| openai/gpt-5.4-2026-03-05 | 7.0 % | 93.0 % | 99.9 % | 81.7 |
| google/gemini-2.5-pro | 7.0 % | 93.0 % | 99.1 % | 106.4 |
| mistralai/ministral-3b-2410 | 7.3 % | 92.7 % | 99.9 % | 167.9 |
| google/gemma-3-27b-it | 7.4 % | 92.6 % | 98.8 % | 96.4 |
| mistralai/ministral-8b-2410 | 7.4 % | 92.6 % | 99.9 % | 196.0 |
| meta-llama/Llama-4-Scout-17B-16E-Instruct | 7.7 % | 92.3 % | 99.0 % | 137.3 |
| google/gemini-2.5-flash | 7.8 % | 92.2 % | 99.0 % | 101.5 |
| meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | 8.2 % | 91.8 % | 100.0 % | 106.0 |
| google/gemini-3.1-flash-lite-preview | 8.2 % | 91.8 % | 99.6 % | 62.6 |
| openai/gpt-5.4-pro-2026-03-05 | 8.3 % | 91.7 % | 100.0 % | 148.5 |
| openai/gpt-5.2-low-2025-12-11 | 8.4 % | 91.6 % | 100.0 % | 126.5 |
| MiniMaxAI/minimax-m2p5 | 9.1 % | 90.9 % | 98.2 % | 137.2 |
| CohereLabs/command-a-03-2025 | 9.3 % | 90.7 % | 97.6 % | 101.7 |
| zai-org/GLM-4.5-AIR-FP8 | 9.3 % | 90.7 % | 98.1 % | 70.6 |
| qwen/qwen3-235b-a22b | 9.3 % | 90.7 % | 94.9 % | 105.6 |
| qwen/qwen3-next-80b-a3b-thinking | 9.3 % | 90.7 % | 94.4 % | 70.9 |
| zai-org/GLM-4.7-flash | 9.3 % | 90.7 % | 91.6 % | 71.8 |
| CohereLabs/c4ai-aya-expanse-8b | 9.5 % | 90.5 % | 77.5 % | 88.2 |
| zai-org/GLM-4.6 | 9.5 % | 90.5 % | 94.5 % | 77.2 |
| nvidia/Nemotron-3-Nano-30B-A3B | 9.6 % | 90.4 % | 99.6 % | 104.2 |
| openai/gpt-4o-2024-08-06 | 9.6 % | 90.4 % | 93.8 % | 86.6 |
| ai21labs/jamba-large-1.7-2025-07 | 9.7 % | 90.3 % | 98.9 % | 124.8 |
| anthropic/claude-haiku-4-5-20251001 | 9.8 % | 90.2 % | 99.5 % | 115.1 |
| zai-org/glm-5 | 10.1 % | 89.9 % | 99.7 % | 74.4 |
| anthropic/claude-sonnet-4-20250514 | 10.3 % | 89.7 % | 98.6 % | 145.8 |
| google/gemini-3.1-pro-preview | 10.4 % | 89.6 % | 99.4 % | 107.7 |
| qwen/qwen3.5-flash-2026-02-23 | 10.5 % | 89.5 % | 99.8 % | 95.0 |
| qwen/qwen3.5-35b-a3b | 10.5 % | 89.5 % | 99.8 % | 94.9 |
| openai/gpt-5-nano-2025-08-07 | 10.5 % | 89.5 % | 100.0 % | 105.7 |
| anthropic/claude-sonnet-4-6 | 10.6 % | 89.4 % | 99.9 % | 114.7 |
| ibm-granite/granite-3.3-8b-instruct | 10.6 % | 89.4 % | 100.0 % | 131.4 |
| qwen/qwen3.5-plus-2026-02-15 | 10.7 % | 89.3 % | 99.8 % | 92.1 |
| openai/gpt-5.2-high-2025-12-11 | 10.8 % | 89.2 % | 100.0 % | 186.3 |
| anthropic/claude-opus-4-5-20251101 | 10.9 % | 89.1 % | 98.7 % | 114.5 |
| CohereLabs/c4ai-aya-expanse-32b | 10.9 % | 89.1 % | 99.8 % | 112.7 |
| openai/gpt-5.1-low-2025-11-13 | 10.9 % | 89.1 % | 100.0 % | 165.5 |
| qwen/qwen3.5-122b-a10b | 11.2 % | 88.8 % | 99.8 % | 86.4 |
| deepseek-ai/DeepSeek-R1 | 11.3 % | 88.7 % | 97.0 % | 93.5 |
| zai-org/glm-4p7 | 11.7 % | 88.3 % | 99.8 % | 70.6 |
| anthropic/claude-opus-4-1-20250805 | 11.8 % | 88.2 % | 92.4 % | 129.1 |
| MiniMaxAI/minimax-m2p1 | 11.8 % | 88.2 % | 98.5 % | 106.9 |
| anthropic/claude-opus-4-20250514 | 12.0 % | 88.0 % | 91.0 % | 123.2 |
| anthropic/claude-sonnet-4-5-20250929 | 12.0 % | 88.0 % | 95.6 % | 127.8 |
| qwen/qwen3.5-27b | 12.1 % | 87.9 % | 99.8 % | 94.4 |
| openai/gpt-5.1-high-2025-11-13 | 12.1 % | 87.9 % | 100.0 % | 254.4 |
| anthropic/claude-opus-4-6 | 12.2 % | 87.8 % | 99.8 % | 137.6 |
| inceptionlabs/mercury-2 | 12.3 % | 87.7 % | 100.0 % | 149.1 |
| openai/gpt-5-mini-2025-08-07 | 12.9 % | 87.1 % | 99.9 % | 169.7 |
| google/gemini-3-flash-preview | 13.5 % | 86.5 % | 99.8 % | 90.2 |
| google/gemini-3-pro-preview | 13.6 % | 86.4 % | 99.4 % | 101.9 |
| moonshotai/Kimi-K2.5 | 14.2 % | 85.8 % | 92.2 % | 112.0 |
| openai/gpt-oss-120b | 14.2 % | 85.8 % | 99.9 % | 135.2 |
| mistralai/mistral-3-large-2512 | 14.5 % | 85.5 % | 98.8 % | 112.7 |
| ai21labs/jamba-mini-1.7-2025-07 | 14.7 % | 85.3 % | 99.1 % | 136.4 |
| openai/gpt-5-minimal-2025-08-07 | 14.7 % | 85.3 % | 99.9 % | 109.7 |
| openai/gpt-5-high-2025-08-07 | 15.1 % | 84.9 % | 99.9 % | 162.7 |
| xai-org/grok-4-1-fast-non-reasoning | 17.8 % | 82.2 % | 98.5 % | 87.5 |
| moonshotai/Kimi-K2-Instruct-0905 | 17.9 % | 82.1 % | 98.6 % | 59.2 |
| openai/o4-mini-low-2025-04-16 | 18.6 % | 81.4 % | 98.7 % | 130.9 |
| openai/o4-mini-high-2025-04-16 | 18.6 % | 81.4 % | 99.2 % | 127.7 |
| xai-org/grok-4-1-fast-reasoning | 19.2 % | 80.8 % | 99.7 % | 99.5 |
| mistralai/ministral-3-14b-2512 | 19.4 % | 80.6 % | 99.6 % | 135.8 |
| xai-org/grok-4-fast-non-reasoning | 19.7 % | 80.3 % | 99.2 % | 141.9 |
| xai-org/grok-4-fast-reasoning | 20.2 % | 79.8 % | 99.5 % | 173.9 |
| mistralai/ministral-3-8b-2512 | 21.7 % | 78.3 % | 99.1 % | 139.4 |
| mistralai/mistral-medium-2508 | 22.7 % | 77.3 % | 99.7 % | 142.9 |
| openai/o3-pro | 23.3 % | 76.7 % | 100.0 % | 127.4 |
| microsoft/Phi-4-mini-instruct | 23.5 % | 76.5 % | 92.5 % | 420.2 |
| mistralai/ministral-3-3b-2512 | 24.2 % | 75.8 % | 74.3 % | 119.4 |
模型
本排行榜使用 Vectara 的商用幻觉评估模型 HHEM-2.3 来计算大语言模型的排名。您可以在 Hugging Face 和 Kaggle 上找到该模型的开源版本 HHEM-2.1-Open。
数据集
本排行榜所使用的数据集经过精心 curated,具体如下:
- 不对外公开,以避免任何大语言模型过拟合。
- 包含来自新闻、科技、科学、医学、法律、体育、商业和教育等多种来源的超过 7700 篇文章。
- 文章涵盖低复杂度和高复杂度两种类型,字数从最短的 50 字到最长的 24,000 字不等。
前人研究
在这一领域已有大量前人研究。以下是该领域一些顶级论文(关于摘要中的事实一致性)的链接:
- SUMMAC:重新审视基于 NLI 的模型在摘要中检测不一致性的能力
- TRUE:重新评估事实一致性评估
- TrueTeacher:利用大型语言模型学习事实一致性评估
- ALIGNSCORE:通过统一对齐函数评估事实一致性
- MiniCheck:高效检查大语言模型在基础文档上的事实准确性
- TOFUEVAL:评估大语言模型在主题聚焦对话摘要中的幻觉现象
- RAGTruth:用于开发可信检索增强型语言模型的幻觉语料库
- FaithBench:现代大语言模型摘要任务中的多样化幻觉基准测试
如需更全面的列表,请参阅此链接:https://github.com/EdinburghNLP/awesome-hallucination-detection。以下章节中描述的方法采用了这些论文以及其他许多文献中确立的协议。
方法论
有关本模型研发工作的详细说明,请参阅我们的博客文章:
为构建本排行榜,我们将数据集中的所有文档输入到每个多语言模型中,并要求它们仅根据文档中提供的事实来总结每篇文章。随后,我们计算了每个模型的整体事实一致性率(即无幻觉率)以及幻觉率(100 减去准确率)。各模型拒绝回答提示的比例则记录在“回答率”列中。发送给模型的内容均不含非法或“不适合工作场所”的内容,但触发词的存在足以激活部分内容过滤器。我们在调用大语言模型时使用 温度为 0,除非无法实现或不可用。
我们评估的是摘要的事实一致性率,而非整体事实准确性,因为这样可以比较模型对所提供信息的响应是否一致。换句话说,生成的摘要是否与源文档“事实一致”。对于任何临时性问题,要判断是否存在幻觉是不可能的,因为我们并不清楚每个大语言模型究竟训练了哪些数据。此外,若要让模型在没有参考文本的情况下判断其回应是否包含幻觉,就相当于需要解决幻觉问题本身,而这很可能需要训练一个与被评估的大语言模型规模相当甚至更大的模型。因此,我们选择关注摘要任务中的幻觉率,以此作为衡量模型整体真实性的良好指标。
另外,大语言模型越来越多地应用于 RAG(检索增强生成)和代理式工作流中,用于回答用户查询,此时模型通常被部署为搜索结果的摘要生成器。因此,本排行榜也能很好地反映这些模型在 RAG 或代理系统中使用的准确性。
使用的提示
你的任务是为给定的文章提供简洁且基于事实的摘要。 规则
- 仅使用给定文章中的信息进行摘要,不得进行推断,也不得使用你自身的知识储备。
- 不得添加前言或解释,只需输出摘要。
- 摘要长度不得超过原文长度的 20%。
- 保持原文的语气。 如果因内容缺失、无法读取、无关或不足而无法完成摘要,请仅回复: “我无法总结本文。” 以下是文章: <PASSAGE>
在调用 API 时,<PASSAGE> 变量会被替换为相应的源文档。
API 集成详情
以下是已集成模型及其具体端点的详细概述:
Anthropic 模型
- Claude Sonnet 4、Claude Opus 4:分别使用
claude-sonnet-4-20250514和claude-opus-4-20250514调用模型。 - Claude Opus 4.1:使用
claude-opus-4-1-20250805调用模型。 - Claude Sonnet 4.5、Claude Haiku 4.5:分别使用
claude-haiku-4-5-20251001和claude-sonnet-4-5-20250929调用模型。 各模型的详细信息可在其 官网 查阅。
Cohere 模型
- Cohere Command R:使用模型
command-r-08-2024和/chat端点调用。 - Cohere Command R Plus:使用模型
command-r-plus-08-2024和/chat端点调用。 - Aya Expanse 8B、32B:分别使用模型
c4ai-aya-expanse-8b和c4ai-aya-expanse-32b访问。 - Cohere Command A:使用模型
command-a-03-2025和/chat端点调用。 有关 Cohere 模型的更多信息,请参阅其 官网。
DeepSeek 模型
- DeepSeek V3:通过 Hugging Face 推理服务提供商访问。
- DeepSeek V3.1:通过 Hugging Face 推理服务提供商访问。
- DeepSeek V3.2-Exp:通过 Hugging Face 推理服务提供商访问。
- DeepSeek R1:通过 Hugging Face 推理服务提供商访问。
Google 封闭源模型(通过 Vertex AI)
- Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemini 2.5 Flash Lite:分别使用模型
gemini-2.5-pro、gemini-2.5-flash和gemini-2.5-flash-lite在 Vertex AI 上访问。
如需深入了解各模型的版本和生命周期,尤其是 Google 提供的模型,请参阅 Vertex AI 上的 模型版本与生命周期 页面。
IBM 模型
- Granite-3.3-Instruct 8B:通过 Replicate API 访问模型。
- Granite-4.0-h-small:通过 Replicate API 访问模型。
Llama 模型
- Llama 3.3 70B Instruct Turbo:通过 Together AI 访问。
- Llama 4 Maverick 17B 128E Instruct FP8:通过 Together AI 访问。
- Llama 4 Scout 17B 16E Instruct:通过 Together AI 访问。
微软模型
- Microsoft Phi-4/Phi-4-Mini:phi-4 和 phi-4-mini 通过 Azure 访问。
Mistral AI 模型
- Mistral Ministral 3B:通过 Mistral AI 的 API,使用模型
ministral-3b-2410访问。 - Mistral Ministral 8B:通过 Mistral AI 的 API,使用模型
ministral-8b-2410访问。 - Mistral Large:通过 Mistral AI 的 API,使用模型
mistral-large-2411访问。 - Mistral Medium:通过 Mistral AI 的 API,使用模型
mistral-large-2508访问。 - Mistral Small:通过 Mistral AI 的 API,使用模型
mistral-small-2501访问。
Moonshot AI 模型
- Kimi-K2-Instruct-0905:通过 Moonshot AI API 访问。
OpenAI 模型
- GPT-4.1 2025-04-14:通过 OpenAI API 访问。
- GPT-4o 2024-08-06:通过 OpenAI API 访问。
- GPT-5-High 2025-08-07:通过 OpenAI API 访问。
- GPT-5-Mini 2025-08-07:通过 OpenAI API 访问。
- GPT-5-Minimal 2025-08-07:通过 OpenAI API 访问。
- GPT-5-Nano 2025-08-07:通过 OpenAI API 访问。
- GPT-OSS-120B:通过 Together AI API 访问。
- o3-Pro:通过 OpenAI API 访问。
- o4-Mini-High 2025-04-16:通过 OpenAI API 访问。
- o4-Mini-Low 2025-04-16:通过 OpenAI API 访问。
通义千问模型
- Qwen3-4b、Qwen3-8b、Qwen3-14b、Qwen3-32b:通过 DashScope API 访问。
- Qwen3-80b-a3b-thinking:通过 DashScope API 访问。
Snowflake 模型
- Snowflake-Arctic-Instruct:该模型通过 Replicate API 访问。
xAI 模型
- Grok-3:通过 xAI 的 API 访问。
- Grok-4-Fast-Reasoning:通过 xAI 的 API 访问。
- Grok-4-Fast-Non-Reasoning:通过 xAI 的 API 访问。
百川智能模型
- GLM-4.5-AIR-FP8:通过 Together AI 访问。
- GLM-4.6:通过 Deepinfra 访问。
常见问题解答
问 为什么你们要用一个模型来评估另一个模型?
答 我们选择这种方法而非人工评估,主要有以下几个原因。虽然我们本可以通过众包方式进行大规模的人工评估,但这种评估是一次性的,无法随着新API的上线或模型的更新而持续更新排行榜。由于我们所处的领域发展迅速,任何此类流程在发布后很快就会过时。其次,我们希望有一个可重复的过程,可以与他人共享,以便他们在评估自身模型时将其作为众多LLM质量评分之一使用。而人工标注过程则无法做到这一点,因为能够共享的只有流程和人工标注结果。此外,值得注意的是,构建用于检测幻觉的模型,比构建一个完全不会产生幻觉的生成式模型要容易得多。只要幻觉评估模型与人类评价者的判断高度相关,它就可以很好地替代人类评价者。由于我们的目标是摘要生成任务,而非通用的“闭卷”问答任务,因此我们训练的LLM并不需要记住大量人类知识,只需对其支持的语言(目前仅限英语,但我们计划逐步扩展语言覆盖范围)有扎实的理解即可。
问 如果LLM拒绝总结文档,或者只给出一两个词的回答,该怎么办?
答 我们会明确地将这些情况过滤掉。更多信息请参阅我们的博客文章。您可以在排行榜中看到“回答率”列,显示已成功总结的文档比例;以及“平均摘要长度”列,详细列出摘要的长度,这表明大多数文档并没有得到非常简短的答案。
问 你们使用了XYZ模型的哪个版本?
答 请查看API详情部分,了解所使用的模型版本及其调用方式,以及排行榜的最后更新日期。如果您需要更多说明,请联系我们(在仓库中创建一个问题)。
问 模型难道不能通过不提供答案或只提供极短的答案来获得100%的分数吗?
答 我们已经明确地从所有模型的结果中过滤掉了这类响应,最终的评估仅针对所有模型都提供了摘要的文档进行。更多技术细节请参阅我们的博客文章。同时也可以参考上表中的“回答率”和“平均摘要长度”列。
问 那么,一个仅仅从原文复制粘贴内容的抽取式摘要模型,在这项任务中不是也能得到100分(无幻觉)吗?
答 当然可以,因为根据定义,这种模型确实不会产生幻觉,并且能够提供忠实的摘要。但我们并不声称是在评估摘要的质量,那是一个独立且正交的任务,应该单独进行评估。我们并非在评估摘要的质量,而只是评估其事实一致性,这一点我们在博客文章中也已明确指出。
问 这种指标似乎很容易被“破解”,比如直接把原文当作摘要提交不就行了吗?
答 确实如此,但我们并不是在这种方法上评估任意模型,例如像Kaggle竞赛那样。任何采用这种方式的模型,在您关心的其他任务中都会表现不佳。因此,我认为这个指标应该与其他针对您模型的评估一起使用,比如摘要质量、问答准确率等。不过,我们并不建议将其作为唯一的评估指标。所有入选的模型都没有基于我们的模型输出进行训练。未来可能会出现这种情况,但由于我们计划不断更新模型和源文档,使排行榜保持动态更新,这种情况不太可能发生。当然,这也是所有LLM基准测试面临的问题。此外,这一方法建立在大量关于事实一致性的研究基础之上,许多学者已经发明并完善了这一评估协议。请参阅我们在博客文章中引用的SummaC和True论文,以及这份优秀的资源汇总——https://github.com/EdinburghNLP/awesome-hallucination-detection,以获取更多信息。
问 这个指标并不能全面衡量模型产生幻觉的所有方式。
答 我们同意这一点。我们并不声称已经解决了幻觉检测的问题,未来还将继续扩展和改进这一方法。但我们相信,这确实是朝着正确方向迈出的一步,为所有人提供了一个亟需的起点,供大家在此基础上进一步发展。
问 有些模型可能只在摘要生成时才会产生幻觉。那么,您们能否直接给它一份广为人知的事实清单,然后检查它回忆这些事实的能力呢?
答 在我看来,这样的测试并不理想。首先,除非您亲自训练过该模型,否则您并不清楚它所使用的训练数据,也就无法确定它的回答是否基于真实见过的数据,还是纯粹的猜测。此外,“广为人知”的标准本身也不明确,而且这类数据通常很容易被大多数模型准确回忆出来。根据我个人的主观经验,大多数幻觉往往出现在模型提取那些极少被提及或讨论的信息,或者面对相互矛盾的事实时。如果不知道模型的训练数据来源,就无法验证这些幻觉的真实性,因为您根本无法判断哪些数据符合这一标准。另外,我也认为模型不太可能只在摘要生成时才产生幻觉。我们要求模型对信息进行加工处理,同时保持与原文的一致性。这类似于许多非摘要类的生成任务(例如,围绕这些要点写一封邮件……)。如果模型偏离了指令,那就意味着它未能遵循指示,这也表明它在其他遵循指令的任务中也会遇到困难。
问 这只是一个良好的开端,但远未达到最终目的。
答 我们同意这一点。还有很多工作要做,这个问题远未解决。但“良好的开端”意味着我们有望在这个领域取得进展。通过开源该模型,我们希望能够吸引社区参与进来,共同推动这一领域的进步。
其他资源
- 请查看我们的 Open-RAG-Eval:一个开源的 RAG 评估框架,它使用 HHEM,同时还提供检索、事实一致性和引用等方面的指标。
- 请了解 HHEM 模型的商业版本(参见 API 文档),该版本具有更好的检测性能,并支持多种语言。
- 如需了解更多关于 Vectara 的信息或安排演示,请在此 联系我们。

相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器