long-form-factuality
long-form-factuality 是谷歌 DeepMind 开源的一套评估框架,旨在解决大语言模型在生成长篇内容时事实准确性难以量化衡量的难题。以往的评价标准多针对简短回答,而面对文章、报告等长文本,模型容易产生“幻觉”或事实错误,且缺乏自动化的精准评估手段。
该工具核心包含两大组件:LongFact 数据集与 SAFE 评估器。LongFact 提供了 2,280 个需要长篇作答的事实类提示词,覆盖广泛的知识领域;SAFE(搜索增强事实性评估器)则创新地结合外部搜索技术,自动验证模型生成内容中的每一个事实主张。此外,项目还提出了 F1@K 指标,将传统 F1 分数扩展至长文本场景,兼顾了回答的完整性与准确性。
这套工具特别适合 AI 研究人员、大模型开发者以及从事自然语言处理评估的专业人士使用。通过内置的完整实验流水线,用户可以便捷地对 OpenAI、Anthropic 等主流模型进行基准测试,无需从头构建评估体系。long-form-factuality 以严谨的学术标准为基石,为提升大模型在复杂任务中的可信度提供了强有力的技术支撑,是推动长文本生成技术走向成熟的重要基础设施。
使用场景
某科技媒体的内容团队正在利用大语言模型批量生成深度行业分析报告,需要确保长篇内容中的事实准确无误。
没有 long-form-factuality 时
- 评估标准缺失:传统的简短问答评测指标无法衡量长篇文章的整体事实密度,导致高质量长文被误判或低质冗长内容被漏放。
- 人工核查成本高:编辑团队需逐字核对模型生成的数千字报告,耗时耗力且难以覆盖所有数据点,严重拖慢发布节奏。
- 幻觉难以量化:模型在长上下文中产生的细微“幻觉”(如编造不存在的公司财报数据)缺乏自动化工具进行系统性捕捉和打分。
- 优化方向模糊:开发者无法得知模型是在“遗漏关键信息”还是“胡乱填充字数”,缺乏像 F1@K 这样结合长度与召回率的明确优化目标。
使用 long-form-factuality 后
- 引入专业基准:直接调用 LongFact 数据集的 2,280 个专业提示词,模拟真实复杂的长文写作场景,建立统一的评测标尺。
- 自动化事实审计:部署 SAFE(搜索增强事实评估器),自动联网检索并验证生成内容中的每一个事实主张,将数小时的人工核查缩短为分钟级自动报告。
- 精准定位幻觉:系统能精确识别并标记出长文中具体的事实错误段落,帮助团队快速定位模型在哪些领域容易“胡编乱造”。
- 科学指导调优:利用 F1@K 指标平衡文章长度与信息密度,指导团队调整提示词策略,在保证内容详实的同时大幅降低冗余和错误率。
long-form-factuality 通过将模糊的“长文质量”转化为可量化、可自动验证的事实指标,让大模型在深度内容创作中真正变得可信可用。
运行环境要求
- 未说明
未说明
未说明

快速开始
大型语言模型中的长文本事实性
这是与我们的论文《大型语言模型中的长文本事实性》(https://arxiv.org/abs/2403.18802)配套的官方代码发布。 本仓库包含:
- LongFact:一个包含2,280个寻求事实性信息的提示集合,要求模型生成长文本回答。
- 搜索增强的事实性评估器 (SAFE):用于在长文本事实性场景下自动评估模型输出。
- F1@K:基于人类偏好长度的召回率,将F1分数扩展到长文本场景。
- 实验流水线,用于使用LongFact + SAFE对OpenAI和Anthropic的模型进行基准测试。
安装
首先,克隆我们的GitHub仓库。
git clone https://github.com/google-deepmind/long-form-factuality.git
然后进入新创建的文件夹:
cd long-form-factuality
接下来,使用conda创建一个新的Python 3.10+环境。
conda create --name longfact python=3.10
激活新创建的环境:
conda activate longfact
所有外部依赖包都列在requirements.txt中。要安装所有包,请运行以下命令:
pip install -r requirements.txt
使用说明
LongFact
完整的LongFact提示集位于longfact/文件夹中。
有关数据集的更多详细信息,请参阅longfact/README.md。
要运行我们用于生成LongFact的数据生成流水线,请使用以下命令:
有关数据生成流水线的更多信息,请参阅data_creation/README.md。
python -m data_creation.pipeline
SAFE
SAFE的完整实现位于eval/safe/目录中。
有关SAFE工作原理的更多信息,请参阅eval/safe/README.md。
要运行评估SAFE与FActScore人工标注之间相关性的流水线,请使用以下命令:
有关该实验的更多信息,请参阅eval/README.md。
python -m eval.correlation_vs_factscore
模型基准测试
要对OpenAI和Anthropic的模型进行基准测试,首先需要将您的API密钥添加到common/shared_config.py中(有关更多信息,请参阅common/README.md;请务必不要公开这些密钥)。
要获取给定提示集的模型响应,请使用以下命令:
有关我们主要实验流水线的更多信息,请参阅main/README.md。
python -m main.pipeline
接下来,要使用SAFE评估我们主要实验流水线中的提示-响应对,请使用以下命令,并确保将包含待评估提示-响应对的.json文件路径添加到--result_path参数中:
python -m eval.run_eval \
--result_path=
单元测试
本目录中的每个文件都有一个对应的单元测试文件,文件名以_test结尾(例如,file.py对应file_test.py)。各个测试的具体运行命令已在单元测试文件中给出。
要运行所有单元测试,请使用以下命令:
python -m unittest discover -s ./ -p "*_test.py"
引用本工作
如果您觉得我们的代码有用,请引用我们的论文(https://arxiv.org/abs/2403.18802):
@misc{wei2024long,
title={大型语言模型中的长文本事实性},
author={Wei, Jerry and Yang, Chengrun and Song, Xinying and Lu, Yifeng and Hu, Nathan and Huang, Jie and Tran, Dustin and Peng, Daiyi and Liu, Ruibo and Huang, Da and Du, Cosmo and Le, Quoc V.},
year={2024},
url={https://arxiv.org/abs/2403.18802},
}
许可与免责声明
版权所有 © 2024 DeepMind Technologies Limited
所有软件均采用Apache许可证2.0版(Apache 2.0)授权;除非符合Apache 2.0许可条款,否则不得使用本文件。您可以在以下网址获取Apache 2.0许可的副本: https://www.apache.org/licenses/LICENSE-2.0
所有其他材料均采用知识共享署名4.0国际许可(CC-BY)授权。您可以在以下网址获取CC-BY许可的副本: https://creativecommons.org/licenses/by/4.0/legalcode
除非适用法律另有规定或双方另有书面约定,否则在此处根据Apache 2.0或CC-BY许可分发的所有软件和材料均按“现状”提供,不提供任何形式的明示或暗示的保证或条件。具体的权利和限制由相应许可协议的语言条款决定。
本项目并非Google官方产品。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。