pointer-generator

GitHub
2.2k 804 中等 5 次阅读 2天前NOASSERTION语言模型
AI 解读 由 AI 自动生成,仅供参考

pointer-generator 是 ACL 2017 论文《Get To The Point: Summarization with Pointer-Generator Networks》的官方代码实现,专注于神经文本摘要任务。它主要解决了传统序列到序列模型在生成摘要时,难以准确处理原文中罕见词或未登录词的问题。通过创新地结合指针网络与生成器,pointer-generator 能够在生成新词的同时直接从源文本复制关键信息,显著提升了摘要的忠实度和可读性。

这款代码适合自然语言处理领域的研究人员和开发者使用,尤其是希望复现经典论文结果或深入探究摘要模型架构的人群。技术亮点在于其指针 - 生成器网络架构及注意力机制的应用。需要注意的是,pointer-generator 基于较旧的 TensorFlow 版本和 Python 2 开发,目前已不再主动维护,但社区提供了适配新环境的分支版本。使用者需自行准备 CNN/Daily Mail 数据集即可开始训练和测试。

使用场景

某新闻聚合平台的 NLP 团队正在构建自动摘要系统,旨在将长篇时政新闻快速压缩为精准的简短导语,以提升用户阅读效率。

没有 pointer-generator 时

  • 传统 Seq2Seq 模型遭遇未登录词(OOV)瓶颈,罕见的人名、地名常被强制替换为 <UNK> 标记,信息丢失严重。
  • 模型纯粹依靠词汇表生成内容,面对具体数字或专有名词时容易产生“幻觉”,导致事实性错误频发。
  • 摘要往往过于泛化,无法忠实还原原文关键细节,编辑人员需要花费大量时间人工校对修正。

使用 pointer-generator 后

  • pointer-generator 引入指针机制,允许模型直接从原文复制未登录词,确保关键实体完整保留。
  • 生成模式与复制模式动态切换,显著降低了数字、日期及专有名词的转录错误,事实准确性大幅提升。
  • 注意力机制与指针网络结合,使摘要更聚焦原文重点,减少了人工校对成本,自动化流程得以顺畅运行。

核心价值在于通过复制机制解决了传统生成式摘要中事实准确性差和未登录词丢失的难题,让机器摘要更可信。

运行环境要求

操作系统
  • 未说明
GPU

未说明 (基于 TensorFlow 1.0,通常需 CUDA 支持)

内存

未说明

依赖
notes代码已不再积极维护。官方代码基于 Python 2,如需 Python 3 请使用第三方 fork。评估功能依赖 Perl ROUGE 包,需单独安装配置。训练过程中可能出现 NaN 错误,建议保留旧检查点或使用调试模式。需自行下载 CNN/Daily Mail 数据集并按要求预处理为 bin 文件。预训练模型可用但与论文报告结果略有差异。
python2.7 (官方代码), 3.x (需使用 fork 版本)
tensorflow>=1.0
pyrouge
Perl ROUGE
pointer-generator hero image

快速开始

注意:此代码不再积极维护。不过,欢迎使用 Issues (问题区) 部分与其他用户讨论代码。一些用户已更新此代码以适配较新版本的 Tensorflow (深度学习框架) 和 Python (编程语言) - 请参阅以下信息和 Issues 部分。


本仓库包含 ACL 2017 论文 Get To The Point: Summarization with Pointer-Generator Networks 的代码。如需直观了解该论文,请阅读 博客文章

寻找测试集输出?

论文中描述的模型的 test set (测试集) 输出可以在 这里 找到。

寻找预训练模型?

一个 pretrained model (预训练模型) 在此可用:

(这两者之间的唯一区别在于 checkpoint (检查点) 中某些变量的命名。Tensorflow 1.0 使用 lstm_cell/biaseslstm_cell/weights,而 Tensorflow 1.2.1 使用 lstm_cell/biaslstm_cell/kernel)。

注意:此 pretrained model (预训练模型) 与论文中报告的模型不完全相同。也就是说,它具有相同的 architecture (架构),使用相同的设置进行训练,但来自不同的训练运行。因此,此 pretrained model (预训练模型) 的 ROUGE (文本评估指标) 评分略低于论文中报告的评分。这可能是由于我们在原始实验中略微 overfit (过拟合) 了随机性(在原始实验中,我们尝试了各种 hyperparameter (超参数) 设置并选择了表现最佳的模型)。使用相同设置重复实验一次的表现不如前者。进一步的 hyperparameter (超参数) 调优可能会获得更好的结果。

为什么不能发布论文中报告的训练模型? 由于原始实验和代码发布之间代码发生了变化(例如 TensorFlow 版本更改、大量代码清理),无法发布原始训练模型文件。

寻找 CNN / Daily Mail 数据?

说明在 这里

关于此代码

此代码基于 Google Brain 的 TextSum 代码

此代码是为 Tensorflow 0.12 开发的,但已更新为可在 Tensorflow 1.0 上运行。 特别是,attention_decoder.py 中的代码基于 tf.contrib.legacy_seq2seq_attention_decoder,该接口现已过时。 Tensorflow 1.0 的 新 seq2seq (序列到序列模型) 库 未来可能会提供一种更优雅和高效的方式来实现此功能(以及 beam search (束搜索))。

Python 3 版本:此代码使用 Python 2。如果您想要 Python 3 版本,请参阅 @becxer 的 fork (代码分支)

如何运行

获取 dataset (数据集)

要获取 CNN / Daily Mail dataset (数据集),请遵循 这里 的说明。完成后,您应该拥有 chunked (分块) 数据文件 train_000.bin, ..., train_287.bin, val_000.bin, ..., val_013.bin, test_000.bin, ..., test_011.bin(每个包含 1000 个示例)和一个 vocabulary (词汇表) 文件 vocab

注意:如果您是在 2017 年 5 月 7 日之前完成的,请遵循 这里 的说明以纠正过程中的一个 bug (错误)。

运行训练

要训练您的模型,运行:

python run_summarization.py --mode=train --data_path=/path/to/chunked/train_* --vocab_path=/path/to/vocab --log_root=/path/to/a/log/directory --exp_name=myexperiment

这将在您指定的 log_root 下创建一个名为 myexperiment 的子目录,所有 checkpoints (检查点) 和其他数据将保存在此处。然后模型将开始使用 train_*.bin 文件作为训练数据进行训练。

警告:使用上述命令中的默认设置,初始化模型和运行 training iterations (训练迭代) 可能都会相当慢。为了加快速度,尝试将以下 flags (标志参数)(尤其是 max_enc_stepsmax_dec_steps)设置为比 run_summarization.py 中指定的默认值更小的值:hidden_dim, emb_dim, batch_size, max_enc_steps, max_dec_steps, vocab_size

在训练期间增加 sequence length (序列长度):请注意,为了获得论文中描述的结果,我们在整个训练过程中分阶段增加 max_enc_stepsmax_dec_steps 的值(主要是为了在训练的早期阶段执行更快的迭代)。如果您也想这样做,请从较小的 max_enc_stepsmax_dec_steps 值开始,然后在想要增加它们时中断并重新启动任务并使用较大的值。

运行(并发)eval (评估)

您可能希望运行一个并发 evaluation (评估) 任务,该任务在 validation set (验证集) 上运行您的模型并记录 loss (损失)。为此,运行:

python run_summarization.py --mode=eval --data_path=/path/to/chunked/val_* --vocab_path=/path/to/vocab --log_root=/path/to/a/log/directory --exp_name=myexperiment

注意:您应该使用与训练任务相同的设置运行上述命令。

恢复 snapshots (快照):评估任务会保存迄今为止在验证数据上获得最低 loss (损失) 的模型 snapshot (快照)。您可能希望恢复这些“最佳模型”中的一个,例如,如果您的训练任务已 overfit (过拟合),或者如果训练 checkpoint 因 NaN (非数字) 值而损坏。为此,运行您的训练命令并加上 --restore_best_model=1 flag (标志)。这会将评估目录中的最佳模型复制到训练目录。然后再次运行通常的训练命令。

运行束搜索解码 (Beam Search Decoding)

要运行束搜索解码:

python run_summarization.py --mode=decode --data_path=/path/to/chunked/val_* --vocab_path=/path/to/vocab --log_root=/path/to/a/log/directory --exp_name=myexperiment

注意:你需要使用与训练任务相同的设置来运行上述命令(加上任何解码模式特定的标志,如 beam_size)。

这将反复从指定的数据文件中加载随机示例,并使用束搜索生成摘要。结果将打印至屏幕。

可视化你的输出:此外,解码任务会生成一个名为 attn_vis_data.json 的文件。该文件提供了浏览器内可视化工具所需的数据,允许你查看投射到文本上的注意力分布 (attention distributions)。要使用可视化器,请遵循 此处 的说明。

如果你想在整个验证集或测试集上运行评估并获取 ROUGE 分数,请设置标志 single_pass=1。这将按顺序遍历整个数据集,将生成的摘要写入文件,然后使用 pyrouge 运行评估。(注意,这 不会 为注意力可视化器生成 attn_vis_data.json 文件)。

使用 ROUGE 评估

decode.py 使用 Python 包 pyrouge 来运行 ROUGE 评估。pyrouge 为官方 Perl ROUGE 包提供了更易用的接口,你必须安装该包才能使 pyrouge 工作。以下是一些关于如何操作的有用说明:

注意: 截至 2017 年 5 月 18 日,官方 Perl 包的 网站 似乎已下线。不幸的是,你需要从那里下载一个名为 ROUGE-1.5.5 的目录。作为替代方案,似乎你可以从 此处 获取该目录(但是,该仓库中的 pyrouge 版本似乎已过时,所以最好从 官方来源 安装 pyrouge)。

Tensorboard

从实验目录运行 Tensorboard(在上面的示例中为 myexperiment)。你应该能够看到来自训练和评估运行的数据。如果你选择"embeddings",还应该看到你的词嵌入 (word embeddings) 可视化。

帮助,我遇到了 NaNs (非数字)!

由于 难以诊断 的原因,NaNs 有时会在训练期间发生,导致 loss=NaN,有时还会用 NaN 值损坏模型检查点 (model checkpoint),使其无法使用。以下是一些建议:

  • 如果训练因 Loss is not finite. Stopping. 异常而停止,你可以尝试重新启动。检查点可能并未损坏。
  • 你可以使用 inspect_checkpoint.py 脚本检查你的检查点是否已损坏。如果它显示所有值都是有限的,那么你的检查点是正常的,你可以尝试用它恢复训练。
  • 训练任务设置为任何时候保留 3 个检查点(参见 run_summarization.py 中的 max_to_keep 变量)。如果你的较新检查点已损坏,可能是较旧的其中一个并未损坏。你可以通过编辑 train 目录内的 checkpoint 文件切换到该检查点。
  • 或者,你可以从 eval 目录恢复一个“最佳模型”。请参阅上方的 恢复快照 (Restoring snapshots) 说明。
  • 如果你想尝试诊断 NaNs 的原因,可以开启 --debug=1 标志运行。这将运行 Tensorflow Debugger,它在训练期间检查 NaNs 并诊断其原因。

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。

70.6k|★★★☆☆|今天
语言模型Agent开发框架