scitldr

758 87 较难 1 次阅读 3天前Apache-2.0语言模型其他

AI 解读由 AI 自动生成，仅供参考

SciTLDR 是由艾伦人工智能研究所（AI2）开源的科研文档极端摘要工具，旨在将冗长的学术论文浓缩为简短易懂的“一句话总结”（TL;DR）。它主要解决了科研人员面对海量文献时难以快速抓取核心贡献的痛点，通过自动化生成精炼摘要，大幅提升了文献阅读与筛选的效率。

该项目不仅提供了高质量的 SciTLDR 数据集，还发布了基于 Fairseq 框架训练的多种预模型权重（包括 CATTs 和 BART 架构），支持用户直接进行推理或微调。其技术亮点在于引入了控制代码机制，能够灵活适应不同长度和风格的摘要需求，并在极端压缩文本的同时保持关键信息的准确性。

SciTLDR 非常适合自然语言处理领域的研究人员、开发者以及需要高效处理大量学术资料的科技工作者使用。对于希望探索科学文档摘要算法的研究者，它提供了完整的训练与评估代码；而对于应用开发者，预训练模型可轻松集成到文献检索或知识管理系统中。普通用户虽不直接参与开发，也能间接受益于基于此技术构建的智能阅读辅助工具。

使用场景

某高校科研团队正在追踪人工智能领域的最新进展，需要每天快速筛选并理解数十篇新发布的学术论文。

没有 scitldr 时

研究人员必须通读每篇论文的摘要甚至全文，单篇耗时超过 30 分钟，效率极低。
面对海量文献，难以快速判断哪些文章与当前课题高度相关，容易遗漏关键信息。
人工提取核心贡献时主观性强，不同成员对同一篇文章的总结重点往往不一致。
团队内部共享文献笔记时，缺乏统一标准的简短概述，沟通成本高昂。
长期高强度阅读导致认知疲劳，严重影响深度思考和创新灵感的产生。

使用 scitldr 后

利用 scitldr 的“极端摘要”功能，一键将长篇论文压缩为一句核心结论，单篇处理缩短至秒级。
通过生成的标准化 TL;DR（太长不看）语句，迅速扫描几十篇文档，精准锁定高价值论文。
模型基于科学语料训练，能客观提取作者原意中的核心贡献，消除人工总结的偏差。
团队直接复用 scitldr 生成的简洁摘要作为文献库索引，大幅降低内部同步与讨论门槛。
研究人员从繁琐的初筛工作中解放出来，将宝贵精力集中于实验设计与理论突破。

scitldr 通过将冗长的科学文档转化为极简的核心洞察，彻底重构了科研人员的文献消费流程。

运行环境要求

操作系统

未说明

GPU

未说明（基于 Fairseq 框架，通常训练需要 GPU，但 README 未明确具体型号或显存要求）

内存

未说明

依赖

notes该工具依赖 Fairseq 框架进行训练和评估，需手动克隆并安装 Fairseq 仓库。评估阶段必须额外安装 files2rouge 工具。README 中未提供具体的 Python 版本、CUDA 版本或硬件配置要求，也未列出具体的 requirements.txt 内容清单。数据预处理需要运行 shell 脚本进行 BPE 处理。

python未说明

fairseq

files2rouge

快速开始

SciTLDR

此仓库包含我们论文《TLDR：科学文献的极简摘要》（arXiv:2004.15011）所使用的数据集、模型权重及生成代码。

数据集

SciTLDR 数据集按 60/20/20 的比例划分为训练集、验证集和测试集。每个文件中，每行是一个 JSON 格式的数据，其结构如下：

{
   "source":[
      "sent0",
      "sent1",
      "sent2",
      ...
   ],
   "source_labels":[二值列表，其中 1 表示黄金标准句子],
   "rouge_scores":[预计算的 ROUGE-1 分数],
   "paper_id":"PAPER-ID",
   "target":[
     "author-tldr",
      "pr-tldr0", 
      "pr-tldr1",
      ... 
   ],
   "title":"TITLE"
}

rouge_scores 和 source_labels 键并非运行代码所必需，但我们提供了预计算的 ROUGE 分数，以促进后续研究。

环境要求

我们使用 Fairseq 来训练和评估我们的模型。安装 Fairseq 的步骤如下：

git clone fairseq repo # TODO：确定如何使用特定版本
cd fairseq
pip install --editable .

安装其他所有依赖项，请运行：

pip install -r requirements.txt

在进行评估时，您需要 files2rouge 工具。请按照此处的说明进行安装。

模型权重

catts.tldr-ao

catts.tldr-aic

catts-xsum.tldr-ao

catts-xsum.tldr-aic

数据预处理

为了将数据格式化为 Fairseq 库所需的格式，请执行以下命令：

cd SciTLDR-Data
export TASK=SciTLDR-A # 可选 {A, AIC, FullText}
chmod +x make_datafiles.sh
./make_datafiles.sh # BPE 预处理

$TASK/ctrl 目录下包含了使用控制符格式化的数据集。

文本生成

该代码接收一个 test.source 文件，其中每行是一条输入，并输出一个包含预测结果的 test.hypo 文件。有关各版本模型的最佳解码器参数，请参阅 decoder_params。

python scripts/generate.py /path/to/modeldir/ SciTLDR-Data/SciTLDR-A/ctrl ./ --beam 2 --lenpen 0.4 --test_fname test.hypo

评估

此脚本是 ROUGE 的封装工具，它接收一个 test.hypo 文件，并将其与 test.jsonl 文件进行对比。

python scripts/cal-rouge.py /path/to/test.hypo SciTLDR-Data/SciTLDR-A/test.jsonl --workers 1

引用

如果您在研究中使用了我们的代码、数据集或模型权重，请引用论文《TLDR：科学文献的极简摘要》。

@article{cachola2020tldr,
  title={{TLDR}: Extreme Summarization of Scientific Documents},
  author={Isabel Cachola and Kyle Lo and Arman Cohan and Daniel S. Weld},
  journal={arXiv:2004.15011},
  year={2020},
}

SciTLDR 是由艾伦人工智能研究所 (AI2) 开发的开源项目。AI2 是一家非营利性研究机构，其使命是通过具有重大影响力的 AI 研究与工程为人类社会做出贡献。

SciTLDR 快速上手指南

SciTLDR 是一个用于科学文档“极端摘要”（Extreme Summarization）的开源项目，由艾伦人工智能研究所（AI2）开发。它能够将长篇科学论文压缩为简短的 TL;DR（太长不看）摘要。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux 或 macOS（Windows 用户建议使用 WSL2 或 Docker）
Python 版本：推荐 Python 3.7+
依赖工具：
- Fairseq：用于模型训练和推理的核心框架。
- files2rouge：用于评估生成摘要的质量（ROUGE 指标）。
- PyTorch：Fairseq 的基础依赖。

提示：国内开发者在安装 pip 依赖时，建议指定清华或阿里镜像源以加速下载： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

1. 安装 Fairseq

首先克隆 Fairseq 仓库并进行可编辑安装：

git clone https://github.com/pytorch/fairseq.git
cd fairseq
pip install --editable .

2. 安装其他依赖

返回项目根目录（假设已克隆 SciTLDR 代码），安装其余所需包：

pip install -r requirements.txt

3. 安装评估工具 (files2rouge)

为了运行评估脚本，需要单独安装 files2rouge。请遵循其官方安装说明： https://github.com/pltrdy/files2rouge

4. 下载模型权重

根据需求下载预训练模型权重（例如 BART 模型）：

# 示例：下载 bart.tldr-ao.pt
wget https://storage.cloud.google.com/skiff-models/scitldr/bart.tldr-ao.pt
# 将下载的 .pt 文件放置在指定的模型目录中

基本使用

1. 数据预处理

在使用 Fairseq 进行推理前，需将数据转换为特定格式。进入数据目录并运行预处理脚本：

cd SciTLDR-Data
export TASK=SciTLDR-A # 可选值：{A, AIC, FullText}
chmod +x make_datafiles.sh
./make_datafiles.sh

执行后，$TASK/ctrl 目录下将生成包含控制代码的处理后数据集。

2. 生成摘要

使用预训练模型对测试集进行摘要生成。以下命令读取 test.source 并输出预测结果到 test.hypo：

python scripts/generate.py /path/to/modeldir/ SciTLDR-Data/SciTLDR-A/ctrl ./ --beam 2 --lenpen 0.4 --test_fname test.hypo

注意：请将 /path/to/modeldir/ 替换为您存放 .pt 模型文件的实际路径。

3. 评估结果

使用 ROUGE 指标评估生成的摘要质量。该脚本对比预测文件 (test.hypo) 和真实标签文件 (test.jsonl)：

python scripts/cal-rouge.py /path/to/test.hypo SciTLDR-Data/SciTLDR-A/test.jsonl --workers 1

常见问题

使用 requirements.txt 创建 conda 环境时提示找不到包（如 pprint, torch, fairseq 等）怎么办？

使用 SCITLDRAIC 数据集训练时，如何处理 1500 个 token 的长度限制？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|5天前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|6天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|2天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|2天前

其他图像数据工具