CSL

GitHub
665 61 非常简单 1 次阅读 1周前数据工具语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

CSL 是首个大规模中文科学文献数据集,收录了 2010 至 2020 年间发表的 39.6 万余篇中文核心期刊论文元信息。它主要解决了中文科技领域高质量、结构化预训练语料匮乏的难题,为自然语言处理研究提供了坚实的数据基础。

该数据集不仅包含论文的标题、摘要和关键词,还精细标注了 13 个学科门类和 67 个具体学科标签。基于 CSL,研究人员可以直接开展文本摘要(如根据摘要预测标题)、关键词自动生成以及细粒度文本分类等多项关键任务。项目方还提供了标准化的评测基准,采用统一的训练与测试划分,支持以"text-to-text"形式在 T5 等主流模型上进行公平的多任务学习与效果对比。

CSL 特别适合人工智能研究人员、NLP 算法工程师以及高校学者使用。无论是希望训练垂直领域的中文大语言模型,还是致力于提升科技文献处理效率的开发者,都能从中获益。其独特的亮点在于数据源自国家科技资源共享平台,经过严格筛选与专业标注,覆盖了从工学、医学到人文学科的广泛领域,且平均摘要长度超过 170 字,能够充分考验模型对长文本的理解与生成能力,是推动中文科技 NLP 发展的重要基础设施。

使用场景

某高校科研团队正致力于构建一个面向中文学术界的智能文献检索与摘要生成系统,旨在帮助研究人员快速从海量论文中提炼核心观点。

没有 CSL 时

  • 语料匮乏导致模型“水土不服”:团队只能使用通用中文语料或机器翻译的英文论文进行预训练,导致模型无法准确理解中文特有的学术术语和表达习惯,生成的摘要往往语句生硬、逻辑不通。
  • 细粒度分类难以实现:由于缺乏带有精确学科标签(如“矿业工程”、“口腔医学”)的大规模标注数据,系统只能粗略区分文理大类,无法将论文精准归类到 67 个具体二级学科,检索命中率低。
  • 人工标注成本高昂:为了构建测试集,研究人员需手动阅读并标注数千篇论文的关键词和门类,耗时数月且主观一致性差,严重拖慢了项目迭代进度。

使用 CSL 后

  • 专业领域语言能力显著提升:利用 CSL 中近 40 万篇核心期刊的标题、摘要和关键词进行微调,模型迅速掌握了中文学术写作规范,生成的摘要不仅流畅自然,还能精准保留原文的专业逻辑。
  • 实现高精度的学科自动导航:基于 CSL 提供的 13 个门类和 67 个学科标签训练分类器,系统能瞬间将新入库论文精准归位,用户可按“力学”或“药理学”等细分领域进行深度过滤。
  • 开箱即用的基准评测体系:直接复用 CSL 内置的标准化训练/验证/测试集(含文本摘要、关键词生成等任务),团队在一天内就完成了基线模型搭建与效果验证,大幅缩短了研发周期。

CSL 通过提供首个大规模、高质量的中文科学文献数据集,彻底解决了中文学术 NLP 任务中“无米下锅”的困境,让垂直领域的智能应用开发变得高效且精准。

运行环境要求

操作系统
  • 未说明
GPU

未说明(基于 UER-py 框架及 T5/BART/Pegasus 模型,通常建议配备 NVIDIA GPU 以加速训练)

内存

未说明

依赖
notes该项目本身是一个数据集项目,运行基线模型需依赖第三方框架 UER-py。README 中未明确列出具体的硬件配置(如显存大小、内存容量)或详细的 Python 版本限制。用户需先克隆 UER-py 项目,下载对应的中文预训练模型(如 T5, BART, Pegasus),并将本项目提供的脚本和数据集放入相应目录后方可运行。数据集包含约 40 万条文献记录,全量处理可能需要较大的存储空间。
python3.x (README 示例中使用 python3)
UER-py
torch
transformers (隐含依赖)
CSL hero image

快速开始

中文科学文献数据集

COLING 2022

CSL:大规模中文科学文献数据集
李宇东、张宇清、赵哲、沈琳琳、刘伟杰、毛伟权和张辉

英文文档 | 论文 | 博客 | BibTex

简而言之 提供首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。

avatar

数据集

CSL 数据获取自 国家科技资源共享服务工程技术研究中心, 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条,分布如下表所示:

Category #d len(T) len(A) num(K) #Samples Discipline Examples
Engineering 27 19.1 210.9 4.4 177,600 Mechanics,Architecture,Electrical Science
Science 9 20.7 254.4 4.3 35,766 Mathematics,Physics,Astronomy,Geography
Agriculture 7 17.1 177.1 7.1 39,560 Crop Science,Horticulture,Forestry
Medicine 5 20.7 269.5 4.7 36,783 Clinical Medicine,Dental Medicine,Pharmacy
Management 4 18.7 157.7 6.2 23,630 Business Management,Public Administration
Jurisprudence 4 18.9 174.4 6.1 21,554 Legal Science,Political Science,Sociology
Pedagogy 3 17.7 179.4 4.3 16,720 Pedagogy,Psychology,Physical Education
Economics 2 19.5 177.2 4.5 11,558 Theoretical Economics,Applied Economics
Literature 2 18.8 158.2 8.3 10,501 Chinese Literature,Journalism
Art 1 17.8 170.8 5.4 5,201 Art
History 1 17.6 181.0 6.0 6,270 History
Strategics 1 17.5 169.3 4.0 3,555 Military Science
Philosophy 1 18.0 176.5 8.0 7,511 Philosophy
All 67 396,209

测评任务

为了推动中文科学文献 NLP 研究,本项目提供一系列测评基准任务。 测评任务数据集从 CSL 中抽样 10,000 条,按照 0.8 : 0.1 : 0.1的比例划分训练、验证和测试集。 为了提供公平的多任务学习设置,各任务使用相同的训练、验证和测试集。 任务数据集以 text2text 的形式提供,可以直接在基线模型(例如 T5)上进行多任务训练。

1.文本摘要(标题预测)

输入论文的摘要,预测该论文的标题。

数据示例:

{ 
  "prompt": "to title",
  "text_a": "多个相邻场景同时进行干涉参数外定标的过程称为联合定标,联合定标能够 \
            保证相邻场景的高程衔接性,能够实现无控制点场景的干涉定标.该文提出了 \
            一种适用于机载InSAR系统的联合定标算法...",
  "text_b": "基于加权最优化模型的机载InSAR联合定标算法"
}

2.关键词生成

输入论文的摘要和标题,预测该论文的关键词。

数据示例:

{ 
  "prompt": "to keywords",
  "text_a": "通过对72个圆心角为120°的双跨偏心支承弯箱梁桥模型的计算分析,以梁 \
            格系法为基础编制的3D-BSA软件系统为结构计算工具,用统计分析的方法建 \
            立双跨偏心支承弯箱梁桥结构反应在使用极限状态及承载能力极限状态下与 \
            桥梁跨长... 偏心支承对120°圆心角双跨弯箱梁桥的影响",
  "text_b": "曲线桥_箱形梁_偏心支承_设计_经验公式"
}

3.论文门类分类

输入论文的标题,预测该论文所属的门类(13分类)。

数据示例:

{ 
  "prompt": "to category",
  "text_a": "基于模糊C均值聚类的流动单元划分方法——以克拉玛依油田五3中区克下组为例",
  "text_b": "工学"
},
{ 
  "prompt": "to category",
  "text_a": "正畸牵引联合牙槽外科矫治上颌尖牙埋伏阻生的临床观察",
  "text_b": "医学"
}

4.论文学科分类

输入论文的摘要,预测该论文所属的学科(67分类)。

数据示例:

{ 
  "prompt": "to discipline",
  "text_a": "某铁矿选矿厂所产铁精矿含硫超过0.3%,而现场为了今后发展的需要,要 \
             求将含硫量降到0.1%以下.为此,针对该铁精矿中硫化物主要以磁黄铁矿 \
             形式存在、硫化物多与铁矿物连生且氧化程度较高的特点...",
  "text_b": "矿业工程"
},
{ 
  "prompt": "to discipline",
  "text_a": "为了校正广角镜头的桶形畸变,提出一种新的桶形畸变数字校正方法.它 \
             使用点阵样板校正的方法,根据畸变图和理想图中圆点的位置关系,得出 \
             畸变图像素在X轴和Y轴方向上的偏移量曲面...",
  "text_b": "计算机科学与技术"
}

代码与基线模型

实验在 UER-py 上测试了三个 text2text 基线模型(T5BARTPegasus)。

  1. 克隆项目,下载预训练模型并放入 UER-py/models/
git clone https://github.com/ydli-ai/CSL.git
git clone https://github.com/dbiir/UER-py.git

cp CSL/run_text2text_csl.py UER-py/finetune/
  1. 准备数据,单任务微调(以标题预测为例)
cp -r CSL/benchmark/ UER-py/datasets/

cd UER-py

python3 finetune/run_text2text_csl.py --pretrained_model_path models/t5_base.bin \
                                  --vocab_path models/google_zh_with_sentinel_vocab.txt \
                                  --output_model_path models/finetuned_model.bin \
                                  --config_path models/t5/base_config.json \
                                  --train_path datasets/benchmark/ts/train.tsv \
                                  --dev_path datasets/benchmark/ts/dev.tsv \
                                  --test_path datasets/benchmark/ts/test.tsv \
                                  --seq_length 512 --tgt_seq_length 48 --report_steps 200 \
                                  --learning_rate 3e-4 --batch_size 24 --epochs_num 5 --metrics 1

下载

CSL 原始数据

Samples Access
CSL Benchmark 10k in project
CSL Sub-dataset 40k Google Drive
CSL Full-dataset 396k Google Drive

CSL 指令数据与预训练语料

  1. 指令数据:设计了 16 种指令,涵盖文本生成、关键词提取、文本摘要和文本分类等任务。

下载地址

数据示例:

{"instruction": "根据标题判断论文所属的学科:", "input": "改进中药材生产和流通模式探讨", "output": "药学"}
{"instruction": "这篇论文的关键词是?\n", "input": "通过将液固接触角沿轴向呈阶梯状分布的功能表面引入到三角形微型热管的一维稳态模型之中,分析了其对微型热管换热性能的影响.模拟结果表明较之常规表面,基于功能表面的微型热管能带走更多的热量.而产生这种结果的原因主要是由于功能表面能有效地提高微型热管内的毛细压差且不会造成摩擦阻力的明显变化.另外,对于传统表面还发现存在着最优接触角,此时微型热管的换热性能最佳,偏离该接触角会造成毛细压差的减小和热管换热性能的下降.\n", "output": "微型热管,功能表面,毛细力,剪切力"}
  1. 预训练语料:包含 1.5G 的论文摘要数据,可用于无监督预训练。

下载地址

致谢

CSL 已被用于多项评测任务:

  1. CLUE 中文语言理解测评基准——CSL 关键词识别 Keyword Recognition

  2. FewCLUE 小样本学习测评基准——CSLDCP 中文科学文献学科分类

  3. bert4keras——论文标题生成

  4. 千言数据集

BibTeX

@inproceedings{li-etal-2022-csl,
    title = "{CSL}: A Large-scale {C}hinese Scientific Literature Dataset",
    author = "Li, Yudong  and
      Zhang, Yuqing  and
      Zhao, Zhe  and
      Shen, Linlin  and
      Liu, Weijie  and
      Mao, Weiquan  and
      Zhang, Hui",
    booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
    month = oct,
    year = "2022",
    address = "庆州, 大韩民国",
    publisher = "国际计算语言学委员会",
    url = "https://aclanthology.org/2022.coling-1.344",
    pages = "3917--3923",
}

许可证

依照 Apache License, Version 2.0(“许可证”)授权;除非符合许可证规定,否则不得使用本文件。您可以在以下网址获取许可证副本:

http://www.apache.org/licenses/LICENSE-2.0

除非适用法律另有要求或经书面同意,否则根据“AS IS”基础分发的软件不提供任何形式的保证或条件。有关权限及限制的具体内容,请参阅许可证。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|今天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

141.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|今天
开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|今天
语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent