Curator

GitHub
1.5k 249 中等 1 次阅读 2天前Apache-2.0数据工具开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

Curator 是 NVIDIA NeMo 套件中一款专为大模型训练打造的可扩展数据预处理与精选工具。它核心解决了 AI 开发中“垃圾进,垃圾出”的痛点,帮助开发者高效清洗海量原始数据,确保用于训练文本、图像、视频及音频的数据具备高质量、多样性和安全性,从而加速构建更优秀的 AI 模型。

这款工具特别适合从事大语言模型(LLM)或多模态模型研发的研究人员与工程师使用。无论是需要在笔记本电脑上验证想法,还是要在多节点集群上处理 PB 级数据,Curator 都能通过模块化流水线轻松应对。其独特的技术亮点在于全面的 GPU 加速能力:在文本处理上,支持基于 MinHash 的模糊去重和语义去重,并提供 30 多种启发式过滤规则;在视觉与听觉领域,它能自动执行美学评分、不适宜内容(NSFW)检测、场景切割以及语音转录质量评估。借助 Curator,团队可以将原本耗时数周的数据清洗工作大幅缩短,让精力更专注于模型架构与创新。

使用场景

某自动驾驶初创公司的算法团队正急需构建一个包含百万级路标与交通场景的高质量图像数据集,以训练下一代视觉语言模型(VLM)。

没有 Curator 时

  • 数据清洗完全依赖 CPU 串行处理,筛选千万张图像需耗时数周,严重拖慢模型迭代节奏。
  • 缺乏高效的美学评分与 NSFW(不适宜内容)检测机制,导致大量模糊、无关或不合规图片混入训练集。
  • 难以识别并剔除语义重复的图像,造成模型过拟合,且在特定场景下的泛化能力显著下降。
  • 手动编写脚本整合多源数据极其繁琐,一旦数据规模扩大,内存溢出频发,工程维护成本高昂。

使用 Curator 后

  • 利用 GPU 加速的并行流水线,将原本数周的数据预处理时间压缩至数小时,实现从笔记本到多节点集群的无缝扩展。
  • 一键调用内置的美学过滤与 NSFW 检测模块,自动剔除低质与违规样本,确保输入数据的纯净度与安全性。
  • 通过基于 CLIP 嵌入的语义去重功能,精准移除冗余图像,显著提升模型在复杂路况下的识别准确率。
  • 采用模块化处理流程,轻松加载 WebDataset 格式的大规模图文对,稳定支撑亿级数据量的自动化策展。

Curator 通过 GPU 加速的全流程数据策展能力,将原本耗时费力的数据清洗工作转化为高效自动化的标准工序,让团队能专注于核心模型架构的创新。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 支持多节点多卡扩展(示例提及 H100 80GB)
  • 依赖 CUDA 环境(安装示例提及 'text_cuda12',暗示支持 CUDA 12.x),需安装 NVIDIA RAPIDS 库 (cuDF, cuML, cuGraph)
内存

未说明(取决于数据集规模,支持从笔记本到多节点集群扩展)

依赖
notes该工具专为大规模数据清洗设计,利用 GPU 加速可实现比 CPU 方案快 16 倍的性能。支持文本、图像、视频和音频四种模态。可通过 Docker 容器部署或从 PyPI 安装特定模态版本(如 nemo-curator[text_cuda12])。支持从单台笔记本电脑扩展到多节点集群环境。
python3.9+ (根据 PyPI badge 推断,具体版本需参考官方安装指南,文中未明确写出数字但展示了 pyversions 徽章)
nemo-curator
RAPIDS (cuDF, cuML, cuGraph)
Ray
fastText
TransNetV2
CLIP
Cosmos-Embed1
NeMo Framework
Curator hero image

快速开始

https://pypi.org/project/nemo-curator codecov https://pypi.org/project/nemo-curator/ NVIDIA-NeMo/Curator https://github.com/NVIDIA-NeMo/Curator/releases https://github.com/Naereen/badges/

NVIDIA NeMo Curator

GPU加速的数据整理工具,助您更快、更高效地训练优质AI模型。 通过模块化的文本、图像、视频和音频处理流水线,可从笔记本电脑扩展至多节点集群。

作为NVIDIA NeMo软件套件的一部分,用于管理AI智能体的生命周期。

您可以实现的功能

模态 核心能力 入门指南
文本 去重 • 分类 • 质量过滤 • 语言检测 文本指南
图像 审美筛选 • 不适宜内容检测 • 嵌入生成 • 去重 图像指南
视频 场景检测 • 片段提取 • 运动过滤 • 去重 视频指南
音频 ASR转录 • 质量评估 • WER过滤 音频指南

快速入门

# 根据您的模态安装
uv pip install "nemo-curator[text_cuda12]"

# 运行快速入门示例
python tutorials/quickstart.py

完整设置: 安装指南Docker教程


各模态功能概览

文本数据整理

利用多语言支持,处理并整理高质量文本数据集,用于大型语言模型(LLM)的训练。

类别 功能 文档
数据源 Common Crawl • Wikipedia • ArXiv • 自定义数据集 加载数据
质量过滤 30余种启发式过滤器 • fastText分类 • GPU加速的领域、质量、安全及内容类型分类器 质量评估
去重 精确去重 • 模糊去重(MinHash LSH)• 语义去重(GPU加速) 去重
预处理 文本清洗 • 语言识别 内容处理

图像数据整理

为视觉语言模型(VLM)及生成式AI训练整理大规模图像数据集。

类别 功能 文档
数据加载 WebDataset格式 • 大规模图文对 加载数据
嵌入 CLIP嵌入用于语义分析 嵌入
筛选 审美质量评分 • NSFW检测 筛选

视频数据整理

使用分布式、GPU加速的流水线处理大规模视频语料库,服务于世界基础模型(WFM)。

类别 功能 文档
数据加载 本地路径 • S3兼容存储 • HTTP(S) URL 加载数据
片段切割 固定步长分割 • 场景变化检测(TransNetV2) 片段切割
处理 GPU H.264编码 • 帧提取 • 运动过滤 • 审美筛选 处理
嵌入 Cosmos-Embed1用于片段级嵌入 嵌入
去重 K-means聚类 • 成对相似度用于近似重复检测 去重

音频数据整理

为自动语音识别(ASR)及多模态AI训练准备高质量语音数据集。

类别 功能 文档
数据加载 本地文件 • 自定义清单 • 公共数据集(FLEURS) 加载数据
ASR处理 NeMo框架预训练模型 • 自动转录 ASR推理
质量评估 计算词错误率(WER)• 时长分析 • 基于质量的过滤 质量评估
集成 与文本处理流程集成,构建多模态管道 文本集成

为什么选择NeMo Curator?

大规模性能

NeMo Curator 利用 NVIDIA RAPIDS™ 库(如 cuDF、cuML 和 cuGraph)以及 Ray,在多节点、多 GPU 环境中实现工作负载的横向扩展。

经过验证的结果:

  • 在 8 TB 的 RedPajama v2 数据集(1.78 万亿个标记)上,模糊去重速度提升 16 倍
  • 总拥有成本(TCO)相比基于 CPU 的方案降低 40%
  • 从单节点到四节点 H100 80 GB 配置时,性能呈现 近线性扩展(2.05 小时 → 0.50 小时)

性能基准测试显示 16 倍加速、40% 成本节约及近线性扩展

质量提升

数据编排模块能够显著提升模型性能。在使用经编排后的 Common Crawl 数据训练的 3.57 亿参数 GPT 模型进行的消融实验中:

不同编排阶段对模型准确率的逐步提升

结果: 通过文本清洗、去重和质量过滤等环节,零样本下游任务的性能得到持续提升。


了解更多

资源 链接
文档 主文档API 参考概念
教程 文本图像视频音频
部署 安装基础设施
社区 GitHub 讨论区问题

参与贡献

我们欢迎社区贡献!请参阅 CONTRIBUTING.md 获取相关指南。

版本历史

v1.1.02026/02/23
v1.0.02025/10/01
v0.9.02025/07/28
v0.8.02025/05/09
v0.8.0rc3.dev02025/04/15
v0.8.0rc2.dev02025/04/07
v0.7.12025/03/31
v0.7.02025/03/12
v0.7.0rc2.dev02025/02/25
v0.7.0rc1.dev12025/02/19
v0.7.0rc0.dev12025/02/04
v0.6.02025/01/07
v0.6.0rc2.dev12025/01/03
0.6.0rc1.dev12024/12/20
v0.6.0rc02024/12/13
v0.5.12024/12/03
v0.5.02024/10/30
v0.4.12024/10/03
v0.4.02024/08/14
v0.3.02024/06/10

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架