NVTabular

1.1k 149 中等 2 次阅读 1周前Apache-2.0开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

NVTabular 是一个专为表格数据设计的特征工程与预处理库，核心目标是快速处理 TB 级海量数据集，以支持深度学习推荐系统的训练。在构建推荐系统时，数据科学家常面临数据规模过大、预处理流程复杂、数据加载成为训练瓶颈以及反复实验耗时过长等挑战。NVTabular 通过高层抽象简化代码操作，并利用 GPU 加速计算，让用户无需担心数据规模限制，能更专注于数据策略本身。

作为 NVIDIA Merlin 开源框架的重要组成部分，NVTabular 与 Merlin Models、HugeCTR 等组件协同工作，提供从数据处理到模型部署的端到端 GPU 加速。其技术亮点在于基于 RAPIDS Dask-cuDF 库实现高性能并行处理，例如在单张 V100 GPU 上处理 Criteo 1TB 点击日志仅需 13 分钟，而传统 CPU 方案可能需要数天。此外，NVTabular 还支持将训练阶段的特征工程逻辑无缝迁移至推理阶段，确保生产环境的一致性。

NVTabular 非常适合需要处理大规模表格数据、追求高效迭代的数据科学家和机器学习工程师，能帮助团队显著缩短模型准备时间并提升整体训练效率。

使用场景

某大型电商平台的算法团队正在构建新一代深度学习推荐系统，需要高效处理每日累积的 TB 级用户行为与点击日志数据。

没有 NVTabular 时

依赖传统 CPU 脚本进行 ETL，处理海量数据耗时过长，单次特征工程往往需要数天甚至一周。
数据加载速度跟不上模型训练需求，造成 GPU 算力严重闲置，资源利用率低下。
面对超出内存容量的数据集，常遭遇内存溢出错误，难以在单机环境下完成完整流程。
特征工程代码耦合度高，每次尝试新特征都需要大量重复编码，实验迭代极其缓慢。

使用 NVTabular 后

借助 NVTabular 的 GPU 加速能力，TB 级数据的预处理时间从数天锐减至十几分钟，大幅提升效率。
优化的数据流水线消除了输入瓶颈，使 GPU 能够持续满负荷运行，显著缩短模型训练周期。
支持自动分块处理超大文件，轻松应对超出显存和内存的数据规模，无需担忧扩展性问题。
提供高层抽象操作接口，简化了代码复杂度，让工程师能更专注于特征策略而非底层实现。

NVTabular 凭借 GPU 并行计算与端到端优化，为大规模推荐系统提供了极速且可扩展的数据预处理解决方案。

运行环境要求

操作系统

Linux
WSL

GPU

需要 NVIDIA Pascal 或更高版本 (Compute Capability >=6.0)，CUDA 11.0+，驱动 450.80.02+
Pip 安装仅支持 CPU

内存

未说明

依赖

notes建议使用 Conda 或 Docker 安装以获取完整 GPU 支持；使用 Docker 需安装 NVIDIA Container Toolkit；是 NVIDIA Merlin 框架组件，可与 HugeCTR、Triton 等配合使用

python3.7+

RAPIDS

cuDF

Dask

CUDA Toolkit

Numba

快速开始

NVTabular

NVTabular 是一个用于表格数据（tabular data）的特征工程（feature engineering）和预处理（preprocessing）库，旨在轻松管理 TB 级（terabyte scale）数据集并训练基于深度学习（DL）的推荐系统（recommender systems）。它提供高级抽象以简化代码，并使用 RAPIDS Dask-cuDF 库在图形处理器（GPU）上加速计算。

NVTabular 是 NVIDIA Merlin 的一个组件，这是一个用于构建和部署推荐系统的开源框架，并与其它 Merlin 组件协同工作，包括 Merlin Models、HugeCTR 和 Merlin Systems，从而在 GPU 上实现推荐系统的端到端加速。除了模型训练之外，借助 NVIDIA 的 Triton Inference Server，训练期间对数据执行的特征工程和预处理步骤可以自动应用于推理期间的传入数据。

优势

在训练深度学习（DL）推荐系统时，数据科学家和机器学习（ML）工程师曾面临以下挑战：

海量数据集（Huge Datasets）：商业推荐系统在海量数据集上进行训练，规模可能达到数 TB。
复杂的数据特征工程和预处理流程（Complex Data Feature Engineering and Preprocessing Pipelines）：数据集需要经过预处理和转换才能与深度学习（DL）模型和框架一起使用。此外，特征工程会从现有数据中创建大量新特征，需要多次迭代才能达到最优解决方案。
输入瓶颈（Input Bottleneck）：如果数据加载未得到良好优化，可能会成为训练过程中最慢的部分，导致高吞吐量计算设备（如 GPU）利用率不足。
大量的重复实验（Extensive Repeated Experimentation）：整个数据工程、训练和评估过程可能是重复且耗时的，需要大量的计算资源。

NVTabular 缓解了这些挑战，并帮助数据科学家和机器学习（ML）工程师：

处理超出图形处理器（GPU）和中央处理器（CPU）内存的数据集，而无需担心规模问题。
通过利用操作层面的抽象，专注于如何处理数据而不是如何实现。
快速轻松地准备数据集用于实验，以便训练更多模型。
通过提供更快的数据集转换，将模型部署到生产环境。

在 NVTabular 核心功能文档中了解更多。

性能

当在单个 V100 32GB GPU 上使用 Criteo 1TB 点击日志数据集运行 NVTabular 时，特征工程和预处理能够在 13 分钟内完成。此外，当在配备八个 V100 GPU 的 DGX-1 集群上运行 NVTabular 时，特征工程和预处理能够在三分钟内完成。结合 HugeCTR，数据集可以在仅六分钟内完成处理并训练完整模型。

Criteo DRLM 工作流的性能也证明了 NVTabular 库的有效性。Numpy 中提供的原始 ETL（提取、转换、加载）脚本耗时超过五天才能完成。结合 CPU 训练，总迭代时间超过一周。通过在 Spark 中优化 ETL 代码并在等效于 DGX-1 的集群上运行，完成特征工程和预处理的时间减少到了三小时。同时，训练在一小时内完成。

安装

NVTabular 需要 Python 版本 3.7+。此外，GPU 支持需要：

CUDA 版本 11.0+
NVIDIA Pascal GPU 或更高版本（Compute Capability >=6.0）
NVIDIA 驱动程序 450.80.02+
Linux 或 WSL

使用 Conda 安装 NVTabular

可以通过运行以下命令从 nvidia 通道使用 Anaconda 安装 NVTabular：

conda install -c nvidia -c rapidsai -c numba -c conda-forge nvtabular python=3.7 cudatoolkit=11.2

使用 Pip 安装 NVTabular

可以通过运行以下命令使用 pip 安装 NVTabular：

pip install nvtabular

使用 Pip 安装 NVTabular 会导致 NVTabular 仅在 CPU 上运行，并且可能需要手动安装额外的依赖项。当我们在 Docker 容器中运行 NVTabular 时，依赖项已经安装好了。

使用 Docker 安装 NVTabular

NVTabular Docker 容器可在 NVIDIA Merlin 容器仓库中找到。下表总结了有关容器的关键信息：

容器名称	容器位置	功能
merlin-hugectr	https://catalog.ngc.nvidia.com/orgs/nvidia/teams/merlin/containers/merlin-hugectr	NVTabular、HugeCTR 和 Triton 推理
merlin-tensorflow	https://catalog.ngc.nvidia.com/orgs/nvidia/teams/merlin/containers/merlin-tensorflow	NVTabular、Tensorflow 和 Triton 推理
merlin-pytorch	https://catalog.ngc.nvidia.com/orgs/nvidia/teams/merlin/containers/merlin-pytorch	NVTabular、PyTorch 和 Triton 推理

要使用这些 Docker 容器，您首先需要安装 NVIDIA Container Toolkit 以为 Docker 提供 GPU 支持。您可以使用上表中引用的 NGC 链接获取有关如何启动和运行这些容器的更多信息。要获取有关 NVTabular 每个容器支持的软件和模型版本的更多信息，请参阅支持矩阵。

Notebook 示例和教程

我们提供了一系列示例集合，以 Jupyter Notebook 的形式展示如何使用 NVTabular 进行 Feature Engineering（特征工程）：

NVTabular 高级 API 介绍
使用 NVTabular 的高级 Workflow（工作流）
CPU 上的 NVTabular
将 NVTabular 扩展到多 GPU 系统

此外，NVTabular 还被用于我们其他 Merlin 库中的许多示例中：

反馈与支持

如果您想直接为该库做出贡献，请参阅 Contributing.md。我们特别关注针对我们的 Feature Engineering 和 Preprocessing（预处理）操作的贡献或功能请求。为了进一步推进我们的 Merlin Roadmap（路线图），我们鼓励您在此调查中分享有关您的 Recommender System（推荐系统）Pipeline（流水线）的所有细节。

如果您有兴趣了解更多关于 NVTabular 的工作原理，请参阅我们的 NVTabular 文档。我们还提供了 API 文档，概述了库内可用调用的具体细节。

NVTabular 快速上手指南

NVTabular 是 NVIDIA Merlin 框架的核心组件之一，专为深度学习推荐系统设计。它是一个用于表格数据的特征工程和预处理库，能够轻松管理 TB 级数据集，并利用 GPU 加速计算（基于 RAPIDS Dask-cuDF）。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux 或 WSL
Python 版本：3.7 及以上
CUDA 版本：11.0 及以上
NVIDIA 驱动：450.80.02 及以上
GPU 硬件：NVIDIA Pascal 架构或更高版本（Compute Capability >= 6.0）

安装步骤

根据您的需求，可以选择 Conda、Pip 或 Docker 进行安装。推荐使用 Conda 以获得完整的 GPU 支持。

1. 使用 Conda 安装（推荐）

通过 Anaconda 从 nvidia 频道安装，这将自动配置 GPU 依赖：

conda install -c nvidia -c rapidsai -c numba -c conda-forge nvtabular python=3.7 cudatoolkit=11.2

2. 使用 Pip 安装

pip install nvtabular

注意：通过 Pip 安装 NVTabular 仅支持 CPU 运行，且可能需要手动安装额外的依赖项。如需 GPU 支持，建议使用 Conda 或 Docker。

3. 使用 Docker 安装

NVTabular 提供了预构建的 Docker 容器，集成在 NVIDIA Merlin 容器中。使用前需安装 NVIDIA Container Toolkit。

容器名称	功能描述
`merlin-hugectr`	包含 NVTabular, HugeCTR 和 Triton Inference
`merlin-tensorflow`	包含 NVTabular, Tensorflow 和 Triton Inference
`merlin-pytorch`	包含 NVTabular, PyTorch 和 Triton Inference

具体镜像地址请参考 NVIDIA Merlin container repository。

基本使用

以下示例展示了如何使用 NVTabular 的高层 API 进行基本的特征工程流程：加载数据、定义转换操作、拟合工作流并输出结果。

import nvtabular as nvt
from nvtabular import ops

# 1. 加载数据 (支持 parquet, csv 等格式)
dataset = nvt.Dataset("input_data.parquet")

# 2. 定义工作流 (Workflow)
# 对 user_id 和 item_id 列进行类别编码 (Categorify)
workflow = nvt.Workflow(
    [
        nvt.ColumnSelector(["user_id"]) >> ops.Categorify(),
        nvt.ColumnSelector(["item_id"]) >> ops.Categorify(),
    ]
)

# 3. 拟合工作流并转换数据
workflow.fit(dataset)
transformed_dataset = workflow.transform(dataset)

# 4. 保存处理后的数据
transformed_dataset.to_parquet("output_data/")

更多高级用法和多 GPU 扩展示例，请参阅官方提供的 Jupyter Notebook 示例。

版本历史

v23.08.002023/08/29

v23.06.002023/06/22

v23.05.002023/05/31

v23.04.002023/04/26

v23.02.002023/03/08

v1.8.12023/02/03

v1.8.02022/12/30

v1.7.02022/11/23

v1.6.02022/10/31

v1.5.02022/09/26

v1.4.02022/09/06

v1.3.32022/07/22

v1.3.22022/07/20

v1.3.12022/07/19

v1.3.02022/07/19

v1.2.22022/06/21

v1.2.12022/06/16

v1.2.02022/06/15

v1.1.12022/05/10

v1.1.02022/05/10

常见问题

如何确保 Categorify 编码后的 ID 与原始值的映射一致性？

Categorify 中 Null、OOV 等特殊值的编码冲突问题是否存在？

在大型数据集上拟合 Workflow 时遇到 CUDA OOM 错误该如何排查？

从旧版本升级到 NVTabular 0.7.0 后出现 MemoryError 怎么办？

使用 LocalCUDACluster 时，client 参数应该配置在 Workflow 还是 Dataset？

如何处理 Tags.ITEM_ID 等复合标签被弃用的警告？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架