Transformers4Rec
Transformers4Rec 是一个专为序列推荐和会话推荐打造的高效开源库,基于 PyTorch 构建。它巧妙地充当了自然语言处理(NLP)与推荐系统之间的桥梁,通过深度集成流行的 Hugging Face Transformers 框架,让先进的 Transformer 架构能轻松应用于推荐场景。
传统推荐算法往往忽略用户行为的时间动态和操作顺序,难以捕捉兴趣随时间变化的规律,尤其在用户匿名浏览或仅有短期会话数据的场景下表现受限。Transformers4Rec 正是为了解决这一痛点而生,它能有效处理如网页浏览记录或购物车商品等交互序列,精准预测用户的下一个目标,从而显著提升推荐的相关性。
这款工具非常适合推荐系统领域的研究人员、算法工程师以及希望将前沿 NLP 技术落地到生产环境的开发者使用。其核心亮点在于极高的灵活性与模块化设计:不仅支持配置超过 64 种不同的 Transformer 模型架构,还允许用户像搭积木一样自定义多塔结构、多任务头及损失函数。相比以往仅能输入物品 ID 且难以扩展的旧框架,Transformers4Rec 提供了更 scalable 的生产级实现,帮助团队快速构建并验证复杂的序列推荐模型。
使用场景
某大型跨境电商平台的技术团队正致力于优化匿名用户在新品浏览会话中的实时商品推荐效果。
没有 Transformers4Rec 时
- 忽视时序动态:传统协同过滤算法仅统计用户历史总偏好,无法捕捉用户在当前会话中从“查看跑鞋”到“搜索运动袜”的即时兴趣转移。
- 冷启动困境:面对未登录或受 GDPR 限制无法读取 Cookie 的匿名访客,因缺乏长期行为数据,系统只能推送毫无个性的热门榜单,转化率极低。
- 架构复用困难:团队试图手动复现 NLP 领域的 Transformer 模型来处理序列数据,但需耗费大量精力重写代码以适配推荐系统的物品 ID 输入,开发周期长达数月。
- 扩展性受限:自研的序列模型缺乏模块化设计,难以灵活调整网络层级或增加辅助任务(如同时预测点击和购买),导致模型迭代缓慢。
使用 Transformers4Rec 后
- 精准捕捉意图:利用内置的序列建模能力,Transformers4Rec 能根据用户当前会话中短短几次点击顺序,实时推断其潜在购买意图并推荐互补商品。
- 攻克会话级推荐:专为会话场景设计,即使没有任何历史画像,也能基于当前短序列交互生成高质量推荐,显著提升了匿名用户的留存与转化。
- 无缝集成 HF 生态:直接桥接 Hugging Face Transformers,团队可一键调用超过 64 种成熟的 Transformer 架构(如 BERT、XLNet),将模型验证时间从数周缩短至几天。
- 灵活定制架构:凭借模块化的构建块,工程师轻松搭建了多塔多任务模型,在同一个框架下同时优化点击率与客单价,且完美兼容现有的 PyTorch 生产管线。
Transformers4Rec 通过将前沿的 NLP 序列处理能力无缝引入推荐系统,让企业能够以极低的成本实现懂“上下文”的实时智能推荐。
运行环境要求
- Linux
- 需要 NVIDIA GPU(用于 GPU 加速的 NVTabular 和 Merlin Dataloader),需安装 RAPIDS cuDF
- 支持 CUDA 11.8(Conda 安装示例中指定)
- 具体显存大小未说明,但建议具备足够显存以运行 Transformer 模型
未说明

快速开始
Transformers4Rec
Transformers4Rec 是一个灵活高效的库,用于序列化和基于会话的推荐任务,并且可以与 PyTorch 配合使用。
该库通过与最流行的自然语言处理框架之一——Hugging Face Transformers(HF)集成,架起了自然语言处理(NLP)与推荐系统(RecSys)之间的桥梁。Transformers4Rec 使最先进的 Transformer 架构能够被推荐系统领域的研究人员和从业者所使用。
下图展示了该库在推荐系统中的应用。输入数据通常是交互序列,例如用户在网络会话中浏览的商品或加入购物车的商品。该库可以帮助您对这些交互进行处理和建模,从而为用户下一个可能感兴趣的项目提供更优质的推荐。

传统的推荐算法在建模用户行为时,通常会忽略时间动态和交互顺序。然而,用户的下一次交互往往与其之前的交互序列密切相关。在某些情况下,这可能是重复购买或再次播放同一首歌。此外,由于用户的偏好会随时间变化,兴趣也可能发生漂移。这些问题正是 序列化推荐 任务所要解决的。
序列化推荐的一个特殊用例是 基于会话的推荐,在这种场景下,您只能访问当前会话内的短交互序列。这种情况在电子商务、新闻和媒体门户网站等在线服务中非常常见,因为用户可能会出于 GDPR 合规要求而选择匿名浏览,或者是因为用户是新访客而不愿留下任何追踪信息。此外,在用户兴趣会根据上下文或意图频繁变化的情况下,基于当前会话的交互来提供相关推荐也比依赖旧的交互记录更为有效。
为了应对序列化和基于会话的推荐问题,许多先前应用于机器学习和 NLP 研究的序列学习算法已被探索并应用于推荐系统领域,包括 k 最近邻、频繁模式挖掘、隐 Markov 模型、循环神经网络,以及近年来兴起的基于自注意力机制和 Transformer 架构的神经网络模型。然而,与 Transformers4Rec 不同的是,这些框架通常仅接受商品 ID 序列作为输入,并且缺乏模块化、可扩展的生产级实现。
Transformers4Rec 的优势
Transformers4Rec 具有以下优势:
灵活性:Transformers4Rec 提供了可配置的模块化组件,这些组件与标准的 PyTorch 模块兼容。这种积木式的架构设计使您可以构建具有多塔、多头或多任务及多种损失函数的自定义模型。
接入 Hugging Face Transformers:得益于与 Hugging Face Transformers 的集成,您可以使用超过 64 种不同的 Transformer 架构来评估您的序列化和基于会话的推荐任务。
支持多种输入特征:Hugging Face Transformers 原本专为 NLP 设计,因此仅支持标记 ID 序列作为输入。而 Transformers4Rec 则允许您将其他类型的序列化表格数据作为输入,这得益于推荐系统数据集中丰富的特征。Transformers4Rec 使用一种模式来配置输入特征,并能根据目标自动创建必要的层,如嵌入表、投影层和输出层,无需修改代码即可添加新特征。您可以以可配置的方式对交互级和序列级输入特征进行归一化和组合。
无缝的预处理与特征工程:作为 Merlin 生态系统的一部分,Transformers4Rec 与 NVTabular 和 Triton 推理服务器 集成。这些组件使您能够构建一个完全由 GPU 加速的序列化和基于会话的推荐流水线。NVTabular 提供了针对基于会话的推荐的常用预处理操作,并导出数据集模式。该模式与 Transformers4Rec 兼容,因此可以自动配置输入特征。您可以将训练好的模型导出到 Triton 推理服务器中,形成一个包含在线特征预处理和模型推理的完整流水线。更多信息请参阅 使用 NVIDIA Merlin 构建端到端流水线。

Transformers4Rec 的成就
Transformers4Rec 近期在两项基于会话的推荐竞赛中取得了胜利:WSDM WebTour Workshop Challenge 2021(由 Booking.com 主办) 和 SIGIR eCommerce Workshop Data Challenge 2021(由 Coveo 主办)。该库在基于会话的推荐任务上表现出比基线算法更高的准确性,并且我们还进行了广泛的实验分析来验证这一点。相关发现已发表在我们的 ACM RecSys'21 论文 中。
示例代码:定义并训练模型
使用 Transformers4Rec 训练模型通常需要执行以下高层次步骤:
提供 schema 并构建输入模块。
如果您遇到基于会话的推荐问题,通常希望使用 TabularSequenceFeatures 类,因为它可以将上下文特征与序列特征合并。
提供预测任务。
我们提供的开箱即用的任务可以在我们的 API 文档 中找到。
构建 Transformer 主体,并将其转换为模型。
下面的代码示例展示了如何使用 PyTorch 定义并训练一个 XLNet 模型,用于下一个项目预测任务:
from transformers4rec import torch as tr
from transformers4rec.torch.ranking_metric import NDCGAt, RecallAt
# 创建 schema 或从磁盘读取:tr.Schema().from_json(SCHEMA_PATH)。
schema: tr.Schema = tr.data.tabular_sequence_testing_data.schema
max_sequence_length, d_model = 20, 64
# 定义输入模块以处理表格型输入特征。
input_module = tr.TabularSequenceFeatures.from_schema(
schema,
max_sequence_length=max_sequence_length,
continuous_projection=d_model,
aggregation="concat",
masking="causal",
)
# 定义类似于 XLNet 架构的 Transformer 配置。
transformer_config = tr.XLNetConfig.build(
d_model=d_model, n_head=4, n_layer=2, total_seq_length=max_sequence_length
)
# 定义模型块,包括:输入、掩码、投影和 Transformer 块。
body = tr.SequentialBlock(
input_module,
tr.MLPBlock([d_model]),
tr.TransformerBlock(transformer_config, masking=input_module.masking)
)
# 定义评估的 top-N 指标及截断点。
metrics = [NDCGAt(top_ks=[20, 40], labels_onehot=True),
RecallAt(top_ks=[20, 40], labels_onehot=True)]
# 定义带有 NextItemPredictionTask 的头部。
head = tr.Head(
body,
tr.NextItemPredictionTask(weight_tying=True, metrics=metrics),
inputs=input_module,
)
# 获取端到端的 Model 类。
model = tr.Model(head)
您可以修改上述代码来执行二分类任务。 输入模块中的掩码可以设置为
None而不是causal。 在定义头部时,您可以将NextItemPredictionTask替换为BinaryClassificationTask的实例。 请参阅该类的 API 文档中的示例代码。
安装
您可以使用 Pip、Conda 安装 Transformers4Rec,或者运行 Docker 容器。
使用 Pip 安装 Transformers4Rec
您可以安装具有 GPU 加速 Merlin 数据加载器功能的 Transformers4Rec。
为了获得更好的性能,强烈建议安装包含数据加载器的版本。
这些组件可以作为 pip install 命令的可选参数进行安装。
要使用 Pip 安装 Transformers4Rec,请运行以下命令:
pip install transformers4rec[nvtabular]
-> 请注意,使用 pip 安装 Transformers4Rec 不会自动安装 RAPIDS cuDF。
-> cuDF 是 NVTabular 变换和 Merlin 数据加载器的 GPU 加速版本所必需的。
使用 pip 安装 cuDF 的说明请参见:https://docs.rapids.ai/install#pip-install
pip install cudf-cu11 dask-cudf-cu11 --extra-index-url=https://pypi.nvidia.com
使用 Conda 安装 Transformers4Rec
要使用 Conda 安装 Transformers4Rec,可以使用 conda 或 mamba 运行以下命令来创建一个新的环境。
mamba create -n transformers4rec-23.04 -c nvidia -c rapidsai -c pytorch -c conda-forge \
transformers4rec=23.04 `# NVIDIA Merlin` \
nvtabular=23.04 `# NVIDIA Merlin - 用于示例笔记本` \
python=3.10 `# 兼容的 Python 环境` \
cudf=23.02 `# RAPIDS cuDF - GPU 加速的 DataFrame` \
cudatoolkit=11.8 pytorch-cuda=11.8 `# NVIDIA CUDA 版本`
使用 Docker 安装 Transformers4Rec
Transformers4Rec 已预装在 NVIDIA GPU Cloud (NGC) 目录中提供的 merlin-pytorch 容器中。
有关 Merlin 容器名称、目录中容器镜像的 URL 以及关键 Merlin 组件的信息,请参阅 Merlin 容器 文档页面。
笔记本示例与教程
使用 NVIDIA Merlin 的端到端流水线 页面 展示了如何使用 Transformers4Rec 和其他 Merlin 库(如 NVTabular)构建完整的推荐系统。
我们提供了多个 示例 笔记本,帮助您构建推荐系统或将 Transformers4Rec 集成到您的系统中:
- 一个入门示例,包括使用 XLNET Transformer 架构训练基于会话的模型。
- 一个端到端示例,训练模型后进一步使用 Triton 推理服务器进行推理。
- 另一个端到端示例,训练并评估基于会话的 RNN 模型,同时使用 Triton 推理服务器进行推理。
- 一本笔记本和脚本,复现了 RecSys 2021 会议上发表论文中的实验。
反馈与支持
如果您希望直接为 Transformers4Rec 做出贡献,请参阅 为 Transformers4Rec 做贡献。我们尤其关注特征工程和预处理操作方面的贡献或功能请求。为进一步推进 Merlin 发展路线图,我们鼓励您访问 https://developer.nvidia.com/merlin-devzone-survey,分享关于您推荐系统流水线的所有详细信息。
如果您想了解更多关于 Transformers4Rec 的工作原理,请参阅我们的 Transformers4Rec 文档。我们还提供 API 文档,其中详细介绍了 Transformers4Rec 中可用的模块和类。
版本历史
v23.12.002024/01/11v23.08.002023/08/29v23.06.002023/06/22v23.05.002023/05/31v23.04.002023/04/26v23.02.002023/03/08v0.1.162023/02/03v0.1.152022/11/22v0.1.142022/10/24v0.1.132022/09/26v0.1.122022/09/06v0.1.112022/07/19v0.1.102022/06/16v0.1.92022/06/15v0.1.82022/05/10v0.1.72022/04/06v0.1.62022/03/03v0.1.52022/02/02v0.1.42022/01/11v0.1.32021/12/07常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器