RecLearn

2k 497 简单 1 次阅读 2天前MIT开发框架

AI 解读由 AI 自动生成，仅供参考

RecLearn 是一个基于 Python 和 TensorFlow 2.x 构建的推荐系统学习框架，专为帮助学生和初学者入门推荐算法而设计。它系统地梳理了工业界推荐系统的两大核心阶段：匹配阶段（Top-k 推荐）与排序阶段（点击率预测），将复杂的算法流程标准化、模块化。

针对初学者在复现经典论文模型时面临的环境配置难、代码结构混乱等痛点，RecLearn 提供了从数据预处理、负采样、模型构建到训练评估的一站式解决方案。用户只需几行代码即可加载 MovieLens 或 Amazon 等标准数据集，快速搭建如 BPR 等经典模型并进行实验。其独特的亮点在于清晰的代码架构，不仅支持直接调用封装好的算法示例，还允许开发者灵活修改模型层级与参数，非常适合用于教学演示或算法验证。

无论是刚接触推荐系统的高校学生、希望快速原型验证的研究人员，还是想要深入理解 TensorFlow 2.x 在推荐领域应用的开发者，都能通过 RecLearn 轻松上手。它摒弃了繁琐的工程细节，让使用者能更专注于算法原理本身，是探索推荐系统技术的理想起点。

使用场景

某电商初创公司的算法实习生需要在两周内搭建一个包含“召回”和“排序”两阶段的推荐系统原型，以验证新上线的服装类目数据价值。

没有 RecLearn 时

重复造轮子耗时久：需从零编写数据加载、负采样及序列处理代码，仅数据预处理就耗费了大部分开发时间。
模型复现门槛高：面对 BPR、DIN 等经典算法，需自行查阅论文并逐层构建 TensorFlow 网络，极易因维度对齐错误导致调试失败。
流程割裂难统一：召回（Top-K）与排序（CTR 预估）阶段的数据格式和接口不兼容，拼接全流程时频繁报错。
缺乏标准基线：难以快速建立性能基准，无法判断是自己代码写错了还是模型本身不适合当前数据。

使用 RecLearn 后

开箱即用提效率：直接调用 ml.load_seq_data 一键完成 MovieLens 风格数据的划分、加载与负采样，将数据准备时间从 3 天缩短至 2 小时。
模块化构建模型：通过传入参数字典实例化 BPR 或序列模型，自动处理 Embedding 层与正则化，无需关注底层网络细节即可运行 SOTA 算法。
全链路无缝衔接：利用统一的字典数据格式，顺畅连接召回阶段的粗筛与排序阶段的精排，快速打通端到端训练流程。
快速迭代验证：内置多种工业界主流模型作为基线，可立即对比实验结果，迅速定位业务数据特征与模型适配度。

RecLearn 让初学者和开发者能跳过繁琐的工程基建，专注于推荐策略本身的创新与业务效果验证。

运行环境要求

操作系统

未说明

GPU

可选
支持 TensorFlow 2.5+ GPU 版本或 CPU 版本，未指定具体显卡型号、显存大小或 CUDA 版本

内存

未说明

依赖

notes该工具是一个基于 Python 和 TensorFlow 2.x 的推荐系统学习框架。安装时可选择通过 pip 安装或直接克隆仓库。实验环境可能与部分论文设定不同，导致结果存在偏差。

python3.8+

tensorflow>=2.5

numpy>=1.17

pandas>=1.0.5

scikit-learn>=0.23.2

快速开始

RecLearn

简体中文 | English

RecLearn（推荐学习）总结了Recommender System with TF2.0中master分支的内容，是一个基于Python和TensorFlow2.x的推荐学习框架，专为学生和初学者设计。当然，如果你更熟悉master分支，也可以克隆整个项目，在示例中运行一些算法，并对模型和层的内容进行更新和修改。实现的推荐算法根据工业界的两个应用阶段进行分类：

匹配推荐阶段（Top-k推荐）
排序推荐阶段（CTR预测模型）

更新

2022年4月23日：更新所有匹配模型。

安装

包管理器

RecLearn已发布在PyPI上，因此你可以使用pip进行安装。

pip install reclearn

依赖环境：

python3.8+
Tensorflow2.5-GPU+/Tensorflow2.5-CPU+
sklearn0.23+

本地安装

将RecLearn克隆到本地：

git clone -b reclearn git@github.com:ZiyaoGeng/RecLearn.git

快速入门

在example中，我们为每种推荐模型都提供了一个示例。

匹配

1. 划分数据集。

设置原始数据集的路径：

file_path = 'data/ml-1m/ratings.dat'

请将当前数据集划分为训练集、验证集和测试集。如果你使用的是movielens-1m、Amazon-Beauty、Amazon-Games和STEAM数据集，可以直接调用RecLearn中的data/datasets/*方法：

train_path, val_path, test_path, meta_path = ml.split_seq_data(file_path=file_path)

meta_path表示元文件的路径，其中存储了用户和物品的最大索引数。

2. 加载数据集。

完成训练集、验证集和测试集的加载，并为每个正样本生成若干负样本（随机采样）。数据格式为字典：

data = {'pos_item':, 'neg_item': , ['user': , 'click_seq': ,...]}

如果你正在构建序列推荐模型，需要引入点击序列。Reclearn提供了针对上述四种数据集的数据加载方法：

# 通用推荐模型
train_data = ml.load_data(train_path, neg_num, max_item_num)
# 序列推荐模型，并使用用户特征。
train_data = ml.load_seq_data(train_path, "train", seq_len, neg_num, max_item_num, contain_user=True)

3. 设置超参数。

模型需要指定所需的超参数。现在以BPR模型为例：

model_params = {
        'user_num': max_user_num + 1,
        'item_num': max_item_num + 1,
        'embed_dim': FLAGS.embed_dim,
        'use_l2norm': FLAGS.use_l2norm,
        'embed_reg': FLAGS.embed_reg
    }

4. 构建并编译模型。

选择或构建你需要的模型，并对其进行编译。以BPR为例：

model = BPR(**model_params)
model.compile(optimizer=Adam(learning_rate=FLAGS.learning_rate))

如果对模型结构有疑问，可以在编译后调用summary方法打印出来：

model.summary()

5. 训练模型并预测测试集。

for epoch in range(1, epochs + 1):
    t1 = time()
    model.fit(
        x=train_data,
        epochs=1,
        validation_data=val_data,
        batch_size=batch_size
    )
    t2 = time()
    eval_dict = eval_pos_neg(model, test_data, ['hr', 'mrr', 'ndcg'], k, batch_size)
    print('Iteration %d Fit [%.1f s], Evaluate [%.1f s]: HR = %.4f, MRR = %.4f, NDCG = %.4f'
          % (epoch, t2 - t1, time() - t2, eval_dict['hr'], eval_dict['mrr'], eval_dict['ndcg']))

排序

敬请期待……

结果

RecLearn设计的实验环境与某些论文中的实验环境不同，因此结果可能会存在一定的偏差。详细信息请参阅实验。

匹配

模型	ml-1m			Beauty			STEAM
模型	HR@10	MRR@10	NDCG@10	HR@10	MRR@10	NDCG@10	HR@10	MRR@10	NDCG@10
BPR	0.5768	0.2392	0.3016	0.3708	0.2108	0.2485	0.7728	0.4220	0.5054
NCF	0.5834	0.2219	0.3060	0.5448	0.2831	0.3451	0.7768	0.4273	0.5103
DSSM	0.5498	0.2148	0.2929	-	-	-	-	-	-
YoutubeDNN	0.6737	0.3414	0.4201	-	-	-	-	-	-
MIND(Error)	0.6366	0.2597	0.3483	-	-	-	-	-	-
GRU4Rec	0.7969	0.4698	0.5483	0.5211	0.2724	0.3312	0.8501	0.5486	0.6209
Caser	0.7916	0.4450	0.5280	0.5487	0.2884	0.3501	0.8275	0.5064	0.5832
SASRec	0.8103	0.4812	0.5605	0.5230	0.2781	0.3355	0.8606	0.5669	0.6374
AttRec	0.7873	0.4578	0.5363	0.4995	0.2695	0.3229	-	-	-
FISSA	0.8106	0.4953	0.5713	0.5431	0.2851	0.3462	0.8635	0.5682	0.6391

排行榜

模型	500w(Criteo)		Criteo
模型	Log Loss	AUC	Log Loss	AUC
FM	0.4765	0.7783	0.4762	0.7875
FFM	-	-	-	-
WDL	0.4684	0.7822	0.4692	0.7930
Deep Crossing	0.4670	0.7826	0.4693	0.7935
PNN	-	0.7847	-	-
DCN	-	0.7823	0.4691	0.7929
NFM	0.4773	0.7762	0.4723	0.7889
AFM	0.4819	0.7808	0.4692	0.7871
DeepFM	-	0.7828	0.4650	0.8007
xDeepFM	0.4690	0.7839	0.4696	0.7919

模型列表

1. 匹配阶段

论文｜模型	发表时间	作者
BPR: 基于隐式反馈的贝叶斯个性化排序｜MF-BPR	UAI, 2009	Steﬀen Rendle
基于神经网络的协同过滤｜NCF	WWW, 2017	Xiangnan He
使用点击数据学习用于网络搜索的深度结构化语义模型｜DSSM	CIKM, 2013	Po-Sen Huang
用于YouTube推荐的深度神经网络｜ YoutubeDNN	RecSys, 2016	Paul Covington
基于会话的推荐与循环神经网络｜GUR4Rec	ICLR, 2016	Balázs Hidasi
自注意力序列推荐｜SASRec	ICDM, 2018	UCSD
基于卷积序列嵌入的个性化Top-N序列推荐｜Caser	WSDM, 2018	Jiaxi Tang
基于自注意力度量学习的下一个物品推荐｜AttRec	AAAAI, 2019	Shuai Zhang
FISSA：融合物品相似度模型与自注意力网络的序列推荐｜FISSA	RecSys, 2020	Jing Lin

2. 排序阶段

论文｜模型	发表时间	作者
因子分解机｜FM	ICDM, 2010	Steffen Rendle
面向CTR预测的领域感知因子分解机｜FFM	RecSys, 2016	Criteo Research
宽&深学习用于推荐系统｜WDL	DLRS, 2016	Google Inc.
Deep Crossing：无需手工特征组合的Web规模建模｜Deep Crossing	KDD, 2016	Microsoft Research
基于产品的神经网络用于用户响应预测｜PNN	ICDM, 2016	上海交通大学
广告点击预测的深度交叉网络｜DCN	ADKDD, 2017	斯坦福大学｜Google Inc.
用于稀疏预测分析的神经因子分解机｜NFM	SIGIR, 2017	Xiangnan He
注意力因子分解机：通过注意力网络学习特征交互权重｜AFM	IJCAI, 2017	浙江大学｜新加坡国立大学
DeepFM：基于因子分解机的CTR预测神经网络｜DeepFM	IJCAI, 2017	哈尔滨工业大学｜华为诺亚方舟实验室
xDeepFM：结合显式和隐式特征交互的推荐系统｜xDeepFM	KDD, 2018	中国科学技术大学
用于点击率预测的深度兴趣网络｜DIN	KDD, 2018	阿里巴巴集团

讨论

如果您对该项目有任何建议或问题，可以在Issue中留言。
微信：

RecLearn 快速上手指南

RecLearn 是一个基于 Python 和 TensorFlow 2.x 的推荐系统学习框架，专为初学者和学生设计。它涵盖了工业界推荐的两个核心阶段：召回（Matching）与排序（Ranking）。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / macOS / Windows
Python 版本：3.8 或更高版本
核心依赖：
- TensorFlow 2.5+ (支持 GPU 或 CPU)
- scikit-learn 0.23+
- NumPy 1.17+
- pandas 1.0.5+

提示：建议使用虚拟环境（如 venv 或 conda）进行隔离安装。

2. 安装步骤

您可以通过 PyPI 直接安装，也可以从源码克隆以获取最新示例代码。

方式一：通过 pip 安装（推荐）

pip install reclearn

方式二：本地源码安装

如果您需要运行官方示例或修改模型底层代码，建议克隆仓库：

git clone -b reclearn git@github.com:ZiyaoGeng/RecLearn.git
cd RecLearn

3. 基本使用

以下以**召回阶段（Matching）**的经典模型 BPR 为例，展示从数据加载到模型训练的最简流程。

第一步：划分数据集

设置原始数据路径，并调用内置方法将数据划分为训练集、验证集和测试集。此处以 ml-1m 数据集为例：

from reclearn.data import ml

file_path = 'data/ml-1m/ratings.dat'

# 自动划分数据集，meta_path 包含用户和物品的最大索引信息
train_path, val_path, test_path, meta_path = ml.split_seq_data(file_path=file_path)

第二步：加载数据

加载处理后的数据，并为每个正样本生成指定数量的负样本（用于 BPR 损失计算）。

neg_num = 4  # 负采样数量
max_item_num = ... # 从 meta_path 解析获取的最大物品数

# 加载通用推荐模型数据
train_data = ml.load_data(train_path, neg_num, max_item_num)
val_data = ml.load_data(val_path, neg_num, max_item_num)
test_data = ml.load_data(test_path, neg_num, max_item_num)

第三步：配置超参数

定义模型所需的参数字典：

model_params = {
    'user_num': max_user_num + 1,
    'item_num': max_item_num + 1,
    'embed_dim': 64,          # 嵌入维度
    'use_l2norm': True,       # 是否使用 L2 正则
    'embed_reg': 1e-4         # 正则化系数
}

第四步：构建与编译模型

实例化模型并使用 Adam 优化器进行编译：

from reclearn.models.matching import BPR
from tensorflow.keras.optimizers import Adam

model = BPR(**model_params)
model.compile(optimizer=Adam(learning_rate=0.001))

# 可选：查看模型结构
# model.summary()

第五步：训练与评估

执行训练循环，并在每个 epoch 结束后在测试集上评估指标（HR, MRR, NDCG）：

import time
from reclearn.evaluation import eval_pos_neg

epochs = 10
batch_size = 256
k = 10 # Top-K

for epoch in range(1, epochs + 1):
    t1 = time.time()
    
    # 训练
    model.fit(
        x=train_data,
        epochs=1,
        validation_data=val_data,
        batch_size=batch_size
    )
    
    t2 = time.time()
    
    # 评估
    eval_dict = eval_pos_neg(model, test_data, ['hr', 'mrr', 'ndcg'], k, batch_size)
    
    print('Iteration %d Fit [%.1f s], Evaluate [%.1f s]: HR = %.4f, MRR = %.4f, NDCG = %.4f'
          % (epoch, t2 - t1, time.time() - t2, eval_dict['hr'], eval_dict['mrr'], eval_dict['ndcg']))

注意：排序阶段（Ranking）的使用逻辑类似，主要区别在于数据加载格式和评估指标（如 Log Loss, AUC），具体可参考仓库中的 example 目录。

版本历史

1.0.162022/04/23

v1.02020/12/20

常见问题

AttRec 模型在预测时是否使用了真实的下一个正样本（Next positive item），导致数据泄露？如何正确计算 pos_scores 和 neg_scores？

DIN 模型中 seq_inputs 的正确形状（shape）是什么？

AFM 模型代码中是否缺少一次项（w0 + wx）？如何实现？

FM 和 Wide&Deep 模型中，为什么要在 inputs 上加上 index_mapping？它的作用是什么？

运行 Wide&Deep 模型时报错 ValueError: "input_length" is 1, but received input has shape (None,)，如何解决？

DIN 模型中 BatchNormalization 层的 training 参数是否需要手动指定？

FM 模型中 first_order 部分的代码 `tf.nn.embedding_lookup(self.w, inputs)` 是如何等价于论文中的 w*x 的？

项目目前使用 CSV/TXT/PKL 加载数据，工业界如何使用？是否有 TFRecords 支持？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架