TALENT

GitHub
834 55 简单 1 次阅读 2天前MIT其他数据工具开发框架
AI 解读 由 AI 自动生成,仅供参考

TALENT 是一个专为表格数据学习打造的综合工具箱与基准测试平台,旨在解决表格数据处理中模型选择困难、评估标准不一以及复现成本高等痛点。它集成了超过 35 种前沿深度学习方法和 10 余种经典算法,并提供了涵盖多领域、不同规模分布的 300 个多样化数据集,让用户能在统一框架下高效对比和验证模型性能。

无论是刚入门的数据科学新手,还是深耕算法的研究人员或开发者,都能从 TALENT 中获益。它不仅内置了强大的数据预处理、归一化及编码功能,还支持灵活的超参数调优,极大地降低了实验门槛。其独特的技术亮点在于极高的可扩展性,用户可以轻松添加自定义数据集或新算法,同时支持多种评估指标,满足不同场景需求。此外,项目持续更新,不断纳入如 RFM、Real-TabPFN 等最新科研成果,确保用户始终能接触到领域内的最先进技术。通过提供标准化的实验环境与丰富的资源,TALENT 致力于推动表格数据深度学习领域的规范化发展与技术创新。

使用场景

某金融科技公司数据团队正面临构建高精度用户信用评分模型的挑战,需在有限时间内从数百个特征中挖掘最佳预测方案。

没有 TALENT 时

  • 模型选型盲目:团队仅依赖熟悉的 XGBoost 或基础神经网络,难以判断最新的深度学习方法(如 Real-TabPFN)是否更适合当前稀疏的表格数据,容易陷入局部最优。
  • 数据准备繁琐:面对 300+ 种不同分布的数据集,需手动编写大量代码进行清洗、归一化和编码,预处理流程重复且易出错,消耗了 80% 的开发时间。
  • 基准对比缺失:缺乏统一的评估框架,无法在相同条件下公平对比 35+ 种深度学习算法与经典方法的性能,导致模型迭代方向模糊。
  • 复现成本高昂:尝试复现论文中的 SOTA 模型时,常因环境配置复杂或缺少标准超参数设置而失败,研发周期被无限拉长。

使用 TALENT 后

  • 智能模型匹配:直接调用 TALENT 内置的 35+ 种前沿深度方法及 10+ 种经典算法,快速在统一基准下筛选出最适合信用评分任务的模型组合。
  • 自动化预处理:利用其强大的预处理模块,一键完成多样化的归一化与编码操作,自动适配 300+ 数据集特性,将数据准备时间缩短至原来的 20%。
  • 全方位性能洞察:基于标准化评测体系,清晰量化各模型在不同指标下的表现,迅速定位到比传统树模型提升 5% AUC 的最佳深度学习架构。
  • 开箱即用体验:无需纠结环境配置与超参数微调,直接加载预置配置即可复现顶尖论文效果,让团队专注于业务逻辑优化而非底层工程搭建。

TALENT 通过提供标准化的全链路工具箱,将表格数据学习的试错成本降至最低,助力团队在极短时间内交付业界领先的预测模型。

运行环境要求

操作系统
  • 未说明
GPU

未说明(工具包含多种深度学习模型如 TabPFN、Transformer 等,通常建议配备 NVIDIA GPU 以加速训练,但 README 未明确最低显存或 CUDA 版本要求)

内存

未说明(考虑到包含 300 个数据集及大型基准测试,建议 16GB 以上)

依赖
notesREADME 中明确标注了 PyTorch 2.0.1 和 Python 3.10 的版本徽章。该工具箱集成了 30 多种深度学习架构(包括 TabPFN、TabNet、Transformer 变体等)及 300 个数据集。虽然未明确列出操作系统和 GPU 硬性指标,但鉴于其深度学习特性,建议在支持 CUDA 的 Linux 环境下运行以获得最佳性能。部分预训练模型(如 TabPFN)可能需要较大的内存加载。
python3.10
torch==2.0.1
scikit-learn
pandas
numpy
TALENT hero image

快速开始


PyTorch - Version Python - Version Documentation Status

TALENT:一个表格数据分析与学习工具箱

[论文] [中文解读] [文档]


🎉 简介

欢迎使用 TALENT,这是一个专为提升表格数据上模型性能而设计的、包含全面机器学习工具集的基准测试平台。TALENT 集成了先进的深度学习模型、经典算法以及高效的超参数调优方法,并提供强大的预处理功能,以优化从表格数据集中进行学习的效果。该工具箱易于使用且高度可扩展,能够满足初学者和资深数据科学家的需求。

TALENT 具有以下优势:

  • 方法多样:涵盖多种经典方法、基于树的方法以及最新的热门深度学习方法。
  • 丰富的数据集集合:配备 300 个数据集,覆盖广泛的任务类型、规模分布及数据领域。
  • 可定制性:可轻松添加新的数据集和方法。
  • 多功能支持:支持多种归一化、编码和评估指标。

📚 引用 TALENT

如果您在工作中使用了本仓库中的任何内容,请引用以下 BibTeX 条目:

@article{ye2024closerlookdeeplearning,
         title={A Closer Look at Deep Learning on Tabular Data}, 
         author={Han-Jia Ye and 
         		 Si-Yang Liu and 
         		 Hao-Run Cai and 
         		 Qi-Le Zhou and 
         		 De-Chuan Zhan},
         journal={arXiv preprint arXiv:2407.00956},
         year={2024}
}

@article{JMLR:v26:25-0512,
  author  = {Si-Yang Liu and
			 Hao-Run Cai and
 			 Qi-Le Zhou and
			 Huai-Hong Yin and
			 Tao Zhou and
			 Jun-Peng Jiang and
			 Han-Jia Ye},
  title   = {Talent: A Tabular Analytics and Learning Toolbox},
  journal = {Journal of Machine Learning Research},
  year    = {2025},
  volume  = {26},
  number  = {226},
  pages   = {1--16},
  url     = {http://jmlr.org/papers/v26/25-0512.html}
}

📰 最新动态

🌟 方法

TALENT整合了30余种针对表格数据的深度学习架构,其中包括但不限于:

  1. MLP:多层神经网络,根据RTDL实现。
  2. ResNet:一种在多层之间使用跳跃连接的深度神经网络,同样根据RTDL实现。
  3. SNN:一种类似MLP的架构,采用SELU激活函数,有助于训练更深的神经网络。
  4. DANets:一种旨在通过将相关特征分组并降低计算复杂度来增强表格数据处理能力的神经网络。
  5. TabCaps:一种胶囊网络,将一条记录的所有特征值封装为向量特征。
  6. DCNv2:由一个类似MLP的模块与特征交叉模块组成,该模块包含线性层和乘法操作。
  7. NODE:一种模仿树结构的方法,推广了无记忆决策树,结合基于梯度的优化与层次化表示学习。
  8. GrowNet:一个梯度提升框架,使用浅层神经网络作为弱学习器。
  9. TabNet:一种利用序列注意力进行特征选择的树状模仿方法,具有可解释性和自监督学习能力。
  10. TabR:一种深度学习模型,集成KNN组件,通过高效的类注意力机制提升表格数据预测性能。
  11. ModernNCA:受传统邻域成分分析启发的深度表格模型,基于学习到的嵌入空间中与邻居的关系进行预测。
  12. DNNR:通过使用局部梯度和泰勒近似,提升KNN的准确性和可解释性。
  13. AutoInt:一种基于标记的方法,利用多头自注意力神经网络自动学习高阶特征交互。
  14. Saint:一种基于标记的方法,利用行和列注意力机制处理表格数据。
  15. TabTransformer:一种基于标记的方法,通过将类别特征转换为上下文嵌入来增强表格数据建模能力。
  16. FT-Transformer:一种基于标记的方法,将特征转换为嵌入,并对这些嵌入应用一系列基于注意力的变换。
  17. TANGOS:一种基于正则化的表格数据方法,利用梯度归因鼓励神经元特化和正交化。
  18. SwitchTab:一种专为表格数据设计的自监督方法,通过非对称的编码器-解码器框架改进表示学习。遵循原始论文,我们的工具包采用监督学习形式,在每个epoch同时优化重建损失和监督损失。
  19. PTaRL:一种基于正则化的框架,通过构建并投影到原型空间来提升预测性能。
  20. TabPFN:一种通用模型,涉及使用预训练的深度神经网络,可直接应用于任何表格任务。
  21. HyperFast:一种元训练的超网络,可生成特定任务的神经网络,用于即时分类表格数据。
  22. TabPTM:一种通用的表格数据方法,利用元表示标准化异构数据集,使预训练模型无需额外训练即可泛化到未见数据集。
  23. BiSHop:一个端到端的深度表格学习框架,利用可调稀疏性的稀疏霍普菲尔德模型,并辅以列级和行级模块。
  24. ProtoGate:一种基于原型的HDLSS生物医学数据特征选择模型,通过自适应的全局和局部特征选择提升预测精度和可解释性,并借助非参数化的原型机制解决共适应问题。
  25. RealMLP:一种改进的多层感知机(MLP)。
  26. MLP_PLR:一种改进的多层感知机(MLP),采用周期性激活函数。
  27. Excelformer:一种用于表格数据预测的深度学习模型,配备半透性注意力模块以应对旋转不变性、定制化数据增强以及注意力前馈网络,使其成为跨不同数据集的可靠解决方案。
  28. GRANDE:一种模仿树结构的方法,使用端到端梯度下降学习硬性、轴对齐的决策树集成。
  29. AMFormer:一种基于标记的方法,通过引入并行加法和乘法注意力机制改进变压器架构用于表格数据,并利用提示标记约束特征交互。
  30. Trompt:一种基于提示的深度神经网络,用于表格数据,将学习分为内在列特征和样本特定的重要性特征。
  31. TabM:一种基于MLP及BatchEnsemble变体的模型。
  32. TabPFN v2:一种通用模型,涉及使用预训练的深度神经网络,可直接应用于任何表格任务。
  33. T2Gformer:一种用于表格学习的Transformer网络,通过关系图引导数据处理,并使用跨层级读出机制获取全局语义用于预测。
  34. TabICL:一个可比较的表格基础模型,性能与TabPFN v2相当。
  35. TabAutoPNPNet:一个基于周期性的表格模型,特别是傅里叶变换和切比雪夫多项式,其性能与FT-Transformer相当或更优。
  36. Mitra:一个使用混合合成先验学习的表格基础模型。
  37. LimiX:一个表格基础模型,利用Transformer支持广泛的任务,从预测到插补和因果推断,所有功能均在一个统一的架构中实现。
  38. Real-TabPFN:一个增强的表格基础模型,通过对真实世界数据集持续预训练,将TabPFNv2扩展用于分类任务。
  39. RFM:一种非深度、无需反向传播的特征学习算法,迭代地将AGOP应用于核机器,以自适应方式学习特定于任务的特征。
  40. xRFM:一个表格模型,将RFM与自适应树结构相结合,使其能够学习数据子集中的局部特征,并随样本数量呈对数线性增长。

🔧 如果您想查看所有方法的默认超参数及超参数搜索空间,请访问: 👉 https://6sy666.github.io/TALENT-Configs/

☄️ 如何使用 TALENT

🕹️ 快速入门

通过 GitHub 安装最新版本:

$ pip install git+https://github.com/LAMDA-Tabular/TALENT.git@main --upgrade

尝试一个示例 train_model_deep.py


from tqdm import tqdm
from TALENT.model.utils import get_deep_args,show_results,tune_hyper_parameters,get_method,set_seeds
from TALENT.model.lib.data import get_dataset

if __name__ == '__main__':
    loss_list, results_list, time_list = [], [], []
    args,default_para,opt_space = get_deep_args()
    train_val_data,test_data,info = get_dataset(args.dataset,args.dataset_path)
    if args.tune:
        args = tune_hyper_parameters(args,opt_space,train_val_data,info)
    for seed in tqdm(range(args.seed_num)):
        args.seed = seed    # 更新随机种子  
        set_seeds(args.seed)
        method = get_method(args.model_type)(args, info['task_type'] == 'regression')
        time_cost = method.fit(train_val_data, info)    
        vl, vres, metric_name, predict_logits = method.predict(test_data, info, model_name=args.evaluate_option)
	    loss_list.append(vl)
        results_list.append(vres)
        time_list.append(time_cost)

    show_results(args,info, metric_name,loss_list,results_list,time_list)
python train_model_deep.py --model_type MODEL_NAME

供研究人员参考:

🕹️ 克隆

克隆此 GitHub 仓库:

git clone https://github.com/LAMDA-Tabular/TALENT
cd TALENT/test

🔑 运行实验

  1. 编辑 configs/default/[MODEL_NAME].jsonconfig/opt_space/[MODEL_NAME].json,以配置全局设置和超参数。

  2. 运行以下命令:

    python train_model_deep.py --model_type MODEL_NAME
    

    用于深度学习方法;或者:

    python train_model_classical.py --model_type MODEL_NAME
    

    用于传统机器学习方法。

🛠️ 如何添加新方法

对于像 MLP 类这样只需设计模型的方法,您只需:

  • 将模型类添加到 model/models
  • 继承自 model/methods/base.py,并在新类中重写 construct_model() 方法。
  • model/utils.pyget_method 函数中添加该方法的名称。
  • configs/default/[MODEL_NAME].jsonconfigs/opt_space/[MODEL_NAME].json 中添加该新方法的参数设置。

对于需要修改训练流程的其他方法,请基于 model/methods/base.py 部分重写相关函数。具体细节可参考 model/methods/ 中其他方法的实现。

更多详细信息,请参阅我们的贡献指南

📦 依赖项

   pip install -r requirements.txt

如果您想使用 TabR,则需要手动安装 faiss,而 faiss 目前仅在 conda 环境中可用:

conda install faiss-gpu -c pytorch

🗂️ 基准数据集

数据集可在 Google Drive 上获取。

📂 数据集放置方式

数据集应放置在项目的当前目录下,并与 args.dataset_path 指定的文件名相对应。例如,如果项目名为 LAMDA-TALENT,则数据应放置在 LAMDA-TALENT/args.dataset_path/args.dataset 中。

每个数据集文件夹 args.dataset 包含:

  • 数值特征:N_train/val/test.npy(如果没有数值特征,可以省略)

  • 分类特征:C_train/val/test.npy(如果没有分类特征,可以省略)

  • 标签:y_train/val/test.npy

  • info.json 文件,其中必须包含以下三项内容(task_type 可为“回归”、“多分类”或“二分类”):

    {
      "task_type": "regression", 
      "n_num_features": 10,
      "n_cat_features": 10
    }
    

📝 实验结果

我们在图中基于我们的工具箱,以公平的方式对经典方法和深度表格方法进行了全面评估。考虑了三种表格预测任务,即二分类、多分类和回归,每个子图代表一种不同的任务类型。

我们分别使用AccuracyRMSE作为分类任务和回归任务的评价指标。为了校准这些指标,我们选择了平均性能排名来比较所有方法,其中排名越低表示性能越好,遵循Sheskin (2003)的方法。效率则通过平均训练时间(以秒为单位)计算,数值越低表示时间效率越高。模型大小通过圆圈的半径直观地表示,便于快速了解模型复杂度与性能之间的权衡。

Binary classification
(a) 二分类
Multiclass Classification
(b) 多分类
Regression
(c) 回归
All tasks
(d) 所有任务

👨🏫 致谢

我们感谢以下仓库在我们的工作中提供了有用的组件/函数:

🤗 联系方式

如有任何问题,请随时通过提交 issue 提出新功能建议,或联系作者:刘思洋 (liusy@lamda.nju.edu.cn)、蔡浩然 (caihr@lamda.nju.edu.cn)、周启乐 (zhouql@lamda.nju.edu.cn)、蒋俊鹏 (jiangjp@lamda.nju.edu.cn)、殷怀宏 (yinhh@lamda.nju.edu.cn)、周涛 (zhout@lamda.nju.edu.cn)以及叶涵嘉 (yehj@lamda.nju.edu.cn)。祝您使用愉快。

🚀 星级历史

Star History Chart

感谢 LAMDA-PILOTLAMDA-ZhiJian 提供的模板。

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架