Multimodal-Toolkit

621 92 简单 1 次阅读 4天前Apache-2.0数据工具图像语言模型其他

AI 解读由 AI 自动生成，仅供参考

Multimodal-Toolkit 是一款专为机器学习任务设计的开源工具，旨在帮助开发者轻松构建融合文本与表格数据的多模态模型。在实际应用中，许多场景（如电商评论分析、房价预测或宠物领养评估）既包含丰富的文本描述，又依赖结构化的数值或类别特征。传统方法往往难以高效地将这两类异构数据结合，而 Multimodal-Toolkit 通过引入一个独特的“组合模块”，巧妙地将 Hugging Face Transformers 提取的文本特征与表格数据（分类及数值特征）进行深度融合，从而生成更丰富的多模态表示，显著提升分类和回归任务的预测效果。

该工具基于 PyTorch 开发，原生支持 BERT、RoBERTa、DistilBERT、ALBERT 等多种主流预训练语言模型。用户只需少量配置，即可利用现有的预训练模型，针对特定监督任务微调组合模块与变压器参数。无论是需要快速验证想法的数据科学家，还是希望深入探索多模态融合技术的算法工程师，都能通过其清晰的文档和内置的 Kaggle 数据集示例快速上手。如果你正在寻找一种简洁高效的方式来打破文本与表格数据之间的壁垒，Multimodal-Toolkit 将是一个值得尝试的专业选择。

使用场景

某电商数据科学团队正致力于构建一个智能评论情感分析系统，旨在结合用户评论文本与订单结构化数据（如购买金额、用户等级）来精准预测客户满意度。

没有 Multimodal-Toolkit 时

特征融合困难：团队需手动编写复杂代码将 BERT 提取的文本向量与表格数值特征拼接，容易出错且难以维护。
模型架构割裂：通常只能分别训练文本模型和表格模型，后期再通过加权平均强行合并，导致信息交互不充分，预测精度受限。
开发效率低下：每次尝试不同的预训练模型（如从 BERT 切换到 RoBERTa）都需要重构整个数据输入管道，耗时耗力。
调优成本高昂：缺乏统一的联合训练机制，难以同时优化文本编码器与表格特征权重，导致模型收敛慢且效果不稳定。

使用 Multimodal-Toolkit 后

一键式多模态融合：利用内置的组合模块，自动将 HuggingFace transformers 输出的文本特征与分类、数值特征无缝整合，生成丰富的多模态表示。
端到端联合训练：支持基于监督任务同时微调预训练变压器参数和组合模块，让文本与表格数据在深层网络中充分交互，显著提升预测准确率。
灵活模型切换：只需更改配置即可轻松切换 BERT、ALBERT 或 XLM-RoBERTa 等主流底座，无需重写任何数据处理逻辑。
标准化工作流：提供针对分类和回归任务的预设架构，大幅缩短从数据准备到模型部署的周期，让团队能专注于业务逻辑优化。

Multimodal-Toolkit 通过标准化多模态数据融合流程，让开发者能低成本地释放“文本 + 表格”数据的联合价值，实现更精准的業務预测。

运行环境要求

操作系统

未说明

GPU

未说明 (基于 PyTorch，通常支持 CPU 或 NVIDIA GPU，具体取决于所选 Transformer 模型大小)

内存

未说明

依赖

notes该工具主要用于结合文本数据与表格数据（分类和数值特征）。代码开发于 Python 3.7 环境，依赖 Hugging Face Transformers 4.26.1 版本。安装可通过 pip 直接安装 'multimodal-transformers' 包。运行示例需要提供包含列信息的 JSON 配置文件以及 CSV 格式的数据集。

python3.7

torch

transformers==4.26.1

快速开始

多模态 Transformer | 带有表格数据的 Transformer

文档 | Colab 笔记本 | 博客文章

一个用于在文本数据基础上整合多模态数据的工具包，适用于分类和回归任务。它以 HuggingFace 的 Transformer 模型作为文本特征的基础模型。该工具包添加了一个组合模块，该模块不仅接收 Transformer 的输出，还结合类别型和数值型特征，从而生成丰富的多模态特征，供下游的分类或回归层使用。给定一个预训练的 Transformer，组合模块和 Transformer 的参数会根据监督任务进行联合训练。如需简要的文献综述，请参阅 Georgian 影响力博客上的配套博客文章。

安装

代码是在 Python 3.7 环境下，使用 PyTorch 和 Transformers 4.26.1 开发的。多模态相关的代码位于 multimodal_transformers 文件夹中。

pip install multimodal-transformers

支持的 Transformer 模型

以下 Hugging Face Transformer 模型支持处理表格数据。详细信息请参阅文档这里。

BERT 来自 Devlin 等人：BERT：面向语言理解的深度双向 Transformer 预训练（ACL 2019）
ALBERT 来自 Lan 等人：ALBERT：用于语言表示自监督学习的轻量级 BERT（ICLR 2020）
DistilBERT 来自 Sanh 等人： DistilBERT，BERT 的精简版：更小、更快、更便宜、更轻（NeurIPS 2019）
RoBERTa 来自 Liu 等人：RoBERTa：一种鲁棒优化的 BERT 预训练方法
XLM 来自 Lample 等人：跨语言语言模型预训练（NeurIPS 2019）
XLNET 来自 Yang 等人： XLNet：面向语言理解的广义自回归预训练（NeurIPS 2019）
XLM-RoBERTa 来自 Conneau 等人：大规模无监督跨语言表示学习（ACL 2020）

包含的数据集

此仓库还包括两个 Kaggle 数据集，其中包含文本数据和丰富的表格特征：

女性服装电商评论用于推荐预测（分类）
墨尔本 Airbnb 开放数据用于价格预测（回归）
PetFindermy 认养预测用于宠物认养速度预测（多分类）

示例用法

要快速查看这些模型在上述某个数据集上的运行效果，并使用预设配置：

$ python main.py ./datasets/Melbourne_Airbnb_Open_Data/train_config.json

或者，如果您更喜欢使用命令行参数，可以运行：

$ python main.py \
    --output_dir=./logs/test \
    --task=classification \
    --combine_feat_method=individual_mlps_on_cat_and_numerical_feats_then_concat \
    --do_train \
    --model_name_or_path=distilbert-base-uncased \
    --data_path=./datasets/Womens_Clothing_E-Commerce_Reviews \
    --column_info_path=./datasets/Womens_Clothing_E-Commerce_Reviews/column_info.json

main.py 需要一个 json 文件，详细说明数据集中哪些列包含文本、类别型或数值型输入特征。此外，还需要指定存储数据的文件夹路径，其中应包含 train.csv 和 test.csv（如果有的话，还包括 val.csv）。有关参数的更多详细信息，请参阅 multimodal_exp_args.py。

笔记本介绍

要在笔记本中查看各个模块如何协同工作：

包含的方法

组合特征方法	描述	是否需要类别型和数值型特征
仅文本	仅使用由 HuggingFace Transformer 处理后的文本列作为最终分类器层的输入。本质上等同于 HuggingFace 的 `ForSequenceClassification` 模型	否
拼接	在最终分类器层之前，将 Transformer 输出、数值型特征和类别型特征一次性拼接起来	否
对类别型特征进行 MLP 处理后再拼接	先对类别型特征应用 MLP，再将 Transformer 输出、数值型特征以及处理后的类别型特征拼接在一起，最后送入分类器层	否（需要类别型特征）
分别对类别型和数值型特征应用 MLP 再拼接	分别对类别型和数值型特征应用 MLP，然后将 Transformer 输出、处理过的数值型特征以及处理过的类别型特征拼接起来，再送入分类器层。	否
对拼接后的类别型和数值型特征应用 MLP 再拼接	先对拼接后的类别型和数值型特征应用 MLP，再与 Transformer 输出拼接，最后送入分类器层。	是
对类别型和数值型特征应用注意力机制	基于注意力机制，将 Transformer 输出、数值型特征和类别型特征加权求和，由 Transformer 输出查询后送入分类器层。	否
对类别型和数值型特征进行门控加权求和	在分类器层之前，对 Transformer 输出、数值型特征和类别型特征进行门控加权求和。灵感来源于论文在大型预训练 Transformer 中整合多模态信息，该论文为每个 token 执行了类似机制。	否
对 Transformer 输出、数值型特征和类别型特征按特征维度进行加权求和	学习每个特征维度上 Transformer 输出、数值型特征和类别型特征的加权求和，然后再送入分类器层。	否

简单的基线模型

在实际应用中，直接将类别型和数值型特征原样处理，仅对其进行分词，并将其作为额外的文本句子与文本列拼接起来，便是一个强大的基线方法。为此，只需将所有类别型和数值型列指定为文本列，并将 combine_feat_method 设置为 text_only。例如，对于 ./datasets 中包含的每个示例数据集，在 train_config.json 文件中将 combine_feat_method 改为 text_only，并将 column_info_path 改为 ./datasets/{dataset}/column_info_all_text.json。

在下文的实验中，该基线对应于“Combine Feat Method”为 unimodal 的情况。

结果

以下表格展示了在两个包含的数据集各自测试集上的实验结果，运行命令为 main.py。未指定的参数均采用默认值。

评论预测

具体的训练参数可在 datasets/Womens_Clothing_E-Commerce_Reviews/train_config.json 中查看。

数据集中包含 2 列文本、3 列类别型特征和 3 列数值型特征。

模型	Combine Feat Method	F1	PR AUC
Bert Base Uncased	text_only	0.957	0.992
Bert Base Uncased	unimodal	0.968	0.995
Bert Base Uncased	concat	0.958	0.992
Bert Base Uncased	individual_mlps_on_cat_and_numerical_feats_then_concat	0.959	0.992
Bert Base Uncased	attention_on_cat_and_numerical_feats	0.959	0.992
Bert Base Uncased	gating_on_cat_and_num_feats_then_sum	0.961	0.994
Bert Base Uncased	weighted_feature_sum_on_transformer_cat_and_numerical_feats	0.962	0.994

定价预测

具体的训练参数可在 datasets/Melbourne_Airbnb_Open_Data/train_config.json 中查看。

数据集中包含 3 列文本、74 列类别型特征和 15 列数值型特征。

模型	Combine Feat Method	MAE	RMSE
Bert Base Multilingual Uncased	text_only	82.74	254.0
Bert Base Multilingual Uncased	unimodal	79.34	245.2
Bert Base Uncased	concat	65.68	239.3
Bert Base Multilingual Uncased	individual_mlps_on_cat_and_numerical_feats_then_concat	66.73	237.3
Bert Base Multilingual Uncased	attention_on_cat_and_numerical_feats	74.72	246.3
Bert Base Multilingual Uncased	gating_on_cat_and_num_feats_then_sum	66.64	237.8
Bert Base Multilingual Uncased	weighted_feature_sum_on_transformer_cat_and_numerical_feats	71.19	245.2

宠物领养预测

具体的训练参数可在 datasets/PetFindermy_Adoption_Prediction 中查看。

数据集中包含 2 列文本、14 列类别型特征和 5 列数值型特征。

模型	Combine Feat Method	F1_macro	F1_micro
Bert Base Multilingual Uncased	text_only	0.088	0.281
Bert Base Multilingual Uncased	unimodal	0.089	0.283
Bert Base Uncased	concat	0.199	0.362
Bert Base Multilingual Uncased	individual_mlps_on_cat_and_numerical_feats_then_concat	0.244	0.352
Bert Base Multilingual Uncased	attention_on_cat_and_numerical_feats	0.254	0.375
Bert Base Multilingual Uncased	gating_on_cat_and_num_feats_then_sum	0.275	0.375
Bert Base Multilingual Uncased	weighted_feature_sum_on_transformer_cat_and_numerical_feats	0.266	0.380

引用

我们现在有一篇关于多模态工具包的论文，您可以引用：论文链接。

@inproceedings{gu-budhkar-2021-package,
    title = "A Package for Learning on Tabular and Text Data with Transformers",
    author = "Gu, Ken  and
      Budhkar, Akshay",
    booktitle = "Proceedings of the Third Workshop on Multimodal Artificial Intelligence",
    month = jun,
    year = "2021",
    address = "Mexico City, Mexico",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.maiworkshop-1.10",
    doi = "10.18653/v1/2021.maiworkshop-1.10",
    pages = "69--73",
}

Multimodal-Toolkit 快速上手指南

Multimodal-Toolkit 是一个用于结合文本数据与表格数据（分类/数值特征）进行多模态学习的工具包。它基于 Hugging Face Transformers，通过特定的融合模块将 Transformer 的输出与结构化数据结合，以提升分类和回归任务的效果。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python 版本：推荐 Python 3.7 及以上
核心依赖：
- PyTorch
- Transformers (测试版本为 4.26.1)

提示：国内用户安装 PyTorch 时，建议使用官方提供的国内镜像源加速下载。例如： pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 (根据具体 CUDA 版本调整)

安装步骤

您可以直接通过 pip 安装该工具包：

pip install multimodal-transformers

如果您需要指定国内镜像源以加快安装速度，可以使用：

pip install multimodal-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

1. 数据配置准备

main.py 脚本需要一个 JSON 配置文件来定义数据列的类型（文本、分类、数值）。您需要准备以下文件：

数据文件：train.csv, test.csv (可选 val.csv)
列信息文件：column_info.json (描述哪些列是文本、分类或数值特征)

2. 运行示例

方式一：使用预设配置文件运行

如果您已经准备好了类似项目中示例的配置文件（如 train_config.json），可以直接运行：

python main.py ./datasets/Melbourne_Airbnb_Open_Data/train_config.json

方式二：使用命令行参数运行

您也可以通过命令行参数灵活指定任务类型、模型路径和数据位置。以下是一个典型的分类任务示例：

python main.py \
    --output_dir=./logs/test \
    --task=classification \
    --combine_feat_method=individual_mlps_on_cat_and_numerical_feats_then_concat \
    --do_train \
    --model_name_or_path=distilbert-base-uncased \
    --data_path=./datasets/Womens_Clothing_E-Commerce_Reviews \
    --column_info_path=./datasets/Womens_Clothing_E-Commerce_Reviews/column_info.json

关键参数说明：

--model_name_or_path: 指定使用的 Hugging Face 预训练模型（如 bert-base-uncased, roberta-base 等）。
--combine_feat_method: 指定多模态特征融合策略。常用选项包括：
- text_only: 仅使用文本特征（基线）。
- concat: 直接拼接所有特征。
- individual_mlps_on_cat_and_numerical_feats_then_concat: 对分类和数值特征分别通过 MLP 处理后，再与文本特征拼接（推荐尝试）。
- attention_on_cat_and_numerical_feats: 基于注意力机制融合特征。
--task: 任务类型，classification (分类) 或 regression (回归)。

3. 在线体验 (Colab)

如果您希望先在浏览器中快速体验代码逻辑而无需配置本地环境，可以使用官方提供的 Colab Notebook：

(注：国内访问 Colab 可能需要网络代理，如遇连接问题建议参考上述命令行方式进行本地部署)

版本历史

v_0.42024/09/24

v_0.3.12023/11/14

v_0.2-alpha2023/03/10

v_0.1.4-alpha2020/09/08

v_0.1.3-alpha2020/10/22

常见问题

如何在推理时仅使用文本特征（而不使用表格特征）？

运行推理时遇到 'Wrong shape for input_ids' 或维度不匹配的错误怎么办？

如何保存预处理对象（如 OneHotEncoder, Scaler）以便在生产环境中进行推理？

加载数据集时出现与分类特征相关的错误如何解决？

推理数据集没有标签列（label column），但 load_data 函数要求必须有，该如何处理？

运行 main.py 时遇到 'OurTrainingArguments object has no attribute deepspeed_plugin' 错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|6天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|3天前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|6天前

语言模型图像Agent