iTransformer

2.1k 342 简单 1 次阅读昨天MIT语言模型

AI 解读由 AI 自动生成，仅供参考

iTransformer 是一款专为多变量时间序列预测设计的开源深度学习模型，其核心成果曾入选 ICLR 2024 焦点论文。传统 Transformer 架构在处理时间序列时往往面临效率与精度的瓶颈，而 iTransformer 通过一种巧妙的“倒置”策略解决了这一痛点：它不再将时间步视为令牌，而是将每一个独立的变量（如温度、流量等）作为令牌输入。

这种独特的架构设计使得模型能够利用注意力机制直接捕捉不同变量间复杂的相互关联，同时通过标准的层归一化和前馈网络高效学习序列特征。值得注意的是，这一突破无需修改 Transformer 的任何内部模块，仅通过调整输入视角便实现了性能飞跃，在多个高难度预测任务中达到了业界领先的水平。

iTransformer 非常适合人工智能研究人员、数据科学家以及从事时序分析的开发人员使用。无论是希望复现前沿学术成果的研究者，还是需要在交通流量、气象预测或能源管理等场景中构建高精度预测系统的工程师，都能从中受益。项目提供了完整的训练脚本、预集成包（如支持 pip 安装及融入 NeuralForecast 库）以及详细的实验指南，帮助用户轻松上手并验证效果。

使用场景

某大型连锁零售企业的供应链团队正利用历史销售数据，预测未来三个月内全国 500 家门店、数千种商品的销量，以优化库存调配。

没有 iTransformer 时

变量关联捕捉弱：传统 Transformer 将时间步作为 Token，难以有效建模不同商品（变量）之间复杂的相互影响（如促销联动效应）。
长序列预测失真：面对长达数月的历史数据，模型在长周期预测中容易出现误差累积，导致远期销量预估严重偏离实际。
多变量扩展困难：随着门店和 SKU 数量增加，输入维度爆炸式增长，原有架构计算效率低下且难以收敛。
调参成本高昂：为了适配多变的时间序列特征，需要反复修改 Transformer 内部结构或尝试多种变体，开发周期漫长。

使用 iTransformer 后

精准捕捉多维关联：iTransformer 创新性地将独立时间序列视为变量 Token，通过注意力机制直接学习商品间的多元相关性，显著提升了连带销售的预测精度。
长周期表现稳健：得益于倒置架构对序列表示的强化学习，即使在 96 步以上的长看背窗口下，依然保持了业界领先的预测准确率，减少了库存积压风险。
高效处理高维数据：无需修改任何 Transformer 模块即可原生支持大规模多变量输入，轻松应对成千上万条并行时间序列的训练任务。
部署简洁通用：直接复用标准 Transformer 组件，通过简单的脚本即可复现 SOTA 效果，大幅降低了从实验到生产环境的落地门槛。

iTransformer 通过“倒置”视角彻底解决了多变量时间序列建模的核心痛点，让复杂的全局销量预测变得既精准又高效。

运行环境要求

操作系统

未说明

GPU

未说明（但脚本中包含 FlashAttention 加速选项，通常暗示需要 NVIDIA GPU）

内存

未说明

依赖

notesREADME 未明确列出具体版本要求，仅指示通过 'pip install -r requirements.txt' 安装依赖。项目支持使用 FlashAttention 进行加速训练。数据集需从 Google Drive 或百度网盘单独下载。该模型已被集成到 NeuralForecast 和 GluonTS 库中，也可通过 'pip install iTransformer' 直接安装变体包。

python未说明

torch (PyTorch)

requirements.txt 中列出的其他依赖

快速开始

iTransformer

该仓库是论文《iTransformer：反转Transformer在时间序列预测中有效》的官方实现。[幻灯片]，[海报]，[中文介绍]。

更新

:triangular_flag_on_post: 新闻（2024.10）TimeXer发布，这是一种用于外生变量预测的Transformer模型。代码可在这里获取。

:triangular_flag_on_post: 新闻（2024.05）非常感谢lucidrains的出色工作。可以通过pip install iTransformer轻松安装iTransformer变体的pip包。

:triangular_flag_on_post: 新闻（2024.04）iTransformer已被纳入NeuralForecast。特别感谢贡献者@Marco！

:triangular_flag_on_post: 新闻（2024.03）我们工作的中文介绍已发布。

:triangular_flag_on_post: 新闻（2024.02）iTransformer已被接受为ICLR 2024 Spotlight。

:triangular_flag_on_post: 新闻（2023.12）iTransformer已在GluonTS中提供概率性头部和静态协变量支持。笔记本可在这里找到。

:triangular_flag_on_post: 新闻（2023.12）我们收到了许多宝贵的建议。现已发布修订版（24页）。

:triangular_flag_on_post: 新闻（2023.10）iTransformer已被纳入[Time-Series-Library]，并在Lookback-$96$预测任务中达到最先进水平。

:triangular_flag_on_post: 新闻（2023.10）我们论文中所有实验脚本现已公开。

简介

🌟 考虑到多变量时间序列的特点，iTransformer在不修改任何Transformer模块的情况下打破了传统结构。在MTSF中，反转Transformer就是你需要的一切。

🏆 iTransformer在具有挑战性的多变量预测任务中实现了全面的最先进性能，并解决了Transformer在大量时间序列数据上的几个痛点。

整体架构

iTransformer将独立的时间序列视为变量标记，通过注意力机制捕捉多变量相关性，并利用层归一化和前馈网络学习序列表示。

iTransformer的伪代码如下所示，非常简单：

使用方法

安装PyTorch及必要的依赖项。

pip install -r requirements.txt

数据集可从Google Drive或百度网盘获取。
训练并评估模型。我们在./scripts/文件夹下提供了上述所有任务的脚本。你可以按照以下示例重现结果：

# 使用iTransformer进行多变量预测
bash ./scripts/multivariate_forecasting/Traffic/iTransformer.sh

# 比较Transformer和iTransformer的性能
bash ./scripts/boost_performance/Weather/iTransformer.sh

# 使用部分变量训练模型，并推广到未见过的变量
bash ./scripts/variate_generalization/ECL/iTransformer.sh

# 测试在扩大lookback窗口下的性能
bash ./scripts/increasing_lookback/Traffic/iTransformer.sh

# 利用FlashAttention加速
bash ./scripts/efficient_attentions/iFlashTransformer.sh

多变量预测的主要结果

我们在具有挑战性的多变量预测基准测试上评估了iTransformer（通常包含数百个变量）。取得了全面的良好性能（MSE/MAE ↓）。

支付宝交易平台在线交易负载预测（平均结果）

Transformer的通用性能提升

通过引入所提出的框架，Transformer及其变体实现了显著的性能提升，这表明了iTransformer方法的通用性，并且能够受益于高效的注意力机制。

零样本变量泛化

从技术上讲，iTransformer能够预测任意数量的变量。我们在部分变量上训练iTransformer，并对未见过的变量进行了预测，表现出良好的泛化能力。

模型分析

得益于反转的Transformer模块：

（左）反转Transformer能够学习更好的时间序列表示（与CKA更为相似），更有利于预测。
（右）反转自注意力模块能够学习可解释的多变量相关性。

引用

如果您觉得这个仓库有所帮助，请引用我们的论文。

@article{liu2023itransformer,
  title={iTransformer: Inverted Transformers Are Effective for Time Series Forecasting},
  author={Liu, Yong and Hu, Tengge and Zhang, Haoran and Wu, Haixu and Wang, Shiyu and Ma, Lintao and Long, Mingsheng},
  journal={arXiv preprint arXiv:2310.06625},
  year={2023}
}

致谢

我们非常感谢以下GitHub仓库提供的宝贵代码和努力：

Reformer (https://github.com/lucidrains/reformer-pytorch)
Informer (https://github.com/zhouhaoyi/Informer2020)
FlashAttention (https://github.com/shreyansh26/FlashAttention-PyTorch)
Autoformer (https://github.com/thuml/Autoformer)
Stationary (https://github.com/thuml/Nonstationary_Transformers)
Time-Series-Library (https://github.com/thuml/Time-Series-Library)
lucidrains (https://github.com/lucidrains/iTransformer)

本研究得到了蚂蚁集团通过CCF-蚂蚁科研基金的支持，并被评为CCF基金优秀项目。

联系方式

如果您有任何问题或想使用该代码，请随时联系：

iTransformer 快速上手指南

iTransformer 是一种针对多元时间序列预测（MTSF）的创新架构。它通过将独立的时间序列视为变量令牌（Variate Tokens），利用注意力机制捕捉多元相关性，无需修改 Transformer 内部模块即可实现卓越的性能。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux 或 macOS（Windows 需配合 WSL 使用）
Python 版本：推荐 Python 3.8 及以上
核心框架：PyTorch (GPU 版本推荐)
硬件要求：建议使用 NVIDIA GPU 以加速训练和推理过程

安装步骤

您可以选择通过源码安装或使用 pip 直接安装变体包。

方式一：源码安装（推荐，包含完整实验脚本）

克隆仓库并进入目录：

git clone https://github.com/thuml/iTransformer.git
cd iTransformer

安装依赖项：
```
pip install -r requirements.txt
```
提示：国内用户若下载依赖较慢，可指定清华源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：PyPI 安装（仅使用模型变体）

如果您只需调用模型而不需要复现论文实验，可直接安装由社区维护的包：

pip install iTransformer

数据集准备

本项目所需的数据集可通过以下国内镜像下载：

百度网盘：点击下载 (提取码：9qjr)
Google Drive：备用链接

下载后请将数据解压至项目适当目录（通常与脚本中的路径配置对应）。

基本使用

安装完成后，您可以直接运行提供的脚本来复现论文结果或进行训练评估。所有脚本均位于 ./scripts/ 目录下。

1. 多元时间序列预测

以下命令演示如何在 Traffic 数据集上训练并评估 iTransformer 模型：

bash ./scripts/multivariate_forecasting/Traffic/iTransformer.sh

2. 性能对比实验

对比原始 Transformer 与 iTransformer 在 Weather 数据集上的表现：

bash ./scripts/boost_performance/Weather/iTransformer.sh

3. 零样本泛化能力测试

在部分变量上训练模型，并测试其对未见变量的泛化能力（以 ECL 数据集为例）：

bash ./scripts/variate_generalization/ECL/iTransformer.sh

4. 加速推理（可选）

如果您的环境支持 FlashAttention，可使用以下脚本进行加速训练：

bash ./scripts/efficient_attentions/iFlashTransformer.sh

注意：运行上述 .sh 脚本前，请确保已赋予执行权限（chmod +x ./scripts/**/*.sh）或在 Bash 环境中直接调用。具体超参数和数据路径可在对应的 shell 脚本中查看和修改。

常见问题

为什么预测结果中会出现负数，而真实值都是正数？

iTransformer 如何区分不同的变量（Token），是否使用了位置编码？

在 PEMS 数据集上长步长（如 96 步）预测效果差，无法复现论文结果怎么办？

在 Mac (M1/M2) 上使用 MPS 运行脚本预测效果很差怎么办？

训练时数据顺序被打乱，模型还能学习时间与销售量的关系吗？

使用 MS 模式训练预测后，输出结果如何对应到真实的 'OT' 列数值？

Exchange Rate 数据集预测结果是一条直线或平均值，是否正常？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|6天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

gpt4all

GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。

★ 77.3k|★☆☆☆☆|5天前

语言模型开发框架