[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-thuml--iTransformer":3,"tool-thuml--iTransformer":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":16},6590,"gpt4all","nomic-ai\u002Fgpt4all","GPT4All 是一款让普通电脑也能轻松运行大型语言模型（LLM）的开源工具。它的核心目标是打破算力壁垒，让用户无需依赖昂贵的显卡（GPU）或云端 API，即可在普通的笔记本电脑和台式机上私密、离线地部署和使用大模型。\n\n对于担心数据隐私、希望完全掌控本地数据的企业用户、研究人员以及技术爱好者来说，GPT4All 提供了理想的解决方案。它解决了传统大模型必须联网调用或需要高端硬件才能运行的痛点，让日常设备也能成为强大的 AI 助手。无论是希望构建本地知识库的开发者，还是单纯想体验私有化 AI 聊天的普通用户，都能从中受益。\n\n技术上，GPT4All 基于高效的 `llama.cpp` 后端，支持多种主流模型架构（包括最新的 DeepSeek R1 蒸馏模型），并采用 GGUF 格式优化推理速度。它不仅提供界面友好的桌面客户端，支持 Windows、macOS 和 Linux 等多平台一键安装，还为开发者提供了便捷的 Python 库，可轻松集成到 LangChain 等生态中。通过简单的下载和配置，用户即可立即开始探索本地大模型的无限可能。",77307,"2026-04-11T06:52:37",[15,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":81,"owner_email":82,"owner_twitter":81,"owner_website":83,"owner_url":84,"languages":85,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":10,"env_os":98,"env_gpu":99,"env_ram":98,"env_deps":100,"category_tags":105,"github_topics":106,"view_count":10,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":145},8191,"thuml\u002FiTransformer","iTransformer","Official implementation for \"iTransformer: Inverted Transformers Are Effective for Time Series Forecasting\" (ICLR 2024 Spotlight)","iTransformer 是一款专为多变量时间序列预测设计的开源深度学习模型，其核心成果曾入选 ICLR 2024 焦点论文。传统 Transformer 架构在处理时间序列时往往面临效率与精度的瓶颈，而 iTransformer 通过一种巧妙的“倒置”策略解决了这一痛点：它不再将时间步视为令牌，而是将每一个独立的变量（如温度、流量等）作为令牌输入。\n\n这种独特的架构设计使得模型能够利用注意力机制直接捕捉不同变量间复杂的相互关联，同时通过标准的层归一化和前馈网络高效学习序列特征。值得注意的是，这一突破无需修改 Transformer 的任何内部模块，仅通过调整输入视角便实现了性能飞跃，在多个高难度预测任务中达到了业界领先的水平。\n\niTransformer 非常适合人工智能研究人员、数据科学家以及从事时序分析的开发人员使用。无论是希望复现前沿学术成果的研究者，还是需要在交通流量、气象预测或能源管理等场景中构建高精度预测系统的工程师，都能从中受益。项目提供了完整的训练脚本、预集成包（如支持 pip 安装及融入 NeuralForecast 库）以及详细的实验指南，帮助用户轻松上手并验证效","iTransformer 是一款专为多变量时间序列预测设计的开源深度学习模型，其核心成果曾入选 ICLR 2024 焦点论文。传统 Transformer 架构在处理时间序列时往往面临效率与精度的瓶颈，而 iTransformer 通过一种巧妙的“倒置”策略解决了这一痛点：它不再将时间步视为令牌，而是将每一个独立的变量（如温度、流量等）作为令牌输入。\n\n这种独特的架构设计使得模型能够利用注意力机制直接捕捉不同变量间复杂的相互关联，同时通过标准的层归一化和前馈网络高效学习序列特征。值得注意的是，这一突破无需修改 Transformer 的任何内部模块，仅通过调整输入视角便实现了性能飞跃，在多个高难度预测任务中达到了业界领先的水平。\n\niTransformer 非常适合人工智能研究人员、数据科学家以及从事时序分析的开发人员使用。无论是希望复现前沿学术成果的研究者，还是需要在交通流量、气象预测或能源管理等场景中构建高精度预测系统的工程师，都能从中受益。项目提供了完整的训练脚本、预集成包（如支持 pip 安装及融入 NeuralForecast 库）以及详细的实验指南，帮助用户轻松上手并验证效果。","# iTransformer\n\nThe repo is the official implementation for the paper: [iTransformer: Inverted Transformers Are Effective for Time Series Forecasting](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.06625). [[Slides]](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F175ff98f7e2d44fbbe8e\u002F), [[Poster]](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F36a2ae6c132d44c0bd8c\u002F), [[Intro (CN)]](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F-pvBnA1_NSloNxa6TYXTSg).\n.\n\n\n# Updates\n\n:triangular_flag_on_post: **News** (2024.10) [TimeXer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.19072), a Transformer for predicting with exogenous variables, is released. Code is available [here](https:\u002F\u002Fgithub.com\u002Fthuml\u002FTimeXer). \n\n:triangular_flag_on_post: **News** (2024.05) Many thanks for the great efforts from [lucidrains](https:\u002F\u002Fgithub.com\u002Flucidrains\u002FiTransformer). A pip package for the usage of iTransformer variants can be simply installed via ```pip install iTransformer```\n\n:triangular_flag_on_post: **News** (2024.04) iTransformer has benn included in [NeuralForecast](https:\u002F\u002Fgithub.com\u002FNixtla\u002Fneuralforecast\u002Fblob\u002Fmain\u002Fneuralforecast\u002Fmodels\u002Fitransformer.py). Special thanks to the contributor @[Marco](https:\u002F\u002Fgithub.com\u002Fmarcopeix)!\n\n:triangular_flag_on_post: **News** (2024.03) Introduction of our work in [Chinese](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F-pvBnA1_NSloNxa6TYXTSg) is available.\n\n:triangular_flag_on_post: **News** (2024.02) iTransformer has been accepted as **ICLR 2024 Spotlight**.\n\n:triangular_flag_on_post: **News** (2023.12) iTransformer available in [GluonTS](https:\u002F\u002Fgithub.com\u002Fawslabs\u002Fgluonts\u002Fpull\u002F3017) with probablistic head and support for static covariates. Notebook is available [here](https:\u002F\u002Fgithub.com\u002Fawslabs\u002Fgluonts\u002Fblob\u002Fdev\u002Fexamples\u002FiTransformer.ipynb).\n\n:triangular_flag_on_post: **News** (2023.12) We received lots of valuable suggestions. A [revised version](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.06625v2.pdf) (**24 Pages**) is now available.\n\n:triangular_flag_on_post: **News** (2023.10) iTransformer has been included in [[Time-Series-Library]](https:\u002F\u002Fgithub.com\u002Fthuml\u002FTime-Series-Library) and achieves state-of-the-art in Lookback-$96$ forecasting.\n\n:triangular_flag_on_post: **News** (2023.10) All the scripts for the experiments in our [paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.06625.pdf) are available.\n\n\n## Introduction\n\n🌟 Considering the characteristics of multivariate time series, iTransformer breaks the conventional structure without modifying any Transformer modules. **Inverted Transformer is all you need in MTSF**.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_adc9f6da4d5b.png\"  alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n🏆 iTransformer achieves the comprehensive state-of-the-art in challenging multivariate forecasting tasks and solves several pain points of Transformer on extensive time series data.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_00242f287e4f.png\" height = \"360\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n\n## Overall Architecture\n\niTransformer regards **independent time series as variate tokens** to **capture multivariate correlations by attention** and **utilize layernorm and feed-forward networks to learn series representations**.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_23d097d1acce.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\nThe pseudo-code of iTransformer is as simple as the following:\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_87a9eae00d34.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## Usage \n\n1. Install Pytorch and the necessary dependencies.\n\n```\npip install -r requirements.txt\n```\n\n1. The datasets can be obtained from [Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1l51QsKvQPcqILT3DwfjCgx8Dsg2rpjot\u002Fview?usp=drive_link) or [Baidu Cloud](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11AWXg1Z6UwjHzmto4hesAA?pwd=9qjr).\n\n2. Train and evaluate the model. We provide all the above tasks under the folder .\u002Fscripts\u002F. You can reproduce the results as the following examples:\n\n```\n# Multivariate forecasting with iTransformer\nbash .\u002Fscripts\u002Fmultivariate_forecasting\u002FTraffic\u002FiTransformer.sh\n\n# Compare the performance of Transformer and iTransformer\nbash .\u002Fscripts\u002Fboost_performance\u002FWeather\u002FiTransformer.sh\n\n# Train the model with partial variates, and generalize to the unseen variates\nbash .\u002Fscripts\u002Fvariate_generalization\u002FECL\u002FiTransformer.sh\n\n# Test the performance on the enlarged lookback window\nbash .\u002Fscripts\u002Fincreasing_lookback\u002FTraffic\u002FiTransformer.sh\n\n# Utilize FlashAttention for acceleration\nbash .\u002Fscripts\u002Fefficient_attentions\u002FiFlashTransformer.sh\n```\n\n## Main Result of Multivariate Forecasting\n\nWe evaluate the iTransformer on challenging multivariate forecasting benchmarks (**generally hundreds of variates**). **Comprehensive good performance** (MSE\u002FMAE $\\downarrow$) is achieved.\n\n\n\n### Online Transaction Load Prediction of Alipay Trading Platform (Avg Results) \n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_32351f422a34.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## General Performance Boosting on Transformers\n\nBy introducing the proposed framework, Transformer and its variants achieve **significant performance improvement**, demonstrating the **generality of the iTransformer approach** and **benefiting from efficient attention mechanisms**.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_957d4012c2ef.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## Zero-Shot Generalization on Variates\n\n**Technically, iTransformer is able to forecast with arbitrary numbers of variables**. We train iTransformers on partial variates and forecast unseen variates with good generalizability.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_254ecc59baae.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## Model Analysis\n\nBenefiting from inverted Transformer modules: \n\n- (Left) Inverted Transformers learn **better time series representations** (more similar [CKA](https:\u002F\u002Fgithub.com\u002Fjayroxis\u002FCKA-similarity)) favored by forecasting.\n- (Right) The inverted self-attention module learns **interpretable multivariate correlations**.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_a8f97b7ffa14.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## Citation\n\nIf you find this repo helpful, please cite our paper. \n\n```\n@article{liu2023itransformer,\n  title={iTransformer: Inverted Transformers Are Effective for Time Series Forecasting},\n  author={Liu, Yong and Hu, Tengge and Zhang, Haoran and Wu, Haixu and Wang, Shiyu and Ma, Lintao and Long, Mingsheng},\n  journal={arXiv preprint arXiv:2310.06625},\n  year={2023}\n}\n```\n\n## Acknowledgement\n\nWe appreciate the following GitHub repos a lot for their valuable code and efforts.\n- Reformer (https:\u002F\u002Fgithub.com\u002Flucidrains\u002Freformer-pytorch)\n- Informer (https:\u002F\u002Fgithub.com\u002Fzhouhaoyi\u002FInformer2020)\n- FlashAttention (https:\u002F\u002Fgithub.com\u002Fshreyansh26\u002FFlashAttention-PyTorch)\n- Autoformer (https:\u002F\u002Fgithub.com\u002Fthuml\u002FAutoformer)\n- Stationary (https:\u002F\u002Fgithub.com\u002Fthuml\u002FNonstationary_Transformers)\n- Time-Series-Library (https:\u002F\u002Fgithub.com\u002Fthuml\u002FTime-Series-Library)\n- lucidrains (https:\u002F\u002Fgithub.com\u002Flucidrains\u002FiTransformer)\n\nThis work was supported by Ant Group through the CCF-Ant Research Fund and awarded as [Outstanding Projects of CCF Fund](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FPDLNbibZD3kqhcUoNejLfA).\n\n## Contact\n\nIf you have any questions or want to use the code, feel free to contact:\n* Yong Liu (liuyong21@mails.tsinghua.edu.cn)\n* Haoran Zhang (z-hr20@mails.tsinghua.edu.cn)\n* Tengge Hu (htg21@mails.tsinghua.edu.cn)\n","# iTransformer\n\n该仓库是论文《iTransformer：反转Transformer在时间序列预测中有效》的官方实现。[[幻灯片]](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F175ff98f7e2d44fbbe8e\u002F)，[[海报]](https:\u002F\u002Fcloud.tsinghua.edu.cn\u002Ff\u002F36a2ae6c132d44c0bd8c\u002F)，[[中文介绍]](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F-pvBnA1_NSloNxa6TYXTSg)。\n\n\n\n# 更新\n\n:triangular_flag_on_post: **新闻**（2024.10）[TimeXer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.19072)发布，这是一种用于外生变量预测的Transformer模型。代码可在[这里](https:\u002F\u002Fgithub.com\u002Fthuml\u002FTimeXer)获取。\n\n:triangular_flag_on_post: **新闻**（2024.05）非常感谢[lucidrains](https:\u002F\u002Fgithub.com\u002Flucidrains\u002FiTransformer)的出色工作。可以通过```pip install iTransformer```轻松安装iTransformer变体的pip包。\n\n:triangular_flag_on_post: **新闻**（2024.04）iTransformer已被纳入[NeuralForecast](https:\u002F\u002Fgithub.com\u002FNixtla\u002Fneuralforecast\u002Fblob\u002Fmain\u002Fneuralforecast\u002Fmodels\u002Fitransformer.py)。特别感谢贡献者@[Marco](https:\u002F\u002Fgithub.com\u002Fmarcopeix)！\n\n:triangular_flag_on_post: **新闻**（2024.03）我们工作的[中文介绍](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002F-pvBnA1_NSloNxa6TYXTSg)已发布。\n\n:triangular_flag_on_post: **新闻**（2024.02）iTransformer已被接受为**ICLR 2024 Spotlight**。\n\n:triangular_flag_on_post: **新闻**（2023.12）iTransformer已在[GluonTS](https:\u002F\u002Fgithub.com\u002Fawslabs\u002Fgluonts\u002Fpull\u002F3017)中提供概率性头部和静态协变量支持。笔记本可在[这里](https:\u002F\u002Fgithub.com\u002Fawslabs\u002Fgluonts\u002Fblob\u002Fdev\u002Fexamples\u002FiTransformer.ipynb)找到。\n\n:triangular_flag_on_post: **新闻**（2023.12）我们收到了许多宝贵的建议。现已发布[修订版](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.06625v2.pdf)（**24页**）。\n\n:triangular_flag_on_post: **新闻**（2023.10）iTransformer已被纳入[[Time-Series-Library]](https:\u002F\u002Fgithub.com\u002Fthuml\u002FTime-Series-Library)，并在Lookback-$96$预测任务中达到最先进水平。\n\n:triangular_flag_on_post: **新闻**（2023.10）我们[论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.06625.pdf)中所有实验脚本现已公开。\n\n\n## 简介\n\n🌟 考虑到多变量时间序列的特点，iTransformer在不修改任何Transformer模块的情况下打破了传统结构。**在MTSF中，反转Transformer就是你需要的一切**。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_adc9f6da4d5b.png\"  alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n🏆 iTransformer在具有挑战性的多变量预测任务中实现了全面的最先进性能，并解决了Transformer在大量时间序列数据上的几个痛点。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_00242f287e4f.png\" height = \"360\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n\n## 整体架构\n\niTransformer将**独立的时间序列视为变量标记**，通过**注意力机制捕捉多变量相关性**，并利用**层归一化和前馈网络学习序列表示**。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_23d097d1acce.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\niTransformer的伪代码如下所示，非常简单：\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_87a9eae00d34.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## 使用方法\n\n1. 安装PyTorch及必要的依赖项。\n\n```\npip install -r requirements.txt\n```\n\n1. 数据集可从[Google Drive](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1l51QsKvQPcqILT3DwfjCgx8Dsg2rpjot\u002Fview?usp=drive_link)或[百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11AWXg1Z6UwjHzmto4hesAA?pwd=9qjr)获取。\n\n2. 训练并评估模型。我们在.\u002Fscripts\u002F文件夹下提供了上述所有任务的脚本。你可以按照以下示例重现结果：\n\n```\n# 使用iTransformer进行多变量预测\nbash .\u002Fscripts\u002Fmultivariate_forecasting\u002FTraffic\u002FiTransformer.sh\n\n# 比较Transformer和iTransformer的性能\nbash .\u002Fscripts\u002Fboost_performance\u002FWeather\u002FiTransformer.sh\n\n# 使用部分变量训练模型，并推广到未见过的变量\nbash .\u002Fscripts\u002Fvariate_generalization\u002FECL\u002FiTransformer.sh\n\n# 测试在扩大lookback窗口下的性能\nbash .\u002Fscripts\u002Fincreasing_lookback\u002FTraffic\u002FiTransformer.sh\n\n# 利用FlashAttention加速\nbash .\u002Fscripts\u002Fefficient_attentions\u002FiFlashTransformer.sh\n```\n\n## 多变量预测的主要结果\n\n我们在具有挑战性的多变量预测基准测试上评估了iTransformer（**通常包含数百个变量**）。取得了**全面的良好性能**（MSE\u002FMAE ↓）。\n\n\n\n### 支付宝交易平台在线交易负载预测（平均结果）\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_32351f422a34.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## Transformer的通用性能提升\n\n通过引入所提出的框架，Transformer及其变体实现了**显著的性能提升**，这表明了**iTransformer方法的通用性**，并且能够**受益于高效的注意力机制**。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_957d4012c2ef.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## 零样本变量泛化\n\n**从技术上讲，iTransformer能够预测任意数量的变量**。我们在部分变量上训练iTransformer，并对未见过的变量进行了预测，表现出良好的泛化能力。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_254ecc59baae.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## 模型分析\n\n得益于反转的Transformer模块：\n\n- （左）反转Transformer能够学习**更好的时间序列表示**（与[CKA](https:\u002F\u002Fgithub.com\u002Fjayroxis\u002FCKA-similarity)更为相似），更有利于预测。\n- （右）反转自注意力模块能够学习**可解释的多变量相关性**。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_readme_a8f97b7ffa14.png\" alt=\"\" align=center \u002F>\n\u003C\u002Fp>\n\n## 引用\n\n如果您觉得这个仓库有所帮助，请引用我们的论文。\n\n```\n@article{liu2023itransformer,\n  title={iTransformer: Inverted Transformers Are Effective for Time Series Forecasting},\n  author={Liu, Yong and Hu, Tengge and Zhang, Haoran and Wu, Haixu and Wang, Shiyu and Ma, Lintao and Long, Mingsheng},\n  journal={arXiv preprint arXiv:2310.06625},\n  year={2023}\n}\n```\n\n## 致谢\n\n我们非常感谢以下GitHub仓库提供的宝贵代码和努力：\n- Reformer (https:\u002F\u002Fgithub.com\u002Flucidrains\u002Freformer-pytorch)\n- Informer (https:\u002F\u002Fgithub.com\u002Fzhouhaoyi\u002FInformer2020)\n- FlashAttention (https:\u002F\u002Fgithub.com\u002Fshreyansh26\u002FFlashAttention-PyTorch)\n- Autoformer (https:\u002F\u002Fgithub.com\u002Fthuml\u002FAutoformer)\n- Stationary (https:\u002F\u002Fgithub.com\u002Fthuml\u002FNonstationary_Transformers)\n- Time-Series-Library (https:\u002F\u002Fgithub.com\u002Fthuml\u002FTime-Series-Library)\n- lucidrains (https:\u002F\u002Fgithub.com\u002Flucidrains\u002FiTransformer)\n\n本研究得到了蚂蚁集团通过CCF-蚂蚁科研基金的支持，并被评为[CCF基金优秀项目](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FPDLNbibZD3kqhcUoNejLfA)。\n\n## 联系方式\n\n如果您有任何问题或想使用该代码，请随时联系：\n* 刘勇 (liuyong21@mails.tsinghua.edu.cn)\n* 张浩然 (z-hr20@mails.tsinghua.edu.cn)\n* 胡腾格 (htg21@mails.tsinghua.edu.cn)","# iTransformer 快速上手指南\n\niTransformer 是一种针对多元时间序列预测（MTSF）的创新架构。它通过将独立的时间序列视为变量令牌（Variate Tokens），利用注意力机制捕捉多元相关性，无需修改 Transformer 内部模块即可实现卓越的性能。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS（Windows 需配合 WSL 使用）\n*   **Python 版本**：推荐 Python 3.8 及以上\n*   **核心框架**：PyTorch (GPU 版本推荐)\n*   **硬件要求**：建议使用 NVIDIA GPU 以加速训练和推理过程\n\n## 安装步骤\n\n您可以选择通过源码安装或使用 pip 直接安装变体包。\n\n### 方式一：源码安装（推荐，包含完整实验脚本）\n\n1.  克隆仓库并进入目录：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fthuml\u002FiTransformer.git\n    cd iTransformer\n    ```\n\n2.  安装依赖项：\n    ```bash\n    pip install -r requirements.txt\n    ```\n    > **提示**：国内用户若下载依赖较慢，可指定清华源加速：\n    > `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 方式二：PyPI 安装（仅使用模型变体）\n\n如果您只需调用模型而不需要复现论文实验，可直接安装由社区维护的包：\n\n```bash\npip install iTransformer\n```\n\n### 数据集准备\n\n本项目所需的数据集可通过以下国内镜像下载：\n\n*   **百度网盘**：[点击下载](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11AWXg1Z6UwjHzmto4hesAA?pwd=9qjr) (提取码：9qjr)\n*   **Google Drive**：[备用链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1l51QsKvQPcqILT3DwfjCgx8Dsg2rpjot\u002Fview?usp=drive_link)\n\n下载后请将数据解压至项目适当目录（通常与脚本中的路径配置对应）。\n\n## 基本使用\n\n安装完成后，您可以直接运行提供的脚本来复现论文结果或进行训练评估。所有脚本均位于 `.\u002Fscripts\u002F` 目录下。\n\n### 1. 多元时间序列预测\n\n以下命令演示如何在 Traffic 数据集上训练并评估 iTransformer 模型：\n\n```bash\nbash .\u002Fscripts\u002Fmultivariate_forecasting\u002FTraffic\u002FiTransformer.sh\n```\n\n### 2. 性能对比实验\n\n对比原始 Transformer 与 iTransformer 在 Weather 数据集上的表现：\n\n```bash\nbash .\u002Fscripts\u002Fboost_performance\u002FWeather\u002FiTransformer.sh\n```\n\n### 3. 零样本泛化能力测试\n\n在部分变量上训练模型，并测试其对未见变量的泛化能力（以 ECL 数据集为例）：\n\n```bash\nbash .\u002Fscripts\u002Fvariate_generalization\u002FECL\u002FiTransformer.sh\n```\n\n### 4. 加速推理（可选）\n\n如果您的环境支持 FlashAttention，可使用以下脚本进行加速训练：\n\n```bash\nbash .\u002Fscripts\u002Fefficient_attentions\u002FiFlashTransformer.sh\n```\n\n> **注意**：运行上述 `.sh` 脚本前，请确保已赋予执行权限（`chmod +x .\u002Fscripts\u002F**\u002F*.sh`）或在 Bash 环境中直接调用。具体超参数和数据路径可在对应的 shell 脚本中查看和修改。","某大型连锁零售企业的供应链团队正利用历史销售数据，预测未来三个月内全国 500 家门店、数千种商品的销量，以优化库存调配。\n\n### 没有 iTransformer 时\n- **变量关联捕捉弱**：传统 Transformer 将时间步作为 Token，难以有效建模不同商品（变量）之间复杂的相互影响（如促销联动效应）。\n- **长序列预测失真**：面对长达数月的历史数据，模型在长周期预测中容易出现误差累积，导致远期销量预估严重偏离实际。\n- **多变量扩展困难**：随着门店和 SKU 数量增加，输入维度爆炸式增长，原有架构计算效率低下且难以收敛。\n- **调参成本高昂**：为了适配多变的时间序列特征，需要反复修改 Transformer 内部结构或尝试多种变体，开发周期漫长。\n\n### 使用 iTransformer 后\n- **精准捕捉多维关联**：iTransformer 创新性地将独立时间序列视为变量 Token，通过注意力机制直接学习商品间的多元相关性，显著提升了连带销售的预测精度。\n- **长周期表现稳健**：得益于倒置架构对序列表示的强化学习，即使在 96 步以上的长看背窗口下，依然保持了业界领先的预测准确率，减少了库存积压风险。\n- **高效处理高维数据**：无需修改任何 Transformer 模块即可原生支持大规模多变量输入，轻松应对成千上万条并行时间序列的训练任务。\n- **部署简洁通用**：直接复用标准 Transformer 组件，通过简单的脚本即可复现 SOTA 效果，大幅降低了从实验到生产环境的落地门槛。\n\niTransformer 通过“倒置”视角彻底解决了多变量时间序列建模的核心痛点，让复杂的全局销量预测变得既精准又高效。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthuml_iTransformer_56bb1326.png","thuml","THUML @ Tsinghua University","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fthuml_2b45f3ea.png","Machine Learning Group, School of Software, Tsinghua University",null,"mingsheng@tsinghua.edu.cn","http:\u002F\u002Fise.thss.tsinghua.edu.cn\u002F~mlong","https:\u002F\u002Fgithub.com\u002Fthuml",[86,90],{"name":87,"color":88,"percentage":89},"Python","#3572A5",60.2,{"name":91,"color":92,"percentage":93},"Shell","#89e051",39.8,2081,342,"2026-04-16T02:34:31","MIT","未说明","未说明（但脚本中包含 FlashAttention 加速选项，通常暗示需要 NVIDIA GPU）",{"notes":101,"python":98,"dependencies":102},"README 未明确列出具体版本要求，仅指示通过 'pip install -r requirements.txt' 安装依赖。项目支持使用 FlashAttention 进行加速训练。数据集需从 Google Drive 或百度网盘单独下载。该模型已被集成到 NeuralForecast 和 GluonTS 库中，也可通过 'pip install iTransformer' 直接安装变体包。",[103,104],"torch (PyTorch)","requirements.txt 中列出的其他依赖",[15],[107,108],"time-series-forecasting","transformer","2026-03-27T02:49:30.150509","2026-04-17T08:24:48.975950",[112,117,122,127,132,137,141],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},36641,"为什么预测结果中会出现负数，而真实值都是正数？","这通常是因为模型在训练过程中没有对数据进行归一化约束，或者数据本身存在非平稳性。建议检查是否启用了归一化参数（use_norm）。对于某些非平稳数据集（如 Exchange Rate），深度网络方法可能只能拟合序列的平均值，导致出现不符合预期的负值或平滑现象。这是此类数据的常见瓶颈，可以尝试可视化其他基线模型的结果进行对比验证。","https:\u002F\u002Fgithub.com\u002Fthuml\u002FiTransformer\u002Fissues\u002F116",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},36642,"iTransformer 如何区分不同的变量（Token），是否使用了位置编码？","iTransformer 在变量维度上特意不使用位置编码（Position Embedding）。这是因为时间序列的不同变量之间具有“排列等价性”（Permutation-equivariance），即打乱输入变量的顺序不应影响输出结果（除了输出顺序相应改变）。模型依靠不同变量时间序列本身的特征差异来区分它们，而不是依赖位置编码。位置编码仅用于时间维度以保持因果顺序。","https:\u002F\u002Fgithub.com\u002Fthuml\u002FiTransformer\u002Fissues\u002F13",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},36643,"在 PEMS 数据集上长步长（如 96 步）预测效果差，无法复现论文结果怎么办？","请检查代码版本及参数配置：\n1. 确认使用的是本仓库代码而非 Timeseries Library 集成版（后者默认 use_norm 且不可改）。\n2. 尝试调整 `use_norm` 参数：对于短步长预测可不设置 `use_norm=0`，但对于长步长（如 96 步），建议在命令行添加 `--use_norm 0`。\n3. 参考以下复现成功的配置命令：\n`python -u run.py --is_training 1 --root_path .\u002Fdataset\u002FPEMS\u002F --data_path PEMS03.npz --model_id PEMS03_96_96 --model iTransformer --data PEMS --features M --seq_len 96 --pred_len 96 --e_layers 4 --enc_in 358 --dec_in 358 --c_out 358 --d_model 512 --d_ff 512 --learning_rate 0.001 --itr 1 --use_norm 0`","https:\u002F\u002Fgithub.com\u002Fthuml\u002FiTransformer\u002Fissues\u002F93",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},36644,"在 Mac (M1\u002FM2) 上使用 MPS 运行脚本预测效果很差怎么办？","Mac 的 MPS 后端可能在某些复杂模型运算上与 CUDA 存在精度或算子支持差异，导致结果不理想（如只拟合出周期信息）。官方仓库主要针对 CUDA 环境复现论文指标。建议：\n1. 尽量使用带有 NVIDIA GPU 的环境运行以获得最佳结果。\n2. 如果必须使用 Mac，请确保未修改核心逻辑，并理解 Exchange Rate 等非平稳数据集本身难以预测，所有深度方法在此类数据上都可能表现受限。\n3. 检查官方 test_results 目录（如有）对比标准输出，确认是否为环境导致的偏差。","https:\u002F\u002Fgithub.com\u002Fthuml\u002FiTransformer\u002Fissues\u002F52",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},36645,"训练时数据顺序被打乱，模型还能学习时间与销售量的关系吗？","是的，模型仍然可以学习。这里的“打乱”是指训练样本（即沿着时间维度划分的窗口）之间的顺序被打乱，而不是单个样本内部时间步的顺序被打乱。每个输入样本内部的时间序列依然保持完整的时间先后顺序，因此模型能够通过注意力机制捕捉时间依赖关系。变量之间（如不同商品）的顺序打乱不会影响模型对单一变量时间模式的提取。","https:\u002F\u002Fgithub.com\u002Fthuml\u002FiTransformer\u002Fissues\u002F113",{"id":138,"question_zh":139,"answer_zh":140,"source_url":136},36646,"使用 MS 模式训练预测后，输出结果如何对应到真实的 'OT' 列数值？","如果在 `run.py` 中将 `inverse` 参数修改为 `True`，模型输出的预测值会自动进行反归一化（Inverse Transform），直接对应原始数据中 'OT' 列的真实量纲和数值。请确保在推理脚本中开启了此选项。如果未开启，输出的是归一化后的数值，需要根据训练时的均值和标准差手动还原。",{"id":142,"question_zh":143,"answer_zh":144,"source_url":131},36647,"Exchange Rate 数据集预测结果是一条直线或平均值，是否正常？","这是正常现象，并非代码错误。Exchange Rate 数据集被广泛认为缺乏平稳性（Non-stationary），极难预测。目前的深度网络方法在该数据集上的瓶颈往往是只能拟合序列的平均值，导致可视化结果呈现为直线或仅有微弱波动。您可以尝试运行其他基线模型（如 ARIMA, LSTM 等）进行对比，通常会发现类似的现象。",[]]