[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-invictus717--MetaTransformer":3,"tool-invictus717--MetaTransformer":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":83,"owner_url":84,"languages":85,"stars":113,"forks":114,"last_commit_at":115,"license":116,"difficulty_score":117,"env_os":118,"env_gpu":119,"env_ram":118,"env_deps":120,"category_tags":126,"github_topics":127,"view_count":23,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":135,"updated_at":136,"faqs":137,"releases":173},3070,"invictus717\u002FMetaTransformer","MetaTransformer","Meta-Transformer for Unified Multimodal Learning","MetaTransformer 是一款旨在实现统一多模态学习的开源基础模型。它致力于解决传统人工智能模型通常只能处理单一类型数据（如仅图像或仅文本）的局限，打破了不同模态数据之间的壁垒。通过这一框架，用户无需为每种数据类型单独训练模型，即可在一个统一的架构下高效处理多达 12 种模态的数据，涵盖自然语言、图像、音频、视频、时间序列、遥感数据甚至脑功能成像（fMRI）等复杂领域。\n\n这款工具特别适合人工智能研究人员、算法开发者以及需要处理多源异构数据的企业技术团队使用。无论是从事自动驾驶感知、气象预测、金融股票分析，还是开发跨模态检索系统，MetaTransformer 都能提供强大的底层支持。其独特的技术亮点在于“统一性”与“扩展性”：它不仅将多种模态映射到共享的特征空间以实现联合训练，还具备良好的泛化能力，能够轻松适配下游的多样化任务。此外，该项目生态活跃，已衍生出结合大语言模型的 OneLLM 版本，进一步提升了在 25 个基准测试中的表现。对于希望探索通用人工智能或多模态融合应用的从业者而言，MetaTransformer 提供了一个灵活且高效的起点。","\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"assets\\Meta-Transformer_banner.png\"  width=\"80%\" height=\"80%\">\n\u003C\u002Fp>\n\n\u003Cdiv>\n\u003Cdiv align=\"center\">\n    \u003Ca href='https:\u002F\u002Fscholar.google.com\u002Fcitations?user=KuYlJCIAAAAJ&hl=en' target='_blank'>Yiyuan Zhang\u003Csup>1,2*\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fkxgong.github.io\u002F' target='_blank'>Kaixiong Gong\u003Csup>1,2*\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='http:\u002F\u002Fkpzhang93.github.io\u002F' target='_blank'>Kaipeng Zhang\u003Csup>2,†\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003C\u002Fbr>\n    \u003Ca href='http:\u002F\u002Fwww.ee.cuhk.edu.hk\u002F~hsli\u002F' target='_blank'>Hongsheng Li \u003Csup>1,2\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fmmlab.siat.ac.cn\u002Fyuqiao\u002Findex.html' target='_blank'>Yu Qiao \u003Csup>2\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fwlouyang.github.io\u002F' target='_blank'>Wanli Ouyang\u003Csup>2\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='http:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~xyyue\u002F' target='_blank'>Xiangyu Yue\u003Csup>1,†,‡\u003C\u002Fsup>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv>\n\n\u003Cdiv align=\"center\">\n    \u003Csup>1\u003C\u002Fsup>\n    \u003Ca href='http:\u002F\u002Fmmlab.ie.cuhk.edu.hk\u002F' target='_blank'>Multimedia Lab, The Chinese University of Hong Kong\u003C\u002Fa>&emsp;\n    \u003C\u002Fbr>\n    \u003Csup>2\u003C\u002Fsup> \u003Ca href='https:\u002F\u002Fgithub.com\u002FOpenGVLab' target='_blank'>OpenGVLab，Shanghai AI Laboratory \n    \u003C\u002Fa>\u003C\u002Fbr>\n    \u003Csup>*\u003C\u002Fsup> Equal Contribution&emsp;\n    \u003Csup>†\u003C\u002Fsup> Corresponding Author&emsp;\n    \u003Csup>‡\u003C\u002Fsup> Project Lead&emsp;\n\u003C\u002Fdiv>\n\n-----------------\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Farxiv-2307.10802-b31b1b?style=plastic&color=b31b1b&link=https%3A%2F%2Farxiv.org%2Fabs%2F2307.10802)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10802)\n[![website](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Website-brightgreen)](https:\u002F\u002Fkxgong.github.io\u002Fmeta_transformer\u002F)\n[![blog-cn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%E6%9C%BA%E5%99%A8%E4%B9%8B%E5%BF%83-%E7%AE%80%E4%BB%8B-brightgreen)](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Fr38bzqdJxDZUvtDI0c9CEw)\n[![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Space-blue)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2307.10802)\n[![OpenXLab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fheader\u002Fopenxlab_models.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fmodels\u002Fdetail\u002Fzhangyiyuan\u002FMetaTransformer)\n![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Finvictus717\u002FMetaTransformer?style=social)\n\u003Ca href=\"https:\u002F\u002Ftwitter.com\u002F_akhaliq\u002Fstatus\u002F1682248055637041152\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Finvictus717_MetaTransformer_readme_8af00aa04f94.png\" width=\"25\" height=\"25\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=V8L8xbsTyls&ab_channel=CSBoard\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Finvictus717_MetaTransformer_readme_ca5204000405.png\" width=\"25\" height=\"25\">\u003C\u002Fa> \u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fkxgong\u002FMeta-Transformer'> \u003Cimg src=\"assets\\icons\\huggingface.png\" width=\"25\" height=\"25\"> \u003C\u002Fa> \u003Ca href='https:\u002F\u002Fopen.spotify.com\u002Fepisode\u002F6JJxcy2zMtTwr4jXPQEXjh'> \u003Cimg src=\"https:\u002F\u002Fupload.wikimedia.org\u002Fwikipedia\u002Fcommons\u002F1\u002F19\u002FSpotify_logo_without_text.svg\" width=\"20\" height=\"20\">\u003C\u002Fa>\n\n\n## Meta-Transformer with Large Language Models ✨✨✨\n\nWe're thrilled to present [OneLLM](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM), ensembling Meta-Transformer framework with Multimodal Large Language Models, which performs multimodal joint training🚀, supports more modalities including fMRI, Depth and Normal Maps 🚀, and demonstrates very impressive performances on **25** benchmarks🚀🚀🚀. \n\n🔥🔥 The code, pretrained models, and datasets are publicly available at [OneLLM](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM).\n\n🔥🔥 Project Website is at [OneLLM](https:\u002F\u002Fonellm.csuhan.com\u002F).\n\n### 🌟 Single Foundation Model Supports A Wide Range of Applications\n\n\n\nAs a foundation model, Meta-Transformer can handle data from 12 modalities, which determines that it can support a wide range of applications. As shown in this figure, Meta-Transformer can provide services for downstream tasks including stock analysis 📈, weather forecasting ☀️ ☔ ☁️ ❄️ ⛄ ⚡, remote sensing 📡, autonomous driving 🚗, social network 🌍, speech recognition 🔉, etc.\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"assets\\Meta-Transformer_application.png\"  width=\"100%\" height=\"100%\">\n\u003C\u002Fp>\n\n**Table 1**: Meta-Transformer is capable of handling up to 12 modalities, including natural language \u003Cimg src=\"assets\\icons\\text.jpg\" width=\"15\" height=\"15\">, RGB images \u003Cimg src=\"assets\\icons\\img.jpg\" width=\"15\" height=\"15\">, point clouds \u003Cimg src=\"assets\\icons\\pcd.jpg\" width=\"15\" height=\"15\">, audios \u003Cimg src=\"assets\\icons\\audio.jpg\" width=\"15\" height=\"15\">, videos \u003Cimg src=\"assets\\icons\\video.jpg\" width=\"15\" height=\"15\">, tabular data \u003Cimg src=\"assets\\icons\\table.jpg\" width=\"15\" height=\"15\">, graph \u003Cimg src=\"assets\\icons\\graph.jpg\" width=\"15\" height=\"15\">, time series data \u003Cimg src=\"assets\\icons\\time.jpg\" width=\"15\" height=\"15\">, hyper-spectral images \u003Cimg src=\"assets\\icons\\hyper.jpg\" width=\"15\" height=\"15\">, IMU \u003Cimg src=\"assets\\icons\\imu.jpg\" width=\"15\" height=\"15\">, medical images \u003Cimg src=\"assets\\icons\\xray.jpg\" width=\"15\" height=\"15\">, and infrared images \u003Cimg src=\"assets\\icons\\infrared.jpg\" width=\"15\" height=\"15\">.\n\u003Cp align=\"left\">\n\u003Cimg src=\"assets\\Meta-Transformer_cmp.png\" width=100%>\n\u003C\u002Fp>\n\n## 🚩🚩🚩 Shared-Encoder, Unpaired Data, More Modalities \n\n\n\u003Cdiv>\n  \u003Cimg class=\"image\" src=\"assets\\Meta-Transformer_teaser.png\" width=\"52%\" height=\"100%\">\n  \u003Cimg class=\"image\" src=\"assets\\Meta-Transformer_exp.png\" width=\"45.2%\" height=\"100%\">\n\u003C\u002Fdiv>\n\n\nThis repository is built to explore the potential and extensibility of transformers for multimodal learning. We utilize the advantages of Transformers to deal with length-variant sequences. Then we propose the *Data-to-Sequence* tokenization following a meta-scheme, then we apply it to 12 modalities including text, image, point cloud, audio, video, infrared, hyper-spectral, X-Ray, tabular, graph, time-series, and Inertial Measurement Unit (IMU) data.\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"assets\\Meta-Transformer_data2seq.png\" width=100%>\n\u003C\u002Fp>\n\nAfter obtaining the token sequence, we employ a modality-shared encoder to extract representation across different modalities. With task-specific heads, Meta-Transformer can handle various tasks on the different modalities, such as: classification, detection, and segmentation.\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"assets\\Meta-Transformer_framework.png\" width=100%>\n\u003C\u002Fp>\n\n\n\n# 🌟 News\n* **2023.8.17:** Release code to directly get embeddings from multiple modalities. We will further release code on utilizing Meta-Transformer for Human-Centric vision tasks.\n* **2023.8.2:** 🎉🎉🎉 The implementation of Meta-Transformer for image, point cloud, graph, tabular, time-series, X-Ray, hyper-spectrum, LiDAR data has been released. We also release a very powerful foundation model for Autonomous Driving 🚀🚀🚀.  \n* **2023.7.22:** Pretrained weights and a usage demo for our Meta-Transformer have been released. Comprehensive documentation and implementation of the image modality are underway and will be released soon. Stay tuned for more exciting updates!⌛⌛⌛\n* **2023.7.21:** Paper is released at [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10802), and code will be gradually released.\n* **2023.7.8:** Github Repository Initialization.\n\n# 🔓 Model Zoo\n\n\u003C!-- \u003Cdetails> -->\n\u003Csummary> Open-source Modality-Agnostic Models \u003C\u002Fsummary>\n\u003Cbr>\n\u003Cdiv>\n\n|      Model      |   Pretraining   | Scale | #Param |                                               Download | 国内下载源                                               |\n| :------------: | :----------: | :----------------------: | :----: | :---------------------------------------------------------------------------------------------------: | :--------: | \n| Meta-Transformer-B16  | LAION-2B |         Base          |  85M  |   [ckpt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19ahcN2QKknkir_bayhTW5rucuAiX0OXq\u002Fview?usp=sharing)    | [ckpt](https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_base_patch16_encoder)\n| Meta-Transformer-L14  | LAION-2B |         Large          |  302M  |   [ckpt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F15EtzCBAQSqmelhdLz6k880A19_RpcX9B\u002Fview?usp=drive_link)   | [ckpt](https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_large_patch14_encoder)\n\n\u003C\u002Fdiv>\n\n\u003C!-- \u003C\u002Fdetails> -->\n\n\u003C!-- \u003Cdetails> -->\n* Demo of Use for Pretrained Encoder\n\n```python\nimport torch \nimport torch.nn as nn\nfrom timm.models.vision_transformer import Block\nfrom Data2Seq import Data2Seq\nvideo_tokenier = Data2Seq(modality='video',dim=768)\naudio_tokenier = Data2Seq(modality='audio',dim=768)\ntime_series_tokenier = Data2Seq(modality='time-series',dim=768)\n\nfeatures = torch.concat([video_tokenizer(video), audio_tokenizer(audio), time_series_tokenizer(time_data)],dim=1)\n# For base-scale encoder:\nckpt = torch.load(\"Meta-Transformer_base_patch16_encoder.pth\")\nencoder = nn.Sequential(*[\n            Block(\n                dim=768,\n                num_heads=12,\n                mlp_ratio=4.,\n                qkv_bias=True,\n                norm_layer=nn.LayerNorm,\n                act_layer=nn.GELU\n            )\n            for i in range(12)])\nencoder.load_state_dict(ckpt,strict=True)\n# For large-scale encoder:\nckpt = torch.load(\"Meta-Transformer_large_patch14_encoder.pth\")\nencoder = nn.Sequential(*[\n            Block(\n                dim=1024,\n                num_heads=16,\n                mlp_ratio=4.,\n                qkv_bias=True,\n                norm_layer=nn.LayerNorm,\n                act_layer=nn.GELU\n            )\n            for i in range(24)])\nencoder.load_state_dict(ckpt,strict=True)\nencoded_features = encoder(features)\n```\n\u003C!-- \u003C\u002Fdetails> -->\n\n# 🕙 ToDo\n- [ x ] Meta-Transformer with Large Language Models.\n- [ x ] Multimodal Joint Training with Meta-Transformer.\n- [ x ] Support More Modalities and More Tasks.\n\n# Contact\n🚀🚀🚀 We aspire to shape this repository into **a formidable foundation for mainstream AI perception tasks across diverse modalities**. Your contributions can play a significant role in this endeavor, and we warmly welcome your participation in our project!\n\nTo contact us, never hestitate to send an email to `yiyuanzhang.ai@gmail.com` ,`kaixionggong@gmail.com`, `zhangkaipeng@pjlab.org.cn`, or `xyyue@ie.cuhk.edu.hk`!\n\u003Cbr>\u003C\u002Fbr>\n\n&ensp;\n# Citation\nIf the code and paper help your research, please kindly cite:\n```\n@article{zhang2023meta,\n  title={Meta-transformer: A unified framework for multimodal learning},\n  author={Zhang, Yiyuan and Gong, Kaixiong and Zhang, Kaipeng and Li, Hongsheng and Qiao, Yu and Ouyang, Wanli and Yue, Xiangyu},\n  journal={arXiv preprint arXiv:2307.10802},\n  year={2023}\n}\n```\n# License\nThis project is released under the [Apache 2.0 license](LICENSE).\n# Acknowledgement\nThis code is developed based on excellent open-sourced projects including [MMClassification](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmpretrain\u002Ftree\u002Fmmcls-1.x), [MMDetection](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection), [MMsegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation), [OpenPoints](https:\u002F\u002Fgithub.com\u002Fguochengqian\u002Fopenpoints), [Time-Series-Library](https:\u002F\u002Fgithub.com\u002Fthuml\u002FTime-Series-Library), [Graphomer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FGraphormer), [SpectralFormer](https:\u002F\u002Fgithub.com\u002Fdanfenghong\u002FIEEE_TGRS_SpectralFormer), and [ViT-Adapter](https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter).\n","\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"assets\\Meta-Transformer_banner.png\"  width=\"80%\" height=\"80%\">\n\u003C\u002Fp>\n\n\u003Cdiv>\n\u003Cdiv align=\"center\">\n    \u003Ca href='https:\u002F\u002Fscholar.google.com\u002Fcitations?user=KuYlJCIAAAAJ&hl=en' target='_blank'>张一元\u003Csup>1,2*\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fkxgong.github.io\u002F' target='_blank'>龚凯雄\u003Csup>1,2*\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='http:\u002F\u002Fkpzhang93.github.io\u002F' target='_blank'>张凯鹏\u003Csup>2,†\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003C\u002Fbr>\n    \u003Ca href='http:\u002F\u002Fwww.ee.cuhk.edu.hk\u002F~hsli\u002F' target='_blank'>李洪生 \u003Csup>1,2\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fmmlab.siat.ac.cn\u002Fyuqiao\u002Findex.html' target='_blank'>乔宇 \u003Csup>2\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='https:\u002F\u002Fwlouyang.github.io\u002F' target='_blank'>欧阳万利\u003Csup>2\u003C\u002Fsup>\u003C\u002Fa>&emsp;\n    \u003Ca href='http:\u002F\u002Fpeople.eecs.berkeley.edu\u002F~xyyue\u002F' target='_blank'>岳翔宇\u003Csup>1,†,‡\u003C\u002Fsup>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv>\n\n\u003Cdiv align=\"center\">\n    \u003Csup>1\u003C\u002Fsup>\n    \u003Ca href='http:\u002F\u002Fmmlab.ie.cuhk.edu.hk\u002F' target='_blank'>香港中文大学多媒体实验室\u003C\u002Fa>&emsp;\n    \u003C\u002Fbr>\n    \u003Csup>2\u003C\u002Fsup> \u003Ca href='https:\u002F\u002Fgithub.com\u002FOpenGVLab' target='_blank'>OpenGVLab，上海人工智能实验室 \n    \u003C\u002Fa>\u003C\u002Fbr>\n    \u003Csup>*\u003C\u002Fsup> 共同第一作者&emsp;\n    \u003Csup>†\u003C\u002Fsup> 通讯作者&emsp;\n    \u003Csup>‡\u003C\u002Fsup> 项目负责人&emsp;\n\u003C\u002Fdiv>\n\n-----------------\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Farxiv-2307.10802-b31b1b?style=plastic&color=b31b1b&link=https%3A%2F%2Farxiv.org%2Fabs%2F2307.10802)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10802)\n[![website](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Website-brightgreen)](https:\u002F\u002Fkxgong.github.io\u002Fmeta_transformer\u002F)\n[![blog-cn](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%E6%9C%BA%E5%99%A8%E4%B9%8B%E5%BF%83-%E7%AE%80%E4%BB%8B-brightgreen)](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002Fr38bzqdJxDZUvtDI0c9CEw)\n[![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Space-blue)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2307.10802)\n[![OpenXLab](https:\u002F\u002Fcdn-static.openxlab.org.cn\u002Fheader\u002Fopenxlab_models.svg)](https:\u002F\u002Fopenxlab.org.cn\u002Fmodels\u002Fdetail\u002Fzhangyiyuan\u002FMetaTransformer)\n![](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Finvictus717\u002FMetaTransformer?style=social)\n\u003Ca href=\"https:\u002F\u002Ftwitter.com\u002F_akhaliq\u002Fstatus\u002F1682248055637041152\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Finvictus717_MetaTransformer_readme_8af00aa04f94.png\" width=\"25\" height=\"25\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=V8L8xbsTyls&ab_channel=CSBoard\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Finvictus717_MetaTransformer_readme_ca5204000405.png\" width=\"25\" height=\"25\">\u003C\u002Fa> \u003Ca href='https:\u002F\u002Fhuggingface.co\u002Fkxgong\u002FMeta-Transformer'> \u003Cimg src=\"assets\\icons\\huggingface.png\" width=\"25\" height=\"25\"> \u003C\u002Fa> \u003Ca href='https:\u002F\u002Fopen.spotify.com\u002Fepisode\u002F6JJxcy2zMtTwr4jXPQEXjh'> \u003Cimg src=\"https:\u002F\u002Fupload.wikimedia.org\u002Fwikipedia\u002Fcommons\u002F1\u002F19\u002FSpotify_logo_without_text.svg\" width=\"20\" height=\"20\">\u003C\u002Fa>\n\n\n## 多模态大模型框架 Meta-Transformer ✨✨✨\n\n我们非常高兴地推出 [OneLLM](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM)，这是一个将 Meta-Transformer 框架与多模态大语言模型相结合的集成系统。该系统支持多模态联合训练🚀，并可处理包括 fMRI、深度图和法线贴图在内的更多模态数据 🚀，在 **25** 个基准测试中表现出色🚀🚀🚀。\n\n🔥🔥 代码、预训练模型和数据集已在 [OneLLM](https:\u002F\u002Fgithub.com\u002Fcsuhan\u002FOneLLM) 上公开。\n\n🔥🔥 项目官网为 [OneLLM](https:\u002F\u002Fonellm.csuhan.com\u002F)。\n\n### 🌟 单一基础模型支持广泛的应用场景\n\n\n\n作为一款基础模型，Meta-Transformer 可以处理来自 12 种模态的数据，这使其能够支持广泛的应用场景。如图所示，Meta-Transformer 可以为下游任务提供服务，包括股票分析 📈、天气预报 ☀️ ☔ ☁️ ❄️ ⛄ ⚡、遥感 📡、自动驾驶 🚗、社交网络 🌍、语音识别 🔉 等。\n\n\u003Cp align=\"center\" width=\"100%\">\n\u003Cimg src=\"assets\\Meta-Transformer_application.png\"  width=\"100%\" height=\"100%\">\n\u003C\u002Fp>\n\n**表1**：Meta-Transformer 能够处理多达 12 种模态，包括自然语言 \u003Cimg src=\"assets\\icons\\text.jpg\" width=\"15\" height=\"15\">、RGB 图像 \u003Cimg src=\"assets\\icons\\img.jpg\" width=\"15\" height=\"15\">、点云 \u003Cimg src=\"assets\\icons\\pcd.jpg\" width=\"15\" height=\"15\">、音频 \u003Cimg src=\"assets\\icons\\audio.jpg\" width=\"15\" height=\"15\">、视频 \u003Cimg src=\"assets\\icons\\video.jpg\" width=\"15\" height=\"15\">、表格数据 \u003Cimg src=\"assets\\icons\\table.jpg\" width=\"15\" height=\"15\">、图结构 \u003Cimg src=\"assets\\icons\\graph.jpg\" width=\"15\" height=\"15\">、时间序列数据 \u003Cimg src=\"assets\\icons\\time.jpg\" width=\"15\" height=\"15\">、高光谱图像 \u003Cimg src=\"assets\\icons\\hyper.jpg\" width=\"15\" height=\"15\">、IMU 数据 \u003Cimg src=\"assets\\icons\\imu.jpg\" width=\"15\" height=\"15\">、医学影像 \u003Cimg src=\"assets\\icons\\xray.jpg\" width=\"15\" height=\"15\">以及红外图像 \u003Cimg src=\"assets\\icons\\infrared.jpg\" width=\"15\" height=\"15\">。\n\u003Cp align=\"left\">\n\u003Cimg src=\"assets\\Meta-Transformer_cmp.png\" width=100%>\n\u003C\u002Fp>\n\n## 🚩🚩🚩 共享编码器、无配对数据、更多模态 \n\n\n\u003Cdiv>\n  \u003Cimg class=\"image\" src=\"assets\\Meta-Transformer_teaser.png\" width=\"52%\" height=\"100%\">\n  \u003Cimg class=\"image\" src=\"assets\\Meta-Transformer_exp.png\" width=\"45.2%\" height=\"100%\">\n\u003C\u002Fdiv>\n\n\n本仓库旨在探索 Transformer 在多模态学习中的潜力与扩展性。我们利用 Transformer 处理变长序列的优势，提出了一种基于元方案的 *数据到序列* 分词方法，并将其应用于文本、图像、点云、音频、视频、红外、高光谱、X 射线、表格、图结构、时间序列以及惯性测量单元（IMU）等 12 种模态的数据。\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"assets\\Meta-Transformer_data2seq.png\" width=100%>\n\u003C\u002Fp>\n\n获得标记序列后，我们使用模态共享的编码器提取跨模态特征表示。结合特定任务的头部，Meta-Transformer 可以处理不同模态上的各类任务，例如分类、检测和分割。\n\n\u003Cp align=\"left\">\n\u003Cimg src=\"assets\\Meta-Transformer_framework.png\" width=100%>\n\u003C\u002Fp>\n\n\n\n# 🌟 最新消息\n* **2023年8月17日：** 发布可以直接从多种模态获取嵌入的代码。我们还将进一步发布利用 Meta-Transformer 进行人机交互视觉任务的代码。\n* **2023年8月2日：** 🎉🎉🎉 Meta-Transformer 在图像、点云、图结构、表格、时间序列、X 射线、高光谱、LiDAR 数据上的实现已发布。同时，我们也发布了一个功能强大的自动驾驶基础模型 🚀🚀🚀。  \n* **2023年7月22日：** 我们的 Meta-Transformer 预训练权重及使用演示已发布。关于图像模态的全面文档和实现正在开发中，即将发布。敬请期待更多精彩更新！⌛⌛⌛\n* **2023年7月21日：** 论文已在 [arxiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.10802) 上发表，代码也将逐步公开。\n* **2023年7月8日：** GitHub 仓库初始化。\n\n# 🔓 模型动物园\n\n\u003C!-- \u003Cdetails> -->\n\u003Csummary> 开源跨模态模型 \u003C\u002Fsummary>\n\u003Cbr>\n\u003Cdiv>\n\n|      模型      |   预训练数据   | 规模 | 参数量 |                                               下载 | 国内下载源                                               |\n| :------------: | :----------: | :----------------------: | :----: | :---------------------------------------------------------------------------------------------------: | :--------: | \n| Meta-Transformer-B16  | LAION-2B |         Base          |  85M  |   [ckpt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F19ahcN2QKknkir_bayhTW5rucuAiX0OXq\u002Fview?usp=sharing)    | [ckpt](https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_base_patch16_encoder)\n| Meta-Transformer-L14  | LAION-2B |         Large          |  302M  |   [ckpt](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F15EtzCBAQSqmelhdLz6k880A19_RpcX9B\u002Fview?usp=drive_link)   | [ckpt](https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_large_patch14_encoder)\n\n\u003C\u002Fdiv>\n\n\u003C!-- \u003C\u002Fdetails> -->\n\n\u003C!-- \u003Cdetails> -->\n* 预训练编码器使用示例\n\n```python\nimport torch \nimport torch.nn as nn\nfrom timm.models.vision_transformer import Block\nfrom Data2Seq import Data2Seq\nvideo_tokenier = Data2Seq(modality='video',dim=768)\naudio_tokenier = Data2Seq(modality='audio',dim=768)\ntime_series_tokenier = Data2Seq(modality='time-series',dim=768)\n\nfeatures = torch.concat([video_tokenizer(video), audio_tokenizer(audio), time_series_tokenizer(time_data)],dim=1)\n# 对于base规模的编码器：\nckpt = torch.load(\"Meta-Transformer_base_patch16_encoder.pth\")\nencoder = nn.Sequential(*[\n            Block(\n                dim=768,\n                num_heads=12,\n                mlp_ratio=4.,\n                qkv_bias=True,\n                norm_layer=nn.LayerNorm,\n                act_layer=nn.GELU\n            )\n            for i in range(12)])\nencoder.load_state_dict(ckpt,strict=True)\n# 对于large规模的编码器：\nckpt = torch.load(\"Meta-Transformer_large_patch14_encoder.pth\")\nencoder = nn.Sequential(*[\n            Block(\n                dim=1024,\n                num_heads=16,\n                mlp_ratio=4.,\n                qkv_bias=True,\n                norm_layer=nn.LayerNorm,\n                act_layer=nn.GELU\n            )\n            for i in range(24)])\nencoder.load_state_dict(ckpt,strict=True)\nencoded_features = encoder(features)\n```\n\u003C!-- \u003C\u002Fdetails> -->\n\n# 🕙 待办事项\n- [ x ] 结合大型语言模型的Meta-Transformer。\n- [ x ] 使用Meta-Transformer进行多模态联合训练。\n- [ x ] 支持更多模态和更多任务。\n\n# 联系方式\n🚀🚀🚀 我们希望将此仓库打造成为**一个用于跨模态主流AI感知任务的强大基础**。您的贡献将对此起到重要作用，我们热烈欢迎参与本项目！\n\n如需联系我们，请随时发送邮件至 `yiyuanzhang.ai@gmail.com`、`kaixionggong@gmail.com`、`zhangkaipeng@pjlab.org.cn` 或 `xyyue@ie.cuhk.edu.hk`！\n\u003Cbr>\u003C\u002Fbr>\n\n&ensp;\n# 引用\n若代码和论文对您的研究有所帮助，请引用：\n```\n@article{zhang2023meta,\n  title={Meta-transformer: A unified framework for multimodal learning},\n  author={Zhang, Yiyuan and Gong, Kaixiong and Zhang, Kaipeng and Li, Hongsheng and Qiao, Yu and Ouyang, Wanli and Yue, Xiangyu},\n  journal={arXiv preprint arXiv:2307.10802},\n  year={2023}\n}\n```\n# 许可证\n本项目采用[Apache 2.0许可证](LICENSE)发布。\n# 致谢\n本代码基于多个优秀的开源项目开发而成，包括[MMClassification](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmpretrain\u002Ftree\u002Fmmcls-1.x)、[MMDetection](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmdetection)、[MMsegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation)、[OpenPoints](https:\u002F\u002Fgithub.com\u002Fguochengqian\u002Fopenpoints)、[Time-Series-Library](https:\u002F\u002Fgithub.com\u002Fthuml\u002FTime-Series-Library)、[Graphomer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FGraphormer)、[SpectralFormer](https:\u002F\u002Fgithub.com\u002Fdanfenghong\u002FIEEE_TGRS_SpectralFormer)以及[ViT-Adapter](https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter)。","# MetaTransformer 快速上手指南\n\nMetaTransformer 是一个统一的多模态学习框架，支持文本、图像、点云、音频、视频、表格、图、时间序列、高光谱、IMU、医疗影像及红外图像等 **12 种模态**。它采用“数据到序列（Data-to-Sequence）”的标记化方案，通过共享编码器提取跨模态特征。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA GPU（用于加速训练和推理）\n*   **核心依赖**:\n    *   PyTorch >= 1.9\n    *   timm (PyTorch Image Models)\n    *   torchvision\n\n建议先安装基础的 PyTorch 环境（根据您的 CUDA 版本选择）：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n## 安装步骤\n\n目前 MetaTransformer 的核心代码逻辑主要依赖于 `timm` 库中的 Transformer Block 以及自定义的 `Data2Seq` 模块。您可以直接克隆仓库或使用 pip 安装相关依赖。\n\n### 1. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer.git\ncd MetaTransformer\n```\n\n### 2. 安装依赖\n项目依赖 `timm` 等库，请执行以下命令安装：\n```bash\npip install -r requirements.txt\n# 如果项目中未提供 requirements.txt，请手动安装核心依赖：\npip install timm einops numpy pillow\n```\n\n> **注意**：根据 README 显示，部分特定模态（如点云、图结构等）的实现可能依赖额外的开源项目（如 OpenPoints, Graphormer 等），请根据您具体使用的模态参考项目根目录下的详细文档进行额外配置。\n\n## 基本使用\n\nMetaTransformer 的核心用法是通过 `Data2Seq` 类将不同模态的数据转换为统一的 Token 序列，然后输入到预训练的共享编码器中。\n\n以下是一个最简化的 Python 示例，演示如何加载预训练权重并对多模态数据（视频、音频、时间序列）进行特征提取：\n\n```python\nimport torch \nimport torch.nn as nn\nfrom timm.models.vision_transformer import Block\n# 假设 Data2Seq 类已从项目目录导入，实际使用时请确保路径正确\nfrom Data2Seq import Data2Seq \n\n# 1. 初始化不同模态的 Tokenizer\n# dim 需与预训练模型维度匹配 (Base: 768, Large: 1024)\nvideo_tokenizer = Data2Seq(modality='video', dim=768)\naudio_tokenizer = Data2Seq(modality='audio', dim=768)\ntime_series_tokenizer = Data2Seq(modality='time-series', dim=768)\n\n# 2. 准备数据并转换为 Token 序列\n# 假设 video, audio, time_data 已经是预处理好的张量数据\nfeatures = torch.concat([\n    video_tokenizer(video), \n    audio_tokenizer(audio), \n    time_series_tokenizer(time_data)\n], dim=1)\n\n# 3. 构建并加载预训练编码器 (以 Base 版本为例)\n# 下载权重: https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_base_patch16_encoder\nckpt = torch.load(\"Meta-Transformer_base_patch16_encoder.pth\")\n\nencoder = nn.Sequential(*[\n    Block(\n        dim=768,          # Base 模型维度\n        num_heads=12,\n        mlp_ratio=4.,\n        qkv_bias=True,\n        norm_layer=nn.LayerNorm,\n        act_layer=nn.GELU\n    )\n    for i in range(12)]) # Base 模型层数\n\n# 加载权重\nencoder.load_state_dict(ckpt, strict=True)\nencoder.eval()\n\n# 4. 前向推理获取统一特征表示\nwith torch.no_grad():\n    encoded_features = encoder(features)\n\nprint(f\"输出特征形状：{encoded_features.shape}\")\n```\n\n### 模型下载源\n为了获得更快的下载速度，推荐使用国内开源平台 **OpenXLab** 提供的镜像源：\n\n| 模型版本 | 参数量 | 国内下载地址 |\n| :--- | :--- | :--- |\n| **Meta-Transformer-B16** | 85M | [点击下载](https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_base_patch16_encoder) |\n| **Meta-Transformer-L14** | 302M | [点击下载](https:\u002F\u002Fdownload.openxlab.org.cn\u002Fmodels\u002Fzhangyiyuan\u002FMetaTransformer\u002Fweight\u002F\u002FMeta-Transformer_large_patch14_encoder) |\n\n*注：Large 版本构建时请将 `dim` 设为 1024，`num_heads` 设为 16，层数设为 24。*","某智慧城市运营团队需要构建一个综合监控系统，同时处理交通摄像头画面、气象传感器数据、无人机遥感图像以及应急广播语音，以实时预测城市内涝风险并调度资源。\n\n### 没有 MetaTransformer 时\n- **模型堆砌严重**：团队需分别训练和维护视觉（CNN）、语音（RNN）和时序数据（Transformer）等多个独立模型，导致算力资源分散且管理混乱。\n- **数据孤岛难打通**：不同模态的数据特征无法对齐，难以挖掘“暴雨语音播报”与“低洼路段积水图像”之间的深层关联，预警准确率受限。\n- **迭代成本高昂**：每当新增一种传感器数据（如地下水位监测），都需要重新设计网络架构并从头训练新模型，开发周期长达数周。\n- **推理延迟高**：多个模型串行或并行运行占用了大量显存，导致边缘设备无法实时响应，延误了最佳抢险时机。\n\n### 使用 MetaTransformer 后\n- **统一架构支撑**：MetaTransformer 凭借单一基础模型即可原生支持图像、语音、时序等 12 种模态，将原本分散的多个模型整合为一个，大幅降低运维复杂度。\n- **跨模态深度融合**：利用其统一的表示学习机制，系统能自动关联气象雷达图与路面监控视频，精准识别出单纯靠视觉无法判断的潜在淹水点。\n- **敏捷扩展能力**：接入新的土壤湿度传感器数据时，无需改动核心架构，仅需少量微调即可让模型理解新模态，新功能上线缩短至几天内。\n- **高效实时推理**：单模型结构显著减少了显存占用和计算开销，使得在边缘网关上也能实现毫秒级的多源数据融合分析，确保预警即时触达。\n\nMetaTransformer 通过“一模多用”的统一范式，彻底打破了多模态数据间的壁垒，让复杂的城市感知系统变得轻量、智能且易于演进。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Finvictus717_MetaTransformer_2e0511a4.png","invictus717","Yiyuan Zhang","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Finvictus717_f99e42bc.jpg","Ph.D. Student at MMLab","The Chinese University of HongKong","Hong Kong","yiyuan@link.cuhk.edu.hk",null,"https:\u002F\u002Finvictus717.github.io\u002F","https:\u002F\u002Fgithub.com\u002Finvictus717",[86,90,94,98,102,106,109],{"name":87,"color":88,"percentage":89},"Python","#3572A5",81.7,{"name":91,"color":92,"percentage":93},"Shell","#89e051",6.7,{"name":95,"color":96,"percentage":97},"C++","#f34b7d",6.3,{"name":99,"color":100,"percentage":101},"Cuda","#3A4E3A",5,{"name":103,"color":104,"percentage":105},"Cython","#fedf5b",0.1,{"name":107,"color":108,"percentage":105},"C","#555555",{"name":110,"color":111,"percentage":112},"Dockerfile","#384d54",0,1652,117,"2026-04-03T23:24:15","Apache-2.0",4,"未说明","需要 NVIDIA GPU（基于 PyTorch 和 Transformer 架构），具体型号和显存大小未说明，但运行 Base (85M) 或 Large (302M) 模型通常建议 8GB+ 显存",{"notes":121,"python":118,"dependencies":122},"README 中未明确列出具体的版本要求和安装脚本。代码示例显示依赖 PyTorch (torch, torch.nn) 和 timm (用于 Vision Transformer Block)。项目支持 12 种模态（文本、图像、点云、音频等），需根据具体任务准备相应的数据预处理逻辑。预训练模型权重可通过 Google Drive 或 OpenXLab 下载。",[123,124,125],"torch","timm","nn (PyTorch native)",[14,26,13,54],[128,129,130,131,132,133,134],"artificial-intelligence","computer-vision","machine-learning","multimedia","multimodal","transformers","foundationmodel","2026-03-27T02:49:30.150509","2026-04-06T09:44:59.679750",[138,143,148,153,158,163,168],{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},14132,"Meta-Transformer 如何处理不同模态的输入以及任务特定的头部选择？","对于不同模态，该方法利用具有不同维度（高或低）的分词器（tokenizers）和独特的任务特定头部（task-specific heads）。这两个因素导致了可训练参数数量的差异。通常使用梯度下降算法更新模型参数；如果需要冻结某些参数，可以将张量的 `requires_grad` 属性设置为 `False`。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F5",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},14133,"进行图像分类时是否必须使用 CLIP 文本编码器？预训练模型是如何获得的？","是的，在零样本分类（zero-shot classification）场景下，需要借助 CLIP 文本编码器来实现高性能。该模型是在 LAION-2B 数据集上使用 CLIP 风格的预训练目标进行预训练的。核心在于提出的分词器（tokenizer），您可以使用预训练的 CLIP 模型进行类似的实验。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F73",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},14134,"运行视频任务代码时遇到 'FileNotFoundError: Meta-Transformer_base_patch16_encoder.pth' 或模型结构不匹配错误怎么办？","首先确保已下载正确的预训练权重文件。如果报错涉及模型结构不匹配或加载失败，请检查您的 PyTorch 版本（推荐 1.8.1+cu113）以及 `timm` 库的版本（尝试升级到 0.9.7）。错误通常源于环境版本不一致或未正确放置预训练权重文件。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F50",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},14135,"发布的预训练权重是否包含分词器（如卷积层）的权重？如何处理未见过的模态？","发布的预训练权重主要包含模态无关的编码器部分。分词器（例如处理图像的 2D 卷积或处理视频的 3D 卷积）可以直接应用模态特定的预训练权重（如 MAE 或 Video MAE 预训练的分词器），这甚至比从头训练效果更好。Meta-Transformer 架构本身也能在未见过的模态上提供良好的表现。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F49",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},14136,"使用 Data2Seq 嵌入文本时，输入形状不正确或报错 'expected Tensor... got BatchEncoding' 如何解决？","当使用 `get_text_embeddings()` 时，可能需要使用 `unsqueeze()` 增加一个维度以匹配编码器期望的形状。如果直接传递分词结果（dict 类型）导致类型错误，您需要先将 `input_ids` 转换为输入嵌入（input embeddings），然后再传递给预训练的 Meta-Transformer 编码器。确保所有模态嵌入后的输入形状一致。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F40",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},14137,"Meta-Transformer 是否支持 BBOX（边界框）或 3D 人体骨架数据？如何实现？","支持。对于 3D 人体骨架等数据，可以通过数据嵌入（data embeddings）进行分词（tokenized），然后通过 Meta-Transformer 进行简单的 Seq-to-Seq 转换即可学习，这种方法能产生具有竞争力的性能。相关实现细节正在逐步完善中。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F29",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},14138,"如何在不使用 ViT-Adapter 的情况下使用 Meta-Transformer 进行物体检测？","关键是需要根据输入图像的大小调整位置嵌入（position embedding）。您可以参考仓库中 `Image\u002Fdetection\u002Fmmdet_custom\u002Fmodels\u002Fbackbones\u002Fbase\u002Fvit.py` 的实现，使用其中的 `resize_pos_embed` 函数来平滑解决尺寸不匹配的问题，从而直接运行图像物体检测演示。","https:\u002F\u002Fgithub.com\u002Finvictus717\u002FMetaTransformer\u002Fissues\u002F17",[174],{"id":175,"version":176,"summary_zh":177,"released_at":178},80867,"v0.0.0","我们发布了统一多模态编码器。\n```python\nfrom timm.models.vision_transformer import Block\nckpt = torch.load(\"Meta-Transformer_base_patch16_encoder.pth\")\nencoder = nn.Sequential(*[\n            Block(\n                dim=768,\n                num_heads=12,\n                mlp_ratio=4.0,\n                qkv_bias=True,\n                norm_layer=nn.LayerNorm,\n                act_layer=nn.GELU\n            )\n            for i in range(12)])\nencoder.load_state_dict(ckpt, strict=True)\n```","2023-07-24T10:21:46"]