[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-NVlabs--MambaVision":3,"tool-NVlabs--MambaVision":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":23,"env_os":100,"env_gpu":101,"env_ram":100,"env_deps":102,"category_tags":110,"github_topics":111,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":124,"updated_at":125,"faqs":126,"releases":156},2942,"NVlabs\u002FMambaVision","MambaVision","[CVPR 2025] Official PyTorch Implementation of MambaVision: A Hybrid Mamba-Transformer Vision Backbone","MambaVision 是一款由 NVIDIA 研究院推出的前沿视觉骨干网络，专为图像分类、目标检测和语义分割等计算机视觉任务设计。它巧妙地将 Mamba 架构的高效序列建模能力与 Transformer 的自注意力机制相结合，打造出一种混合型的层级化架构。这一创新旨在解决现有模型难以同时兼顾高精度与高推理速度的痛点，成功在 Top-1 准确率和吞吐量之间达到了新的最佳平衡点（SOTA Pareto-front）。\n\n其核心技术亮点在于引入了一种新颖的“混合器模块”（mixer block），通过构建不含状态空间模型（SSM）的对称路径，显著增强了对全局上下文信息的捕捉能力。作为首个大规模应用的基于 Mamba 的视觉骨干网，MambaVision 在 ImageNet-21K 数据集上展现了卓越性能，最高 Top-1 准确率可达 88.1%。\n\n这款工具非常适合人工智能研究人员、算法工程师以及希望探索新一代视觉模型的开发者使用。无论是需要复现 CVPR 2025 最新研究成果的学者，还是寻求在项目中部署高效能视觉模型的工程团队，都能从中受益。MambaVision 提供了完善的 Py","MambaVision 是一款由 NVIDIA 研究院推出的前沿视觉骨干网络，专为图像分类、目标检测和语义分割等计算机视觉任务设计。它巧妙地将 Mamba 架构的高效序列建模能力与 Transformer 的自注意力机制相结合，打造出一种混合型的层级化架构。这一创新旨在解决现有模型难以同时兼顾高精度与高推理速度的痛点，成功在 Top-1 准确率和吞吐量之间达到了新的最佳平衡点（SOTA Pareto-front）。\n\n其核心技术亮点在于引入了一种新颖的“混合器模块”（mixer block），通过构建不含状态空间模型（SSM）的对称路径，显著增强了对全局上下文信息的捕捉能力。作为首个大规模应用的基于 Mamba 的视觉骨干网，MambaVision 在 ImageNet-21K 数据集上展现了卓越性能，最高 Top-1 准确率可达 88.1%。\n\n这款工具非常适合人工智能研究人员、算法工程师以及希望探索新一代视觉模型的开发者使用。无论是需要复现 CVPR 2025 最新研究成果的学者，还是寻求在项目中部署高效能视觉模型的工程团队，都能从中受益。MambaVision 提供了完善的 PyTorch 实现、预训练模型库，并支持通过 Hugging Face 直接调用或在 Google Colab 中快速体验，极大地降低了上手门槛，助力用户轻松开启高效的视觉任务开发之旅。","# MambaVision: A Hybrid Mamba-Transformer Vision Backbone\n\nOfficial PyTorch implementation of [**MambaVision: A Hybrid Mamba-Transformer Vision Backbone**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08083).\n\n\n[![Star on GitHub](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FNVlabs\u002FMambaVision.svg?style=social)](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fstargazers)\n\n[Ali Hatamizadeh](https:\u002F\u002Fresearch.nvidia.com\u002Fperson\u002Fali-hatamizadeh) and\n[Jan Kautz](https:\u002F\u002Fjankautz.com\u002F). \n\nFor business inquiries, please visit our website and submit the form: [NVIDIA Research Licensing](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fresearch\u002Finquiries\u002F)\n\nTry MambaVision: [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1WR8LAzRMoK19RiFA-Br0Xxir_Htb3pLf)\n\n--- \n\nMambaVision demonstrates a strong performance by achieving a new SOTA Pareto-front in\nterms of Top-1 accuracy and throughput. \n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_18442fce0292.png\" width=62% height=62% \nclass=\"center\">\n\u003C\u002Fp>\n\n\n\nWe introduce a novel mixer block by creating a symmetric path without SSM to enhance the modeling of global context: \n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_7fcfdd4f96f0.png\" width=32% height=32% \nclass=\"center\">\n\u003C\u002Fp>\n\n\nMambaVision has a hierarchical architecture that employs both self-attention and mixer blocks:\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_2d20a4cca805.png)\n\n\n## 💥 News 💥\n- **[06.10.2025]** The MambaVision [poster](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fmambavision\u002Fassets\u002Fmamba_vision_poster_cvpr25.pdf) will be presented in CVPR 2025 in Nashville on Sunday, June 15, 2025, from 10:30 a.m. to 12:30 p.m. CDT in Exhibit Hall D, Poster #403.\n  \n- **[06.10.2025]** Semantic segmentation code and models released [here](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fsemantic_segmentation) !\n\n- **[06.07.2025]** Object detection code and models released [here](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fobject_detection) !\n\n- **[03.29.2025]** You can now easily run MambaVision in Google Colab. Try here: [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1WR8LAzRMoK19RiFA-Br0Xxir_Htb3pLf)\n\n- **[03.29.2025]** New MambaVision [pip package](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmambavision\u002F) released ! \n\n- **[03.25.2025]** Updated [manuscript](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.08083) is now available on arXiv !\n- **[03.25.2025]** 21K models and code added to the repository.\n\n- **[03.25.2025]** MambaVision is the **first** mamba-based vision backbone at scale ! \n\n- **[03.24.2025]** [MambaVision-L3-512-21K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K) achieves a **Top-1 accuracy of 88.1** % \n\n- **[03.24.2025]** New ImageNet-21K models have been added to [MambaVision Hugging Face collection](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) \n\n- **[02.26.2025]** MambaVision has been accepted to CVPR 2025 ! \n\n- **[07.24.2024]** MambaVision [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) models are released ! \n\n- **[07.14.2024]** We added support for processing any resolution images.\n\n- **[07.12.2024]** [Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08083) is now available on arXiv !\n\n- **[07.11.2024]** [Mambavision pip package](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmambavision\u002F) is released !\n\n- **[07.10.2024]** We have released the code and model checkpoints for Mambavision !\n\n## Quick Start\n\n### Google Colab\n\nYou can simply try image classification with MambaVision in Google Colab: [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1WR8LAzRMoK19RiFA-Br0Xxir_Htb3pLf)\n\n\n### Hugging Face (Classification + Feature extraction)\n\nPretrained MambaVision models can be simply used via [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) library with **a few lines of code**. First install the requirements: \n\n```bash\npip install mambavision\n```\n\nThe model can be simply imported:\n\n\n```python\n>>> from transformers import AutoModelForImageClassification\n\n>>> model = AutoModelForImageClassification.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\n```\n\nWe demonstrate an end-to-end image classification example in the following.\n\nGiven the following image from [COCO dataset](https:\u002F\u002Fcocodataset.org\u002F#home)  val set as an input:\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_18a5e59114b6.jpeg\" width=70% height=70% \nclass=\"center\">\n\u003C\u002Fp>\n\n\nThe following snippet can be used:\n\n```python\nfrom transformers import AutoModelForImageClassification\nfrom PIL import Image\nfrom timm.data.transforms_factory import create_transform\nimport requests\n\nmodel = AutoModelForImageClassification.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\n\n# eval mode for inference\nmodel.cuda().eval()\n\n# prepare image for the model\nurl = 'http:\u002F\u002Fimages.cocodataset.org\u002Fval2017\u002F000000020247.jpg'\nimage = Image.open(requests.get(url, stream=True).raw)\ninput_resolution = (3, 224, 224)  # MambaVision supports any input resolutions\n\ntransform = create_transform(input_size=input_resolution,\n                             is_training=False,\n                             mean=model.config.mean,\n                             std=model.config.std,\n                             crop_mode=model.config.crop_mode,\n                             crop_pct=model.config.crop_pct)\n\ninputs = transform(image).unsqueeze(0).cuda()\n# model inference\noutputs = model(inputs)\nlogits = outputs['logits'] \npredicted_class_idx = logits.argmax(-1).item()\nprint(\"Predicted class:\", model.config.id2label[predicted_class_idx])\n```\n\nThe predicted label is brown bear, bruin, Ursus arctos.\n\n\nYou can also use Hugging Face MambaVision models for feature extraction. The model provides the outputs of each stage of model (hierarchical multi-scale features in 4 stages) as well as the final averaged-pool features that are flattened. The former is used for downstream tasks such as classification and detection. \n\nThe following snippet can be used for feature extraction:\n\n```Python\nfrom transformers import AutoModel\nfrom PIL import Image\nfrom timm.data.transforms_factory import create_transform\nimport requests\n\nmodel = AutoModel.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\n\n# eval mode for inference\nmodel.cuda().eval()\n\n# prepare image for the model\nurl = 'http:\u002F\u002Fimages.cocodataset.org\u002Fval2017\u002F000000020247.jpg'\nimage = Image.open(requests.get(url, stream=True).raw)\ninput_resolution = (3, 224, 224)  # MambaVision supports any input resolutions\n\ntransform = create_transform(input_size=input_resolution,\n                             is_training=False,\n                             mean=model.config.mean,\n                             std=model.config.std,\n                             crop_mode=model.config.crop_mode,\n                             crop_pct=model.config.crop_pct)\ninputs = transform(image).unsqueeze(0).cuda()\n# model inference\nout_avg_pool, features = model(inputs)\nprint(\"Size of the averaged pool features:\", out_avg_pool.size())  # torch.Size([1, 640])\nprint(\"Number of stages in extracted features:\", len(features)) # 4 stages\nprint(\"Size of extracted features in stage 1:\", features[0].size()) # torch.Size([1, 80, 56, 56])\nprint(\"Size of extracted features in stage 4:\", features[3].size()) # torch.Size([1, 640, 7, 7])\n```\n\nCurrently, we offer [MambaVision-T-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K), [MambaVision-T2-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T2-1K), [MambaVision-S-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K), [MambaVision-B-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K), [MambaVision-L-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-1K) and [MambaVision-L2-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-1K) on Hugging Face. All models can also be viewed [here](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3).\n\n### Classification (pip package)\n\nWe can also import pre-trained MambaVision models from the pip package with **a few lines of code**:\n\n```bash\npip install mambavision\n```\n\nA pretrained MambaVision model with default hyper-parameters can be created as in:\n\n```python\n>>> from mambavision import create_model\n\n# Define mamba_vision_T model\n\n>>> model = create_model('mamba_vision_T', pretrained=True, model_path=\"\u002Ftmp\u002Fmambavision_tiny_1k.pth.tar\")\n```\n\nAvailable list of pretrained models include `mamba_vision_T`, `mamba_vision_T2`, `mamba_vision_S`, `mamba_vision_B`, `mamba_vision_L` and `mamba_vision_L2`.  \n\nWe can also simply test the model by passing a dummy image with **any resolution**. The output is the logits:\n\n```python\n>>> import torch\n\n>>> image = torch.rand(1, 3, 512, 224).cuda() # place image on cuda\n>>> model = model.cuda() # place model on cuda\n>>> output = model(image) # output logit size is [1, 1000]\n```\n\nUsing the pretrained models from our pip package, you can simply run validation:\n\n```\npython validate_pip_model.py --model mamba_vision_T --data_dir=$DATA_PATH --batch-size $BS \n``` \n\n## Results + Pretrained Models\n\n### ImageNet-21K\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Name\u003C\u002Fth>\n    \u003Cth>Acc@1(%)\u003C\u002Fth>\n    \u003Cth>Acc@5(%)\u003C\u002Fth>\n    \u003Cth>#Params(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>Resolution\u003C\u002Fth>\n    \u003Cth>HF\u003C\u002Fth>\n    \u003Cth>Download\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-B-21K\u003C\u002Ftd>\n    \u003Ctd>84.9\u003C\u002Ftd>\n    \u003Ctd>97.5\u003C\u002Ftd>\n    \u003Ctd>97.7\u003C\u002Ftd>\n    \u003Ctd>15.0\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-21K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-21K\u002Fresolve\u002Fmain\u002Fmambavision_base_21k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L-21K\u003C\u002Ftd>\n    \u003Ctd>86.1\u003C\u002Ftd>\n    \u003Ctd>97.9\u003C\u002Ftd>\n    \u003Ctd>227.9\u003C\u002Ftd>\n    \u003Ctd>34.9\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-21K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-21K\u002Fresolve\u002Fmain\u002Fmambavision_large_21k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L2-512-21K\u003C\u002Ftd>\n    \u003Ctd>87.3\u003C\u002Ftd>\n    \u003Ctd>98.4\u003C\u002Ftd>\n    \u003Ctd>241.5\u003C\u002Ftd>\n    \u003Ctd>196.3\u003C\u002Ftd>\n    \u003Ctd>512x512\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-512-21K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-512-21K\u002Fresolve\u002Fmain\u002Fmambavision_L2_21k_240m_512.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L3-256-21K\u003C\u002Ftd>\n    \u003Ctd>87.3\u003C\u002Ftd>\n    \u003Ctd>98.3\u003C\u002Ftd>\n    \u003Ctd>739.6\u003C\u002Ftd>\n    \u003Ctd>122.3\u003C\u002Ftd>\n    \u003Ctd>256x256\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-256-21K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-256-21K\u002Fresolve\u002Fmain\u002Fmambavision_L3_21k_740m_256.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L3-512-21K\u003C\u002Ftd>\n    \u003Ctd>88.1\u003C\u002Ftd>\n    \u003Ctd>98.6\u003C\u002Ftd>\n    \u003Ctd>739.6\u003C\u002Ftd>\n    \u003Ctd>489.1\u003C\u002Ftd>\n    \u003Ctd>512x512\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K\u002Fresolve\u002Fmain\u002Fmambavision_L3_21k_740m_512.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftable>\n\n\n### ImageNet-1K\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Name\u003C\u002Fth>\n    \u003Cth>Acc@1(%)\u003C\u002Fth>\n    \u003Cth>Acc@5(%)\u003C\u002Fth>\n    \u003Cth>Throughput(Img\u002FSec)\u003C\u002Fth>\n    \u003Cth>Resolution\u003C\u002Fth>\n    \u003Cth>#Params(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>HF\u003C\u002Fth>\n    \u003Cth>Download\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-T\u003C\u002Ftd>\n    \u003Ctd>82.3\u003C\u002Ftd>\n    \u003Ctd>96.2\u003C\u002Ftd>\n    \u003Ctd>6298\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>31.8\u003C\u002Ftd>\n    \u003Ctd>4.4\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\u002Fresolve\u002Fmain\u002Fmambavision_tiny_1k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-T2\u003C\u002Ftd>\n    \u003Ctd>82.7\u003C\u002Ftd>\n    \u003Ctd>96.3\u003C\u002Ftd>\n    \u003Ctd>5990\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>35.1\u003C\u002Ftd>\n    \u003Ctd>5.1\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T2-1K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T2-1K\u002Fresolve\u002Fmain\u002Fmambavision_tiny2_1k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-S\u003C\u002Ftd>\n    \u003Ctd>83.3\u003C\u002Ftd>\n    \u003Ctd>96.5\u003C\u002Ftd>\n    \u003Ctd>4700\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>50.1\u003C\u002Ftd>\n    \u003Ctd>7.5\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\u002Fresolve\u002Fmain\u002Fmambavision_small_1k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-B\u003C\u002Ftd>\n    \u003Ctd>84.2\u003C\u002Ftd>\n    \u003Ctd>96.9\u003C\u002Ftd>\n    \u003Ctd>3670\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>97.7\u003C\u002Ftd>\n    \u003Ctd>15.0\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\u002Fresolve\u002Fmain\u002Fmambavision_base_1k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L\u003C\u002Ftd>\n    \u003Ctd>85.0\u003C\u002Ftd>\n    \u003Ctd>97.1\u003C\u002Ftd>\n    \u003Ctd>2190\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>227.9\u003C\u002Ftd>\n    \u003Ctd>34.9\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-1K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-1K\u002Fresolve\u002Fmain\u002Fmambavision_large_1k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L2\u003C\u002Ftd>\n    \u003Ctd>85.3\u003C\u002Ftd>\n    \u003Ctd>97.2\u003C\u002Ftd>\n    \u003Ctd>1021\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>241.5\u003C\u002Ftd>\n    \u003Ctd>37.5\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-1K\">link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-1K\u002Fresolve\u002Fmain\u002Fmambavision_large2_1k.pth.tar\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftable>\n\n## Detection Results + Models \n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Backbone\u003C\u002Fth>\n    \u003Cth>Detector\u003C\u002Fth>\n    \u003Cth>Lr Schd\u003C\u002Fth>\n    \u003Cth>box mAP\u003C\u002Fth>\n    \u003Cth>mask mAP\u003C\u002Fth>\n    \u003Cth>#Params(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>Config\u003C\u002Fth>\n    \u003Cth>Log\u003C\u002Fth>\n    \u003Cth>Model Ckpt\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\">MambaVision-T-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>Cascade Mask R-CNN\u003C\u002Ftd>\n    \u003Ctd>3x\u003C\u002Ftd>\n    \u003Ctd>51.1\u003C\u002Ftd>\n    \u003Ctd>44.3\u003C\u002Ftd>\n    \u003Ctd>86\u003C\u002Ftd>\n    \u003Ctd>740\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Fconfigs\u002Fmamba_vision\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fwork_dirs\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco\u002F20250607_142007\u002F20250607_142007.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco\u002Fresolve\u002Fmain\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\">MambaVision-S-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>Cascade Mask R-CNN\u003C\u002Ftd>\n    \u003Ctd>3x\u003C\u002Ftd>\n    \u003Ctd>52.3\u003C\u002Ftd>\n    \u003Ctd>45.2\u003C\u002Ftd>\n    \u003Ctd>108\u003C\u002Ftd>\n    \u003Ctd>828\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Fconfigs\u002Fmamba_vision\u002Fcascade_mask_rcnn_mamba_vision_small_3x_coco.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fwork_dirs\u002Fcascade_mask_rcnn_mamba_vision_small_3x_coco\u002F20250607_144612\u002F20250607_144612.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco\u002Fresolve\u002Fmain\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\">MambaVision-B-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>Cascade Mask R-CNN\u003C\u002Ftd>\n    \u003Ctd>3x\u003C\u002Ftd>\n    \u003Ctd>52.8\u003C\u002Ftd>\n    \u003Ctd>45.7\u003C\u002Ftd>\n    \u003Ctd>145\u003C\u002Ftd>\n    \u003Ctd>964\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Fconfigs\u002Fmamba_vision\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fwork_dirs\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco\u002F20250607_145939\u002F20250607_145939.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco\u002Fresolve\u002Fmain\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftable>\n\n##  Segmentation Results + Models \n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Backbone\u003C\u002Fth>\n    \u003Cth>Method\u003C\u002Fth>\n    \u003Cth>Lr Schd\u003C\u002Fth>\n    \u003Cth>mIoU\u003C\u002Fth>\n    \u003Cth>#Params(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>Config\u003C\u002Fth>\n    \u003Cth>Log\u003C\u002Fth>\n    \u003Cth>Model Ckpt\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\">MambaVision-T-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>46.0\u003C\u002Ftd>\n    \u003Ctd>55\u003C\u002Ftd>\n    \u003Ctd>945\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-512x512_tiny.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-512x512_tiny.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-512x512_tiny\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-512x512_tiny.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\">MambaVision-S-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>48.2\u003C\u002Ftd>\n    \u003Ctd>84\u003C\u002Ftd>\n    \u003Ctd>1135\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-512x512_small.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-512x512_small.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-512x512_small\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-512x512_small.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\">MambaVision-B-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>49.1\u003C\u002Ftd>\n    \u003Ctd>126\u003C\u002Ftd>\n    \u003Ctd>1342\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-512x512_base.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-512x512_base.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-512x512_base\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-512x512_base.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K\">MambaVision-L3-512-21K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>53.2\u003C\u002Ftd>\n    \u003Ctd>780\u003C\u002Ftd>\n    \u003Ctd>3670\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-640x640_l3_21k.py\">config\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-640x640_l3_21k.log\">log\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-640x640_l3_21k\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-640x640_l3_21k.pth\">model\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\n\u003C\u002Ftable>\n\n## Installation\n\nWe provide a [docker file](.\u002FDockerfile). In addition, assuming that a recent [PyTorch](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) package is installed, the dependencies can be installed by running:\n\n```bash\npip install -r requirements.txt\n```\n\n## Evaluation\n\nThe MambaVision models can be evaluated on ImageNet-1K validation set using the following: \n\n```\npython validate.py \\\n--model \u003Cmodel-name>\n--checkpoint \u003Ccheckpoint-path>\n--data_dir \u003Cimagenet-path>\n--batch-size \u003Cbatch-size-per-gpu\n``` \n\nHere `--model` is the MambaVision variant (e.g. `mambavision_tiny_1k`), `--checkpoint` is the path to pretrained model weights, `--data_dir` is the path to ImageNet-1K validation set and `--batch-size` is the number of batch size. We also provide a sample script [here](.\u002Fmambavision\u002Fvalidate.sh). \n\n## FAQ\n\n1. Does MambaVision support processing images with any input resolutions ? \n\nYes ! you can pass images with any arbitrary resolutions without the need to change the model.\n\n2. I am interested in re-implementing MambaVision in my own repository. Can we use the pretrained weights ? \n\nYes ! the pretrained weights are released under [CC-BY-NC-SA-4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F). Please submit an issue in this repo and we will add your repository to the README of our codebase and properly acknowledge your efforts. \n\n3. Can I apply MambaVision for downstream tasks like detection, segmentation ? \n\nYes ! we have released the [model](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fmamba_vision.py) that supports downstream tasks along code and pretrained models for [object detection](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fobject_detection) and [semantic segmentation](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fsemantic_segmentation).\n\n4. How were the throughput and FLOPs calculated for each model ?\n\nPlease see this [snippet](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fmambavision\u002Fthroughput_measure.py) for throughput and FLOPs measurement. Results may vary depending on the hardware. \n\n## Citation\n\nIf you find MambaVision to be useful for your work, please consider citing our paper: \n\n```\n@inproceedings{hatamizadeh2025mambavision,\n  title={Mambavision: A hybrid mamba-transformer vision backbone},\n  author={Hatamizadeh, Ali and Kautz, Jan},\n  booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},\n  pages={25261--25270},\n  year={2025}\n}\n```\n\n## Star History\n\n[![Stargazers repo roster for @NVlabs\u002FMambaVision](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_467ed3f5063a.png)](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fstargazers)\n\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_985115684936.png)](https:\u002F\u002Fstar-history.com\u002F#NVlabs\u002FMambaVision&Date)\n\n\n## Licenses\n\nCopyright © 2026, NVIDIA Corporation. All rights reserved.\n\nThis work is made available under the NVIDIA Source Code License-NC. Click [here](LICENSE) to view a copy of this license.\n\nThe pre-trained models are shared under [CC-BY-NC-SA-4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F). If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.\n\nFor license information regarding the timm repository, please refer to its [repository](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models).\n\nFor license information regarding the ImageNet dataset, please see the [ImageNet official website](https:\u002F\u002Fwww.image-net.org\u002F). \n\n## Acknowledgement\nThis repository is built on top of the [timm](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models) repository. We thank [Ross Wrightman](https:\u002F\u002Frwightman.com\u002F) for creating and maintaining this high-quality library.  \n","# MambaVision：一种混合型Mamba-Transformer视觉骨干网络\n\n**MambaVision：一种混合型Mamba-Transformer视觉骨干网络** 的官方 PyTorch 实现，详见 [arXiv 预印本](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08083)。\n\n[![GitHub 星标数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FNVlabs\u002FMambaVision.svg?style=social)](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fstargazers)\n\n作者：[Ali Hatamizadeh](https:\u002F\u002Fresearch.nvidia.com\u002Fperson\u002Fali-hatamizadeh) 和 [Jan Kautz](https:\u002F\u002Fjankautz.com\u002F)。\n\n如需商务合作，请访问我们的官网并提交表格：[NVIDIA Research Licensing](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fresearch\u002Finquiries\u002F)\n\n立即体验 MambaVision：[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1WR8LAzRMoK19RiFA-Br0Xxir_Htb3pLf)\n\n---\n\nMambaVision 在 Top-1 准确率和吞吐量方面取得了新的 SOTA 帕累托前沿，表现出色。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_18442fce0292.png\" width=62% height=62% \nclass=\"center\">\n\u003C\u002Fp>\n\n我们引入了一种新颖的混合模块，通过构建无 SSM 的对称路径来增强全局上下文建模能力：\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_7fcfdd4f96f0.png\" width=32% height=32% \nclass=\"center\">\n\u003C\u002Fp>\n\nMambaVision 采用层次化架构，同时使用自注意力机制和混合模块：\n\n![teaser](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_2d20a4cca805.png)\n\n## 💥 最新消息 💥\n- **[2025年6月10日]** MambaVision 的海报将亮相 2025 年 CVPR 大会，地点为纳什维尔，展示时间为 2025 年 6月15日星期日 上午10:30 至中午12:30（CDT），展位号为 D 展厅 403 号。\n  \n- **[2025年6月10日]** 语义分割代码及模型已发布 [此处](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fsemantic_segmentation)！\n\n- **[2025年6月7日]** 目标检测代码及模型已发布 [此处](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fobject_detection)！\n\n- **[2025年3月29日]** 现在您可以在 Google Colab 中轻松运行 MambaVision。立即尝试：[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1WR8LAzRMoK19RiFA-Br0Xxir_Htb3pLf)\n\n- **[2025年3月29日]** 新的 MambaVision [pip 包](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmambavision\u002F) 已发布！\n\n- **[2025年3月25日]** 更新后的 [论文](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.08083) 现已在 arXiv 上公开！\n\n- **[2025年3月25日]** 仓库中新增了 21K 模型和代码。\n\n- **[2025年3月25日]** MambaVision 是首个大规模的基于 Mamba 的视觉骨干网络！\n\n- **[2025年3月24日]** [MambaVision-L3-512-21K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K) 达到 **88.1% 的 Top-1 准确率**。\n\n- **[2025年3月24日]** 新的 ImageNet-21K 模型已加入 [MambaVision Hugging Face 收藏](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3)。\n\n- **[2025年2月26日]** MambaVision 已被 2025 年 CVPR 接受！\n\n- **[2024年7月24日]** MambaVision [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) 模型正式发布！\n\n- **[2024年7月14日]** 我们增加了对任意分辨率图像处理的支持。\n\n- **[2024年7月12日]** [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2407.08083) 现已在 arXiv 上发布！\n\n- **[2024年7月11日]** [Mambavision pip 包](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmambavision\u002F) 正式发布！\n\n- **[2024年7月10日]** 我们发布了 MambaVision 的代码和模型检查点！\n\n## 快速入门\n\n### Google Colab\n\n您可以在 Google Colab 中简单试用 MambaVision 进行图像分类：[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fdrive\u002F1WR8LAzRMoK19RiFA-Br0Xxir_Htb3pLf)\n\n### Hugging Face（分类 + 特征提取）\n\n预训练的 MambaVision 模型可通过 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) 库以 **几行代码** 轻松使用。首先安装依赖：\n\n```bash\npip install mambavision\n```\n\n然后即可导入模型：\n\n```python\n>>> from transformers import AutoModelForImageClassification\n\n>>> model = AutoModelForImageClassification.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\n```\n\n以下是一个端到端的图像分类示例。\n\n输入图片来自 [COCO 数据集](https:\u002F\u002Fcocodataset.org\u002F#home) 的验证集：\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_18a5e59114b6.jpeg\" width=70% height=70% \nclass=\"center\">\n\u003C\u002Fp>\n\n可使用如下代码片段：\n\n```python\nfrom transformers import AutoModelForImageClassification\nfrom PIL import Image\nfrom timm.data.transforms_factory import create_transform\nimport requests\n\nmodel = AutoModelForImageClassification.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\n\n# 推理模式\nmodel.cuda().eval()\n\n# 准备输入图像\nurl = 'http:\u002F\u002Fimages.cocodataset.org\u002Fval2017\u002F000000020247.jpg'\nimage = Image.open(requests.get(url, stream=True).raw)\ninput_resolution = (3, 224, 224)  # MambaVision 支持任意输入分辨率\n\ntransform = create_transform(input_size=input_resolution,\n                             is_training=False,\n                             mean=model.config.mean,\n                             std=model.config.std,\n                             crop_mode=model.config.crop_mode,\n                             crop_pct=model.config.crop_pct)\n\ninputs = transform(image).unsqueeze(0).cuda()\n# 模型推理\noutputs = model(inputs)\nlogits = outputs['logits'] \npredicted_class_idx = logits.argmax(-1).item()\nprint(\"预测类别:\", model.config.id2label[predicted_class_idx])\n```\n\n预测结果为棕熊、灰熊，学名 Ursus arctos。\n\n您还可以使用 Hugging Face 上的 MambaVision 模型进行特征提取。该模型会输出每一层的特征（分四个阶段的层次化多尺度特征），以及最终经过平均池化后展平的特征向量。前者可用于下游任务，如分类和检测。\n\n以下是特征提取的代码示例：\n\n```Python\nfrom transformers import AutoModel\nfrom PIL import Image\nfrom timm.data.transforms_factory import create_transform\nimport requests\n\nmodel = AutoModel.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\n\n# 推理模式\nmodel.cuda().eval()\n\n# 准备模型输入图像\nurl = 'http:\u002F\u002Fimages.cocodataset.org\u002Fval2017\u002F000000020247.jpg'\nimage = Image.open(requests.get(url, stream=True).raw)\ninput_resolution = (3, 224, 224)  # MambaVision 支持任意输入分辨率\n\ntransform = create_transform(input_size=input_resolution,\n                             is_training=False,\n                             mean=model.config.mean,\n                             std=model.config.std,\n                             crop_mode=model.config.crop_mode,\n                             crop_pct=model.config.crop_pct)\ninputs = transform(image).unsqueeze(0).cuda()\n# 模型推理\nout_avg_pool, features = model(inputs)\nprint(\"平均池化特征的尺寸:\", out_avg_pool.size())  # torch.Size([1, 640])\nprint(\"提取特征中的阶段数:\", len(features)) # 4个阶段\nprint(\"第1阶段提取特征的尺寸:\", features[0].size()) # torch.Size([1, 80, 56, 56])\nprint(\"第4阶段提取特征的尺寸:\", features[3].size()) # torch.Size([1, 640, 7, 7])\n```\n\n目前，我们在 Hugging Face 上提供了 [MambaVision-T-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K)、[MambaVision-T2-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T2-1K)、[MambaVision-S-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K)、[MambaVision-B-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K)、[MambaVision-L-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-1K) 和 [MambaVision-L2-1K](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-1K)。所有模型也可以在 [这里](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) 查看。\n\n### 分类（pip 包）\n\n我们还可以通过 pip 包以 **几行代码** 导入预训练的 MambaVision 模型：\n\n```bash\npip install mambavision\n```\n\n可以使用默认超参数创建一个预训练的 MambaVision 模型，如下所示：\n\n```python\n>>> from mambavision import create_model\n\n# 定义 mamba_vision_T 模型\n\n>>> model = create_model('mamba_vision_T', pretrained=True, model_path=\"\u002Ftmp\u002Fmambavision_tiny_1k.pth.tar\")\n```\n\n可用的预训练模型包括 `mamba_vision_T`、`mamba_vision_T2`、`mamba_vision_S`、`mamba_vision_B`、`mamba_vision_L` 和 `mamba_vision_L2`。\n\n我们也可以简单地通过传递一张 **任意分辨率** 的虚拟图像来测试模型。输出是 logits：\n\n```python\n>>> import torch\n\n>>> image = torch.rand(1, 3, 512, 224).cuda() # 将图像放在 GPU 上\n>>> model = model.cuda() # 将模型放在 GPU 上\n>>> output = model(image) # 输出 logit 的尺寸是 [1, 1000]\n```\n\n使用我们 pip 包中的预训练模型，您可以轻松运行验证：\n\n```\npython validate_pip_model.py --model mamba_vision_T --data_dir=$DATA_PATH --batch-size $BS \n``` \n\n## 结果 + 预训练模型\n\n### ImageNet-21K\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>名称\u003C\u002Fth>\n    \u003Cth>Acc@1(%)\u003C\u002Fth>\n    \u003Cth>Acc@5(%)\u003C\u002Fth>\n    \u003Cth>#参数(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>分辨率\u003C\u002Fth>\n    \u003Cth>Hugging Face\u003C\u002Fth>\n    \u003Cth>下载\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-B-21K\u003C\u002Ftd>\n    \u003Ctd>84.9\u003C\u002Ftd>\n    \u003Ctd>97.5\u003C\u002Ftd>\n    \u003Ctd>97.7\u003C\u002Ftd>\n    \u003Ctd>15.0\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-21K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-21K\u002Fresolve\u002Fmain\u002Fmambavision_base_21k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L-21K\u003C\u002Ftd>\n    \u003Ctd>86.1\u003C\u002Ftd>\n    \u003Ctd>97.9\u003C\u002Ftd>\n    \u003Ctd>227.9\u003C\u002Ftd>\n    \u003Ctd>34.9\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-21K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-21K\u002Fresolve\u002Fmain\u002Fmambavision_large_21k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L2-512-21K\u003C\u002Ftd>\n    \u003Ctd>87.3\u003C\u002Ftd>\n    \u003Ctd>98.4\u003C\u002Ftd>\n    \u003Ctd>241.5\u003C\u002Ftd>\n    \u003Ctd>196.3\u003C\u002Ftd>\n    \u003Ctd>512x512\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-512-21K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-512-21K\u002Fresolve\u002Fmain\u002Fmambavision_L2_21k_240m_512.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L3-256-21K\u003C\u002Ftd>\n    \u003Ctd>87.3\u003C\u002Ftd>\n    \u003Ctd>98.3\u003C\u002Ftd>\n    \u003Ctd>739.6\u003C\u002Ftd>\n    \u003Ctd>122.3\u003C\u002Ftd>\n    \u003Ctd>256x256\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-256-21K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-256-21K\u002Fresolve\u002Fmain\u002Fmambavision_L3_21k_740m_256.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L3-512-21K\u003C\u002Ftd>\n    \u003Ctd>88.1\u003C\u002Ftd>\n    \u003Ctd>98.6\u003C\u002Ftd>\n    \u003Ctd>739.6\u003C\u002Ftd>\n    \u003Ctd>489.1\u003C\u002Ftd>\n    \u003Ctd>512x512\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K\u002Fresolve\u002Fmain\u002Fmambavision_L3_21k_740m_512.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftable>\n\n### ImageNet-1K\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>名称\u003C\u002Fth>\n    \u003Cth>Top-1准确率(%)\u003C\u002Fth>\n    \u003Cth>Top-5准确率(%)\u003C\u002Fth>\n    \u003Cth>吞吐量(张\u002F秒)\u003C\u002Fth>\n    \u003Cth>分辨率\u003C\u002Fth>\n    \u003Cth>参数量(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>Hugging Face链接\u003C\u002Fth>\n    \u003Cth>下载链接\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-T\u003C\u002Ftd>\n    \u003Ctd>82.3\u003C\u002Ftd>\n    \u003Ctd>96.2\u003C\u002Ftd>\n    \u003Ctd>6298\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>31.8\u003C\u002Ftd>\n    \u003Ctd>4.4\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\u002Fresolve\u002Fmain\u002Fmambavision_tiny_1k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-T2\u003C\u002Ftd>\n    \u003Ctd>82.7\u003C\u002Ftd>\n    \u003Ctd>96.3\u003C\u002Ftd>\n    \u003Ctd>5990\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>35.1\u003C\u002Ftd>\n    \u003Ctd>5.1\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T2-1K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T2-1K\u002Fresolve\u002Fmain\u002Fmambavision_tiny2_1k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-S\u003C\u002Ftd>\n    \u003Ctd>83.3\u003C\u002Ftd>\n    \u003Ctd>96.5\u003C\u002Ftd>\n    \u003Ctd>4700\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>50.1\u003C\u002Ftd>\n    \u003Ctd>7.5\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\u002Fresolve\u002Fmain\u002Fmambavision_small_1k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-B\u003C\u002Ftd>\n    \u003Ctd>84.2\u003C\u002Ftd>\n    \u003Ctd>96.9\u003C\u002Ftd>\n    \u003Ctd>3670\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>97.7\u003C\u002Ftd>\n    \u003Ctd>15.0\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\u002Fresolve\u002Fmain\u002Fmambavision_base_1k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L\u003C\u002Ftd>\n    \u003Ctd>85.0\u003C\u002Ftd>\n    \u003Ctd>97.1\u003C\u002Ftd>\n    \u003Ctd>2190\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>227.9\u003C\u002Ftd>\n    \u003Ctd>34.9\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-1K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L-1K\u002Fresolve\u002Fmain\u002Fmambavision_large_1k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>MambaVision-L2\u003C\u002Ftd>\n    \u003Ctd>85.3\u003C\u002Ftd>\n    \u003Ctd>97.2\u003C\u002Ftd>\n    \u003Ctd>1021\u003C\u002Ftd>\n    \u003Ctd>224x224\u003C\u002Ftd>\n    \u003Ctd>241.5\u003C\u002Ftd>\n    \u003Ctd>37.5\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-1K\">链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L2-1K\u002Fresolve\u002Fmain\u002Fmambavision_large2_1k.pth.tar\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftable>\n\n## 检测结果 + 模型\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>骨干网络\u003C\u002Fth>\n    \u003Cth>检测器\u003C\u002Fth>\n    \u003Cth>学习率调度\u003C\u002Fth>\n    \u003Cth>边界框mAP\u003C\u002Fth>\n    \u003Cth>掩码mAP\u003C\u002Fth>\n    \u003Cth>参数量(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>配置文件\u003C\u002Fth>\n    \u003Cth>日志\u003C\u002Fth>\n    \u003Cth>模型检查点\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\">MambaVision-T-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>级联Mask R-CNN\u003C\u002Ftd>\n    \u003Ctd>3倍\u003C\u002Ftd>\n    \u003Ctd>51.1\u003C\u002Ftd>\n    \u003Ctd>44.3\u003C\u002Ftd>\n    \u003Ctd>86\u003C\u002Ftd>\n    \u003Ctd>740\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Fconfigs\u002Fmamba_vision\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco.py\">配置文件\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fwork_dirs\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco\u002F20250607_142007\u002F20250607_142007.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco\u002Fresolve\u002Fmain\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\">MambaVision-S-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>级联Mask R-CNN\u003C\u002Ftd>\n    \u003Ctd>3倍\u003C\u002Ftd>\n    \u003Ctd>52.3\u003C\u002Ftd>\n    \u003Ctd>45.2\u003C\u002Ftd>\n    \u003Ctd>108\u003C\u002Ftd>\n    \u003Ctd>828\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Fconfigs\u002Fmamba_vision\u002Fcascade_mask_rcnn_mamba_vision_small_3x_coco.py\">配置文件\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fwork_dirs\u002Fcascade_mask_rcnn_mamba_vision_small_3x_coco\u002F20250607_144612\u002F20250607_144612.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco\u002Fresolve\u002Fmain\u002Fcascade_mask_rcnn_mamba_vision_tiny_3x_coco.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\">MambaVision-B-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>级联Mask R-CNN\u003C\u002Ftd>\n    \u003Ctd>3倍\u003C\u002Ftd>\n    \u003Ctd>52.8\u003C\u002Ftd>\n    \u003Ctd>45.7\u003C\u002Ftd>\n    \u003Ctd>145\u003C\u002Ftd>\n    \u003Ctd>964\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Fconfigs\u002Fmamba_vision\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco.py\">配置文件\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fwork_dirs\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco\u002F20250607_145939\u002F20250607_145939.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco\u002Fresolve\u002Fmain\u002Fcascade_mask_rcnn_mamba_vision_base_3x_coco.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003C\u002Ftable>\n\n## 分割结果 + 模型\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>主干网络\u003C\u002Fth>\n    \u003Cth>方法\u003C\u002Fth>\n    \u003Cth>学习率调度\u003C\u002Fth>\n    \u003Cth>mIoU\u003C\u002Fth>\n    \u003Cth>#参数(M)\u003C\u002Fth>\n    \u003Cth>FLOPs(G)\u003C\u002Fth>\n    \u003Cth>配置\u003C\u002Fth>\n    \u003Cth>日志\u003C\u002Fth>\n    \u003Cth>模型检查点\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-T-1K\">MambaVision-T-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>46.0\u003C\u002Ftd>\n    \u003Ctd>55\u003C\u002Ftd>\n    \u003Ctd>945\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-512x512_tiny.py\">配置\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-512x512_tiny.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-512x512_tiny\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-512x512_tiny.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-S-1K\">MambaVision-S-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>48.2\u003C\u002Ftd>\n    \u003Ctd>84\u003C\u002Ftd>\n    \u003Ctd>1135\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-512x512_small.py\">配置\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-512x512_small.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-512x512_small\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-512x512_small.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-B-1K\">MambaVision-B-1K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>49.1\u003C\u002Ftd>\n    \u003Ctd>126\u003C\u002Ftd>\n    \u003Ctd>1342\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-512x512_base.py\">配置\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-512x512_base.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-512x512_base\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-512x512_base.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\n\u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FMambaVision-L3-512-21K\">MambaVision-L3-512-21K\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>UPerNet\u003C\u002Ftd>\n    \u003Ctd>160K\u003C\u002Ftd>\n    \u003Ctd>53.2\u003C\u002Ftd>\n    \u003Ctd>780\u003C\u002Ftd>\n    \u003Ctd>3670\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Fconfigs\u002Fmamba_vision\u002Fmamba_vision_160k_ade20k-640x640_l3_21k.py\">配置\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fsemantic_segmentation\u002Ftools\u002Flogs\u002Fmamba_vision_160k_ade20k-640x640_l3_21k.log\">日志\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002Fmamba_vision_160k_ade20k-640x640_l3_21k\u002Fresolve\u002Fmain\u002Fmamba_vision_160k_ade20k-640x640_l3_21k.pth\">模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\n\n\u003C\u002Ftable>\n\n## 安装\n\n我们提供了一个 [Docker 文件](.\u002FDockerfile)。此外，假设已经安装了最新版本的 [PyTorch](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)，可以通过运行以下命令来安装依赖项：\n\n```bash\npip install -r requirements.txt\n```\n\n## 评估\n\n可以使用以下命令在 ImageNet-1K 验证集上评估 MambaVision 模型：\n\n```\npython validate.py \\\n--model \u003C模型名称>\n--checkpoint \u003C检查点路径>\n--data_dir \u003CImageNet 路径>\n--batch-size \u003C每 GPU 的批量大小>\n``` \n\n其中 `--model` 是 MambaVision 的变体（例如 `mambavision_tiny_1k`），`--checkpoint` 是预训练模型权重的路径，`--data_dir` 是 ImageNet-1K 验证集的路径，`--batch-size` 是批量大小。我们还提供了一个示例脚本 [这里](.\u002Fmambavision\u002Fvalidate.sh)。\n\n## 常见问题解答\n\n1. MambaVision 是否支持处理任意输入分辨率的图像？\n\n是的！您可以传递任意分辨率的图像，而无需更改模型。\n\n2. 我有兴趣在我的仓库中重新实现 MambaVision。我们可以使用预训练权重吗？\n\n是的！预训练权重以 [CC-BY-NC-SA-4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 许可发布。请在此仓库中提交一个问题，我们将把您的仓库添加到我们的代码库 README 中，并适当感谢您的努力。\n\n3. 我可以将 MambaVision 应用于下游任务，如检测、分割吗？\n\n是的！我们已经发布了支持下游任务的 [模型](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fobject_detection\u002Ftools\u002Fmamba_vision.py)，并提供了用于 [目标检测](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fobject_detection) 和 [语义分割](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Ftree\u002Fmain\u002Fsemantic_segmentation) 的代码和预训练模型。\n\n4. 如何计算每个模型的吞吐量和 FLOPs？\n\n请参阅此 [片段](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fblob\u002Fmain\u002Fmambavision\u002Fthroughput_measure.py) 以了解吞吐量和 FLOPs 的测量方法。结果可能因硬件而异。\n\n## 引用\n\n如果您发现 MambaVision 对您的工作有帮助，请考虑引用我们的论文：\n\n```\n@inproceedings{hatamizadeh2025mambavision,\n  title={Mambavision: A hybrid mamba-transformer vision backbone},\n  author={Hatamizadeh, Ali and Kautz, Jan},\n  booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},\n  pages={25261--25270},\n  year={2025}\n}\n```\n\n## 星标历史\n\n[![@NVlabs\u002FMambaVision 的星标用户列表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_467ed3f5063a.png)](https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fstargazers)\n\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_readme_985115684936.png)](https:\u002F\u002Fstar-history.com\u002F#NVlabs\u002FMambaVision&Date)\n\n\n## 许可证\n\n版权所有 © 2026，英伟达公司。保留所有权利。\n\n本作品根据 NVIDIA 源代码许可协议-NC 提供。点击 [这里](LICENSE) 查看该许可证的副本。\n\n预训练模型以 [CC-BY-NC-SA-4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F) 许可共享。如果您对材料进行 remix、转换或构建，则必须以与原始材料相同的许可方式分发您的贡献。\n\n有关 timm 仓库的许可证信息，请参阅其 [仓库](https:\u002F\u002Fgithub.com\u002Frwightman\u002Fpytorch-image-models)。\n\n有关 ImageNet 数据集的许可证信息，请参阅 [ImageNet 官方网站](https:\u002F\u002Fwww.image-net.org\u002F)。\n\n## 致谢\n本仓库建立在 [timm](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpytorch-image-models) 仓库的基础上。我们感谢 [罗斯·赖特曼](https:\u002F\u002Frwightman.com\u002F) 创建并维护这个高质量的库。","# MambaVision 快速上手指南\n\nMambaVision 是一种混合了 Mamba 与 Transformer 架构的视觉骨干网络，在 Top-1 准确率和吞吐量之间实现了新的最优平衡（SOTA Pareto-front）。本指南将帮助您快速在中国开发环境中部署并使用该模型。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA GPU (推荐用于推理和训练)\n*   **核心依赖**:\n    *   PyTorch >= 1.12\n    *   torchvision\n    *   timm (PyTorch Image Models)\n    *   transformers (Hugging Face)\n\n**建议操作**：\n国内用户建议使用清华源或阿里源加速 Python 包安装。\n\n```bash\n# 示例：配置 pip 使用清华源\npip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 安装步骤\n\n您可以通过两种主要方式安装 MambaVision：使用官方 pip 包（推荐用于快速推理）或通过 Hugging Face Transformers 库。\n\n### 方式一：通过 pip 安装（官方包）\n\n这是最直接的集成方式，适合直接调用模型进行推理或微调。\n\n```bash\npip install mambavision\n```\n\n如果需要安装额外的视觉处理依赖（如 `timm`），请确保已安装：\n\n```bash\npip install timm pillow requests\n```\n\n### 方式二：通过 Hugging Face Transformers 使用\n\n如果您习惯使用 `transformers` 生态，无需单独安装 `mambavision` 包，只需确保安装了最新版 `transformers`：\n\n```bash\npip install --upgrade transformers\n```\n\n## 基本使用\n\n以下提供两种最常用的使用场景代码示例。\n\n### 场景 1：使用 pip 包进行图像分类\n\n此方法适合直接使用官方预训练权重进行推理，支持任意分辨率输入。\n\n```python\nfrom mambavision import create_model\nimport torch\n\n# 1. 创建模型 (以 Tiny 版本为例)\n# pretrained=True 会自动下载权重，也可指定本地 model_path\nmodel = create_model('mamba_vision_T', pretrained=True)\n\n# 2. 切换至评估模式并移至 GPU\nmodel.cuda().eval()\n\n# 3. 准备输入数据 (支持任意分辨率，此处示例为 512x224)\n# 实际使用时请使用 transforms 对真实图片进行预处理 (归一化等)\ndummy_image = torch.rand(1, 3, 512, 224).cuda()\n\n# 4. 执行推理\nwith torch.no_grad():\n    output = model(dummy_image)\n\n# 输出维度为 [batch_size, 1000] (ImageNet 类别数)\nprint(f\"Output logits shape: {output.shape}\")\n```\n\n### 场景 2：使用 Hugging Face 进行特征提取\n\n此方法适合需要获取多级特征图（用于检测、分割等下游任务）的场景。\n\n```python\nfrom transformers import AutoModel\nfrom PIL import Image\nfrom timm.data.transforms_factory import create_transform\nimport requests\nimport torch\n\n# 1. 加载预训练模型\nmodel = AutoModel.from_pretrained(\"nvidia\u002FMambaVision-T-1K\", trust_remote_code=True)\nmodel.cuda().eval()\n\n# 2. 准备图像数据\nurl = 'http:\u002F\u002Fimages.cocodataset.org\u002Fval2017\u002F000000020247.jpg'\nimage = Image.open(requests.get(url, stream=True).raw)\n\n# 定义输入分辨率 (MambaVision 支持动态分辨率)\ninput_resolution = (3, 224, 224)\n\n# 构建预处理流程\ntransform = create_transform(input_size=input_resolution,\n                             is_training=False,\n                             mean=model.config.mean,\n                             std=model.config.std,\n                             crop_mode=model.config.crop_mode,\n                             crop_pct=model.config.crop_pct)\n\ninputs = transform(image).unsqueeze(0).cuda()\n\n# 3. 执行推理并提取特征\nwith torch.no_grad():\n    # out_avg_pool: 全局平均池化后的特征 (用于分类)\n    # features: 包含 4 个阶段的多尺度特征列表 (用于检测\u002F分割)\n    out_avg_pool, features = model(inputs)\n\n# 打印特征信息\nprint(f\"全局池化特征尺寸：{out_avg_pool.size()}\") \nprint(f\"特征阶段数量：{len(features)}\")\nprint(f\"第 1 阶段特征尺寸：{features[0].size()}\")\nprint(f\"第 4 阶段特征尺寸：{features[3].size()}\")\n```\n\n### 可用模型列表\n\n目前支持的预训练模型包括：\n*   **ImageNet-1K**: `MambaVision-T`, `T2`, `S`, `B`, `L`, `L2`\n*   **ImageNet-21K**: `MambaVision-B`, `L`, `L2`, `L3` (高分辨率版本)\n\n您可以在 [Hugging Face Collection](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fnvidia\u002Fmambavision-66943871a6b36c9e78b327d3) 查看所有模型权重。","某自动驾驶初创公司的算法团队正在开发新一代道路障碍物检测系统，需要在车载边缘设备上实时处理高分辨率摄像头数据。\n\n### 没有 MambaVision 时\n- **推理延迟过高**：传统的纯 Transformer 架构（如 ViT）在处理高分辨率图像时计算量呈平方级增长，导致帧率无法达到实时驾驶要求的 30 FPS。\n- **全局上下文缺失**：为了降低延迟而改用的轻量级 CNN 模型，难以捕捉长距离依赖关系，经常误判远处的细小障碍物或遮挡物体。\n- **精度与速度难兼得**：团队被迫在“高精度但慢速”和“快速但低精度”的模型之间做妥协，无法找到理想的平衡点，影响了自动紧急制动系统的可靠性。\n- **显存占用过大**：现有大模型对显存需求极高，限制了其在低成本车载芯片上的部署可行性。\n\n### 使用 MambaVision 后\n- **实现实时高帧率推理**：利用 MambaVision 混合架构中状态空间模型（SSM）的线性复杂度特性，在保持高分辨率输入的同时，将推理速度提升至满足实时性要求。\n- **精准捕捉全局特征**：通过其独特的对称混合器块（Mixer Block）增强全局上下文建模能力，显著提升了了对远处车辆、行人及复杂路况的识别准确率。\n- **突破性能帕累托前沿**：MambaVision 在 Top-1 准确率和吞吐量上同时达到新的高度，让团队无需再牺牲精度来换取速度，大幅提升了系统安全性。\n- **高效部署边缘设备**：层级化架构设计优化了资源消耗，使得高性能模型能够顺利运行在算力受限的车载边缘计算单元上。\n\nMambaVision 通过融合 Mamba 与 Transformer 的优势，成功解决了视觉任务中长期存在的速度与精度不可兼得的难题，为实时智能驾驶提供了强有力的骨干网络支持。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVlabs_MambaVision_18442fce.png","NVlabs","NVIDIA Research Projects","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FNVlabs_fc20d641.jpg","",null,"http:\u002F\u002Fresearch.nvidia.com","https:\u002F\u002Fgithub.com\u002FNVlabs",[84,88,92],{"name":85,"color":86,"percentage":87},"Python","#3572A5",98.7,{"name":89,"color":90,"percentage":91},"Shell","#89e051",1.3,{"name":93,"color":94,"percentage":95},"Dockerfile","#384d54",0,2096,133,"2026-04-03T09:27:40","NOASSERTION","未说明","需要 NVIDIA GPU (代码示例使用 .cuda())，具体显存和 CUDA 版本未说明",{"notes":103,"python":100,"dependencies":104},"该工具基于 PyTorch 实现，支持通过 Hugging Face transformers 库或专用 pip 包 (mambavision) 加载模型。模型支持任意分辨率图像输入。运行推理时需将模型和数据移至 CUDA 设备。",[105,106,107,108,109],"torch","transformers","timm","PIL","mambavision",[26,14,13],[112,113,114,115,116,117,118,119,120,106,121,122,123],"deep-learning","foundation-models","image-classification","mamba","self-attention","vision-transformer","visual-recognition","hybrid-models","huggingface-transformers","instance-segmentation","object-detection","semantic-segmentation","2026-03-27T02:49:30.150509","2026-04-06T09:44:29.132785",[127,132,137,142,147,152],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},13594,"如何在 Windows 或 Google Colab 上安装 MambaVision（遇到 causal-conv1d 和 mamba-ssm 编译失败）？","在 Windows 或某些 Colab 环境中直接通过 pip 安装可能会因为缺少编译环境而导致 causal-conv1d 和 mamba-ssm 构建失败。这些包需要特定的 CUDA 环境和编译工具链。建议尝试以下方法：\n1. 确保已安装与 PyTorch 版本匹配的 CUDA 工具包。\n2. 在 Linux 环境下（如 WSL2 或 Colab）通常比原生 Windows 更容易成功。\n3. 如果必须使用 Windows，可能需要手动预编译这些 wheel 包或等待官方提供预编译的二进制文件。\n4. 检查是否安装了 ninja 和 buildtools 等依赖项。\n目前许多用户反馈在 Windows 上安装仍然困难，推荐优先在 Linux 环境中使用。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fissues\u002F14",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},13595,"是否提供了语义分割（Semantic Segmentation）的代码和预训练模型？","是的，维护者已经添加了语义分割任务的代码和模型。您可以访问项目仓库中的相关目录获取下游任务代码及预训练权重。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fissues\u002F11",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},13596,"如何将 MambaVision 的模块（如 MambaVisionMixer）集成到我自己的自定义网络架构中？","您可以直接从 `mamba_vision` 包中导入所需的层（例如 `MambaVisionMixer`），并结合 `torch.nn` 中的其他层使用。推荐使用 `nn.Sequential` 来构建模块，示例代码如下：\n\n```python\nfrom mamba_vision import MambaVisionMixer\nimport torch.nn as nn\n\nclass MyMambaVisionModule(nn.Module):\n    def __init__(self, dim):\n        super().__init__()\n        self.layers = nn.Sequential(\n            nn.Conv2d(dim, dim, 3, 1, 1, groups=dim, bias=False),\n            nn.GELU(),\n            MambaVisionMixer(d_model=dim, d_state=8, d_conv=3, expand=1),\n            nn.Conv2d(dim, dim, 1, 1, 0, bias=False),\n        )\n\n    def forward(self, x):\n        return self.layers(x)\n```\nMambaVision 中的其他层或块也可以以相同方式导入和使用。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fissues\u002F23",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},13597,"如何处理分辨率不是 224x224 的图像输入？","MambaVision 现已支持处理任意分辨率的图像。您无需像 ViT 那样手动插值位置编码，模型内部已适配不同分辨率的输入。只需将不同尺寸的图像传入模型即可正常推理或训练。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fissues\u002F2",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},13598,"使用 MambaVision 作为骨干网络时，为什么训练过程中的损失值和准确率会出现随机波动？","维护者表示在目标检测等下游任务中并未观察到结果不一致的问题。如果您遇到了损失波动，请确保全局随机种子已正确设置。虽然部分用户报告了类似问题，但官方尚未确认这是由 MambaVision 代码或 timm 库引起的固有随机性。建议检查数据加载器的 shuffle 设置、Dropout 层状态以及是否启用了确定性算法（如 `torch.use_deterministic_algorithms(True)`）。","https:\u002F\u002Fgithub.com\u002FNVlabs\u002FMambaVision\u002Fissues\u002F82",{"id":153,"question_zh":154,"answer_zh":155,"source_url":151},13599,"是否提供了目标检测（Object Detection）的代码和模型？","是的，官方已发布用于目标检测任务的代码和模型。您可以访问仓库中的 `object_detection` 目录查看具体实现和下载预训练权重。",[157,161],{"id":158,"version":159,"summary_zh":80,"released_at":160},72413,"v1.2.0","2025-07-22T22:02:07",{"id":162,"version":163,"summary_zh":164,"released_at":165},72414,"pip","发布了 1.1.0 版的 pip 包。","2025-03-29T20:44:09"]