MiMo-V2-Flash

GitHub
1.3k 55 困难 1 次阅读 昨天Apache-2.0语言模型Agent
AI 解读 由 AI 自动生成,仅供参考

MiMo-V2-Flash 是小米开源的一款高效混合专家(MoE)大语言模型,专为高速推理、代码生成及智能体任务打造。它拥有 3090 亿总参数,但每次推理仅激活 150 亿参数,在保持顶尖性能的同时大幅降低了计算成本。

针对传统大模型在处理长上下文时显存占用高、生成速度慢的痛点,MiMo-V2-Flash 引入了创新的混合注意力架构,通过滑动窗口与全局注意力的巧妙结合,将键值缓存存储需求降低近 6 倍,并支持长达 256k 的上下文窗口。此外,其独有的多令牌预测(MTP)技术能让输出速度提升三倍,显著加速推理过程及强化学习训练。在智能体能力方面,经过大规模代理强化学习优化,它在 SWE-Bench 等复杂编程与推理基准测试中表现卓越。

这款模型非常适合需要部署高性能 AI 应用的开发者、追求极致效率的研究人员,以及希望构建自主智能体系统的工程师。无论是处理超长文档分析、复杂代码编写,还是开发自动化工作流,MiMo-V2-Flash 都能提供强劲且经济的技术支持。

使用场景

某大型电商平台的后端团队正面临“双 11"大促前的紧急任务,需要在 48 小时内重构并修复遗留系统中数百个复杂的订单处理微服务代码。

没有 MiMo-V2-Flash 时

  • 推理成本高昂:面对数百万行代码库的长上下文分析需求,传统大模型显存占用极大,导致团队不得不缩减并发实例数量,严重拖慢整体进度。
  • 响应速度迟缓:在生成复杂逻辑代码或进行多步推理时,模型逐字输出的延迟过高,开发人员大量时间浪费在等待补全上,打断心流。
  • 长文档理解割裂:由于上下文窗口限制或注意力机制效率低,模型难以同时兼顾全局架构文档与局部代码细节,常出现“顾头不顾尾”的逻辑错误。
  • 智能体执行乏力:在自动修复 Bug(SWE-Bench 类任务)时,旧模型缺乏足够的代理规划能力,往往需要人工反复介入修正中间步骤。

使用 MiMo-V2-Flash 后

  • 极致降本增效:凭借 309B 总参数仅激活 15B 的 MoE 架构及混合注意力机制,KV 缓存减少近 6 倍,团队得以低成本部署高并发实例,全量扫描代码库。
  • 三倍输出加速:利用多令牌预测(MTP)技术,代码生成速度提升三倍,开发者几乎能实时获得完整的函数实现,大幅缩短编码循环。
  • 超长上下文无损:原生支持 256k 上下文窗口,MiMo-V2-Flash 能一次性读完整个微服务模块的设计文档与所有依赖文件,确保重构逻辑的全局一致性。
  • 自主闭环修复:得益于强大的代理能力与强化学习训练,它能独立规划并执行复杂的代码修复任务,显著减少人工干预,按时交付高质量代码。

MiMo-V2-Flash 通过平衡超长上下文理解与极致推理效率,将原本需要数周的高强度代码重构工作压缩至几天内高质量完成。

运行环境要求

GPU

未说明(模型总参数量 309B,激活参数 15B,采用 FP8 混合精度训练,推测推理需要高性能多卡集群或专用推理框架支持)

内存

未说明

依赖
notesREADME 主要介绍了模型架构(混合注意力、多令牌预测 MTP)、参数量(309B 总参数/15B 激活参数)、上下文长度(原生 32k,支持至 256k)及性能基准。文中未提供具体的本地部署环境需求(如操作系统、Python 版本、具体依赖库列表)。鉴于模型规模巨大,普通单机显存无法直接加载完整权重,通常需依赖特定的推理引擎或分布式环境。
python未说明
MiMo-V2-Flash hero image

快速开始



Xiaomi-MiMo


MiMo-V2-Flash

MiMo-V2-Flash 是一种专家混合模型(MoE),总参数量达 3090亿,活跃参数量为 150亿。该模型专为高速推理和智能体工作流而设计,采用新颖的混合注意力架构和多标记预测(MTP)技术,在显著降低推理成本的同时,实现了业界领先的性能。


1. 简介

MiMo-V2-Flash 在长上下文建模能力和推理效率之间取得了全新的平衡。其主要特性包括:

  • 混合注意力架构:以 5:1 的比例交替使用滑动窗口注意力(SWA)和全局注意力(GA),并采用激进的 128 个标记窗口。这一设计将 KV 缓存存储需求降低了近 6 倍,同时通过可学习的 注意力汇点偏置 维持了长上下文性能。
  • 多标记预测(MTP):配备轻量级 MTP 模块(每层 0.33B 参数),采用密集前馈网络实现。这使得推理时的输出速度提升至三倍,并有望加速强化学习训练中的部署过程。
  • 高效的预训练:使用 FP8 混合精度和原生 32k 序列长度,在 27T 标记数据上进行训练。上下文窗口最长可达 256k 标记。
  • 智能体能力:在后训练阶段采用多教师在线策略蒸馏(MOPD)和大规模智能体强化学习,从而在 SWE-Bench 和复杂推理任务中表现出色。

2. 模型下载

模型 总参数 活跃参数 上下文长度 下载
MiMo-V2-Flash-Base 309B 15B 256k 🤗 HuggingFace
MiMo-V2-Flash 309B 15B 256k 🤗 HuggingFace

[!重要提示] 我们还开源了 3 层 MTP 权重,以促进社区研究。


3. 评估结果

基础模型评估

MiMo-V2-Flash-Base 在标准基准测试中表现出色,超越了参数量远超其自身的模型。

类别 基准测试 设置/长度 MiMo-V2-Flash Base Kimi-K2 Base DeepSeek-V3.1 Base DeepSeek-V3.2 Exp Base
参数量 激活参数 / 总参数 - 150亿 / 3090亿 320亿 / 10430亿 370亿 / 6710亿 370亿 / 6710亿
通用任务 BBH 3-shot 88.5 88.7 88.2 88.7
MMLU 5-shot 86.7 87.8 87.4 87.8
MMLU-Redux 5-shot 90.6 90.2 90.0 90.4
MMLU-Pro 5-shot 73.2 69.2 58.8 62.1
DROP 3-shot 84.7 83.6 86.3 86.6
ARC-Challenge 25-shot 95.9 96.2 95.6 95.5
HellaSwag 10-shot 88.5 94.6 89.2 89.4
WinoGrande 5-shot 83.8 85.3 85.9 85.6
TriviaQA 5-shot 80.3 85.1 83.5 83.9
GPQA-Diamond 5-shot 55.1 48.1 51.0 52.0
SuperGPQA 5-shot 41.1 44.7 42.3 43.6
SimpleQA 5-shot 20.6 35.3 26.3 27.0
数学 GSM8K 8-shot 92.3 92.1 91.4 91.1
MATH 4-shot 71.0 70.2 62.6 62.5
AIME 24&25 2-shot 35.3 31.6 21.6 24.8
代码 HumanEval+ 1-shot 70.7 84.8 64.6 67.7
MBPP+ 3-shot 71.4 73.8 72.2 69.8
CRUXEval-I 1-shot 67.5 74.0 62.1 63.9
CRUXEval-O 1-shot 79.1 83.5 76.4 74.9
MultiPL-E HumanEval 0-shot 59.5 60.5 45.9 45.7
MultiPL-E MBPP 0-shot 56.7 58.8 52.5 50.6
BigCodeBench 0-shot 70.1 61.7 63.0 62.9
LiveCodeBench v6 1-shot 30.8 26.3 24.8 24.9
SWE-Bench (AgentLess) 3-shot 30.8 28.2 24.8 9.4*
中文 C-Eval 5-shot 87.9 92.5 90.0 91.0
CMMLU 5-shot 87.4 90.9 88.8 88.9
C-SimpleQA 5-shot 61.5 77.6 70.9 68.0
多语言 GlobalMMLU 5-shot 76.6 80.7 81.9 82.0
INCLUDE 5-shot 71.4 75.3 77.2 77.2
长上下文 NIAH-Multi 32K 99.3 99.8 99.7 85.6*
64K 99.9 100.0 98.6 85.9*
128K 98.6 99.5 97.2 94.3*
256K 96.7 - - -
GSM-Infinite Hard 16K 37.7 34.6 41.5 50.4
32K 33.7 26.1 38.8 45.2
64K 31.5 16.0 34.7 32.6
128K 29.0 8.8 28.7 25.7

* 表示该模型可能未能遵循提示或格式要求。

训练后模型评估

遵循我们的基于MOPD和智能体强化学习的训练后范式,该模型在推理能力和智能体性能方面均达到了当前最优水平。

基准测试 MiMo-V2 Flash Kimi-K2 Thinking DeepSeek-V3.2 Thinking Gemini-3.0 Pro Claude Sonnet 4.5 GPT-5 High
推理
MMLU-Pro 84.9 84.6 85.0 90.1 88.2 87.5
GPQA-Diamond 83.7 84.5 82.4 91.9 83.4 85.7
HLE (无工具) 22.1 23.9 25.1 37.5 13.7 26.3
AIME 2025 94.1 94.5 93.1 95.0 87.0 94.6
HMMT Feb. 2025 84.4 89.4 92.5 97.5 79.2 88.3
LiveCodeBench-v6 80.6 83.1 83.3 90.7 64.0 84.5
通用写作
Arena-Hard (困难提示) 54.1 71.9 53.4 72.6 63.3 71.9
Arena-Hard (创意写作) 86.2 80.1 88.8 93.6 76.7 92.2
长上下文
LongBench V2 60.6 45.1 58.4 65.6 61.8 -
MRCR 45.7 44.2 55.5 89.7 55.4 -
代码智能体
SWE-Bench 验证版 73.4 71.3 73.1 76.2 77.2 74.9
SWE-Bench 多语言版 71.7 61.1 70.2 - 68.0 55.3
Terminal-Bench 困难版 30.5 30.6 35.4 39.0 33.3 30.5
Terminal-Bench 2.0 38.5 35.7 46.4 54.2 42.8 35.2
通用智能体
BrowseComp 45.4 - 51.4 - 24.1 54.9
BrowseComp (带上下文管理) 58.3 60.2 67.6 59.2 - -
$\tau^2$-Bench 80.3 74.3 80.3 85.4 84.7 80.2

4. 模型架构

混合滑动窗口注意力

MiMo-V2-Flash通过交错使用局部滑动窗口注意力(SWA)和全局注意力(GA),解决了长上下文带来的二次复杂度问题。

  • 配置: 由$M=8$个混合块堆叠而成。每个块包含$N=5$层SWA,随后是一层GA。
  • 效率: SWA层采用128个标记的窗口大小,显著减少了KV缓存。
  • Sink偏置: 应用了可学习的注意力sink偏置,以在激进的窗口大小下仍保持性能。

轻量级多标记预测(MTP)

与传统的推测解码不同,我们的MTP模块在训练和推理中都是原生集成的。

  • 结构: 使用密集FFN(而非MoE)和SWA(而非GA),以保持较低的参数量(每个块0.33B)。
  • 性能: 促进了自推测解码,使生成速度提高三倍,并缓解了小批量强化学习训练中的GPU空闲问题。

5. 训练后技术亮点

MiMo-V2-Flash利用一套训练后流水线,通过创新的知识蒸馏和强化学习策略,最大限度地提升推理和智能体能力。

5.1 多教师在线策略知识蒸馏(MOPD)

我们引入了多教师在线策略知识蒸馏(MOPD),这是一种将知识蒸馏表述为强化学习过程的新范式。

  • 密集的标记级指导: 与依赖稀疏序列级反馈的方法不同,MOPD利用领域专家模型(教师)在每个标记位置提供监督。
  • 在线策略优化: 学生模型从自身生成的响应中学习,而不是从固定的数据集中学习。这消除了暴露偏差,并确保更小、更稳定的梯度更新。
  • 固有的奖励鲁棒性: 奖励来源于学生和教师之间的分布差异,使整个过程自然抵抗奖励欺骗。

5.2 扩展智能体强化学习

我们大幅扩展了智能体训练环境,以提升智能和泛化能力。

  • 大规模代码智能体环境: 我们利用真实的GitHub问题创建了超过10万个可验证的任务。我们的自动化流水线维护着一个Kubernetes集群,能够运行超过1万个并发Pod,环境搭建成功率达到70%。
  • 面向Web开发的多模态验证器: 对于Web开发任务,我们采用基于视觉的验证器,通过录制视频而非静态截图来评估代码执行情况。这减少了视觉幻觉,确保功能正确性。
  • 跨领域泛化: 我们的实验表明,大规模的代码智能体强化学习训练能够有效泛化到其他领域,从而提升数学和通用智能体任务的表现。

5.3 高级强化学习基础设施

为了支持大规模MoE模型的高吞吐量强化学习训练,我们在SGLang和Megatron-LM的基础上实现了多项基础设施优化。

  • Rollout路由重放(R3):解决推理与训练过程中MoE路由在数值精度上的不一致问题。R3在训练阶段复用推理阶段精确路由选择出的专家,从而确保一致性,且开销极低。
  • 请求级前缀缓存:在多轮对话式智能体训练中,该缓存会存储前几轮的KV状态及路由选择的专家。它避免了重复计算,并保证各轮之间的采样一致性。
  • 细粒度数据调度器:我们将推理引擎扩展为按细粒度序列而非微批次进行调度。结合部分推理机制,这显著减少了因长尾延迟任务导致的GPU空闲时间。
  • 工具箱与工具管理器:采用两层设计,利用Ray Actor池来处理资源竞争问题。它消除了工具执行的冷启动延迟,并将任务逻辑与系统策略隔离开来。

6. 推理与部署

MiMo-V2-Flash支持FP8混合精度推理。我们推荐使用SGLang以获得最佳性能。

使用SGLang快速入门

请参照https://lmsys.org/blog/2025-12-16-mimo-v2-flash/,按照以下方式安装兼容版本的SGLang。

pip install sglang==0.5.6.post2.dev8005+pr.15207.g39d5bd57a \
  --index-url https://sgl-project.github.io/whl/pr/ \
  --extra-index-url https://pypi.org/simple

#启动服务端
SGLANG_ENABLE_SPEC_V2=1 python3 -m sglang.launch_server \
        --model-path XiaomiMiMo/MiMo-V2-Flash \
        --served-model-name mimo-v2-flash \
        --pp-size 1 \
        --dp-size 2 \
        --enable-dp-attention \
        --tp-size 8 \
        --moe-a2a-backend deepep \
        --page-size 1 \
        --host 0.0.0.0 \
        --port 9001 \
        --trust-remote-code \
        --mem-fraction-static 0.75 \
        --max-running-requests 128 \
        --chunked-prefill-size 16384 \
        --reasoning-parser qwen3 \
        --tool-call-parser mimo \
        --context-length 262144 \
        --attention-backend fa3 \
        --speculative-algorithm EAGLE \
        --speculative-num-steps 3 \
        --speculative-eagle-topk 1 \
        --speculative-num-draft-tokens 4 \
        --enable-mtp

#发送请求
curl -i http://localhost:9001/v1/chat/completions \
    -H 'Content-Type:application/json' \
    -d  '{
            "messages" : [{
                "role": "user",
                "content": "Nice to meet you MiMo"
            }],
            "model": "mimo-v2-flash",
            "max_tokens": 4096,
            "temperature": 0.8,
            "top_p": 0.95,
            "stream": true,
            "chat_template_kwargs": {
                "enable_thinking": true
            }
        }'

通知事项

1. 系统提示词

[!IMPORTANT] 强烈建议使用以下系统提示词,请从英文版或中文版中选择。

英文:

You are MiMo, an AI assistant developed by Xiaomi.

Today's date: {date} {week}. Your knowledge cutoff date is December 2024.

中文:

你是MiMo(中文名称也是MiMo),是小米公司研发的AI智能助手。

今天的日期:{date} {week},你的知识截止日期是2024年12月。

2. 采样参数

[!IMPORTANT] 推荐的采样参数如下:

top_p=0.95

数学、写作、Web开发等任务可设置为temperature=0.8

对于代理类任务(如氛围编码、工具调用等),建议设置为temperature=0.3

3. 工具使用注意事项

[!IMPORTANT] 在多轮工具调用的思考模式下,模型会在返回tool_calls的同时附带reasoning_content字段。若要继续对话,用户必须将所有历史reasoning_content保留在后续每次请求的messages数组中。


7. 引用

如果您觉得我们的工作有所帮助,请引用我们的技术报告:

@misc{xiao2026mimov2flashtechnicalreport,
      title={MiMo-V2-Flash 技术报告}, 
      author={LLM-Core Xiaomi},
      year={2026},
      eprint={2601.02780},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2601.02780}, 
}

8. 联系方式

如有任何问题,请通过mimo@xiaomi.com联系我们,加入下方的微信群组,或直接提交问题。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|6天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

151.3k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|2天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|2天前
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|6天前
语言模型图像Agent