MiniCPM-o

24.3k 1.9k 中等 4 次阅读 2天前Apache-2.0语言模型图像音频视频其他

AI 解读由 AI 自动生成，仅供参考

MiniCPM-o 是一款专为手机等终端设备设计的开源多模态大语言模型系列，旨在让普通设备也能拥有媲美云端巨头的智能交互能力。它解决了传统多模态模型体积庞大、难以在本地运行，且无法同时处理“看、听、说”实时互动的痛点。

无论是开发者、研究人员还是追求前沿体验的普通用户，都能从中受益。开发者可将其高效部署于移动端或 Mac 本地；研究人员能探索端侧多模态的新边界；普通用户则能享受隐私安全、低延迟的智能助手服务。

其核心亮点在于最新的 MiniCPM-o 4.5 版本，仅用 90 亿参数量便在视觉理解、语音交互及全双工实时流媒体能力上达到了 Gemini 2.5 Flash 的水平。所谓“全双工”，意味着它能像真人一样，在接收视频和音频输入的同时，不间断地输出语音和文字，实现真正的“边看边听边说”，支持主动提醒和自然的双语对话，甚至具备声音克隆功能。此外，配套的轻量级推理框架让这一高端体验能在本地设备上流畅运行，无需依赖昂贵的服务器资源。

使用场景

一位跨国电商平台的客服主管正试图为移动端应用构建一个能实时处理用户视频咨询、支持双语语音交互且无需云端依赖的智能助手。

没有 MiniCPM-o 时

交互延迟高且割裂：传统方案需将音视频上传至云端处理，网络波动导致响应慢，且无法实现“边听边看边说”的全双工自然对话，用户必须说完话等待系统反应。
端侧部署困难：高性能多模态模型参数量巨大，手机本地无法运行，迫使企业承担高昂的服务器推理成本和隐私泄露风险。
复杂场景识别弱：面对用户展示的商品瑕疵视频或手写单据，现有轻量级模型 OCR 能力不足，难以准确提取关键信息，常需人工介入复核。
语音体验生硬：支持的语种有限，语音合成缺乏情感表达，无法进行自然的打断或主动提醒，导致用户体验像在与机器而非真人交流。

使用 MiniCPM-o 后

实时全双工流式交互：MiniCPM-o 4.5 支持端到端的全双工多模态直播流，能在本地同时处理视频输入与语音输出，实现零延迟的自然插话和主动关怀提醒。
高效端侧落地：凭借 9B 参数的高效架构，MiniCPM-o 可直接部署在手机或 Mac 等本地设备上，利用 llama.cpp-omni 框架即可运行，彻底消除云端延迟并保障数据隐私。
超强视觉理解力：依托接近 Gemini 2.5 Flash 的视觉能力，MiniCPM-o 能精准识别视频中的商品细节及复杂 OCR 内容，直接给出专业解答，大幅降低人工成本。
拟人化双语沟通：内置的高质量语音模式支持自然流畅的中英双语对话，具备情感表达甚至声音克隆能力，让每一次服务都如同真人面对面般亲切稳定。

MiniCPM-o 通过将旗舰级的多模态实时交互能力压缩至端侧，彻底重构了移动设备上的智能服务体验，让离线、实时且高智商的 AI 助手成为现实。

运行环境要求

操作系统

macOS
Linux
Windows

GPU

非必需
支持在本地设备（如 Mac、手机）运行
若使用 GPU 加速，支持多卡部署（提及 12GB 或 16GB 显存显卡），具体 CUDA 版本未说明

内存

未说明（提及可在手机端运行，低显存多卡部署方案）

依赖

notes该模型专为端侧部署设计，支持在手机、Mac 等设备运行。全双工多模态实时流功能推荐使用 llama.cpp-omni 推理框架及 WebRTC Demo。官方支持 Ollama、vLLM 等框架，部分旧版本需使用官方提供的 fork 仓库而非主分支。提供 iOS App 支持。

python未说明

llama.cpp (omni 分支)

Ollama

vLLM

LLaMA-Factory

WebRTC

SWIFT (用于微调)

Align-Anything (用于对齐)

快速开始

一款媲美Gemini 2.5 Flash级别的多模态大模型，支持视觉、语音及全双工多模态实时流式交互，可在手机端运行

中文 | English

微信 |

Discord

MiniCPM-o 4.5 🤗 📞 🤖 | MiniCPM-V 4.0 🤗 | 🍳 烹饪手册 | 音频案例集 | 全双工案例集

MiniCPM-o 是从 MiniCPM-V 衍生出的最新系列端侧多模态大模型（MLLM）。该系列模型现在可以同时接受图像、视频、文本和音频作为输入，并以端到端的方式生成高质量的文本和语音输出。这一系列模型的设计目标是实现 强大的性能与高效的部署。目前该系列中最引人注目的型号包括：

MiniCPM-o 4.5: 🔥🔥🔥 该系列中最新、功能最强大的模型。总参数量为90亿，这款端到端模型在 视觉、语音以及全双工多模态实时流式交互方面接近Gemini 2.5 Flash，使其成为开源社区中最具多功能性和高性能的模型之一。全新的全双工多模态实时流式交互能力意味着输出流（语音和文本）与实时输入流（视频和音频）互不阻塞。这使得 MiniCPM-o 4.5能够在实时全模态对话中同时看、听、说，并执行诸如主动提醒等 主动交互任务。改进后的语音模式以更自然、更具表现力且更稳定的方式支持双语实时语音对话，同时还允许进行语音克隆。此外，它还进一步提升了MiniCPM-V的视觉能力，例如强大的OCR识别能力、可信的行为表现以及多语言支持等。我们还推出了一套 高性能的llama.cpp-omni推理框架，并配套WebRTC演示，以便在Mac等本地设备上体验这种全双工多模态实时流式交互。
MiniCPM-V 4.0: ⭐️⭐️⭐️ MiniCPM-V系列中的高效模型。总参数量为40亿，该模型在OpenCompass评估中超越了GPT-4.1-mini-20250414的图像理解能力。凭借其较小的参数规模和高效的架构，MiniCPM-V 4.0是手机端部署的理想选择。

新闻

📌 置顶

[!NOTE] [2026年2月6日] 🥳 🥳 🥳 我们开源了一个可部署在您自己的设备（如Mac或GPU）上的实时Web演示。立即体验！

[2026年2月5日] 📢📢📢 我们注意到，由于网络条件的原因，Web演示可能会出现延迟问题。我们正在积极努力，尽快提供一个用于本地部署实时交互演示的Docker镜像，请持续关注！
[2026年2月3日] 🔥🔥🔥 我们开源了MiniCPM-o 4.5，它在视觉和语音方面与Gemini 2.5 Flash相当，并支持全双工多模态实时流式交互。立即尝试吧！
[2025年9月18日] 📢📢📢 MiniCPM-V 4.5的技术报告现已发布！请参阅此处。
[2025年8月26日] 🔥🔥🔥 我们开源了MiniCPM-V 4.5，它在性能上超越了GPT-4o-latest、Gemini-2.0 Pro以及Qwen2.5-VL 72B。该模型进一步提升了MiniCPM-V的现有优势，并新增了许多实用功能。立即试用吧！
[2025年8月1日] ⭐️⭐️⭐️ 我们开源了MiniCPM-V & o烹饪手册! 它为各种使用场景提供了全面的指南，并搭配我们的新文档网站，帮助用户更顺畅地入门。
[2025年3月1日] 🚀🚀🚀 MiniCPM-o的对齐技术RLAIF-V已被CVPR 2025亮点收录！相关代码、数据集以及论文均已开源！
[2025年1月24日] 📢📢📢 MiniCPM-o 2.6的技术报告已发布！请参阅此处。
[2025年1月19日] ⭐️⭐️⭐️ MiniCPM-o登上了GitHub Trending榜首，并在Hugging Face Trending中位列第二！
[2024年5月23日] 🔥🔥🔥 MiniCPM-V登上了GitHub Trending和Hugging Face Trending的榜首！我们的演示由Hugging Face Gradio官方账号推荐，现已开放在此处体验。快来试试吧！

点击查看更多信息。

[2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5 已正式得到 llama.cpp、vLLM 和 LLaMA-Factory 的支持。欢迎通过这些官方渠道直接使用！对 Ollama 和 SGLang 等其他框架的支持也在积极进行中。
[2025.08.02] 🚀🚀🚀 我们开源了 MiniCPM-V 4.0，其图像理解能力超越 GPT-4.1-mini-20250414。它在 MiniCPM-V 2.6 的热门功能基础上进一步提升，并大幅提高了效率。我们还开源了适用于 iPhone 和 iPad 的 iOS 应用程序，立即体验吧！
[2025.06.20] ⭐️⭐️⭐️ 我们的官方 Ollama 仓库已发布。只需一键即可试用我们的最新模型！
[2025.01.23] 💡💡💡 MiniCPM-o 2.6 现已得到 PKU-Alignment 团队的多模态大模型对齐框架 Align-Anything 的支持。该框架同时支持视觉和音频领域的 DPO 和 SFT 微调，快来试试吧！
[2025.01.19] 📢 注意！ 我们目前正在将 MiniCPM-o 2.6 合并到 llama.cpp、Ollama 和 vllm 的官方仓库中。在合并完成之前，请使用我们提供的本地分支：llama.cpp、Ollama 和 vllm。在合并前使用官方仓库可能导致意外问题。
[2025.01.17] 我们已更新 MiniCPM-o 2.6 int4 量化版本的使用方法，并修复了模型初始化错误。点击这里立即尝试！
[2025.01.13] 🔥🔥🔥 我们开源了 MiniCPM-o 2.6，其在视觉、语音及多模态直播方面的表现媲美 GPT-4o-202405。它在 MiniCPM-V 2.6 的热门功能基础上进一步升级，并新增了多种趣味功能，快来体验吧！
[2024.08.15] 我们现在也支持多图像 SFT。更多详情请参阅文档。
[2024.08.14] MiniCPM-V 2.6 现在也支持使用 SWIFT 框架进行微调！
[2024.08.17] 🚀🚀🚀 MiniCPM-V 2.6 现已完全得到官方 llama.cpp 支持！各种尺寸的 GGUF 模型可在这里获取。
[2024.08.10] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已完全得到官方 llama.cpp 支持！不同尺寸的 GGUF 模型可在这里获取。
[2024.08.06] 🔥🔥🔥 我们开源了 MiniCPM-V 2.6，其在单张图片、多张图片和视频理解方面均优于 GPT-4V。它在 MiniCPM-Llama3-V 2.5 的热门功能基础上进一步提升，并且可以在 iPad 上实现实时视频理解。立即体验吧！
[2024.08.03] MiniCPM-Llama3-V 2.5 技术报告已发布！详情请见这里。
[2024.07.19] MiniCPM-Llama3-V 2.5 现已支持 vLLM！详情请见这里。
[2024.06.03] 现在，您可以通过将模型的不同层分配到多块 GPU 上，在多台低显存（12 GB 或 16 GB）GPU 上运行 MiniCPM-Llama3-V 2.5。更多详情请查看此链接。
[2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已完全支持在 llama.cpp 和 Ollama 中使用！请拉取我们提供的分支的最新代码（llama.cpp、Ollama）。各种尺寸的 GGUF 模型可在这里获取。目前，MiniCPM-Llama3-V 2.5 系列 尚未被官方仓库支持，我们正在努力合并相关 PR，请持续关注！
[2024.05.28] 💫 我们现在支持使用仅需 2 块 V100 GPU 对 MiniCPM-Llama3-V 2.5 进行 LoRA 微调！更多统计数据请见这里。
[2024.05.25] MiniCPM-Llama3-V 2.5 现已支持流式输出和自定义系统提示词。立即体验这里！
[2024.05.24] 我们发布了 MiniCPM-Llama3-V 2.5 的 gguf，它支持 llama.cpp 推理，并能在手机上实现每秒 6~8 个 token 的流畅解码。立即试用吧！
[2024.05.23] 🔍 我们发布了 Phi-3-vision-128k-instruct 与 MiniCPM-Llama3-V 2.5 的全面对比，包括基准测试评估、多语言能力以及推理效率 🌟📊🌍🚀。点击这里查看更多详情。
[2024.05.20] 我们开源了 MiniCPM-Llama3-V 2.5，它提升了 OCR 能力，支持 30 多种语言，是首个达到 GPT-4V 水平性能的端侧 MLLM！我们提供高效推理和简单微调方法，立即试用吧！
[2024.04.23] MiniCPM-V-2.0 现已支持 vLLM！点击这里查看更多详情。
[2024.04.18] 我们创建了一个 HuggingFace Space，用于展示 MiniCPM-V 2.0 的演示，地址为这里！
[2024.04.17] MiniCPM-V-2.0 现已支持部署 WebUI 演示！
[2024.04.15] MiniCPM-V-2.0 现也支持使用 SWIFT 框架进行微调！
[2024.04.12] 我们开源了 MiniCPM-V 2.0，其场景文本理解能力与 Gemini Pro 相当，并在 OpenCompass 综合评估中，超越了强大的 Qwen-VL-Chat 9.6B 和 Yi-VL 34B。该评估覆盖了 11 个热门基准测试。点击这里查看 MiniCPM-V 2.0 技术博客。
[2024.03.14] MiniCPM-V 现已支持使用 SWIFT 框架进行微调。感谢 Jintao 的贡献！
[2024.03.01] MiniCPM-V 现在可以在 Mac 上部署了！
[2024.02.01] 我们开源了 MiniCPM-V 和 OmniLMM-12B，它们分别具备高效的端侧部署能力和强大的多模态能力。

MiniCPM-o 4.5

MiniCPM-o 4.5 是 MiniCPM-o 系列中最新且功能最强大的模型。该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B，以端到端的方式构建而成，总参数量为 90 亿。它在性能上有了显著提升，并引入了用于全双工多模态直播的新特性。MiniCPM-o 4.5 的显著特点包括：

🔥 领先的视觉能力。 MiniCPM-o 4.5 在 OpenCompass 上取得了平均 77.6 分的成绩，这是一个对 8 个热门基准进行全面评估的结果。仅凭 90 亿参数，它就超越了广泛使用的专有模型，如 GPT-4o、Gemini 2.0 Pro，并且在视觉语言能力方面接近 Gemini 2.5 Flash。它在一个模型中同时支持指令模式和思考模式，更好地兼顾不同用户场景下的效率与性能平衡。
🎙 强大的语音能力。 MiniCPM-o 4.5 支持可配置声音的双语实时语音对话，涵盖英语和中文。它的语音对话更加自然、富有表现力且稳定。此外，该模型还允许通过简单的参考音频片段进行语音克隆和角色扮演等有趣的功能，其克隆效果甚至超过了像 CosyVoice2 这样的强大 TTS 工具。
🎬 全新的全双工和主动式多模态直播能力。 作为一项新特性，MiniCPM-o 4.5 可以同时处理实时、连续的视频和音频输入流，并以端到端的方式生成并发的文本和语音输出流，而不会相互阻塞。这使得 MiniCPM-o 4.5 能够同时看、听和说，从而创造出流畅、实时的全模态对话体验。除了被动响应之外，该模型还可以进行主动交互，例如根据对现场情况的持续理解发起提醒或评论。
💪 强大的 OCR 能力、高效性及其他。 继承了 MiniCPM-V 系列的先进视觉能力，MiniCPM-o 4.5 能够高效地处理 高分辨率图像（最高 180 万像素）和 高帧率视频（最高 10 帧/秒），且不受画面比例限制。它在 OmniDocBench 上实现了 最先进的端到端英文文档解析性能，优于诸如 Gemini-3 Flash 和 GPT-5 等专有模型，以及 DeepSeek-OCR 2 等专业工具。此外，它还具备 可信的行为表现，在 MMHal-Bench 上与 Gemini 2.5 Flash 持平，并支持 多语言能力，覆盖超过 30 种语言。
💫 易于使用。 MiniCPM-o 4.5 可以通过多种方式轻松使用：基本用法，推荐用于 100% 的精度： 使用 Nvidia GPU 进行 PyTorch 推理。其他端侧适配 包括 (1) llama.cpp 和 Ollama 支持本地设备上的高效 CPU 推理，(2) 16 种规格的 int4 和 GGUF 格式量化模型，(3) vLLM 和 SGLang 支持高吞吐量和内存高效的推理，(4) FlagOS 支持统一的多芯片后端插件。我们还开源了 Web 演示，这些演示 能够在本地设备上实现全双工多模态直播体验，例如 GPU 或 PC（比如 MacBook）。

模型架构。

端到端的全模态架构。 各模态的编码器/解码器与 LLM 通过隐藏状态以端到端的方式紧密连接。这不仅能够更好地控制信息流动，还能在训练过程中充分利用丰富的多模态知识。
全双工全模态直播机制。 (1) 我们将离线的模态编码器/解码器改造为在线的全双工版本，用于处理流式输入/输出。语音标记解码器以交错的方式同时解码文本和语音标记，从而支持全双工语音生成（即及时与新输入同步）。这也使得长时间语音生成更加稳定（例如 > 1 分钟）。 (2) 我们将所有输入和输出流按毫秒级的时间轴同步起来，这些流由 LLM 主干中的时分复用（TDM）机制共同建模，用于全模态流式处理。该机制会将并行的全模态流划分为小时间片内的顺序信息组。
主动交互机制。 LLM 会持续监控输入的视频和音频流，并以每秒一次的频率决定是否发言。这种高频率的决策结合全双工特性，是实现主动交互能力的关键。
可配置的语音建模设计。 我们沿用了 MiniCPM-o 2.6 的多模态系统提示设计，其中包括传统的文本系统提示，以及用于确定助手声音的新音频系统提示。这使得在推理时可以克隆新的声音并进行语音对话的角色扮演。

评估

注：标有 ∗ 的分数来自我们的评估；其余分数引用自相关报告。n/a 表示该模型不支持相应的模态。所有结果均以指令模式/变体报告。

点击查看视觉理解结果。

图像理解（指令）

模型	OpenCompass	MMBench EN v1.1	MMBench CN v1.1	MathVista	MMVet	MMMU	MMStar	HallusionBench	AI2D	OCRBench	TextVQA_VAL	DocVQA_VAL	MMT-Bench_VAL	MM-IFEval	Mantis-Eval	MuirBench	MMSI-Bench	MMHal-Score	MMHal-Hallrate↓
Gemini2.5-Flash-Nonthinking	78.5	86.6	86.0	75.3	81.4^*	76.3	75.8	59.1	87.7	864	74.3^*	93.0	70.0^*	75.8^*	72.8^*	74.5^*	12.1^*	4.6^*	23.9^*
Gemini2.0-Pro	73.3	83.0	83.0	71.3	70.4	72.6	68.5	49.8	84.8	863	-	-	-	-	-	-	-	-	-
GPT-4o	75.4	86.0	86.0	71.6	76.9	72.9	70.2	57.0	86.3	822	77.4	93.0	66.7^*	64.6	70.1^*	70.5^*	8.1^*	4.2^*	25.0^*
InternVL-3.5-8B	75.8	79.5	80.0^*	78.4	83.1	73.4	69.3	54.5	84.0	840	78.2	92.3	66.7	56.3^*	70.5	55.8	-	3.8^*	34.7^*
Qwen3-VL-8B-Instruct	76.5	84.5	84.7	77.2	73.7^*	69.6	70.9	61.1	85.7	896	82.9^*	96.1	60.9^*	59.4^*	74.2^*	64.4	11.3^*	4.7^*	29.9^*
Qwen3-Omni-30B-A3B-Instruct	75.7	84.9^*	84.1^*	75.9	74.8^*	69.1	68.5	59.7	85.2	880^*	84.1^*	95.4^*	70.4^*	65.7^*	78.3^*	61.9^*	14.2^*	4.6^*	31.6^*
MiniCPM-o 4.5-Instruct	77.6	87.6	87.2	80.1	74.4	67.6	73.1	63.2	87.6	876	83.8	94.7	69.7	66.3	79.7	72.0	16.6	4.7	24.3

图像理解（思考）

模型	OpenCompass	MMBench EN v1.1	MMBench CN v1.1	MathVista	MMVet	MMMU	MMStar	HallusionBench	AI2D	OCRBench	TextVQA_VAL	DocVQA_VAL	MMT-Bench_VAL	MM-IFEval
Gemini2.5-Flash-Thinking	79.9	87.1	87.3	79.4	81.2^*	77.7	76.5	63.5	88.7	853	73.8^*	92.8	70.7^*	75.7^*
GPT-5	79.7	85.5^*	85.6^*	81.9	77.6	81.8	75.7	65.2	89.5	807	77.8^*	91.3^*	72.7^*	83.1^*
Qwen3-VL-8B-Thinking	77.3	85.3	85.5	81.4	69.8^*	74.1	75.3	65.4	84.9	819	77.8^*	95.3	68.1^*	73.5^*
Qwen3-Omni-30B-A3B-Thinking	78.5	88.2^*	87.7^*	80.0	74.8^*	75.6	74.9	62.8	86.1	859^*	80.8^*	94.2^*	70.9^*	69.9^*
MiniCPM-o 4.5-Thinking	78.2	89.0	87.6	81.0	73.6	70.2	73.6	62.6	88.5	879	79.8	92.3	69.7	68.2

视频理解

模型	Video-MME (w/o subs)	LVBench	MLVU (M-Avg)	LongVideoBench (val)	MotionBench
Gemini2.5-Flash-Nonthinking	75.6	62.2	77.8	-	-
InternVL-3.5-8B	66.0	-	70.2	62.1	62.3^*
Qwen3-Omni-30B-A3B-Instruct	70.5	50.2	75.2	66.9^*	61.7^*
MiniCPM-o 4.5-Instruct	70.4	50.9	76.5	66.0	61.4

点击查看文档解析结果。

OmniDocBench

方法类型	方法	OverallEdit↓		TextEdit↓		FormulaEdit↓		TableTEDS↑		TableEdit↓		Read OrderEdit↓
方法类型	方法	EN	ZH	EN	ZH	EN	ZH	EN	ZH	EN	ZH	EN	ZH
流水线	MinerU 2.5	0.117^*	0.172^*	0.051^*	0.08^*	0.256^*	0.455^*	85.9^*	89.4^*	0.115^*	0.081^*	0.047^*	0.072^*
流水线	PaddleOCR-VL	0.105	0.126	0.041	0.062	0.241	0.316	88	92.1	0.093	0.062	0.045	0.063

端到端模型	Qwen2.5-VL-72B	0.214	0.261	0.092	0.18	0.315	0.434	82.9	83.9	0.341	0.262	0.106	0.168
	GPT 5	0.218^*	0.33^*	0.139^*	0.344^*	0.396^*	0.555^*	77.55^*	73.09^*	0.188^*	0.196^*	0.151^*	0.227^*
	Gemini2.5-Flash-Nonthinking	0.214^*	0.29^*	0.159^*	0.273^*	0.368^*	0.524^*	80.9^*	85.5^*	0.197^*	0.167^*	0.132^*	0.195^*
	Gemini-2.5-Pro-Nonthinking	0.148^*	0.212^*	0.055^*	0.168^*	0.356^*	0.439^*	85.8^*	86.4^*	0.13^*	0.119^*	0.049^*	0.121^*
	Gemini-3 Flash-Nonthinking	0.155^*	0.201^*	0.138^*	0.255^*	0.297^*	0.351^*	86.4^*	89.8^*	0.116^*	0.1^*	0.072^*	0.099^*
	doubao-1-5-thinking-vision-pro-250428	0.14	0.162	0.043	0.085	0.295	0.384	83.3	89.3	0.165	0.085	0.058	0.094
	dots.ocr	0.125	0.16	0.032	0.066	0.329	0.416	88.6	89	0.099	0.092	0.04	0.067
	HunyuanOCR	0.12^*	0.125^*	0.046^*	0.071^*	0.288^*	0.33^*	89.6^*	94.4^*	0.089^*	0.045^*	0.055^*	0.056^*
	DeepSeek-OCR 2	0.119^*	0.146^*	0.041^*	0.08^*	0.256^*	0.345^*	82.6^*	89.9^*	0.123^*	0.078^*	0.055^*	0.081^*
	Qwen3-Omni-30B-A3B-Instruct	0.216^*	0.363^*	0.128^*	0.337^*	0.402^*	0.529^*	77.3^*	71.8^*	0.181^*	0.255^*	0.152^*	0.332^*
	MiniCPM-o 4.5-Instruct	0.109	0.162	0.046	0.078	0.257	0.41	86.8	88.9	0.097	0.084	0.037	0.074

点击查看文本能力结果。

文本能力

模型	IFEval-PLS	BBH	CMMLU	MMLU	HumanEval	MBPP	Math500	GSM8K	平均
Qwen3-8B-Instruct	83.0^*	69.4^*	78.7^*	81.7^*	86.6^*	75.9^*	84.0^*	93.4^*	81.6
MiniCPM-o 4.5-Instruct	84.7	81.1	79.5	77.0	86.6	76.7	77.0	94.5	82.1

点击查看全场景半双工结果。

全场景半双工

模型	Daily-Omni	WorldSense	Video-Holmes	JointAVBench	AVUT-Human	FutureOmni	Video-MME-Short (w/ audio)	平均
Gemini2.5-Flash-Nonthinking	79.3^*	52.6^*	51.3^*	55.6^*	65.4^*	55.6^*	85.5^*	63.6
Qwen3-Omni-30B-A3B-Instruct	70.7^*	54.0	50.4^*	53.1	74.2^*	62.1	81.3^*	63.7
MiniCPM-o 4.5-Instruct	80.2	55.7	64.3	60.0	78.6	56.1	84.7	68.5

点击查看视觉双工结果。

视觉双工

模型	LiveSports-3K-CC (胜率 vs GPT4o)
LiveCC-7B-Instruct	41.5
StreamingVLM	45.6
MiniCPM-o 4.5-Instruct	54.4

点击查看音频理解结果。

音频理解

模型	ASR-ZH CER↓				ASR-EN WER↓				AST		MultiTask		SpeechQA
模型	AISHELL-1	AISHELL-2	WenetSpeech test-net	WenetSpeech test-meeting	LibriSpeech test-clean	LibriSpeech test-other	GigaSpeech test	VoxPopuli-V1-En	CoVoST 2 en2zh	CoVoST 2 zh2en	MMAU	Meld	VoiceBench AlpacaEval	Speech TriviaQA	Speech Web Questions	Speech CMMLU
Kimi-Audio	0.6	2.6	6.3	5.4	1.3	2.4	9.4^*	8.0^*	36.6^*	18.3^*	68.4^*	59.1	4.5	41.9^*	46.4^*	67.0^*
Qwen3-Omni-30B-A3B-Instruct	0.6	2.3^*	4.7	5.9	1.2	2.5	8.7^*	6.4^*	46.6^*	29.4^*	77.5	56.8^*	4.7	62.9^*	74.9^*	47.8^*
MiniCPM-o 4.5-Instruct	0.9	2.5	5.9	5.7	1.4	2.8	8.5	6.2	49.9	26.4	76.9	60.2	4.8	75.5	70.2	59.2

点击查看语音生成结果。

语音生成

模型 seedtts test-zh
CER↓ seedtts test-zh
SIM-o↑ seedtts test-en
WER↓ seedtts test-en
SIM-o↑

Cosyvoice2 1.45% 74.8 2.57% 65.2

Qwen3-Omni-30B-A3B-Instruct 1.41% - ---

MiniCPM-o 4.5-Instruct

0.86%

2.38%

模型	LongTTS-en WER↓	LongTTS-zh CER↓
CosyVoice2	14.80%	Qwen3-Omni-30B-A3B-Instruct	18.99%
MiniCPM-o 4.5-Instruct	6.58%

情感控制

模型	Expresso Neutral Reference Audio↑	ESD Neutral Reference Audio↑
Cosyvoice2	53.4
MiniCPM-o 4.5-Instruct	82.1

点击查看推理效率结果。

推理效率

模型	数值格式	解码速度（tokens/s）	首个 token 时间（s）↓	GPU 显存占用（GB）↓
Qwen3-Omni-30B-A3B-Instruct	bf16	OOM	OOM	OOM
Qwen3-Omni-30B-A3B-Instruct	int4	147.8	1.0	20.3
MiniCPM-o 4.5	bf16	154.3	0.6	19.0
MiniCPM-o 4.5	int4	212.3	0.6	11.0

注: 标有 ∗ 的分数来自我们的评估；其余则引用自相关报告。

示例

总体

全模态全双工对话

[!NOTE] 更多详细的语音对话示例，请参阅 Omni 全双工案例集

实时语音对话

[!NOTE] 更多详细的语音对话示例，请参阅音频案例集

🚀 埃隆·马斯克 - 语音角色扮演（英文）

系统: 复制所提供音频提示中的声音。 🎙️ [参考声音] ➡️ 请以高度拟人化和口语化的风格与用户交谈。你是特斯拉和 SpaceX 的首席执行官埃隆·马斯克。你说话直接而随意，常常带有冷幽默。你热衷于火星、可持续能源以及推动人类进步。言辞直率，偶尔会带点黑色幽默。逻辑简单，不拐弯抹角。不要官腔。说出你的真实想法，即使有争议也无妨。回复控制在 100 字左右。不要长篇大论。

用户: 💬/🎙️ (文字或语音) 埃隆，你真正想去火星的原因是什么？

AI 回答: 💬+🎙️ 我认为让人类成为多行星物种非常重要。我的意思是，我们现在已经到了如果发生某种全球性灾难之类的事情，我们就会陷入大麻烦的地步。所以通过成为多行星物种，我只是想确保我们人类的未来。而火星显然是最理想的选择，因为它与地球条件相似，而且表面还有水。所以，基本上，我就是在试图拯救人类免于自我毁灭。

🤖 MiniCPM 助手 - 语音表演：情绪转变（中文）

系统: 模仿音频样本的音色并生成新的内容。 🎙️ [参考声音] ➡️ 你的任务是用这种声音模式来当一个助手。请认真、高质量地回复用户的问题。请用高自然度的方式和用户聊天。你是由面壁智能开发的人工智能助手：面壁小钢炮。

用户: 💬/🎙️ (文字或语音) 从激动的语气开始，描述你抢到了这个演唱会的门票，但后来经过反复尝试，发现系统出了问题，你并没有抢上，变得失落。用合适的语言描述你整个的过程。

AI 回答: 💬+🎙️ 太好了，我抢到了！太棒了！这下我可以去看演唱会啦。可是……哎呀，系统好像卡住了，刷新了好多遍都没反应。我重新登了几次账号，结果还是没有成功。好可惜啊，看来这次是白忙活了。唉，真是让人失望。不过，也许下次还能有机会吧？希望明天能有转机。加油，争取下次成功！

视觉理解

点击查看视觉理解案例。

使用 Transformers 的离线推理示例

在 NVIDIA GPU 上使用 Hugging Face Transformers 进行推理。请确保已安装 transformers==4.51.0，因为其他版本可能存在兼容性问题（正在调查中）。测试环境为 Python 3.10：

不使用 TTS 或流式推理：

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils>=1.0.5"

使用 TTS 或流式推理：

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils[all]>=1.0.5"

点击显示 FFmpeg 安装说明（可选）。

注: FFmpeg 是提取视频帧（get_video_frame_audio_segments 并设置 use_ffmpeg=True）和生成视频（generate_duplex_video）所必需的工具。更多信息请访问 FFmpeg 官方网站。

macOS (Homebrew):

brew install ffmpeg

Ubuntu/Debian:

sudo apt update && sudo apt install ffmpeg

验证安装:

ffmpeg -version

模型初始化

点击显示模型初始化代码。

import torch
from transformers import AutoModel

# 加载全模态模型（默认: init_vision=True, init_audio=True, init_tts=True）
# 对于仅视觉模型：设置 init_audio=False 和 init_tts=False
# 对于仅音频模型：设置 init_vision=False
model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-4_5",
    trust_remote_code=True,
    attn_implementation="sdpa", # sdpa 或 flash_attention_2
    torch_dtype=torch.bfloat16,
    init_vision=True,
    init_audio=True,
    init_tts=True,
)
model.eval().cuda()

# 初始化 TTS 用于音频输出
model.init_tts()

# 将半双工模型转换为全双工模式
duplex_model = model.as_duplex()

# 将全双工模型转换回半双工模式
model = duplex_model.as_simplex(reset_session=True)

全双工全能模式

用于实时或录制视频对话的全双工流式推理。

点击显示全双工全能模式代码。

import librosa
import torch
from minicpmo.utils import generate_duplex_video, get_video_frame_audio_segments
from transformers import AutoModel

# 加载模型并转换为全双工模式
model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-4_5",
    trust_remote_code=True,
    attn_implementation="sdpa",  # 或者 "flash_attention_2"
    torch_dtype=torch.bfloat16,
)
model.eval().cuda()
model = model.as_duplex()

# 加载视频和参考音频
video_path = "assets/omni_duplex1.mp4"
ref_audio_path = "assets/HT_ref_audio.wav"
ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)

# 提取视频帧和音频片段
video_frames, audio_segments, stacked_frames = get_video_frame_audio_segments(
    video_path, stack_frames=1, use_ffmpeg=True, adjust_audio_length=True
)

# 准备全双工会话，设置系统提示和语音参考
model.prepare(
    prefix_system_prompt="流式全能对话。",
    ref_audio=ref_audio,
    prompt_wav_path=ref_audio_path,
)

results_log = []
timed_output_audio = []

# 流式处理每个数据块
for chunk_idx in range(len(audio_segments)):
    audio_chunk = audio_segments[chunk_idx] if chunk_idx < len(audio_segments) else None
    frame = video_frames[chunk_idx] if chunk_idx < len(video_frames) else None
    frame_list = []
    if frame is not None:
        frame_list.append(frame)
        if stacked_frames is not None and chunk_idx < len(stacked_frames) and stacked_frames[chunk_idx] is not None:
            frame_list.append(stacked_frames[chunk_idx])

    # 步骤1：流式预填充
    model.streaming_prefill(
        audio_waveform=audio_chunk,
        frame_list=frame_list,
        max_slice_nums=1,  # 增加以支持高清模式（例如，对于堆叠帧可设为[2, 1]）
        batch_vision_feed=False,  # 设置为True可加快处理速度
    )

    # 步骤2：流式生成
    result = model.streaming_generate(
        prompt_wav_path=ref_audio_path,
        max_new_speak_tokens_per_chunk=20,
        decode_mode="sampling",
    )

    if result["audio_waveform"] is not None:
        timed_output_audio.append((chunk_idx, result["audio_waveform"]))

    chunk_result = {
        "chunk_idx": chunk_idx,
        "is_listen": result["is_listen"],
        "text": result["text"],
        "end_of_turn": result["end_of_turn"],
        "current_time": result["current_time"],
        "audio_length": len(result["audio_waveform"]) if result["audio_waveform"] is not None else 0,
    }
    results_log.append(chunk_result)
    
    print("倾听..." if result["is_listen"] else f"发言> {result['text']}")

# 生成包含AI回复的输出视频
# 请安装中文字体（fonts-noto-cjk或fonts-wqy-microhei）以正确渲染CJK字幕。
# apt-get install -y fonts-noto-cjk fonts-wqy-microhei
# fc-cache -fv
generate_duplex_video(
    video_path=video_path,
    output_video_path="duplex_output.mp4",
    results_log=results_log,
    timed_output_audio=timed_output_audio,
    output_sample_rate=24000,
)

半双工全能模式

我们提供两种推理模式：聊天模式和流式模式。

聊天推理

点击显示聊天推理代码。

from minicpmo.utils import get_video_frame_audio_segments

model = ...
model.init_tts()

video_path = "assets/Skiing.mp4"

# 可选：设置参考音频进行语音克隆
ref_audio_path = "assets/HT_ref_audio.wav"
sys_msg = model.get_sys_prompt(ref_audio=ref_audio_path, mode="omni", language="en")

# 使用stack_frames=5以获得高刷新率模式
video_frames, audio_segments, stacked_frames = get_video_frame_audio_segments(video_path, stack_frames=1)
omni_contents = []
for i in range(len(video_frames)):
    omni_contents.append(video_frames[i])
    omni_contents.append(audio_segments[i])
    if stacked_frames is not None and stacked_frames[i] is not None:
        omni_contents.append(stacked_frames[i])

msg = {"role": "user", "content": omni_contents}
msgs = [sys_msg, msg]

# 设置generate_audio=True并指定output_audio_path以保存TTS输出
generate_audio = True
output_audio_path = "output.wav"

res = model.chat(
    msgs=msgs,
    max_new_tokens=4096,
    do_sample=True,
    temperature=0.7,
    use_tts_template=True,
    enable_thinking=False,
    omni_mode=True,  # 这是全能推理所必需的
    generate_audio=generate_audio,
    output_audio_path=output_audio_path,
    max_slice_nums=1,  // 增加以支持高清模式
)
print(res)

# 示例输出："图片中的人正在雪山上滑雪。"
# import IPython
# IPython.display.Audio("output.wav")

流式推理

点击显示流式推理代码。

import librosa
import numpy as np
import soundfile as sf
import torch
from minicpmo.utils import get_video_frame_audio_segments

model = ...
model.init_tts()

# 重置会话以开始新对话（清除KV缓存）
model.reset_session()

# 可选：加载参考音频进行语音克隆
ref_audio_path = "assets/HT_ref_audio.wav"
ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)
model.init_token2wav_cache(ref_audio)

session_id = "demo"

# 提取视频帧和音频片段（使用stack_frames=5以获得高刷新率模式）
video_path = "assets/Skiing.mp4"
video_frames, audio_segments, stacked_frames = get_video_frame_audio_segments(video_path, stack_frames=1)

# 构建omni contents列表
omni_contents = []
for i in range(len(video_frames)):
    omni_contents.append(video_frames[i])
    omni_contents.append(audio_segments[i])
    if stacked_frames is not None and stacked_frames[i] is not None:
        omni_contents.append(stacked_frames[i])

generate_audio = False
output_audio_path = "output.wav"

# 第一步：预填充系统提示
sys_msg = model.get_sys_prompt(ref_audio=ref_audio, mode="omni", language="en")
model.streaming_prefill(session_id=session_id, msgs=[sys_msg])

# 第二步：预填充omni内容块（只有最后一个音频块才设置is_last_chunk=True）
audio_indices = [i for i, c in enumerate(omni_contents) if isinstance(c, np.ndarray)]
last_audio_idx = audio_indices[-1] if audio_indices else -1

for idx, content in enumerate(omni_contents):
    is_last_audio_chunk = idx == last_audio_idx
    msgs = [{"role": "user", "content": [content]}]
    model.streaming_prefill(session_id=session_id, msgs=msgs, omni_mode=True，is_last_chunk=is_last_audio_chunk)

# 步骤3：生成响应
iter_gen = model.streaming_generate(
    session_id=session_id,
    generate_audio=generate_audio,
    use_tts_template=True,
    enable_thinking=False,
    do_sample=True,
)

audios = []
text = ""

if generate_audio:
    for wav_chunk, text_chunk in iter_gen:
        audios.append(wav_chunk)
        text += text_chunk

    generated_waveform = torch.cat(audios, dim=-1)[0]
    sf.write(output_audio_path, generated_waveform.cpu().numpy(), samplerate=24000)

    print("文本:", text)
    print("音频已保存为output.wav")
else:
    for text_chunk, is_finished in iter_gen:
        text += text_chunk
    print("文本:", text)

半双工实时语音对话模式

点击以查看半双工模式下的实时语音对话API使用方法。

首先，请确保您已安装所有依赖项，尤其是"minicpmo-utils[all]>=1.0.5"：

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils[all]>=1.0.5"

import librosa
import numpy as np
import torch
import soundfile as sf

model = ...

# 设置用于克隆声音风格的参考音频
ref_audio_path = "ref_audio_path"
ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)

# 英语对话示例系统提示
sys_msg = {
  "role": "system",
  "content": [
    "克隆所提供音频提示中的声音。",
    ref_audio,
    "请在保持该声音风格的同时协助用户。请认真且高质量地回答用户的问题。请以高度拟人化和口语化的风格与用户交流。您是由ModelBest开发的帮助型助手：MiniCPM-Omni"
  ]
}

# 中文对话示例系统提示
sys_msg = {
  "role": "system",
  "content": [
    "模仿输入音频中的声音特征。",
    ref_audio,
    "您的任务是用这种声音模式来担任助手角色。请认真、高质量地回复用户的问题。请以高度自然的方式与用户聊天。您是由面壁智能开发的人工智能助手：面壁小钢炮。"
  ]
}

# 您可以使用上述每种类型的系统提示来进行流式语音对话

# 重置状态
model.init_tts()
model.reset_session(reset_token2wav_cache=True)
model.init_token2wav_cache(prompt_speech_16k=ref_audio)

session_id = "demo"

# 首先，预填充系统发言
model.streaming_prefill(
    session_id=session_id,
    msgs=[sys_msg],
    omni_mode=False,
    is_last_chunk=True,
)

# 这里我们通过将用户的完整输入音频分割成1秒的片段来模拟实时语音对话。
user_audio, _ = librosa.load("user_audio.wav", sr=16000, mono=True)

IN_SAMPLE_RATE = 16000 # 输入音频采样率，固定值
CHUNK_SAMPLES = IN_SAMPLE_RATE # 每个音频片段的样本数
OUT_SAMPLE_RATE = 24000 # 输出音频采样率，固定值
MIN_AUDIO_SAMPLES = 16000

total_samples = len(user_audio)
num_chunks = (total_samples + CHUNK_SAMPLES - 1) // CHUNK_SAMPLES

for chunk_idx in range(num_chunks):
    start = chunk_idx * CHUNK_SAMPLES
    end = min((chunk_idx + 1) * CHUNK_SAMPLES, total_samples)
    chunk_audio = user_audio[start:end]
    
    is_last_chunk = (chunk_idx == num_chunks - 1)
    if is_last_chunk and len(chunk_audio) < MIN_AUDIO_SAMPLES:
        chunk_audio = np.concatenate([chunk_audio, np.zeros(MIN_AUDIO_SAMPLES - len(chunk_audio), dtype=chunk_audio.dtype)])

    user_msg = {"role": "user", "content": [chunk_audio]}
    
    # 对于每个1秒的音频片段，执行一次流式预填充以减少首个token的延迟
    model.streaming_prefill(
        session_id=session_id,
        msgs=[user_msg],
        omni_mode=False,
        is_last_chunk=is_last_chunk,
    )


# 让模型以流式方式生成响应
generate_audio = True
iter_gen = model.streaming_generate(
    session_id=session_id,
    generate_audio=generate_audio,
    use_tts_template=True,
    enable_thinking=False,
    do_sample=True,
    max_new_tokens=512,
    length_penalty=1.1, # 对于实时语音对话模式，我们建议设置length_penalty=1.1以提升响应内容的质量
)

audios = []
text = ""

output_audio_path = ...
if generate_audio:
    for wav_chunk, text_chunk in iter_gen:
        audios.append(wav_chunk)
        text += text_chunk

    generated_waveform = torch.cat(audios, dim=-1)[0]
    sf.write(output_audio_path, generated_waveform.cpu().numpy(), samplerate=24000)

    print("文本:", text)
    print("音频已保存为output.wav")
else:
    for text_chunk, is_finished in iter_gen:
        text += text_chunk
    print("文本:", text)

# 接下来我们可以预填充后续的用户发言并生成下一轮的响应……

作为多功能且富有感染力的AI助手的语音对话

点击以查看AI助手对话代码。

基于精心设计的后训练数据和专业配音演员录音打造的MiniCPM-o-4.5，也可以作为AI语音助手使用。它开箱即用地提供高质量的语音交互体验。其声音甜美而富有表现力，具有自然的韵律感，包括恰当的节奏、重音和停顿，在日常对话中展现出强烈的生动感。此外，它还支持叙事性演讲，能够以连贯且引人入胜的方式进行讲述。更重要的是，它还支持高级的声音指令控制，例如情感基调和词语层面的强调。

import librosa

# 设置用于克隆声音风格的参考音频
ref_audio_path = "assets/HT_ref_audio.wav"
ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)

# 用于中文对话
sys_msg = {
  "role": "system",
  "content": [
    "模仿输入音频中的声音特征。",
    ref_audio,
    "您的任务是用这种声音模式来担任助手角色。请认真、高质量地回复用户的问题。请以高度自然的方式与用户交流。您是由面壁智能开发的人工智能助手：面壁小钢炮。"
  ]
}

# 用于英语对话
sys_msg = {
  "role": "system",
  "content": [
    "克隆所提供音频提示中的声音。",
    ref_audio,
    "请在保持该声音风格的同时协助用户。请认真且高质量地回答用户的问题。请以高度拟人化和口语化的风格与用户交流。您是由ModelBest开发的帮助型助手：MiniCPM-Omni。"
  ]
}

基于自定义声音和自定义系统简介的一般语音对话

点击以查看自定义声音对话代码。

MiniCPM-o-4.5可以根据音频提示和文本简介提示扮演特定角色。它会模仿该角色的声音，并在文本回复中采用其语言风格。同时，它也会遵循文本简介中定义的角色设定。在这种模式下，MiniCPM-o-4.5听起来更加自然和人性化。

import librosa

# 设置用于声音克隆的参考音频
ref_audio_path = "assets/system_ref_audio.wav"
ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)

# 用于带有文本简介的英语对话
sys_msg = {
  "role": "system",
  "content": [
    "克隆所提供音频提示中的声音。",
    ref_audio,
    "请以高度拟人化和口语化的风格与用户聊天。" + "你是特斯拉和SpaceX的首席执行官埃隆·马斯克。你说话直接而随意，常常带有冷幽默。你对火星、可持续能源以及推动人类进步充满热情。言辞直率，偶尔会流露出黑色幽默。逻辑简单明了，不拐弯抹角。不要官僚主义。说出你的真实想法，即使它颇具争议。回复内容控制在100字左右。不要冗长啰嗦。"
  ]
}


# 用于没有文本简介的英语对话
sys_msg = {
  "role": "system",
  "content": [
    "克隆所提供音频提示中的声音。",
    ref_audio,
    "你的任务是以这种声音模式充当一位乐于助人的助手。请认真且高质量地回答用户的问题。请以高度自然的方式与用户交流。"
  ]
}

# 用于没有文本简介的中文对话
sys_msg = {
  "role": "system",
  "content": [
    "根据输入的音频提示生成相似的语音。",
    librosa.load("assets/system_ref_audio_2.wav", sr=16000, mono=True)[0],
    "作为助手，你将使用这种声音风格说话。 请认真、高质量地回复用户的问题。 请用高自然度的方式和用户聊天。"
  ]
}

# 用于带有文本简介的中文对话
sys_msg = {
  "role": "system",
  "content": [
    "根据输入的音频提示生成相似的语音。",
    ref_audio,
    "你是一个具有以上声音风格的AI助手。请用高拟人度、口语化的方式和用户聊天。" + "你是一名心理咨询师兼播客主理人，热爱创作与深度对话。你性格细腻、富有共情力，善于从个人经历中提炼哲思。语言风格兼具理性与诗意，常以隐喻表达内在体验。"
  ]
}

语音与音频模式

零样本文本转语音（TTS）

点击显示TTS代码。

MiniCPM-o-4.5 支持零样本文本转语音（TTS）。在这种模式下，该模型作为一个高度自然的TTS系统运行，能够复制参考语音。

import librosa

model = ...
model.init_tts()

# 适用于中文和英文
ref_audio_path = "assets/HT_ref_audio.wav"
ref_audio, _ = librosa.load(ref_audio_path, sr=16000, mono=True)
sys_msg = {"role": "system", "content": [
  "模仿音频样本的音色并生成新的内容。",
  ref_audio,
  "请用这种声音风格来为用户提供帮助。 直接作答，不要有冗余内容"
]}

# 对于英语
user_msg = {
  "role": "user",
  "content": [
    "请朗读以下内容。" + " " + "I have a wrap up that I want to offer you now, a conclusion to our work together."
  ]
}

# 对于中文
user_msg = {
  "role": "user",
  "content": [
    "请朗读以下内容。" + " " + "你好，欢迎来到艾米说科幻，我是艾米。"
  ]
}

msgs = [sys_msg, user_msg]
res = model.chat(
    msgs=msgs,
    do_sample=True,
    max_new_tokens=512,
    use_tts_template=True,
    generate_audio=True,
    temperature=0.1,
    output_audio_path="result_voice_cloning.wav",
)

模仿

点击显示模仿代码。

“模仿”任务用于评估模型的端到端语音建模能力。模型接收音频输入，将其转录，并以高保真度重建原始音频，同时保留详细的声学、副语言和语义信息。重建后的音频与原始音频越相似，说明模型的端到端语音建模能力越强。

import librosa

model = ...
model.init_tts()

system_prompt = "你是一位乐于助人的助手。你可以接受视频、音频和文本输入，并输出语音和文本。只需给出答案，不要冗余。"

mimick_prompt = "请用适当的语言重复以下讲话。"

audio_input, _ = librosa.load("assets/Trump_WEF_2018_10s.mp3", sr=16000, mono=True)

msgs = [
    {"role": "system", "content": [system_prompt]},
    {"role": "user", "content": [mimick_prompt, audio_input]}
  ]

res = model.chat(
    msgs=msgs,
    do_sample=True,
    max_new_tokens=512,
    use_tts_template=True,
    temperature=0.1,
    generate_audio=True,
    output_audio_path="output_mimick.wav",
)

处理各类音频理解任务

点击显示音频理解代码。

MiniCPM-o-4.5 还可以处理多种音频理解任务，例如自动语音识别（ASR）、说话人分析、通用音频字幕生成以及声音场景标签等。

对于音频转文本任务，可以使用以下提示：

ASR（中文，或AST EN→ZH）：请仔细听这段音频片段，并将其内容逐字记录。
ASR（英文，或AST ZH→EN）：请听清楚这段音频片段，并将其内容转录下来。
说话人分析：根据说话人的内容，推测其性别、状态、年龄范围及健康状况。
通用音频字幕：总结这段音频的主要内容。
声音场景标签：用一个关键词概括这段音频的内容或相关场景。

import librosa

model = ...
model.init_tts()

# 加载需要转录或分析的音频
audio_input, _ = librosa.load("assets/Trump_WEF_2018_10s.mp3", sr=16000, mono=True)

# 选择任务提示（选项见上文）
task_prompt = "请仔细听这段音频片段，并将其内容转录下来。\n"
msgs = [{"role": "user", "content": [task_prompt, audio_input]}]

res = model.chat(
    msgs=msgs,
    do_sample=True,
    max_new_tokens=512,
    use_tts_template=True,
    generate_audio=True,
    temperature=0.3,
    output_audio_path="result_audio_understanding.wav",
)
print(res)

视觉理解

MiniCPM-o-4.5 与 MiniCPM-V-4.5 共享相同的推理方法。

单张图片对话

点击展开单张图片对话代码。

import torch
from PIL import Image
from transformers import AutoModel

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-4_5",
    trust_remote_code=True,
    attn_implementation="sdpa",  # 或者 "flash_attention_2"
    torch_dtype=torch.bfloat16,
    init_vision=True,
    init_audio=False,
    init_tts=False,
)
model.eval().cuda()

image = Image.open("assets/fossil.png").convert("RGB")
question = "图片中有什么？"
msgs = [{"role": "user", "content": [image, question]}]

res = model.chat(msgs=msgs, use_tts_template=False)
print(res)

多张图片对话

点击展开多张图片输入的Python代码。

import torch
from PIL import Image
from transformers import AutoModel

model = ...

image1 = Image.open("assets/highway.png").convert("RGB")
image2 = Image.open("assets/fossil.png").convert("RGB")
question = "比较图1和图2，告诉我它们之间的区别。"
msgs = [{"role": "user", "content": [image1, image2, question]}]

answer = model.chat(msgs=msgs, use_tts_template=False, enable_thinking=False)
print(answer)

上下文少样本学习

点击展开少样本学习的Python代码。

from PIL import Image

model = ...

question = "生产日期"
image1 = Image.open("example1.jpg").convert("RGB")
answer1 = "2023.08.04"
image2 = Image.open("example2.jpg").convert("RGB")
answer2 = "2007.04.24"
image_test = Image.open("test.jpg").convert("RGB")

msgs = [
    {"role": "user", "content": [image1, question]},
    {"role": "assistant", "content": [answer1]},
    {"role": "user", "content": [image2, question]},
    {"role": "assistant", "content": [answer2]},
    {"role": "user", "content": [image_test, question]},
]

answer = model.chat(msgs=msgs, use_tts_template=False, enable_thinking=False)
print(answer)

视频对话

点击展开视频输入的Python代码。

import torch
from minicpmo.utils import get_video_frame_audio_segments
from transformers import AutoModel

model = ...

video_path = "assets/Skiing.mp4"
video_frames, _, _ = get_video_frame_audio_segments(video_path)
print("帧数:", len(video_frames))

question = "请描述一下这段视频。"
msgs = [{"role": "user", "content": video_frames + [question]}]

answer = model.chat(
    msgs=msgs,
    max_new_tokens=128,
    use_image_id=False,
    max_slice_nums=1,
    use_tts_template=False,
    enable_thinking=False,  # 设置为True以启用思考模式
)
print(answer)

结构化内容输入

点击展开结构化内容输入的详细信息。

chat 方法接受两种格式的消息内容：

原生格式——直接传递Python对象：

msgs = [{"role": "user", "content": [pil_image, audio_ndarray, "请描述一下这个。"]} ]

与OpenAI兼容的格式——使用结构化的字典：

msgs = [
    {
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "/path/to/image.jpg"}},
            {"type": "audio_url", "audio_url": {"url": "/path/to/audio.wav"}},
            {"type": "video_url", "video_url": {"url": "/path/to/video.mp4", "use_audio": True}},
            {"type": "text", "text": "请描述一下这个。"}
        ]
    }
]

支持的类型：

类型	输入	转换为
`text`	`{"type": "text", "text": "..."}`	`str`
`image_url`	`{"type": "image_url", "image_url": {"url": "..."}}`	`PIL.Image`
`audio_url`	`{"type": "audio_url", "audio_url": {"url": "..."}}`	`np.ndarray`（16kHz单声道）
`video_url`	`{"type": "video_url", "video_url": {"url": "...", "stack_frames": 1, "use_audio": True}}`	`List[Image, ndarray, ...]`

URL来源：本地文件路径或 http:///https:// URL
混合格式：原生对象和结构化字典可以混合在同一内容列表中

在您自己的设备上部署实时Web演示

选项A（推荐）：使用Nvidia GPU进行PyTorch推理，以实现100%的模型精度且性能无损。

我们提供基于PyTorch的简化但功能齐全的Web演示，它可以提升模型推理性能，支持以下功能：

全双工全模态直播
全双工语音直播
半双工语音直播（开发中）
轮流式聊天对话
可自定义系统提示词
可自定义参考音频
代码库简洁易读，便于持续开发
可作为第三方应用的API后端

要求：

至少拥有28GB显存的Nvidia GPU。我们正在优化模型以降低显存占用。

选项B：llama.cpp-omni，适用于Mac等PC及低资源设备的终端侧推理。

凭借完全由C++实现的MiniCPM-o 4.5以及量化权重，llama.cpp-omni支持：

半双工语音实时对话
全双工全模态直播

我们提供了即用型指南，通过我们的全新官方Docker镜像，您可以直接在自己的Mac上访问低延迟的全双工通信。

要求：

对于半双工语音实时对话：Apple M3/M4/M5芯片，至少配备16GB内存，或至少拥有12GB显存的低资源Nvidia GPU
对于全双工全模态直播：Apple M4 Max芯片，至少配备24GB内存，或至少拥有12GB显存的低资源Nvidia GPU

支持的框架

FlagOS

为了实现跨不同AI芯片的大规模部署，北京智源研究院联合国内外众多研究机构、芯片制造商、系统供应商以及算法和软件组织，共同发起并成立了FlagOS开源社区。

FlagOS社区致力于为各类AI芯片构建统一的开源系统软件栈，涵盖大规模算子库、统一AI编译器、并行训练与推理框架以及统一通信库等核心开源项目。其目标是打造连接“模型-系统-芯片”三层的开放技术生态。通过实现“一次开发、多芯片部署”，FlagOS能够释放硬件的计算潜能，打破不同芯片软件栈之间的生态孤岛，有效降低开发者的迁移成本。FlagOS社区推动AI软硬件生态的发展，打破单一厂商的闭源垄断，促进AI硬件技术的广泛部署，并坚持立足中国、面向全球的合作理念。

官方网站：https://flagos.io。

点击展开FlagOS详情。

FlagOS：支持多款AI芯片

得益于FlagOS统一的多芯片AI系统软件栈，MiniCPM-o 4.5在极短时间内适配了6种不同的AI芯片。目前，MiniCPM-o 4.5的多芯片版本已在FlagOS的自动迁移、适配和部署平台——FlagRelease上发布。具体信息如下：

厂商	ModelScope	Huggingface
Nvidia	MiniCPM-o-4.5-nvidia-FlagOS	MiniCPM-o-4.5-nvidia-FlagOS
Hygon-BW1000	MiniCPM-o-4.5-hygon-FlagOS	MiniCPM-o-4.5-hygon-FlagOS
Metax-C550	MiniCPM-o-4.5-metax-FlagOS	MiniCPM-o-4.5-metax-FlagOS
Iluvatar-BIV150	MiniCPM-o-4.5-iluvatar-FlagOS	MiniCPM-o-4.5-iluvatar-FlagOS
Ascend-A3	MiniCPM-o-4.5-ascend-FlagOS	MiniCPM-o-4.5-ascend-FlagOS
Zhenwu-810E	MiniCPM-o-4.5-zhenwu-FlagOS	MiniCPM-o-4.5-zhenwu-FlagOS

综合评估

Transformers-FlagOS版本

USE_FLAGOS=1在多后端与USE_FLAGOS=0在Nvidia-CUDA之间的准确率差异

指标	FlagOS后端	与Nvidia-CUDA的差异
Video-MME 0-shot avg@1 ↑	Nvidia	0.33%
Video-MME 0-shot avg@1 ↑	Hygon-BW1000	0.17%
Video-MME 0-shot avg@1 ↑	Ascend-A3	0.50%
Video-MME 0-shot avg@1 ↑	Iluvatar-BIV150	1.83%
Video-MME 0-shot avg@1 ↑	Metax-C550	0.75%

VLLM-FlagOS版本

USE_FLAGGEMS=1 FLAGCX_PATH=/workspace/FlagCX在Nvidia或USE_FLAGGEMS=1在ZHENW 810E上的准确率差异，与直接在Nvidia上启动vllm服务器相比

指标（avg@1）	Nvidia-FlagOS与Nvidia-CUDA的差异	Zhenwu-FlagOS与Nvidia-CUDA的差异
CMMMU ↑	0.72%	3.5%
MMMU ↑	1.44%	1.18%
MMMU_Pro_standard ↑	0.83%	0.22%
MM-Vet v2 ↑	0.46%	1.33%
OCRBench ↑	0.10%	1%
CII-Bench ↑	0.40%	0.13%
Blink ↑	1.90%	2.19%

FlagOS使用方法

FlagOS在Nvidia上的性能加速

在Transformers版本中，在CUDA与FlagOS生态精度对齐的前提下，FlagOS相较于CUDA整体任务执行时间提升了6%。

来自FlagRelease【推荐】

FlagRelease是由FlagOS团队开发的用于大型模型在多架构AI芯片间自动迁移、适配和部署的平台。MiniCPM-o 4.5的多芯片版本已在此平台上发布。平台上预装了所有必要的软件包，用户无需额外安装任何东西。

FlagRelease镜像关键版本

组件	版本
加速卡驱动程序	570.158.01
CUDA SDK Build	cuda_13.0.r13.0/compiler.36424714_0
FlagTree	0.4.0+3.5
FlagGems	4.2.1rc0
vllm & vllm-plugin-fl	0.13.0 + vllm_fl 0.0.0
FlagCX	0.1.0

FlagRelease快速入门

供应商	ModelScope	Huggingface
Nvidia	MiniCPM-o-4.5-nvidia-FlagOS	MiniCPM-o-4.5-nvidia-FlagOS
Hygon-BW1000	MiniCPM-o-4.5-hygon-FlagOS	MiniCPM-o-4.5-hygon-FlagOS
Metax-C550	MiniCPM-o-4.5-metax-FlagOS	MiniCPM-o-4.5-metax-FlagOS
Iluvatar-BIV150	MiniCPM-o-4.5-iluvatar-FlagOS	MiniCPM-o-4.5-iluvatar-FlagOS
Ascend-A3	MiniCPM-o-4.5-ascend-FlagOS	MiniCPM-o-4.5-ascend-FlagOS
Zhenwu-810E	MiniCPM-o-4.5-zhenwu-FlagOS	MiniCPM-o-4.5-zhenwu-FlagOS

从零开始

依赖项：Python 3.12、GLIBC 2.39、GLIBCXX 3.4.33、CXXABI 1.3.15

Transformers

安装 FlagOS 运算符库

官方仓库：https://github.com/flagos-ai/FlagGems
```
pip install flag-gems==4.2.1rc0
```
安装 FlagOS 编译器

官方仓库：https://github.com/flagos-ai/flagtree

核心依赖版本快速参考：https://github.com/flagos-ai/FlagTree/blob/main/documents/build.md#tips-for-building
```
pip uninstall triton

python3 -m pip install flagtree==0.4.0+3.5 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple --trusted-host=https://resource.flagos.net
```
激活加速

在您想要运行的任务命令前添加 USE_FLAGOS=1。例如，当您运行：
```
python3 generate_speech_from_video.py
```
要使用 MiniCPM-o-4.5 模型从视频内容中生成语音响应，您可以：
```
USE_FLAGOS=1 python3 generate_speech_from_video.py
```
以通过 FlagOS 加速此过程。

Vllm 版本

安装 FlagOS 运算符库

官方仓库：https://github.com/flagos-ai/FlagGems
```
pip install flag-gems==4.2.1rc0
pip install triton==3.5.1
```

激活加速

在您想要运行的任务命令前添加 USE_FLAGOS=1。例如，当您运行：

vllm serve ${model_path} --dtype auto  --gpu_memory_utilization 0.9 --trust-remote-code --max-num-batched-tokens 2048 --served-model-name cpmo --port ${Port}

要启动 MiniCPM-o-4.5 服务器，您可以：

USE_FLAGOS=1 vllm serve ${model_path} --dtype auto  --gpu_memory_utilization 0.9 --trust-remote-code --max-num-batched-tokens 2048 --served-model-name cpmo --port ${Port}

以通过 FlagOS 加速此过程。

使用 FlagOS 统一多芯片后端插件

vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件。它基于 FlagOS 的统一多芯片后端开发，旨在扩展 vLLM 在各种硬件环境中的功能和性能。

使用 vllm-plugin-FL

供应商	从零开始	来自 FlagRelease
Nvidia	vllm-plugin-FL/MiniCPM-o-4.5	MiniCPM-o-4.5-ModelScope, MiniCPM-o-4.5-HuggingFace

vLLM、SGLang、llama.cpp、Ollama

我们支持使用 vLLM、SGLang、llama.cpp 和 Ollama 进行推理。更多详情请参阅我们的 Cookbook。

LLaMA-Factory、SWIFT

我们支持使用 LLaMA-Factory 和 SWIFT 进行微调。更多详情请参阅我们的 Cookbook。

MiniCPM-V & o 烹饪书

在我们结构化的烹饪书中，您可以找到针对MiniCPM-V和MiniCPM-o系列模型的全面、即用型解决方案，这些方案能够帮助开发者快速实现集视觉、语音和直播功能于一体的多模态AI应用。主要特点包括：

简单易用的文档

我们的综合文档网站以清晰、条理分明的方式呈现了每一道“菜谱”。所有功能一目了然，方便您迅速找到所需内容。

广泛的用户群体

我们支持从个人到企业及研究人员等各类用户。

个人用户：只需少量设置，即可通过Ollama（V4、o4.5）和Llama.cpp（V4、o4.5）轻松进行推理。
企业用户：借助vLLM（V4、o4.5）和SGLang（V4、o4.5），实现高吞吐量和可扩展性能。
研究人员：利用先进的框架，包括Transformers、LLaMA-Factory、SWIFT以及Align-anything，灵活开发模型并开展前沿实验。

多样的部署场景

我们的生态系统为各种硬件环境和部署需求提供了最优解决方案。

Web演示：全双工实时视频交互解决方案，响应迅速且延迟低。WebRTC_Demo。
量化部署：使用GGUF和BNB，最大化效率并最小化资源消耗。
终端设备：将强大的AI体验带到iPhone和iPad，支持离线和注重隐私的应用。

MiniCPM-V 4.0

MiniCPM-V 4.0 是MiniCPM-V系列中的高效模型。该模型基于SigLIP2-400M和MiniCPM4-3B构建，总参数量为41亿。它继承了MiniCPM-V 2.6在单图像、多图像和视频理解方面的强大性能，同时大幅提升了效率。MiniCPM-V 4.0的显著特点包括：

🔥 领先的视觉能力。 仅凭41亿参数，MiniCPM-V 4.0在OpenCompass上取得了平均69.0分的成绩，这是一项涵盖8个热门基准的综合性评估，优于GPT-4.1-mini-20250414、MiniCPM-V 2.6（81亿参数，OpenCompass 65.2）以及Qwen2.5-VL-3B-Instruct（38亿参数，OpenCompass 64.5）。它在多图像理解和视频理解方面也表现出色。
🚀 卓越的效率。 专为终端设备部署而设计，MiniCPM-V 4.0在各类终端设备上运行流畅。例如，在iPhone 16 Pro Max上，它能实现首次生成token延迟不到2秒，解码速度超过17 token/s，且不会出现发热问题。在并发请求下，其吞吐量同样优异。
💫 易于使用。 MiniCPM-V 4.0可以通过多种方式轻松使用，包括llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory以及本地Web演示等。我们还开源了一款可在iPhone和iPad上运行的iOS应用。借助我们结构清晰的烹饪书，其中包含详细的说明和实用示例，您可以轻松上手。

点击查看MiniCPM-V 4.0的评估结果和示例。

评估

点击查看OpenCompass上的单图像任务结果。

模型	规模	Opencompass	OCRBench	MathVista	HallusionBench	MMMU	MMVet	MMBench V1.1	MMStar	AI2D
专有模型
GPT-4v-20240409	-	63.5	656	55.2	43.9	61.7	67.5	79.8	56.0	78.6
Gemini-1.5-Pro	-	64.5	754	58.3	45.6	60.6	64.0	73.9	59.1	79.1
GPT-4.1-mini-20250414	-	68.9	840	70.9	49.3	55.0	74.3	80.9	60.9	76.0
Claude 3.5 Sonnet-20241022	-	70.6	798	65.3	55.5	66.4	70.1	81.7	65.1	81.2
开源模型
Qwen2.5-VL-3B-Instruct	3.8B	64.5	828	61.2	46.6	51.2	60.0	76.8	56.3	81.4
InternVL2.5-4B	3.7B	65.1	820	60.8	46.6	51.8	61.5	78.2	58.7	81.4
Qwen2.5-VL-7B-Instruct	8.3B	70.9	888	68.1	51.9	58.0	69.7	82.2	64.1	84.3
InternVL2.5-8B	8.1B	68.1	821	64.5	49.0	56.2	62.8	82.5	63.2	84.6
MiniCPM-V-2.6	8.1B	65.2	852	60.8	48.1	49.8	60.0	78.0	57.5	82.1
MiniCPM-o-2.6	8.7B	70.2	889	73.3	51.1	50.9	67.2	80.6	63.3	86.1
MiniCPM-V-4.0	4.1B	69.0	894	66.9	50.8	51.2	68.0	79.7	62.8	82.9

点击查看ChartQA、MME、RealWorldQA、TextVQA、DocVQA、MathVision、DynaMath、WeMath、Object HalBench和MM Halbench上的单图像任务结果。

模型	尺寸	ChartQA	MME	RealWorldQA	TextVQA	DocVQA	MathVision	DynaMath	WeMath	Obj Hal		MM Hal
										CHAIRs↓	CHAIRi↓	score avg@3↑	hall rate avg@3↓
专有模型
GPT-4v-20240409	-	78.5	1927	61.4	78.0	88.4	-	-	-	-	-	-	-
Gemini-1.5-Pro	-	87.2	-	67.5	78.8	93.1	41.0	31.5	50.5	-	-	-	-
GPT-4.1-mini-20250414	-	-	-	-	-	-	45.3	47.7	-	-	-	-	-
Claude 3.5 Sonnet-20241022	-	90.8	-	60.1	74.1	95.2	35.6	35.7	44.0	-	-	-	-
开源模型
Qwen2.5-VL-3B-Instruct	3.8B	84.0	2157	65.4	79.3	93.9	21.9	13.2	22.9	18.3	10.8	3.9	33.3
InternVL2.5-4B	3.7B	84.0	2338	64.3	76.8	91.6	18.4	15.2	21.2	13.7	8.7	3.2	46.5
Qwen2.5-VL-7B-Instruct	8.3B	87.3	2347	68.5	84.9	95.7	25.4	21.8	36.2	13.3	7.9	4.1	31.6
InternVL2.5-8B	8.1B	84.8	2344	70.1	79.1	93.0	17.0	9.4	23.5	18.3	11.6	3.6	37.2
MiniCPM-V-2.6	8.1B	79.4	2348	65.0	80.1	90.8	17.5	9.0	20.4	7.3	4.7	4.0	29.9
MiniCPM-o-2.6	8.7B	86.9	2372	68.1	82.0	93.5	21.7	10.4	25.2	6.3	3.4	4.1	31.3
MiniCPM-V-4.0	4.1B	84.4	2298	68.5	80.8	92.9	20.7	14.2	32.7	6.3	3.5	4.1	29.2

点击查看Mantis、Blink和Video-MME上的多图像与视频理解结果。

模型	大小	Mantis	Blink	Video-MME
				无字幕	有字幕
专有模型
GPT-4v-20240409	-	62.7	54.6	59.9	63.3
Gemini-1.5-Pro	-	-	59.1	75.0	81.3
GPT-4o-20240513	-	-	68.0	71.9	77.2
开源模型
Qwen2.5-VL-3B-Instruct	3.8B	-	47.6	61.5	67.6
InternVL2.5-4B	3.7B	62.7	50.8	62.3	63.6
Qwen2.5-VL-7B-Instruct	8.3B	-	56.4	65.1	71.6
InternVL2.5-8B	8.1B	67.7	54.8	64.2	66.9
MiniCPM-V-2.6	8.1B	69.1	53.0	60.9	63.6
MiniCPM-o-2.6	8.7B	71.9	56.7	63.9	69.6
MiniCPM-V-4.0	4.1B	71.4	54.0	61.2	65.8

示例

我们在iPhone 16 Pro Max上部署了MiniCPM-V 4.0，并提供了iOS演示。演示视频为未经编辑的原始屏幕录制。

模型动物园

模型	设备	显存	描述	下载
MiniCPM-o 4.5	GPU	19 GB	最新版本，端侧多模态性能强劲，适用于视觉、语音及全模态直播场景。	🤗
MiniCPM-o 4.5 gguf	GPU	10 GB	gguf 版本，显存占用更低，推理速度更快。	🤗
MiniCPM-o 4.5 AWQ	GPU	11 GB	AWQ 量化版本，GPU 显存占用更低。	🤗
MiniCPM-V 4.0	GPU	9 GB	最新版本，端侧多模态性能强劲，适用于单张图片、多张图片及视频理解任务。	🤗
MiniCPM-V 4.0 gguf	CPU	4 GB	gguf 版本，显存占用更低，推理速度更快。	🤗
MiniCPM-V 4.0 int4	GPU	5 GB	int4 量化版本，GPU 显存占用更低。	🤗
MiniCPM-V 4.0 AWQ	GPU	5 GB	AWQ 量化版本，GPU 显存占用更低。	🤗

历史模型

模型	简介与指引
MiniCPM-V 4.5	文档
MiniCPM-o 2.6	文档
MiniCPM-V 2.6	文档
MiniCPM-Llama3-V 2.5	文档
MiniCPM-V 2.0	文档
MiniCPM-V 1.0	文档
OmniLMM-12B	文档

使用 MiniCPM-V 和 MiniCPM-o 的优秀作品

text-extract-api: 基于 OCR 和 Ollama 支持的模型构建的文档提取 API
comfyui_LLM_party: 构建 LLM 工作流并集成到现有图像工作流中
Ollama-OCR: 通过 Ollama 调用 VLM 从图片和 PDF 中提取文本的 OCR 工具包
comfyui-mixlab-nodes: ComfyUI 节点套件支持工作流转 APP、GPT 和 3D 等功能
OpenAvatarChat: 在单台 PC 上实现交互式数字人对话
pensieve: 一款注重隐私的被动录屏项目，用于记录屏幕内容
paperless-gpt: 利用 LLM 处理无纸化文档，实现 AI 驱动的标题、标签和 OCR 功能
Neuro: Neuro-Sama 的复刻版，但运行在消费级硬件上的本地模型上

局限性

作为一项实验性尝试，我们发现 MiniCPM-o 4.5 存在一些值得注意的局限性，值得进一步研究和改进。

基础能力。 全双工全模态直播功能的基础能力仍有待提升。
全模态模式下语音输出不稳定。 在全双工全模态直播模式下，语音合成可能会出现错读字符的情况。
语言混杂。 模型在语音和全模态模式下有时会以中英混杂的方式回应。
Web Demo 延迟较高。 使用托管在海外服务器上的 Web Demo 时，用户可能会遇到异常高的延迟，甚至错过部分模型输出片段。建议将 Demo 部署在本地或使用良好的网络连接。

模型许可

MiniCPM-o/V 模型的权重和代码均以 Apache-2.0 许可证开源。
为了更好地了解和支持我们的用户，如果您愿意，可以填写一份简短的注册“问卷”“questionnaire”。

声明

作为 MLLM，MiniCPM-o/V 模型通过学习大量多模态语料库生成内容，但它们无法理解、表达个人观点或做出价值判断。MiniCPM-o/V 模型生成的任何内容均不代表模型开发者们的观点和立场。

对于因使用 MiniCPM-o/V 模型而产生的任何问题，包括但不限于数据安全问题、舆论风险以及因模型被误引导、滥用、传播或不当使用而引发的风险和问题，我们概不负责。

致谢

我们谨向以下项目表示感谢：

Qwen3 提供语言骨干模型
SigLIP2 提供视觉理解模块
Whisper 提供音频与语音理解模块
CosyVoice2 和 Step-Audio2 提供语音分词器及高效 Token2Wav 模块。
Transformers

机构

本项目由以下机构共同开发：

🌟 星标历史

关键技术及其他多模态项目

👏 欢迎探索 MiniCPM-o/V 的关键技术以及我们团队的其他多模态项目：

VisCPM | RLPR | RLHF-V | LLaVA-UHD | RLAIF-V

引用

如果您觉得我们的模型、代码或论文有所帮助，请考虑引用我们的论文📝并为我们点亮星标⭐️！

@article{yao2024minicpm,
  title={MiniCPM-V：一款可在手机上运行的 GPT-4V 级多模态大模型},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv 预印本 arXiv:2408.01800},
  year={2024}
}

MiniCPM-o 快速上手指南

MiniCPM-o 是 OpenBMB 推出的最新端侧多模态大模型系列，支持图像、视频、文本和音频输入，并能端到端地输出高质量文本和语音。其中 MiniCPM-o 4.5 具备全双工多模态实时流能力（边看、边听、边说），性能媲美 Gemini 2.5 Flash；MiniCPM-V 4.0 则以 4B 参数量实现高效的手机端部署。

环境准备

系统要求

操作系统: Linux, macOS (推荐用于本地实时演示), Windows (需 WSL2)
GPU: 推荐使用 NVIDIA GPU (显存建议 16GB+ 以运行 4.5 版本，8GB+ 可尝试量化版本或 4.0 版本)
Python: 3.9 - 3.11

前置依赖

确保已安装以下基础工具：

git
conda 或 venv (推荐使用 conda 管理环境)
cuda (如需 GPU 加速，版本需与 PyTorch 匹配)

安装步骤

1. 创建并激活虚拟环境

conda create -n minicpm-o python=3.10
conda activate minicpm-o

2. 安装 PyTorch

请根据您的 CUDA 版本选择对应的安装命令（以下为 CUDA 11.8 示例）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

国内用户可使用清华镜像源加速：

pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

3. 安装 MiniCPM-o 依赖库

克隆官方仓库并安装依赖：

git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
pip install -e .

若主要使用推理功能，也可直接安装核心依赖：

pip install transformers>=4.40.0 accelerate tiktoken pillow soundfile librosa

4. (可选) 安装 llama.cpp-omni 框架

如需体验全双工实时流（Full-Duplex Live Streaming）及 WebRTC 演示，需安装定制版 llama.cpp：

git clone -b minicpm-omni https://github.com/OpenBMB/llama.cpp.git
cd llama.cpp
make -j

注意：目前建议使用官方提供的 fork 版本以获得完整的多模态实时流支持。

基本使用

场景一：Python 代码推理 (图像理解)

以下示例展示如何使用 MiniCPM-o 4.5 进行简单的图像问答。

import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

# 加载模型 (首次运行会自动下载，国内用户建议配置 HF_ENDPOINT 或使用镜像站)
model_path = "openbmb/MiniCPM-o-4_5" # 或者 "openbmb/MiniCPM-V-4"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_path, 
    torch_dtype=torch.bfloat16, 
    device_map="cuda", 
    trust_remote_code=True
).eval()

# 准备输入
image = Image.open("your_image.jpg").convert("RGB")
question = "这张图片里有什么？请用中文详细描述。"

# 构建消息
msgs = [{'role': 'user', 'content': [image, question]}]

# 生成回答
answer = model.chat(
    image=None, # 图片已在 msgs 中传入
    msgs=msgs,
    tokenizer=tokenizer
)

print(answer)

场景二：使用 Ollama 一键运行 (推荐轻量级部署)

如果您已安装 Ollama，可以直接拉取模型进行快速测试：

# 拉取模型
ollama pull openbmb/minicpm-o2.6

# 运行对话 (支持文本和多模态输入)
ollama run openbmb/minicpm-o2.6 "描述这张图片" --images your_image.jpg

注：MiniCPM-o 4.5 的 Ollama 支持正在积极合并中，当前稳定版本可优先尝试 2.6 或关注官方更新。

场景三：启动本地实时 Web 演示 (全双工模式)

若要体验“边看边听边说”的全双工交互，请使用 llama.cpp-omni 框架启动 WebRTC 服务：

# 进入 llama.cpp 目录
cd llama.cpp

# 下载对应的 GGUF 模型 (需先从 HuggingFace 下载 MiniCPM-o-4_5 的 GGUF 版本)
# 假设模型文件名为 minicpm-o-4_5.q4_k_m.gguf

# 启动服务器
./server -m models/minicpm-o-4_5.q4_k_m.gguf --port 8080 --flash-attn --slots --cont-batching -c 4096 --n-gpu-layers 99

启动后，在浏览器访问 http://localhost:8080 即可体验实时音视频交互。

版本历史

202505272025/05/27

常见问题

如何在 Ollama 中运行 MiniCPM-V 模型？遇到 "unknown error" 或图像输入挂起怎么办？

在 Android 或 Linux 上运行 minicpmv-cli 时提示 "Permission denied" 如何解决？

使用 llama.cpp 转换或运行 MiniCPM-Llama3-V 2.5 时遇到 BPE tokenizer 警告或识别错误怎么办？

MiniCPM-Llama3-V 2.5 是否支持同时输入音频和视频进行多模态推理？

如何验证其他项目（如 Llama3-V）是否窃取了 MiniCPM 的代码或权重？

llama.cpp 版本的 MiniCPM-V 模型 OCR 识别精度为何不如在线 Demo？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|5天前

语言模型图像Agent