MiniCPM-o
MiniCPM-o 是一款专为手机等终端设备设计的开源多模态大语言模型系列,旨在让普通设备也能拥有媲美云端巨头的智能交互能力。它解决了传统多模态模型体积庞大、难以在本地运行,且无法同时处理“看、听、说”实时互动的痛点。
无论是开发者、研究人员还是追求前沿体验的普通用户,都能从中受益。开发者可将其高效部署于移动端或 Mac 本地;研究人员能探索端侧多模态的新边界;普通用户则能享受隐私安全、低延迟的智能助手服务。
其核心亮点在于最新的 MiniCPM-o 4.5 版本,仅用 90 亿参数量便在视觉理解、语音交互及全双工实时流媒体能力上达到了 Gemini 2.5 Flash 的水平。所谓“全双工”,意味着它能像真人一样,在接收视频和音频输入的同时,不间断地输出语音和文字,实现真正的“边看边听边说”,支持主动提醒和自然的双语对话,甚至具备声音克隆功能。此外,配套的轻量级推理框架让这一高端体验能在本地设备上流畅运行,无需依赖昂贵的服务器资源。
使用场景
一位跨国电商平台的客服主管正试图为移动端应用构建一个能实时处理用户视频咨询、支持双语语音交互且无需云端依赖的智能助手。
没有 MiniCPM-o 时
- 交互延迟高且割裂:传统方案需将音视频上传至云端处理,网络波动导致响应慢,且无法实现“边听边看边说”的全双工自然对话,用户必须说完话等待系统反应。
- 端侧部署困难:高性能多模态模型参数量巨大,手机本地无法运行,迫使企业承担高昂的服务器推理成本和隐私泄露风险。
- 复杂场景识别弱:面对用户展示的商品瑕疵视频或手写单据,现有轻量级模型 OCR 能力不足,难以准确提取关键信息,常需人工介入复核。
- 语音体验生硬:支持的语种有限,语音合成缺乏情感表达,无法进行自然的打断或主动提醒,导致用户体验像在与机器而非真人交流。
使用 MiniCPM-o 后
- 实时全双工流式交互:MiniCPM-o 4.5 支持端到端的全双工多模态直播流,能在本地同时处理视频输入与语音输出,实现零延迟的自然插话和主动关怀提醒。
- 高效端侧落地:凭借 9B 参数的高效架构,MiniCPM-o 可直接部署在手机或 Mac 等本地设备上,利用 llama.cpp-omni 框架即可运行,彻底消除云端延迟并保障数据隐私。
- 超强视觉理解力:依托接近 Gemini 2.5 Flash 的视觉能力,MiniCPM-o 能精准识别视频中的商品细节及复杂 OCR 内容,直接给出专业解答,大幅降低人工成本。
- 拟人化双语沟通:内置的高质量语音模式支持自然流畅的中英双语对话,具备情感表达甚至声音克隆能力,让每一次服务都如同真人面对面般亲切稳定。
MiniCPM-o 通过将旗舰级的多模态实时交互能力压缩至端侧,彻底重构了移动设备上的智能服务体验,让离线、实时且高智商的 AI 助手成为现实。
运行环境要求
- macOS
- Linux
- Windows
- 非必需
- 支持在本地设备(如 Mac、手机)运行
- 若使用 GPU 加速,支持多卡部署(提及 12GB 或 16GB 显存显卡),具体 CUDA 版本未说明
未说明(提及可在手机端运行,低显存多卡部署方案)

快速开始
一款媲美Gemini 2.5 Flash级别的多模态大模型,支持视觉、语音及全双工多模态实时流式交互,可在手机端运行
中文 | English
微信 |
Discord
MiniCPM-o 4.5 🤗 📞 🤖 | MiniCPM-V 4.0 🤗 | 🍳 烹饪手册 | 音频案例集 | 全双工案例集
MiniCPM-o 是从 MiniCPM-V 衍生出的最新系列端侧多模态大模型(MLLM)。该系列模型现在可以同时接受图像、视频、文本和音频作为输入,并以端到端的方式生成高质量的文本和语音输出。这一系列模型的设计目标是实现 强大的性能与高效的部署。目前该系列中最引人注目的型号包括:
MiniCPM-o 4.5: 🔥🔥🔥 该系列中最新、功能最强大的模型。总参数量为90亿,这款端到端模型在 视觉、语音以及全双工多模态实时流式交互方面接近Gemini 2.5 Flash,使其成为开源社区中最具多功能性和高性能的模型之一。全新的全双工多模态实时流式交互能力意味着输出流(语音和文本)与实时输入流(视频和音频)互不阻塞。这使得 MiniCPM-o 4.5能够在实时全模态对话中同时看、听、说,并执行诸如主动提醒等 主动交互任务。改进后的语音模式以更自然、更具表现力且更稳定的方式支持双语实时语音对话,同时还允许进行语音克隆。此外,它还进一步提升了MiniCPM-V的视觉能力,例如强大的OCR识别能力、可信的行为表现以及多语言支持等。我们还推出了一套 高性能的llama.cpp-omni推理框架,并配套WebRTC演示,以便在Mac等本地设备上体验这种全双工多模态实时流式交互。
MiniCPM-V 4.0: ⭐️⭐️⭐️ MiniCPM-V系列中的高效模型。总参数量为40亿,该模型在OpenCompass评估中超越了GPT-4.1-mini-20250414的图像理解能力。凭借其较小的参数规模和高效的架构,MiniCPM-V 4.0是手机端部署的理想选择。
新闻
📌 置顶
[!NOTE] [2026年2月6日] 🥳 🥳 🥳 我们开源了一个可部署在您自己的设备(如Mac或GPU)上的实时Web演示。立即体验!
[2026年2月5日] 📢📢📢 我们注意到,由于网络条件的原因,Web演示可能会出现延迟问题。我们正在积极努力,尽快提供一个用于本地部署实时交互演示的Docker镜像,请持续关注!
[2026年2月3日] 🔥🔥🔥 我们开源了MiniCPM-o 4.5,它在视觉和语音方面与Gemini 2.5 Flash相当,并支持全双工多模态实时流式交互。立即尝试吧!
[2025年9月18日] 📢📢📢 MiniCPM-V 4.5的技术报告现已发布!请参阅此处。
[2025年8月26日] 🔥🔥🔥 我们开源了MiniCPM-V 4.5,它在性能上超越了GPT-4o-latest、Gemini-2.0 Pro以及Qwen2.5-VL 72B。该模型进一步提升了MiniCPM-V的现有优势,并新增了许多实用功能。立即试用吧!
[2025年8月1日] ⭐️⭐️⭐️ 我们开源了MiniCPM-V & o烹饪手册! 它为各种使用场景提供了全面的指南,并搭配我们的新文档网站,帮助用户更顺畅地入门。
[2025年3月1日] 🚀🚀🚀 MiniCPM-o的对齐技术RLAIF-V已被CVPR 2025亮点收录!相关代码、数据集以及论文均已开源!
[2025年1月24日] 📢📢📢 MiniCPM-o 2.6的技术报告已发布!请参阅此处。
[2025年1月19日] ⭐️⭐️⭐️ MiniCPM-o登上了GitHub Trending榜首,并在Hugging Face Trending中位列第二!
[2024年5月23日] 🔥🔥🔥 MiniCPM-V登上了GitHub Trending和Hugging Face Trending的榜首!我们的演示由Hugging Face Gradio官方账号推荐,现已开放在此处体验。快来试试吧!
点击查看更多信息。
[2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5 已正式得到 llama.cpp、vLLM 和 LLaMA-Factory 的支持。欢迎通过这些官方渠道直接使用!对 Ollama 和 SGLang 等其他框架的支持也在积极进行中。
[2025.08.02] 🚀🚀🚀 我们开源了 MiniCPM-V 4.0,其图像理解能力超越 GPT-4.1-mini-20250414。它在 MiniCPM-V 2.6 的热门功能基础上进一步提升,并大幅提高了效率。我们还开源了适用于 iPhone 和 iPad 的 iOS 应用程序,立即体验吧!
[2025.01.23] 💡💡💡 MiniCPM-o 2.6 现已得到 PKU-Alignment 团队的多模态大模型对齐框架 Align-Anything 的支持。该框架同时支持视觉和音频领域的 DPO 和 SFT 微调,快来试试吧!
[2025.01.19] 📢 注意! 我们目前正在将 MiniCPM-o 2.6 合并到 llama.cpp、Ollama 和 vllm 的官方仓库中。在合并完成之前,请使用我们提供的本地分支:llama.cpp、Ollama 和 vllm。在合并前使用官方仓库可能导致意外问题。
[2025.01.17] 我们已更新 MiniCPM-o 2.6 int4 量化版本的使用方法,并修复了模型初始化错误。点击 这里 立即尝试!
[2025.01.13] 🔥🔥🔥 我们开源了 MiniCPM-o 2.6,其在视觉、语音及多模态直播方面的表现媲美 GPT-4o-202405。它在 MiniCPM-V 2.6 的热门功能基础上进一步升级,并新增了多种趣味功能,快来体验吧!
[2024.08.15] 我们现在也支持多图像 SFT。更多详情请参阅 文档。
[2024.08.14] MiniCPM-V 2.6 现在也支持使用 SWIFT 框架进行 微调!
[2024.08.17] 🚀🚀🚀 MiniCPM-V 2.6 现已完全得到 官方 llama.cpp 支持!各种尺寸的 GGUF 模型可在 这里 获取。
[2024.08.10] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已完全得到 官方 llama.cpp 支持!不同尺寸的 GGUF 模型可在 这里 获取。
[2024.08.06] 🔥🔥🔥 我们开源了 MiniCPM-V 2.6,其在单张图片、多张图片和视频理解方面均优于 GPT-4V。它在 MiniCPM-Llama3-V 2.5 的热门功能基础上进一步提升,并且可以在 iPad 上实现实时视频理解。立即体验吧!
[2024.08.03] MiniCPM-Llama3-V 2.5 技术报告已发布!详情请见 这里。
[2024.07.19] MiniCPM-Llama3-V 2.5 现已支持 vLLM!详情请见 这里。
[2024.06.03] 现在,您可以通过将模型的不同层分配到多块 GPU 上,在多台低显存(12 GB 或 16 GB)GPU 上运行 MiniCPM-Llama3-V 2.5。更多详情请查看此 链接。
[2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已完全支持在 llama.cpp 和 Ollama 中使用!请拉取我们提供的分支的最新代码(llama.cpp、Ollama)。各种尺寸的 GGUF 模型可在 这里 获取。目前,MiniCPM-Llama3-V 2.5 系列 尚未被官方仓库支持,我们正在努力合并相关 PR,请持续关注!
[2024.05.28] 💫 我们现在支持使用仅需 2 块 V100 GPU 对 MiniCPM-Llama3-V 2.5 进行 LoRA 微调!更多统计数据请见 这里。
[2024.05.25] MiniCPM-Llama3-V 2.5 现已支持流式输出和自定义系统提示词。立即体验 这里!
[2024.05.24] 我们发布了 MiniCPM-Llama3-V 2.5 的 gguf,它支持 llama.cpp 推理,并能在手机上实现每秒 6~8 个 token 的流畅解码。立即试用吧!
[2024.05.23] 🔍 我们发布了 Phi-3-vision-128k-instruct 与 MiniCPM-Llama3-V 2.5 的全面对比,包括基准测试评估、多语言能力以及推理效率 🌟📊🌍🚀。点击 这里 查看更多详情。
[2024.05.20] 我们开源了 MiniCPM-Llama3-V 2.5,它提升了 OCR 能力,支持 30 多种语言,是首个达到 GPT-4V 水平性能的端侧 MLLM!我们提供 高效推理 和 简单微调 方法,立即试用吧!
[2024.04.23] MiniCPM-V-2.0 现已支持 vLLM!点击 这里 查看更多详情。
[2024.04.18] 我们创建了一个 HuggingFace Space,用于展示 MiniCPM-V 2.0 的演示,地址为 这里!
[2024.04.17] MiniCPM-V-2.0 现已支持部署 WebUI 演示!
[2024.04.15] MiniCPM-V-2.0 现也支持使用 SWIFT 框架进行 微调!
[2024.04.12] 我们开源了 MiniCPM-V 2.0,其场景文本理解能力与 Gemini Pro 相当,并在 OpenCompass 综合评估中,超越了强大的 Qwen-VL-Chat 9.6B 和 Yi-VL 34B。该评估覆盖了 11 个热门基准测试。点击 这里 查看 MiniCPM-V 2.0 技术博客。
[2024.03.01] MiniCPM-V 现在可以在 Mac 上部署了!
[2024.02.01] 我们开源了 MiniCPM-V 和 OmniLMM-12B,它们分别具备高效的端侧部署能力和强大的多模态能力。
目录
- MiniCPM-o 4.5
- 使用Transformers的离线推理示例
- 在您自己的设备上部署实时Web演示
- 支持的框架
- MiniCPM-V & o 烹饪书
- MiniCPM-V 4.0
- 模型库
- 使用MiniCPM-V 和 MiniCPM-o 的优秀作品
- 局限性
- 致谢
MiniCPM-o 4.5
MiniCPM-o 4.5 是 MiniCPM-o 系列中最新且功能最强大的模型。该模型基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,以端到端的方式构建而成,总参数量为 90 亿。它在性能上有了显著提升,并引入了用于全双工多模态直播的新特性。MiniCPM-o 4.5 的显著特点包括:
🔥 领先的视觉能力。 MiniCPM-o 4.5 在 OpenCompass 上取得了平均 77.6 分的成绩,这是一个对 8 个热门基准进行全面评估的结果。仅凭 90 亿参数,它就超越了广泛使用的专有模型,如 GPT-4o、Gemini 2.0 Pro,并且在视觉语言能力方面接近 Gemini 2.5 Flash。它在一个模型中同时支持指令模式和思考模式,更好地兼顾不同用户场景下的效率与性能平衡。
🎙 强大的语音能力。 MiniCPM-o 4.5 支持可配置声音的双语实时语音对话,涵盖英语和中文。它的语音对话更加自然、富有表现力且稳定。此外,该模型还允许通过简单的参考音频片段进行语音克隆和角色扮演等有趣的功能,其克隆效果甚至超过了像 CosyVoice2 这样的强大 TTS 工具。
🎬 全新的全双工和主动式多模态直播能力。 作为一项新特性,MiniCPM-o 4.5 可以同时处理实时、连续的视频和音频输入流,并以端到端的方式生成并发的文本和语音输出流,而不会相互阻塞。这使得 MiniCPM-o 4.5 能够同时看、听和说,从而创造出流畅、实时的全模态对话体验。除了被动响应之外,该模型还可以进行主动交互,例如根据对现场情况的持续理解发起提醒或评论。
💪 强大的 OCR 能力、高效性及其他。 继承了 MiniCPM-V 系列的先进视觉能力,MiniCPM-o 4.5 能够高效地处理 高分辨率图像(最高 180 万像素)和 高帧率视频(最高 10 帧/秒),且不受画面比例限制。它在 OmniDocBench 上实现了 最先进的端到端英文文档解析性能,优于诸如 Gemini-3 Flash 和 GPT-5 等专有模型,以及 DeepSeek-OCR 2 等专业工具。此外,它还具备 可信的行为表现,在 MMHal-Bench 上与 Gemini 2.5 Flash 持平,并支持 多语言能力,覆盖超过 30 种语言。
💫 易于使用。 MiniCPM-o 4.5 可以通过多种方式轻松使用:基本用法,推荐用于 100% 的精度: 使用 Nvidia GPU 进行 PyTorch 推理。其他端侧适配 包括 (1) llama.cpp 和 Ollama 支持本地设备上的高效 CPU 推理,(2) 16 种规格的 int4 和 GGUF 格式量化模型,(3) vLLM 和 SGLang 支持高吞吐量和内存高效的推理,(4) FlagOS 支持统一的多芯片后端插件。我们还开源了 Web 演示,这些演示 能够在本地设备上实现全双工多模态直播体验,例如 GPU 或 PC(比如 MacBook)。
模型架构。
- 端到端的全模态架构。 各模态的编码器/解码器与 LLM 通过隐藏状态以端到端的方式紧密连接。这不仅能够更好地控制信息流动,还能在训练过程中充分利用丰富的多模态知识。
- 全双工全模态直播机制。 (1) 我们将离线的模态编码器/解码器改造为在线的全双工版本,用于处理流式输入/输出。语音标记解码器以交错的方式同时解码文本和语音标记,从而支持全双工语音生成(即及时与新输入同步)。这也使得长时间语音生成更加稳定(例如 > 1 分钟)。 (2) 我们将所有输入和输出流按毫秒级的时间轴同步起来,这些流由 LLM 主干中的时分复用(TDM)机制共同建模,用于全模态流式处理。该机制会将并行的全模态流划分为小时间片内的顺序信息组。
- 主动交互机制。 LLM 会持续监控输入的视频和音频流,并以每秒一次的频率决定是否发言。这种高频率的决策结合全双工特性,是实现主动交互能力的关键。
- 可配置的语音建模设计。 我们沿用了 MiniCPM-o 2.6 的多模态系统提示设计,其中包括传统的文本系统提示,以及用于确定助手声音的新音频系统提示。这使得在推理时可以克隆新的声音并进行语音对话的角色扮演。
评估
点击查看视觉理解结果。
图像理解(指令)
| 模型 | OpenCompass | MMBench EN v1.1 | MMBench CN v1.1 | MathVista | MMVet | MMMU | MMStar | HallusionBench | AI2D | OCRBench | TextVQA_VAL | DocVQA_VAL | MMT-Bench_VAL | MM-IFEval | Mantis-Eval | MuirBench | MMSI-Bench | MMHal-Score | MMHal-Hallrate↓ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Gemini2.5-Flash-Nonthinking | 78.5 | 86.6 | 86.0 | 75.3 | 81.4* | 76.3 | 75.8 | 59.1 | 87.7 | 864 | 74.3* | 93.0 | 70.0* | 75.8* | 72.8* | 74.5* | 12.1* | 4.6* | 23.9* |
| Gemini2.0-Pro | 73.3 | 83.0 | 83.0 | 71.3 | 70.4 | 72.6 | 68.5 | 49.8 | 84.8 | 863 | - | - | - | - | - | - | - | - | - |
| GPT-4o | 75.4 | 86.0 | 86.0 | 71.6 | 76.9 | 72.9 | 70.2 | 57.0 | 86.3 | 822 | 77.4 | 93.0 | 66.7* | 64.6 | 70.1* | 70.5* | 8.1* | 4.2* | 25.0* |
| InternVL-3.5-8B | 75.8 | 79.5 | 80.0* | 78.4 | 83.1 | 73.4 | 69.3 | 54.5 | 84.0 | 840 | 78.2 | 92.3 | 66.7 | 56.3* | 70.5 | 55.8 | - | 3.8* | 34.7* |
| Qwen3-VL-8B-Instruct | 76.5 | 84.5 | 84.7 | 77.2 | 73.7* | 69.6 | 70.9 | 61.1 | 85.7 | 896 | 82.9* | 96.1 | 60.9* | 59.4* | 74.2* | 64.4 | 11.3* | 4.7* | 29.9* |
| Qwen3-Omni-30B-A3B-Instruct | 75.7 | 84.9* | 84.1* | 75.9 | 74.8* | 69.1 | 68.5 | 59.7 | 85.2 | 880* | 84.1* | 95.4* | 70.4* | 65.7* | 78.3* | 61.9* | 14.2* | 4.6* | 31.6* |
| MiniCPM-o 4.5-Instruct | 77.6 | 87.6 | 87.2 | 80.1 | 74.4 | 67.6 | 73.1 | 63.2 | 87.6 | 876 | 83.8 | 94.7 | 69.7 | 66.3 | 79.7 | 72.0 | 16.6 | 4.7 | 24.3 |
图像理解(思考)
| 模型 | OpenCompass | MMBench EN v1.1 | MMBench CN v1.1 | MathVista | MMVet | MMMU | MMStar | HallusionBench | AI2D | OCRBench | TextVQA_VAL | DocVQA_VAL | MMT-Bench_VAL | MM-IFEval |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Gemini2.5-Flash-Thinking | 79.9 | 87.1 | 87.3 | 79.4 | 81.2* | 77.7 | 76.5 | 63.5 | 88.7 | 853 | 73.8* | 92.8 | 70.7* | 75.7* |
| GPT-5 | 79.7 | 85.5* | 85.6* | 81.9 | 77.6 | 81.8 | 75.7 | 65.2 | 89.5 | 807 | 77.8* | 91.3* | 72.7* | 83.1* |
| Qwen3-VL-8B-Thinking | 77.3 | 85.3 | 85.5 | 81.4 | 69.8* | 74.1 | 75.3 | 65.4 | 84.9 | 819 | 77.8* | 95.3 | 68.1* | 73.5* |
| Qwen3-Omni-30B-A3B-Thinking | 78.5 | 88.2* | 87.7* | 80.0 | 74.8* | 75.6 | 74.9 | 62.8 | 86.1 | 859* | 80.8* | 94.2* | 70.9* | 69.9* |
| MiniCPM-o 4.5-Thinking | 78.2 | 89.0 | 87.6 | 81.0 | 73.6 | 70.2 | 73.6 | 62.6 | 88.5 | 879 | 79.8 | 92.3 | 69.7 | 68.2 |
视频理解
| 模型 | Video-MME (w/o subs) |
LVBench | MLVU (M-Avg) |
LongVideoBench (val) |
MotionBench |
|---|---|---|---|---|---|
| Gemini2.5-Flash-Nonthinking | 75.6 | 62.2 | 77.8 | - | - |
| InternVL-3.5-8B | 66.0 | - | 70.2 | 62.1 | 62.3* |
| Qwen3-Omni-30B-A3B-Instruct | 70.5 | 50.2 | 75.2 | 66.9* | 61.7* |
| MiniCPM-o 4.5-Instruct | 70.4 | 50.9 | 76.5 | 66.0 | 61.4 |
点击查看文档解析结果。
OmniDocBench
| 方法类型 | 方法 | OverallEdit↓ | TextEdit↓ | FormulaEdit↓ | TableTEDS↑ | TableEdit↓ | Read OrderEdit↓ | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH | EN | ZH | ||
| 流水线 | MinerU 2.5 | 0.117* | 0.172* | 0.051* | 0.08* | 0.256* | 0.455* | 85.9* | 89.4* | 0.115* | 0.081* | 0.047* | 0.072* |
| PaddleOCR-VL | 0.105 | 0.126 | 0.041 | 0.062 | 0.241 | 0.316 | 88 | 92.1 | 0.093 | 0.062 | 0.045 | 0.063 | |
| 端到端模型 | Qwen2.5-VL-72B | 0.214 | 0.261 | 0.092 | 0.18 | 0.315 | 0.434 | 82.9 | 83.9 | 0.341 | 0.262 | 0.106 | 0.168 |
| GPT 5 | 0.218* | 0.33* | 0.139* | 0.344* | 0.396* | 0.555* | 77.55* | 73.09* | 0.188* | 0.196* | 0.151* | 0.227* | |
| Gemini2.5-Flash-Nonthinking | 0.214* | 0.29* | 0.159* | 0.273* | 0.368* | 0.524* | 80.9* | 85.5* | 0.197* | 0.167* | 0.132* | 0.195* | |
| Gemini-2.5-Pro-Nonthinking | 0.148* | 0.212* | 0.055* | 0.168* | 0.356* | 0.439* | 85.8* | 86.4* | 0.13* | 0.119* | 0.049* | 0.121* | |
| Gemini-3 Flash-Nonthinking | 0.155* | 0.201* | 0.138* | 0.255* | 0.297* | 0.351* | 86.4* | 89.8* | 0.116* | 0.1* | 0.072* | 0.099* | |
| doubao-1-5-thinking-vision-pro-250428 | 0.14 | 0.162 | 0.043 | 0.085 | 0.295 | 0.384 | 83.3 | 89.3 | 0.165 | 0.085 | 0.058 | 0.094 | |
| dots.ocr | 0.125 | 0.16 | 0.032 | 0.066 | 0.329 | 0.416 | 88.6 | 89 | 0.099 | 0.092 | 0.04 | 0.067 | |
| HunyuanOCR | 0.12* | 0.125* | 0.046* | 0.071* | 0.288* | 0.33* | 89.6* | 94.4* | 0.089* | 0.045* | 0.055* | 0.056* | |
| DeepSeek-OCR 2 | 0.119* | 0.146* | 0.041* | 0.08* | 0.256* | 0.345* | 82.6* | 89.9* | 0.123* | 0.078* | 0.055* | 0.081* | |
| Qwen3-Omni-30B-A3B-Instruct | 0.216* | 0.363* | 0.128* | 0.337* | 0.402* | 0.529* | 77.3* | 71.8* | 0.181* | 0.255* | 0.152* | 0.332* | |
| MiniCPM-o 4.5-Instruct | 0.109 | 0.162 | 0.046 | 0.078 | 0.257 | 0.41 | 86.8 | 88.9 | 0.097 | 0.084 | 0.037 | 0.074 | |
点击查看文本能力结果。
文本能力
| 模型 | IFEval-PLS | BBH | CMMLU | MMLU | HumanEval | MBPP | Math500 | GSM8K | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Qwen3-8B-Instruct | 83.0* | 69.4* | 78.7* | 81.7* | 86.6* | 75.9* | 84.0* | 93.4* | 81.6 |
| MiniCPM-o 4.5-Instruct | 84.7 | 81.1 | 79.5 | 77.0 | 86.6 | 76.7 | 77.0 | 94.5 | 82.1 |
点击查看全场景半双工结果。
全场景半双工
| 模型 | Daily-Omni | WorldSense | Video-Holmes | JointAVBench | AVUT-Human | FutureOmni | Video-MME-Short (w/ audio) |
平均 |
|---|---|---|---|---|---|---|---|---|
| Gemini2.5-Flash-Nonthinking | 79.3* | 52.6* | 51.3* | 55.6* | 65.4* | 55.6* | 85.5* | 63.6 |
| Qwen3-Omni-30B-A3B-Instruct | 70.7* | 54.0 | 50.4* | 53.1 | 74.2* | 62.1 | 81.3* | 63.7 |
| MiniCPM-o 4.5-Instruct | 80.2 | 55.7 | 64.3 | 60.0 | 78.6 | 56.1 | 84.7 | 68.5 |
点击查看视觉双工结果。
视觉双工
| 模型 | LiveSports-3K-CC (胜率 vs GPT4o) |
|---|---|
| LiveCC-7B-Instruct | 41.5 |
| StreamingVLM | 45.6 |
| MiniCPM-o 4.5-Instruct | 54.4 |
点击查看音频理解结果。
音频理解
| 模型 | ASR-ZH CER↓ |
ASR-EN WER↓ |
AST | MultiTask | SpeechQA | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AISHELL-1 | AISHELL-2 | WenetSpeech test-net | WenetSpeech test-meeting | LibriSpeech test-clean | LibriSpeech test-other |
GigaSpeech test | VoxPopuli-V1-En | CoVoST 2 en2zh | CoVoST 2 zh2en | MMAU | Meld | VoiceBench AlpacaEval |
Speech TriviaQA | Speech Web Questions |
Speech CMMLU | |
| Kimi-Audio | 0.6 | 2.6 | 6.3 | 5.4 | 1.3 | 2.4 | 9.4* | 8.0* | 36.6* | 18.3* | 68.4* | 59.1 | 4.5 | 41.9* | 46.4* | 67.0* |
| Qwen3-Omni-30B-A3B-Instruct | 0.6 | 2.3* | 4.7 | 5.9 | 1.2 | 2.5 | 8.7* | 6.4* | 46.6* | 29.4* | 77.5 | 56.8* | 4.7 | 62.9* | 74.9* | 47.8* |
| MiniCPM-o 4.5-Instruct | 0.9 | 2.5 | 5.9 | 5.7 | 1.4 | 2.8 | 8.5 | 6.2 | 49.9 | 26.4 | 76.9 | 60.2 | 4.8 | 75.5 | 70.2 | 59.2 |
点击查看语音生成结果。
语音生成
| 模型 | seedtts test-zh CER↓ |
seedtts test-zh SIM-o↑ |
seedtts test-en WER↓ |
seedtts test-en SIM-o↑ |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Cosyvoice2 | 1.45% | 74.8 | 2.57% | 65.2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Qwen3-Omni-30B-A3B-Instruct | 1.41% | - | --- | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| MiniCPM-o 4.5-Instruct | 0.86% | 2.38% |
情感控制
点击查看推理效率结果。推理效率
注: 标有 ∗ 的分数来自我们的评估;其余则引用自相关报告。 示例总体全模态全双工对话
实时语音对话
🚀 埃隆·马斯克 - 语音角色扮演(英文)
🤖 MiniCPM 助手 - 语音表演:情绪转变(中文)
视觉理解点击查看视觉理解案例。
使用 Transformers 的离线推理示例在 NVIDIA GPU 上使用 Hugging Face Transformers 进行推理。请确保已安装
点击显示 FFmpeg 安装说明(可选)。注: FFmpeg 是提取视频帧( macOS (Homebrew):
Ubuntu/Debian:
验证安装:
模型初始化点击显示模型初始化代码。
全双工全能模式用于实时或录制视频对话的全双工流式推理。 点击显示全双工全能模式代码。
半双工全能模式我们提供两种推理模式:聊天模式和流式模式。 聊天推理点击显示聊天推理代码。
流式推理点击显示流式推理代码。
半双工实时语音对话模式点击以查看半双工模式下的实时语音对话API使用方法。首先,请确保您已安装所有依赖项,尤其是
作为多功能且富有感染力的AI助手的语音对话点击以查看AI助手对话代码。基于精心设计的后训练数据和专业配音演员录音打造的
基于自定义声音和自定义系统简介的一般语音对话点击以查看自定义声音对话代码。MiniCPM-o-4.5可以根据音频提示和文本简介提示扮演特定角色。它会模仿该角色的声音,并在文本回复中采用其语言风格。同时,它也会遵循文本简介中定义的角色设定。在这种模式下,MiniCPM-o-4.5听起来更加自然和人性化。
语音与音频模式零样本文本转语音(TTS)点击显示TTS代码。
模仿点击显示模仿代码。“模仿”任务用于评估模型的端到端语音建模能力。模型接收音频输入,将其转录,并以高保真度重建原始音频,同时保留详细的声学、副语言和语义信息。重建后的音频与原始音频越相似,说明模型的端到端语音建模能力越强。
处理各类音频理解任务点击显示音频理解代码。
对于音频转文本任务,可以使用以下提示:
视觉理解
单张图片对话点击展开单张图片对话代码。
多张图片对话点击展开多张图片输入的Python代码。
上下文少样本学习点击展开少样本学习的Python代码。
视频对话点击展开视频输入的Python代码。
结构化内容输入点击展开结构化内容输入的详细信息。
原生格式——直接传递Python对象:
与OpenAI兼容的格式——使用结构化的字典:
支持的类型:
在您自己的设备上部署实时Web演示选项A(推荐):使用Nvidia GPU进行PyTorch推理,以实现100%的模型精度且性能无损。我们提供基于PyTorch的简化但功能齐全的Web演示,它可以提升模型推理性能,支持以下功能:
要求:
选项B:llama.cpp-omni,适用于Mac等PC及低资源设备的终端侧推理。凭借完全由C++实现的
我们提供了即用型指南,通过我们的全新官方Docker镜像,您可以直接在自己的Mac上访问低延迟的全双工通信。 要求:
支持的框架FlagOS为了实现跨不同AI芯片的大规模部署,北京智源研究院联合国内外众多研究机构、芯片制造商、系统供应商以及算法和软件组织,共同发起并成立了FlagOS开源社区。 FlagOS社区致力于为各类AI芯片构建统一的开源系统软件栈,涵盖大规模算子库、统一AI编译器、并行训练与推理框架以及统一通信库等核心开源项目。其目标是打造连接“模型-系统-芯片”三层的开放技术生态。通过实现“一次开发、多芯片部署”,FlagOS能够释放硬件的计算潜能,打破不同芯片软件栈之间的生态孤岛,有效降低开发者的迁移成本。FlagOS社区推动AI软硬件生态的发展,打破单一厂商的闭源垄断,促进AI硬件技术的广泛部署,并坚持立足中国、面向全球的合作理念。 官方网站:https://flagos.io。 点击展开FlagOS详情。FlagOS:支持多款AI芯片得益于FlagOS统一的多芯片AI系统软件栈,MiniCPM-o 4.5在极短时间内适配了6种不同的AI芯片。目前,MiniCPM-o 4.5的多芯片版本已在FlagOS的自动迁移、适配和部署平台——FlagRelease上发布。具体信息如下:
综合评估Transformers-FlagOS版本
VLLM-FlagOS版本
FlagOS使用方法FlagOS在Nvidia上的性能加速在Transformers版本中,在CUDA与FlagOS生态精度对齐的前提下,FlagOS相较于CUDA整体任务执行时间提升了6%。 来自FlagRelease【推荐】FlagRelease是由FlagOS团队开发的用于大型模型在多架构AI芯片间自动迁移、适配和部署的平台。MiniCPM-o 4.5的多芯片版本已在此平台上发布。平台上预装了所有必要的软件包,用户无需额外安装任何东西。
从零开始
Transformers
Vllm 版本
使用 FlagOS 统一多芯片后端插件vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件。它基于 FlagOS 的统一多芯片后端开发,旨在扩展 vLLM 在各种硬件环境中的功能和性能。 使用 vllm-plugin-FL
vLLM、SGLang、llama.cpp、Ollama我们支持使用 vLLM、SGLang、llama.cpp 和 Ollama 进行推理。更多详情请参阅我们的 Cookbook。 LLaMA-Factory、SWIFT我们支持使用 LLaMA-Factory 和 SWIFT 进行微调。更多详情请参阅我们的 Cookbook。 MiniCPM-V & o 烹饪书在我们结构化的烹饪书中,您可以找到针对MiniCPM-V和MiniCPM-o系列模型的全面、即用型解决方案,这些方案能够帮助开发者快速实现集视觉、语音和直播功能于一体的多模态AI应用。主要特点包括: 简单易用的文档 我们的综合文档网站以清晰、条理分明的方式呈现了每一道“菜谱”。所有功能一目了然,方便您迅速找到所需内容。 广泛的用户群体 我们支持从个人到企业及研究人员等各类用户。
多样的部署场景 我们的生态系统为各种硬件环境和部署需求提供了最优解决方案。
MiniCPM-V 4.0MiniCPM-V 4.0 是MiniCPM-V系列中的高效模型。该模型基于SigLIP2-400M和MiniCPM4-3B构建,总参数量为41亿。它继承了MiniCPM-V 2.6在单图像、多图像和视频理解方面的强大性能,同时大幅提升了效率。MiniCPM-V 4.0的显著特点包括:
点击查看MiniCPM-V 4.0的评估结果和示例。评估点击查看OpenCompass上的单图像任务结果。
点击查看ChartQA、MME、RealWorldQA、TextVQA、DocVQA、MathVision、DynaMath、WeMath、Object HalBench和MM Halbench上的单图像任务结果。
点击查看Mantis、Blink和Video-MME上的多图像与视频理解结果。
示例
我们在iPhone 16 Pro Max上部署了MiniCPM-V 4.0,并提供了iOS演示。演示视频为未经编辑的原始屏幕录制。 模型动物园
历史模型
使用 MiniCPM-V 和 MiniCPM-o 的优秀作品
局限性作为一项实验性尝试,我们发现 MiniCPM-o 4.5 存在一些值得注意的局限性,值得进一步研究和改进。
模型许可
声明作为 MLLM,MiniCPM-o/V 模型通过学习大量多模态语料库生成内容,但它们无法理解、表达个人观点或做出价值判断。MiniCPM-o/V 模型生成的任何内容均不代表模型开发者们的观点和立场。 对于因使用 MiniCPM-o/V 模型而产生的任何问题,包括但不限于数据安全问题、舆论风险以及因模型被误引导、滥用、传播或不当使用而引发的风险和问题,我们概不负责。 致谢我们谨向以下项目表示感谢:
机构本项目由以下机构共同开发: 🌟 星标历史
关键技术及其他多模态项目👏 欢迎探索 MiniCPM-o/V 的关键技术以及我们团队的其他多模态项目: VisCPM | RLPR | RLHF-V | LLaVA-UHD | RLAIF-V 引用如果您觉得我们的模型、代码或论文有所帮助,请考虑引用我们的论文📝并为我们点亮星标⭐️!
版本历史202505272025/05/27常见问题相似工具推荐openclawOpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你 349.3k|★★★☆☆|5天前 stable-diffusion-webuistable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。 162.1k|★★★☆☆|6天前 everything-claude-codeeverything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上 150k|★★☆☆☆|今天 ComfyUIComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。 108.3k|★★☆☆☆|昨天 gemini-cligemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。 100.8k|★★☆☆☆|昨天 LLMs-from-scratchLLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备 90.1k|★★★☆☆|5天前 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

