[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-QwenLM--Qwen2.5-Omni":3,"tool-QwenLM--Qwen2.5-Omni":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",148568,2,"2026-04-09T23:34:24",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":98,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":108,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":143},6090,"QwenLM\u002FQwen2.5-Omni","Qwen2.5-Omni","Qwen2.5-Omni is an end-to-end multimodal model by Qwen team at Alibaba Cloud, capable of understanding text, audio, vision, video, and performing real-time speech generation.","Qwen2.5-Omni 是阿里云通义团队推出的端到端多模态大模型，能够像人类一样同时“看、听、说、读”。它不仅能理解文本、图像、音频和视频等多种输入信息，还能直接生成自然的语音回复，实现真正的实时流式交互。\n\n这款模型主要解决了传统 AI 在处理复杂多模态任务时需要拼接多个独立模块、导致响应延迟高且交互不自然的问题。通过端到端的架构设计，Qwen2.5-Omni 大幅提升了跨模态理解的准确性与反应速度，在口语理解、推理及音视频分析等权威评测中均位列开源模型榜首。\n\n它非常适合开发者构建智能客服、虚拟助手或多媒体分析应用，也适合研究人员探索多模态前沿技术。得益于提供的 3B 轻量版及 4 比特量化版本，即使是资源有限的边缘设备也能流畅运行，让普通用户也能在本地体验高质量的实时语音对话。\n\n其独特亮点在于原生支持实时语音合成输出，无需额外插件即可进行流畅的语音交流；同时兼容 vLLM 加速推理与 MNN 端侧部署，兼顾了高性能与低资源消耗，为多模态应用的落地提供了灵活高效的选择。","# Qwen2.5-Omni\n\u003Cp align=\"left\">\n        \u003Ca href=\"README_CN.md\">中文\u003C\u002Fa> &nbsp｜ &nbsp English&nbsp&nbsp\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002FOmni_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\n        💜 \u003Ca href=\"https:\u002F\u002Fchat.qwenlm.ai\u002F\">\u003Cb>Qwen Chat\u003C\u002Fb>\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-omni-67de1e5f0f9464dc6314b36e\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FQwen25-Omni-a2505ce0d5514e\">ModelScope\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2.5-omni\u002F\">Blog\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📚 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Ftree\u002Fmain\u002Fcookbooks\">Cookbooks\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20215\">Paper\u003C\u002Fa>&nbsp&nbsp\n\u003Cbr>\n🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen2.5-Omni-7B-Demo \">Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Fblob\u002Fmain\u002Fassets\u002Fwechat.png\">WeChat (微信)\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FCV4E9rpNSD\">Discord\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fuser-guide\u002Fqwen-omni\">API\u003C\u002Fa>\n\u003C!-- &nbsp&nbsp | &nbsp&nbsp🖥️ \u003Ca href=\"https:\u002F\u002Fgallery.pai-ml.com\u002F#\u002Fpreview\u002FdeepLearning\u002Fcv\u002Fqwen2.5-vl\">PAI-DSW\u003C\u002Fa> -->\n\u003C\u002Fp>\n\nWe release **Qwen2.5-Omni**, the new flagship end-to-end multimodal model in the Qwen series. Designed for comprehensive multimodal perception, it seamlessly processes diverse inputs including text, images, audio, and video, while delivering real-time streaming responses through both text generation and natural speech synthesis. Let's click the video below for more information 😃\n\n\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FyKcANdkRuNI\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fvideo_cover.png\" alt=\"Open Video\"\u002F>\n\u003C\u002Fa>\n\n\n## News\n* 2025.06.12: Qwen2.5-Omni-7B ranked first among open source models in the spoken language understanding and reasoning benchmark [MMSU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.04779).\n* 2025.06.09: Congratulations to our open source Qwen2.5-Omni-7B for ranking first in the [MMAU](https:\u002F\u002Fsakshi113.github.io\u002Fmmau_homepage\u002F#leaderboard) leaderboard, and first in the [MMAR](https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FMMAR) of open source models in the audio understanding and reasoning evaluation!\n* 2025.05.16: We release 4-bit quantized Qwen2.5-Omni-7B (GPTQ-Int4\u002FAWQ) models that maintain comparable performance to the original version on multimodal evaluations while reducing GPU VRAM consumption by over 50%+. See [GPTQ-Int4 and AWQ Usage](#gptq-int4-and-awq-usage) for details, and models can be obtained from Hugging Face ([GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-AWQ)) and ModelScope ([GPTQ-Int4](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-AWQ))\n* 2025.05.13: [MNN Chat App](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN\u002Fblob\u002Fmaster\u002Fapps\u002FAndroid\u002FMnnLlmChat\u002FREADME.md#releases) support Qwen2.5-Omni now, let's experience Qwen2.5-Omni on the edge devices! Please refer to [Deployment with MNN](#deployment-with-mnn) for information about memory consumption and inference speed benchmarks.\n* 2025.04.30: Exciting! We We have released Qwen2.5-Omni-3B to enable more platforms to run Qwen2.5-Omni. The model can be downloaded from [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-3B). The [performance](#performance) of this model is updated, and please refer to [Minimum GPU memory requirements](#minimum-gpu-memory-requirements) for information about resource consumption. And for best experience, [transformers](#--transformers-usage) and [vllm](#deployment-with-vllm) code have update, you can pull the [official docker](#-docker) again to get them.\n* 2025.04.11: We release the new vllm version which support audio ouput now! Please experience it from source or our docker image.\n* 2025.04.02: ⭐️⭐️⭐️ Qwen2.5-Omni reaches top-1 on Hugging Face Trending! \n* 2025.03.29: ⭐️⭐️⭐️ Qwen2.5-Omni reaches top-2 on Hugging Face Trending! \n* 2025.03.26: Real-time interaction with Qwen2.5-Omni is available on [Qwen Chat](https:\u002F\u002Fchat.qwen.ai\u002F). Let's start this amazing journey now!\n* 2025.03.26: We have released the [Qwen2.5-Omni](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-omni-67de1e5f0f9464dc6314b36e). For more details, please check our [blog](https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2.5-omni\u002F)!\n\n\n## Contents \u003C!-- omit in toc -->\n\n- [Overview](#overview)\n  - [Introduction](#introduction)\n  - [Key Features](#key-features)\n  - [Model Architecture](#model-architecture)\n  - [Performance](#performance)\n- [Quickstart](#quickstart)\n  - [Transformers Usage](#--transformers-usage)\n  - [ModelScope Usage](#-modelscope-usage)\n  - [GPTQ-Int4 and AWQ Usage](#gptq-int4-and-awq-usage)\n  - [Usage Tips](#usage-tips)\n  - [Cookbooks for More Usage Cases](#cookbooks-for-more-usage-cases)\n  - [API inference](#api-inference)\n  - [Customization Settings](#customization-settings)\n- [Chat with Qwen2.5-Omni](#chat-with-qwen25-omni)\n  - [Online Demo](#online-demo)\n  - [Launch Local Web UI Demo](#launch-local-web-ui-demo)\n  - [Real-Time Interaction](#real-time-interaction)\n- [Deployment with vLLM](#deployment-with-vllm)\n- [Deployment with MNN](#deployment-with-mnn)\n- [Docker](#-docker)\n\u003C!-- - [Citation](#citation) -->\n\n## Overview \n### Introduction\nQwen2.5-Omni is an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. \n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fqwen_omni.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### Key Features\n\n* **Omni and Novel Architecture**: We propose Thinker-Talker architecture, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. We propose a novel position embedding, named TMRoPE (Time-aligned Multimodal RoPE), to synchronize the timestamps of video inputs with audio.\n\n* **Real-Time Voice and Video Chat**: Architecture designed for fully real-time interactions, supporting chunked input and immediate output.\n\n* **Natural and Robust Speech Generation**: Surpassing many existing streaming and non-streaming alternatives, demonstrating superior robustness and naturalness in speech generation.\n\n* **Strong Performance Across Modalities**: Exhibiting exceptional performance across all modalities when benchmarked against similarly sized single-modality models. Qwen2.5-Omni outperforms the similarly sized Qwen2-Audio in audio capabilities and achieves comparable performance to Qwen2.5-VL-7B.\n\n* **Excellent End-to-End Speech Instruction Following**: Qwen2.5-Omni shows performance in end-to-end speech instruction following that rivals its effectiveness with text inputs, evidenced by benchmarks such as MMLU and GSM8K.\n\n### Model Architecture\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Foverview.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### Performance\n\nWe conducted a comprehensive evaluation of Qwen2.5-Omni, which demonstrates strong performance across all modalities when compared to similarly sized single-modality models and closed-source models like Qwen2.5-VL-7B, Qwen2-Audio, and Gemini-1.5-pro. In tasks requiring the integration of multiple modalities, such as OmniBench, Qwen2.5-Omni achieves state-of-the-art performance. Furthermore, in single-modality tasks, it excels in areas including speech recognition (Common Voice), translation (CoVoST2), audio understanding (MMAU), image reasoning (MMMU, MMStar), video understanding (MVBench), and speech generation (Seed-tts-eval and subjective naturalness).\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fbar.png\"\u002F>\n\u003Cp>\n\n\u003Cdetails>\n\u003Csummary>Multimodality  -> Text\u003C\u002Fsummary>\n\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-0lax\">Datasets\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">Model\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">Performance\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"10\">OmniBench\u003Cbr>Speech | Sound Event | Music | Avg\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Gemini-1.5-Pro\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">42.67%|42.26%|46.23%|42.91%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MIO-Instruct\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">36.96%|33.58%|11.32%|33.80%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">AnyGPT (7B)\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">17.77%|20.75%|13.21%|18.04%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">video-SALMONN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">34.11%|31.70%|\u003Cstrong>56.60%\u003C\u002Fstrong>|35.64%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">UnifiedIO2-xlarge\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">39.56%|36.98%|29.25%|38.00%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">UnifiedIO2-xxlarge\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">34.24%|36.98%|24.53%|33.98%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|40.50%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Baichuan-Omni-1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|42.90%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">52.14%|52.08%|52.83%|52.19%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>55.25%\u003C\u002Fstrong>|\u003Cstrong>60.00%\u003C\u002Fstrong>|52.83%|\u003Cstrong>56.13%\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>Audio -> Text\u003C\u002Fsummary>\n\n\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-0lax\">Datasets\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">Model\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">Performance\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">ASR\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"12\">Librispeech\u003Cbr>dev-clean | dev other | test-clean | test-other\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">SALMONN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|2.1|4.9\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">SpeechVerse\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|2.1|4.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Whisper-large-v3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|1.8|3.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Llama-3-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|3.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Llama-3-70B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|3.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-ASR-Multilingual\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|\u003Cstrong>1.6\u003C\u002Fstrong>|\u003Cstrong>2.8\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|1.7|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|1.7|3.9\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.8|4.0|2.0|4.2\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>1.3\u003C\u002Fstrong>|\u003Cstrong>3.4\u003C\u002Fstrong>|\u003Cstrong>1.6\u003C\u002Fstrong>|3.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">2.0|4.1|2.2|4.5\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.6|3.5|1.8|3.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"5\">Common Voice 15\u003Cbr>en | zh | yue | fr\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Whisper-large-v3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">9.3|12.8|10.9|10.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">7.9|6.3|6.4|8.5\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">8.6|6.9|\u003Cstrong>5.9\u003C\u002Fstrong>|9.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">9.1|6.0|11.6|9.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>7.6\u003C\u002Fstrong>|\u003Cstrong>5.2\u003C\u002Fstrong>|7.3|\u003Cstrong>7.5\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"8\">Fleurs\u003Cbr>zh | en\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Whisper-large-v3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">7.7|4.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-ASR-Multilingual\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|\u003Cstrong>3.4\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">10.8|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.4|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.0|3.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">7.5|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.2|5.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>3.0\u003C\u002Fstrong>|4.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"6\">Wenetspeech\u003Cbr>test-net | test-meeting\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Seed-ASR-Chinese\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>4.7|5.7\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|16.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.9|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.8|7.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.3|8.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">5.9|7.7\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"4\">Voxpopuli-V1.0-en\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Llama-3-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.2\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Llama-3-70B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>5.7\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">5.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">S2TT\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"9\">CoVoST2\u003Cbr>en-de | de-en | en-zh | zh-en\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">SALMONN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">18.6|-|33.1|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">SpeechLLaMA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|27.1|-|12.3\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">BLSP\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">14.1|-|-|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|\u003Cstrong>48.2\u003C\u002Fstrong>|27.2\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|\u003Cstrong>39.9\u003C\u002Fstrong>|46.7|26.0\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">25.1|33.9|41.5|15.7\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">29.9|35.2|45.2|24.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">28.3|38.1|41.4|26.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>30.2\u003C\u002Fstrong>|37.7|41.4|\u003Cstrong>29.4\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">SER\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"6\">Meld\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">WavLM-large\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.542\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.524\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.557\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.553\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.558\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.570\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">VSC\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"6\">VocalSound\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">CLAP\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.495\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Pengi\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.604\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.929\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.939\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.936\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.939\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">Music\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"3\">GiantSteps Tempo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Llark-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.86\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.88\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.88\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"3\">MusicCaps\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">LP-MusicCaps\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.291|0.149|0.089|\u003Cstrong>0.061\u003C\u002Fstrong>|0.129|0.130\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.325|\u003Cstrong>0.163\u003C\u002Fstrong>|\u003Cstrong>0.093\u003C\u002Fstrong>|0.057|\u003Cstrong>0.132\u003C\u002Fstrong>|\u003Cstrong>0.229\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.328\u003C\u002Fstrong>|0.162|0.090|0.055|0.127|0.225\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">Audio Reasoning\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"4\">MMAU\u003Cbr>Sound | Music | Speech | Avg\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Gemini-Pro-V1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">56.75|49.40|58.55|54.90\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">54.95|50.98|42.04|49.20\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>70.27\u003C\u002Fstrong>|60.48|59.16|63.30\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">67.87|\u003Cstrong>69.16|59.76|65.60\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">Voice Chatting\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"9\">VoiceBench\u003Cbr>AlpacaEval | CommonEval | SD-QA | MMSU\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Ultravox-v0.4.1-LLaMA-3.1-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>4.55\u003C\u002Fstrong>|3.90|53.35|47.17\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MERaLiON\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.50|3.77|55.06|34.95\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.50|2.95|25.95|27.03\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Lyra-Base\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.85|3.50|38.25|49.74\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.42|\u003Cstrong>4.15\u003C\u002Fstrong>|50.72|54.78\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Baichuan-Omni-1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.50|4.05|43.40|57.25\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.74|3.43|35.71|35.72\u003C\u002Ftd>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.32|4.00|49.37|50.23\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.49|3.93|\u003Cstrong>55.71\u003C\u002Fstrong>|\u003Cstrong>61.32\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"9\">VoiceBench\u003Cbr>OpenBookQA | IFEval | AdvBench | Avg\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Ultravox-v0.4.1-LLaMA-3.1-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">65.27|\u003Cstrong>66.88\u003C\u002Fstrong>|98.46|71.45\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MERaLiON\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">27.23|62.93|94.81|62.91\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">28.35|25.71|87.69|46.25\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Lyra-Base\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">72.75|36.28|59.62|57.66\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">78.02|49.25|97.69|71.69\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Baichuan-Omni-1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">74.51|54.54|97.31|71.14\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">49.45|26.33|96.73|55.35\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">74.73|42.10|98.85|68.81\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>81.10\u003C\u002Fstrong>|52.87|\u003Cstrong>99.42\u003C\u002Fstrong>|\u003Cstrong>74.12\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Image -> Text\u003C\u002Fsummary>\n\n| Dataset                        | Qwen2.5-Omni-7B | Qwen2.5-Omni-3B | Other Best | Qwen2.5-VL-7B | GPT-4o-mini | \n|--------------------------------|--------------|------------|------------|---------------|-------------|\n| MMMU\u003Csub>val\u003C\u002Fsub>             | 59.2         | 53.1       | 53.9       | 58.6          | **60.0**    | \n| MMMU-Pro\u003Csub>overall\u003C\u002Fsub>     | 36.6         | 29.7       | -          | **38.3**      | 37.6        | \n| MathVista\u003Csub>testmini\u003C\u002Fsub>   | 67.9         | 59.4       | **71.9**   | 68.2          | 52.5        | \n| MathVision\u003Csub>full\u003C\u002Fsub>      | 25.0         | 20.8       | 23.1       | **25.1**      | -           | \n| MMBench-V1.1-EN\u003Csub>test\u003C\u002Fsub> | 81.8         | 77.8       | 80.5       | **82.6**      | 76.0        | \n| MMVet\u003Csub>turbo\u003C\u002Fsub>          | 66.8         | 62.1       | **67.5**   | 67.1          | 66.9        | \n| MMStar                         | **64.0**     | 55.7       | **64.0**   | 63.9          | 54.8        | \n| MME\u003Csub>sum\u003C\u002Fsub>              | 2340         | 2117       | **2372**   | 2347          | 2003        | \n| MuirBench                      | 59.2         | 48.0       | -          | **59.2**      | -           | \n| CRPE\u003Csub>relation\u003C\u002Fsub>        | **76.5**     | 73.7       | -          | 76.4          | -           | \n| RealWorldQA\u003Csub>avg\u003C\u002Fsub>      | 70.3         | 62.6       | **71.9**   | 68.5          | -           | \n| MME-RealWorld\u003Csub>en\u003C\u002Fsub>     | **61.6**     | 55.6       | -          | 57.4          | -           | \n| MM-MT-Bench                    | 6.0          | 5.0        | -          | **6.3**       | -           | \n| AI2D                           | 83.2         | 79.5       | **85.8**   | 83.9          | -           | \n| TextVQA\u003Csub>val\u003C\u002Fsub>          | 84.4         | 79.8       | 83.2       | **84.9**      | -           | \n| DocVQA\u003Csub>test\u003C\u002Fsub>          | 95.2         | 93.3       | 93.5       | **95.7**      | -           | \n| ChartQA\u003Csub>test Avg\u003C\u002Fsub>     | 85.3         | 82.8       | 84.9       | **87.3**      | -           | \n| OCRBench_V2\u003Csub>en\u003C\u002Fsub>       | **57.8**     | 51.7       | -          | 56.3          | -           | \n\n\n| Dataset                  | Qwen2.5-Omni-7B | Qwen2.5-Omni-3B | Qwen2.5-VL-7B | Grounding DINO | Gemini 1.5 Pro | \n|--------------------------|--------------|---------------|---------------|----------------|----------------|\n| Refcoco\u003Csub>val\u003C\u002Fsub>    | 90.5         | 88.7          | 90.0          | **90.6**       | 73.2           | \n| Refcoco\u003Csub>textA\u003C\u002Fsub>  | **93.5**     | 91.8          | 92.5          | 93.2           | 72.9           | \n| Refcoco\u003Csub>textB\u003C\u002Fsub>  | 86.6         | 84.0          | 85.4          | **88.2**       | 74.6           | \n| Refcoco+\u003Csub>val\u003C\u002Fsub>   | 85.4         | 81.1          | 84.2          | **88.2**       | 62.5           | \n| Refcoco+\u003Csub>textA\u003C\u002Fsub> | **91.0**     | 87.5          | 89.1          | 89.0           | 63.9           | \n| Refcoco+\u003Csub>textB\u003C\u002Fsub> | **79.3**     | 73.2          | 76.9          | 75.9           | 65.0           | \n| Refcocog+\u003Csub>val\u003C\u002Fsub>  | **87.4**     | 85.0          | 87.2          | 86.1           | 75.2           | \n| Refcocog+\u003Csub>test\u003C\u002Fsub> | **87.9**     | 85.1          | 87.2          | 87.0           | 76.2           | \n| ODinW                    | 42.4         | 39.2          | 37.3          | **55.0**       | 36.7           | \n| PointGrounding           | 66.5         | 46.2          | **67.3**      | -              | -              | \n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>Video(without audio) -> Text\u003C\u002Fsummary>\n\n| Dataset                     | Qwen2.5-Omni-7B | Qwen2.5-Omni-3B | Other Best | Qwen2.5-VL-7B | GPT-4o-mini | \n|-----------------------------|--------------|------------|------------|---------------|-------------|\n| Video-MME\u003Csub>w\u002Fo sub\u003C\u002Fsub> | 64.3         | 62.0       | 63.9       | **65.1**      | 64.8        | \n| Video-MME\u003Csub>w sub\u003C\u002Fsub>   | **72.4**     | 68.6       | 67.9       | 71.6          | -           | \n| MVBench                     | **70.3**     | 68.7       | 67.2       | 69.6          | -           | \n| EgoSchema\u003Csub>test\u003C\u002Fsub>    | **68.6**     | 61.4       | 63.2       | 65.0          | -           | \n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Zero-shot Speech Generation\u003C\u002Fsummary>\n\n\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-0lax\">Datasets\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">Model\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">Performance\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">Content Consistency\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"11\">SEED\u003Cbr>test-zh | test-en | test-hard \u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.11 | 2.24 | 7.58\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>1.00\u003C\u002Fstrong> | 1.94 | \u003Cstrong>6.42\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MaskGCT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">2.27 | 2.62 | 10.27\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">E2_TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.97 | 2.19 | -\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">F5-TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.56 | \u003Cstrong>1.83\u003C\u002Fstrong> | 8.67\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.45 | 2.57 | 6.83\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2-S\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.45 | 2.38 | 8.08\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.95 | 2.87 | 9.92\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.58 | 2.51 | 7.86\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.70 | 2.72 | 7.97\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.42 | 2.32 | 6.54\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">Speaker Similarity\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"11\">SEED\u003Cbr>test-zh | test-en | test-hard \u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.796 | 0.762 | 0.776\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.801\u003C\u002Fstrong> | \u003Cstrong>0.766\u003C\u002Fstrong> | \u003Cstrong>0.782\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MaskGCT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.774 | 0.714 | 0.748\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">E2_TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.730 | 0.710 | -\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">F5-TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.741 | 0.647 | 0.713\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.748 | 0.652 | 0.724\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2-S\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.753 | 0.654 | 0.732\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.741 | 0.635 | 0.748\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.744 | 0.635 | 0.746\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.752 | 0.632 | 0.747\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.754 | 0.641 | 0.752\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Text -> Text\u003C\u002Fsummary>\n\n| Dataset                           | Qwen2.5-Omni-7B | Qwen2.5-Omni-3B | Qwen2.5-7B | Qwen2.5-3B | Qwen2-7B | Llama3.1-8B | Gemma2-9B | \n|-----------------------------------|-----------|------------|------------|------------|------------|-------------|-----------|\n| MMLU-Pro                          | 47.0      | 40.4       | **56.3**   | 43.7       | 44.1       | 48.3        | 52.1      | \n| MMLU-redux                        | 71.0      | 60.9       | **75.4**   | 64.4       | 67.3       | 67.2        | 72.8      | \n| LiveBench\u003Csub>0831\u003C\u002Fsub>          | 29.6      | 22.3       | **35.9**   | 26.8       | 29.2       | 26.7        | 30.6      | \n| GPQA                              | 30.8      | 34.3       | **36.4**   | 30.3       | 34.3       | 32.8        | 32.8      | \n| MATH                              | 71.5      | 63.6       | **75.5**   | 65.9       | 52.9       | 51.9        | 44.3      | \n| GSM8K                             | 88.7      | 82.6       | **91.6**   | 86.7       | 85.7       | 84.5        | 76.7      | \n| HumanEval                         | 78.7      | 70.7       | **84.8**   |\t74.4       | 79.9       | 72.6        | 68.9      | \n| MBPP                              | 73.2      | 70.4       | **79.2**   | 72.7       | 67.2       | 69.6        | 74.9      | \n| MultiPL-E                         | 65.8      | 57.6       | **70.4**   | 60.2       | 59.1       | 50.7        | 53.4      | \n| LiveCodeBench\u003Csub>2305-2409\u003C\u002Fsub> | 24.6      | 16.5       | **28.7**   | 19.9       | 23.9       | 8.3         | 18.9      | \n\u003C\u002Fdetails>\n\n## Quickstart\n\nBelow, we provide simple examples to show how to use Qwen2.5-Omni with 🤖 ModelScope and 🤗 Transformers.\n\nThe codes of Qwen2.5-Omni has been in the latest Hugging face transformers and we advise you to install with command:\n```\npip install transformers==4.52.3\npip install accelerate\n```\nor you might encounter the following error:\n```\nKeyError: 'qwen2_5_omni'\n```\nand you can also use our [official docker image](#-docker) to start without building from source.\n\nWe offer a toolkit to help you handle various types of audio and visual input more conveniently, as if you were using an API. This includes base64, URLs, and interleaved audio, images and videos. You can install it using the following command and make sure your system has `ffmpeg` installed:\n\n```bash\n# It's highly recommended to use `[decord]` feature for faster video loading.\npip install qwen-omni-utils[decord] -U\n```\n\nIf you are not using Linux, you might not be able to install `decord` from PyPI. In that case, you can use `pip install qwen-omni-utils -U` which will fall back to using torchvision for video processing. However, you can still [install decord from source](https:\u002F\u002Fgithub.com\u002Fdmlc\u002Fdecord?tab=readme-ov-file#install-from-source) to get decord used when loading video.\n\nWe are preparing [cookbooks](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Ftree\u002Fmain\u002Fcookbooks) for many capabilities, including audio understanding, voice chatting, screen recording interaction, video information extracting, omni chatting and more. Welcome to learn more!\n\n### 🤗  Transformers Usage\n\nHere we show a code snippet to show you how to use the chat model with `transformers` and `qwen_omni_utils`:\n\n```python\nimport soundfile as sf\n\nfrom transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor\nfrom qwen_omni_utils import process_mm_info\n\n# default: Load the model on the available device(s)\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\"Qwen\u002FQwen2.5-Omni-7B\", torch_dtype=\"auto\", device_map=\"auto\")\n\n# We recommend enabling flash_attention_2 for better acceleration and memory saving.\n# model = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n#     \"Qwen\u002FQwen2.5-Omni-7B\",\n#     torch_dtype=\"auto\",\n#     device_map=\"auto\",\n#     attn_implementation=\"flash_attention_2\",\n# )\n\nprocessor = Qwen2_5OmniProcessor.from_pretrained(\"Qwen\u002FQwen2.5-Omni-7B\")\n\nconversation = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video\", \"video\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fdraw.mp4\"},\n        ],\n    },\n]\n\n# set use audio in video\nUSE_AUDIO_IN_VIDEO = True\n\n# Preparation for inference\ntext = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", padding=True, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# Inference: Generation of the output text and audio\ntext_ids, audio = model.generate(**inputs, use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ntext = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)\nprint(text)\nsf.write(\n    \"output.wav\",\n    audio.reshape(-1).detach().cpu().numpy(),\n    samplerate=24000,\n)\n```\n\n#### Minimum GPU memory requirements\n\n| Model | Precision | 15(s) Video | 30(s) Video | 60(s) Video |\n|--------------|-----------| ------------- | ------------- | ------------------ |\n| Qwen-Omni-3B | FP32      | 89.10 GB      | Not Recommend | Not Recommend      |\n| Qwen-Omni-3B | BF16      | 18.38 GB      | 22.43 GB      | 28.22 GB           |\n| Qwen-Omni-7B | FP32      | 93.56 GB      | Not Recommend | Not Recommend      |\n| Qwen-Omni-7B | BF16      | 31.11 GB      | 41.85 GB      | 60.19 GB           |\n\nNote: The table above presents the theoretical minimum memory requirements for inference with `transformers` and `BF16` is test with `attn_implementation=\"flash_attention_2\"`. However, in practice, the actual memory usage is typically at least 1.2 times higher. For more information, see the linked resource [here](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Faccelerate\u002Fmain\u002Fen\u002Fusage_guides\u002Fmodel_size_estimator). We are currently planning to develop a version that can perform inference with lower resource consumption requirements so that Qwen2.5-Omni can run on most platforms. Stay tuned!\n\n\u003Cdetails>\n\u003Csummary>Video URL resource usage\u003C\u002Fsummary>\n\nVideo URL compatibility largely depends on the third-party library version. The details are in the table below. Change the backend by `FORCE_QWENVL_VIDEO_READER=torchvision` or `FORCE_QWENVL_VIDEO_READER=decord` if you prefer not to use the default one.\n\n| Backend     | HTTP | HTTPS |\n|-------------|------|-------|\n| torchvision >= 0.19.0 | ✅  | ✅   |\n| torchvision \u003C 0.19.0  | ❌  | ❌   |\n| decord      | ✅  | ❌   |\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Batch inference\u003C\u002Fsummary>\n\nThe model can batch inputs composed of mixed samples of various types such as text, images, audio and videos as input when `return_audio=False` is set. Here is an example.\n\n```python\n# Sample messages for batch inference\n\n# Conversation with video only\nconversation1 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n        ]\n    }\n]\n\n# Conversation with audio only\nconversation2 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n        ]\n    }\n]\n\n# Conversation with pure text\nconversation3 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": \"who are you?\"\n    }\n]\n\n\n# Conversation with mixed media\nconversation4 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"\u002Fpath\u002Fto\u002Fimage.jpg\"},\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n            {\"type\": \"text\", \"text\": \"What are the elements can you see and hear in these medias?\"},\n        ],\n    }\n]\n\n# Combine messages for batch processing\nconversations = [conversation1, conversation2, conversation3, conversation4]\n\n# set use audio in video\nUSE_AUDIO_IN_VIDEO = True\n\n# Preparation for batch inference\ntext = processor.apply_chat_template(conversations, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversations, use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", padding=True, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# Batch Inference\ntext_ids = model.generate(**inputs, use_audio_in_video=USE_AUDIO_IN_VIDEO, return_audio=False)\ntext = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)\nprint(text)\n```\n\u003C\u002Fdetails>\n\n\n### 🤖 ModelScope Usage\nWe strongly advise users especially those in mainland China to use ModelScope, `snapshot_download` can help you solve issues concerning downloading checkpoints.\n\n### GPTQ-Int4 and AWQ Usage\n\nTo improve the Qwen2.5-Omni-7B's operability on devices with constrained GPU memory, we implemented 4-bit quantization of the Thinker's weights using GPTQ and AWQ, effectively reducing GPU VRAM usage. Ohter key optimizations include:\n* Enhanced the inference pipeline to load model weights on-demand for each module and offload them to CPU memory once inference is complete, preventing peak VRAM usage from becoming excessive.\n* Converted the code2wav module to support streaming inference, thereby avoiding the pre-allocation of excessive GPU memory.\n* Adjusted the ODE solver from a second-order (RK4) to a first-order (Euler) method to further decrease computational overhead.\n\nThese improvements aim to ensure efficient performance of Qwen2.5-Omni across a range of hardware configurations, particularly those with lower GPU memory availability (RTX3080, 4080, 5070, etc). Currently, the relevant models and usage methods can be obtained from Hugging Face ([GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-AWQ)) and ModelScope ([GPTQ-Int4](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-AWQ)). As below, we provide simple example to show how to use Qwen2.5-Omni-7B-GPTQ-Int4 with `gptqmodel` as follows:\n```\npip install transformers==4.52.3\npip install accelerate\npip install gptqmodel==2.0.0\npip install numpy==2.0.0\n\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni.git\n\ncd Qwen2.5-Omni\u002Flow-VRAM-mode\u002F\n\nCUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_gptq.py\n```\n\nTo use Qwen2.5-Omni-7B-AWQ with `autoawq` please run:\n```\npip install transformers==4.52.3\npip install accelerate\npip install autoawq==0.2.9\n\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni.git\n\ncd Qwen2.5-Omni\u002Flow-VRAM-mode\u002F\n\nCUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_awq.py\n```\n\nThe following two tables present a performance comparison and GPU memory consumption between Qwen2.5-Omni-7B-GPTQ-Int4\u002FQwen2.5-Omni-7B-AWQ and Qwen2.5-Omni-7B on specific evaluation benchmarks. The data demonstrates that the GPTQ-Int4\u002FAWQ model maintains comparable performance while reducing GPU memory requirements by over 50%+, enabling a broader range of devices to run and experience the high-performance Qwen2.5-Omni-7B model. Notably, the GPTQ-Int4\u002FAWQ variant exhibits slightly slower inference speeds compared to the native Qwen2.5-Omni-7B model due to quantization techniques and CPU offload mechanisms.\n\n| Evaluation Set | Task | Metrics | Qwen2.5-Omni-7B | Qwen2.5-Omni-7B-GPTQ-Int4 | Qwen2.5-Omni-7B-AWQ |\n|--------------|-----------| ------------- | ------------- | ------------------ |  ------------------ |\n| LibriSpeech test-other   | ASR                   | WER ⬇️      | 3.4   | 3.71  | 3.91  |\n| WenetSpeech test-net     | ASR                   | WER ⬇️      | 5.9   | 6.62  | 6.31  |\n| Seed-TTS test-hard       | TTS (Speaker: Chelsie)| WER ⬇️      | 8.7   | 10.3  | 8.88  |\n| MMLU-Pro                 | Text -> Text          | Accuracy ⬆️ | 47.0  | 43.76 | 45.66 |\n| OmniBench                | Speech -> Text        | Accuracy ⬆️ | 56.13 | 53.59 | 54.64 |\n| VideoMME                 | Multimodality -> Text | Accuracy ⬆️ | 72.4  | 68.0  | 72.0  |\n\n|Model | Precision | 15(s) Video | 30(s) Video | 60(s) Video |\n|--------------|-----------| ------------- | ------------- | ------------------ |\n| Qwen-Omni-7B | FP32      | 93.56 GB      | Not Recommend | Not Recommend      |\n| Qwen-Omni-7B | BF16      | 31.11 GB      | 41.85 GB      | 60.19 GB           |\n| Qwen-Omni-7B | GPTQ-Int4 | 11.64 GB      | 17.43 GB      | 29.51 GB           |\n| Qwen-Omni-7B | AWQ       | 11.77 GB      | 17.84 GB      | 30.31 GB           |\n\n### Usage Tips\n\n#### Prompt for audio output\nIf users need audio output, the system prompt must be set as \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\", otherwise the audio output may not work as expected.\n```\n{\n    \"role\": \"system\",\n    \"content\": [\n          {\"type\": \"text\", \"text\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\"}\n    ]\n}\n```\n\n#### Use audio in video\nIn the process of multimodal interaction, the videos provided by users are often accompanied by audio (such as questions about the content in the video, or sounds generated by certain events in the video). This information is conducive to the model providing a better interactive experience. So we provide the following options for users to decide whether to use audio in video.\n```python\n# first place, in data preprocessing\naudios, images, videos = process_mm_info(conversations, use_audio_in_video=True)\n```\n```python\n# second place, in model processor\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", \n                   padding=True, use_audio_in_video=True)\n```\n```python\n#  third place, in model inference\ntext_ids, audio = model.generate(**inputs, use_audio_in_video=True)\n```\nIt is worth noting that during a multi-round conversation, the `use_audio_in_video` parameter in these places must be set to the same, otherwise unexpected results will occur.\n\n#### Use audio output or not\n\nThe model supports both text and audio outputs, if users do not need audio outputs, they can call `model.disable_talker()` after init the model. This option will save about `2GB` of GPU memory but the `return_audio` option for `generate` function will only allow to be set at `False`.\n```python\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen2.5-Omni-7B\",\n    torch_dtype=\"auto\",\n    device_map=\"auto\"\n)\nmodel.disable_talker()\n```\n\nIn order to obtain a flexible experience, we recommend that users can decide whether to return audio when `generate` function is called. If `return_audio` is set to `False`, the model will only return text outputs to get text responses faster.\n\n```python\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen2.5-Omni-7B\",\n    torch_dtype=\"auto\",\n    device_map=\"auto\"\n)\n...\ntext_ids = model.generate(**inputs, return_audio=False)\n```\n\n#### Change voice type of output audio\nQwen2.5-Omni supports the ability to change the voice of the output audio. The `\"Qwen\u002FQwen2.5-Omni-7B\"` checkpoint supports two voice types as follows:\n\n| Voice Type | Gender | Description |\n|------------|--------|-------------|\n| Chelsie    | Female | A honeyed, velvety voice that carries a gentle warmth and luminous clarity.|\n| Ethan      | Male   | A bright, upbeat voice with infectious energy and a warm, approachable vibe.|\n\nUsers can use the `speaker` parameter of `generate` function to specify the voice type. By defalut, if `speaker` is not specified, the default voice type is `Chelsie`.\n\n```python\ntext_ids, audio = model.generate(**inputs, speaker=\"Chelsie\")\n```\n\n```python\ntext_ids, audio = model.generate(**inputs, speaker=\"Ethan\")\n```\n\n#### Flash-Attention 2 to speed up generation\n\nFirst, make sure to install the latest version of Flash Attention 2:\n\n```bash\npip install -U flash-attn --no-build-isolation\n```\n\nAlso, you should have hardware that is compatible with FlashAttention 2. Read more about it in the official documentation of the [flash attention repository](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention). FlashAttention-2 can only be used when a model is loaded in `torch.float16` or `torch.bfloat16`.\n\nTo load and run a model using FlashAttention-2, add `attn_implementation=\"flash_attention_2\"` when loading the model:\n\n```python\nfrom transformers import Qwen2_5OmniForConditionalGeneration\n\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen2.5-Omni-7B\",\n    device_map=\"auto\",\n    torch_dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n```\n\n\n### Cookbooks for More Usage Cases \n\n| Cookbook | Description | Open |\n| -------- | ----------- | ---- |\n| [Universal Audio Understanding](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Funiversal_audio_understanding.ipynb) | Speech recongnition, speech-to-text translation and audio analysis. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Funiversal_audio_understanding.ipynb) |\n | [Voice Chatting](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvoice_chatting.ipynb) | Chatting with Qwen2.5-Omni by voice input and output. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvoice_chatting.ipynb) |\n | [Screen Recording Interaction](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fscreen_recording_interaction.ipynb) | Get the information and content you want to know by asking questions in real time on the recording screen. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fscreen_recording_interaction.ipynb) |\n | [Video Information Extracting](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_information_extracting.ipynb) | Obtaining information from the video stream. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_information_extracting.ipynb) |\n | [Omni Chatting for Music](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_music.ipynb) | Chat with Qwen2.5-Omni about music content in a audio and video stream. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_music.ipynb) |\n | [Omni Chatting for Math](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_math.ipynb) | Chat with Qwen2.5-Omni about math content in a audio and video stream. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_math.ipynb) |\n | [Multi Round Omni Chatting](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmulti_round_omni_chatting.ipynb) | Conducted multiple rounds of audio and video dialogues with Qwen2.5-Omni to provide the most comprehensive ability demonstration. | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmulti_round_omni_chatting.ipynb) |\n\n### API Inference\n\nTo explore Qwen2.5-Omni, we encourage you to test our cutting-edge API service for a faster and efficient experience.\n\n#### Installation\n```bash\npip install openai\n```\n\n#### Examples\nYou can use the OpenAI API service to interact with Qwen2.5-Omni like below. And for more usage, please refer to the tutorial at [aliyun](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fuser-guide\u002Fqwen-omni).\n```python\nimport base64\nimport numpy as np\nimport soundfile as sf\n\nfrom openai import OpenAI\n\nclient = OpenAI(\n    api_key=\"your_api_key\",\n    base_url=\"https:\u002F\u002Fdashscope.aliyuncs.com\u002Fcompatible-mode\u002Fv1\",\n)\n\nmessages = [\n    {\n        \"role\": \"system\",\n        \"content\": \"You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.\",\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video_url\", \"video_url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fdraw.mp4\"},\n        ],\n    },\n]\n\n# Qwen-Omni only supports stream mode\ncompletion = client.chat.completions.create(\n    model=\"qwen-omni-turbo\",\n    messages=messages,\n    modalities=[\"text\", \"audio\"],\n    audio={\n        \"voice\": \"Cherry\", # Cherry, Ethan, Serena, Chelsie is available\n        \"format\": \"wav\"\n    },\n    stream=True,\n    stream_options={\"include_usage\": True}\n)\n\ntext = []\naudio_string = \"\"\nfor chunk in completion:\n    if chunk.choices:\n        if hasattr(chunk.choices[0].delta, \"audio\"):\n            try:\n                audio_string += chunk.choices[0].delta.audio[\"data\"]\n            except Exception as e:\n                text.append(chunk.choices[0].delta.audio[\"transcript\"])\n    else:\n        print(chunk.usage)\n\nprint(\"\".join(text))\nwav_bytes = base64.b64decode(audio_string)\nwav_array = np.frombuffer(wav_bytes, dtype=np.int16)\nsf.write(\"output.wav\", wav_array, samplerate=24000)\n```\n### Customization Settings\n\nSince Qwen2.5-Omni does not support prompt settings when using [audio output](#prompt-for-audio-output) (including local deployment and API inference), we suggest that if you need to control the output of the model or modify the personality settings of the model, you can try adding similar content to the conversation template as follows:\n\n```python\nconversation = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are a shopping guide, now responsible for introducing various products.\"},\n        ],\n    },\n    {\n        \"role\": \"assistant\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"Sure, I got it.\"},\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"Who are you?\"},\n        ],\n    },\n]\n```\n\n## Chat with Qwen2.5-Omni\n\n### Online Demo\nWithout deployment, you can experience online web demo directly by visiting our [Hugginface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen2.5-Omni-7B-Demo) and [Modelscope Studio](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen2.5-Omni-Demo).\n\n### Launch Local Web UI Demo\n\nIn this section, we provide instructions for users to build a web-based user interface (UI) demo. This UI demo allows users to interact with a predefined model or application through a web browser. Follow the steps below to get started or you can launch the web demo directly from our [official docker image](#-docker).\n\n#### Installation\n\nBefore you begin, ensure that you have the required dependencies installed on your system. You can install them by running the following command:\n\n```bash\npip install -r requirements_web_demo.txt\n```\n\n#### Running the Demo with FlashAttention-2\n\nOnce the required packages are installed, you can launch the web demo using the following command. This command will start a web server and provide you with a link to access the UI in your web browser.\n\n**Recommended**: For enhanced performance and efficiency, especially in multi-image and video processing scenarios, we strongly recommend using [FlashAttention-2](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention). FlashAttention-2 provides significant improvements in memory usage and speed, making it ideal for handling large-scale models and data processing.\n\nTo enable FlashAttention-2, use the following command:\n\n```bash\n# default for Qwen2.5-Omni-7B\npython web_demo.py --flash-attn2\n```\n```bash\n# for Qwen2.5-Omni-3B\npython web_demo.py --flash-attn2 -c Qwen\u002FQwen2.5-Omni-3B\n```\n\nThis will load the model with FlashAttention-2 enabled.\n\n**Default Usage**: If you prefer to run the demo without FlashAttention-2 or if you do not specify the `--flash-attn2` option, the demo will load the model using the standard attention implementation:\n\n```bash\n# default for Qwen2.5-Omni-7B\npython web_demo.py\n```\n```bash\n# for Qwen2.5-Omni-3B\npython web_demo.py -c Qwen\u002FQwen2.5-Omni-3B\n```\n\nAfter running the command, you’ll see a link generated in the terminal similar to this:\n\n```\nRunning on local: http:\u002F\u002F127.0.0.1:7860\u002F\n```\n\nCopy this link and paste it into your browser to access the web UI, where you can interact with the model by inputting text, uploading audios\u002Fimages\u002Fvideos, changing voice type or using any other provided functionalities.\n\n\n### Real-Time Interaction\nThe streaming Real-time interaction with Qwen2.5-Omni is available now, please visit [Qwen Chat](https:\u002F\u002Fchat.qwen.ai\u002F) and select the voice\u002Fvideo calls in the chat box to experience. \n\n\n## Deployment with vLLM\n\nWe recommend using vLLM for fast Qwen2.5-Omni deployment and inference. You need to install from our provided [source](https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm\u002Ftree\u002Fqwen2_omni_public) to get vLLM support for Qwen2.5-Omni or use our [official docker image](#-docker). You can also check [vLLM official documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fserving\u002Fmultimodal_inputs.html) for more details about online serving and offline inference.\n\n### Installation\n```bash\ngit clone -b qwen2_omni_public https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm.git\ncd vllm\ngit checkout de8f43fbe9428b14d31ac5ec45d065cd3e5c3ee0\npip install setuptools_scm torchdiffeq resampy x_transformers qwen-omni-utils accelerate\npip install -r requirements\u002Fcuda.txt\npip install --upgrade setuptools wheel\npip install .\npip install transformers==4.52.3\n```\n\n### Inference Local\n\nYou can use vLLM to inference Qwen2.5-Omni locally, we provide example in [vLLM repo](https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm\u002Fblob\u002Fqwen2_omni_public\u002Fexamples\u002Foffline_inference\u002Fqwen2_5_omni\u002Fend2end.py) which can generate audio output:\n\n```bash\n# git clone -b qwen2_omni_public https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm.git\n# cd vllm\n# git checkout de8f43fbe9428b14d31ac5ec45d065cd3e5c3ee0\n# cd examples\u002Foffline_inference\u002Fqwen2_5_omni\u002F\n\n# only text output for single GPU\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --thinker-only\n\n# only text output for multi GPUs (example in 4 GPUs)\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --thinker-only --thinker-devices [0,1,2,3] --thinker-gpu-memory-utilization 0.9 \n\n# audio output for single GPU\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --do-wave --voice-type Chelsie --warmup-voice-type Chelsie --output-dir output_wav\n\n# audio output for multi GPUs (example in 4 GPUs)\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --do-wave --voice-type Chelsie --warmup-voice-type Chelsie --thinker-devices [0,1] --talker-devices [2] --code2wav-devices [3] --thinker-gpu-memory-utilization 0.9 --talker-gpu-memory-utilization 0.9 --output-dir output_wav\n```\n\n### vLLM Serve usage\nYou can also use vLLM serve through `pip install vllm>=0.8.5.post1`, and vLLM serve for Qwen2.5-Omni only supports thinker now, meaning only text output is supported. You can start vLLM servev through the following command:\n```bash\n# for single GPU\nvllm serve \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B\u002F --port 8000 --host 127.0.0.1 --dtype bfloat16\n# for multi GPUs (example in 4 GPUs)\nvllm serve \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B\u002F --port 8000 --host 127.0.0.1 --dtype bfloat16 -tp 4\n```\nThen you can use the chat API as below (via curl for example):\n```bash\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n    -H \"Content-Type: application\u002Fjson\" \\\n    -d '{\n    \"messages\": [\n    {\"role\": \"system\", \"content\": \"You are a helpful assistant.\"},\n    {\"role\": \"user\", \"content\": [\n        {\"type\": \"image_url\", \"image_url\": {\"url\": \"https:\u002F\u002Fmodelscope.oss-cn-beijing.aliyuncs.com\u002Fresource\u002Fqwen.png\"}},\n        {\"type\": \"audio_url\", \"audio_url\": {\"url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fcough.wav\"}},\n        {\"type\": \"text\", \"text\": \"What is the text in the illustrate ans what it the sound in the audio?\"}\n    ]}\n    ]\n    }'\n```\n\n## Deployment with MNN\n\nQwen2.5-Omni is now supported in MNN, enabling deployment on edge devices. The MNN models for Qwen2.5-Omni are available for download through Hugging Face ([7B](https:\u002F\u002Fhuggingface.co\u002Ftaobao-mnn\u002FQwen2.5-Omni-7B-MNN)|[3B](https:\u002F\u002Fhuggingface.co\u002Ftaobao-mnn\u002FQwen2.5-Omni-3B-MNN)) and ModelScope ([7B](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FMNN\u002FQwen2.5-Omni-7B-MNN)|[3B](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FMNN\u002FQwen2.5-Omni-3B-MNN)), along with usage instructions.  For detailed information, you can visit [MNN](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN) to learn about it.\n\nThe table below shows memory consumption and inference speed benchmarks for the Qwen2.5-Omni MNN implementation across various mobile SoC platforms.\n\n| Platform | Snapdragon 8 Gen 1 | Snapdragon 8 Elite | Snapdragon 8 Gen 1 | Snapdragon 8 Elite  |\n|--------------|-----------| ------------- | ------------- | ------------------ |\n| Model Size   | 7B | 7B | 3B | 3B |\n| Memory Peak  | 5.8G | 5.8G | 3.6G | 3.6G |\n| Thinker Prefill Speed | 25.58 tok\u002Fs | 46.32 tok\u002Fs | 54.31 tok\u002Fs | 55.16 tok\u002Fs | \n| Thinker Decode Speed  |  8.35 tok\u002Fs | 11.52 tok\u002Fs | 15.84 tok\u002Fs | 23.31 tok\u002Fs | \n| Talker Prefill Speed  | 17.21 tok\u002Fs | 97.77 tok\u002Fs | 34.58 tok\u002Fs | 217.82 tok\u002Fs| \n| Talker Decode Speed   | 18.75 tok\u002Fs | 38.65 tok\u002Fs | 51.90 tok\u002Fs | 62.34 tok\u002Fs | \n| Code2Wav Speed         |20.83 tok\u002Fs | 27.36 tok\u002Fs | 28.45 tok\u002Fs | 27.36 tok\u002Fs | \n\n\n## 🐳 Docker\n\nTo simplify the deploy process, we provide docker images with pre-build environments: [qwenllm\u002Fqwen-omni](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fqwenllm\u002Fqwen-omni). You only need to install the driver and download model files to launch demos.\n\n```bash\ndocker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm\u002Fqwen-omni:2.5-cu121 bash\n```\n\nAnd you can also launch the web demo by:\n```bash\nbash docker\u002Fdocker_web_demo.sh --checkpoint \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B\n```\nTo enable FlashAttention-2, use the following command:\n```bash\nbash docker\u002Fdocker_web_demo.sh --checkpoint \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B --flash-attn2\n```\n\n## Citation\n\nIf you find our paper and code useful in your research, please consider giving a star :star: and citation :pencil: :)\n\n\n\n```BibTeX\n\n@article{Qwen2.5-Omni,\n  title={Qwen2.5-Omni Technical Report},\n  author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},\n  journal={arXiv preprint arXiv:2503.20215},\n  year={2025}\n}\n```\n\n\u003Cbr>\n","# Qwen2.5-Omni\n\u003Cp align=\"left\">\n        \u003Ca href=\"README_CN.md\">中文\u003C\u002Fa> &nbsp｜ &nbsp English&nbsp&nbsp\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002FOmni_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\n        💜 \u003Ca href=\"https:\u002F\u002Fchat.qwenlm.ai\u002F\">\u003Cb>Qwen Chat\u003C\u002Fb>\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-omni-67de1e5f0f9464dc6314b36e\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FQwen25-Omni-a2505ce0d5514e\">ModelScope\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2.5-omni\u002F\">Blog\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📚 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Ftree\u002Fmain\u002Fcookbooks\">Cookbooks\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.20215\">Paper\u003C\u002Fa>&nbsp&nbsp\n\u003Cbr>\n🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen2.5-Omni-7B-Demo \">Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Fblob\u002Fmain\u002Fassets\u002Fwechat.png\">WeChat (微信)\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FCV4E9rpNSD\">Discord\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fuser-guide\u002Fqwen-omni\">API\u003C\u002Fa>\n\u003C!-- &nbsp&nbsp | &nbsp&nbsp🖥️ \u003Ca href=\"https:\u002F\u002Fgallery.pai-ml.com\u002F#\u002Fpreview\u002FdeepLearning\u002Fcv\u002Fqwen2.5-vl\">PAI-DSW\u003C\u002Fa> -->\n\u003C\u002Fp>\n\n我们发布了**Qwen2.5-Omni**，这是通义系列中的全新旗舰级端到端多模态模型。它专为全面的多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入，并通过文本生成和自然语音合成提供实时流式响应。请点击下方视频了解更多内容 😃\n\n\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FyKcANdkRuNI\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fvideo_cover.png\" alt=\"Open Video\"\u002F>\n\u003C\u002Fa>\n\n\n## 新闻\n* 2025年6月12日：Qwen2.5-Omni-7B在口语理解和推理基准测试[MMSU](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.04779)中位列开源模型榜首。\n* 2025年6月9日：祝贺我们的开源模型Qwen2.5-Omni-7B在[MMAU](https:\u002F\u002Fsakshi113.github.io\u002Fmmau_homepage\u002F#leaderboard)排行榜上排名第一，并在音频理解和推理评估的[MMAR](https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FMMAR)开源模型榜单中也位居第一！\n* 2025年5月16日：我们发布了4位量化版的Qwen2.5-Omni-7B（GPTQ-Int4\u002FAWQ）模型，在多模态评测中保持与原版相当的性能，同时将GPU显存占用降低了50%以上。详情请参阅[GPTQ-Int4和AWQ使用指南](#gptq-int4-and-awq-usage)，相关模型可在Hugging Face（[GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-AWQ))和ModelScope（[GPTQ-Int4](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-AWQ))获取。\n* 2025年5月13日：[MNN聊天应用](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN\u002Fblob\u002Fmaster\u002Fapps\u002FAndroid\u002FMnnLlmChat\u002FREADME.md#releases)现已支持Qwen2.5-Omni，让我们在边缘设备上体验Qwen2.5-Omni吧！有关内存消耗和推理速度的基准测试，请参阅[使用MNN部署](#deployment-with-mnn)部分。\n* 2025年4月30日：令人振奋！我们发布了Qwen2.5-Omni-3B，以使更多平台能够运行Qwen2.5-Omni。该模型可从[Hugging Face](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-3B)下载。此模型的[性能](#performance)已更新，请参阅[最低GPU内存要求](#minimum-gpu-memory-requirements)了解资源消耗情况。为了获得最佳体验，[transformers](#--transformers-usage)和[vllm](#deployment-with-vllm)代码均已更新，您可以再次拉取[官方docker镜像](#-docker)以获取最新版本。\n* 2025年4月11日：我们发布了新版本的vllm，现已支持音频输出！请从源码或我们的docker镜像中体验。\n* 2025年4月2日：⭐️⭐️⭐️ Qwen2.5-Omni荣登Hugging Face趋势榜第一名！\n* 2025年3月29日：⭐️⭐️⭐️ Qwen2.5-Omni荣登Hugging Face趋势榜第二名！\n* 2025年3月26日：现在您可以在[Qwen Chat](https:\u002F\u002Fchat.qwen.ai\u002F)上与Qwen2.5-Omni进行实时互动。让我们立即开启这段精彩的旅程吧！\n* 2025年3月26日：我们发布了[Qwen2.5-Omni](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen25-omni-67de1e5f0f9464dc6314b36e)。更多详情请查看我们的[博客](https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2.5-omni\u002F)！\n\n\n## 目录 \u003C!-- omit in toc -->\n\n- [概述](#overview)\n  - [简介](#introduction)\n  - [关键特性](#key-features)\n  - [模型架构](#model-architecture)\n  - [性能](#performance)\n- [快速入门](#quickstart)\n  - [Transformers使用指南](#--transformers-usage)\n  - [ModelScope使用指南](#-modelscope-usage)\n  - [GPTQ-Int4和AWQ使用指南](#gptq-int4-and-awq-usage)\n  - [使用技巧](#usage-tips)\n  - [更多使用场景的食谱](#cookbooks-for-more-usage-cases)\n  - [API推理](#api-inference)\n  - [自定义设置](#customization-settings)\n- [与Qwen2.5-Omni聊天](#chat-with-qwen25-omni)\n  - [在线演示](#online-demo)\n  - [启动本地Web UI演示](#launch-local-web-ui-demo)\n  - [实时互动](#real-time-interaction)\n- [使用vLLM部署](#deployment-with-vllm)\n- [使用MNN部署](#deployment-with-mnn)\n- [Docker](#-docker)\n\u003C!-- - [引用](#citation) -->\n\n## 概述 \n### 简介\nQwen2.5-Omni是一款端到端多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fqwen_omni.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### 核心特性\n\n* **全能且新颖的架构**：我们提出了Thinker-Talker架构，这是一种端到端的多模态模型，旨在感知文本、图像、音频和视频等多种模态，并以流式方式同时生成文本和自然语音响应。我们还提出了一种名为TMRoPE（时间对齐的多模态RoPE）的新型位置嵌入方法，用于同步视频输入与音频的时间戳。\n\n* **实时语音与视频聊天**：该架构专为全实时交互设计，支持分块输入和即时输出。\n\n* **自然且稳健的语音生成**：超越了许多现有的流式及非流式替代方案，在语音生成方面展现出更优异的稳健性和自然度。\n\n* **跨模态的强大性能**：在与同等规模的单模态模型进行基准测试时，Qwen2.5-Omni在所有模态上均表现出色。它在音频能力方面优于同规模的Qwen2-Audio，并且与Qwen2.5-VL-7B的表现相当。\n\n* **出色的端到端语音指令遵循能力**：Qwen2.5-Omni在端到端语音指令遵循方面的表现可与文本输入的效果相媲美，这一点从MMLU和GSM8K等基准测试中可见一斑。\n\n### 模型架构\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Foverview.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### 性能表现\n\n我们对Qwen2.5-Omni进行了全面评估，结果显示，与同等规模的单模态模型以及闭源模型（如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro）相比，Qwen2.5-Omni在所有模态上均表现出强劲性能。在需要整合多种模态的任务中，例如OmniBench，Qwen2.5-Omni达到了最先进的水平。此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然度）等领域同样表现出色。\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fbar.png\"\u002F>\n\u003Cp>\n\n\u003Cdetails>\n\u003Csummary>多模态 -> 文本\u003C\u002Fsummary>\n\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-0lax\">数据集\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">模型\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">性能\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"10\">OmniBench\u003Cbr>语音 | 声音事件 | 音乐 | 平均\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Gemini-1.5-Pro\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">42.67%|42.26%|46.23%|42.91%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MIO-Instruct\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">36.96%|33.58%|11.32%|33.80%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">AnyGPT (7B)\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">17.77%|20.75%|13.21%|18.04%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">video-SALMONN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">34.11%|31.70%|\u003Cstrong>56.60%\u003C\u002Fstrong>|35.64%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">UnifiedIO2-xlarge\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">39.56%|36.98%|29.25%|38.00%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">UnifiedIO2-xxlarge\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">34.24%|36.98%|24.53%|33.98%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|40.50%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Baichuan-Omni-1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|42.90%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">52.14%|52.08%|52.83%|52.19%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>55.25%\u003C\u002Fstrong>|\u003Cstrong>60.00%\u003C\u002Fstrong>|52.83%|\u003Cstrong>56.13%\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>音频 -> 文本\u003C\u002Fsummary>\n\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-0lax\">数据集\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">模型\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">性能\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">自动语音识别（ASR）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"12\">Librispeech\u003Cbr>dev-clean | dev other | test-clean | test-other\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">SALMONN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|2.1|4.9\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">SpeechVerse\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|2.1|4.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Whisper-large-v3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|1.8|3.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Llama-3-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|3.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Llama-3-70B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|-|3.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-ASR-Multilingual\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|\u003Cstrong>1.6\u003C\u002Fstrong>|\u003Cstrong>2.8\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|1.7|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|1.7|3.9\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.8|4.0|2.0|4.2\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>1.3\u003C\u002Fstrong>|\u003Cstrong>3.4\u003C\u002Fstrong>|\u003Cstrong>1.6\u003C\u002Fstrong>|3.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">2.0|4.1|2.2|4.5\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.6|3.5|1.8|3.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"5\">Common Voice 15\u003Cbr>en | zh | yue | fr\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Whisper-large-v3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">9.3|12.8|10.9|10.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">7.9|6.3|6.4|8.5\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">8.6|6.9|\u003Cstrong>5.9\u003C\u002Fstrong>|9.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">9.1|6.0|11.6|9.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>7.6\u003C\u002Fstrong>|\u003Cstrong>5.2\u003C\u002Fstrong>|7.3|\u003Cstrong>7.5\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"8\">Fleurs\u003Cbr>zh | en\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Whisper-large-v3\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">7.7|4.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-ASR-Multilingual\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|\u003Cstrong>3.4\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">10.8|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.4|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.0|3.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">7.5|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.2|5.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>3.0\u003C\u002Fstrong>|4.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"6\">Wenetspeech\u003Cbr>test-net | test-meeting\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Seed-ASR-Chinese\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>4.7|5.7\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|16.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.9|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.8|7.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.3|8.1\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">5.9|7.7\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"4\">Voxpopuli-V1.0-en\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Llama-3-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.2\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Llama-3-70B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>5.7\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">6.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">5.8\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">语音到文本转换（S2TT）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"9\">CoVoST2\u003Cbr>en-de | de-en | en-zh | zh-en\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">SALMONN\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">18.6|-|33.1|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">SpeechLLaMA\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|27.1|-|12.3\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">BLSP\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">14.1|-|-|-\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|-|\u003Cstrong>48.2\u003C\u002Fstrong>|27.2\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MinMo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">-|\u003Cstrong>39.9\u003C\u002Fstrong>|46.7|26.0\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">25.1|33.9|41.5|15.7\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">29.9|35.2|45.2|24.4\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">28.3|38.1|41.4|26.6\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>30.2\u003C\u002Fstrong>|37.7|41.4|\u003Cstrong>29.4\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">情绪识别（SER）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"6\">Meld\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">WavLM-large\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.542\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.524\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.557\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.553\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.558\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.570\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">声音场景分类（VSC）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"6\">VocalSound\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">CLAP\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.495\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Pengi\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.604\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.929\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.939\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.936\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.939\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">音乐\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"3\">GiantSteps Tempo\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Llark-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.86\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.88\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.88\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"3\">MusicCaps\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">LP-MusicCaps\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.291|0.149|0.089|\u003Cstrong>0.061\u003C\u002Fstrong>|0.129|0.130\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.325|\u003Cstrong>0.163\u003C\u002Fstrong>|\u003Cstrong>0.093\u003C\u002Fstrong>|0.057|\u003Cstrong>0.132\u003C\u002Fstrong>|\u003Cstrong>0.229\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.328\u003C\u002Fstrong>|0.162|0.090|0.055|0.127|0.225\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">音频推理\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"4\">MMAU\u003Cbr>Sound | Music | Speech | Avg\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Gemini-Pro-V1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">56.75|49.40|58.55|54.90\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">54.95|50.98|42.04|49.20\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>70.27\u003C\u002Fstrong>|60.48|59.16|63.30\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">67.87|\u003Cstrong>69.16|59.76|65.60\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">语音聊天\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"9\">VoiceBench\u003Cbr>AlpacaEval | CommonEval | SD-QA | MMSU\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Ultravox-v0.4.1-LLaMA-3.1-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>4.55\u003C\u002Fstrong>|3.90|53.35|47.17\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MERaLiON\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.50|3.77|55.06|34.95\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.50|2.95|25.95|27.03\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Lyra-Base\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.85|3.50|38.25|49.74\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.42|\u003Cstrong>4.15\u003C\u002Fstrong>|50.72|54.78\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Baichuan-Omni-1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.50|4.05|43.40|57.25\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">3.74|3.43|35.71|35.72\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.32|4.00|49.37|50.23\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">4.49|3.93|\u003Cstrong>55.71\u003C\u002Fstrong>|\u003Cstrong>61.32\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"9\">VoiceBench\u003Cbr>OpenBookQA | IFEval | AdvBench | Avg\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Ultravox-v0.4.1-LLaMA-3.1-8B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">65.27|\u003Cstrong>66.88\u003C\u002Fstrong>|98.46|71.45\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MERaLiON\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">27.23|62.93|94.81|62.91\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Megrez-3B-Omni\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">28.35|25.71|87.69|46.25\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Lyra-Base\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">72.75|36.28|59.62|57.66\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MiniCPM-o\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">78.02|49.25|97.69|71.69\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Baichuan-Omni-1.5\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">74.51|54.54|97.31|71.14\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2-Audio\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">49.45|26.33|96.73|55.35\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">74.73|42.10|98.85|68.81\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>81.10\u003C\u002Fstrong>|52.87|\u003Cstrong>99.42\u003C\u002Fstrong>|\u003Cstrong>74.12\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>图像 -> 文本\u003C\u002Fsummary>\n\n| 数据集                        | 通义千问2.5-Omni-7B | 通义千问2.5-Omni-3B | 其他最佳 | 通义千问2.5-VL-7B | GPT-4o-mini | \n|--------------------------------|--------------|------------|------------|---------------|-------------|\n| MMMU\u003Csub>val\u003C\u002Fsub>             | 59.2         | 53.1       | 53.9       | 58.6          | **60.0**    | \n| MMMU-Pro\u003Csub>overall\u003C\u002Fsub>     | 36.6         | 29.7       | -          | **38.3**      | 37.6        | \n| MathVista\u003Csub>testmini\u003C\u002Fsub>   | 67.9         | 59.4       | **71.9**   | 68.2          | 52.5        | \n| MathVision\u003Csub>full\u003C\u002Fsub>      | 25.0         | 20.8       | 23.1       | **25.1**      | -           | \n| MMBench-V1.1-EN\u003Csub>test\u003C\u002Fsub> | 81.8         | 77.8       | 80.5       | **82.6**      | 76.0        | \n| MMVet\u003Csub>turbo\u003C\u002Fsub>          | 66.8         | 62.1       | **67.5**   | 67.1          | 66.9        | \n| MMStar                         | **64.0**     | 55.7       | **64.0**   | 63.9          | 54.8        | \n| MME\u003Csub>sum\u003C\u002Fsub>              | 2340         | 2117       | **2372**   | 2347          | 2003        | \n| MuirBench                      | 59.2         | 48.0       | -          | **59.2**      | -           | \n| CRPE\u003Csub>relation\u003C\u002Fsub>        | **76.5**     | 73.7       | -          | 76.4          | -           | \n| RealWorldQA\u003Csub>avg\u003C\u002Fsub>      | 70.3         | 62.6       | **71.9**   | 68.5          | -           | \n| MME-RealWorld\u003Csub>en\u003C\u002Fsub>     | **61.6**     | 55.6       | -          | 57.4          | -           | \n| MM-MT-Bench                    | 6.0          | 5.0        | -          | **6.3**       | -           | \n| AI2D                           | 83.2         | 79.5       | **85.8**   | 83.9          | -           | \n| TextVQA\u003Csub>val\u003C\u002Fsub>          | 84.4         | 79.8       | 83.2       | **84.9**      | -           | \n| DocVQA\u003Csub>test\u003C\u002Fsub>          | 95.2         | 93.3       | 93.5       | **95.7**      | -           | \n| ChartQA\u003Csub>test Avg\u003C\u002Fsub>     | 85.3         | 82.8       | 84.9       | **87.3**      | -           | \n| OCRBench_V2\u003Csub>en\u003C\u002Fsub>       | **57.8**     | 51.7       | -          | 56.3          | -           | \n\n\n| 数据集                  | 通义千问2.5-Omni-7B | 通义千问2.5-Omni-3B | 通义千问2.5-VL-7B | Grounding DINO | Gemini 1.5 Pro | \n|--------------------------|--------------|---------------|---------------|----------------|----------------|\n| Refcoco\u003Csub>val\u003C\u002Fsub>    | 90.5         | 88.7          | 90.0          | **90.6**       | 73.2           | \n| Refcoco\u003Csub>textA\u003C\u002Fsub>  | **93.5**     | 91.8          | 92.5          | 93.2           | 72.9           | \n| Refcoco\u003Csub>textB\u003C\u002Fsub>  | 86.6         | 84.0          | 85.4          | **88.2**       | 74.6           | \n| Refcoco+\u003Csub>val\u003C\u002Fsub>   | 85.4         | 81.1          | 84.2          | **88.2**       | 62.5           | \n| Refcoco+\u003Csub>textA\u003C\u002Fsub> | **91.0**     | 87.5          | 89.1          | 89.0           | 63.9           | \n| Refcoco+\u003Csub>textB\u003C\u002Fsub> | **79.3**     | 73.2          | 76.9          | 75.9           | 65.0           | \n| Refcocog+\u003Csub>val\u003C\u002Fsub>  | **87.4**     | 85.0          | 87.2          | 86.1           | 75.2           | \n| Refcocog+\u003Csub>test\u003C\u002Fsub> | **87.9**     | 85.1          | 87.2          | 87.0           | 76.2           | \n| ODinW                    | 42.4         | 39.2          | 37.3          | **55.0**       | 36.7           | \n| PointGrounding           | 66.5         | 46.2          | **67.3**      | -              | -              | \n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>视频（无音频）-> 文本\u003C\u002Fsummary>\n\n| 数据集                     | 通义千问2.5-Omni-7B | 通义千问2.5-Omni-3B | 其他最佳 | 通义千问2.5-VL-7B | GPT-4o-mini | \n|-----------------------------|--------------|------------|------------|---------------|-------------|\n| Video-MME\u003Csub>w\u002Fo sub\u003C\u002Fsub> | 64.3         | 62.0       | 63.9       | **65.1**      | 64.8        | \n| Video-MME\u003Csub>w sub\u003C\u002Fsub>   | **72.4**     | 68.6       | 67.9       | 71.6          | -           | \n| MVBench                     | **70.3**     | 68.7       | 67.2       | 69.6          | -           | \n| EgoSchema\u003Csub>test\u003C\u002Fsub>    | **68.6**     | 61.4       | 63.2       | 65.0          | -           | \n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>零样本语音生成\u003C\u002Fsummary>\n\n\u003Ctable class=\"tg\">\u003Cthead>\n  \u003Ctr>\n    \u003Cth class=\"tg-0lax\">数据集\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">模型\u003C\u002Fth>\n    \u003Cth class=\"tg-0lax\">性能\u003C\u002Fth>\n  \u003C\u002Ftr>\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">内容一致性\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"11\">SEED\u003Cbr>test-zh | test-en | test-hard \u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.11 | 2.24 | 7.58\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>1.00\u003C\u002Fstrong> | 1.94 | \u003Cstrong>6.42\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MaskGCT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">2.27 | 2.62 | 10.27\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">E2_TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.97 | 2.19 | -\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">F5-TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.56 | \u003Cstrong>1.83\u003C\u002Fstrong> | 8.67\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.45 | 2.57 | 6.83\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2-S\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.45 | 2.38 | 8.08\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.95 | 2.87 | 9.92\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.58 | 2.51 | 7.86\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.70 | 2.72 | 7.97\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">1.42 | 2.32 | 6.54\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-9j4x\" colspan=\"3\">说话人相似度\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\" rowspan=\"11\">SEED\u003Cbr>test-zh | test-en | test-hard \u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.796 | 0.762 | 0.776\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Seed-TTS_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">\u003Cstrong>0.801\u003C\u002Fstrong> | \u003Cstrong>0.766\u003C\u002Fstrong> | \u003Cstrong>0.782\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">MaskGCT\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.774 | 0.714 | 0.748\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">E2_TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.730 | 0.710 | -\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">F5-TTS\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.741 | 0.647 | 0.713\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.748 | 0.652 | 0.724\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">CosyVoice 2-S\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.753 | 0.654 | 0.732\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.741 | 0.635 | 0.748\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-3B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.744 | 0.635 | 0.746\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_ICL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.752 | 0.632 | 0.747\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd class=\"tg-0lax\">Qwen2.5-Omni-7B_RL\u003C\u002Ftd>\n    \u003Ctd class=\"tg-0lax\">0.754 | 0.641 | 0.752\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>文本 -> 文本\u003C\u002Fsummary>\n\n| 数据集                           | Qwen2.5-Omni-7B | Qwen2.5-Omni-3B | Qwen2.5-7B | Qwen2.5-3B | Qwen2-7B | Llama3.1-8B | Gemma2-9B | \n|-----------------------------------|-----------|------------|------------|------------|------------|-------------|-----------|\n| MMLU-Pro                          | 47.0      | 40.4       | **56.3**   | 43.7       | 44.1       | 48.3        | 52.1      | \n| MMLU-redux                        | 71.0      | 60.9       | **75.4**   | 64.4       | 67.3       | 67.2        | 72.8      | \n| LiveBench\u003Csub>0831\u003C\u002Fsub>          | 29.6      | 22.3       | **35.9**   | 26.8       | 29.2       | 26.7        | 30.6      | \n| GPQA                              | 30.8      | 34.3       | **36.4**   | 30.3       | 34.3       | 32.8        | 32.8      | \n| MATH                              | 71.5      | 63.6       | **75.5**   | 65.9       | 52.9       | 51.9        | 44.3      | \n| GSM8K                             | 88.7      | 82.6       | **91.6**   | 86.7       | 85.7       | 84.5        | 76.7      | \n| HumanEval                         | 78.7      | 70.7       | **84.8**   |\t74.4       | 79.9       | 72.6        | 68.9      | \n| MBPP                              | 73.2      | 70.4       | **79.2**   | 72.7       | 67.2       | 69.6        | 74.9      | \n| MultiPL-E                         | 65.8      | 57.6       | **70.4**   | 60.2       | 59.1       | 50.7        | 53.4      | \n| LiveCodeBench\u003Csub>2305-2409\u003C\u002Fsub> | 24.6      | 16.5       | **28.7**   | 19.9       | 23.9       | 8.3         | 18.9      | \n\u003C\u002Fdetails>\n\n\n\n## 快速入门\n\n下面，我们提供了一些简单的示例，展示如何使用 🤖 ModelScope 和 🤗 Transformers 来操作 Qwen2.5-Omni。\n\nQwen2.5-Omni 的代码已集成到最新版本的 Hugging Face Transformers 中，建议您通过以下命令进行安装：\n```\npip install transformers==4.52.3\npip install accelerate\n```\n否则可能会遇到如下错误：\n```\nKeyError: 'qwen2_5_omni'\n```\n此外，您也可以使用我们的[官方 Docker 镜像](#-docker)来快速启动，而无需从源码编译。\n\n我们还提供了一个工具包，旨在更便捷地处理各类音频和视觉输入，就像调用 API 一样。该工具支持 base64 编码、URL 以及交错的音频、图片和视频格式。您可以使用以下命令安装，并确保系统已安装 `ffmpeg`：\n```bash\n# 强烈推荐使用 `[decord]` 功能以加快视频加载速度。\npip install qwen-omni-utils[decord] -U\n```\n\n如果您使用的不是 Linux 系统，可能无法从 PyPI 安装 `decord`。在这种情况下，您可以运行 `pip install qwen-omni-utils -U`，此时将回退至使用 torchvision 进行视频处理。不过，您仍然可以[从源码安装 decord](https:\u002F\u002Fgithub.com\u002Fdmlc\u002Fdecord?tab=readme-ov-file#install-from-source)，以便在加载视频时使用 decord。\n\n我们正在编写一系列[使用手册](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Ftree\u002Fmain\u002Fcookbooks)，涵盖多种功能，包括音频理解、语音对话、屏幕录制交互、视频信息提取、多模态对话等。欢迎进一步了解！\n\n### 🤗 Transformers 使用方法\n\n以下是一个代码示例，演示如何结合 `transformers` 和 `qwen_omni_utils` 使用聊天模型：\n\n```python\nimport soundfile as sf\n\nfrom transformers import Qwen2_5OmniForConditionalGeneration, Qwen2_5OmniProcessor\nfrom qwen_omni_utils import process_mm_info\n\n# 默认：在可用设备上加载模型\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\"Qwen\u002FQwen2.5-Omni-7B\", torch_dtype=\"auto\", device_map=\"auto\")\n\n# 建议启用 flash_attention_2 以获得更好的加速效果并节省内存。\n# model = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n#     \"Qwen\u002FQwen2.5-Omni-7B\",\n#     torch_dtype=\"auto\",\n#     device_map=\"auto\",\n#     attn_implementation=\"flash_attention_2\",\n\n# )\n\nprocessor = Qwen2_5OmniProcessor.from_pretrained(\"Qwen\u002FQwen2.5-Omni-7B\")\n\nconversation = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是通义千问，由阿里巴巴集团通义实验室研发的虚拟人，能够感知音频和视觉输入，并生成文本和语音。\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video\", \"video\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fdraw.mp4\"},\n        ],\n    },\n]\n\n# 设置是否使用视频中的音频\nUSE_AUDIO_IN_VIDEO = True\n\n# 推理前的准备\ntext = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", padding=True, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# 推理：生成输出文本和音频\ntext_ids, audio = model.generate(**inputs, use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ntext = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)\nprint(text)\nsf.write(\n    \"output.wav\",\n    audio.reshape(-1).detach().cpu().numpy(),\n    samplerate=24000,\n)\n```\n\n#### 最低显存需求\n\n| 模型         | 精度   | 15秒视频 | 30秒视频 | 60秒视频 |\n|--------------|--------|----------|----------|----------|\n| Qwen-Omni-3B | FP32   | 89.10 GB | 不推荐   | 不推荐   |\n| Qwen-Omni-3B | BF16   | 18.38 GB | 22.43 GB | 28.22 GB |\n| Qwen-Omni-7B | FP32   | 93.56 GB | 不推荐   | 不推荐   |\n| Qwen-Omni-7B | BF16   | 31.11 GB | 41.85 GB | 60.19 GB |\n\n注意：上表展示了使用 `transformers` 库进行推理时的理论最低显存需求，其中 BF16 精度是在启用 `attn_implementation=\"flash_attention_2\"` 的情况下测试得出的。然而，在实际应用中，显存占用通常会比理论值高出至少 1.2 倍。更多信息请参阅链接资源 [这里](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Faccelerate\u002Fmain\u002Fen\u002Fusage_guides\u002Fmodel_size_estimator)。我们目前正在计划开发一个资源消耗更低的版本，以便 Qwen2.5-Omni 能够在大多数平台上运行。敬请期待！\n\n\u003Cdetails>\n\u003Csummary>视频 URL 资源占用\u003C\u002Fsummary>\n\n视频 URL 的兼容性主要取决于第三方库的版本。具体信息如下表所示。如果您不想使用默认的后端，可以通过设置 `FORCE_QWENVL_VIDEO_READER=torchvision` 或 `FORCE_QWENVL_VIDEO_READER=decord` 来更改后端。\n\n| 后端     | HTTP | HTTPS |\n|----------|------|-------|\n| torchvision >= 0.19.0 | ✅  | ✅   |\n| torchvision \u003C 0.19.0  | ❌  | ❌   |\n| decord      | ✅  | ❌   |\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>批量推理\u003C\u002Fsummary>\n\n当设置 `return_audio=False` 时，该模型可以接受包含文本、图像、音频和视频等多种类型样本的混合输入进行批量推理。以下是一个示例。\n\n```python\n# 批量推理的示例消息\n\n# 仅含视频的对话\nconversation1 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是通义千问，由阿里巴巴集团通义实验室研发的虚拟人，能够感知音频和视觉输入，并生成文本和语音。\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n        ]\n    }\n]\n\n# 仅含音频的对话\nconversation2 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是通义千问，由阿里巴巴集团通义实验室研发的虚拟人，能够感知音频和视觉输入，并生成文本和语音。\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n        ]\n    }\n]\n\n# 纯文本对话\nconversation3 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是通义千问，由阿里巴巴集团通义实验室研发的虚拟人，能够感知音频和视觉输入，并生成文本和语音。\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": \"你是谁？\"\n    }\n]\n\n\n# 多媒体混合对话\nconversation4 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是通义千问，由阿里巴巴集团通义实验室研发的虚拟人，能够感知音频和视觉输入，并生成文本和语音。\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"\u002Fpath\u002Fto\u002Fimage.jpg\"},\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n            {\"type\": \"text\", \"text\": \"你在这些媒体中看到了什么、听到了什么？\"},\n        ]\n    }\n]\n\n# 组合消息以进行批量处理\nconversations = [conversation1, conversation2, conversation3, conversation4]\n\n# 设置是否使用视频中的音频\nUSE_AUDIO_IN_VIDEO = True\n\n# 批量推理前的准备\ntext = processor.apply_chat_template(conversations, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversations, use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", padding=True, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# 批量推理\ntext_ids = model.generate(**inputs, use_audio_in_video=USE_AUDIO_IN_VIDEO, return_audio=False)\ntext = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)\nprint(text)\n```\n\u003C\u002Fdetails>\n\n\n### 🤖 ModelScope 使用\n我们强烈建议用户，尤其是中国大陆地区的用户，使用 ModelScope 平台。通过 `snapshot_download` 功能可以帮助您解决检查点下载方面的问题。\n\n### GPTQ-Int4 和 AWQ 的使用\n\n为了提升 Qwen2.5-Omni-7B 在 GPU 显存受限设备上的运行能力，我们采用了 GPTQ 和 AWQ 对模型权重进行了 4 位量化，从而有效降低了 GPU 显存占用。其他关键优化包括：\n* 优化了推理流程，按需加载每个模块的模型权重，并在推理完成后将其卸载到 CPU 内存中，以避免显存峰值过高。\n* 将 code2wav 模块改造成支持流式推理，从而避免预先分配过多的 GPU 显存。\n* 将 ODE 求解器从二阶（RK4）方法调整为一阶（欧拉）方法，进一步降低计算开销。\n\n这些改进旨在确保 Qwen2.5-Omni 在各种硬件配置下都能高效运行，尤其是在 GPU 显存较低的设备上（如 RTX3080、4080、5070 等）。目前，相关模型及使用方法可从 Hugging Face（[GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-Omni-7B-AWQ)）和 ModelScope（[GPTQ-Int4](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-GPTQ-Int4)|[AWQ](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FQwen\u002FQwen2.5-Omni-7B-AWQ)）获取。以下提供一个简单示例，展示如何使用 Qwen2.5-Omni-7B-GPTQ-Int4 并搭配 `gptqmodel`：\n```\npip install transformers==4.52.3\npip install accelerate\npip install gptqmodel==2.0.0\npip install numpy==2.0.0\n\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni.git\n\ncd Qwen2.5-Omni\u002Flow-VRAM-mode\u002F\n\nCUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_gptq.py\n```\n\n若要使用 Qwen2.5-Omni-7B-AWQ 并搭配 `autoawq`，请执行以下命令：\n```\npip install transformers==4.52.3\npip install accelerate\npip install autoawq==0.2.9\n\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni.git\n\ncd Qwen2.5-Omni\u002Flow-VRAM-mode\u002F\n\nCUDA_VISIBLE_DEVICES=0 python3 low_VRAM_demo_awq.py\n```\n\n以下两张表格分别展示了 Qwen2.5-Omni-7B-GPTQ-Int4\u002FQwen2.5-Omni-7B-AWQ 与原版 Qwen2.5-Omni-7B 在特定评估基准上的性能对比及 GPU 显存消耗情况。数据显示，GPTQ-Int4\u002FAWQ 模型在保持相近性能的同时，将 GPU 显存需求降低了 50% 以上，从而使更多设备能够运行并体验高性能的 Qwen2.5-Omni-7B 模型。值得注意的是，由于量化技术和 CPU 卸载机制的影响，GPTQ-Int4\u002FAWQ 版本的推理速度略低于原生 Qwen2.5-Omni-7B 模型。\n\n| 评估集           | 任务         | 指标          | Qwen2.5-Omni-7B       | Qwen2.5-Omni-7B-GPTQ-Int4 | Qwen2.5-Omni-7B-AWQ |\n|------------------|--------------|---------------|-----------------------|--------------------------|--------------------|\n| LibriSpeech test-other   | ASR                   | WER ⬇️      | 3.4   | 3.71  | 3.91  |\n| WenetSpeech test-net     | ASR                   | WER ⬇️      | 5.9   | 6.62  | 6.31  |\n| Seed-TTS test-hard       | TTS (Speaker: Chelsie)| WER ⬇️      | 8.7   | 10.3  | 8.88  |\n| MMLU-Pro                 | 文本 -> 文本          | 准确率 ⬆️ | 47.0  | 43.76 | 45.66 |\n| OmniBench                | 语音 -> 文本        | 准确率 ⬆️ | 56.13 | 53.59 | 54.64 |\n| VideoMME                 | 多模态 -> 文本 | 准确率 ⬆️ | 72.4  | 68.0  | 72.0  |\n\n| 模型             | 精度         | 15 秒视频    | 30 秒视频    | 60 秒视频    |\n|------------------|--------------|--------------|--------------|--------------|\n| Qwen-Omni-7B     | FP32         | 93.56 GB     | 不推荐       | 不推荐       |\n| Qwen-Omni-7B     | BF16         | 31.11 GB     | 41.85 GB     | 60.19 GB     |\n| Qwen-Omni-7B     | GPTQ-Int4    | 11.64 GB     | 17.43 GB     | 29.51 GB     |\n| Qwen-Omni-7B     | AWQ          | 11.77 GB     | 17.84 GB     | 30.31 GB     |\n\n### 使用提示\n\n#### 音频输出的提示\n如果用户需要音频输出，系统提示必须设置为：“你是 Qwen，阿里巴巴集团 Qwen 团队研发的虚拟人，能够感知听觉和视觉输入，并生成文本和语音。”否则，音频输出可能无法正常工作。\n```json\n{\n    \"role\": \"system\",\n    \"content\": [\n          {\"type\": \"text\", \"text\": \"你是 Qwen，阿里巴巴集团 Qwen 团队研发的虚拟人，能够感知听觉和视觉输入，并生成文本和语音。\"}\n    ]\n}\n```\n\n#### 视频中的音频使用\n在多模态交互过程中，用户提供的视频通常会伴随音频信息（例如关于视频内容的问题，或视频中某些事件产生的声音）。这些信息有助于模型提供更好的交互体验。因此，我们提供了以下选项供用户决定是否在视频中使用音频。\n```python\n# 第一步，在数据预处理阶段\naudios, images, videos = process_mm_info(conversations, use_audio_in_video=True)\n```\n```python\n# 第二步，在模型处理器中\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", \n                   padding=True，use_audio_in_video=True)\n```\n```python\n\n# 第三名，在模型推理中\ntext_ids, audio = model.generate(**inputs, use_audio_in_video=True)\n```\n值得注意的是，在多轮对话过程中，这些地方的 `use_audio_in_video` 参数必须设置为一致，否则会出现意外结果。\n\n#### 是否使用音频输出\n\n该模型同时支持文本和音频输出。如果用户不需要音频输出，可以在初始化模型后调用 `model.disable_talker()`。这一选项可以节省约 `2GB` 的显存，但 `generate` 函数的 `return_audio` 参数将仅允许设置为 `False`。\n```python\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen2.5-Omni-7B\",\n    torch_dtype=\"auto\",\n    device_map=\"auto\"\n)\nmodel.disable_talker()\n```\n\n为了获得更灵活的体验，我们建议用户在调用 `generate` 函数时自行决定是否返回音频。如果将 `return_audio` 设置为 `False`, 模型将只返回文本输出，从而更快地获取文本响应。\n```python\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen2.5-Omni-7B\",\n    torch_dtype=\"auto\",\n    device_map=\"auto\"\n)\n...\ntext_ids = model.generate(**inputs, return_audio=False)\n```\n\n#### 更改输出音频的语音类型\nQwen2.5-Omni 支持更改输出音频的语音类型。“Qwen\u002FQwen2.5-Omni-7B”检查点支持以下两种语音类型：\n\n| 语音类型 | 性别 | 描述 |\n|------------|--------|-------------|\n| Chelsie    | 女性 | 一种如蜜般柔滑、带有温和温暖与明亮清晰感的嗓音。|\n| Ethan      | 男性   | 一种明亮、活泼，充满感染力且温暖亲和的嗓音。|\n\n用户可以通过 `generate` 函数的 `speaker` 参数来指定语音类型。默认情况下，若未指定 `speaker`，则默认语音类型为 `Chelsie`。\n```python\ntext_ids, audio = model.generate(**inputs, speaker=\"Chelsie\")\n```\n\n```python\ntext_ids, audio = model.generate(**inputs, speaker=\"Ethan\")\n```\n\n#### 使用 Flash-Attention 2 加速生成\n\n首先，请确保安装最新版本的 Flash Attention 2：\n```bash\npip install -U flash-attn --no-build-isolation\n```\n\n此外，您的硬件应与 FlashAttention 2 兼容。更多信息请参阅 [flash attention 仓库](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention) 的官方文档。FlashAttention-2 只能在模型以 `torch.float16` 或 `torch.bfloat16` 加载时使用。\n\n要使用 FlashAttention-2 加载并运行模型，在加载模型时添加 `attn_implementation=\"flash_attention_2\"`：\n```python\nfrom transformers import Qwen2_5OmniForConditionalGeneration\n\nmodel = Qwen2_5OmniForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen2.5-Omni-7B\",\n    device_map=\"auto\",\n    torch_dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n```\n\n\n### 更多使用场景的教程\n\n| 教程 | 描述 | 打开 |\n| -------- | ----------- | ---- |\n| [通用音频理解](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Funiversal_audio_understanding.ipynb) | 语音识别、语音转文字翻译及音频分析。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Funiversal_audio_understanding.ipynb) |\n | [语音聊天](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvoice_chatting.ipynb) | 通过语音输入和输出与 Qwen2.5-Omni 进行对话。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvoice_chatting.ipynb) |\n | [屏幕录制互动](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fscreen_recording_interaction.ipynb) | 在录制屏幕上实时提问，获取所需的信息和内容。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fscreen_recording_interaction.ipynb) |\n | [视频信息提取](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_information_extracting.ipynb) | 从视频流中获取信息。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_information_extracting.ipynb) |\n | [音乐领域的全能聊天](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_music.ipynb) | 在音视频流中与 Qwen2.5-Omni 讨论音乐相关内容。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_music.ipynb) |\n | [数学领域的全能聊天](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_math.ipynb) | 在音视频流中与 Qwen2.5-Omni 讨论数学相关内容。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_chatting_for_math.ipynb) |\n | [多轮全能聊天](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmulti_round_omni_chatting.ipynb) | 与 Qwen2.5-Omni 进行多轮音视频对话，全面展示其能力。 | [![Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen2.5-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmulti_round_omni_chatting.ipynb) |\n\n### API 推理\n\n为了探索 Qwen2.5-Omni，我们鼓励您试用我们的前沿 API 服务，以获得更快、更高效的感受。\n\n#### 安装\n```bash\npip install openai\n```\n\n#### 示例\n您可以使用 OpenAI API 服务与 Qwen2.5-Omni 进行交互，如下所示。更多用法请参考 [阿里云](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fuser-guide\u002Fqwen-omni) 上的教程。\n```python\nimport base64\nimport numpy as np\nimport soundfile as sf\n\nfrom openai import OpenAI\n\nclient = OpenAI(\n    api_key=\"your_api_key\",\n    base_url=\"https:\u002F\u002Fdashscope.aliyuncs.com\u002Fcompatible-mode\u002Fv1\",\n)\n\nmessages = [\n    {\n        \"role\": \"system\",\n        \"content\": \"你是 Qwen，阿里巴巴集团 Qwen 团队开发的虚拟人，能够感知听觉和视觉输入，并生成文本和语音。\",\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"video_url\", \"video_url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fdraw.mp4\"},\n        ],\n    },\n]\n\n# Qwen-Omni 仅支持流式模式\ncompletion = client.chat.completions.create(\n    model=\"qwen-omni-turbo\",\n    messages=messages,\n    modalities=[\"text\", \"audio\"],\n    audio={\n        \"voice\": \"Cherry\", # Cherry、Ethan、Serena、Chelsie 可用\n        \"format\": \"wav\"\n    },\n    stream=True,\n    stream_options={\"include_usage\": True}\n)\n\ntext = []\naudio_string = \"\"\nfor chunk in completion:\n    if chunk.choices:\n        if hasattr(chunk.choices[0].delta, \"audio\"):\n            try:\n                audio_string += chunk.choices[0].delta.audio[\"data\"]\n            except Exception as e:\n                text.append(chunk.choices[0].delta.audio[\"transcript\"])\n    else:\n        print(chunk.usage)\n\nprint(\"\".join(text))\nwav_bytes = base64.b64decode(audio_string)\nwav_array = np.frombuffer(wav_bytes, dtype=np.int16)\nsf.write(\"output.wav\", wav_array, samplerate=24000)\n```\n### 自定义设置\n\n由于 Qwen2.5-Omni 在使用 [音频输出](#prompt-for-audio-output) 时（包括本地部署和 API 推理）不支持提示词设置，因此我们建议，如果您需要控制模型的输出或修改模型的性格设定，可以尝试在对话模板中添加类似以下内容：\n\n```python\nconversation = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是一名导购员，现在负责介绍各种产品。\"},\n        ],\n    },\n    {\n        \"role\": \"assistant\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"好的，我明白了。\"},\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是谁呀？\"},\n        ],\n    },\n]\n```\n\n## 与 Qwen2.5-Omni 对话\n\n### 在线演示\n无需部署，您可以通过访问我们的 [Hugginface Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen2.5-Omni-7B-Demo) 和 [Modelscope Studio](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen2.5-Omni-Demo) 直接体验在线网页演示。\n\n### 启动本地 Web UI 演示\n\n在本节中，我们为用户提供构建基于 Web 的用户界面 (UI) 演示的说明。该 UI 演示允许用户通过 Web 浏览器与预定义的模型或应用程序进行交互。请按照以下步骤开始操作，或者您也可以直接从我们的 [官方 Docker 镜像](#-docker) 启动 Web 演示。\n\n#### 安装\n\n在开始之前，请确保您的系统上已安装所需的依赖项。您可以通过运行以下命令来安装它们：\n\n```bash\npip install -r requirements_web_demo.txt\n```\n\n#### 使用 FlashAttention-2 运行演示\n\n一旦所需软件包安装完毕，您可以使用以下命令启动 Web 演示。此命令将启动一个 Web 服务器，并为您提供一个链接，以便在您的 Web 浏览器中访问 UI。\n\n**推荐**：为了提升性能和效率，尤其是在多图像和视频处理场景下，我们强烈建议使用 [FlashAttention-2](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention)。FlashAttention-2 在内存使用和速度方面有显著提升，非常适合处理大规模模型和数据。\n\n要启用 FlashAttention-2，请使用以下命令：\n\n```bash\n# 默认用于 Qwen2.5-Omni-7B\npython web_demo.py --flash-attn2\n```\n```bash\n# 用于 Qwen2.5-Omni-3B\npython web_demo.py --flash-attn2 -c Qwen\u002FQwen2.5-Omni-3B\n```\n\n这将加载启用 FlashAttention-2 的模型。\n\n**默认使用**：如果您希望在不使用 FlashAttention-2 的情况下运行演示，或者未指定 `--flash-attn2` 选项，则演示将使用标准注意力机制加载模型：\n\n```bash\n# 默认用于 Qwen2.5-Omni-7B\npython web_demo.py\n```\n```bash\n# 用于 Qwen2.5-Omni-3B\npython web_demo.py -c Qwen\u002FQwen2.5-Omni-3B\n```\n\n运行命令后，您将在终端中看到类似以下的链接：\n\n```\nRunning on local: http:\u002F\u002F127.0.0.1:7860\u002F\n```\n\n复制此链接并粘贴到您的浏览器中，即可访问 Web UI，在那里您可以输入文本、上传音频\u002F图片\u002F视频、更改语音类型或其他提供的功能，与模型进行交互。\n\n\n### 实时互动\nQwen2.5-Omni 的流式实时互动现已开放，请访问 [Qwen Chat](https:\u002F\u002Fchat.qwen.ai\u002F) 并在聊天框中选择语音\u002F视频通话功能以体验。\n\n\n## 使用 vLLM 部署\n\n我们推荐使用 vLLM 来快速部署和推理 Qwen2.5-Omni。您需要从我们提供的 [源代码](https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm\u002Ftree\u002Fqwen2_omni_public) 安装，以获得对 Qwen2.5-Omni 的支持，或者使用我们的 [官方 Docker 镜像](#-docker)。您还可以查看 [vLLM 官方文档](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fserving\u002Fmultimodal_inputs.html) 以获取有关在线服务和离线推理的更多详细信息。\n\n### 安装\n```bash\ngit clone -b qwen2_omni_public https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm.git\ncd vllm\ngit checkout de8f43fbe9428b14d31ac5ec45d065cd3e5c3ee0\npip install setuptools_scm torchdiffeq resampy x_transformers qwen-omni-utils accelerate\npip install -r requirements\u002Fcuda.txt\npip install --upgrade setuptools wheel\npip install .\npip install transformers==4.52.3\n```\n\n### 本地推理\n\n您可以通过 vLLM 在本地对 Qwen2.5-Omni 进行推理。我们在 [vLLM 仓库](https:\u002F\u002Fgithub.com\u002Ffyabc\u002Fvllm\u002Fblob\u002Fqwen2_omni_public\u002Fexamples\u002Foffline_inference\u002Fqwen2_5_omni\u002Fend2end.py) 中提供了生成音频输出的示例：\n\n```bash\n# 克隆分支 qwen2_omni_public 的 vLLM 仓库\n# cd vllm\n# 切换到特定提交版本\n# cd examples\u002Foffline_inference\u002Fqwen2_5_omni\u002F\n\n# 单 GPU 下仅输出文本\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --thinker-only\n\n# 多 GPU 下仅输出文本（以 4 张 GPU 为例）\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --thinker-only --thinker-devices [0,1,2,3] --thinker-gpu-memory-utilization 0.9 \n\n# 单 GPU 下输出音频\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --do-wave --voice-type Chelsie --warmup-voice-type Chelsie --output-dir output_wav\n\n# 多 GPU 下输出音频（以 4 张 GPU 为例）\npython end2end.py --model Qwen\u002FQwen2.5-Omni-7B --prompt audio-in-video-v2 --enforce-eager --do-wave --voice-type Chelsie --warmup-voice-type Chelsie --thinker-devices [0,1] --talker-devices [2] --code2wav-devices [3] --thinker-gpu-memory-utilization 0.9 --talker-gpu-memory-utilization 0.9 --output-dir output_wav\n```\n\n### vLLM Serve 的使用\n您也可以通过 `pip install vllm>=0.8.5.post1` 使用 vLLM serve，不过目前 vLLM serve 对于 Qwen2.5-Omni 仅支持 thinker 模式，即仅支持文本输出。您可以通过以下命令启动 vLLM serve：\n```bash\n# 单 GPU\nvllm serve \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B\u002F --port 8000 --host 127.0.0.1 --dtype bfloat16\n\n# 用于多 GPU（以 4 个 GPU 为例）\nvllm serve \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B\u002F --port 8000 --host 127.0.0.1 --dtype bfloat16 -tp 4\n```\n然后你可以使用聊天 API，例如通过 curl：\n```bash\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n    -H \"Content-Type: application\u002Fjson\" \\\n    -d '{\n    \"messages\": [\n    {\"role\": \"system\", \"content\": \"You are a helpful assistant.\"},\n    {\"role\": \"user\", \"content\": [\n        {\"type\": \"image_url\", \"image_url\": {\"url\": \"https:\u002F\u002Fmodelscope.oss-cn-beijing.aliyuncs.com\u002Fresource\u002Fqwen.png\"}},\n        {\"type\": \"audio_url\", \"audio_url\": {\"url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen2.5-Omni\u002Fcough.wav\"}},\n        {\"type\": \"text\", \"text\": \"插图中的文字是什么？音频中的声音是什么？\"}\n    ]}\n    ]\n    }'\n```\n\n## 使用 MNN 部署\n\nQwen2.5-Omni 现已支持 MNN，可在边缘设备上部署。Qwen2.5-Omni 的 MNN 模型可通过 Hugging Face（[7B](https:\u002F\u002Fhuggingface.co\u002Ftaobao-mnn\u002FQwen2.5-Omni-7B-MNN)|[3B](https:\u002F\u002Fhuggingface.co\u002Ftaobao-mnn\u002FQwen2.5-Omni-3B-MNN)）和 ModelScope（[7B](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FMNN\u002FQwen2.5-Omni-7B-MNN)|[3B](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FMNN\u002FQwen2.5-Omni-3B-MNN)）下载，并附有使用说明。有关详细信息，请访问 [MNN](https:\u002F\u002Fgithub.com\u002Falibaba\u002FMNN) 了解更多信息。\n\n下表展示了 Qwen2.5-Omni MNN 实现方案在不同移动 SoC 平台上的内存消耗和推理速度基准测试结果。\n\n| 平台           | Snapdragon 8 Gen 1 | Snapdragon 8 Elite | Snapdragon 8 Gen 1 | Snapdragon 8 Elite  |\n|----------------|-----------| ------------- | ------------- | ------------------ |\n| 模型大小       | 7B | 7B | 3B | 3B |\n| 内存峰值       | 5.8G | 5.8G | 3.6G | 3.6G |\n| 思考者预填充速度 | 25.58 tok\u002Fs | 46.32 tok\u002Fs | 54.31 tok\u002Fs | 55.16 tok\u002Fs | \n| 思考者解码速度   |  8.35 tok\u002Fs | 11.52 tok\u002Fs | 15.84 tok\u002Fs | 23.31 tok\u002Fs | \n| 谈话者预填充速度 | 17.21 tok\u002Fs | 97.77 tok\u002Fs | 34.58 tok\u002Fs | 217.82 tok\u002Fs| \n| 谈话者解码速度   | 18.75 tok\u002Fs | 38.65 tok\u002Fs | 51.90 tok\u002Fs | 62.34 tok\u002Fs | \n| Code2Wav 速度     |20.83 tok\u002Fs | 27.36 tok\u002Fs | 28.45 tok\u002Fs | 27.36 tok\u002Fs | \n\n\n## 🐳 Docker\n\n为简化部署流程，我们提供了预构建环境的 Docker 镜像：[qwenllm\u002Fqwen-omni](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fqwenllm\u002Fqwen-omni)。你只需安装驱动程序并下载模型文件即可启动演示。\n\n```bash\ndocker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm\u002Fqwen-omni:2.5-cu121 bash\n```\n\n你也可以通过以下命令启动 Web 演示：\n```bash\nbash docker\u002Fdocker_web_demo.sh --checkpoint \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B\n```\n若要启用 FlashAttention-2，可使用以下命令：\n```bash\nbash docker\u002Fdocker_web_demo.sh --checkpoint \u002Fpath\u002Fto\u002FQwen2.5-Omni-7B --flash-attn2\n```\n\n## 引用\n\n如果你的研究中使用了我们的论文和代码，请考虑给个 star :star: 和引用 :pencil: ：\n\n\n\n```BibTeX\n\n@article{Qwen2.5-Omni,\n  title={Qwen2.5-Omni 技术报告},\n  author={Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin},\n  journal={arXiv 预印本 arXiv:2503.20215},\n  year={2025}\n}\n```\n\n\u003Cbr>","# Qwen2.5-Omni 快速上手指南\n\nQwen2.5-Omni 是通义千问系列最新的全能端到端多模态模型，支持文本、图像、音频和视频的综合感知，并能以流式方式实时生成文本和自然语音回复。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n- **GPU**: NVIDIA GPU (显存要求见下文)，驱动版本 >= 535，CUDA >= 12.1\n- **Python**: 3.10 或更高版本\n\n### 显存需求\n- **Qwen2.5-Omni-7B**: 建议至少 16GB VRAM (FP16)，量化版本 (Int4) 约需 8GB。\n- **Qwen2.5-Omni-3B**: 建议至少 8GB VRAM (FP16)，量化版本约需 4-5GB。\n\n### 前置依赖\n推荐使用官方提供的 Docker 镜像以获得最佳兼容性，或在本地安装以下核心库：\n- `transformers` (>= 4.50.0，需拉取最新版以支持音频输出)\n- `torch` (>= 2.4.0)\n- `accelerate`\n- `soundfile`, `librosa` (用于音频处理)\n\n## 2. 安装步骤\n\n### 方案 A：使用 pip 安装（推荐国内开发者使用 ModelScope 加速）\n\n首先安装基础依赖：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\npip install transformers accelerate soundfile librosa\n```\n\n若需使用 ModelScope 进行模型下载加速，请安装：\n```bash\npip install modelscope\n```\n\n### 方案 B：使用官方 Docker（最简便）\n\n拉取包含最新 `vllm` 和 `transformers` 支持的官方镜像：\n```bash\ndocker pull qwen\u002Fqwen2.5-omni:latest\n```\n\n## 3. 基本使用\n\n以下示例展示如何使用 Python 加载模型并进行简单的多模态对话（文本 + 图片\u002F音频）。\n\n### 3.1 使用 Transformers 推理\n\n```python\nimport torch\nfrom transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor\nfrom PIL import Image\nimport soundfile as sf\n\n# 1. 加载模型和处理器\n# 国内用户可使用 ModelScope 自动下载，或指定 local_files_only=True 使用本地缓存\nmodel_name = \"Qwen\u002FQwen2.5-Omni-7B\" \n# 如果使用 ModelScope 加速，可设置环境变量或使用 snapshot_download 先下载模型路径\n\nprocessor = Qwen2_5OmniProcessor.from_pretrained(model_name)\nmodel = Qwen2_5OmniModel.from_pretrained(\n    model_name, \n    torch_dtype=torch.bfloat16, \n    device_map=\"auto\"\n)\n\n# 2. 准备输入数据\n# 示例：文本提问 + 图片输入\ntext_prompt = \"请描述这张图片的内容，并用语音回答我。\"\nimage_path = \"example.jpg\" # 替换为你的图片路径\nimage = Image.open(image_path).convert(\"RGB\")\n\n# 3. 构建消息体\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": image},\n            {\"type\": \"text\", \"text\": text_prompt}\n        ]\n    }\n]\n\n# 4. 处理输入并生成\ninputs = processor(text=messages, return_tensors=\"pt\", padding=True)\ninputs = inputs.to(model.device)\n\n# 生成回复 (streaming 模式需参考 cookbooks，此处为普通生成)\ngenerated_ids = model.generate(**inputs, max_new_tokens=256)\n\n# 5. 解码输出\nresponse_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]\nprint(f\"文本回复: {response_text}\")\n\n# 若模型配置了音频输出头，可进一步处理生成的音频 token 并保存为 WAV 文件\n# (具体音频生成代码请参考官方 cookbooks 中的 advanced usage)\n```\n\n### 3.2 使用量化版本 (节省显存)\n\n如果你的显存有限，推荐使用 GPTQ-Int4 或 AWQ 版本：\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoProcessor\n\n# 以 GPTQ-Int4 为例\nmodel_name = \"Qwen\u002FQwen2.5-Omni-7B-GPTQ-Int4\"\n\nprocessor = AutoProcessor.from_pretrained(model_name)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_name,\n    device_map=\"auto\",\n    torch_dtype=torch.float16 # 量化模型通常加载为 float16 或 auto\n)\n# 后续使用步骤同上\n```\n\n### 3.3 启动本地 Web UI Demo\n\n项目提供了基于 Gradio 的本地演示界面，支持实时语音交互：\n\n```bash\n# 确保已安装 gradio 和相关依赖\npip install gradio\n\n# 运行 demo 脚本 (假设已克隆仓库)\npython demo\u002Fapp.py --model-name Qwen\u002FQwen2.5-Omni-7B\n```\n启动后，在浏览器访问显示的本地地址（通常是 `http:\u002F\u002F127.0.0.1:7860`）即可体验实时语音和视频聊天功能。\n\n> **提示**：更多复杂用例（如视频理解、流式语音合成、MNN 端侧部署）请参考仓库中的 `cookbooks` 目录。","一位现场设备巡检工程师正在嘈杂的工厂车间，通过智能眼镜实时记录机器运行状态并口述故障报告。\n\n### 没有 Qwen2.5-Omni 时\n- **多模态处理割裂**：需分别使用独立工具识别图像、转录音频和生成文本，数据在不同系统间流转耗时且易出错。\n- **响应延迟严重**：传统方案需先录制完整音视频再上传云端分析，无法在巡检过程中提供实时的语音指导或预警。\n- **环境抗扰性差**：车间高分贝噪音导致普通语音识别模型准确率大幅下降，关键故障描述常被误识或遗漏。\n- **部署门槛高**：现有高精度多模态模型对显存要求极高，难以在边缘设备或移动端流畅运行，依赖昂贵的后端服务器。\n\n### 使用 Qwen2.5-Omni 后\n- **端到端统一感知**：Qwen2.5-Omni 直接同步理解工程师看到的仪表视频、听到的机器异响及口述内容，一站式输出结构化报告。\n- **实时流式交互**：支持实时语音生成，工程师刚描述完现象，Qwen2.5-Omni 即刻通过耳机反馈维修建议或安全警示，无需等待。\n- **强鲁棒性理解**：凭借领先的音频理解能力，Qwen2.5-Omni 能在高噪环境下精准提取关键声纹特征，确保故障描述零误差。\n- **轻量化边缘部署**：利用其 4-bit 量化版本，Qwen2.5-Omni 可在资源受限的边缘设备上低显存运行，实现离线即时响应。\n\nQwen2.5-Omni 将复杂的多模态感知与实时语音交互融合，彻底重塑了工业现场“眼耳口脑”协同的作业效率。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQwenLM_Qwen2.5-Omni_c1087d80.png","QwenLM","Qwen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FQwenLM_4756c6c9.png","Alibaba Cloud's general-purpose AI models",null,"qianwen_opensource@alibabacloud.com","Alibaba_Qwen","https:\u002F\u002Fqwen.ai\u002F","https:\u002F\u002Fgithub.com\u002FQwenLM",[82,86,90],{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",98.3,{"name":87,"color":88,"percentage":89},"Python","#3572A5",1.7,{"name":91,"color":92,"percentage":93},"Shell","#89e051",0,3976,323,"2026-04-09T16:01:12","Apache-2.0",4,"Linux","必需 NVIDIA GPU。7B 模型量化版本 (GPTQ-Int4\u002FAWQ) 可降低 50% 以上显存消耗；3B 模型支持更多平台。具体显存需求需参考 'Minimum GPU memory requirements' 章节（文中未给出具体数值，但提及量化可大幅降低需求）。","未说明",{"notes":103,"python":101,"dependencies":104},"该工具提供多种部署方式：1. 支持通过 transformers 和 vLLM 进行部署，其中 vLLM 新版本已支持音频输出；2. 支持通过 MNN 在边缘设备（如 Android）上部署；3. 提供官方 Docker 镜像以简化环境配置；4. 提供 4-bit 量化版本 (GPTQ-Int4\u002FAWQ) 以显著降低显存需求；5. 包含 3B 和 7B 两种参数量版本，3B 版本旨在让更多平台能够运行。",[105,106,107],"transformers","vllm","MNN",[35,15,109,110,111],"音频","视频","其他","2026-03-27T02:49:30.150509","2026-04-10T11:29:19.209505",[115,120,125,129,134,139],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},27592,"为什么复现 OmniBench 基准测试的结果与论文中报告的指标存在巨大差异？","目前社区用户普遍反映使用官方发布的模型和评估脚本无法复现论文中的高分（例如语音任务论文为 55.25%，复现仅为 37.74%）。主要争议点在于选项解析逻辑和指标计算脚本。维护者曾回应预期分数应在 0.49 左右，但许多用户使用官方 checkpoint 仍无法达到该数值。建议检查选项解析是否正确处理了类似 \"C. A man is....\" 的情况，并确认是否使用了正确的 metric_compute 脚本。目前官方尚未完全公开导致高分的具体评估代码细节。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fissues\u002F171",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},27593,"如何正确配置环境以复现论文中的 ASR（语音识别）指标？","如果在复现 ASR 指标时发现结果低于论文声明（如 Librispeech 或 Common Voice 数据集），可以尝试以下调整：\n1. 尝试关闭 Flash Attention 并使用自动精度（torch_dtype=\"auto\"）而非 bfloat16，尽管部分用户反馈这可能导致差距更大。\n2. 确保使用专用的 ASR Prompt：System prompt 设为 \"You are a speech recognition model.\"，User prompt 设为 \"Transcribe the English audio into text without any punctuation marks.\"。\n3. 推荐使用 UltraEval-Audio 工具进行评测，命令如下：\n`python audio_evals\u002Fmain.py --model qwen2.5-omni-audio --dataset librispeech-test-clean --prompt qwen-omni-asr-en`\n注意：GGUF 版本模型可能会出现偶发的对话式响应或对小声音频识别错误的问题。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fissues\u002F79",{"id":126,"question_zh":127,"answer_zh":128,"source_url":124},27594,"在哪里可以找到未在 Cookbooks 中提及的其他数据集的评测 Prompt？","官方表示相关的评测 Prompt 将会更新在 Cookbook 中。对于当前未列出的数据集，建议参考 Qwen-Audio 项目的评估代码或直接使用 UltraEval-Audio 框架，其中包含了预设的 prompt 配置（如 `qwen-omni-asr-en`）。如果急需特定语言的评测 prompt，可以在 Issue 中向维护者请求或参考社区分享的配置。",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},27595,"在多卡环境下使用 vLLM 部署 Qwen2.5-Omni 报错或功能异常怎么办？","在多卡（如双 5080 或双 4090D）使用 vLLM 部署时，如果遇到图片识别失败或音频输入报错，请注意以下几点：\n1. 必须使用 Qwen 团队发布的特定 vLLM 分支版本，而非官方原版 vLLM。\n2. 目前离线版已支持音频输出，Server 端支持文本输出，但在线版功能可能仍在完善中。\n3. 如果图片识别不正常或音频一直报错，请检查是否拉取了最新的 vLLM 分支代码并重新尝试。\n启动命令示例：\n`vllm serve \u002Fdata\u002Fmodels\u002Fqwen2.5-omni-7b --tensor-parallel-size 2 --port 8102 --served-model-name qwen2_5_omni --enforce-eager --gpu-memory-utilization 0.85`","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fissues\u002F161",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},27596,"Qwen2.5-Omni 使用的 \"qwen-tts-tokenizer\" 是否开源？如何获取用于微调其他语言？","截至目前，\"qwen-tts-tokenizer\" 的编码器部分（将波形转换为 codec tokens）尚未完全公开。公开的实现通常只包含解码器部分（Token2Wav，将 tokens 转为波形）。这导致用户难以构建“文本 ↔ codec tokens”的训练数据以微调 Talker 模块来支持新语言（如韩语）。\n架构方面，该 tokenizer 旨在高效表示语音关键信息并通过因果音频解码器流式解码。虽然其功能与 Mimi RVQ 类似，但在架构上存在差异（例如 Mimi 解码器包含 Transformer 层）。目前社区正在等待官方发布完整的 tokenizer 权重或训练代码。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni\u002Fissues\u002F219",{"id":140,"question_zh":141,"answer_zh":142,"source_url":124},27597,"使用 GGUF 版本模型进行 ASR 推理时有哪些已知问题？","用户反馈在使用 GGUF 量化版本的模型进行 ASR 推理时存在两个主要问题：\n1. 即使添加了专用的 ASR prompt，模型偶尔仍会输出对话式的响应而非纯转录文本。\n2. 在进行流式采样时，如果输入音频声音较小（例如咳嗽声），模型容易出现胡乱识别的情况，输出一大段无关文字。建议使用全精度或非量化版本以获得更稳定的 ASR 效果。",[]]