[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-QwenLM--Qwen3-Omni":3,"tool-QwenLM--Qwen3-Omni":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":10,"env_os":97,"env_gpu":98,"env_ram":97,"env_deps":99,"category_tags":105,"github_topics":79,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":106,"updated_at":107,"faqs":108,"releases":138},3321,"QwenLM\u002FQwen3-Omni","Qwen3-Omni","Qwen3-omni is a natively end-to-end, omni-modal LLM developed by the Qwen team at Alibaba Cloud, capable of understanding text, audio, images, and video, as well as generating speech in real time.","Qwen3-Omni 是阿里云通义团队推出的原生端到端全模态大语言模型。它能够像人类一样同时“看”图、“听”音、“读”文并理解视频内容，更能实时生成自然的语音回复，实现真正的多感官交互。\n\n这款模型主要解决了传统 AI 在处理多种媒体形式时需要拼接不同模块、导致响应延迟高且交互不自然的问题。通过原生支持文本、图像、音频和视频的统一处理，Qwen3-Omni 不仅能精准理解复杂的跨模态信息，还能以流式方式输出文字和拟人化语音，大幅提升了人机对话的流畅度与真实感。\n\n它非常适合开发者构建智能客服、虚拟助手或多媒体分析应用，也适合研究人员探索多模态融合的前沿技术。同时，其便捷的在线演示和本地部署方案，让普通用户也能轻松体验与 AI“面对面”交谈的未来感。\n\n技术亮点方面，Qwen3-Omni 采用了创新的端到端架构，通过早期文本优先预训练与混合多模态训练策略，在保持强大图文理解能力的同时，实现了业界领先的音视频处理性能。这种设计不仅简化了系统复杂度，更确保了在多语言环境下的高效运行，是目前多模态人工智能领域的重要突破。","# Qwen3-Omni\n\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002F\u002FQwen3-Omni\u002Fqwen3_omni_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\n        💜 \u003Ca href=\"https:\u002F\u002Fchat.qwen.ai\u002F\">\u003Cb>Qwen Chat\u003C\u002Fb>\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-omni-68d100a86cd0906843ceccbe\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FQwen3-Omni-867aef131e7d4f\">ModelScope\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fqwen.ai\u002Fblog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list\">Blog\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📚 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Ftree\u002Fmain\u002Fcookbooks\">Cookbooks\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.17765\">Paper\u003C\u002Fa>&nbsp&nbsp\n\u003Cbr>\n🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-Omni-Demo\">Hugging Face Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp 🖥️ \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-Omni-Demo\">ModelScope Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Fblob\u002Fmain\u002Fassets\u002Fwechat.png\">WeChat (微信)\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FCV4E9rpNSD\">Discord\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fuser-guide\u002Fqwen-omni\">API\u003C\u002Fa>\n\n\u003C\u002Fp>\n\nWe release **Qwen3-Omni**, the natively end-to-end multilingual omni-modal foundation models. It is designed to process diverse inputs including text, images, audio, and video, while delivering real-time streaming responses in both text and natural speech. Click the video below for more information 😃\n\n\u003Cdetails open>\n\u003Csummary>English Version\u003C\u002Fsummary>\n\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002F_zdOrPju4_g\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fvideocover.png\" alt=\"Open English Video\"\u002F>\n\u003C\u002Fa>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Chinese Version\u003C\u002Fsummary>\n\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FWtjsw5deXfQ\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fvideocover.png\" alt=\"打开中文视频\"\u002F>\n\u003C\u002Fa>\n\u003C\u002Fdetails>\n\n\n## News\n* 2025.09.26: ⭐️⭐️⭐️ Qwen3-Omni reaches top-1 on Hugging Face Trending! \n* 2025.09.22: 🎉🎉🎉 We have released [Qwen3-Omni](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-omni-68d100a86cd0906843ceccbe). For more details, please check our [blog](https:\u002F\u002Fqwen.ai\u002Fblog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list)!\n\n## Contents \u003C!-- omit in toc -->\n\n- [Overview](#overview)\n  - [Introduction](#introduction)\n  - [Model Architecture](#model-architecture)\n  - [Cookbooks for Usage Cases](#cookbooks-for-usage-cases)\n- [QuickStart](#quickstart)\n  - [Model Description and Download](#model-description-and-download)\n  - [Transformers Usage](#transformers-usage)\n  - [vLLM Usage](#vllm-usage)\n  - [DashScope API Usage](#dashscope-api-usage)\n  - [Usage Tips (Recommended Reading)](#usage-tips-recommended-reading)\n- [Interaction with Qwen3-Omni](#interaction-with-qwen3-omni)\n  - [Online Demo](#online-demo)\n  - [Real-Time Interaction](#real-time-interaction)\n  - [Launch Local Web UI Demo](#launch-local-web-ui-demo)\n- [Docker](#-docker)\n- [Evaluation](#evaluation)\n  - [Performance of Qwen3-Omni](#performance-of-qwen3-omni)\n  - [Setting for Evaluation](#setting-for-evaluation)\n- [Citation](#citation)\n\n## Overview\n### Introduction\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fq3o_introduction.png\" width=\"90%\"\u002F>\n\u003Cp>\n\nQwen3-Omni is the natively end-to-end multilingual omni-modal foundation models. It processes text, images, audio, and video, and delivers real-time streaming responses in both text and natural speech. We introduce several architectural upgrades to improve performance and efficiency. Key features:\n\n* **State-of-the-art across modalities**: Early text-first pretraining and mixed multimodal training provide native multimodal support. While achieving strong audio and audio-video results, unimodal text and image performance does not regress. Reaches SOTA on 22 of 36 audio\u002Fvideo benchmarks and open-source SOTA on 32 of 36; ASR, audio understanding, and voice conversation performance is comparable to Gemini 2.5 Pro.\n\n* **Multilingual**: Supports 119 text languages, 19 speech input languages, and 10 speech output languages.\n  - **Speech Input**: English, Chinese, Korean, Japanese, German, Russian, Italian, French, Spanish, Portuguese, Malay, Dutch, Indonesian, Turkish, Vietnamese, Cantonese, Arabic, Urdu.\n  - **Speech Output**: English, Chinese, French, German, Russian, Italian, Spanish, Portuguese, Japanese, Korean.\n\n* **Novel Architecture**: MoE-based Thinker–Talker design with AuT pretraining for strong general representations, plus a multi-codebook design that drives latency to a minimum.\n\n* **Real-time Audio\u002FVideo Interaction**: Low-latency streaming with natural turn-taking and immediate text or speech responses.\n\n* **Flexible Control**: Customize behavior via system prompts for fine-grained control and easy adaptation.\n\n* **Detailed Audio Captioner**: Qwen3-Omni-30B-A3B-Captioner is now open source: a general-purpose, highly detailed, low-hallucination audio captioning model that fills a critical gap in the open-source community.\n\n### Model Architecture\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Foverview.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### Cookbooks for Usage Cases\n\nQwen3-Omni supports a wide range of multimodal application scenarios, covering various domain tasks involving audio, image, video, and audio-visual modalities. Below are several cookbooks demonstrating the usage cases of Qwen3-Omni and these cookbooks include our actual execution logs. You can first follow the [QuickStart](#quickstart) guide to download the model and install the necessary inference environment dependencies, then run and experiment locally—try modifying prompts or switching model types, and enjoy exploring the capabilities of Qwen3-Omni!\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Category\u003C\u002Fth>\n      \u003Cth>Cookbook\u003C\u002Fth>\n      \u003Cth>Description\u003C\u002Fth>\n      \u003Cth>Open\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"6\">Audio\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_recognition.ipynb\">Speech Recognition\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Speech recognition, supporting multiple languages and long audio.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_recognition.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_translation.ipynb\">Speech Translation\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Speech-to-Text \u002F Speech-to-Speech translation.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_translation.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmusic_analysis.ipynb\">Music Analysis\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Detailed analysis and appreciation of any music, including style, genre, rhythm, etc.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmusic_analysis.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fsound_analysis.ipynb\">Sound Analysis\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Description and analysis of various sound effects and audio signals.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fsound_analysis.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_caption.ipynb\">Audio Caption\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Audio captioning, detailed description of any audio input.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_caption.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmixed_audio_analysis.ipynb\">Mixed Audio Analysis\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Analysis of mixed audio content, such as speech, music, and environmental sounds.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmixed_audio_analysis.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\">Visual\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Focr.ipynb\">OCR\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>OCR for complex images.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Focr.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fobject_grounding.ipynb\">Object Grounding\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Target detection and grounding.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fobject_grounding.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_question.ipynb\">Image Question\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Answering arbitrary questions about any image.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_question.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_math.ipynb\">Image Math\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Solving complex mathematical problems in images, highlighting the capabilities of the Thinking model.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_math.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_description.ipynb\">Video Description\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Detailed description of video content.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_description.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_navigation.ipynb\">Video Navigation\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Generating navigation commands from first-person motion videos.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_navigation.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_scene_transition.ipynb\">Video Scene Transition\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Analysis of scene transitions in videos.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_scene_transition.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"3\">Audio-Visual\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_question.ipynb\">Audio Visual Question\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Answering arbitrary questions in audio-visual scenarios, demonstrating the model's ability to model temporal alignment between audio and video.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_question.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_interaction.ipynb\">Audio Visual Interaction\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Interactive communication with the model using audio-visual inputs, including task specification via audio.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_interaction.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_dialogue.ipynb\">Audio Visual Dialogue\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Conversational interaction with the model using audio-visual inputs, showcasing its capabilities in casual chat and assistant-like behavior.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_dialogue.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Agent\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_function_call.ipynb\">Audio Function Call\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Using audio input to perform function calls, enabling agent-like behaviors.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_function_call.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Downstream Task Fine-tuning\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_captioner.ipynb\">Omni Captioner\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>Introduction and capability demonstration of \u003Cstrong>Qwen3-Omni-30B-A3B-Captioner\u003C\u002Fstrong>, a downstream fine-tuned model based on Qwen3-Omni-30B-A3B-Instruct, illustrating the strong generalization ability of the Qwen3-Omni foundation model.\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_captioner.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## QuickStart\n\nHere, we provide several methods to quickly get started with Qwen3-Omni. If you want complete experience of Qwen3-Omni, you can use [Hugging Face Transformers](#transformers-usage). However, since Qwen3-Omni employs an MoE architecture, inference speed with Hugging Face Transformers on MoE models can be very slow. For large-scale invocation or low-latency requirements, we highly recommend using [vLLM](#vllm-usage) or performing inference via the [DashScope API](#dashscope-api-usage). We also strongly suggest using our provided [Docker](#-docker) image, which includes a complete runtime environment for both Hugging Face Transformers and vLLM. In addition, our [cookbooks](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Ftree\u002Fmain\u002Fcookbooks) offer some use cases to show Qwen3-Omni's capabilities. Welcome to learn more!\n\n### Model Description and Download\n\nBelow is the description of all Qwen3-Omni models. Please select and download the model that fits your needs.\n\n| Model Name                   | Description |\n|------------------------------|-------------|\n| Qwen3-Omni-30B-A3B-Instruct  | The Instruct model of Qwen3-Omni-30B-A3B, containing both thinker and talker, supporting audio, video, and text input, with audio and text output. For more information, please read the [Qwen3-Omni Technical Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.17765). |\n| Qwen3-Omni-30B-A3B-Thinking  | The Thinking model of Qwen3-Omni-30B-A3B, containing the thinker component, equipped with chain-of-thought reasoning, supporting audio, video, and text input, with text output. For more information, please read the [Qwen3-Omni Technical Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.17765).|\n| Qwen3-Omni-30B-A3B-Captioner | A downstream audio fine-grained caption model fine-tuned from Qwen3-Omni-30B-A3B-Instruct, which produces detailed, low-hallucination captions for arbitrary audio inputs. It contains the thinker, supporting audio input and text output. For more information, you can refer to the model's [cookbook](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_captioner.ipynb) or [Hugging Face Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-Omni-Captioner-Demo) and [ModelScope Demo](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-Omni-Captioner-Demo). |\n\nDuring loading in Hugging Face Transformers or vLLM, model weights will be automatically downloaded based on the model name. However, if your runtime environment is not conducive to downloading weights during execution, you can refer to the following commands to manually download the model weights to a local directory:\n\n```bash\n# Download through ModelScope (recommended for users in Mainland China)\npip install -U modelscope\nmodelscope download --model Qwen\u002FQwen3-Omni-30B-A3B-Instruct --local_dir .\u002FQwen3-Omni-30B-A3B-Instruct\nmodelscope download --model Qwen\u002FQwen3-Omni-30B-A3B-Thinking --local_dir .\u002FQwen3-Omni-30B-A3B-Thinking\nmodelscope download --model Qwen\u002FQwen3-Omni-30B-A3B-Captioner --local_dir .\u002FQwen3-Omni-30B-A3B-Captioner\n\n# Download through Hugging Face\npip install -U \"huggingface_hub[cli]\"\nhuggingface-cli download Qwen\u002FQwen3-Omni-30B-A3B-Instruct --local-dir .\u002FQwen3-Omni-30B-A3B-Instruct\nhuggingface-cli download Qwen\u002FQwen3-Omni-30B-A3B-Thinking --local-dir .\u002FQwen3-Omni-30B-A3B-Thinking\nhuggingface-cli download Qwen\u002FQwen3-Omni-30B-A3B-Captioner --local-dir .\u002FQwen3-Omni-30B-A3B-Captioner\n```\n\n### Transformers Usage\n\n#### Installation\n\nThe Hugging Face Transformers code for Qwen3-Omni has been successfully merged. We strongly recommend that you **create a new Python environment** or use our [Docker](#-docker) to avoid environment runtime issues.\n\n```bash\n# If you already have transformers installed, please uninstall it first, or create a new Python environment\n# pip uninstall transformers\npip install transformers==4.57.3\npip install accelerate\n```\n\nWe offer a toolkit to help you handle various types of audio and visual input more conveniently, providing an API-like experience. This includes support for base64, URLs, and interleaved audio, images, and videos. You can install it using the following command and make sure your system has `ffmpeg` installed:\n\n```bash\npip install qwen-omni-utils -U\n```\n\nAdditionally, we recommend using FlashAttention 2 when running with Hugging Face Transformers to reduce GPU memory usage. However, if you are primarily using [vLLM](#vllm-usage) for inference, this installation is not necessary, as vLLM includes FlashAttention 2 by default.\n\n```bash\npip install -U flash-attn --no-build-isolation\n```\n\nAlso, you should have hardware that is compatible with FlashAttention 2. Read more about it in the official documentation of the [FlashAttention repository](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention). FlashAttention 2 can only be used when a model is loaded in `torch.float16` or `torch.bfloat16`.\n\n#### Code Snippet\n\nHere is a code snippet to show you how to use Qwen3-Omni with `transformers` and `qwen_omni_utils`:\n\n```python\nimport soundfile as sf\n\nfrom transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\nMODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n# MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    MODEL_PATH,\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\n\nprocessor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\nconversation = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n            {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n            {\"type\": \"text\", \"text\": \"What can you see and hear? Answer in one short sentence.\"}\n        ],\n    },\n]\n\n# Set whether to use audio in video\nUSE_AUDIO_IN_VIDEO = True\n\n# Preparation for inference\ntext = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = processor(text=text, \n                   audio=audios, \n                   images=images, \n                   videos=videos, \n                   return_tensors=\"pt\", \n                   padding=True, \n                   use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# Inference: Generation of the output text and audio\ntext_ids, audio = model.generate(**inputs, \n                                 speaker=\"Ethan\", \n                                 thinker_return_dict_in_generate=True,\n                                 use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ntext = processor.batch_decode(text_ids.sequences[:, inputs[\"input_ids\"].shape[1] :],\n                              skip_special_tokens=True,\n                              clean_up_tokenization_spaces=False)\nprint(text)\nif audio is not None:\n    sf.write(\n        \"output.wav\",\n        audio.reshape(-1).detach().cpu().numpy(),\n        samplerate=24000,\n    )\n```\n\nHere are some more advanced usage examples. You can expand the sections below to learn more.\n\n\u003Cdetails>\n\u003Csummary>Batch inference\u003C\u002Fsummary>\n\nThe model can batch inputs composed of mixed samples of various types such as text, images, audio, and videos as input when `return_audio=False` is set. Here is an example.\n\n```python\nfrom transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\nMODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n# MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    MODEL_PATH,\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\nmodel.disable_talker()\n\nprocessor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\n# Conversation with image only\nconversation1 = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n            {\"type\": \"text\", \"text\": \"What can you see in this image? Answer in one sentence.\"},\n        ]\n    }\n]\n\n# Conversation with audio only\nconversation2 = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n            {\"type\": \"text\", \"text\": \"What can you hear in this audio?\"},\n        ]\n    }\n]\n\n# Conversation with pure text and system prompt\nconversation3 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"You are Qwen-Omni.\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": \"Who are you?\"\n    }\n]\n\n# Conversation with mixed media\nconversation4 = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n            {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n            {\"type\": \"text\", \"text\": \"What can you see and hear? Answer in one sentence.\"}\n        ],\n    }\n]\n\n# Combine messages for batch processing\nconversations = [conversation1, conversation2, conversation3, conversation4]\n\n# Set whether to use audio in video\nUSE_AUDIO_IN_VIDEO = True\n\n# Preparation for batch inference\ntext = processor.apply_chat_template(conversations, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversations, use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ninputs = processor(text=text, \n                   audio=audios, \n                   images=images, \n                   videos=videos, \n                   return_tensors=\"pt\", \n                   padding=True, \n                   use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# Batch inference does not support returning audio\ntext_ids, audio = model.generate(**inputs,\n                                 return_audio=False,\n                                 thinker_return_dict_in_generate=True,\n                                 use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ntext = processor.batch_decode(text_ids.sequences[:, inputs[\"input_ids\"].shape[1] :],\n                              skip_special_tokens=True,\n                              clean_up_tokenization_spaces=False)\nprint(text)\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Use audio output or not\u003C\u002Fsummary>\n\nThe model supports both text and audio outputs. If users do not need audio outputs, they can call `model.disable_talker()` after initializing the model. This option will save about `10GB` of GPU memory, but the `return_audio` option for the `generate` function will only allow `False`.\n```python\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\",\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\nmodel.disable_talker()\n```\n\nFor a more flexible experience, we recommend that users decide whether to return audio when the `generate` function is called. If `return_audio` is set to `False`, the model will only return text outputs, resulting in faster text responses.\n\n```python\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\",\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\n...\ntext_ids, _ = model.generate(..., return_audio=False)```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Change voice type of output audio\u003C\u002Fsummary>\n\nQwen3-Omni supports changing the voice of the output audio. The `\"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"` checkpoint supports three voice types as follows:\n\n| Voice Type | Gender | Description |\n|------------|--------|-------------|\n| Ethan      | Male   | A bright, upbeat voice with infectious energy and a warm, approachable vibe. |\n| Chelsie    | Female | A honeyed, velvety voice that carries a gentle warmth and luminous clarity. |\n| Aiden      | Male   | A warm, laid-back American voice with a gentle, boyish charm. |\n\nUsers can use the `speaker` parameter of the `generate` function to specify the voice type. By default, if `speaker` is not specified, the voice type is `Ethan`.\n\n```python\ntext_ids, audio = model.generate(..., speaker=\"Ethan\")\n```\n\n```python\ntext_ids, audio = model.generate(..., speaker=\"Chelsie\")\n```\n\n```python\ntext_ids, audio = model.generate(..., speaker=\"Aiden\")\n```\n\n\u003C\u002Fdetails>\n\nAdditionally, for more usage details such as prompt settings, task-specific usage methods, and resource requirements, please refer to [Usage Tips](#usage-tips-recommended-reading) and [Cookbooks for Usage Cases](#cookbooks-for-usage-cases).\n\n### vLLM Usage\n\n#### Installation\n\nWe highly recommend using the latest vLLM-Omni to experience Qwen3-Omni series models. For more details, please refer to the vLLM-Omni official [offline inference documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fexamples\u002Foffline_inference\u002Fqwen3_omni\u002F) and [online inference documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fexamples\u002Fonline_serving\u002Fqwen3_omni\u002F).\n\nWe also recommend using vLLM for inference and deployment of the Qwen3-Omni series models. Please note that we recommend you **create a new Python environment** or use our provided [Docker](#-docker) to avoid runtime environment conflicts and incompatibilities. \n\n```bash\npip install vllm==0.13.0\n# If you meet an \"Undefined symbol\" error while using VLLM_USE_PRECOMPILED=1, please use \"pip install -e . -v\" to build from source.\n# Install the Transformers\npip install transformers==4.57.3\npip install accelerate\npip install qwen-omni-utils -U\npip install -U flash-attn --no-build-isolation\n```\n\n#### Inference\n\nYou can use the following code for vLLM inference. The `limit_mm_per_prompt` parameter specifies the maximum number of each modality's data allowed per message. Since vLLM needs to pre-allocate GPU memory, larger values will require more GPU memory; if OOM issues occur, try reducing this value. Setting `tensor_parallel_size` greater than one enables multi-GPU parallel inference, improving concurrency and throughput. In addition, `max_num_seqs` indicates the number of sequences that vLLM processes in parallel during each inference step. A larger value requires more GPU memory but enables higher batch inference speed. For more details, please refer to the [vLLM official documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fapi\u002Fvllm\u002Findex.html#vllm.LLM). Below is a simple example of how to run Qwen3-Omni with vLLM:\n\n```python\nimport os\nimport torch\n\nfrom vllm import LLM, SamplingParams\nfrom transformers import Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\nif __name__ == '__main__':\n    MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n    # MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\n    llm = LLM(\n            model=MODEL_PATH, trust_remote_code=True, gpu_memory_utilization=0.95,\n            tensor_parallel_size=torch.cuda.device_count(),\n            limit_mm_per_prompt={'image': 3, 'video': 3, 'audio': 3},\n            max_num_seqs=8,\n            max_model_len=32768,\n            seed=1234,\n    )\n\n    sampling_params = SamplingParams(\n        temperature=0.6,\n        top_p=0.95,\n        top_k=20,\n        max_tokens=16384,\n    )\n\n    processor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\n    messages = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"video\", \"video\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fdraw.mp4\"}\n            ], \n        }\n    ]\n\n    text = processor.apply_chat_template(\n        messages,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n    audios, images, videos = process_mm_info(messages, use_audio_in_video=True)\n\n    inputs = {\n        'prompt': text,\n        'multi_modal_data': {},\n        \"mm_processor_kwargs\": {\n            \"use_audio_in_video\": True,\n        },\n    }\n\n    if images is not None:\n        inputs['multi_modal_data']['image'] = images\n    if videos is not None:\n        inputs['multi_modal_data']['video'] = videos\n    if audios is not None:\n        inputs['multi_modal_data']['audio'] = audios\n\n    outputs = llm.generate([inputs], sampling_params=sampling_params)\n\n    print(outputs[0].outputs[0].text)\n```\n\nHere are some more advanced usage examples. You can expand the sections below to learn more.\n\n\u003Cdetails>\n\u003Csummary>Batch inference\u003C\u002Fsummary>\n\nUsing vLLM enables fast batch inference, which can help you efficiently process large volumes of data or conduct benchmarking. Refer to the following code example:\n\n```python\nimport os\nimport torch\n\nfrom vllm import LLM, SamplingParams\nfrom transformers import Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\ndef build_input(processor, messages, use_audio_in_video):\n    text = processor.apply_chat_template(\n        messages,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n    audios, images, videos = process_mm_info(messages, use_audio_in_video=use_audio_in_video)\n\n    inputs = {\n        'prompt': text,\n        'multi_modal_data': {},\n        \"mm_processor_kwargs\": {\n            \"use_audio_in_video\": use_audio_in_video,\n        },\n    }\n\n    if images is not None:\n        inputs['multi_modal_data']['image'] = images\n    if videos is not None:\n        inputs['multi_modal_data']['video'] = videos\n    if audios is not None:\n        inputs['multi_modal_data']['audio'] = audios\n    \n    return inputs\n\nif __name__ == '__main__':\n    MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n    # MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\n    llm = LLM(\n            model=MODEL_PATH, trust_remote_code=True, gpu_memory_utilization=0.95,\n            tensor_parallel_size=torch.cuda.device_count(),\n            limit_mm_per_prompt={'image': 3, 'video': 3, 'audio': 3},\n            max_num_seqs=8,\n            max_model_len=32768,\n            seed=1234,\n    )\n\n    sampling_params = SamplingParams(\n        temperature=0.6,\n        top_p=0.95,\n        top_k=20,\n        max_tokens=16384,\n    )\n\n    processor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\n    # Conversation with image only\n    conversation1 = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n                {\"type\": \"text\", \"text\": \"What can you see in this image? Answer in one sentence.\"},\n            ]\n        }\n    ]\n\n    # Conversation with audio only\n    conversation2 = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n                {\"type\": \"text\", \"text\": \"What can you hear in this audio?\"},\n            ]\n        }\n    ]\n\n    # Conversation with pure text and system prompt\n    conversation3 = [\n        {\n            \"role\": \"system\",\n            \"content\": [\n                {\"type\": \"text\", \"text\": \"You are Qwen-Omni.\"}\n            ],\n        },\n        {\n            \"role\": \"user\",\n            \"content\": \"Who are you? Answer in one sentence.\"\n        }\n    ]\n\n    # Conversation with mixed media\n    conversation4 = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n                {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fcookbook\u002Fasr_fr.wav\"},\n                {\"type\": \"text\", \"text\": \"What can you see and hear? Answer in one sentence.\"}\n            ],\n        }\n    ]\n    \n    USE_AUDIO_IN_VIDEO = True\n\n    # Combine messages for batch processing\n    conversations = [conversation1, conversation2, conversation3, conversation4]\n    inputs = [build_input(processor, messages, USE_AUDIO_IN_VIDEO) for messages in conversations]\n\n    outputs = llm.generate(inputs, sampling_params=sampling_params)\n\n    result = [outputs[i].outputs[0].text for i in range(len(outputs))]\n    print(result)\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>vLLM Serve Usage\u003C\u002Fsummary>\n\nvLLM serve for Qwen3-Omni currently only supports the thinker model. The `use_audio_in_video` parameter is not available in vLLM serve; you can handle this by separately passing video and audio inputs for processing. You can start vLLM serve through the following command:\n\n```bash\n# Qwen3-Omni-30B-A3B-Instruct for single GPU\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Instruct --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 32768 --allowed-local-media-path \u002F -tp 1\n# Qwen3-Omni-30B-A3B-Instruct for multi-GPU (example on 4 GPUs)\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Instruct --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 65536 --allowed-local-media-path \u002F -tp 4\n# Qwen\u002FQwen3-Omni-30B-A3B-Thinking for single GPU\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Thinking --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 32768 --allowed-local-media-path \u002F -tp 1\n# Qwen\u002FQwen3-Omni-30B-A3B-Thinking for multi-GPU (example on 4 GPUs)\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Thinking --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 65536 --allowed-local-media-path \u002F -tp 4\n```\n\nThen you can use the chat API as below (via curl, for example):\n```bash\ncurl http:\u002F\u002Flocalhost:8901\u002Fv1\u002Fchat\u002Fcompletions \\\n    -H \"Content-Type: application\u002Fjson\" \\\n    -d '{\n    \"messages\": [\n    {\"role\": \"system\", \"content\": \"You are a helpful assistant.\"},\n    {\"role\": \"user\", \"content\": [\n        {\"type\": \"image_url\", \"image_url\": {\"url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"}},\n        {\"type\": \"audio_url\", \"audio_url\": {\"url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"}},\n        {\"type\": \"text\", \"text\": \"What can you see and hear? Answer in one sentence.\"}\n    ]}\n    ]\n    }'\n```\n\n\u003C\u002Fdetails>\n\nAdditionally, for more usage details such as prompt settings, task-specific usage methods, and resource requirements, please refer to [Usage Tips](#usage-tips-recommended-reading) and [Cookbooks for Usage Cases](#cookbooks-for-usage-cases).\n\n### DashScope API Usage\n\nTo further explore Qwen3-Omni, we encourage you to try our DashScope API for a faster and more efficient experience. For detailed API information and documentation, please refer to the following:\n\n| API Description | API Documentation (Mainland China) | API Documentation (International) |\n|------------------|-----------------------------------|------------------------------------|\n| Offline API for Qwen3-Omni-Flash, including Instruct and Thinking models | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-omni](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-omni) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-omni](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-omni) |\n| Real-time API for Qwen3-Omni-Flash, supporting end-to-end real-time interaction | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Frealtime](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Frealtime) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Frealtime](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Frealtime) |\n| API for Qwen3-Omni-30B-A3B-Captioner model | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner) |\n\n### Usage Tips (Recommended Reading)\n\n#### Minimum GPU memory requirements\n\n| Model                        | Precision | 15s Video | 30s Video | 60s Video | 120s Video   |\n|------------------------------|-----------| --------- | --------- | --------- | --------- |\n| Qwen3-Omni-30B-A3B-Instruct  | BF16      | 78.85 GB  | 88.52 GB  | 107.74 GB | 144.81 GB |\n| Qwen3-Omni-30B-A3B-Thinking  | BF16      | 68.74 GB  | 77.79 GB  | 95.76 GB  | 131.65 GB  |\n\n**Note**: The table above presents the theoretical minimum memory requirements for inference with `transformers` and `BF16` precision, tested with `attn_implementation=\"flash_attention_2\"`. The Instruct model includes both the **thinker** and **talker** components, whereas the Thinking model includes only the **thinker** part.\n\n#### Prompt for Audio-Visual Interaction\n\nWhen using Qwen3-Omni for audio-visual multimodal interaction, where the input consists of a video and its corresponding audio (with the audio serving as a query), we recommend using the **following system prompt**. This setup helps the model maintain high reasoning capability while better assuming interactive roles such as a smart assistant. Additionally, the text generated by the thinker will be more readable, with a natural, conversational tone and without complex formatting that is difficult to vocalize, leading to more stable and fluent audio output from the talker. You can customize the `user_system_prompt` field in the system prompt to include character settings or other role-specific descriptions as needed.\n\n```\nuser_system_prompt = \"You are Qwen-Omni, a smart voice assistant created by Alibaba Qwen.\"\nmessage = {\n    \"role\": \"system\",\n    \"content\": [\n          {\"type\": \"text\", \"text\": f\"{user_system_prompt} You are a virtual voice assistant with no gender or age.\\nYou are communicating with the user.\\nIn user messages, “I\u002Fme\u002Fmy\u002Fwe\u002Four” refer to the user and “you\u002Fyour” refer to the assistant. In your replies, address the user as “you\u002Fyour” and yourself as “I\u002Fme\u002Fmy”; never mirror the user’s pronouns—always shift perspective. Keep original pronouns only in direct quotes; if a reference is unclear, ask a brief clarifying question.\\nInteract with users using short(no more than 50 words), brief, straightforward language, maintaining a natural tone.\\nNever use formal phrasing, mechanical expressions, bullet points, overly structured language. \\nYour output must consist only of the spoken content you want the user to hear. \\nDo not include any descriptions of actions, emotions, sounds, or voice changes. \\nDo not use asterisks, brackets, parentheses, or any other symbols to indicate tone or actions. \\nYou must answer users' audio or text questions, do not directly describe the video content. \\nYou should communicate in the same language strictly as the user unless they request otherwise.\\nWhen you are uncertain (e.g., you can't see\u002Fhear clearly, don't understand, or the user makes a comment rather than asking a question), use appropriate questions to guide the user to continue the conversation.\\nKeep replies concise and conversational, as if talking face-to-face.\"}\n    ]\n}\n```\n\n#### Best Practices for the Thinking Model\n\nThe `Qwen3-Omni-30B-A3B-Thinking` model is primarily designed for understanding and interacting with multimodal inputs, including text, audio, image, and video. To achieve optimal performance, we recommend that users include an explicit textual instruction or task description in each round of dialogue alongside the multimodal input. This helps clarify the intent and significantly enhances the model's ability to leverage its reasoning capabilities. For example:\n\n```python\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n            {\"type\": \"image\", \"image\": \"\u002Fpath\u002Fto\u002Fimage.png\"},\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n            {\"type\": \"text\", \"text\": \"Analyze this audio, image, and video together.\"},\n        ], \n    }\n]\n```\n\n#### Use audio in video\n\nIn multimodal interaction, user-provided videos are often accompanied by audio (such as spoken questions or sounds from events in the video). This information helps the model provide a better interactive experience. We provide the following options for users to decide whether to use the audio from a video.\n\n```python\n# In data preprocessing\naudios, images, videos = process_mm_info(messages, use_audio_in_video=True)\n```\n\n```python\n# For Transformers\ntext = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", \n                   padding=True, use_audio_in_video=True)\ntext_ids, audio = model.generate(..., use_audio_in_video=True)\n\n# For vLLM\ntext = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)\ninputs = {\n    'prompt': text,\n    'multi_modal_data': {},\n    \"mm_processor_kwargs\": {\n        \"use_audio_in_video\": True,\n    },\n}\n```\n\nIt is worth noting that during a multi-round conversation, the `use_audio_in_video` parameter must be set consistently across these steps; otherwise, unexpected results may occur.\n\n## Interaction with Qwen3-Omni\n\n### Online Demo\n\nWithout local deployment, you can experience an online web demo directly by visiting our [Hugging Face Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-Omni-Demo) and [ModelScope Studio](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-Omni-Demo). This includes quick hands-on experiences for Qwen3-Omni-Realtime, Qwen3-Omni (Instruct and Thinking), and Qwen3-Omni-30B-A3B-Captioner.\n\n### Real-Time Interaction\n\nReal-time streaming interaction with Qwen3-Omni is available now. Please visit [Qwen Chat](https:\u002F\u002Fchat.qwen.ai\u002F) and select the voice\u002Fvideo call option in the chat box to experience it.\n\n### Launch Local Web UI Demo\n\nIn this section, we provide instructions for users to build a web-based user interface (UI) demo. This UI demo allows users to interact with the model through a web browser. Follow the steps below to get start :)\n\n#### Installation\n\nBefore you begin, we strongly recommend that you refer to the **Installation** section in [vLLM Usage](#vllm-usage) to set up your environment, which will allow you to seamlessly use both the vLLM and Transformers backends. However, if you only intend to use the Transformers backend (**note that this will result in significantly slower inference**), please follow the installation instructions in [Transformers Usage](#transformers-usage). That said, we still highly recommend using our [Docker](#-docker) image to avoid potential environment-related issues. Additionally, if you are running locally, make sure your system has `ffmpeg` installed and you install the following dependencies:\n\n```bash\npip install gradio==5.44.1 gradio_client==1.12.1 soundfile==0.13.1\n```\n\n#### Running the Demo\n\nOnce the required packages are installed, you can launch the web demo using the following commands. These commands will start a web server and provide you with a link to access the UI in your web browser. You can run `python web_demo.py --help` and `python web_demo_captioner.py --help` to learn about more options.\n\n```bash\n# For Qwen3-Omni-30B-A3B-Instruct with vLLM backend\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct\n# For Qwen3-Omni-30B-A3B-Instruct with Transformers backend\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct --use-transformers --generate-audio\n# For Qwen3-Omni-30B-A3B-Instruct with Transformers backend and FlashAttention support\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct --use-transformers --generate-audio --flash-attn2\n```\n\n```bash\n# For Qwen3-Omni-30B-A3B-Thinking with vLLM backend\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Thinking\n# For Qwen3-Omni-30B-A3B-Thinking with Transformers backend\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Thinking --use-transformers\n# For Qwen3-Omni-30B-A3B-Thinking with Transformers backend and FlashAttention support\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Thinking --use-transformers --flash-attn2\n```\n\n```bash\n# For Qwen3-Omni-30B-A3B-Captioner with vLLM backend\npython web_demo_captioner.py -c Qwen\u002FQwen3-Omni-30B-A3B-Captioner\n# For Qwen3-Omni-30B-A3B-Captioner with Transformers backend\npython web_demo_captioner.py -c Qwen\u002FQwen3-Omni-30B-A3B-Captioner --use-transformers\n# For Qwen3-Omni-30B-A3B-Captioner with Transformers backend and FlashAttention support\npython web_demo_captioner.py -c Qwen\u002FQwen3-Omni-30B-A3B-Captioner --use-transformers --flash-attn2\n```\n\nAfter running the command, you’ll see a link generated in the terminal similar to this:\n\n```\nRunning on local: http:\u002F\u002F127.0.0.1:8901\u002F\n```\n\nIf you are running locally, copy this link and paste it into your browser to access the web UI. If you are running on a server or in a `docker` container, please configure the address according to the server's actual IP, or set up port forwarding where necessary. For instructions on how to configure port forwarding from the official `docker` container to the host machine, please refer to [here](#-docker).\n\n## 🐳 Docker\n\nTo simplify the deployment process, we provide Docker images with pre-built environments: [qwenllm\u002Fqwen3-omni](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fqwenllm\u002Fqwen3-omni). You only need to install the driver and download model files to launch the demos. Please refer to the [guide](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Flatest\u002Finstall-guide.html) to install the NVIDIA Container Toolkit, ensuring that your Docker can access the GPU. For users in mainland China who may have difficulty accessing Docker Hub, you can use mirror acceleration services to pull the images. First, run the following command to pull and initialize the container:\n\n```bash\nLOCAL_WORKDIR=\u002Fpath\u002Fto\u002Fyour\u002Fworkspace\nHOST_PORT=8901\nCONTAINER_PORT=80\ndocker run --gpus all --name qwen3-omni \\\n    -v \u002Fvar\u002Frun\u002Fdocker.sock:\u002Fvar\u002Frun\u002Fdocker.sock -p $HOST_PORT:$CONTAINER_PORT \\\n    --mount type=bind,source=$LOCAL_WORKDIR,target=\u002Fdata\u002Fshared\u002FQwen3-Omni \\\n    --shm-size=4gb \\\n    -it qwenllm\u002Fqwen3-omni:3-cu124\n```\n\nAfter executing the command, you will enter the bash shell of the container. Your local model and data directory (**please replace** `\u002Fpath\u002Fto\u002Fyour\u002Fworkspace` **with the actual path**) will be mounted to the container's internal path `\u002Fdata\u002Fshared\u002FQwen3-Omni`. The host's port `8901` is mapped to port `80` in the container, meaning you can access the service inside the container by visiting port `8901` on the host machine.\n\nPlease note that services inside the container must be started with the IP `0.0.0.0` to ensure proper port forwarding. For example:\n\n```bash\n# Run this command inside the Docker container\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct --server-port 80 --server-name 0.0.0.0\n```\n\nFor more ways to launch the web demo, please refer to [Launch Local Web UI Demo](#launch-local-web-ui-demo). If you exit the container, you can re-enter it using the following command:\n\n```bash\ndocker start qwen3-omni\ndocker exec -it qwen3-omni bash\n```\n\nOr if you want to completely remove the container, please run:\n\n```bash\ndocker rm -f qwen3-omni\n```\n\n## Evaluation\n\n### Performance of Qwen3-Omni\n\nQwen3-Omni maintains state-of-the-art performance on text and visual modalities without degradation relative to same-size single-model Qwen counterparts. Across 36 audio and audio-visual benchmarks, it achieves open-source SOTA on 32 and sets the SOTA on 22, outperforming strong closed-source systems such as Gemini 2.5 Pro and GPT-4o.\n\n\u003Cdetails>\n\u003Csummary>Text -> Text\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth colspan=\"2\" style=\"text-align: left;\">\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT-4o-0327\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-235B-A22B\u003Cbr>Non Thinking\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-30B-A3B-Instruct-2507\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\" style=\"text-align: left; vertical-align: middle;\">General\u003Cbr>Tasks\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">MMLU-Redux\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>91.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">89.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">89.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">GPQA\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">66.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">62.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>70.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\" style=\"text-align: left; vertical-align: middle;\">Reasoning\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">AIME25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">26.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">24.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>65.9\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ZebraLogic\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">37.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>90.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left; vertical-align: middle;\">Code\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">MultiPL-E\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">79.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>83.8\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd rowspan=\"3\" style=\"text-align: left; vertical-align: middle;\">Alignment\u003Cbr>Tasks\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">IFEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>84.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Creative Writing v3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">84.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">80.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>86.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">WritingBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>85.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left; vertical-align: middle;\">Agent\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">BFCL-v3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">66.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>68.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\" style=\"text-align: left; vertical-align: middle;\">Multilingual\u003Cbr>Tasks\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">MultiIF\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>70.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">67.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PolyMATH\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">27.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>43.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">37.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid black;\">\n      \u003Cth>\u003C\u002Fth>\n      \u003Cth>\u003C\u002Fth>\n      \u003Cth>Gemini-2.5-Flash\u003Cbr>Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-235B-A22B\u003Cbr>Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-30B-A3B-Thinking-2507\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">\u003Cem>General\u003Cbr>Tasks\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>MMLU-Redux\u003C\u002Ftd>\n      \u003Ctd>92.1\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>92.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>91.4\u003C\u002Ftd>\n      \u003Ctd>88.8\u003C\u002Ftd>\n      \u003Ctd>89.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>GPQA\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>82.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>71.1\u003C\u002Ftd>\n      \u003Ctd>73.4\u003C\u002Ftd>\n      \u003Ctd>73.1\u003C\u002Ftd>\n      \u003Ctd>73.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd rowspan=\"2\">\u003Cem>Reasoning\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>AIME25\u003C\u002Ftd>\n      \u003Ctd>72.0\u003C\u002Ftd>\n      \u003Ctd>81.5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>85.0\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>73.7\u003C\u002Ftd>\n      \u003Ctd>74.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>LiveBench 20241125\u003C\u002Ftd>\n      \u003Ctd>74.3\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>77.1\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>76.8\u003C\u002Ftd>\n      \u003Ctd>71.8\u003C\u002Ftd>\n      \u003Ctd>70.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd>\u003Cem>Code\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>MultiPL-E\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>84.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>79.9\u003C\u002Ftd>\n      \u003Ctd>81.3\u003C\u002Ftd>\n      \u003Ctd>80.6\u003C\u002Ftd>\n      \u003Ctd>81.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd rowspan=\"4\">\u003Cem>Alignment\u003Cbr>Tasks\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>IFEval\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>89.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>83.4\u003C\u002Ftd>\n      \u003Ctd>88.9\u003C\u002Ftd>\n      \u003Ctd>85.1\u003C\u002Ftd>\n      \u003Ctd>85.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>Arena-Hard v2\u003C\u002Ftd>\n      \u003Ctd>56.7\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>61.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>56.0\u003C\u002Ftd>\n      \u003Ctd>55.1\u003C\u002Ftd>\n      \u003Ctd>57.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>Creative Writing v3\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>85.0\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>84.6\u003C\u002Ftd>\n      \u003Ctd>84.4\u003C\u002Ftd>\n      \u003Ctd>82.5\u003C\u002Ftd>\n      \u003Ctd>83.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>WritingBench\u003C\u002Ftd>\n      \u003Ctd>83.9\u003C\u002Ftd>\n      \u003Ctd>80.3\u003C\u002Ftd>\n      \u003Ctd>85.0\u003C\u002Ftd>\n      \u003Ctd>85.5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>85.9\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd>\u003Cem>Agent\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>BFCL-v3\u003C\u002Ftd>\n      \u003Ctd>68.6\u003C\u002Ftd>\n      \u003Ctd>70.8\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>72.4\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>63.2\u003C\u002Ftd>\n      \u003Ctd>64.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd rowspan=\"2\">\u003Cem>Multilingual\u003Cbr>Tasks\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>MultiIF\u003C\u002Ftd>\n      \u003Ctd>74.4\u003C\u002Ftd>\n      \u003Ctd>71.9\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>76.4\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>72.9\u003C\u002Ftd>\n      \u003Ctd>73.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>PolyMATH\u003C\u002Ftd>\n      \u003Ctd>49.8\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>54.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>52.6\u003C\u002Ftd>\n      \u003Ctd>47.1\u003C\u002Ftd>\n      \u003Ctd>48.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Audio -> Text\u003C\u002Fsummary>\n\n\u003Ctable style=\"width:100%; border-collapse: collapse;\">\n\u003Cthead>\n  \u003Ctr>\n    \u003Cth align=\"left\" style=\"padding: 8px;\">\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Seed-ASR\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Voxtral-Mini\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Voxtral-Small\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">GPT-4o-Transcribe\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Gemini-2.5-Pro\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Qwen2.5-Omni\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n  \u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>EN & ZH ASR (wer)\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Wenetspeech\u003Cbr>\u003Cem>net\u003C\u002Fem> | \u003Cem>meeting\u003C\u002Fem>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.66 | \u003Cstrong>5.69\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">24.30 | 31.53\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">20.33 | 26.08\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">15.30 | 32.27\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">14.43 | 13.47\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.91 | 7.65\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.69 | 5.89\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>4.62\u003C\u002Fstrong> | 5.75\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Librispeech\u003Cbr>\u003Cem>clean\u003C\u002Fem> | \u003Cem>other\u003C\u002Fem>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.58 | 2.84\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.88 | 4.12\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.56 | 3.30\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.39 | 3.75\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.89 | 3.56\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.74 | 3.45\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>1.22\u003C\u002Fstrong> | 2.48\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.27 | \u003Cstrong>2.44\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">CV15-en\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.47\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.79\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">10.01\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.89\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.61\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">6.05\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>5.94\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">CV15-zh\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">24.67\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">19.30\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.84\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">8.00\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.13\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.31\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>4.28\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-en\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.40\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.96\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.77\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.32\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.94\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.77\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>2.72\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.74\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-zh\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.69\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">12.22\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.98\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.44\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.71\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.54\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.20\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>2.19\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>Multilingual ASR (wer)\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-avg\u003Cbr>(19 lang)\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">15.67\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">8.09\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.48\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.55\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">14.04\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.33\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>5.31\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>Lyric ASR (wer)\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">MIR-1K (vocal-only)\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">6.45\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">23.33\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">18.73\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">11.87\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.85\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">8.15\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.90\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>5.85\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Opencpop-test\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.98\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">31.01\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">16.06\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.93\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">6.49\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.84\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>1.54\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.02\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>S2TT (BLEU)\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-en2xx\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">30.35\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">37.85\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>39.25\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">29.22\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">37.50\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">36.22\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-xx2en\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">27.54\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">32.81\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>35.41\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">28.61\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">31.08\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">30.71\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-zh2xx\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">17.03\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">22.05\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>26.63\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">17.97\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">25.17\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">25.10\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-xx2zh\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">28.75\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">34.82\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>37.50\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">27.68\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">33.13\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">31.19\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable style=\"width:100%; border-collapse: collapse;\">\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid #ddd;\">\n      \u003Cth style=\"text-align:left; padding: 8px;\">\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">GPT-4o-Audio\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Gemini-2.5-Flash\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Gemini-2.5-Pro\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen2.5-Omni\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"9\" align=\"center\" style=\"padding: 8px; font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cstrong>VoiceBench\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">AlpacaEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">95.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">96.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">94.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">94.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">96.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">95.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>96.8\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">CommonEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>91.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">WildVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">91.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">92.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">93.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">91.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>92.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">SD-QA\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">75.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">84.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>90.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">56.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">78.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">78.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">MMSU\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">66.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">71.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">61.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">68.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">68.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>84.3\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">OpenBookQA\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">56.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">92.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">94.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">91.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>95.0\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">BBH\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">84.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>92.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">66.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">IFEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>85.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">53.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">75.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">AdvBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">99.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>99.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">97.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>99.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">Overall\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">86.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>89.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">73.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">85.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">85.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"9\" align=\"center\" style=\"padding: 8px; font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cstrong>Audio Reasoning\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">MMAU-v05.15.25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">62.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">71.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">65.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">75.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>77.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr\">\n      \u003Ctd style=\"text-align:left; padding: 8px;\">MMSU\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">56.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>77.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">62.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">69.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">69.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">71.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid black;\">\n      \u003Cth style=\"text-align: left;\">\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Best Specialist\u003Cbr>Models\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT-4o-Audio\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Gemini-2.5-Pro\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen2.5-Omni\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">RUL-MuchoMusic\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.6 (Audio Flamingo 3)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">36.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">49.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>52.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">GTZAN\u003Cbr>\u003Cem>Acc.\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.9 (CLaMP 3)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">93.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>93.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG Genre\u003Cbr>\u003Cem>Micro F1\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">35.8 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>39.5\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG Mood\u002FTheme\u003Cbr>\u003Cem>Micro F1\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.9 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">11.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>21.7\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG Instrument\u003Cbr>\u003Cem>Micro F1\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.8 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">34.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">33.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">22.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">40.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>40.7\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG Top50\u003Cbr>\u003Cem>Micro F1\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">33.2 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">26.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">36.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>36.9\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MagnaTagATune\u003Cbr>\u003Cem>Micro F1\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">41.6 (MuQ)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">29.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">28.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">44.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>46.8\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Vision -> Text\u003C\u002Fsummary>\n\n\u003Ctable style=\"width:100%; border-collapse: collapse;\">\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid black;\">\n      \u003Cth style=\"text-align: left;\">Datasets\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT4-o\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Gemini-2.0-Flash\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen2.5-VL\u003Cbr>72B\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-30B-A3B\u003Cbr>-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-Flash\u003Cbr>-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid #ddd; border-bottom: 1px solid black;\">General Visual Question Answering\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MMStar\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>71.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">68.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">HallusionBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">55.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">56.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">55.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>59.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">58.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MM-MT-Bench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">Math & STEM\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MMMU_val\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>71.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MMMU_pro\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">51.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">56.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">51.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">57.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>57.6\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MathVista_mini\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>77.4\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MathVision_full\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">48.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">38.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">56.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>58.3\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">Documentation Understanding\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">AI2D\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">84.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>88.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">85.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ChartQA_test\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>89.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">Counting\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">CountBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">91.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>93.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">90.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">90.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">Video Understanding\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Video-MME\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">72.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>73.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">LVBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>57.9\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">51.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MLVU\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>75.5\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable style=\"width: 100%; border-collapse: collapse;\">\n  \u003Cthead style=\"border-bottom: 1px solid black;\">\n    \u003Ctr>\n      \u003Cth align=\"left\" style=\"padding: 6px;\">Datasets\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">Gemini-2.5-flash-thinking\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">InternVL-3.5-241B-A28B\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr style=\"border-top: 2px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-bottom: 1px solid black;\">General Visual Question Answering\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MMStar\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>77.9\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">74.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">HallusionBench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">61.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">57.3\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">62.8\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>63.4\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MM-MT-Bench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">7.8\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>8.0\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>8.0\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">Math & STEM\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MMMU_val\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">76.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>77.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MMMU_pro\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>65.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">60.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">60.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MathVista_mini\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">77.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>82.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">80.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">81.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MathVision_full\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">62.3\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>63.9\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">62.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">63.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">Documentation Understanding\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">AI2D_test\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>88.6\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">87.3\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">86.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">86.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">ChartQA_test\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">88.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>89.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">89.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">Counting\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">CountBench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">88.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">88.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>92.5\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">Video Understanding\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">Video-MME\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>79.6\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">72.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">69.7\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">69.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">LVBench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>64.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">49.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">49.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MLVU\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>82.1\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">78.2\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">72.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">73.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>AudioVisual -> Text\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Datasets\u003C\u002Fth>\n      \u003Cth>Previous Open-source SoTA\u003C\u002Fth>\n      \u003Cth>Gemini-2.5-Flash\u003C\u002Fth>\n      \u003Cth>Qwen2.5-Omni\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>WorldSense\u003C\u002Ftd>\n      \u003Ctd>47.1\u003C\u002Ftd>\n      \u003Ctd>50.9\u003C\u002Ftd>\n      \u003Ctd>45.4\u003C\u002Ftd>\n      \u003Ctd>54.0\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>54.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>Datasets\u003C\u002Fth>\n      \u003Cth>Previous Open-source SoTA\u003C\u002Fth>\n      \u003Cth>Gemini-2.5-Flash-Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>DailyOmni\u003C\u002Ftd>\n      \u003Ctd>69.8\u003C\u002Ftd>\n      \u003Ctd>72.7\u003C\u002Ftd>\n      \u003Ctd>75.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>76.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>VideoHolmes\u003C\u002Ftd>\n      \u003Ctd>55.6\u003C\u002Ftd>\n      \u003Ctd>49.5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>57.3\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>57.3\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>Zero-shot Speech Generation\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth align=\"left\">Datasets\u003C\u002Fth>\n      \u003Cth align=\"left\">Model\u003C\u002Fth>\n      \u003Cth align=\"left\">Performance\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>&nbsp;\u003C\u002Ftd>\n      \u003Ctd colspan=\"2\" align=\"center\">\u003Cem>Content Consistency\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"10\" align=\"center\" valign=\"middle\">\u003Cstrong>SEED\u003C\u002Fstrong>\u003Cbr>\u003Cem>test-zh\u003C\u002Fem> | \u003Cem>test-en\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">Seed-TTS\u003Csub>ICL\u003C\u002Fsub>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.11 | 2.24\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Seed-TTS\u003Csub>RL\u003C\u002Fsub>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.00 | 1.94\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">MaskGCT\u003C\u002Ftd>\n      \u003Ctd align=\"left\">2.27 | 2.62\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">E2 TTS\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.97 | 2.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">F5-TTS\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.56 | 1.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Spark TTS\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.20 | 1.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">CosyVoice 2\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.45 | 2.57\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">CosyVoice 3\u003C\u002Ftd>\n      \u003Ctd align=\"left\">\u003Cstrong>0.71\u003C\u002Fstrong> | 1.45\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.42 | 2.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Qwen3-Omni-30B-A3B\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.07 | \u003Cstrong>1.39\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Multilingual Speech Generation \u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" align=\"left\">Language\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align:center; padding: 8px; font-weight: bold; border-bottom: 1px solid #ddd;\">Content Consistency\u003C\u002Fth>\n      \u003Cth colspan=\"3\"  style=\"text-align:center; padding: 8px; font-weight: bold; border-bottom: 1px solid #ddd;\">Speaker Similarity\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth align=\"center\">Qwen3-Omni-30B-A3B\u003C\u002Fth>\n      \u003Cth align=\"center\">MiniMax\u003C\u002Fth>\n      \u003Cth align=\"center\">ElevenLabs\u003C\u002Fth>\n      \u003Cth align=\"center\">Qwen3-Omni-30B-A3B\u003C\u002Fth>\n      \u003Cth align=\"center\">MiniMax\u003C\u002Fth>\n      \u003Cth align=\"center\">ElevenLabs\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Chinese\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.716\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.252\u003C\u002Ftd>\n      \u003Ctd align=\"center\">16.026\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.772\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.780\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.677\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">English\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.069\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.164\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.339\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.773\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.756\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.613\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">German\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.777\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.906\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.572\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.738\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.733\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.614\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Italian\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.067\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.543\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.743\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.742\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.699\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.579\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Portuguese\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.872\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.877\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.331\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.770\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.805\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.711\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Spanish\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.765\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.029\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.084\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.744\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.762\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.615\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Japanese\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.631\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.519\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10.646\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.763\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.776\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.738\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Korean\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.670\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.747\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.865\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.778\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.776\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.700\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">French\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.505\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.099\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.216\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.689\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.628\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.535\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Russian\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.986\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.281\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.878\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.759\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.761\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.676\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>Cross-Lingual Speech Generation \u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">Language\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">Qwen3-Omni-30B-A3B\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">CosyVoice3\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">CosyVoice2\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">en-to-zh\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">5.37\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>5.09\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">13.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ja-to-zh\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">3.32\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.05\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">48.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ko-to-zh\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>0.99\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">1.06\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">7.70\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">zh-to-en\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>2.76\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">2.98\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">6.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ja-to-en\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.31\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">4.20\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">17.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ko-to-en\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.34\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">4.19\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">11.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">zh-to-ja\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">8.29\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>7.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">13.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">en-to-ja\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">7.53\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>6.80\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">14.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ko-to-ja\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">4.24\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.93\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">5.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">zh-to-ko\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>5.13\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">14.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">24.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">en-to-ko\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>4.96\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">5.87\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">21.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ja-to-ko\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>6.23\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">7.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">21.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n### Setting for Evaluation\n\n*   **Decoding Strategy**: For the Qwen3-Omni series across all evaluation benchmarks, `Instruct` models use greedy decoding during generation without sampling. For `Thinking` models, the decoding parameters should be taken from the `generation_config.json` file in the checkpoint.\n*   **Benchmark-Specific Formatting**: For the majority of evaluation benchmarks, they come with their own ChatML formatting to embed the question or prompt. It should be noted that all video data are set to `fps=2` during evaluation.\n*   **Default Prompts**: For tasks in certain benchmarks that do not include a prompt, we use the following prompt settings:\n\n| Task Type | Prompt |\n| :--- | :--- |\n| Auto Speech Recognition (ASR) for Chinese | 请将这段中文语音转换为纯文本。 |\n| Auto Speech Recognition (ASR) for Other languages | Transcribe the \u003Csource_language> audio into text. |\n| Speech-to-Text Translation (S2TT) | Listen to the provided \u003Csource_language> speech and produce a translation in \u003Ctarget_language> text. |\n| Song Lyrics Recognition | Transcribe the song lyrics into text without any punctuation, separate lines with line breaks, and output only the lyrics without additional explanations. |\n\n*   **System Prompt**: No `system prompt` should be set for any evaluation benchmark.\n*   **Input Sequence**: The question or prompt should be input as user text. Unless otherwise specified by the benchmark, the text should come **after** multimodal data in the sequence. For example:\n\n```python\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n            {\"type\": \"image\", \"image\": \"\u002Fpath\u002Fto\u002Fimage.png\"},\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n            {\"type\": \"text\", \"text\": \"Describe the audio, image and video.\"},\n        ],\n    },\n]\n```\n\n\n## Citation\n\nIf you find our paper and code useful in your research, please consider giving a star :star: and citation :pencil: :)\n\n\n```BibTeX\n@article{Qwen3-Omni,\n  title={Qwen3-Omni Technical Report},\n  author={Jin Xu and Zhifang Guo and Hangrui Hu and Yunfei Chu and Xiong Wang and Jinzheng He and Yuxuan Wang and Xian Shi and Ting He and Xinfa Zhu and Yuanjun Lv and Yongqi Wang and Dake Guo and He Wang and Linhan Ma and Pei Zhang and Xinyu Zhang and Hongkun Hao and Zishan Guo and Baosong Yang and Bin Zhang and Ziyang Ma and Xipin Wei and Shuai Bai and Keqin Chen and Xuejing Liu and Peng Wang and Mingkun Yang and Dayiheng Liu and Xingzhang Ren and Bo Zheng and Rui Men and Fan Zhou and Bowen Yu and Jianxin Yang and Le Yu and Jingren Zhou and Junyang Lin},\n  journal={arXiv preprint arXiv:2509.17765},\n  year={2025}\n}\n```\n\n\u003Cbr>\n","# Qwen3-Omni\n\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002F\u002FQwen3-Omni\u002Fqwen3_omni_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\n        💜 \u003Ca href=\"https:\u002F\u002Fchat.qwen.ai\u002F\">\u003Cb>Qwen Chat\u003C\u002Fb>\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-omni-68d100a86cd0906843ceccbe\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FQwen3-Omni-867aef131e7d4f\">ModelScope\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fqwen.ai\u002Fblog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list\">Blog\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📚 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Ftree\u002Fmain\u002Fcookbooks\">Cookbooks\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.17765\">Paper\u003C\u002Fa>&nbsp&nbsp\n\u003Cbr>\n🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-Omni-Demo\">Hugging Face Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp 🖥️ \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-Omni-Demo\">ModelScope Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Fblob\u002Fmain\u002Fassets\u002Fwechat.png\">WeChat (微信)\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FCV4E9rpNSD\">Discord\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fuser-guide\u002Fqwen-omni\">API\u003C\u002Fa>\n\n\u003C\u002Fp>\n\n我们发布了**Qwen3-Omni**，这是一系列原生端到端的多语言全模态基础模型。它能够处理文本、图像、音频和视频等多种输入，并以文本和自然语音的形式提供实时流式响应。点击下方视频了解更多详情 😃\n\n\u003Cdetails open>\n\u003Csummary>英文版\u003C\u002Fsummary>\n\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002F_zdOrPju4_g\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fvideocover.png\" alt=\"打开英文视频\"\u002F>\n\u003C\u002Fa>\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>中文版\u003C\u002Fsummary>\n\u003Ca href=\"https:\u002F\u002Fyoutu.be\u002FWtjsw5deXfQ\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fvideocover.png\" alt=\"打开中文视频\"\u002F>\n\u003C\u002Fa>\n\u003C\u002Fdetails>\n\n\n## 新闻\n* 2025年9月26日：⭐️⭐️⭐️ Qwen3-Omni荣登Hugging Face Trending榜单第一名！\n* 2025年9月22日：🎉🎉🎉 我们已发布[Qwen3-Omni](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-omni-68d100a86cd0906843ceccbe)。更多详情请查看我们的[博客](https:\u002F\u002Fqwen.ai\u002Fblog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list)！\n\n## 目录 \u003C!-- omit in toc -->\n\n- [概述](#overview)\n  - [简介](#introduction)\n  - [模型架构](#model-architecture)\n  - [使用场景手册](#cookbooks-for-usage-cases)\n- [快速入门](#quickstart)\n  - [模型说明与下载](#model-description-and-download)\n  - [Transformers使用方法](#transformers-usage)\n  - [vLLM使用方法](#vllm-usage)\n  - [DashScope API使用方法](#dashscope-api-usage)\n  - [使用技巧（建议阅读）](#usage-tips-recommended-reading)\n- [与Qwen3-Omni互动](#interaction-with-qwen3-omni)\n  - [在线演示](#online-demo)\n  - [实时交互](#real-time-interaction)\n  - [启动本地Web UI演示](#launch-local-web-ui-demo)\n- [Docker](#-docker)\n- [评估](#evaluation)\n  - [Qwen3-Omni的性能](#performance-of-qwen3-omni)\n  - [评估设置](#setting-for-evaluation)\n- [引用](#citation)\n\n## 概述\n### 简介\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fq3o_introduction.png\" width=\"90%\"\u002F>\n\u003Cp>\n\nQwen3-Omni是原生端到端的多语言全模态基础模型。它可以处理文本、图像、音频和视频，并以文本和自然语音的形式提供实时流式响应。我们引入了多项架构升级，以提升性能和效率。其主要特点如下：\n\n* **跨模态的最先进水平**：早期的文本优先预训练和混合多模态训练提供了原生的多模态支持。在取得强大的音频及音视频效果的同时，单模态的文本和图像性能并未退化。在36项音视频基准测试中，有22项达到SOTA水平；在开源领域则有32项达到SOTA水平；ASR、音频理解以及语音对话的表现可与Gemini 2.5 Pro相媲美。\n\n* **多语言支持**：支持119种文本语言、19种语音输入语言和10种语音输出语言。\n  - **语音输入**：英语、汉语、韩语、日语、德语、俄语、意大利语、法语、西班牙语、葡萄牙语、马来语、荷兰语、印尼语、土耳其语、越南语、粤语、阿拉伯语、乌尔都语。\n  - **语音输出**：英语、汉语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。\n\n* **创新架构**：基于MoE的Thinker–Talker设计，结合AuT预训练以获得强大的通用表征；同时采用多代码本设计，将延迟降至最低。\n\n* **实时音视频交互**：低延迟流式传输，具备自然的轮流发言机制，并能即时生成文本或语音回应。\n\n* **灵活可控**：通过系统提示词自定义行为，实现精细化控制和便捷适配。\n\n* **详尽的音频字幕生成器**：Qwen3-Omni-30B-A3B-Captioner现已开源——这是一款通用、高度细致且幻觉率极低的音频字幕生成模型，填补了开源社区中的一个重要空白。\n\n### 模型架构\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Foverview.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### 使用场景手册\n\nQwen3-Omni支持广泛的多模态应用场景，涵盖涉及音频、图像、视频以及视听模态的各种领域任务。以下是一些展示Qwen3-Omni使用场景的手册，其中包含了我们实际的执行记录。您可以先按照[快速入门](#quickstart)指南下载模型并安装必要的推理环境依赖，然后在本地运行和实验——尝试修改提示词或切换模型类型，尽情探索Qwen3-Omni的强大能力吧！\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>类别\u003C\u002Fth>\n      \u003Cth>笔记本\u003C\u002Fth>\n      \u003Cth>描述\u003C\u002Fth>\n      \u003Cth>打开\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"6\">音频\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_recognition.ipynb\">语音识别\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>语音识别，支持多语言和长音频。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_recognition.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_translation.ipynb\">语音翻译\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>语音到文本\u002F语音到语音的翻译。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fspeech_translation.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmusic_analysis.ipynb\">音乐分析\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>对任何音乐进行详细分析与鉴赏，包括风格、流派、节奏等。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmusic_analysis.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fsound_analysis.ipynb\">声音分析\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>对各种音效及音频信号的描述与分析。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fsound_analysis.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_caption.ipynb\">音频字幕\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>音频字幕生成，对任意音频输入进行详细描述。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_caption.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmixed_audio_analysis.ipynb\">混合音频分析\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>对混合音频内容的分析，例如语音、音乐和环境声音。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fmixed_audio_analysis.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\">视觉\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Focr.ipynb\">OCR\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>复杂图像的OCR识别。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Focr.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fobject_grounding.ipynb\">目标定位\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>目标检测与定位。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fobject_grounding.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_question.ipynb\">图像问答\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>回答关于任意图像的任意问题。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_question.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_math.ipynb\">图像数学\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>解决图像中的复杂数学问题，突出“思考”模型的能力。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fimage_math.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_description.ipynb\">视频描述\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>对视频内容的详细描述。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_description.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_navigation.ipynb\">视频导航\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>从第一人称运动视频中生成导航指令。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_navigation.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_scene_transition.ipynb\">视频场景转换\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>分析视频中的场景转换。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fvideo_scene_transition.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"3\">视听\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_question.ipynb\">视听问答\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>在视听场景中回答任意问题，展示模型对音频与视频之间时序对齐建模的能力。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_question.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_interaction.ipynb\">视听交互\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>使用视听输入与模型进行交互式沟通，包括通过音频指定任务。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_interaction.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_dialogue.ipynb\">视听对话\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>使用视听输入与模型进行对话式交互，展示其在日常聊天和助理类行为方面的能力。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_visual_dialogue.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>智能体\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_function_call.ipynb\">音频函数调用\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>利用音频输入执行函数调用，实现类似智能体的行为。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Faudio_function_call.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>下游任务微调\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_captioner.ipynb\">Omni Captioner\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>介绍并演示\u003Cstrong>Qwen3-Omni-30B-A3B-Captioner\u003C\u002Fstrong>模型，该模型是在Qwen3-Omni-30B-A3B-Instruct基础上进行下游微调的版本，展示了Qwen3-Omni基础模型的强大泛化能力。\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_captioner.ipynb\">\u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\u003C\u002Fa>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 快速入门\n\n在这里，我们提供了几种快速上手 Qwen3-Omni 的方法。如果您希望获得完整的 Qwen3-Omni 使用体验，可以使用 [Hugging Face Transformers](#transformers-usage)。然而，由于 Qwen3-Omni 采用了 MoE 架构，在 MoE 模型上使用 Hugging Face Transformers 进行推理时速度可能会非常慢。对于大规模调用或低延迟需求，我们强烈建议使用 [vLLM](#vllm-usage) 或通过 [DashScope API](#dashscope-api-usage) 进行推理。此外，我们也强烈推荐使用我们提供的 [Docker](#-docker) 镜像，其中包含了适用于 Hugging Face Transformers 和 vLLM 的完整运行环境。另外，我们的 [cookbooks](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Ftree\u002Fmain\u002Fcookbooks) 提供了一些用例，展示了 Qwen3-Omni 的强大能力。欢迎进一步了解！\n\n### 模型说明与下载\n\n以下是所有 Qwen3-Omni 模型的说明，请根据您的需求选择并下载合适的模型。\n\n| 模型名称                   | 说明 |\n|------------------------------|-------------|\n| Qwen3-Omni-30B-A3B-Instruct  | Qwen3-Omni-30B-A3B 的 Instruct 模型，同时包含 thinker 和 talker 组件，支持音频、视频和文本输入，输出为音频和文本。更多信息请参阅 [Qwen3-Omni 技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.17765)。 |\n| Qwen3-Omni-30B-A3B-Thinking  | Qwen3-Omni-30B-A3B 的 Thinking 模型，仅包含 thinker 组件，具备链式思维推理能力，支持音频、视频和文本输入，输出为文本。更多信息请参阅 [Qwen3-Omni 技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.17765)。|\n| Qwen3-Omni-30B-A3B-Captioner | 基于 Qwen3-Omni-30B-A3B-Instruct 微调得到的下游音频细粒度字幕生成模型，能够为任意音频输入生成详细且幻觉较低的字幕。该模型包含 thinker 组件，支持音频输入和文本输出。更多信息可参考该模型的 [cookbook](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fblob\u002Fmain\u002Fcookbooks\u002Fomni_captioner.ipynb) 或 [Hugging Face Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-Omni-Captioner-Demo) 以及 [ModelScope Demo](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-Omni-Captioner-Demo)。 |\n\n在使用 Hugging Face Transformers 或 vLLM 加载模型时，模型权重会根据模型名称自动下载。然而，如果您的运行环境不适合在执行过程中下载权重，您可以参考以下命令，将模型权重手动下载到本地目录：\n\n```bash\n# 通过 ModelScope 下载（推荐中国大陆用户使用）\npip install -U modelscope\nmodelscope download --model Qwen\u002FQwen3-Omni-30B-A3B-Instruct --local_dir .\u002FQwen3-Omni-30B-A3B-Instruct\nmodelscope download --model Qwen\u002FQwen3-Omni-30B-A3B-Thinking --local_dir .\u002FQwen3-Omni-30B-A3B-Thinking\nmodelscope download --model Qwen\u002FQwen3-Omni-30B-A3B-Captioner --local_dir .\u002FQwen3-Omni-30B-A3B-Captioner\n\n# 通过 Hugging Face 下载\npip install -U \"huggingface_hub[cli]\"\nhuggingface-cli download Qwen\u002FQwen3-Omni-30B-A3B-Instruct --local-dir .\u002FQwen3-Omni-30B-A3B-Instruct\nhuggingface-cli download Qwen\u002FQwen3-Omni-30B-A3B-Thinking --local-dir .\u002FQwen3-Omni-30B-A3B-Thinking\nhuggingface-cli download Qwen\u002FQwen3-Omni-30B-A3B-Captioner --local-dir .\u002FQwen3-Omni-30B-A3B-Captioner\n```\n\n### Transformers 使用\n\n#### 安装\n\nQwen3-Omni 的 Hugging Face Transformers 代码已成功合并。我们强烈建议您 **创建一个新的 Python 环境** 或使用我们的 [Docker](#-docker)，以避免环境运行时问题。\n\n```bash\n# 如果您已经安装了 transformers，请先卸载，或者创建一个新的 Python 环境\n# pip uninstall transformers\npip install transformers==4.57.3\npip install accelerate\n```\n\n我们提供了一个工具包，可以帮助您更方便地处理各种类型的音频和视觉输入，提供类似 API 的使用体验。它支持 base64、URL 以及交错的音频、图像和视频输入。您可以通过以下命令安装，并确保系统已安装 `ffmpeg`：\n\n```bash\npip install qwen-omni-utils -U\n```\n\n此外，我们建议在使用 Hugging Face Transformers 运行时启用 FlashAttention 2，以减少 GPU 内存占用。不过，如果您主要使用 [vLLM](#vllm-usage) 进行推理，则无需安装此库，因为 vLLM 默认已包含 FlashAttention 2。\n\n```bash\npip install -U flash-attn --no-build-isolation\n```\n\n同时，您的硬件需要兼容 FlashAttention 2。更多相关信息请参阅 [FlashAttention 仓库](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention) 的官方文档。FlashAttention 2 只能在模型以 `torch.float16` 或 `torch.bfloat16` 加载时使用。\n\n#### 代码示例\n\n以下是一个代码示例，展示如何使用 `transformers` 和 `qwen_omni_utils` 来操作 Qwen3-Omni：\n\n```python\nimport soundfile as sf\n\nfrom transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\nMODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n# MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    MODEL_PATH,\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\n\nprocessor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\nconversation = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n            {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n            {\"type\": \"text\", \"text\": \"你能看到和听到什么？用一句话简短回答。\"}\n        ],\n    },\n]\n\n# 设置是否在视频中使用音频\nUSE_AUDIO_IN_VIDEO = True\n\n# 推理前的准备\ntext = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = processor(text=text, \n                   audio=audios, \n                   images=images, \n                   videos=videos, \n                   return_tensors=\"pt\", \n                   padding=True, \n                   use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# 推理：生成输出文本和音频\ntext_ids, audio = model.generate(**inputs, \n                                 speaker=\"Ethan\", \n                                 thinker_return_dict_in_generate=True,\n                                 use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ntext = processor.batch_decode(text_ids.sequences[:, inputs[\"input_ids\"].shape[1] :],\n                              skip_special_tokens=True,\n                              clean_up_tokenization_spaces=False)\nprint(text)\nif audio is not None:\n    sf.write(\n        \"output.wav\",\n        audio.reshape(-1).detach().cpu().numpy(),\n        samplerate=24000,\n    )\n```\n\n以下是一些更高级的使用示例。您可以展开下面的部分以了解更多信息。\n\n\u003Cdetails>\n\u003Csummary>批量推理\u003C\u002Fsummary>\n\n当设置 `return_audio=False` 时，该模型可以将由文本、图像、音频和视频等多种类型样本混合组成的输入进行批量处理。以下是一个示例。\n\n```python\nfrom transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\nMODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n# MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    MODEL_PATH,\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\nmodel.disable_talker()\n\nprocessor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\n# 仅包含图像的对话\nconversation1 = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n            {\"type\": \"text\", \"text\": \"你在这个图片中看到了什么？用一句话回答。\"},\n        ]\n    }\n]\n\n# 仅包含音频的对话\nconversation2 = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n            {\"type\": \"text\", \"text\": \"你在这个音频中听到了什么？\"},\n        ]\n    }\n]\n\n# 仅包含纯文本和系统提示的对话\nconversation3 = [\n    {\n        \"role\": \"system\",\n        \"content\": [\n            {\"type\": \"text\", \"text\": \"你是通义千问-全能模型。\"}\n        ],\n    },\n    {\n        \"role\": \"user\",\n        \"content\": \"你是谁？\"\n    }\n]\n\n# 包含多种媒体的对话\nconversation4 = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n            {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n            {\"type\": \"text\", \"text\": \"你能看到什么，又能听到什么？用一句话回答。\"}\n        ],\n    }\n]\n\n# 将消息组合起来以便批量处理\nconversations = [conversation1, conversation2, conversation3, conversation4]\n\n# 设置是否在视频中使用音频\nUSE_AUDIO_IN_VIDEO = True\n\n# 准备批量推理\ntext = processor.apply_chat_template(conversations, add_generation_prompt=True, tokenize=False)\naudios, images, videos = process_mm_info(conversations, use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ninputs = processor(text=text, \n                   audio=audios, \n                   images=images, \n                   videos=videos, \n                   return_tensors=\"pt\", \n                   padding=True, \n                   use_audio_in_video=USE_AUDIO_IN_VIDEO)\ninputs = inputs.to(model.device).to(model.dtype)\n\n# 批量推理不支持返回音频\ntext_ids, audio = model.generate(**inputs,\n                                 return_audio=False,\n                                 thinker_return_dict_in_generate=True,\n                                 use_audio_in_video=USE_AUDIO_IN_VIDEO)\n\ntext = processor.batch_decode(text_ids.sequences[:, inputs[\"input_ids\"].shape[1] :],\n                              skip_special_tokens=True,\n                              clean_up_tokenization_spaces=False)\nprint(text)\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>是否使用音频输出\u003C\u002Fsummary>\n\n该模型同时支持文本和音频输出。如果用户不需要音频输出，可以在初始化模型后调用 `model.disable_talker()`。这样可以节省大约 `10GB` 的显存，但此时 `generate` 函数的 `return_audio` 参数将只能设置为 `False`。\n```python\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\",\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\nmodel.disable_talker()\n```\n\n为了获得更灵活的体验，我们建议用户在调用 `generate` 函数时决定是否返回音频。如果将 `return_audio` 设置为 `False`，模型将只返回文本输出，从而加快文本响应速度。\n\n```python\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\n    \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\",\n    dtype=\"auto\",\n    device_map=\"auto\",\n    attn_implementation=\"flash_attention_2\",\n)\n...\ntext_ids, _ = model.generate(..., return_audio=False)```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>更改输出音频的语音类型\u003C\u002Fsummary>\n\nQwen3-Omni 支持更改输出音频的语音类型。检查点 `\"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"` 支持三种语音类型，具体如下：\n\n| 语音类型 | 性别 | 描述 |\n|------------|--------|-------------|\n| Ethan      | 男性   | 一种明亮、积极向上且充满感染力的嗓音，给人温暖亲切的感觉。 |\n| Chelsie    | 女性   | 一种如蜜糖般柔滑、带有温柔温暖与清澈明亮特质的嗓音。 |\n| Aiden      | 男性   | 一种温暖、随和的美式男声，兼具温和与少年般的魅力。 |\n\n用户可以通过 `generate` 函数的 `speaker` 参数来指定语音类型。默认情况下，如果未指定 `speaker`，则使用 `Ethan` 语音。\n\n```python\ntext_ids, audio = model.generate(..., speaker=\"Ethan\")\n```\n\n```python\ntext_ids, audio = model.generate(..., speaker=\"Chelsie\")\n```\n\n```python\ntext_ids, audio = model.generate(..., speaker=\"Aiden\")\n```\n\n\u003C\u002Fdetails>\n\n此外，有关提示词设置、特定任务的使用方法以及资源需求等更多详细信息，请参阅 [使用技巧](#usage-tips-recommended-reading) 和 [使用案例手册](#cookbooks-for-usage-cases)。\n\n### vLLM 使用\n\n#### 安装\n\n我们强烈建议使用最新的 vLLM-Omni 来体验 Qwen3-Omni 系列模型。更多详情，请参阅 vLLM-Omni 官方的 [离线推理文档](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fexamples\u002Foffline_inference\u002Fqwen3_omni\u002F) 和 [在线推理文档](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fuser_guide\u002Fexamples\u002Fonline_serving\u002Fqwen3_omni\u002F)。\n\n我们也推荐使用 vLLM 对 Qwen3-Omni 系列模型进行推理和部署。请注意，我们建议您 **创建一个新的 Python 环境**，或使用我们提供的 [Docker](#-docker)，以避免运行时环境冲突和不兼容问题。\n\n```bash\npip install vllm==0.13.0\n# 如果在使用 VLLM_USE_PRECOMPILED=1 时遇到“未定义符号”错误，请使用 “pip install -e . -v” 从源码构建。\n\n# 安装 Transformers 库\npip install transformers==4.57.3\npip install accelerate\npip install qwen-omni-utils -U\npip install -U flash-attn --no-build-isolation\n```\n\n#### 推理\n\n你可以使用以下代码进行 vLLM 推理。`limit_mm_per_prompt` 参数用于指定每条消息中每种模态数据的最大数量。由于 vLLM 需要预先分配 GPU 内存，较大的值会占用更多 GPU 内存；如果出现 OOM 问题，可以尝试减小该值。将 `tensor_parallel_size` 设置为大于 1 可以启用多 GPU 并行推理，从而提高并发性和吞吐量。此外，`max_num_seqs` 表示 vLLM 在每次推理步骤中并行处理的序列数量。该值越大，所需的 GPU 内存越多，但也能提升批量推理的速度。更多详细信息请参阅 [vLLM 官方文档](https:\u002F\u002Fdocs.vllm.ai\u002Fen\u002Flatest\u002Fapi\u002Fvllm\u002Findex.html#vllm.LLM)。以下是使用 vLLM 运行 Qwen3-Omni 的一个简单示例：\n\n```python\nimport os\nimport torch\n\nfrom vllm import LLM, SamplingParams\nfrom transformers import Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\nif __name__ == '__main__':\n    MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n    # MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\n    llm = LLM(\n            model=MODEL_PATH, trust_remote_code=True, gpu_memory_utilization=0.95,\n            tensor_parallel_size=torch.cuda.device_count(),\n            limit_mm_per_prompt={'image': 3, 'video': 3, 'audio': 3},\n            max_num_seqs=8,\n            max_model_len=32768,\n            seed=1234,\n    )\n\n    sampling_params = SamplingParams(\n        temperature=0.6,\n        top_p=0.95,\n        top_k=20,\n        max_tokens=16384,\n    )\n\n    processor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\n    messages = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"video\", \"video\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fdraw.mp4\"}\n            ], \n        }\n    ]\n\n    text = processor.apply_chat_template(\n        messages,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n    audios, images, videos = process_mm_info(messages, use_audio_in_video=True)\n\n    inputs = {\n        'prompt': text,\n        'multi_modal_data': {},\n        \"mm_processor_kwargs\": {\n            \"use_audio_in_video\": True,\n        },\n    }\n\n    if images is not None:\n        inputs['multi_modal_data']['image'] = images\n    if videos is not None:\n        inputs['multi_modal_data']['video'] = videos\n    if audios is not None:\n        inputs['multi_modal_data']['audio'] = audios\n\n    outputs = llm.generate([inputs], sampling_params=sampling_params)\n\n    print(outputs[0].outputs[0].text)\n```\n\n以下是一些更高级的使用示例。你可以展开下方的部分了解更多。\n\n\u003Cdetails>\n\u003Csummary>批量推理\u003C\u002Fsummary>\n\n使用 vLLM 可以实现快速的批量推理，这有助于高效处理大量数据或进行基准测试。参考以下代码示例：\n\n```python\nimport os\nimport torch\n\nfrom vllm import LLM, SamplingParams\nfrom transformers import Qwen3OmniMoeProcessor\nfrom qwen_omni_utils import process_mm_info\n\ndef build_input(processor, messages, use_audio_in_video):\n    text = processor.apply_chat_template(\n        messages,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n    audios, images, videos = process_mm_info(messages, use_audio_in_video=use_audio_in_video)\n\n    inputs = {\n        'prompt': text,\n        'multi_modal_data': {},\n        \"mm_processor_kwargs\": {\n            \"use_audio_in_video\": use_audio_in_video,\n        },\n    }\n\n    if images is not None:\n        inputs['multi_modal_data']['image'] = images\n    if videos is not None:\n        inputs['multi_modal_data']['video'] = videos\n    if audios is not None:\n        inputs['multi_modal_data']['audio'] = audios\n    \n    return inputs\n\nif __name__ == '__main__':\n    MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\"\n    # MODEL_PATH = \"Qwen\u002FQwen3-Omni-30B-A3B-Thinking\"\n\n    llm = LLM(\n            model=MODEL_PATH, trust_remote_code=True, gpu_memory_utilization=0.95,\n            tensor_parallel_size=torch.cuda.device_count(),\n            limit_mm_per_prompt={'image': 3, 'video': 3, 'audio': 3},\n            max_num_seqs=8,\n            max_model_len=32768,\n            seed=1234,\n    )\n\n    sampling_params = SamplingParams(\n        temperature=0.6,\n        top_p=0.95,\n        top_k=20,\n        max_tokens=16384,\n    )\n\n    processor = Qwen3OmniMoeProcessor.from_pretrained(MODEL_PATH)\n\n    # 仅包含图片的对话\n    conversation1 = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n                {\"type\": \"text\", \"text\": \"你在这张图片中看到了什么？用一句话回答。\"},\n            ]\n        }\n    ]\n\n    # 仅包含音频的对话\n    conversation2 = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"},\n                {\"type\": \"text\", \"text\": \"你在这段音频中听到了什么？\"},\n            ]\n        }\n    ]\n\n    # 纯文本和系统提示的对话\n    conversation3 = [\n        {\n            \"role\": \"system\",\n            \"content\": [\n                {\"type\": \"text\", \"text\": \"你是 Qwen-Omni。\"}\n            ],\n        },\n        {\n            \"role\": \"user\",\n            \"content\": \"你是谁？用一句话回答。\"\n        }\n    ]\n\n    # 混合媒体的对话\n    conversation4 = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"image\", \"image\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"},\n                {\"type\": \"audio\", \"audio\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fcookbook\u002Fasr_fr.wav\"},\n                {\"type\": \"text\", \"text\": \"你看到了什么、听到了什么？用一句话回答。\"}\n            ],\n        }\n    ]\n    \n    USE_AUDIO_IN_VIDEO = True\n\n    # 将所有对话合并以便批量处理\n    conversations = [conversation1, conversation2, conversation3, conversation4]\n    inputs = [build_input(processor, messages, USE_AUDIO_IN_VIDEO) for messages in conversations]\n\n    outputs = llm.generate(inputs, sampling_params=sampling_params)\n\n    result = [outputs[i].outputs[0].text for i in range(len(outputs))]\n    print(result)\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>vLLM Serve 使用\u003C\u002Fsummary>\n\n目前，vLLM serve 对于 Qwen3-Omni 仅支持 thinker 模型。在 vLLM serve 中，`use_audio_in_video` 参数不可用；你可以通过分别传递视频和音频输入来处理这一问题。可以通过以下命令启动 vLLM serve：\n\n```bash\n\n# Qwen3-Omni-30B-A3B-Instruct 单卡部署\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Instruct --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 32768 --allowed-local-media-path \u002F -tp 1\n# Qwen3-Omni-30B-A3B-Instruct 多卡部署（以4卡为例）\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Instruct --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 65536 --allowed-local-media-path \u002F -tp 4\n# Qwen\u002FQwen3-Omni-30B-A3B-Thinking 单卡部署\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Thinking --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 32768 --allowed-local-media-path \u002F -tp 1\n# Qwen\u002FQwen3-Omni-30B-A3B-Thinking 多卡部署（以4卡为例）\nvllm serve Qwen\u002FQwen3-Omni-30B-A3B-Thinking --port 8901 --host 127.0.0.1 --dtype bfloat16 --max-model-len 65536 --allowed-local-media-path \u002F -tp 4\n```\n\n随后，您可以通过以下方式使用聊天 API（例如通过 curl）：\n```bash\ncurl http:\u002F\u002Flocalhost:8901\u002Fv1\u002Fchat\u002Fcompletions \\\n    -H \"Content-Type: application\u002Fjson\" \\\n    -d '{\n    \"messages\": [\n    {\"role\": \"system\", \"content\": \"你是一位 helpful assistant。\"},\n    {\"role\": \"user\", \"content\": [\n        {\"type\": \"image_url\", \"image_url\": {\"url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcars.jpg\"}},\n        {\"type\": \"audio_url\", \"audio_url\": {\"url\": \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo\u002Fcough.wav\"}},\n        {\"type\": \"text\", \"text\": \"你能看到和听到什么？请用一句话回答。\"}\n    ]}\n    ]\n    }'\n```\n\n\u003C\u002Fdetails>\n\n此外，有关提示词设置、特定任务的使用方法以及资源需求等更多详细信息，请参阅[使用技巧](#usage-tips-recommended-reading)和[使用案例手册](#cookbooks-for-usage-cases)。\n\n### DashScope API 使用\n\n为了更深入地探索 Qwen3-Omni，我们建议您尝试使用我们的 DashScope API，以获得更快、更高效的体验。有关详细的 API 信息和文档，请参阅下表：\n\n| API 描述 | API 文档（中国大陆） | API 文档（国际） |\n|------------------|-----------------------------------|------------------------------------|\n| Qwen3-Omni-Flash 离线 API，包括 Instruct 和 Thinking 模型 | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-omni](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-omni) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-omni](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-omni) |\n| Qwen3-Omni-Flash 实时 API，支持端到端实时交互 | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Frealtime](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Frealtime) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Frealtime](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Frealtime) |\n| Qwen3-Omni-30B-A3B-Captioner 模型 API | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fzh\u002Fmodel-studio\u002Fqwen3-omni-captioner) |\n\n### 使用提示（建议阅读）\n\n#### 最低 GPU 显存要求\n\n| 模型                        | 精度   | 15秒视频 | 30秒视频 | 60秒视频 | 120秒视频   |\n|------------------------------|--------| --------- | --------- | --------- | --------- |\n| Qwen3-Omni-30B-A3B-Instruct  | BF16   | 78.85 GB  | 88.52 GB  | 107.74 GB | 144.81 GB |\n| Qwen3-Omni-30B-A3B-Thinking  | BF16   | 68.74 GB  | 77.79 GB  | 95.76 GB  | 131.65 GB  |\n\n**注**：上表展示了使用 `transformers` 库和 `BF16` 精度进行推理时的理论最低显存需求，测试中采用了 `attn_implementation=\"flash_attention_2\"`。Instruct 模型同时包含 **thinker** 和 **talker** 两个组件，而 Thinking 模型仅包含 **thinker** 部分。\n\n#### 音视频交互的提示词\n\n在使用 Qwen3-Omni 进行音视频多模态交互时，输入为一段视频及其对应的音频（音频作为查询），我们建议采用 **以下系统提示词**。这种设置有助于模型保持较高的推理能力，同时更好地扮演智能助手等交互角色。此外，thinker 生成的文本将更具可读性，语气自然、对话感强，且避免了难以语音化的复杂格式，从而使 talker 的音频输出更加稳定流畅。您可以根据需要自定义系统提示词中的 `user_system_prompt` 字段，加入角色设定或其他特定于角色的描述。\n\n```\nuser_system_prompt = \"你是阿里巴巴通义千问打造的智能语音助手Qwen-Omni。\"\nmessage = {\n    \"role\": \"system\",\n    \"content\": [\n          {\"type\": \"text\", \"text\": f\"{user_system_prompt} 你是一位没有性别和年龄的虚拟语音助手。\\n你正在与用户交流。\\n在用户的消息中，“我\u002F我的”指代用户，“你\u002F你的”指代助手；而在你的回复中，则应以“你\u002F你的”称呼用户，以“我\u002F我的”称呼自己；切勿照搬用户的代词，始终转换视角。仅在直接引用时保留原有人称代词；若出现指代不明的情况，请提出简短的澄清问题。\\n与用户互动时，请使用简短（不超过50字）、简洁、直白的语言，保持自然的语气。\\n切勿使用正式用语、机械化的表达、项目符号或过于结构化的语言。\\n你的输出必须仅包含希望用户听到的口语内容。\\n不得包含任何关于动作、情感、声音或语音变化的描述。\\n禁止使用星号、方括号、圆括号等符号来标注语气或动作。\\n你必须回答用户的音频或文本问题，不得直接描述视频内容。\\n除非用户另有要求，否则请严格使用与用户相同的语言进行交流。\\n当你感到不确定时（例如看不清\u002F听不清、不理解，或用户只是发表评论而非提问），请通过适当的问题引导用户继续对话。\\n回复应简洁、口语化，如同面对面交谈一般。\"}\n    ]\n}\n```\n\n#### Thinking 模型的最佳实践\n\n`Qwen3-Omni-30B-A3B-Thinking` 模型主要用于理解和交互多模态输入，包括文本、音频、图像和视频。为了获得最佳性能，我们建议用户在每轮对话中，除了多模态输入外，还应附上明确的文本指令或任务描述。这有助于清晰传达意图，并显著提升模型的推理能力。例如：\n\n```python\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n            {\"type\": \"image\", \"image\": \"\u002Fpath\u002Fto\u002Fimage.png\"},\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n            {\"type\": \"text\", \"text\": \"请综合分析这段音频、图片和视频。\"},\n        ], \n    }\n]\n```\n\n#### 视频中是否使用音频\n在多模态交互中，用户提供的视频通常会伴随音频（如口头提问或视频中事件的声音）。这些信息有助于模型提供更好的交互体验。我们提供了以下选项，供用户决定是否使用视频中的音频。\n\n```python\n# 数据预处理阶段\naudios, images, videos = process_mm_info(messages, use_audio_in_video=True)\n```\n\n```python\n# 对于 Transformers\ntext = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)\ninputs = processor(text=text, audio=audios, images=images, videos=videos, return_tensors=\"pt\", \n                   padding=True, use_audio_in_video=True)\ntext_ids, audio = model.generate(..., use_audio_in_video=True)\n\n# 对于 vLLM\ntext = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)\ninputs = {\n    'prompt': text,\n    'multi_modal_data': {},\n    \"mm_processor_kwargs\": {\n        \"use_audio_in_video\": True,\n    },\n}\n```\n\n值得注意的是，在多轮对话过程中，`use_audio_in_video` 参数必须在上述步骤中保持一致；否则可能会导致意外结果。\n\n## 与 Qwen3-Omni 的交互\n\n### 在线演示\n\n无需本地部署，您可以通过访问我们的 [Hugging Face Spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-Omni-Demo) 和 [ModelScope Studio](https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-Omni-Demo) 直接体验在线网页演示。其中包括 Qwen3-Omni-Realtime、Qwen3-Omni（Instruct 和 Thinking）以及 Qwen3-Omni-30B-A3B-Captioner 的快速实操体验。\n\n### 实时交互\n\n现在已支持与 Qwen3-Omni 的实时流式交互。请访问 [Qwen Chat](https:\u002F\u002Fchat.qwen.ai\u002F)，并在聊天框中选择语音\u002F视频通话选项即可体验。\n\n### 启动本地 Web UI 演示\n\n在这一部分，我们为用户提供构建基于 Web 的用户界面（UI）演示的说明。该 UI 演示允许用户通过 Web 浏览器与模型进行交互。请按照以下步骤开始 :)\n\n#### 安装\n\n在开始之前，我们强烈建议您参考 [vLLM 使用指南](#vllm-usage) 中的 **安装** 部分来设置您的环境，这将使您能够无缝地使用 vLLM 和 Transformers 两种后端。然而，如果您仅打算使用 Transformers 后端（**请注意，这会导致推理速度显著变慢**），请遵循 [Transformers 使用指南](#transformers-usage) 中的安装说明。尽管如此，我们仍然强烈推荐使用我们的 [Docker](#-docker) 镜像，以避免潜在的环境相关问题。此外，如果您是在本地运行，请确保您的系统已安装 `ffmpeg`，并安装以下依赖项：\n\n```bash\npip install gradio==5.44.1 gradio_client==1.12.1 soundfile==0.13.1\n```\n\n#### 运行演示\n\n在安装完所需软件包后，您可以使用以下命令启动 Web 演示。这些命令将启动一个 Web 服务器，并为您提供一个链接，以便在浏览器中访问 UI。您可以通过运行 `python web_demo.py --help` 和 `python web_demo_captioner.py --help` 来了解更多的选项。\n\n```bash\n# 对于 Qwen3-Omni-30B-A3B-Instruct 模型，使用 vLLM 后端\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct\n# 对于 Qwen3-Omni-30B-A3B-Instruct 模型，使用 Transformers 后端\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct --use-transformers --generate-audio\n# 对于 Qwen3-Omni-30B-A3B-Instruct 模型，使用 Transformers 后端并支持 FlashAttention\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct --use-transformers --generate-audio --flash-attn2\n```\n\n```bash\n# 对于 Qwen3-Omni-30B-A3B-Thinking 模型，使用 vLLM 后端\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Thinking\n# 对于 Qwen3-Omni-30B-A3B-Thinking 模型，使用 Transformers 后端\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Thinking --use-transformers\n# 对于 Qwen3-Omni-30B-A3B-Thinking 模型，使用 Transformers 后端并支持 FlashAttention\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Thinking --use-transformers --flash-attn2\n```\n\n```bash\n# 对于 Qwen3-Omni-30B-A3B-Captioner 模型，使用 vLLM 后端\npython web_demo_captioner.py -c Qwen\u002FQwen3-Omni-30B-A3B-Captioner\n# 对于 Qwen3-Omni-30B-A3B-Captioner 模型，使用 Transformers 后端\npython web_demo_captioner.py -c Qwen\u002FQwen3-Omni-30B-A3B-Captioner --use-transformers\n# 对于 Qwen3-Omni-30B-A3B-Captioner 模型，使用 Transformers 后端并支持 FlashAttention\npython web_demo_captioner.py -c Qwen\u002FQwen3-Omni-30B-A3B-Captioner --use-transformers --flash-attn2\n```\n\n运行命令后，您将在终端中看到类似如下的链接：\n\n```\n正在本地运行：http:\u002F\u002F127.0.0.1:8901\u002F\n```\n\n如果您是在本地运行，请复制此链接并粘贴到浏览器中以访问 Web UI。如果您是在服务器上或 Docker 容器中运行，请根据服务器的实际 IP 地址配置地址，或在必要时设置端口转发。有关如何从官方 Docker 容器将端口转发到宿主机的说明，请参阅 [这里](#-docker)。\n\n## 🐳 Docker\n\n为了简化部署流程，我们提供了预装环境的 Docker 镜像：[qwenllm\u002Fqwen3-omni](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fqwenllm\u002Fqwen3-omni)。您只需安装驱动程序并下载模型文件即可启动演示。请参考 [指南](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Flatest\u002Finstall-guide.html) 安装 NVIDIA Container Toolkit，以确保您的 Docker 能够访问 GPU。对于在中国大陆可能难以访问 Docker Hub 的用户，可以使用镜像加速服务来拉取镜像。首先，运行以下命令来拉取并初始化容器：\n\n```bash\nLOCAL_WORKDIR=\u002Fpath\u002Fto\u002Fyour\u002Fworkspace\nHOST_PORT=8901\nCONTAINER_PORT=80\ndocker run --gpus all --name qwen3-omni \\\n    -v \u002Fvar\u002Frun\u002Fdocker.sock:\u002Fvar\u002Frun\u002Fdocker.sock -p $HOST_PORT:$CONTAINER_PORT \\\n    --mount type=bind,source=$LOCAL_WORKDIR,target=\u002Fdata\u002Fshared\u002FQwen3-Omni \\\n    --shm-size=4gb \\\n    -it qwenllm\u002Fqwen3-omni:3-cu124\n```\n\n执行该命令后，您将进入容器的 bash shell。您的本地模型和数据目录（请将 `\u002Fpath\u002Fto\u002Fyour\u002Fworkspace` 替换为实际路径）会被挂载到容器内部的路径 `\u002Fdata\u002Fshared\u002FQwen3-Omni`。宿主机的端口 `8901` 会映射到容器内的端口 `80`,这意味着您可以通过访问宿主机上的端口 `8901` 来访问容器内的服务。\n\n请注意，容器内的服务必须使用 IP `0.0.0.0` 启动，才能确保端口转发正常工作。例如：\n\n```bash\n# 在 Docker 容器内运行此命令\npython web_demo.py -c Qwen\u002FQwen3-Omni-30B-A3B-Instruct --server-port 80 --server-name 0.0.0.0\n```\n\n有关更多启动 Web 演示的方式，请参阅 [启动本地 Web UI 演示](#launch-local-web-ui-demo)。如果您退出了容器，可以使用以下命令重新进入：\n\n```bash\ndocker start qwen3-omni\ndocker exec -it qwen3-omni bash\n```\n\n或者，如果您想完全移除容器，请运行：\n\n```bash\ndocker rm -f qwen3-omni\n```\n\n## 评估\n\n### Qwen3-Omni 的性能\n\nQwen3-Omni 在文本和视觉模态上保持了最先进的性能，且相对于同规模的单模态 Qwen 模型没有性能下降。在 36 个音频和视听基准测试中，它在 32 个任务上达到了开源领域的 SOTA，并在 22 个任务上刷新了 SOTA，表现优于 Gemini 2.5 Pro 和 GPT-4o 等强大的闭源系统。\n\n\u003Cdetails>\n\u003Csummary>文本 -> 文本\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth colspan=\"2\" style=\"text-align: left;\">\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT-4o-0327\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-235B-A22B\u003Cbr>非思维模式\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-30B-A3B-Instruct-2507\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\" style=\"text-align: left; vertical-align: middle;\">通用\u003Cbr>任务\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">MMLU-Redux\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>91.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">89.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">89.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">GPQA\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">66.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">62.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>70.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\" style=\"text-align: left; vertical-align: middle;\">推理\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">AIME25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">26.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">24.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>65.9\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ZebraLogic\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">37.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>90.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left; vertical-align: middle;\">代码\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">MultiPL-E\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">79.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>83.8\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd rowspan=\"3\" style=\"text-align: left; vertical-align: middle;\">对齐\u003Cbr>任务\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">IFEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>84.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">创意写作 v3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">84.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">80.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>86.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">WritingBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>85.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left; vertical-align: middle;\">智能体\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">BFCL-v3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">66.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>68.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\" style=\"text-align: left; vertical-align: middle;\">多语言\u003Cbr>任务\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">MultiIF\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>70.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">67.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PolyMATH\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">27.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>43.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">37.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid black;\">\n      \u003Cth>\u003C\u002Fth>\n      \u003Cth>\u003C\u002Fth>\n      \u003Cth>双子座-2.5-闪电\u003Cbr>思考\u003C\u002Fth>\n      \u003Cth>通义千问3-235B-A22B\u003Cbr>思考\u003C\u002Fth>\n      \u003Cth>通义千问3-30B-A3B-思考-2507\u003C\u002Fth>\n      \u003Cth>通义千问3-全能-30B-A3B-思考\u003C\u002Fth>\n      \u003Cth>通义千问3-全能-闪电-思考\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"2\">\u003Cem>通用\u003Cbr>任务\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>MMLU-Redux\u003C\u002Ftd>\n      \u003Ctd>92.1\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>92.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>91.4\u003C\u002Ftd>\n      \u003Ctd>88.8\u003C\u002Ftd>\n      \u003Ctd>89.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>GPQA\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>82.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>71.1\u003C\u002Ftd>\n      \u003Ctd>73.4\u003C\u002Ftd>\n      \u003Ctd>73.1\u003C\u002Ftd>\n      \u003Ctd>73.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd rowspan=\"2\">\u003Cem>推理\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>AIME25\u003C\u002Ftd>\n      \u003Ctd>72.0\u003C\u002Ftd>\n      \u003Ctd>81.5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>85.0\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>73.7\u003C\u002Ftd>\n      \u003Ctd>74.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>LiveBench 20241125\u003C\u002Ftd>\n      \u003Ctd>74.3\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>77.1\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>76.8\u003C\u002Ftd>\n      \u003Ctd>71.8\u003C\u002Ftd>\n      \u003Ctd>70.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd>\u003Cem>代码\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>MultiPL-E\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>84.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>79.9\u003C\u002Ftd>\n      \u003Ctd>81.3\u003C\u002Ftd>\n      \u003Ctd>80.6\u003C\u002Ftd>\n      \u003Ctd>81.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd rowspan=\"4\">\u003Cem>对齐\u003Cbr>任务\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>IFEval\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>89.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>83.4\u003C\u002Ftd>\n      \u003Ctd>88.9\u003C\u002Ftd>\n      \u003Ctd>85.1\u003C\u002Ftd>\n      \u003Ctd>85.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>Arena-Hard v2\u003C\u002Ftd>\n      \u003Ctd>56.7\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>61.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>56.0\u003C\u002Ftd>\n      \u003Ctd>55.1\u003C\u002Ftd>\n      \u003Ctd>57.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>创意写作 v3\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>85.0\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>84.6\u003C\u002Ftd>\n      \u003Ctd>84.4\u003C\u002Ftd>\n      \u003Ctd>82.5\u003C\u002Ftd>\n      \u003Ctd>83.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd>WritingBench\u003C\u002Ftd>\n      \u003Ctd>83.9\u003C\u002Ftd>\n      \u003Ctd>80.3\u003C\u002Ftd>\n      \u003Ctd>85.0\u003C\u002Ftd>\n      \u003Ctd>85.5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>85.9\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd>\u003Cem>智能体\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>BFCL-v3\u003C\u002Ftd>\n      \u003Ctd>68.6\u003C\u002Ftd>\n      \u003Ctd>70.8\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>72.4\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>63.2\u003C\u002Ftd>\n      \u003Ctd>64.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black;\">\n      \u003Ctd rowspan=\"2\">\u003Cem>多语言\u003Cbr>任务\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd>MultiIF\u003C\u002Ftd>\n      \u003Ctd>74.4\u003C\u002Ftd>\n      \u003Ctd>71.9\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>76.4\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>72.9\u003C\u002Ftd>\n      \u003Ctd>73.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>PolyMATH\u003C\u002Ftd>\n      \u003Ctd>49.8\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>54.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>52.6\u003C\u002Ftd>\n      \u003Ctd>47.1\u003C\u002Ftd>\n      \u003Ctd>48.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>音频 -> 文本\u003C\u002Fsummary>\n\n\u003Ctable style=\"width:100%; border-collapse: collapse;\">\n\u003Cthead>\n  \u003Ctr>\n    \u003Cth align=\"left\" style=\"padding: 8px;\">\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Seed-ASR\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Voxtral-Mini\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Voxtral-Small\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">GPT-4o-Transcribe\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Gemini-2.5-Pro\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Qwen2.5-Omni\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n    \u003Cth align=\"center\" style=\"padding: 8px;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n  \u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>英、中语音识别（WER）\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Wenetspeech\u003Cbr>\u003Cem>net\u003C\u002Fem> | \u003Cem>meeting\u003C\u002Fem>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.66 | \u003Cstrong>5.69\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">24.30 | 31.53\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">20.33 | 26.08\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">15.30 | 32.27\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">14.43 | 13.47\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.91 | 7.65\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.69 | 5.89\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>4.62\u003C\u002Fstrong> | 5.75\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Librispeech\u003Cbr>\u003Cem>clean\u003C\u002Fem> | \u003Cem>other\u003C\u002Fem>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.58 | 2.84\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.88 | 4.12\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.56 | 3.30\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.39 | 3.75\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.89 | 3.56\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.74 | 3.45\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>1.22\u003C\u002Fstrong> | 2.48\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">1.27 | \u003Cstrong>2.44\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">CV15-en\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.47\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.79\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">10.01\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.89\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.61\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">6.05\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>5.94\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">CV15-zh\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">24.67\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">19.30\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.84\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">8.00\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.13\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.31\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>4.28\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-en\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.40\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.96\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.77\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.32\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.94\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">3.77\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>2.72\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.74\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-zh\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.69\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">12.22\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.98\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.44\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.71\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.54\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.20\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>2.19\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>多语言语音识别（WER）\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-avg\u003Cbr>(19种语言)\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">15.67\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">8.09\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">4.48\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.55\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">14.04\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.33\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>5.31\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>歌词语音识别（WER）\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">MIR-1K (仅人声)\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">6.45\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">23.33\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">18.73\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">11.87\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">9.85\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">8.15\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">5.90\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>5.85\u003C\u002Fstrong>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Opencpop-test\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.98\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">31.01\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">16.06\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">7.93\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">6.49\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.84\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>1.54\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">2.02\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr style=\"border-top: 1px solid #333;\">\n    \u003Ctd colspan=\"9\" align=\"center\"; style=\"border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cem>S2TT（BLEU）\u003C\u002Fem>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-en2xx\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">30.35\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">37.85\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>39.25\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">29.22\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">37.50\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">36.22\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-xx2en\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">27.54\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">32.81\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>35.41\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">28.61\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">31.08\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">30.71\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-zh2xx\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">17.03\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">22.05\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>26.63\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">17.97\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">25.17\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">25.10\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"left\" style=\"padding: 8px;\">Fleurs-xx2zh\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">28.75\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">34.82\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">-\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">\u003Cstrong>37.50\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">27.68\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">33.13\u003C\u002Ftd>\n    \u003Ctd align=\"center\" style=\"padding: 8px;\">31.19\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable style=\"width:100%; border-collapse: collapse;\">\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid #ddd;\">\n      \u003Cth style=\"text-align:left; padding: 8px;\">\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">GPT-4o-Audio\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Gemini-2.5-Flash\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Gemini-2.5-Pro\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen2.5-Omni\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align:center; padding: 8px;\">Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"9\" align=\"center\" style=\"padding: 8px; font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cstrong>VoiceBench\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">AlpacaEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">95.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">96.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">94.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">94.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">96.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">95.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>96.8\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">CommonEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>91.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">WildVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">91.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">92.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">93.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">91.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>92.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">90.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">SD-QA\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">75.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">84.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>90.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">56.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">78.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">78.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">MMSU\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">66.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">71.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">61.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">68.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">68.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>84.3\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">OpenBookQA\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">56.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">92.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">94.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">91.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>95.0\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">BBH\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">84.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>92.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">66.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">IFEval\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>85.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">53.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">75.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">80.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">AdvBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">99.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>99.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">97.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>99.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">98.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">Overall\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">86.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">83.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>89.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">73.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">85.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">88.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">85.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">89.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"9\" align=\"center\" style=\"padding: 8px; font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">\u003Cstrong>Audio Reasoning\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align:left; padding: 8px;\">MMAU-v05.15.25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">62.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">71.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">65.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">77.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">75.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>77.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">76.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr\">\n      \u003Ctd style=\"text-align:left; padding: 8px;\">MMSU\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">56.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">\u003Cstrong>77.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">62.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">69.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">69.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align:center; padding: 8px;\">71.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid black;\">\n      \u003Cth style=\"text-align: left;\">\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">最佳专业模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT-4o-Audio\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Gemini-2.5-Pro\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen2.5-Omni\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">RUL-MuchoMusic\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.6 (Audio Flamingo 3)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">36.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">49.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>52.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">GTZAN\u003Cbr>\u003Cem>准确率\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.9 (CLaMP 3)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">81.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">93.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>93.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG流派\u003Cbr>\u003Cem>微调F1分数\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">35.8 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>39.5\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG情绪\u002F主题\u003Cbr>\u003Cem>微调F1分数\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.9 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">11.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>21.7\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG乐器\u003Cbr>\u003Cem>微调F1分数\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.8 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">34.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">33.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">22.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">40.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>40.7\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MTG前50名\u003Cbr>\u003Cem>微调F1分数\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">33.2 (MuQ-MuLan)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">26.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">36.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>36.9\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MagnaTagATune\u003Cbr>\u003Cem>微调F1分数\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">41.6 (MuQ)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">29.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">28.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">44.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>46.8\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>视觉 -> 文本\u003C\u002Fsummary>\n\n\u003Ctable style=\"width:100%; border-collapse: collapse;\">\n  \u003Cthead>\n    \u003Ctr style=\"border-bottom: 1px solid black;\">\n      \u003Cth style=\"text-align: left;\">数据集\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT4-o\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Gemini-2.0-Flash\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen2.5-VL\u003Cbr>72B\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-30B-A3B\u003Cbr>-Instruct\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-Omni-Flash\u003Cbr>-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid #ddd; border-bottom: 1px solid black;\">通用视觉问答\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MMStar\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>71.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">68.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">HallusionBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">55.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">56.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">55.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>59.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">58.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MM-MT-Bench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">数学与理工科\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MMMU_val\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>71.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MMMU_pro\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">51.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">56.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">51.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">57.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>57.6\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MathVista_mini\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>77.4\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MathVision_full\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">48.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">38.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">56.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>58.3\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">文档理解\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">AI2D\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">84.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>88.7\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">85.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ChartQA_test\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>89.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">计数\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">CountBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">91.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>93.6\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">90.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">90.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd colspan=\"6\" align=\"center\" style=\"font-weight: bold; border-top: 1px solid black; border-bottom: 1px solid black;\">视频理解\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Video-MME\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">72.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>73.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">70.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">LVBench\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>57.9\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">51.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MLVU\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">71.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>75.5\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable style=\"width: 100%; border-collapse: collapse;\">\n  \u003Cthead style=\"border-bottom: 1px solid black;\">\n    \u003Ctr>\n      \u003Cth align=\"left\" style=\"padding: 6px;\">数据集\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">Gemini-2.5-flash-thinking\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">InternVL-3.5-241B-A28B\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth align=\"center\" style=\"padding: 6px;\">Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr style=\"border-top: 2px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-bottom: 1px solid black;\">通用视觉问答\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MMStar\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>77.9\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">74.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">HallusionBench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">61.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">57.3\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">62.8\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>63.4\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MM-MT-Bench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">7.8\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>8.0\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>8.0\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">数学与STEM\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MMMU_val\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">76.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>77.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">75.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MMMU_pro\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>65.8\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">60.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">60.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MathVista_mini\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">77.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>82.7\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">80.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">81.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MathVision_full\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">62.3\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>63.9\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">62.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">63.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">文档理解\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">AI2D_test\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>88.6\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">87.3\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">86.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">86.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">ChartQA_test\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">88.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>89.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">89.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">计数\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">CountBench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">88.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">88.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>92.5\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid black; border-bottom: 1px solid #ccc;\">\n      \u003Ctd colspan=\"5\" align=\"center\" style=\"padding: 6px 0; font-weight: bold; border-top: 1px solid black;  border-bottom: 1px solid black;\">视频理解\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">Video-MME\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>79.6\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">72.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">69.7\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">69.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">LVBench\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>64.5\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">–\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">49.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">49.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"padding: 6px;\">MLVU\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">\u003Cb>82.1\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">78.2\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">72.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\" style=\"padding: 6px;\">73.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>音频视觉 -> 文本\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>数据集\u003C\u002Fth>\n      \u003Cth>之前的开源最先进水平\u003C\u002Fth>\n      \u003Cth>Gemini-2.5-Flash\u003C\u002Fth>\n      \u003Cth>Qwen2.5-Omni\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-30B-A3B-Instruct\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-Flash-Instruct\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>WorldSense\u003C\u002Ftd>\n      \u003Ctd>47.1\u003C\u002Ftd>\n      \u003Ctd>50.9\u003C\u002Ftd>\n      \u003Ctd>45.4\u003C\u002Ftd>\n      \u003Ctd>54.0\u003C\u002Ftd>\n      \u003Ctd>\u003Cstrong>54.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth>数据集\u003C\u002Fth>\n      \u003Cth>之前的开源最先进水平\u003C\u002Fth>\n      \u003Cth>Gemini-2.5-Flash-Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-30B-A3B-Thinking\u003C\u002Fth>\n      \u003Cth>Qwen3-Omni-Flash-Thinking\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>DailyOmni\u003C\u002Ftd>\n      \u003Ctd>69.8\u003C\u002Ftd>\n      \u003Ctd>72.7\u003C\u002Ftd>\n      \u003Ctd>75.8\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>76.2\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>VideoHolmes\u003C\u002Ftd>\n      \u003Ctd>55.6\u003C\u002Ftd>\n      \u003Ctd>49.5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>57.3\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>57.3\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>零样本语音生成\u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth align=\"left\">数据集\u003C\u002Fth>\n      \u003Cth align=\"left\">模型\u003C\u002Fth>\n      \u003Cth align=\"left\">性能\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>&nbsp;\u003C\u002Ftd>\n      \u003Ctd colspan=\"2\" align=\"center\">\u003Cem>内容一致性\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"10\" align=\"center\" valign=\"middle\">\u003Cstrong>SEED\u003C\u002Fstrong>\u003Cbr>\u003Cem>test-zh\u003C\u002Fem> | \u003Cem>test-en\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">Seed-TTS\u003Csub>ICL\u003C\u002Fsub>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.11 | 2.24\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Seed-TTS\u003Csub>RL\u003C\u002Fsub>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.00 | 1.94\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">MaskGCT\u003C\u002Ftd>\n      \u003Ctd align=\"left\">2.27 | 2.62\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">E2 TTS\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.97 | 2.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">F5-TTS\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.56 | 1.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Spark TTS\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.20 | 1.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">CosyVoice 2\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.45 | 2.57\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">CosyVoice 3\u003C\u002Ftd>\n      \u003Ctd align=\"left\">\u003Cstrong>0.71\u003C\u002Fstrong> | 1.45\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Qwen2.5-Omni-7B\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.42 | 2.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Qwen3-Omni-30B-A3B\u003C\u002Ftd>\n      \u003Ctd align=\"left\">1.07 | \u003Cstrong>1.39\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>多语言语音生成 \u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" align=\"left\">语言\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align:center; padding: 8px; font-weight: bold; border-bottom: 1px solid #ddd;\">内容一致性\u003C\u002Fth>\n      \u003Cth colspan=\"3\"  style=\"text-align:center; padding: 8px; font-weight: bold; border-bottom: 1px solid #ddd;\">说话人相似度\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth align=\"center\">Qwen3-Omni-30B-A3B\u003C\u002Fth>\n      \u003Cth align=\"center\">MiniMax\u003C\u002Fth>\n      \u003Cth align=\"center\">ElevenLabs\u003C\u002Fth>\n      \u003Cth align=\"center\">Qwen3-Omni-30B-A3B\u003C\u002Fth>\n      \u003Cth align=\"center\">MiniMax\u003C\u002Fth>\n      \u003Cth align=\"center\">ElevenLabs\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">中文\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.716\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.252\u003C\u002Ftd>\n      \u003Ctd align=\"center\">16.026\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.772\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.780\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.677\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">英语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.069\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.164\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.339\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.773\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.756\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.613\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">德语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.777\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.906\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.572\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.738\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.733\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.614\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">意大利语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.067\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.543\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.743\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.742\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.699\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.579\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">葡萄牙语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.872\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.877\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.331\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.770\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.805\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.711\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">西班牙语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.765\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.029\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.084\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.744\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.762\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.615\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">日语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.631\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.519\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10.646\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.763\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.776\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.738\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">韩语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.670\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.747\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.865\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.778\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.776\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.700\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">法语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.505\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.099\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.216\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.689\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.628\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.535\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">俄语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.986\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.281\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.878\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.759\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.761\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.676\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>跨语言语音生成 \u003C\u002Fsummary>\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">语言\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">Qwen3-Omni-30B-A3B\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">CosyVoice3\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">CosyVoice2\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英译中\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">5.37\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>5.09\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">13.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日译中\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">3.32\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.05\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">48.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩译中\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>0.99\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">1.06\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">7.70\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">中译英\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>2.76\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">2.98\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">6.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日译英\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.31\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">4.20\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">17.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩译英\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.34\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">4.19\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">11.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">中译日\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">8.29\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>7.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">13.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英译日\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">7.53\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>6.80\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">14.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩译日\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">4.24\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>3.93\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">5.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">中译韩\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>5.13\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">14.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">24.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英译韩\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>4.96\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">5.87\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">21.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日译韩\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">\u003Cstrong>6.23\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">7.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">21.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n\n\n### 评估设置\n\n*   **解码策略**：对于Qwen3-Omni系列的所有评估基准，`Instruct`模型在生成过程中采用贪婪解码，不进行采样。对于`Thinking`模型，则应从检查点中的`generation_config.json`文件中获取解码参数。\n*   **基准特定格式化**：大多数评估基准都自带ChatML格式，用于嵌入问题或提示。需要注意的是，在评估过程中，所有视频数据的帧率均设置为`fps=2`。\n*   **默认提示**：对于某些基准中未包含提示的任务，我们使用以下提示设置：\n\n| 任务类型 | 提示 |\n| :--- | :--- |\n| 中文自动语音识别（ASR） | 请将这段中文语音转换为纯文本。 |\n| 其他语言自动语音识别（ASR） | 将\u003Csource_language>音频转录为文本。 |\n| 语音到文本翻译（S2TT） | 听取提供的\u003Csource_language>语音，并将其翻译成\u003Ctarget_language>文本。 |\n| 歌词识别 | 将歌词转录为无标点符号的文本，每行之间用换行符分隔，仅输出歌词，不添加任何额外说明。 |\n\n*   **系统提示**：任何评估基准都不应设置`系统提示`。\n*   **输入序列**：问题或提示应作为用户文本输入。除非基准另有规定，否则文本应**位于**多模态数据之后。例如：\n\n```python\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"\u002Fpath\u002Fto\u002Faudio.wav\"},\n            {\"type\": \"image\", \"image\": \"\u002Fpath\u002Fto\u002Fimage.png\"},\n            {\"type\": \"video\", \"video\": \"\u002Fpath\u002Fto\u002Fvideo.mp4\"},\n            {\"type\": \"text\", \"text\": \"描述音频、图像和视频。\"},\n        ],\n    },\n]\n```\n\n\n## 引用\n\n如果您在研究中发现我们的论文和代码有用，请考虑给个赞 :star: 和引用 :pencil: :)\n\n\n```BibTeX\n@article{Qwen3-Omni,\n  title={Qwen3-Omni技术报告},\n  author={Jin Xu和Zhifang Guo和Hangrui Hu和Yunfei Chu和Xiong Wang和Jinzheng He和Yuxuan Wang和Xian Shi和Ting He和Xinfa Zhu和Yuanjun Lv和Yongqi Wang和Dake Guo和He Wang和Linhan Ma和Pei Zhang和Xinyu Zhang和Hongkun Hao和Zishan Guo和Baosong Yang和Bin Zhang和Ziyang Ma和Xipin Wei和Shuai Bai和Keqin Chen和Xuejing Liu和Peng Wang和Mingkun Yang和Dayiheng Liu和Xingzhang Ren和Bo Zheng和Rui Men和Fan Zhou和Bowen Yu和Jianxin Yang和Le Yu和Jingren Zhou和Junyang Lin},\n  journal={arXiv预印本arXiv:2509.17765},\n  year={2025}\n}\n```\n\n\u003Cbr>","# Qwen3-Omni 快速上手指南\n\nQwen3-Omni 是通义千问团队推出的原生端到端多模态基础模型，支持文本、图像、音频和视频的混合输入，并能以文本或自然语音形式实时流式输出。本指南将帮助中国开发者快速完成环境搭建与基础调用。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n- **Python 版本**: Python 3.10 或更高\n- **GPU**: 推荐使用 NVIDIA GPU (显存建议 24GB+ 以运行较大参数版本)，需安装 CUDA 12.1+\n- **内存**: 建议 32GB+\n\n### 前置依赖\n确保已安装以下基础工具：\n- `git`\n- `pip` (建议升级至最新版)\n- `ffmpeg` (用于处理音频\u002F视频输入)\n\n```bash\n# 检查 Python 版本\npython3 --version\n\n# 安装 ffmpeg (Ubuntu\u002FDebian)\nsudo apt-get update && sudo apt-get install -y ffmpeg\n\n# 安装 ffmpeg (macOS)\nbrew install ffmpeg\n```\n\n## 安装步骤\n\n推荐使用国内镜像源加速依赖下载。\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni.git\ncd Qwen3-Omni\n```\n\n### 2. 创建虚拟环境并安装依赖\n```bash\n# 创建虚拟环境\npython3 -m venv qwen_omni_env\nsource qwen_omni_env\u002Fbin\u002Factivate\n\n# 使用国内镜像源安装核心依赖\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装 transformers 和 accelerate (如未包含在 requirements 中)\npip install transformers>=4.46.0 accelerate>=0.34.0 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 如需高性能推理，可选安装 vLLM (注意版本兼容性)\npip install vllm -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 模型下载\n您可以从 **ModelScope (魔搭)** 或 **Hugging Face** 下载模型。国内开发者强烈推荐通过 ModelScope 下载以获得更快速度。\n\n**方式 A: 使用 ModelScope 下载 (推荐)**\n```bash\n# 安装 modelscope\npip install modelscope -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 使用 Python 脚本下载模型 (以 Qwen3-Omni-Instruct 为例)\npython -c \"from modelscope import snapshot_download; snapshot_download('Qwen\u002FQwen3-Omni-Instruct', cache_dir='.\u002Fmodels')\"\n```\n\n**方式 B: 使用 Hugging Face CLI**\n```bash\n# 需配置 HF_TOKEN\nhuggingface-cli download Qwen\u002FQwen3-Omni-Instruct --local-dir .\u002Fmodels\n```\n\n## 基本使用\n\n以下示例展示如何使用 `transformers` 库进行最简单的多模态推理（图文问答）。\n\n### 示例：图像理解与文本回复\n\n```python\nimport torch\nfrom transformers import AutoProcessor, AutoModelForCausalLM\nfrom PIL import Image\n\n# 1. 加载模型和处理器\n# 请将路径替换为您本地下载的模型路径，例如 '.\u002Fmodels\u002FQwen\u002FQwen3-Omni-Instruct'\nmodel_path = \".\u002Fmodels\u002FQwen3-Omni-Instruct\" \n\nprocessor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path, \n    torch_dtype=torch.bfloat16, \n    device_map=\"auto\",\n    trust_remote_code=True\n)\n\n# 2. 准备输入\n# 加载图片\nimage = Image.open(\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-Omni\u002Fdemo_image.jpg\").convert(\"RGB\")\n# 或者加载本地图片: Image.open(\"local_image.png\").convert(\"RGB\")\n\nquestion = \"这张图片里有什么？请详细描述。\"\n\n# 3. 构建消息\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": image},\n            {\"type\": \"text\", \"text\": question}\n        ]\n    }\n]\n\n# 4. 预处理并生成\ntext_input = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)\ninputs = processor(text=text_input, images=[image], return_tensors=\"pt\").to(model.device)\n\n# 生成回复\ngenerated_ids = model.generate(**inputs, max_new_tokens=512)\ngenerated_ids_trimmed = [\n    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)\n]\noutput_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True)[0]\n\nprint(output_text)\n```\n\n### 示例：音频输入处理 (简要)\nQwen3-Omni 原生支持音频输入。只需将输入内容中的 `image` 替换为音频文件路径或音频数据即可，模型会自动识别模态。\n\n```python\n# 伪代码示例：音频输入结构\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"audio\", \"audio\": \"path\u002Fto\u002Faudio.wav\"}, # 支持 wav, mp3 等格式\n            {\"type\": \"text\", \"text\": \"这段音频里的人在说什么？\"}\n        ]\n    }\n]\n# 后续处理流程与图像输入一致\n```\n\n> **提示**: 更多复杂场景（如实时语音对话、视频分析、OCR 等）请参考官方仓库中的 `cookbooks` 目录，其中包含了详细的 Jupyter Notebook 示例。","一位跨国教育科技公司的产品经理正在开发一款面向全球用户的\"AI 视频伴读助手”，旨在帮助学生通过观看教学视频实时获得多语言讲解和互动答疑。\n\n### 没有 Qwen3-Omni 时\n- **流程割裂严重**：需要分别调用独立的语音识别（ASR）、图像分析、大语言模型和语音合成（TTS）接口，数据在不同服务间反复转换，延迟高达数秒。\n- **上下文丢失**：由于各模态模型独立工作，系统难以理解视频中“画面变化”与“老师语调起伏”之间的关联，导致回答生硬且缺乏情感。\n- **开发维护成本高**：团队需同时维护四套不同厂商的 API 对接代码，一旦某环节服务波动，整个伴读体验就会崩溃。\n- **多语言支持受限**：为小语种学生提供实时语音反馈时，需额外接入翻译引擎，进一步增加了响应延迟和出错概率。\n\n### 使用 Qwen3-Omni 后\n- **端到端实时交互**：Qwen3-Omni 原生支持音视频流输入与语音流输出，直接将视频画面和老师声音转化为自然的实时语音讲解，延迟降低至毫秒级。\n- **深度模态融合**：凭借原生全模态架构，Qwen3-Omni 能精准捕捉“老师指着图表提高音量”这一复合信号，生成富有情感且逻辑连贯的解说。\n- **架构极简高效**：只需部署一个模型即可替代原有四个组件，大幅简化了技术栈，系统稳定性显著提升。\n- **原生多语言能力**：Qwen3-Omni 内置强大的多语言理解与生成能力，可直接用学生的母语进行流畅的语音互动，无需中间翻译环节。\n\nQwen3-Omni 通过原生端到端的全模态处理能力，将复杂的视频互动场景从“拼凑式串联”升级为“直觉式响应”，真正实现了像真人助教一样的实时伴读体验。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQwenLM_Qwen3-Omni_bcb48cec.png","QwenLM","Qwen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FQwenLM_4756c6c9.png","Alibaba Cloud's general-purpose AI models",null,"qianwen_opensource@alibabacloud.com","Alibaba_Qwen","https:\u002F\u002Fqwen.ai\u002F","https:\u002F\u002Fgithub.com\u002FQwenLM",[85,89],{"name":86,"color":87,"percentage":88},"Jupyter Notebook","#DA5B0B",99.9,{"name":90,"color":91,"percentage":92},"Python","#3572A5",0.1,3634,247,"2026-04-04T11:33:52","Apache-2.0","未说明","未说明（模型支持实时流式响应及多模态处理，通常建议高性能 NVIDIA GPU，具体显存需求取决于模型参数量，文中提及有 30B 参数版本）",{"notes":100,"python":97,"dependencies":101},"该工具为原生端到端多模态基础模型，支持文本、图像、音频和视频输入，并可实时输出文本和自然语音。提供 Transformers 和 vLLM 两种本地推理方式，也支持通过 DashScope API 调用。官方提供了详细的 Cookbooks（使用案例）供参考，涵盖语音识别、翻译、音乐分析、OCR、视频描述等多种场景。架构采用基于 MoE 的 Thinker-Talker 设计。",[102,103,104],"transformers","vLLM","DashScope API",[26,14,55,52,54],"2026-03-27T02:49:30.150509","2026-04-06T07:23:04.405934",[109,114,119,124,129,134],{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},15244,"vLLM 后端何时支持生成音频？是否支持流式音频输出？","目前 vLLM-Omni 已经支持端到端的多模态模型服务，包括音频生成。您可以参考官方示例：https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Ftree\u002Fmain\u002Fexamples\u002Fonline_serving\u002Fqwen3_omni。\n关于流式音频输出（如 stream=True），该功能正在开发中，预计将在 12 月 30 日发布的版本中提供。详情请关注：https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Fissues\u002F165","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fissues\u002F92",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},15245,"Qwen3-Omni-30B 模型在处理长音频时输出被截断怎么办？","该问题已修复，请参考讨论区解决方案：https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fdiscussions\u002F36。\n另外注意，对于 Captioner 微调版本，文档建议音频时长最大为 30 秒（见 HuggingFace 模型页）。如果需要处理更长音频，建议使用 Silero 检测语音起始点，利用 librosa 检测单词间停顿，通过 ffmpeg 将长音频切割为多个片段分别转录，以保证上下文完整性和转录稳定性。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fissues\u002F40",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},15246,"运行 web_demo.py 时报错 'ImportError: cannot import name SamplingParams from vllm' 如何解决？","此错误通常是因为安装的 vLLM 版本不正确或未从源码安装。请检查您的 vLLM 版本，确保安装了与 Qwen3-Omni 兼容的 vLLM-Omni 版本。\n如果您使用的是自定义脚本，请确认环境变量设置正确。例如，若尝试使用 vLLM engine v1（目前尚不支持），需设置：\nos.environ['VLLM_USE_V1'] = '1'\n但建议暂时不要启用 v1 引擎。正确的导入方式应确保从正确的 vllm 包中导入 SamplingParams 和 LLM。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fissues\u002F108",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},15247,"在同一个 batch 中同时处理图像和视频时报错怎么办？","这是一个已知问题，当 image 和 video 在同一个 batch 中时会触发错误。部分用户报告即使使用最新版的 transformers 库仍会出现如下错误：\nUnrecognized keys in `rope_parameters` for 'rope_type'='default': {'mrope_section', 'mrope_interleaved', 'interleaved'}\n维护者已定位该问题并正在 transformers 库中提交修复。临时解决方案是避免将图像和视频放在同一个 batch 中处理，或等待 transformers 库更新后重试。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fissues\u002F93",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},15248,"Qwen3-Omni-30B-A3B 推理速度很慢，是否负载不均衡？","用户反馈推理速度缓慢，表现类似全量 30B 模型推理，怀疑 MoE 架构下的负载未真正均衡。目前该问题仍在调查中，建议检查是否正确使用了对应的 MoE 模型加载方式，并确认 attn_implementation 参数设置合理（如使用 eager 模式可能影响性能）。后续请关注官方是否发布针对推理优化的更新。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-Omni\u002Fissues\u002F46",{"id":135,"question_zh":136,"answer_zh":137,"source_url":123},15249,"如何在本地部署并使用 Qwen3-Omni 进行多模态推理？","您可以使用提供的 web_demo.py 脚本进行本地部署。确保已正确安装依赖，包括 transformers、vllm-omni 及相关工具库。\n示例代码结构如下：\nfrom transformers import Qwen3OmniMoeForConditionalGeneration, Qwen3OmniMoeProcessor\nmodel = Qwen3OmniMoeForConditionalGeneration.from_pretrained(\"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\", torch_dtype=torch.float16, device_map=\"auto\")\nprocessor = Qwen3OmniMoeProcessor.from_pretrained(\"Qwen\u002FQwen3-Omni-30B-A3B-Instruct\")\n注意：若使用 vLLM 加速，请参照官方 vLLM-Omni 示例配置 tensor_parallel_size、limit_mm_per_prompt 等参数以提升多模态处理能力。",[]]