[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-QwenLM--Qwen3-TTS":3,"tool-QwenLM--Qwen3-TTS":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,2,"2026-04-08T11:03:08",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},5908,"ChatTTS","2noise\u002FChatTTS","ChatTTS 是一款专为日常对话场景打造的生成式语音模型，特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音（TTS）技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题，让机器生成的语音听起来更像真人在聊天。\n\n这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化：它不仅支持中英文双语，还能精准控制韵律细节，自动生成自然的 laughter（笑声）、pauses（停顿）和 interjections（插入语），从而实现多说话人的互动对话效果。在韵律表现上，ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成，虽主要用于学术研究与教育目的，但已展现出强大的潜力，并支持流式音频生成与零样本推理，为后续的多情绪控制等进阶功能奠定了基础。",39042,"2026-04-09T11:54:03",[19,17,20,21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":29,"env_os":93,"env_gpu":94,"env_ram":95,"env_deps":96,"category_tags":105,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":22,"created_at":106,"updated_at":107,"faqs":108,"releases":138},6020,"QwenLM\u002FQwen3-TTS","Qwen3-TTS","Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice cloning.","Qwen3-TTS 是阿里云通义团队推出的一款开源语音合成模型系列，旨在为用户提供稳定、富有表现力且支持实时流式输出的语音生成能力。它有效解决了传统语音合成在情感表达单一、克隆效果生硬以及高延迟等方面的痛点，能够基于自然语言指令灵活控制语调、语速和情绪，即使在输入文本包含噪声时也能保持极高的鲁棒性。\n\n这款工具非常适合开发者集成到应用中，研究人员探索端到端语音建模，以及设计师进行自由的音色创作与生动的声音克隆。普通用户也可通过其演示界面体验高质量的拟人化语音互动。\n\nQwen3-TTS 的技术亮点显著：它采用了自研的 Qwen3-TTS-Tokenizer-12Hz 分词器，实现了高效的声学压缩与高维语义建模，完整保留了副语言信息和环境特征；架构上摒弃了传统级联方案的瓶颈，利用离散多码本语言模型实现全信息端到端生成；更创新地引入双轨混合流式架构，单模型即可同时支持超低延迟的流式与非流式输出。目前，该模型已支持中、英、日、韩等十大主流语言及多种方言，是全球应用需求下的强大语音解决方案。","# Qwen3-TTS\n\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Fqwen3_tts_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\n&nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-tts\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FQwen\u002FQwen3-TTS\">ModelScope\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fqwen.ai\u002Fblog?id=qwen3tts-0115\">Blog\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.15621\">Paper\u003C\u002Fa>&nbsp&nbsp\n\u003Cbr>\n🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-TTS\">Hugging Face Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp 🖥️ \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-TTS\">ModelScope Demo\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Fblob\u002Fmain\u002Fassets\u002Fwechat.png\">WeChat (微信)\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FCV4E9rpNSD\">Discord\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-realtime\">API\u003C\u002Fa>\n\n\u003C\u002Fp>\n\nWe release **Qwen3-TTS**, a series of powerful speech generation capabilities developed by Qwen, offering comprehensive support for voice clone, voice design, ultra-high-quality human-like speech generation, and natural language-based voice control. It provides developers and users with the most extensive set of speech generation features available.\n\n\n## News\n* 2026.1.22: 🎉🎉🎉 We have released [Qwen3-TTS](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-tts) series (0.6B\u002F1.7B) based on Qwen3-TTS-Tokenizer-12Hz. Please check our [blog](https:\u002F\u002Fqwen.ai\u002Fblog?id=qwen3tts-0115)!\n\n## Contents \u003C!-- omit in toc -->\n\n- [Overview](#overview)\n  - [Introduction](#introduction)\n  - [Model Architecture](#model-architecture)\n  - [Released Models Description and Download](#released-models-description-and-download)\n- [Quickstart](#quickstart)\n  - [Environment Setup](#environment-setup)\n  - [Python Package Usage](#python-package-usage)\n    - [Custom Voice Generation](#custom-voice-generate)\n    - [Voice Design](#voice-design)\n    - [Voice Clone](#voice-clone)\n    - [Voice Design then Clone](#voice-design-then-clone)\n    - [Tokenizer Encode and Decode](#tokenizer-encode-and-decode)\n  - [Launch Local Web UI Demo](#launch-local-web-ui-demo)\n  - [DashScope API Usage](#dashscope-api-usage)\n- [vLLM Usage](#vllm-usage)\n- [Fine Tuning](#fine-tuning)\n- [Evaluation](#evaluation)\n- [Citation](#citation)\n\n## Overview\n### Introduction\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Fqwen3_tts_introduction.png\" width=\"90%\"\u002F>\n\u003Cp>\n\nQwen3-TTS covers 10 major languages (Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, and Italian) as well as multiple dialectal voice profiles to meet global application needs. In addition, the models feature strong contextual understanding, enabling adaptive control of tone, speaking rate, and emotional expression based on instructions and text semantics, and they show markedly improved robustness to noisy input text. Key features:\n\n* **Powerful Speech Representation**: Powered by the self-developed Qwen3-TTS-Tokenizer-12Hz, it achieves efficient acoustic compression and high-dimensional semantic modeling of speech signals. It fully preserves paralinguistic information and acoustic environmental features, enabling high-speed, high-fidelity speech reconstruction through a lightweight non-DiT architecture.\n* **Universal End-to-End Architecture**: Utilizing a discrete multi-codebook LM architecture, it realizes full-information end-to-end speech modeling. This completely bypasses the information bottlenecks and cascading errors inherent in traditional LM+DiT schemes, significantly enhancing the model’s versatility, generation efficiency, and performance ceiling.\n* **Extreme Low-Latency Streaming Generation**: Based on the innovative Dual-Track hybrid streaming generation architecture, a single model supports both streaming and non-streaming generation. It can output the first audio packet immediately after a single character is input, with end-to-end synthesis latency as low as 97ms, meeting the rigorous demands of real-time interactive scenarios.\n* **Intelligent Text Understanding and Voice Control**: Supports speech generation driven by natural language instructions, allowing for flexible control over multi-dimensional acoustic attributes such as timbre, emotion, and prosody. By deeply integrating text semantic understanding, the model adaptively adjusts tone, rhythm, and emotional expression, achieving lifelike “what you imagine is what you hear” output.\n\n\n### Model Architecture\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Foverview.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### Released Models Description and Download\n\nBelow is an introduction and download information for the Qwen3-TTS models that have already been released. Other models mentioned in the technical report will be released in the near future. Please select and download the model that fits your needs.\n\n| Tokenizer Name                      | Description |\n|---------------------------------|-------------|\n| Qwen3-TTS-Tokenizer-12Hz        | The Qwen3-TTS-Tokenizer-12Hz model which can encode the input speech into codes and decode them back into speech. |\n\n\n| Model | Features | Language Support | Streaming | Instruction Control |\n|---|---|---|---|---|\n| Qwen3-TTS-12Hz-1.7B-VoiceDesign | Performs voice design based on user-provided descriptions. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ | ✅ |\n| Qwen3-TTS-12Hz-1.7B-CustomVoice | Provides style control over target timbres via user instructions; supports 9 premium timbres covering various combinations of gender, age, language, and dialect. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ | ✅ |\n| Qwen3-TTS-12Hz-1.7B-Base | Base model capable of 3-second rapid voice clone from user audio input; can be used for fine-tuning (FT) other models. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ |  |\n| Qwen3-TTS-12Hz-0.6B-CustomVoice | Supports 9 premium timbres covering various combinations of gender, age, language, and dialect. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ |  |\n| Qwen3-TTS-12Hz-0.6B-Base | Base model capable of 3-second rapid voice clone from user audio input; can be used for fine-tuning (FT) other models. | Chinese, English, Japanese, Korean, German, French, Russian, Portuguese, Spanish, Italian | ✅ |  |\n\nDuring model loading in the qwen-tts package or vLLM, model weights will be automatically downloaded based on the model name. However, if your runtime environment is not conducive to downloading weights during execution, you can refer to the following commands to manually download the model weights to a local directory:\n\n```bash\n# Download through ModelScope (recommended for users in Mainland China)\npip install -U modelscope\nmodelscope download --model Qwen\u002FQwen3-TTS-Tokenizer-12Hz  --local_dir .\u002FQwen3-TTS-Tokenizer-12Hz \nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --local_dir .\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign --local_dir .\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-Base --local_dir .\u002FQwen3-TTS-12Hz-1.7B-Base\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-0.6B-CustomVoice --local_dir .\u002FQwen3-TTS-12Hz-0.6B-CustomVoice\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-0.6B-Base --local_dir .\u002FQwen3-TTS-12Hz-0.6B-Base\n\n# Download through Hugging Face\npip install -U \"huggingface_hub[cli]\"\nhuggingface-cli download Qwen\u002FQwen3-TTS-Tokenizer-12Hz --local-dir .\u002FQwen3-TTS-Tokenizer-12Hz\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --local-dir .\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign --local-dir .\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-1.7B-Base --local-dir .\u002FQwen3-TTS-12Hz-1.7B-Base\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-0.6B-CustomVoice --local-dir .\u002FQwen3-TTS-12Hz-0.6B-CustomVoice\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-0.6B-Base --local-dir .\u002FQwen3-TTS-12Hz-0.6B-Base\n```\n\n\n## Quickstart\n\n### Environment Setup\n\nThe easiest way to quickly use Qwen3-TTS is to install the `qwen-tts` Python package from PyPI. This will pull in the required runtime dependencies and allow you to load any released Qwen3-TTS model. We recommend using a **fresh, isolated environment** to avoid dependency conflicts with existing packages. You can create a clean Python 3.12 environment like this:\n\n```bash\nconda create -n qwen3-tts python=3.12 -y\nconda activate qwen3-tts\n```\n\nthen run:\n\n```bash\npip install -U qwen-tts\n```\n\nIf you want to develop or modify the code locally, install from source in editable mode.\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS.git\ncd Qwen3-TTS\npip install -e .\n```\n\nAdditionally, we recommend using FlashAttention 2 to reduce GPU memory usage.\n\n```bash\npip install -U flash-attn --no-build-isolation\n```\n\nIf your machine has less than 96GB of RAM and lots of CPU cores, run:\n\n```bash\nMAX_JOBS=4 pip install -U flash-attn --no-build-isolation\n```\n\nAlso, you should have hardware that is compatible with FlashAttention 2. Read more about it in the official documentation of the [FlashAttention repository](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention). FlashAttention 2 can only be used when a model is loaded in `torch.float16` or `torch.bfloat16`.\n\n\n### Python Package Usage\n\nAfter installation, you can import `Qwen3TTSModel` to run custom voice TTS, voice design, and voice clone. The model weights can be specified either as a Hugging Face model id (recommended) or as a local directory path you downloaded. For all the `generate_*` functions below, besides the parameters shown and explicitly documented, you can also pass generation kwargs supported by Hugging Face Transformers `model.generate`, e.g., `max_new_tokens`, `top_p`, etc.\n\n#### Custom Voice Generate\n\nFor custom voice models (`Qwen3-TTS-12Hz-1.7B\u002F0.6B-CustomVoice`), you just need to call `generate_custom_voice`, passing a single string or a batch list, along with `language`, `speaker`, and optional `instruct`. You can also call `model.get_supported_speakers()` and `model.get_supported_languages()` to see which speakers and languages the current model supports.\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\n# single inference\nwavs, sr = model.generate_custom_voice(\n    text=\"其实我真的有发现，我是一个特别善于观察别人情绪的人。\",\n    language=\"Chinese\", # Pass `Auto` (or omit) for auto language adaptive; if the target language is known, set it explicitly.\n    speaker=\"Vivian\",\n    instruct=\"用特别愤怒的语气说\", # Omit if not needed.\n)\nsf.write(\"output_custom_voice.wav\", wavs[0], sr)\n\n# batch inference\nwavs, sr = model.generate_custom_voice(\n    text=[\n        \"其实我真的有发现，我是一个特别善于观察别人情绪的人。\", \n        \"She said she would be here by noon.\"\n    ],\n    language=[\"Chinese\", \"English\"],\n    speaker=[\"Vivian\", \"Ryan\"],\n    instruct=[\"\", \"Very happy.\"]\n)\nsf.write(\"output_custom_voice_1.wav\", wavs[0], sr)\nsf.write(\"output_custom_voice_2.wav\", wavs[1], sr)\n```\n\nFor `Qwen3-TTS-12Hz-1.7B\u002F0.6B-CustomVoice` models, the supported speaker list and speaker descriptions are provided below. We recommend using each speaker’s native language for the best quality. Of course, each speaker can speak any language supported by the model.\n\n| Speaker | Voice Description  |  Native language |\n| --- | --- | --- |\n| Vivian | Bright, slightly edgy young female voice. | Chinese |\n| Serena | Warm, gentle young female voice. | Chinese |\n| Uncle_Fu | Seasoned male voice with a low, mellow timbre. | Chinese |\n| Dylan | Youthful Beijing male voice with a clear, natural timbre. | Chinese (Beijing Dialect) |\n| Eric | Lively Chengdu male voice with a slightly husky brightness. | Chinese (Sichuan Dialect) |\n| Ryan | Dynamic male voice with strong rhythmic drive. | English |\n| Aiden | Sunny American male voice with a clear midrange. | English |\n| Ono_Anna | Playful Japanese female voice with a light, nimble timbre. | Japanese |\n| Sohee | Warm Korean female voice with rich emotion. | Korean |\n\n#### Voice Design\n\nFor the voice design model (`Qwen3-TTS-12Hz-1.7B-VoiceDesign`), you can use `generate_voice_design` to provide the target text and a natural-language `instruct` description.\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\n# single inference\nwavs, sr = model.generate_voice_design(\n    text=\"哥哥，你回来啦，人家等了你好久好久了，要抱抱！\",\n    language=\"Chinese\",\n    instruct=\"体现撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。\",\n)\nsf.write(\"output_voice_design.wav\", wavs[0], sr)\n\n# batch inference\nwavs, sr = model.generate_voice_design(\n    text=[\n      \"哥哥，你回来啦，人家等了你好久好久了，要抱抱！\",\n      \"It's in the top drawer... wait, it's empty? No way, that's impossible! I'm sure I put it there!\"\n    ],\n    language=[\"Chinese\", \"English\"],\n    instruct=[\n      \"体现撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。\",\n      \"Speak in an incredulous tone, but with a hint of panic beginning to creep into your voice.\"\n    ]\n)\nsf.write(\"output_voice_design_1.wav\", wavs[0], sr)\nsf.write(\"output_voice_design_2.wav\", wavs[1], sr)\n```\n\n#### Voice Clone\n\nFor the voice clone model (`Qwen3-TTS-12Hz-1.7B\u002F0.6B-Base`), to clone a voice and synthesize new content, you just need to provide a reference audio clip (`ref_audio`) along with its transcript (`ref_text`). `ref_audio` can be a local file path, a URL, a base64 string, or a `(numpy_array, sample_rate)` tuple. If you set `x_vector_only_mode=True`, only the speaker embedding is used so `ref_text` is not required, but cloning quality may be reduced.\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-Base\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\nref_audio = \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Fclone.wav\"\nref_text  = \"Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you.\"\n\nwavs, sr = model.generate_voice_clone(\n    text=\"I am solving the equation: x = [-b ± √(b²-4ac)] \u002F 2a? Nobody can — it's a disaster (◍•͈⌔•͈◍), very sad!\",\n    language=\"English\",\n    ref_audio=ref_audio,\n    ref_text=ref_text,\n)\nsf.write(\"output_voice_clone.wav\", wavs[0], sr)\n```\n\nIf you need to reuse the same reference prompt across multiple generations (to avoid recomputing prompt features), build it once with `create_voice_clone_prompt` and pass it via `voice_clone_prompt`.\n\n```python\nprompt_items = model.create_voice_clone_prompt(\n    ref_audio=ref_audio,\n    ref_text=ref_text,\n    x_vector_only_mode=False,\n)\nwavs, sr = model.generate_voice_clone(\n    text=[\"Sentence A.\", \"Sentence B.\"],\n    language=[\"English\", \"English\"],\n    voice_clone_prompt=prompt_items,\n)\nsf.write(\"output_voice_clone_1.wav\", wavs[0], sr)\nsf.write(\"output_voice_clone_2.wav\", wavs[1], sr)\n```\n\nFor more examples of reusable voice clone prompts, batch cloning, and batch inference, please refer to the [example codes](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fblob\u002Fmain\u002Fexamples\u002Ftest_model_12hz_base.py). With those examples and the `generate_voice_clone` function description, you can explore more advanced usage patterns.\n\n#### Voice Design then Clone\n\nIf you want a designed voice that you can reuse like a cloned speaker, a practical workflow is: (1) use the **VoiceDesign** model to synthesize a short reference clip that matches your target persona, (2) feed that clip into `create_voice_clone_prompt` to build a reusable prompt, and then (3) call `generate_voice_clone` with `voice_clone_prompt` to generate new content without re-extracting features every time. This is especially useful when you want a consistent character voice across many lines.\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\n# create a reference audio in the target style using the VoiceDesign model\ndesign_model = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\nref_text = \"H-hey! You dropped your... uh... calculus notebook? I mean, I think it's yours? Maybe?\"\nref_instruct = \"Male, 17 years old, tenor range, gaining confidence - deeper breath support now, though vowels still tighten when nervous\"\nref_wavs, sr = design_model.generate_voice_design(\n    text=ref_text,\n    language=\"English\",\n    instruct=ref_instruct\n)\nsf.write(\"voice_design_reference.wav\", ref_wavs[0], sr)\n\n# build a reusable clone prompt from the voice design reference\nclone_model = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-Base\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\nvoice_clone_prompt = clone_model.create_voice_clone_prompt(\n    ref_audio=(ref_wavs[0], sr),   # or \"voice_design_reference.wav\"\n    ref_text=ref_text,\n)\n\nsentences = [\n    \"No problem! I actually... kinda finished those already? If you want to compare answers or something...\",\n    \"What? No! I mean yes but not like... I just think you're... your titration technique is really precise!\",\n]\n\n# reuse it for multiple single calls\nwavs, sr = clone_model.generate_voice_clone(\n    text=sentences[0],\n    language=\"English\",\n    voice_clone_prompt=voice_clone_prompt,\n)\nsf.write(\"clone_single_1.wav\", wavs[0], sr)\n\nwavs, sr = clone_model.generate_voice_clone(\n    text=sentences[1],\n    language=\"English\",\n    voice_clone_prompt=voice_clone_prompt,\n)\nsf.write(\"clone_single_2.wav\", wavs[0], sr)\n\n# or batch generate in one call\nwavs, sr = clone_model.generate_voice_clone(\n    text=sentences,\n    language=[\"English\", \"English\"],\n    voice_clone_prompt=voice_clone_prompt,\n)\nfor i, w in enumerate(wavs):\n    sf.write(f\"clone_batch_{i}.wav\", w, sr)\n```\n\n#### Tokenizer Encode and Decode\n\nIf you only want to encode and decode audio for transport or training and so on, `Qwen3TTSTokenizer` supports encode\u002Fdecode with paths, URLs, numpy waveforms, and dict\u002Flist payloads, for example:\n\n```python\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSTokenizer\n\ntokenizer = Qwen3TTSTokenizer.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-Tokenizer-12Hz\",\n    device_map=\"cuda:0\",\n)\n\nenc = tokenizer.encode(\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Ftokenizer_demo_1.wav\")\nwavs, sr = tokenizer.decode(enc)\nsf.write(\"decode_output.wav\", wavs[0], sr)\n```\n\nFor more tokenizer examples (including different input formats and batch usage), please refer to the [example codes](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fblob\u002Fmain\u002Fexamples\u002Ftest_tokenizer_12hz.py). With those examples and the description for `Qwen3TTSTokenizer`, you can explore more advanced usage patterns.\n\n### Launch Local Web UI Demo\n\nTo launch the Qwen3-TTS web ui demo, simply install the `qwen-tts` package and run `qwen-tts-demo`. Use the command below for help:\n\n```bash\nqwen-tts-demo --help\n```\n\nTo launch the demo, you can use the following commands:\n\n```bash\n# CustomVoice model\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000\n# VoiceDesign model\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000\n# Base model\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000\n```\n\nAnd then open `http:\u002F\u002F\u003Cyour-ip>:8000`, or access it via port forwarding in tools like VS Code.\n\n#### Base Model HTTPS Notes\n\nTo avoid browser microphone permission issues after deploying the server, for Base model deployments, it is recommended\u002Frequired to run the gradio service over **HTTPS** (especially when accessed remotely or behind modern browsers\u002Fgateways). Use `--ssl-certfile` and `--ssl-keyfile` to enable HTTPS. First we need to generate a private key and a self-signed cert (valid for 365 days):\n\n```bash\nopenssl req -x509 -newkey rsa:2048 \\\n  -keyout key.pem -out cert.pem \\\n  -days 365 -nodes \\\n  -subj \"\u002FCN=localhost\"\n```\n\nThen run the demo with HTTPS:\n\n```bash\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-Base \\\n  --ip 0.0.0.0 --port 8000 \\\n  --ssl-certfile cert.pem \\\n  --ssl-keyfile key.pem \\\n  --no-ssl-verify\n```\n\nAnd open `https:\u002F\u002F\u003Cyour-ip>:8000` to experience it. If your browser shows a warning, it’s expected for self-signed certificates. For production, use a real certificate.\n\n### DashScope API Usage\n\nTo further explore Qwen3-TTS, we encourage you to try our DashScope API for a faster and more efficient experience. For detailed API information and documentation, please refer to the following:\n\n| API Description | API Documentation (Mainland China) | API Documentation (International) |\n|------------------|-----------------------------------|------------------------------------|\n| Real-time API for Qwen3-TTS of custom voice model. | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-realtime](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-realtime) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-realtime](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-realtime) |\n| Real-time API for Qwen3-TTS of voice clone model. | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-cloning](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-cloning) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-cloning](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-cloning) |\n| Real-time API for Qwen3-TTS of voice design model. | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-design](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-design) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-design](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-design) |\n\n\n## vLLM Usage\n\nvLLM officially provides day-0 support for Qwen3-TTS! Welcome to use vLLM-Omni for Qwen3-TTS deployment and inference. For installation and more details, please check [vLLM-Omni official documentation](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fgetting_started\u002Fquickstart\u002F#installation). Now only offline inference is supported. Online serving will be supported later, and vLLM-Omni will continue to offer support and optimization for Qwen3-TTS in areas such as inference speed and streaming capabilities.\n\n### Offline Inference\nYou can use vLLM-Omni to inference Qwen3-TTS locally, we provide examples in [vLLM-Omni repo](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Ftree\u002Fmain\u002Fexamples\u002Foffline_inference\u002Fqwen3_tts) which can generate audio output:\n```bash\n# git clone https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni.git\n\n# cd vllm-omni\u002Fexamples\u002Foffline_inference\u002Fqwen3_tts\n\n# Run a single sample with CustomVoice task\npython end2end.py --query-type CustomVoice\n\n# Batch sample (multiple prompts in one run) with CustomVoice task:\npython end2end.py --query-type CustomVoice --use-batch-sample\n\n# Run a single sample with VoiceDesign task\npython end2end.py --query-type VoiceDesign\n\n# Batch sample (multiple prompts in one run) with VoiceDesign task:\npython end2end.py --query-type VoiceDesign --use-batch-sample\n\n# Run a single sample with Base task in icl mode-tag\npython end2end.py --query-type Base --mode-tag icl\n```\n\n## Fine Tuning\n\nPlease refer to [Qwen3-TTS-Finetuning](finetuning\u002F) for detailed instructions on fine-tuning Qwen3-TTS.\n\n## Evaluation\n\nDuring evaluation, we ran inference for all models with `dtype=torch.bfloat16` and set `max_new_tokens=2048`. All other sampling parameters used the defaults from the checkpoint’s `generate_config.json`. For the Seed-Test and InstructTTS-Eval test sets, we set `language=\"auto\"`, while for all other test sets we explicitly passed the corresponding `language`. The detailed results are shown below.\n\n\n\u003Cdetails>\n\u003Csummary>Speech Generation Benchmarks\u003C\u002Fsummary>\n\n*Zero-shot speech generation on the Seed-TTS test set. Performance is measured by Word Error Rate (WER, ↓), where lower is better.*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Datasets\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Performance\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-bottom: 1px solid #ddd; border-top: 1px solid #ddd;\">\n      \u003Ctd colspan=\"4\" style=\"text-align: center;\">\u003Cem>Content Consistency\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"14\" style=\"text-align: center; vertical-align: middle;\">SEED\u003Cbr>\u003Cem>test-zh\u003C\u002Fem> | \u003Cem>test-en\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Seed-TTS (Anastassiou et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.12\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.25\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MaskGCT (Wang et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.27\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.62\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">E2 TTS (Eskimez et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.97\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">F5-TTS (Chen et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.56\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Spark TTS (Wang et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.20\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Llasa-8B (Ye et al., 2025b)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.59\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.97\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">KALL-E (Xia et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.96\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.94\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">FireRedTTS 2 (Xie et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.14\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.95\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">CosyVoice 3 (Du et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.71\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.45\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MiniMax-Speech (Zhang et al., 2025a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.83\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.65\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-25Hz-0.6B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.18\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.64\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-25Hz-1.7B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.10\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.49\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-12Hz-0.6B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.32\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-12Hz-1.7B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.77\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.24\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*Multilingual speech generation on the TTS multilingual test set. Performance is measured by Word Error Rate (WER, ↓) for content consistency and Cosine Similarity (SIM, ↑) for speaker similarity.*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">Language\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-25Hz\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-12Hz\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: bottom;\">MiniMax\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: bottom;\">ElevenLabs\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">0.6B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">0.6B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-Base\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"7\" style=\"text-align: center; border-top: 1px solid #ddd; border-bottom: 1px solid #ddd;\">\u003Cem>Content Consistency\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Chinese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.108\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.777\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.145\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.928\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.252\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16.026\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">English\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.014\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.836\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.934\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.164\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.339\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">German\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.501\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.960\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.089\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.235\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.906\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.572\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Italian\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.169\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.105\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.534\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.948\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.543\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.743\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Portuguese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.046\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.778\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.254\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.526\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.877\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.331\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Spanish\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.031\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.491\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.491\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.126\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.029\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.084\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Japanese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.189\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.121\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.404\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.823\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.519\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.646\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Korean\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.852\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.631\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.741\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.755\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.747\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.865\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">French\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.852\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>2.631\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.931\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.858\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.099\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.216\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Russian\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.957\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.535\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.458\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.212\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.281\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.878\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd colspan=\"7\" style=\"text-align: center; border-bottom: 1px solid #ddd;\">\u003Cem>Speaker Similarity\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Chinese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.797\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.796\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.811\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.799\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.780\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.677\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">English\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.811\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.815\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.829\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.775\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.756\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.613\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">German\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.749\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.737\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.769\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.775\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.733\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.614\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Italian\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.722\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.718\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.792\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.817\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.699\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.579\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Portuguese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.790\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.783\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.794\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.817\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.805\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.711\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Spanish\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.732\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.731\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.812\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.814\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.762\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.615\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Japanese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.810\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.807\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.798\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.788\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.776\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.738\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Korean\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.824\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.814\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.812\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.799\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.779\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.700\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">French\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.698\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.703\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.700\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.714\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.628\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.535\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Russian\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.734\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.744\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.781\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.792\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.761\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.676\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*Cross-lingual speech generation on the Cross-Lingual benchmark. Performance is measured by Mixed Error Rate (WER for English, CER for others, ↓).*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">Task\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-TTS-25Hz-1.7B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-TTS-12Hz-1.7B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">CosyVoice3\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">CosyVoice2\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">en-to-zh\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.66\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.77\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.09\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ja-to-zh\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.43\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.05\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">48.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ko-to-zh\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.14\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.08\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.06\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.70\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd style=\"text-align: left;\">zh-to-en\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.91\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>2.77\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.98\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ja-to-en\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.95\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.04\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.20\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">17.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ko-to-en\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.48\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.09\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.19\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">11.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd style=\"text-align: left;\">zh-to-ja\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">9.29\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8.40\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">en-to-ja\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.74\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.21\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>6.80\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ko-to-ja\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.17\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.67\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.93\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd style=\"text-align: left;\">zh-to-ko\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8.12\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">24.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">en-to-ko\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.83\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>5.14\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.87\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">ja-to-ko\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.86\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>5.59\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*Controllable speech generation on InstructTTSEval. Performance is measured by Attribute Perception and Synthesis accuracy (APS), Description-Speech Consistency (DSD), and Response Precision (RP).*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">Type\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">InstructTTSEval-ZH\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">InstructTTSEval-EN\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">APS (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">DSD (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">RP (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">APS (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">DSD (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">RP (↑)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\" style=\"text-align: left; vertical-align: middle;\">\u003Cem>Target\u003Cbr>Speaker\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Gemini-flash\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">88.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>90.9\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>77.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>92.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>93.8\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>80.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Gemini-pro\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>89.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">90.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">67.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3TTS-25Hz-1.7B-CustomVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">79.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3TTS-12Hz-1.7B-CustomVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">GPT-4o-mini-tts\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">46.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd rowspan=\"9\" style=\"text-align: left; vertical-align: middle;\">\u003Cem>Voice\u003Cbr>Design\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Qwen3TTS-12Hz-1.7B-VD\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>85.2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>81.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>65.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>82.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>68.4\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Mimo-Audio-7B-Instruct (Zhang et al., 2025b)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">59.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VoiceSculptor (Hu et al., 2026)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Hume\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>83.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VoxInstruct (Zhou et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">42.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">57.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Parler-tts-mini (Lyth & King, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">48.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">28.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Parler-tts-large (Lyth & King, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">60.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">45.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">31.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PromptTTS (Guo et al., 2023)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">31.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PromptStyle (Liu et al., 2023)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">57.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">46.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*Target-Speaker Multilingual Speech Generation on the TTS multilingual test set. Performance is measured by Word Error Rate (WER, ↓).*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">Language\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-25Hz\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-12Hz\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: bottom;\">GPT-4o-Audio\u003Cbr>Preview\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">0.6B-CustomVoice\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-CustomVoice\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">0.6B-CustomVoice\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-CustomVoice\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Chinese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.874\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.708\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.944\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.903\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.519\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">English\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.332\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.936\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.188\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.899\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.197\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">German\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.990\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.634\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.722\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.057\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.161\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Italian\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.861\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.271\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.545\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.362\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.194\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Portuguese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.728\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.854\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.219\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.681\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.504\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Spanish\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.309\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.284\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.154\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.330\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.000\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Japanese\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.875\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.518\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.877\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.924\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.001\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Korean\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.202\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.274\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.053\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.741\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.763\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">French\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.865\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.080\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.841\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.781\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.605\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Russian\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.529\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.444\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.809\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.734\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.250\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*Long speech generation results. Performance is measured by Word Error Rate (WER, ↓).*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Datasets\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Performance\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-bottom: 1px solid #ddd; border-top: 1px solid #ddd;\">\n      \u003Ctd colspan=\"4\" style=\"text-align: center;\">\u003Cem>Content Consistency\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\" style=\"text-align: center; vertical-align: middle;\">\u003Cem>long-zh\u003C\u002Fem> | \u003Cem>long-en\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Higgs-Audio-v2 (chunk) (Boson AI, 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.505\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.917\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VibeVoice (Peng et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">22.619\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.780\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VoxCPM (Zhou et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.835\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.474\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-25Hz-1.7B-CustomVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.517\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.225\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-12Hz-1.7B-CustomVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.356\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.812\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>Speech Tokenizer Benchmarks\u003C\u002Fsummary>\n\n*Comparison between different supervised semantic speech tokenizers on ASR Task.*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Codebook Size\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">FPS\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">C.V. EN\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">C.V. CN\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Fluers EN\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Fluers CN\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">S3 Tokenizer(VQ) (Du et al., 2024a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4096\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.06\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">15.38\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">S3 Tokenizer(VQ) (Du et al., 2024a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4096\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">11.56\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">18.26\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.65\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.03\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">S3 Tokenizer(FSQ) (Du et al., 2024a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6561\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.67\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.29\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.58\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.43\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen-TTS-Tokenizer-25Hz (Stage 1)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32768\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.51\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.73\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.07\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.23\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen-TTS-Tokenizer-25Hz (Stage 2)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32768\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.40\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.99\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.14\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.67\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*Comparison between different semantic-related speech tokenizers.*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">NQ\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Codebook Size\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">FPS\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">PESQ_WB\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">PESQ_NB\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">STOI\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">UTMOS\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">SIM\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">SpeechTokenizer (Zhang et al., 2023a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1024\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.60\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.05\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.90\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.85\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">X-codec (Ye et al., 2025a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1024\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.68\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.27\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.86\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.11\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.84\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">X-codec 2 (Ye et al., 2025b)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65536\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.43\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.04\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.13\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.82\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">XY-Tokenizer (Gong et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1024\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.41\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.00\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.91\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.98\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Mimi (Défossez et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.88\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.42\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.94\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.87\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">FireredTTS 2 Tokenizer (Xie et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.73\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.28\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.94\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.88\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen-TTS-Tokenizer-12Hz\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.21\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.68\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.96\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.16\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.95\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n## Citation\n\nIf you find our paper and code useful in your research, please consider giving a star :star: and citation :pencil: :)\n\n```BibTeX\n@article{Qwen3-TTS,\n  title={Qwen3-TTS Technical Report},\n  author={Hangrui Hu and Xinfa Zhu and Ting He and Dake Guo and Bin Zhang and Xiong Wang and Zhifang Guo and Ziyue Jiang and Hongkun Hao and Zishan Guo and Xinyu Zhang and Pei Zhang and Baosong Yang and Jin Xu and Jingren Zhou and Junyang Lin},\n  journal={arXiv preprint arXiv:2601.15621},\n  year={2026}\n}\n```\n\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQwenLM_Qwen3-TTS_readme_06f3d2c3d7cb.png)](https:\u002F\u002Fstar-history.com\u002F#QwenLM\u002FQwen3-TTS&Date)\n\n\n\u003Cbr>","# 通义TTS3\n\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Fqwen3_tts_logo.png\" width=\"400\"\u002F>\n\u003Cp>\n\n\u003Cp align=\"center\">\n&nbsp&nbsp🤗 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-tts\">Hugging Face\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🤖 \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fcollections\u002FQwen\u002FQwen3-TTS\">ModelScope\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fqwen.ai\u002Fblog?id=qwen3tts-0115\">博客\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.15621\">论文\u003C\u002Fa>&nbsp&nbsp\n\u003Cbr>\n🖥️ \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FQwen\u002FQwen3-TTS\">Hugging Face 演示\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp 🖥️ \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fstudios\u002FQwen\u002FQwen3-TTS\">ModelScope 演示\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp💬 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen\u002Fblob\u002Fmain\u002Fassets\u002Fwechat.png\">微信\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp🫨 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FCV4E9rpNSD\">Discord\u003C\u002Fa>&nbsp&nbsp | &nbsp&nbsp📑 \u003Ca href=\"https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-realtime\">API\u003C\u002Fa>\n\n\u003C\u002Fp>\n\n我们发布了 **Qwen3-TTS**，这是一系列由通义大模型团队研发的强大语音生成能力，全面支持声音克隆、声音设计、超高质量类人语音生成以及基于自然语言的语音控制。它为开发者和用户提供了目前市场上最丰富的语音生成功能集。\n\n\n## 新闻\n* 2026年1月22日：🎉🎉🎉 我们基于 Qwen3-TTS-Tokenizer-12Hz 发布了 [Qwen3-TTS](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen3-tts) 系列模型（0.6B\u002F1.7B）。请查看我们的 [博客](https:\u002F\u002Fqwen.ai\u002Fblog?id=qwen3tts-0115)！\n\n## 目录 \u003C!-- omit in toc -->\n\n- [概述](#overview)\n  - [简介](#introduction)\n  - [模型架构](#model-architecture)\n  - [已发布模型介绍与下载](#released-models-description-and-download)\n- [快速入门](#quickstart)\n  - [环境搭建](#environment-setup)\n  - [Python 包使用](#python-package-usage)\n    - [自定义声音生成](#custom-voice-generate)\n    - [声音设计](#voice-design)\n    - [声音克隆](#voice-clone)\n    - [先设计后克隆](#voice-design-then-clone)\n    - [分词器编码与解码](#tokenizer-encode-and-decode)\n  - [启动本地 Web UI 演示](#launch-local-web-ui-demo)\n  - [DashScope API 使用](#dashscope-api-usage)\n- [vLLM 使用](#vllm-usage)\n- [微调](#fine-tuning)\n- [评估](#evaluation)\n- [引用](#citation)\n\n## 概述\n### 简介\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Fqwen3_tts_introduction.png\" width=\"90%\"\u002F>\n\u003Cp>\n\nQwen3-TTS 覆盖 10 种主要语言（中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语和意大利语）以及多种方言语音风格，以满足全球范围内的应用需求。此外，这些模型具备强大的上下文理解能力，能够根据指令和文本语义自适应地控制语调、语速和情感表达，并且对噪声输入文本的鲁棒性显著提升。核心特性如下：\n\n* **强大的语音表示能力**：依托自主研发的 Qwen3-TTS-Tokenizer-12Hz，实现了对语音信号的高效声学压缩和高维语义建模。该分词器能够完整保留超语言信息及声学环境特征，通过轻量级的非 DiT 架构实现高速、高保真的语音重建。\n* **通用端到端架构**：采用离散多码本 LM 架构，实现了全信息的端到端语音建模。这一设计彻底规避了传统 LM+DiT 方案中固有的信息瓶颈和级联误差问题，显著提升了模型的通用性、生成效率和性能上限。\n* **极低延迟流式生成**：基于创新的双轨混合流式生成架构，单个模型同时支持流式与非流式生成。只需输入一个字符，即可立即输出首个音频包，端到端合成延迟低至 97 毫秒，完全满足实时交互场景的严苛要求。\n* **智能文本理解和语音控制**：支持基于自然语言指令的语音生成，可灵活控制音色、情感和韵律等多种声学属性。通过深度融合文本语义理解，模型能够自适应调整语调、节奏和情感表达，实现“所想即所得”的逼真输出。\n\n\n### 模型架构\n\n\u003Cp align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Foverview.png\" width=\"80%\"\u002F>\n\u003Cp>\n\n### 已发布模型介绍与下载\n\n以下是目前已发布的 Qwen3-TTS 模型的介绍及下载信息。技术报告中提到的其他模型将在近期陆续发布。请根据您的需求选择并下载合适的模型。\n\n| 分词器名称                      | 描述 |\n|---------------------------------|-------------|\n| Qwen3-TTS-Tokenizer-12Hz        | Qwen3-TTS-Tokenizer-12Hz 模型可以将输入语音编码为代码，并将其解码回语音。 |\n\n\n| 模型 | 特性 | 语言支持 | 流式支持 | 指令控制 |\n|---|---|---|---|---|\n| Qwen3-TTS-12Hz-1.7B-VoiceDesign | 根据用户提供的描述进行声音设计。 | 中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 | ✅ | ✅ |\n| Qwen3-TTS-12Hz-1.7B-CustomVoice | 通过用户指令对目标音色进行风格化控制；支持 9 种优质音色，涵盖不同性别、年龄、语言和方言的组合。 | 中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 | ✅ | ✅ |\n| Qwen3-TTS-12Hz-1.7B-Base | 基础模型，可根据用户音频输入在 3 秒内完成快速声音克隆；可用于微调其他模型。 | 中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 | ✅ |  |\n| Qwen3-TTS-12Hz-0.6B-CustomVoice | 支持 9 种优质音色，涵盖不同性别、年龄、语言和方言的组合。 | 中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 | ✅ |  |\n| Qwen3-TTS-12Hz-0.6B-Base | 基础模型，可根据用户音频输入在 3 秒内完成快速声音克隆；可用于微调其他模型。 | 中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 | ✅ |  |\n\n在 qwen-tts 包或 vLLM 中加载模型时，模型权重会根据模型名称自动下载。然而，如果您的运行环境不适合在执行过程中下载权重，您可以参考以下命令，手动将模型权重下载到本地目录：\n\n```bash\n\n# 通过ModelScope下载（推荐中国大陆用户使用）\npip install -U modelscope\nmodelscope download --model Qwen\u002FQwen3-TTS-Tokenizer-12Hz  --local_dir .\u002FQwen3-TTS-Tokenizer-12Hz \nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --local_dir .\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign --local_dir .\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-Base --local_dir .\u002FQwen3-TTS-12Hz-1.7B-Base\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-0.6B-CustomVoice --local_dir .\u002FQwen3-TTS-12Hz-0.6B-CustomVoice\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-0.6B-Base --local_dir .\u002FQwen3-TTS-12Hz-0.6B-Base\n\n# 通过Hugging Face下载\npip install -U \"huggingface_hub[cli]\"\nhuggingface-cli download Qwen\u002FQwen3-TTS-Tokenizer-12Hz --local-dir .\u002FQwen3-TTS-Tokenizer-12Hz\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --local-dir .\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign --local-dir .\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-1.7B-Base --local-dir .\u002FQwen3-TTS-12Hz-1.7B-Base\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-0.6B-CustomVoice --local-dir .\u002FQwen3-TTS-12Hz-0.6B-CustomVoice\nhuggingface-cli download Qwen\u002FQwen3-TTS-12Hz-0.6B-Base --local-dir .\u002FQwen3-TTS-12Hz-0.6B-Base\n```\n\n\n## 快速入门\n\n### 环境搭建\n\n快速使用Qwen3-TTS最简单的方法是从PyPI安装`qwen-tts` Python包。这将自动拉取所需的运行时依赖项，并允许您加载任何已发布的Qwen3-TTS模型。我们建议使用**全新且隔离的环境**，以避免与现有包产生依赖冲突。您可以按如下方式创建一个干净的Python 3.12环境：\n\n```bash\nconda create -n qwen3-tts python=3.12 -y\nconda activate qwen3-tts\n```\n\n然后运行：\n\n```bash\npip install -U qwen-tts\n```\n\n如果您希望在本地开发或修改代码，请以可编辑模式从源码安装。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS.git\ncd Qwen3-TTS\npip install -e .\n```\n\n此外，我们建议使用FlashAttention 2来减少GPU显存占用。\n\n```bash\npip install -U flash-attn --no-build-isolation\n```\n\n如果您的机器内存不足96GB且CPU核心较多，则可以运行以下命令：\n\n```bash\nMAX_JOBS=4 pip install -U flash-attn --no-build-isolation\n```\n\n另外，您的硬件需要兼容FlashAttention 2。更多信息请参阅[FlashAttention仓库](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention)的官方文档。FlashAttention 2仅可在模型以`torch.float16`或`torch.bfloat16`格式加载时使用。\n\n\n\n### Python包使用方法\n\n安装完成后，您可以导入`Qwen3TTSModel`来运行自定义语音合成、语音设计和语音克隆任务。模型权重既可以通过Hugging Face模型ID指定（推荐），也可以通过您下载的本地目录路径指定。对于下面的所有`generate_*`函数，除了所示并明确记录的参数外，您还可以传递Hugging Face Transformers `model.generate`支持的生成关键字参数，例如`max_new_tokens`、`top_p`等。\n\n#### 自定义语音合成\n\n对于自定义语音模型（`Qwen3-TTS-12Hz-1.7B\u002F0.6B-CustomVoice`），您只需调用`generate_custom_voice`，传入单个字符串或一批文本列表，以及`language`、`speaker`和可选的`instruct`参数。您还可以调用`model.get_supported_speakers()`和`model.get_supported_languages()`查看当前模型支持哪些说话人和语言。\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\n# 单次推理\nwavs, sr = model.generate_custom_voice(\n    text=\"其实我真的有发现，我是一个特别善于观察别人情绪的人。\",\n    language=\"Chinese\", # 使用`Auto`（或省略）实现自动语言适配；若目标语言已知，可明确指定。\n    speaker=\"Vivian\",\n    instruct=\"用特别愤怒的语气说\", # 如无需指令可省略。\n)\nsf.write(\"output_custom_voice.wav\", wavs[0], sr)\n\n# 批量推理\nwavs, sr = model.generate_custom_voice(\n    text=[\n        \"其实我真的有发现，我是一个特别善于观察别人情绪的人。\",\n        \"She said she would be here by noon.\"\n    ],\n    language=[\"Chinese\", \"English\"],\n    speaker=[\"Vivian\", \"Ryan\"],\n    instruct=[\"\", \"Very happy.\"]\n)\nsf.write(\"output_custom_voice_1.wav\", wavs[0], sr)\nsf.write(\"output_custom_voice_2.wav\", wavs[1], sr)\n```\n\n对于`Qwen3-TTS-12Hz-1.7B\u002F0.6B-CustomVoice`模型，支持的说话人列表及描述如下。我们建议使用各说话人的母语以获得最佳效果。当然，每位说话人也可以使用模型支持的任意语言进行发音。\n\n| 说话人 | 声音描述 | 母语 |\n| --- | --- | --- |\n| Vivian | 清亮、略带锋芒的年轻女声。 | 中文 |\n| Serena | 温暖、柔和的年轻女声。 | 中文 |\n| Uncle_Fu | 经验丰富、低沉醇厚的男声。 | 中文 |\n| Dylan | 年轻、京腔清晰自然的北京男声。 | 北京话 |\n| Eric | 充满活力、略带沙哑但明亮的成都男声。 | 四川话 |\n| Ryan | 动感十足、节奏感强的男声。 | 英语 |\n| Aiden | 阳光开朗、中频清晰的美国男声。 | 英语 |\n| Ono_Anna | 活泼俏皮、轻快灵动的日本女声。 | 日语 |\n| Sohee | 温暖深情、情感丰富的韩国女声。 | 韩语 |\n\n#### 语音设计\n\n对于语音设计模型（`Qwen3-TTS-12Hz-1.7B-VoiceDesign`），您可以使用`generate_voice_design`提供目标文本和一段自然语言的描述性指令。\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\n# 单次推理\nwavs, sr = model.generate_voice_design(\n    text=\"哥哥，你回来啦，人家等了你好久好久了，要抱抱！\",\n    language=\"Chinese\",\n    instruct=\"表现出撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。\",\n)\nsf.write(\"output_voice_design.wav\", wavs[0], sr)\n\n# 批量推理\nwavs, sr = model.generate_voice_design(\n    text=[\n      \"哥哥，你回来啦，人家等了你好久好久了，要抱抱！\",\n      \"它在最上面的抽屉里……等等，怎么是空的？不可能啊，这绝对不可能！我明明就是放那儿的呀！\"\n    ],\n    language=[\"中文\", \"英文\"],\n    instruct=[\n      \"表现出撒娇、稚嫩的萝莉音色，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。\",\n      \"用难以置信的语气说话，但声音中开始透着一丝慌乱。\"\n    ]\n)\nsf.write(\"output_voice_design_1.wav\", wavs[0], sr)\nsf.write(\"output_voice_design_2.wav\", wavs[1], sr)\n```\n\n#### 语音克隆\n\n对于语音克隆模型（`Qwen3-TTS-12Hz-1.7B\u002F0.6B-Base`），要克隆一段语音并合成新内容，只需提供参考音频片段（`ref_audio`）及其对应的文本转录（`ref_text`）。`ref_audio`可以是本地文件路径、URL、base64编码字符串，或者一个形如`(numpy_array, sample_rate)`的元组。如果设置`x_vector_only_mode=True`，则仅使用说话人嵌入，因此无需提供`ref_text`，但克隆质量可能会有所下降。\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-Base\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\nref_audio = \"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Fclone.wav\"\nref_text  = \"好吧。嗯。我讨厌你。我爱你。我尊重你。但是你知道吗？你搞砸了！而且多亏了你。\"\n\nwavs, sr = model.generate_voice_clone(\n    text=\"我在解方程：x = [-b ± √(b²-4ac)] \u002F 2a？没人能——太糟糕了(◍•͈⌔•͈◍)，好伤心啊！\",\n    language=\"英语\",\n    ref_audio=ref_audio,\n    ref_text=ref_text,\n)\nsf.write(\"output_voice_clone.wav\", wavs[0], sr)\n```\n\n如果需要在多次生成中重复使用同一参考提示（以避免重复计算提示特征），可以先用`create_voice_clone_prompt`构建一次提示，并通过`voice_clone_prompt`传递。\n\n```python\nprompt_items = model.create_voice_clone_prompt(\n    ref_audio=ref_audio,\n    ref_text=ref_text,\n    x_vector_only_mode=False,\n)\nwavs, sr = model.generate_voice_clone(\n    text=[\"句子A。”，“句子B。”],\n    language=[\"英语\", \"英语\"],\n    voice_clone_prompt=prompt_items，\n)\nsf.write(\"output_voice_clone_1.wav\", wavs[0], sr)\nsf.write(\"output_voice_clone_2.wav\", wavs[1], sr)\n```\n\n更多关于可重用语音克隆提示、批量克隆和批量推理的示例，请参阅[示例代码](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fblob\u002Fmain\u002Fexamples\u002Ftest_model_12hz_base.py)。结合这些示例和`generate_voice_clone`函数的说明，您可以探索更高级的使用模式。\n\n#### 先设计再克隆\n\n如果您希望获得一种可以像克隆说话人一样重复使用的定制化语音，一个实用的工作流程是：(1) 使用**VoiceDesign**模型合成一段符合目标角色设定的短参考音频；(2) 将该音频输入到`create_voice_clone_prompt`中，构建一个可重用的提示；然后 (3) 调用`generate_voice_clone`并传入`voice_clone_prompt`，即可生成新内容，而无需每次都重新提取特征。这种方法尤其适用于需要在多段台词中保持一致角色语音的情况。\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\n# 使用VoiceDesign模型创建目标风格的参考音频\ndesign_model = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\nref_text = \"嘿！你掉…呃…你的微积分笔记本了吗？我是说，我觉得可能是你的吧？也许吧？\"\nref_instruct = \"男性，17岁，男高音音域，逐渐变得自信——现在呼吸支持更扎实了，不过紧张时元音仍会收紧\"\nref_wavs, sr = design_model.generate_voice_design(\n    text=ref_text,\n    language=\"英语\",\n    instruct=ref_instruct\n)\nsf.write(\"voice_design_reference.wav\", ref_wavs[0], sr)\n\n# 从语音设计参考中构建可重用的克隆提示\nclone_model = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-Base\",\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\nvoice_clone_prompt = clone_model.create_voice_clone_prompt(\n    ref_audio=(ref_wavs[0], sr),   \u002F\u002F 或者 \"voice_design_reference.wav\"\n    ref_text=ref_text,\n)\n\nsentences = [\n    \"没问题！其实……我差不多已经做完那些题了？如果你想要对照答案什么的……\",\n    \"什么？不！我的意思是，是的，但不是那种……我只是觉得你……你的滴定技术真的很精准！\"\n];\n\n\u002F\u002F 多次单独调用\nwavs, sr = clone_model.generate_voice_clone(\n    text=sentences[0],\n    language=\"英语\",\n    voice_clone_prompt=voice_clone_prompt,\n)\nsf.write(\"clone_single_1.wav\", wavs[0], sr)\n\nwavs, sr = clone_model.generate_voice_clone(\n    text=sentences[1],\n    language=\"英语\",\n    voice_clone_prompt=voice_clone_prompt,\n)\nsf.write(\"clone_single_2.wav\", wavs[0], sr)\n\n\u002F\u002F 或者一次性批量生成\nwavs, sr = clone_model.generate_voice_clone(\n    text=sentences,\n    language=[\"英语\", \"英语\"],\n    voice_clone_prompt=voice_clone_prompt,\n)\nfor i, w in enumerate(wavs):\n    sf.write(f\"clone_batch_{i}.wav\", w, sr)\n```\n\n#### 分词器的编码与解码\n\n如果您只是想对音频进行编码和解码，用于传输或训练等目的，`Qwen3TTSTokenizer`支持通过路径、URL、numpy波形以及字典\u002F列表负载来进行编码\u002F解码，例如：\n\n```python\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSTokenizer\n\ntokenizer = Qwen3TTSTokenizer.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-Tokenizer-12Hz\",\n    device_map=\"cuda:0\",\n)\n\nenc = tokenizer.encode(\"https:\u002F\u002Fqianwen-res.oss-cn-beijing.aliyuncs.com\u002FQwen3-TTS-Repo\u002Ftokenizer_demo_1.wav\")\nwavs, sr = tokenizer.decode(enc)\nsf.write(\"decode_output.wav\", wavs[0], sr)\n```\n\n更多分词器示例（包括不同输入格式和批量使用）请参阅[示例代码](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fblob\u002Fmain\u002Fexamples\u002Ftest_tokenizer_12hz.py)。结合这些示例和`Qwen3TTSTokenizer`的说明，您可以探索更高级的使用模式。\n\n### 启动本地Web界面演示\n\n要启动Qwen3-TTS的Web界面演示，只需安装`qwen-tts`包并运行`qwen-tts-demo`命令。使用以下命令获取帮助：\n\n```bash\nqwen-tts-demo --help\n```\n\n启动演示的命令如下：\n\n```bash\n# CustomVoice模型\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000\n# VoiceDesign模型\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000\n\n# 基础模型\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000\n```\n\n然后打开 `http:\u002F\u002F\u003Cyour-ip>:8000`，或者通过 VS Code 等工具的端口转发功能访问。\n\n#### 基础模型 HTTPS 注意事项\n\n为了避免部署服务器后出现浏览器麦克风权限问题，在部署基础模型时，建议或要求使用 **HTTPS** 运行 Gradio 服务（尤其是在远程访问或通过现代浏览器\u002F网关访问时）。可以使用 `--ssl-certfile` 和 `--ssl-keyfile` 来启用 HTTPS。首先需要生成一个有效期为 365 天的私钥和自签名证书：\n\n```bash\nopenssl req -x509 -newkey rsa:2048 \\\n  -keyout key.pem -out cert.pem \\\n  -days 365 -nodes \\\n  -subj \"\u002FCN=localhost\"\n```\n\n然后以 HTTPS 方式运行演示：\n\n```bash\nqwen-tts-demo Qwen\u002FQwen3-TTS-12Hz-1.7B-Base \\\n  --ip 0.0.0.0 --port 8000 \\\n  --ssl-certfile cert.pem \\\n  --ssl-keyfile key.pem \\\n  --no-ssl-verify\n```\n\n最后打开 `https:\u002F\u002F\u003Cyour-ip>:8000` 即可体验。如果浏览器显示警告，这是使用自签名证书的正常现象。在生产环境中，请使用正式的 SSL 证书。\n\n### DashScope API 使用说明\n\n为了更深入地探索 Qwen3-TTS，我们鼓励您尝试使用我们的 DashScope API，以获得更快、更高效的体验。有关 API 的详细信息和文档，请参阅下表：\n\n| API 描述 | API 文档（中国大陆） | API 文档（国际） |\n|------------------|-----------------------------------|------------------------------------|\n| 自定义语音模型的 Qwen3-TTS 实时 API。 | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-realtime](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-realtime) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-realtime](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-realtime) |\n| 语音克隆模型的 Qwen3-TTS 实时 API。 | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-cloning](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-cloning) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-cloning](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-cloning) |\n| 语音设计模型的 Qwen3-TTS 实时 API。 | [https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-design](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fqwen-tts-voice-design) | [https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-design](https:\u002F\u002Fwww.alibabacloud.com\u002Fhelp\u002Fen\u002Fmodel-studio\u002Fqwen-tts-voice-design) |\n\n\n## vLLM 使用说明\n\nvLLM 官方已对 Qwen3-TTS 提供开箱即用的支持！欢迎使用 vLLM-Omni 进行 Qwen3-TTS 的部署和推理。有关安装及更多详情，请参阅 [vLLM-Omni 官方文档](https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Fvllm-omni\u002Fen\u002Flatest\u002Fgetting_started\u002Fquickstart\u002F#installation)。目前仅支持离线推理，线上服务将在后续支持。vLLM-Omni 将继续在推理速度、流式传输等方面为 Qwen3-TTS 提供支持与优化。\n\n### 离线推理\n您可以使用 vLLM-Omni 在本地进行 Qwen3-TTS 的推理。我们在 [vLLM-Omni 仓库](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni\u002Ftree\u002Fmain\u002Fexamples\u002Foffline_inference\u002Fqwen3_tts) 中提供了示例代码，可以直接生成音频输出：\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm-omni.git\n\n# 进入离线推理目录\ncd vllm-omni\u002Fexamples\u002Foffline_inference\u002Fqwen3_tts\n\n# 使用 CustomVoice 任务运行单个样本\npython end2end.py --query-type CustomVoice\n\n# 使用 CustomVoice 任务批量处理多个提示：\npython end2end.py --query-type CustomVoice --use-batch-sample\n\n# 使用 VoiceDesign 任务运行单个样本\npython end2end.py --query-type VoiceDesign\n\n# 使用 VoiceDesign 任务批量处理多个提示：\npython end2end.py --query-type VoiceDesign --use-batch-sample\n\n# 使用 Base 任务以 icl 模式标签运行单个样本\npython end2end.py --query-type Base --mode-tag icl\n```\n\n## 微调\n有关 Qwen3-TTS 的微调详细说明，请参阅 [Qwen3-TTS-Finetuning](finetuning\u002F)。\n\n## 评估\n在评估过程中，我们对所有模型使用 `dtype=torch.bfloat16` 进行推理，并将 `max_new_tokens` 设置为 2048。其他采样参数均采用检查点中 `generate_config.json` 的默认值。对于 Seed-Test 和 InstructTTS-Eval 测试集，我们将 `language` 设置为 `\"auto\"`；而对于其他测试集，则明确指定了相应的语言。详细结果如下所示。\n\n\n\u003Cdetails>\n\u003Csummary>语音生成基准测试\u003C\u002Fsummary>\n\n*Seed-TTS 测试集上的零样本语音生成。性能以词错误率（WER，↓）衡量，数值越低越好。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">数据集\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">模型\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">性能\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-bottom: 1px solid #ddd; border-top: 1px solid #ddd;\">\n      \u003Ctd colspan=\"4\" style=\"text-align: center;\">\u003Cem>内容一致性\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"14\" style=\"text-align: center; vertical-align: middle;\">SEED\u003Cbr>\u003Cem>test-zh\u003C\u002Fem> | \u003Cem>test-en\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Seed-TTS (Anastassiou 等, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.12\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.25\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MaskGCT (Wang 等, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.27\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.62\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">E2 TTS (Eskimez 等, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.97\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">F5-TTS (Chen 等, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.56\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Spark TTS (Wang 等, 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.20\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Llasa-8B (Ye 等, 2025b)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.59\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.97\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">KALL-E (Xia 等, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.96\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.94\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">FireRedTTS 2 (Xie 等, 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.14\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.95\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">CosyVoice 3 (Du 等, 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.71\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.45\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">MiniMax-Speech (Zhang 等, 2025a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.83\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.65\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-25Hz-0.6B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.18\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.64\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-25Hz-1.7B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.10\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.49\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-12Hz-0.6B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.32\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-12Hz-1.7B-Base\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.77\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.24\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*多语言语音生成在 TTS 多语言测试集上的表现。性能通过词错误率（WER，↓）衡量内容一致性，通过余弦相似度（SIM，↑）衡量说话人相似性。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">语言\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-25Hz\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-12Hz\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: bottom;\">MiniMax\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: bottom;\">ElevenLabs\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">0.6B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">0.6B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-Base\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd colspan=\"7\" style=\"text-align: center; border-top: 1px solid #ddd; border-bottom: 1px solid #ddd;\">\u003Cem>内容一致性\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">中文\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.108\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.777\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.145\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.928\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.252\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16.026\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英文\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.014\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.836\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.934\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.164\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.339\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">德语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.501\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.960\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.089\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.235\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.906\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.572\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">意大利语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.169\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.105\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.534\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.948\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.543\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.743\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">葡萄牙语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.046\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.778\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.254\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.526\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.877\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.331\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">西班牙语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.031\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.491\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.491\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.126\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.029\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.084\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.189\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.121\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.404\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.823\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.519\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.646\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.852\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.631\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.741\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.755\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.747\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.865\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">法语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.852\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>2.631\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.931\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.858\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.099\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.216\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">俄语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.957\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.535\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.458\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.212\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.281\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.878\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd colspan=\"7\" style=\"text-align: center; border-bottom: 1px solid #ddd;\">\u003Cem>说话人相似度\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">中文\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.797\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.796\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.811\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.799\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.780\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.677\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英文\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.811\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.815\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.829\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.775\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.756\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.613\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">德语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.749\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.737\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.769\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.775\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.733\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.614\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">意大利语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.722\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.718\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.792\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.817\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.699\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.579\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">葡萄牙语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.790\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.783\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.794\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.817\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.805\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.711\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">西班牙语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.732\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.731\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.812\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.814\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.762\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.615\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.810\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.807\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.798\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.788\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.776\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.738\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.824\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.814\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.812\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.799\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.779\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.700\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">法语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.698\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.703\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.700\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.714\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.628\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.535\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">俄语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.734\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.744\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.781\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.792\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.761\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.676\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*跨语言语音生成在跨语言基准上的表现。性能以混合错误率（WER用于英语，CER用于其他语言，↓）衡量。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">任务\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-TTS-25Hz-1.7B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen3-TTS-12Hz-1.7B-Base\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">CosyVoice3\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">CosyVoice2\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英译中\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.66\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.77\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.09\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日译中\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.43\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.05\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">48.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩译中\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.14\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.08\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.06\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.70\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd style=\"text-align: left;\">中译英\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.91\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>2.77\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.98\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日译英\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.95\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.04\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.20\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">17.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩译英\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.48\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.09\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.19\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">11.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd style=\"text-align: left;\">中译日\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">9.29\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8.40\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">13.1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英译日\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.74\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.21\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>6.80\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩译日\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.17\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.67\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.93\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd style=\"text-align: left;\">中译韩\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8.12\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">24.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英译韩\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.83\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>5.14\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.87\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日译韩\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.86\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>5.59\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">21.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*在InstructTTSEval上的可控语音生成。性能以属性感知与合成准确度（APS）、描述与语音一致性（DSD）以及响应精确度（RP）来衡量。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">类型\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">模型\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">InstructTTSEval-ZH\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">InstructTTSEval-EN\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">APS (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">DSD (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">RP (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">APS (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">DSD (↑)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">RP (↑)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\" style=\"text-align: left; vertical-align: middle;\">\u003Cem>目标\u003Cbr>说话人\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Gemini-flash\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">88.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>90.9\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>77.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>92.3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>93.8\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>80.1\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Gemini-pro\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>89.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">90.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">87.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">86.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">67.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3TTS-25Hz-1.7B-CustomVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">79.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">69.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3TTS-12Hz-1.7B-CustomVoice\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">83.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">GPT-4o-mini-tts\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">46.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">76.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-top: 1px solid #ddd;\">\n      \u003Ctd rowspan=\"9\" style=\"text-align: left; vertical-align: middle;\">\u003Cem>声音\u003Cbr>设计\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Qwen3TTS-12Hz-1.7B-VD\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>85.2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>81.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>65.1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">82.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>82.4\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>68.4\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Mimo-Audio-7B-Instruct (Zhang et al., 2025b)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">74.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">80.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">77.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">59.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VoiceSculptor (Hu et al., 2026)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">61.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Hume\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>83.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">75.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VoxInstruct (Zhou et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">52.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">42.6\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">54.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">57.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">39.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Parler-tts-mini (Lyth & King, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">63.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">48.7\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">28.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Parler-tts-large (Lyth & King, 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">60.0\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">45.9\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">31.2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PromptTTS (Guo et al., 2023)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">64.3\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">47.2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">31.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">PromptStyle (Liu et al., 2023)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">—\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">57.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">46.4\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">30.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*目标说话人多语言语音生成在TTS多语言测试集上的表现。性能以词错误率（WER，↓）衡量。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\" style=\"text-align: left; vertical-align: bottom;\">语言\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-25Hz\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">Qwen3-TTS-12Hz\u003C\u002Fth>\n      \u003Cth rowspan=\"2\" style=\"text-align: center; vertical-align: bottom;\">GPT-4o-Audio\u003Cbr>预览\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">0.6B-自定义声音\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-自定义声音\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">0.6B-自定义声音\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">1.7B-自定义声音\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">中文\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.874\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.708\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.944\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.903\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.519\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">英语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.332\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.936\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.188\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.899\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.197\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">德语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.990\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.634\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.722\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.057\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.161\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">意大利语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.861\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.271\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.545\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.362\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.194\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">葡萄牙语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.728\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.854\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.219\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.681\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.504\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">西班牙语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.309\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.284\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.154\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.330\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.000\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">日语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.875\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.518\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.877\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.924\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.001\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">韩语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.202\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.274\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.053\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.741\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.763\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">法语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.865\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.080\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.841\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.781\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.605\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">俄语\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.529\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.444\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.809\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.734\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.250\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*长语音生成结果。性能以词错误率（WER，↓）衡量。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">数据集\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">模型\u003C\u002Fth>\n      \u003Cth colspan=\"2\" style=\"text-align: center;\">性能\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"border-bottom: 1px solid #ddd; border-top: 1px solid #ddd;\">\n      \u003Ctd colspan=\"4\" style=\"text-align: center;\">\u003Cem>内容一致性\u003C\u002Fem>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\" style=\"text-align: center; vertical-align: middle;\">\u003Cem>long-zh\u003C\u002Fem> | \u003Cem>long-en\u003C\u002Fem>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: left;\">Higgs-Audio-v2（分块）（玻色AI，2025年）\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.505\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.917\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VibeVoice（Peng等人，2025年）\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">22.619\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1.780\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">VoxCPM（Zhou等人，2025年）\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.835\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.474\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-25Hz-1.7B-自定义声音\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.517\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>1.225\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen3-TTS-12Hz-1.7B-自定义声音\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.356\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.812\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\u003C\u002Fdetails>\n\n\n\u003Cdetails>\n\u003Csummary>语音分词器基准测试\u003C\u002Fsummary>\n\n*不同监督式语义语音分词器在ASR任务上的比较。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">码本大小\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">帧率 (FPS)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">C.V. EN\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">C.V. CN\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Fluers EN\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Fluers CN\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">S3 Tokenizer(VQ) (Du et al., 2024a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4096\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.06\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">15.38\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">-\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">S3 Tokenizer(VQ) (Du et al., 2024a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4096\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">11.56\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">18.26\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">7.65\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">5.03\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">S3 Tokenizer(FSQ) (Du et al., 2024a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6561\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.67\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.29\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">6.58\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.43\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen-TTS-Tokenizer-25Hz (第一阶段)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32768\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>7.51\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.73\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.07\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.23\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen-TTS-Tokenizer-25Hz (第二阶段)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">32768\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">25\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">10.40\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">14.99\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.14\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.67\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n*不同语义相关语音分词器的对比。*\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">NQ\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">码本大小\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">帧率 (FPS)\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">PESQ_WB\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">PESQ_NB\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">STOI\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">UTMOS\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">SIM\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">SpeechTokenizer (Zhang et al., 2023a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1024\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.60\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.05\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.90\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.85\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">X-codec (Ye et al., 2025a)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1024\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.68\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.27\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.86\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.11\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.84\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">X-codec 2 (Ye et al., 2025b)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">65536\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">50\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.43\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.04\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.92\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">4.13\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.82\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">XY-Tokenizer (Gong et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">8\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">1024\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.41\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.00\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.91\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.98\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.83\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Mimi (Défossez et al., 2024)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.88\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.42\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.94\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.87\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">FireredTTS 2 Tokenizer (Xie et al., 2025)\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2.73\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.28\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.94\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">3.88\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">0.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: left;\">Qwen-TTS-Tokenizer-12Hz\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">16\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">2048\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">12.5\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.21\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>3.68\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.96\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>4.16\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd style=\"text-align: center;\">\u003Cstrong>0.95\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Fdetails>\n\n\n\n\n## 引用\n\n如果您在研究中发现我们的论文和代码有用，请考虑给个赞 :star: 和引用 :pencil: :)\n\n```BibTeX\n@article{Qwen3-TTS,\n  title={Qwen3-TTS 技术报告},\n  author={胡航瑞、朱新发、何婷、郭大可、张斌、王雄、郭志芳、蒋子悦、郝洪坤、郭子山、张鑫宇、张培、杨宝松、徐进、周景仁、林俊阳},\n  journal={arXiv 预印本 arXiv:2601.15621},\n  year={2026}\n}\n```\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQwenLM_Qwen3-TTS_readme_06f3d2c3d7cb.png)](https:\u002F\u002Fstar-history.com\u002F#QwenLM\u002FQwen3-TTS&Date)\n\n\n\u003Cbr>","# Qwen3-TTS 快速上手指南\n\nQwen3-TTS 是通义千问团队推出的强大语音生成系列模型，支持声音克隆、声音设计、超高质量拟人语音生成及基于自然语言的语音控制。支持中、英、日、韩等 10 种主流语言及多种方言。\n\n## 环境准备\n\n*   **操作系统**: Linux \u002F macOS \u002F Windows\n*   **Python 版本**: 推荐 Python 3.12\n*   **硬件要求**:\n    *   NVIDIA GPU (推荐显存 ≥ 16GB，具体视模型大小而定)\n    *   支持 FlashAttention 2 的 GPU 架构以获得最佳性能\n*   **前置依赖**: CUDA Toolkit (需与 PyTorch 版本匹配)\n\n## 安装步骤\n\n建议使用隔离的 Conda 环境以避免依赖冲突。国内用户推荐优先使用 ModelScope 下载模型权重。\n\n### 1. 创建并激活虚拟环境\n\n```bash\nconda create -n qwen3-tts python=3.12 -y\nconda activate qwen3-tts\n```\n\n### 2. 安装核心库\n\n```bash\npip install -U qwen-tts\n```\n\n### 3. 安装加速组件 (推荐)\n\n为了降低显存占用并提升推理速度，强烈建议安装 FlashAttention 2：\n\n```bash\n# 常规安装\npip install -U flash-attn --no-build-isolation\n\n# 若机器内存较小或 CPU 核心数较多，限制并行任务数\nMAX_JOBS=4 pip install -U flash-attn --no-build-isolation\n```\n\n### 4. 下载模型权重 (可选)\n\n虽然代码运行时会自动下载模型，但国内网络环境下建议手动通过 ModelScope 预先下载：\n\n```bash\n# 安装 ModelScope 客户端\npip install -U modelscope\n\n# 下载示例模型 (以 1.7B CustomVoice 为例)\nmodelscope download --model Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice --local_dir .\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\n```\n\n> **可用模型说明**：\n> *   `CustomVoice`: 支持指令控制音色风格（如性别、年龄、情感）。\n> *   `VoiceDesign`: 根据文本描述设计全新音色。\n> *   `Base`: 基础模型，支持 3 秒快速声音克隆。\n\n## 基本使用\n\n以下示例展示如何使用 `CustomVoice` 模型进行最简单的中文语音生成。\n\n```python\nimport torch\nimport soundfile as sf\nfrom qwen_tts import Qwen3TTSModel\n\n# 加载模型\n# device_map: 指定 GPU 设备\n# dtype: 推荐使用 bfloat16 或 float16 以启用 FlashAttention\n# attn_implementation: 指定使用 flash_attention_2\nmodel = Qwen3TTSModel.from_pretrained(\n    \"Qwen\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\", # 或使用本地路径 \".\u002FQwen3-TTS-12Hz-1.7B-CustomVoice\"\n    device_map=\"cuda:0\",\n    dtype=torch.bfloat16,\n    attn_implementation=\"flash_attention_2\",\n)\n\n# 生成语音\n# text: 输入文本\n# language: 语言类型 (支持 \"Chinese\", \"English\" 等，或设为 \"Auto\" 自动识别)\n# speaker: 预设说话人 (如 \"Vivian\", \"Serena\" 等)\n# instruct: (可选) 自然语言指令，控制语气和情感\nwavs, sr = model.generate_custom_voice(\n    text=\"其实我真的有发现，我是一个特别善于观察别人情绪的人。\",\n    language=\"Chinese\",\n    speaker=\"Vivian\",\n    instruct=\"用特别愤怒的语气说\", \n)\n\n# 保存音频文件\nsf.write(\"output.wav\", wavs[0], sr)\n```\n\n### 关键参数说明\n*   **speaker**: 不同模型支持的说话人列表不同，可调用 `model.get_supported_speakers()` 查看。\n*   **instruct**: 模型具备强大的语义理解能力，可通过自然语言指令灵活调整语调、节奏和情感表达。\n*   **batch 推理**: `text`, `language`, `speaker`, `instruct` 参数均支持传入列表进行批量推理。","一家跨国在线教育平台正急需为其中文、英文及西班牙语课程快速生成带有情感色彩的真人配音，以替代原本单调的机器朗读。\n\n### 没有 Qwen3-TTS 时\n- **多语言适配成本高**：需要分别采购不同语言的 TTS 服务并维护多套接口，难以统一管理中、英、西等十种语言的发音风格。\n- **情感表达生硬**：传统模型无法根据课文语境自动调整语气，讲述故事时缺乏起伏，导致学生注意力难以集中。\n- **克隆流程繁琐**：若想复用金牌讲师的声音，需录制数小时高清音频进行长时间训练，且难以在嘈杂背景下提取纯净音色。\n- **实时互动延迟大**：在直播课或口语陪练场景中，首字延迟过高，破坏了师生间自然流畅的对话节奏。\n\n### 使用 Qwen3-TTS 后\n- **一站式多语言支持**：Qwen3-TTS 单个模型即可覆盖全球十大主流语言及多种方言，开发者只需一套代码即可满足全球化课程需求。\n- **语义驱动的情感演绎**：依托强大的上下文理解能力，Qwen3-TTS 能自动识别文本中的疑问、兴奋或悲伤情绪，生成如真人般抑扬顿挫的讲解。\n- **极速高保真克隆**：仅需几秒参考音频，Qwen3-TTS 即可在抗噪环境下完成高相似度声音克隆，让名师音色瞬间复用于新课件。\n- **超低延迟流式输出**：凭借双轨混合流式架构，Qwen3-TTS 实现了极致的首字低延迟，让 AI 口语陪练的反应速度几乎与真人无异。\n\nQwen3-TTS 通过端到端的架构革新，将多语言、情感化及实时互动的语音生成门槛降至最低，真正实现了“文本即声音”的自然转化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FQwenLM_Qwen3-TTS_9f5b1c25.png","QwenLM","Qwen","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FQwenLM_4756c6c9.png","Alibaba Cloud's general-purpose AI models",null,"qianwen_opensource@alibabacloud.com","Alibaba_Qwen","https:\u002F\u002Fqwen.ai\u002F","https:\u002F\u002Fgithub.com\u002FQwenLM",[85],{"name":86,"color":87,"percentage":88},"Python","#3572A5",100,10482,1356,"2026-04-09T18:52:48","Apache-2.0","未说明","需要兼容 FlashAttention 2 的 NVIDIA GPU，必须支持 torch.float16 或 torch.bfloat16 精度","推荐 96GB+（若低于此数值需限制编译线程数）",{"notes":97,"python":98,"dependencies":99},"建议使用独立的 conda 环境以避免依赖冲突；强烈建议安装 FlashAttention 2 以降低显存占用，但需确保硬件兼容且模型加载精度为 float16 或 bfloat16；若机器内存小于 96GB 且 CPU 核心数较多，安装 flash-attn 时需设置 MAX_JOBS=4。","3.12",[100,101,102,103,104],"qwen-tts","torch","flash-attn","soundfile","transformers",[21],"2026-03-27T02:49:30.150509","2026-04-10T10:29:21.768068",[109,114,119,124,129,134],{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},27434,"如何使用新语言（如土耳其语、罗马尼亚语）进行微调？为什么生成的声音是噪音或带有外国口音？","目前直接使用现有代码对新语言进行微调可能会遇到生成不可理解的噪音或带有外国口音的问题。主要原因可能是模型缺少该语言特有的音素（phones）和字符支持，导致分词器（tokenizer）无法正确处理。建议检查并更新分词器配置以支持特殊字符。如果数据量较小（如 15 小时），可能需要增加数据量或等待官方针对特定语言的优化更新。有用户提到正在开发支持语音克隆的分支版本来解决此类问题。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fissues\u002F27",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},27435,"生成音频时出现破音或杂音，且提示找不到 'sox' 命令，如何解决？","出现破音且报错 `'sox' 不是内部或外部命令`，说明系统未安装 SoX 音频处理工具或其路径未配置正确。解决方法：\n1. 访问 http:\u002F\u002Fsox.sourceforge.net\u002F 下载并安装 SoX。\n2. 安装完成后，确保将 SoX 的可执行文件路径添加到系统的环境变量（PATH）中。\n3. 重启终端或命令行窗口后重试。此外，部分用户反馈在特定版本中语音克隆效果不如 CosyVoice，若问题持续可对比测试其他模型。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fissues\u002F2",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},27436,"在使用 vllm 进行语音克隆推理时不稳定或报错，如何处理？","该问题通常由 `vllm-omni` 组件的旧版本 Bug 引起（如配置文件路径错误）。解决方案是更新 `vllm-omni` 到最新版本。更新后，推理稳定性将得到修复。关于并发请求，虽然尚未进行极低压延迟测试，但更新后的版本速度已足够快，理论上可以稳健地处理多个并发请求。建议使用 Docker Compose 部署以减少手动配置错误。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fissues\u002F263",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},27437,"运行 prepare_data.py 进行数据预处理时出现显存泄漏（Memory Leak）或 CUDA 内存错误，怎么办？","这是一个已知问题，已在最新提交的代码中修复。如果您仍遇到显存随处理过程不断增加的问题，请确保拉取了最新的代码库。\n对于大数据集（如 50 万行或超过 15 小时音频），即使使用大显存显卡（如 96GB RTX 6000 Pro），也需注意数据集规模对显存的影响。如果使用的是单卡且显存不足，可能需要分批处理数据或检查是否因未使用 flash-attn2 等优化库导致效率低下（但在某些新架构显卡上 flash-attn2 可能存在兼容性问题，需权衡）。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fissues\u002F5",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},27438,"在 Linux 上使用 AMD 显卡加载 Qwen3-TTS 模型后，推理过程无响应或直接停止，如何解决？","该问题通常与设备映射设置有关。在 AMD 环境下（使用 ROCm），不能直接使用 `device_map=\"cuda:0\"`。需要修改代码中的设备指定方式：\n1. 将 `device_map=\"cuda:0\"` 改为 `device=\"cpu\"` 先加载模型，然后手动移动到设备，或者使用 `device_map=\"auto\"` 让库自动识别。\n2. 确保安装了支持 AMD GPU 的 PyTorch 版本（ROCm 版）。\n3. 检查 `attn_implementation` 参数，尝试设置为 `None` 或明确指定支持的注意力机制。参考已解决的 Issue 中的代码示例，移除硬编码的 cuda 设备指向通常能解决问题。","https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen3-TTS\u002Fissues\u002F93",{"id":135,"question_zh":136,"answer_zh":137,"source_url":118},27439,"Qwen3-TTS 的语音克隆功能和音色设计效果如何？与 CosyVoice 相比有何优势？","根据社区测试反馈：\n1. **语音克隆**：初步测试显示，目前的语音克隆功能在音质和相似度上暂未展现出比 CosyVoice 2\u002F3 明显的优势，且生成速度较慢（例如生成 72 秒音频需耗时约 10 秒以上，具体取决于硬件）。\n2. **音色设计**：这被视为该模型的潜在杀手锏，允许通过指令控制音色特征。但早期测试表明其“指令遵循”能力较差，生成的音色变化可能不符合预期。\n建议用户根据具体场景需求进行测试，如果追求成熟的克隆效果，CosyVoice 可能是更稳定的选择；如果需要灵活的音色控制，可深入测试 Qwen3-TTS 的指令功能。",[]]