[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-stepfun-ai--Step-Audio2":3,"tool-stepfun-ai--Step-Audio2":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":16},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[46,26,43,13],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":79,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":23,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":111,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":112,"updated_at":113,"faqs":114,"releases":149},6291,"stepfun-ai\u002FStep-Audio2","Step-Audio2","Step-Audio 2 is an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation.","Step-Audio 2 是一款端到端的多模态大语言模型，专为工业级的音频理解与语音对话而设计。它不仅能精准识别语音内容（ASR），更能深入“听懂”声音背后的语义、副语言信息（如语气、停顿）乃至非人声环境音，从而解决传统模型仅能转录文字却难以捕捉情感语境和复杂声音细节的痛点。\n\n该模型特别适合开发者、研究人员以及需要构建高智能语音交互应用的企业团队使用。无论是开发虚拟助手、情感陪伴机器人，还是搭建专业的音频分析系统，Step-Audio 2 都能提供强大的底层支持。其独特亮点在于卓越的情感推理能力，能够分析说话人的年龄、情绪等特征，使交互更加自然拟人；同时支持工具调用与多模态检索增强生成（RAG），能有效减少幻觉并基于检索到的真实知识切换音色进行回复。作为开源项目，Step-Audio 2 提供了包括 mini 版本在内的多种模型权重及推理示例，致力于推动高质量语音 AI 技术的普及与应用。","# Step-Audio 2\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_76e02663483f.png\"  height=100>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\" style=\"line-height: 1;\">\n  \u003Ca href=\"https:\u002F\u002Fstepfun.com\u002F\" target=\"_blank\">\u003Cimg alt=\"Homepage\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHomepage-StepFun-white?logo=StepFun&logoColor=white\"\u002F>\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FStepFun_ai\" target=\"_blank\">\u003Cimg alt=\"Twitter Follow\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-StepFun-white?logo=x&logoColor=white\"\u002F>\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fdiscord.com\u002Finvite\u002FXHheP5Fn\" target=\"_blank\">\u003Cimg alt=\"Discord\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-StepFun-white?logo=discord&logoColor=white\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-2-mini&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-2-mini-Base&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-2-mini-Think&message=HuggingFace&color=yellow\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16632\">\u003Cimg src=\"assets\u002Farxiv.svg\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fblob\u002Fmain\u002FLICENSE\">\u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue?&color=blue\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n## 🔥🔥🔥 News!!\n\u003C!-- * Aug 29, 2025: 👋 We release the  # TODO -->\n* Sep 15, 2025: 👋 We release [Step-Audio 2 mini Think](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) and its corresponding [examples](examples-think.py).\n* Sep 3, 2025: 👋 We release our [vLLM backend](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002Fvllm\u002Ftree\u002Fstep-audio2-mini) and corresponding [examples](examples-vllm.py).\n* Aug 29, 2025: 👋 We are pleased to open-source [Step-Audio 2 mini](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini), [Step-Audio 2 mini Base](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) and their corresponding inference [examples](examples.py). [Technical report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.16632) is also updated.\n* Jul 24, 2025: 👋 We release [demonstration videos for Step-Audio 2](https:\u002F\u002Fwww.stepfun.com\u002Fdocs\u002Fstep-audio2).\n* Jul 23, 2025: 👋 We release our benchmark for paralinguistic information understanding, [StepEval-Audio-Paralinguistic](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstepfun-ai\u002FStepEval-Audio-Paralinguistic).\n* Jul 23, 2025: 👋 We release our benchmark for tool calling, [StepEval-Audio-Toolcall](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstepfun-ai\u002FStepEval-Audio-Toolcall).\n* Jul 23, 2025: 👋 We release the technical report of [Step-Audio 2](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.16632).\n\n\u003C!--\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_929c165f0b42.jpg\"  width=800>\n\u003C\u002Fdiv>\n-->\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_54d1007b532d.jpeg\"  height=300>\nWeChat Developer Group\n\n## Introduction\n\n\nStep-Audio 2 is an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation.\n\n- **Advanced Speech and Audio Understanding**: Promising performance in ASR and audio understanding by comprehending and reasoning semantic information, para-linguistic and non-vocal information.\n\n- **Intelligent Speech Conversation**: Achieving natural and intelligent interactions that are contextually appropriate for various conversational scenarios and paralinguistic information.\n\n- **Emotional Reasoning**: Analyzing user's paralinguistic information such as age and emotion, leading to more accurate and intelligent interpretation of the audio context.\n\n- **Tool Calling and Multimodal RAG**: By leveraging tool calling and RAG to access real-world knowledge (both textual and acoustic), Step-Audio 2 can generate responses with fewer hallucinations for diverse scenarios, while also having the ability to switch timbres based on retrieved speech.\n\n- **State-of-the-Art Performance**: Achieving state-of-the-art performance on various audio understanding and conversational benchmarks compared to other open-source and commercial solutions. (See [Evaluation](#evaluation) and [Technical Report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.16632)).\n\n+ **Open-source**: [Step-Audio 2 mini](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini), [Step-Audio 2 mini Base](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) and [Step-Audio 2 mini Think](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) are released under [Apache 2.0](LICENSE) license.\n\n## Model Download\n| Models   | 🤗 Hugging Face | ModelScope |\n|-------|-------|-------|\n| Step-Audio 2 mini | [stepfun-ai\u002FStep-Audio-2-mini](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini) | [stepfun-ai\u002FStep-Audio-2-mini](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-2-mini) |\n| Step-Audio 2 mini Base | [stepfun-ai\u002FStep-Audio-2-mini-Base](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) | [stepfun-ai\u002FStep-Audio-2-mini-Base](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) |\n| Step-Audio 2 mini Think | [stepfun-ai\u002FStep-Audio-2-mini-Think](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) | [stepfun-ai\u002FStep-Audio-2-mini-Think](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) |\n\n\n## Model Usage\n### 🔧 Dependencies and Installation\n- Python >= 3.10\n- [PyTorch >= 2.3-cu121](https:\u002F\u002Fpytorch.org\u002F)\n- [CUDA Toolkit](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n```bash\nconda create -n stepaudio2 python=3.10\nconda activate stepaudio2\npip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml\n\ngit clone https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2.git\ncd Step-Audio2\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini\n# git clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base\n```\n\n### 🔧 vLLM docker image\n\nWe highly recommend using our vLLM backend for faster and streaming inference, also deploying across multiple GPUs.\n\n```bash\n# (Optional) build the docker image yourself (very slow and requires 32GiB of memory)\n# docker build -t stepfun2025\u002Fvllm:step-audio-2-v20250909 .\n\n# run vLLM docker\ndocker run --rm -ti --gpus all \\\n    -v Step-Audio-2-mini:\u002FStep-Audio-2-mini \\\n    -p 8000:8000 \\\n    stepfun2025\u002Fvllm:step-audio-2-v20250909 \\\n    -- vllm serve \u002FStep-Audio-2-mini \\\n    --served-model-name step-audio-2-mini \\\n    --port 8000 \\\n    --max-model-len 16384 \\\n    --max-num-seqs 32 \\\n    --tensor-parallel-size 1 \\\n    --enable-auto-tool-choice \\\n    --tool-call-parser step_audio_2 \\\n    --tokenizer-mode step_audio_2 \\\n    --chat_template_content_format string \\\n    --audio-parser step_audio_2_tts_ta4 \\\n    --trust-remote-code\n```\n\n### 🚀 Inference Scripts\n\n```bash\npython examples.py\n# python examples-base.py\n# python examples-vllm.py\n# python examples-think.py\n```\n\n### 🚀 Local web demonstration\n\n```bash\npip install gradio\npython web_demo.py\n# python web_demo_vllm.py\n```\n\n\n## Online demonstration\n\n### StepFun realtime console\n\n- Both Step-Audio 2 and Step-Audio 2 mini are available in our [StepFun realtime console](https:\u002F\u002Frealtime-console.stepfun.com\u002F) with web search tool enabled.\n- You will need an API key from the [StepFun Open Platform](https:\u002F\u002Fplatform.stepfun.com\u002F).\n\n### StepFun AI Assistant\n\n- Step-Audio 2 is also available in our StepFun AI Assistant mobile App with both web and audio search tools enabled.\n- Please scan the following QR code to download it from your app store then tap the phone icon in the top-right corner.\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_7a4a9330440e.jpg\" width=\"200\" alt=\"QR code\">\n\u003C\u002Fdiv>\n\n## WeChat group\n\nYou can scan the following QR code to join our WeChat group for communication and discussion.\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_b0ef7fe5d0ff.png\" width=\"200\" alt=\"QR code\">\n\u003C\u002Fdiv>\n\n\n## Evaluation\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_bc66acb0a530.png\" alt=\"Architecture\" width=\"600\" \u002F>\n\u003C\u002Fdiv>\n\n### Automatic speech recognition\nCER for Chinese, Cantonese and Japanese and WER for Arabian and English. N\u002FA indicates that the language is not supported.\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Category\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Test set\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Doubao LLM ASR\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT-4o Transcribe\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Kimi-Audio\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen-Omni\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Step-Audio 2\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Step-Audio 2 mini\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>English\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">Common Voice\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.20\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.30\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.83\u003C\u002Ftd>\n      \u003Ctd align=\"center\">8.33\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>5.95\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.76\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">FLEURS English\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.71\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.47\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.05\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.03\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.05\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">LibriSpeech clean\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.75\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.93\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.17\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">LibriSpeech other\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.32\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.23\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.91\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.42\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Average\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.17\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.35\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.14\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.50\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>Chinese\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">AISHELL\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.98\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.52\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.64\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.17\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.63\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.78\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">AISHELL-2\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.67\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.10\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.16\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">FLEURS Chinese\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.62\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.91\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.68\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.53\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">KeSpeech phase1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">26.80\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.45\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.63\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.97\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">WenetSpeech meeting\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">31.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.21\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>4.75\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">WenetSpeech net\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>4.46\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">15.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.93\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.24\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.67\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.82\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Average\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14.05\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.75\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"3\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>Multilingual \u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">FLEURS Arabian\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>11.72\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.13\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14.22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">16.46\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Common Voice yue\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.20\u003C\u002Ftd>\n      \u003Ctd align=\"center\">11.10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">38.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>7.89\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">8.32\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">FLEURS Japanese\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.27\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.67\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>In-house\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">Anhui accent\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>8.83\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.55\u003C\u002Ftd>\n      \u003Ctd align=\"center\">22.17\u003C\u002Ftd>\n      \u003Ctd align=\"center\">18.73\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">11.65\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Guangdong accent\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.99\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.83\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.76\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.03\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.44\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Guangxi accent\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.37\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.09\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.35\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.51\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Shanxi accent\u003C\u002Ftd>\n      \u003Ctd align=\"center\">20.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">55.03\u003C\u002Ftd>\n      \u003Ctd align=\"center\">34.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.95\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>12.44\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">15.60\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Sichuan dialect\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.01\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">32.85\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.35\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.57\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Shanghai dialect\u003C\u002Ftd>\n      \u003Ctd align=\"center\">47.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">89.58\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>17.77\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.30\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Average\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14.66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.52\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>8.85\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.85\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Paralinguistic information understanding\nStepEval-Audio-Paralinguistic\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Avg.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Gender\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Age\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Timbre\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Scenario\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Event\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Emotion\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Pitch\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Rhythm\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Speed\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Style\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Vocal\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">43.45\u003C\u002Ftd>\n      \u003Ctd align=\"center\">18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">42\u003C\u002Ftd>\n      \u003Ctd align=\"center\">34\u003C\u002Ftd>\n      \u003Ctd align=\"center\">22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.64\u003C\u002Ftd>\n      \u003Ctd align=\"center\">94\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">30\u003C\u002Ftd>\n      \u003Ctd align=\"center\">48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">56\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">16\u003C\u002Ftd>\n      \u003Ctd align=\"center\">28\u003C\u002Ftd>\n      \u003Ctd align=\"center\">42\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76\u003C\u002Ftd>\n      \u003Ctd align=\"center\">32\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">48\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">36.91\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">38\u003C\u002Ftd>\n      \u003Ctd align=\"center\">48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>83.09\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>100\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>96\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>60\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>86\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>86\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>88\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>88\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">80.00\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>100\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">94\u003C\u002Ftd>\n      \u003Ctd align=\"center\">80\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>60\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">86\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Audio understanding and reasoning\nMMAU\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Avg.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Sound\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Speech\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Music\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Audio Flamingo 3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>73.9\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Gemini 2.5 Pro\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">75.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">51.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">79.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Omni-R1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">81.7\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen2.5-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">78.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.7\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">51.4\u003C\u002Ftd>\n      \u003Ctd align=\"center\">47.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>83.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.9\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.2\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\nBig Bench Audio\n\n\u003Ctable border=\"1\" cellpadding=\"7\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth align=\"center\">Model\u003C\u002Fth>\n      \u003Cth align=\"center\">Accuracy\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-Realtime\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">80.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 Think\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>90.7\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Speech translation\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"3\">CoVoST 2 (S2TT)\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>Avg.\u003C\u002Fth>\n      \u003Cth>English-to-Chinese\u003C\u002Fth>\n      \u003Cth>Chinese-to-English\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40.20\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.01\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen2.5-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">35.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">41.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.40\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">28.57\u003C\u002Ftd>\n      \u003Ctd align=\"center\">37.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.43\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">39.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>29.51\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>39.29\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>49.12\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"3\">CVSS (S2ST)\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>Avg.\u003C\u002Fth>\n      \u003Cth>English-to-Chinese\u003C\u002Fth>\n      \u003Cth>Chinese-to-English\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">23.68\u003C\u002Ftd>\n      \u003Ctd align=\"center\">20.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>27.29\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">15.35\u003C\u002Ftd>\n      \u003Ctd align=\"center\">8.04\u003C\u002Ftd>\n      \u003Ctd align=\"center\">22.66\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">27.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">30.74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">23.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>30.87\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>34.83\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">26.92\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.08\u003C\u002Ftd>\n      \u003Ctd align=\"center\">32.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.35\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Tool calling\nStepEval-Audio-Toolcall. Date and time tools have no parameter.\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Objective\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Metric\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Audio search\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Date & Time\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Weather\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Web search\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: center; vertical-align: middle;\" rowspan=\"3\">\u003Cstrong>Qwen3-32B\u003C\u002Fstrong>\u003Csup>†\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Trigger\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Precision \u002F Recall\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">67.5 \u002F 98.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.4 \u002F 100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.1 \u002F 100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">86.8 \u002F 98.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>Type\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Accuracy\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>Parameter\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Accuracy\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: center; vertical-align: middle;\" rowspan=\"3\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Trigger\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Precision \u002F Recall\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">86.8 \u002F 99.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">96.9 \u002F 98.4\u003C\u002Ftd>\n      \u003Ctd align=\"center\">92.2 \u002F 100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">88.4 \u002F 95.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>Type\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Accuracy\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>Parameter\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>Accuracy\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### Speech-to-speech conversation\nURO-Bench. U. R. O. stands for understanding, reasoning, and oral conversation, respectively.\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">Language\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"4\">Basic\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"4\">Pro\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">Avg.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">U.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">R.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">O.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Avg.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">U.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">R.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">O.\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd rowspan=\"6\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>Chinese\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">78.59\u003C\u002Ftd>\n      \u003Ctd align=\"center\">89.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">85.24\u003C\u002Ftd>\n      \u003Ctd align=\"center\">67.10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.60\u003C\u002Ftd>\n      \u003Ctd align=\"center\">57.22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.20\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.59\u003C\u002Ftd>\n      \u003Ctd align=\"center\">79.34\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">79.75\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.44\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.21\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.98\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.27\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.82\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.74\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">87.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.63\u003C\u002Ftd>\n      \u003Ctd align=\"center\">81.93\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.76\u003C\u002Ftd>\n      \u003Ctd align=\"center\">47.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.97\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>83.32\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>91.05\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>75.45\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>86.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.25\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.78\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>63.18\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.10\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">89.19\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.53\u003C\u002Ftd>\n      \u003Ctd align=\"center\">84.12\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>69.57\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.84\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.42\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd rowspan=\"6\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>English\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>84.54\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">75.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>90.41\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>67.51\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.65\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78.46\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.04\u003C\u002Ftd>\n      \u003Ctd align=\"center\">83.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">42.31\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.79\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.32\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40.59\u003C\u002Ftd>\n      \u003Ctd align=\"center\">56.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.58\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.62\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.16\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.99\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44.51\u003C\u002Ftd>\n      \u003Ctd align=\"center\">63.88\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.41\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.15\u003C\u002Ftd>\n      \u003Ctd align=\"center\">56.12\u003C\u002Ftd>\n      \u003Ctd align=\"center\">72.06\u003C\u002Ftd>\n      \u003Ctd align=\"center\">52.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44.25\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54.54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.81\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">83.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>92.72\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.51\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">84.92\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>64.86\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>67.75\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.12\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.65\u003C\u002Ftd>\n      \u003Ctd align=\"center\">61.25\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.79\u003C\u002Ftd>\n      \u003Ctd align=\"center\">61.94\u003C\u002Ftd>\n      \u003Ctd align=\"center\">63.80\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## Acknowledgements\n\nPart of the code for this project comes from:\n* [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n* [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* [FlashCosyVoice](https:\u002F\u002Fgithub.com\u002Fxingchensong\u002FFlashCosyVoice)\n\nStep-Audio 2 mini and Step-Audio 2 mini Base are initialized with the weights from:\n* [Qwen2-Audio](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2-Audio)\n* [Qwen2.5-7B](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-7B)\n\nThank you to all the open-source projects for their contributions to this project!\n\n## License\n\nThe code in the repository is licensed under [Apache 2.0](LICENSE) License.\n\n## Citation\n\n```\n@misc{wu2025stepaudio2technicalreport,\n      title={Step-Audio 2 Technical Report},\n      author={Boyong Wu and Chao Yan and Chen Hu and Cheng Yi and Chengli Feng and Fei Tian and Feiyu Shen and Gang Yu and Haoyang Zhang and Jingbei Li and Mingrui Chen and Peng Liu and Wang You and Xiangyu Tony Zhang and Xingyuan Li and Xuerui Yang and Yayue Deng and Yechang Huang and Yuxin Li and Yuxin Zhang and Zhao You and Brian Li and Changyi Wan and Hanpeng Hu and Jiangjie Zhen and Siyu Chen and Song Yuan and Xuelin Zhang and Yimin Jiang and Yu Zhou and Yuxiang Yang and Bingxin Li and Buyun Ma and Changhe Song and Dongqing Pang and Guoqiang Hu and Haiyang Sun and Kang An and Na Wang and Shuli Gao and Wei Ji and Wen Li and Wen Sun and Xuan Wen and Yong Ren and Yuankai Ma and Yufan Lu and Bin Wang and Bo Li and Changxin Miao and Che Liu and Chen Xu and Dapeng Shi and Dingyuan Hu and Donghang Wu and Enle Liu and Guanzhe Huang and Gulin Yan and Han Zhang and Hao Nie and Haonan Jia and Hongyu Zhou and Jianjian Sun and Jiaoren Wu and Jie Wu and Jie Yang and Jin Yang and Junzhe Lin and Kaixiang Li and Lei Yang and Liying Shi and Li Zhou and Longlong Gu and Ming Li and Mingliang Li and Mingxiao Li and Nan Wu and Qi Han and Qinyuan Tan and Shaoliang Pang and Shengjie Fan and Siqi Liu and Tiancheng Cao and Wanying Lu and Wenqing He and Wuxun Xie and Xu Zhao and Xueqi Li and Yanbo Yu and Yang Yang and Yi Liu and Yifan Lu and Yilei Wang and Yuanhao Ding and Yuanwei Liang and Yuanwei Lu and Yuchu Luo and Yuhe Yin and Yumeng Zhan and Yuxiang Zhang and Zidong Yang and Zixin Zhang and Binxing Jiao and Daxin Jiang and Heung-Yeung Shum and Jiansheng Chen and Jing Li and Xiangyu Zhang and Yibo Zhu},\n      year={2025},\n      eprint={2507.16632},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16632},\n}\n```\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_06cba54643c9.png)](https:\u002F\u002Fstar-history.com\u002F#stepfun-ai\u002FStep-Audio2&Date)\n","# Step-Audio 2\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_76e02663483f.png\"  height=100>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\" style=\"line-height: 1;\">\n  \u003Ca href=\"https:\u002F\u002Fstepfun.com\u002F\" target=\"_blank\">\u003Cimg alt=\"主页\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F主页-StepFun-white?logo=StepFun&logoColor=white\"\u002F>\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fx.com\u002FStepFun_ai\" target=\"_blank\">\u003Cimg alt=\"Twitter 关注\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-StepFun-white?logo=x&logoColor=white\"\u002F>\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fdiscord.com\u002Finvite\u002FXHheP5Fn\" target=\"_blank\">\u003Cimg alt=\"Discord\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-StepFun-white?logo=discord&logoColor=white\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-2-mini&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-2-mini-Base&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-2-mini-Think&message=HuggingFace&color=yellow\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16632\">\u003Cimg src=\"assets\u002Farxiv.svg\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fblob\u002Fmain\u002FLICENSE\">\u003Cimg alt=\"许可证\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F许可证-Apache%202.0-blue?&color=blue\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n## 🔥🔥🔥 新闻!!\n\u003C!-- * 2025年8月29日：👋 我们发布了 # TODO -->\n* 2025年9月15日：👋 我们发布了 [Step-Audio 2 mini Think](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) 及其对应的 [示例](examples-think.py)。\n* 2025年9月3日：👋 我们发布了我们的 [vLLM 后端](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002Fvllm\u002Ftree\u002Fstep-audio2-mini) 和相应的 [示例](examples-vllm.py)。\n* 2025年8月29日：👋 我们很高兴开源了 [Step-Audio 2 mini](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini)、[Step-Audio 2 mini Base](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) 以及它们对应的推理 [示例](examples.py)。同时更新了 [技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.16632)。\n* 2025年7月24日：👋 我们发布了 [Step-Audio 2 的演示视频](https:\u002F\u002Fwww.stepfun.com\u002Fdocs\u002Fstep-audio2)。\n* 2025年7月23日：👋 我们发布了用于副语言信息理解的基准测试 [StepEval-Audio-Paralinguistic](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstepfun-ai\u002FStepEval-Audio-Paralinguistic)。\n* 2025年7月23日：👋 我们发布了用于工具调用的基准测试 [StepEval-Audio-Toolcall](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstepfun-ai\u002FStepEval-Audio-Toolcall)。\n* 2025年7月23日：👋 我们发布了 [Step-Audio 2 的技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.16632)。\n\n\u003C!--\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_929c165f0b42.jpg\"  width=800>\n\u003C\u002Fdiv>\n-->\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_54d1007b532d.jpeg\"  height=300>\n微信开发者群\n\n## 简介\n\n\nStep-Audio 2 是一款端到端的多模态大型语言模型，专为工业级音频理解和语音对话而设计。\n\n- **先进的语音和音频理解**：通过理解和推理语义信息、副语言和非语音信息，在 ASR 和音频理解方面表现出色。\n\n- **智能语音对话**：在各种对话场景和副语言信息背景下，实现自然且智能的交互。\n\n- **情感推理**：分析用户的年龄、情绪等副语言信息，从而更准确、更智能地解读音频上下文。\n\n- **工具调用和多模态 RAG**：通过利用工具调用和 RAG 访问现实世界的知识（包括文本和声学知识），Step-Audio 2 能够在多种场景下生成幻觉较少的响应，并且能够根据检索到的语音切换音色。\n\n- **最先进的性能**：与其它开源和商业解决方案相比，Step-Audio 2 在各类音频理解和对话基准测试中均取得了最先进的性能。（详见 [评估](#evaluation) 和 [技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.16632)）。\n\n+ **开源**：[Step-Audio 2 mini](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini)、[Step-Audio 2 mini Base](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) 和 [Step-Audio 2 mini Think](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) 均采用 [Apache 2.0](LICENSE) 许可证发布。\n\n## 模型下载\n| 模型   | 🤗 Hugging Face | ModelScope |\n|-------|-------|-------|\n| Step-Audio 2 mini | [stepfun-ai\u002FStep-Audio-2-mini](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini) | [stepfun-ai\u002FStep-Audio-2-mini](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-2-mini) |\n| Step-Audio 2 mini Base | [stepfun-ai\u002FStep-Audio-2-mini-Base](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) | [stepfun-ai\u002FStep-Audio-2-mini-Base](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base) |\n| Step-Audio 2 mini Think | [stepfun-ai\u002FStep-Audio-2-mini-Think](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) | [stepfun-ai\u002FStep-Audio-2-mini-Think](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-2-mini-Think) |\n\n\n## 模型使用\n### 🔧 依赖与安装\n- Python >= 3.10\n- [PyTorch >= 2.3-cu121](https:\u002F\u002Fpytorch.org\u002F)\n- [CUDA 工具包](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n```bash\nconda create -n stepaudio2 python=3.10\nconda activate stepaudio2\npip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml\n\ngit clone https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2.git\ncd Step-Audio2\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini\n# git clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini-Base\n```\n\n### 🔧 vLLM 容器镜像\n\n我们强烈建议使用我们的 vLLM 后端，以实现更快、流式的推理，并支持跨多个 GPU 部署。\n\n```bash\n# （可选）自行构建 Docker 镜像（非常慢，需要 32GiB 内存）\n# docker build -t stepfun2025\u002Fvllm:step-audio-2-v20250909 .\n\n# 运行 vLLM Docker\ndocker run --rm -ti --gpus all \\\n    -v Step-Audio-2-mini:\u002FStep-Audio-2-mini \\\n    -p 8000:8000 \\\n    stepfun2025\u002Fvllm:step-audio-2-v20250909 \\\n    -- vllm serve \u002FStep-Audio-2-mini \\\n    --served-model-name step-audio-2-mini \\\n    --port 8000 \\\n    --max-model-len 16384 \\\n    --max-num-seqs 32 \\\n    --tensor-parallel-size 1 \\\n    --enable-auto-tool-choice \\\n    --tool-call-parser step_audio_2 \\\n    --tokenizer-mode step_audio_2 \\\n    --chat_template_content_format string \\\n    --audio-parser step_audio_2_tts_ta4 \\\n    --trust-remote-code\n```\n\n### 🚀 推理脚本\n\n```bash\npython examples.py\n# python examples-base.py\n# python examples-vllm.py\n# python examples-think.py\n```\n\n### 🚀 本地网页演示\n\n```bash\npip install gradio\npython web_demo.py\n# python web_demo_vllm.py\n```\n\n## 在线演示\n\n### StepFun 实时控制台\n\n- Step-Audio 2 和 Step-Audio 2 mini 均可在我们的 [StepFun 实时控制台](https:\u002F\u002Frealtime-console.stepfun.com\u002F) 中使用，且已启用网页搜索功能。\n- 您需要从 [StepFun 开放平台](https:\u002F\u002Fplatform.stepfun.com\u002F) 获取 API 密钥。\n\n### StepFun AI 助手\n\n- Step-Audio 2 也可在我们的 StepFun AI 助手移动应用中使用，同时支持网页和音频搜索功能。\n- 请扫描下方二维码，从您的应用商店下载该应用，然后点击右上角的手机图标。\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_7a4a9330440e.jpg\" width=\"200\" alt=\"二维码\">\n\u003C\u002Fdiv>\n\n## 微信群\n\n您可扫描下方二维码加入我们的微信群，进行交流与讨论。\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_b0ef7fe5d0ff.png\" width=\"200\" alt=\"二维码\">\n\u003C\u002Fdiv>\n\n\n## 评估\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_bc66acb0a530.png\" alt=\"架构图\" width=\"600\" \u002F>\n\u003C\u002Fdiv>\n\n### 自动语音识别\n中文、粤语和日语的 CER，以及阿拉伯语和英语的 WER。N\u002FA 表示不支持该语言。\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">类别\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">测试集\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Doubao LLM ASR\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">GPT-4o Transcribe\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Kimi-Audio\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Qwen-Omni\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Step-Audio 2\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">Step-Audio 2 mini\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"5\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>英语\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">Common Voice\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.20\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.30\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.83\u003C\u002Ftd>\n      \u003Ctd align=\"center\">8.33\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>5.95\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.76\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">FLEURS 英语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.71\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.47\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.05\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.03\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.05\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">LibriSpeech 清洁版\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.75\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.93\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>1.17\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">LibriSpeech 其他\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.32\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.23\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.91\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.42\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.86\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>平均\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.17\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.35\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.14\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.50\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>中文\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">AISHELL\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.98\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.52\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.64\u003C\u002Ftd>\n      \u003Ctd align=\"center\">1.17\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>0.63\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0.78\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">AISHELL-2\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.67\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.10\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.16\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">FLEURS 中文\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.62\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.91\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">2.68\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>2.53\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">KeSpeech 第一阶段\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">26.80\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.45\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.63\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.97\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">WenetSpeech 会议\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">31.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.21\u003C\u002Ftd>\n      \u003Ctd align=\"center\">6.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>4.75\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.87\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">WenetSpeech 网络\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>4.46\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">15.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.93\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.24\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.67\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.82\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>平均\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14.05\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.75\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.19\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"3\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>多语言 \u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">FLEURS 阿拉伯语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>11.72\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.13\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14.22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">16.46\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">Common Voice 粤语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.20\u003C\u002Ftd>\n      \u003Ctd align=\"center\">11.10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">38.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>7.89\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">8.32\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">FLEURS 日语\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.27\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">N\u002FA\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.67\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd rowspan=\"7\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>内部数据\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"left\">安徽方言\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>8.83\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.55\u003C\u002Ftd>\n      \u003Ctd align=\"center\">22.17\u003C\u002Ftd>\n      \u003Ctd align=\"center\">18.73\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">11.65\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">广东方言\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.99\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.83\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.76\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.03\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.44\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">广西方言\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.37\u003C\u002Ftd>\n      \u003Ctd align=\"center\">7.09\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.35\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">3.51\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">山西方言\u003C\u002Ftd>\n      \u003Ctd align=\"center\">20.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">55.03\u003C\u002Ftd>\n      \u003Ctd align=\"center\">34.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.95\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>12.44\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">15.60\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">四川方言\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>3.01\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">32.85\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">5.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.35\u003C\u002Ftd>\n      \u003Ctd align=\"center\">4.57\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">上海方言\u003C\u002Ftd>\n      \u003Ctd align=\"center\">47.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">89.58\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>17.77\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.30\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>平均\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14.66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40.49\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.52\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>8.85\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">9.85\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 超语言信息理解\nStepEval-音频-超语言信息\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">平均\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">性别\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">年龄\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">音色\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">场景\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">事件\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">情感\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">音高\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">节奏\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">语速\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">风格\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">发声方式\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o 音频\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">43.45\u003C\u002Ftd>\n      \u003Ctd align=\"center\">18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">42\u003C\u002Ftd>\n      \u003Ctd align=\"center\">34\u003C\u002Ftd>\n      \u003Ctd align=\"center\">22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-音频\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.64\u003C\u002Ftd>\n      \u003Ctd align=\"center\">94\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">30\u003C\u002Ftd>\n      \u003Ctd align=\"center\">48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">56\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>通义千问-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">16\u003C\u002Ftd>\n      \u003Ctd align=\"center\">28\u003C\u002Ftd>\n      \u003Ctd align=\"center\">42\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76\u003C\u002Ftd>\n      \u003Ctd align=\"center\">32\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50\u003C\u002Ftd>\n      \u003Ctd align=\"center\">48\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-音频-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">36.91\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">14\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">38\u003C\u002Ftd>\n      \u003Ctd align=\"center\">48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44\u003C\u002Ftd>\n      \u003Ctd align=\"center\">0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-音频 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>83.09\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>100\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>96\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>60\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>86\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>86\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>88\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>88\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-音频 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">80.00\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>100\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">94\u003C\u002Ftd>\n      \u003Ctd align=\"center\">80\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>60\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>82\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">86\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 音频理解与推理\nMMAU\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">平均\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">声音\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">语音\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">音乐\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Audio Flamingo 3\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.9\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>73.9\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Gemini 2.5 Pro\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">75.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">51.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">79.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Omni-R1\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">81.7\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen2.5-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">78.1\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.9\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.7\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">51.4\u003C\u002Ftd>\n      \u003Ctd align=\"center\">47.3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78.0\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>83.5\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.9\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.7\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.2\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.6\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\nBig Bench Audio\n\n\u003Ctable border=\"1\" cellpadding=\"7\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth align=\"center\">模型\u003C\u002Fth>\n      \u003Cth align=\"center\">准确率\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-Realtime\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">82.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54.8\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">80.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 Think\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>90.7\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 语音翻译\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"3\">CoVoST 2 (S2TT)\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>Avg.\u003C\u002Fth>\n      \u003Cth>英语到中文\u003C\u002Fth>\n      \u003Cth>中文到英语\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40.20\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.01\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen2.5-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">35.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">41.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.40\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">28.57\u003C\u002Ftd>\n      \u003Ctd align=\"center\">37.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">19.43\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">39.26\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>29.51\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>39.29\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>49.12\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.47\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"3\">CVSS (S2ST)\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>Avg.\u003C\u002Fth>\n      \u003Cth>英语到中文\u003C\u002Fth>\n      \u003Cth>中文到英语\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">23.68\u003C\u002Ftd>\n      \u003Ctd align=\"center\">20.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>27.29\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Qwen-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">15.35\u003C\u002Ftd>\n      \u003Ctd align=\"center\">8.04\u003C\u002Ftd>\n      \u003Ctd align=\"center\">22.66\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">27.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">30.74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">23.98\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>30.87\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>34.83\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">26.92\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">29.08\u003C\u002Ftd>\n      \u003Ctd align=\"center\">32.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">25.35\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 工具调用\nStepEval-音频-工具调用。日期和时间工具没有参数。\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">目标\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">指标\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">音频搜索\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">日期与时间\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">天气\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">网页搜索\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: center; vertical-align: middle;\" rowspan=\"3\">\u003Cstrong>通义千问3-32B\u003C\u002Fstrong>\u003Csup>†\u003C\u002Fsup>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>触发\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>精确率 \u002F 召回率\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">67.5 \u002F 98.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.4 \u002F 100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.1 \u002F 100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">86.8 \u002F 98.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>类型\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>准确率\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>参数\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>准确率\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">无\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd style=\"text-align: center; vertical-align: middle;\" rowspan=\"3\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>触发\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>精确率 \u002F 召回率\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">86.8 \u002F 99.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">96.9 \u002F 98.4\u003C\u002Ftd>\n      \u003Ctd align=\"center\">92.2 \u002F 100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">88.4 \u002F 95.5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>类型\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>准确率\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.5\u003C\u002Ftd>\n      \u003Ctd align=\"center\">98.4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"center\">\u003Cstrong>参数\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>准确率\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">无\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n      \u003Ctd align=\"center\">100.0\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n### 语音到语音对话\nURO-基准测试。U. R. O. 分别代表理解、推理和口头对话。\n\n\u003Ctable border=\"1\" cellpadding=\"5\" cellspacing=\"0\" align=\"center\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">模型\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" rowspan=\"2\">语言\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"4\">基础版\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\" colspan=\"4\">专业版\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth style=\"text-align: center;\">平均\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">U.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">R.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">O.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">平均\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">U.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">R.\u003C\u002Fth>\n      \u003Cth style=\"text-align: center;\">O.\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o 音频\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd rowspan=\"6\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>中文\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">78.59\u003C\u002Ftd>\n      \u003Ctd align=\"center\">89.40\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.48\u003C\u002Ftd>\n      \u003Ctd align=\"center\">85.24\u003C\u002Ftd>\n      \u003Ctd align=\"center\">67.10\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.60\u003C\u002Ftd>\n      \u003Ctd align=\"center\">57.22\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.20\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">73.59\u003C\u002Ftd>\n      \u003Ctd align=\"center\">79.34\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">79.75\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.44\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.21\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>通义千问-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.98\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.66\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.74\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.27\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.82\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.74\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.71\u003C\u002Ftd>\n      \u003Ctd align=\"center\">87.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.63\u003C\u002Ftd>\n      \u003Ctd align=\"center\">81.93\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.61\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.76\u003C\u002Ftd>\n      \u003Ctd align=\"center\">47.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.97\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>83.32\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>91.05\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>75.45\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>86.08\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">68.25\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.78\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>63.18\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">65.10\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.81\u003C\u002Ftd>\n      \u003Ctd align=\"center\">89.19\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.53\u003C\u002Ftd>\n      \u003Ctd align=\"center\">84.12\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>69.57\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.84\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.42\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>GPT-4o 音频\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd rowspan=\"6\" style=\"text-align: center; vertical-align: middle;\">\u003Cstrong>英语\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>84.54\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.18\u003C\u002Ftd>\n      \u003Ctd align=\"center\">75.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>90.41\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>67.51\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.65\u003C\u002Ftd>\n      \u003Ctd align=\"center\">64.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>78.46\u003C\u002Fstrong>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Kimi-Audio\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.04\u003C\u002Ftd>\n      \u003Ctd align=\"center\">83.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">42.31\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.79\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.32\u003C\u002Ftd>\n      \u003Ctd align=\"center\">40.59\u003C\u002Ftd>\n      \u003Ctd align=\"center\">56.04\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>通义千问-Omni\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">70.58\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.29\u003C\u002Ftd>\n      \u003Ctd align=\"center\">69.62\u003C\u002Ftd>\n      \u003Ctd align=\"center\">76.16\u003C\u002Ftd>\n      \u003Ctd align=\"center\">50.99\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44.51\u003C\u002Ftd>\n      \u003Ctd align=\"center\">63.88\u003C\u002Ftd>\n      \u003Ctd align=\"center\">49.41\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio-AQAA\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">71.11\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.15\u003C\u002Ftd>\n      \u003Ctd align=\"center\">56.12\u003C\u002Ftd>\n      \u003Ctd align=\"center\">72.06\u003C\u002Ftd>\n      \u003Ctd align=\"center\">52.01\u003C\u002Ftd>\n      \u003Ctd align=\"center\">44.25\u003C\u002Ftd>\n      \u003Ctd align=\"center\">54.54\u003C\u002Ftd>\n      \u003Ctd align=\"center\">59.81\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">83.90\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>92.72\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>76.51\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">84.92\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>64.86\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">\u003Cstrong>67.75\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">66.33\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd align=\"left\">\u003Cstrong>Step-Audio 2 mini\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd align=\"center\">74.36\u003C\u002Ftd>\n      \u003Ctd align=\"center\">90.07\u003C\u002Ftd>\n      \u003Ctd align=\"center\">60.12\u003C\u002Ftd>\n      \u003Ctd align=\"center\">77.65\u003C\u002Ftd>\n      \u003Ctd align=\"center\">61.25\u003C\u002Ftd>\n      \u003Ctd align=\"center\">58.79\u003C\u002Ftd>\n      \u003Ctd align=\"center\">61.94\u003C\u002Ftd>\n      \u003Ctd align=\"center\">63.80\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## 致谢\n\n本项目部分代码来源于：\n* [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n* [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* [FlashCosyVoice](https:\u002F\u002Fgithub.com\u002Fxingchensong\u002FFlashCosyVoice)\n\nStep-Audio 2 mini 和 Step-Audio 2 mini Base 使用了以下模型的权重进行初始化：\n* [Qwen2-Audio](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2-Audio)\n* [Qwen2.5-7B](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-7B)\n\n感谢所有开源项目对本项目的贡献！\n\n## 许可证\n\n仓库中的代码采用 [Apache 2.0](LICENSE) 许可证授权。\n\n## 引用\n\n```\n@misc{wu2025stepaudio2technicalreport,\n      title={Step-Audio 2 技术报告},\n      author={吴博勇、颜超、胡晨、易成、冯成利、田飞、沈飞宇、于刚、张浩阳、李京贝、陈明睿、刘鹏、游王、张翔宇托尼、李星源、杨雪瑞、邓雅悦、黄业昌、李宇欣、张宇欣、游赵、李布颖、马步云、宋昌河、庞东青、胡国强、孙海洋、安康、王娜、高淑丽、季伟、李文、孙文、温轩、任勇、马元凯、卢宇凡、王斌、李博、苗长鑫、刘彻、徐晨、史大鹏、胡定远、吴东航、刘恩乐、黄冠哲、严古林、张瀚、聂浩、贾浩楠、周洪宇、孙建建、吴交仁、吴杰、杨杰、杨金、林俊哲、李凯翔、杨雷、史丽英、周莉、顾隆隆、李明、李明亮、李明晓、吴楠、韩琪、谭钦源、庞绍良、范圣杰、刘思齐、曹天成、陆万英、何文清、谢武勋、赵旭、李学奇、于延波、杨阳、刘毅、卢一帆、王一磊、丁元昊、梁元伟、卢元伟、罗玉初、尹宇和、詹宇萌、张宇翔、杨子东、张子欣、焦彬兴、蒋大新、沈鸿扬、陈建生、李静、张翔宇、朱一博},\n      year={2025},\n      eprint={2507.16632},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16632},\n}\n```\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_readme_06cba54643c9.png)](https:\u002F\u002Fstar-history.com\u002F#stepfun-ai\u002FStep-Audio2&Date)","# Step-Audio 2 快速上手指南\n\nStep-Audio 2 是一款端到端的多模态大语言模型，专为工业级的音频理解和语音对话设计。它具备先进的语音识别、情感推理、工具调用及多模态检索增强生成（RAG）能力。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐) 或 macOS\n*   **Python**: >= 3.10\n*   **PyTorch**: >= 2.3 (需匹配 CUDA 12.1)\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡\n*   **其他**: 已安装 [CUDA Toolkit](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n## 2. 安装步骤\n\n### 2.1 创建虚拟环境并安装依赖\n\n建议使用 Conda 创建独立的 Python 环境：\n\n```bash\nconda create -n stepaudio2 python=3.10\nconda activate stepaudio2\n\n# 安装核心依赖\npip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml\n```\n\n### 2.2 克隆代码仓库\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2.git\ncd Step-Audio2\ngit lfs install\n```\n\n### 2.3 下载模型权重\n\n您可以从 Hugging Face 或 ModelScope（国内推荐）下载模型。以下以 `Step-Audio 2 mini` 为例：\n\n**方式 A: 使用 Hugging Face (可能需要网络加速)**\n```bash\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-2-mini\n```\n\n**方式 B: 使用 ModelScope (国内开发者推荐)**\n如果您在国内，建议使用 ModelScope 以获得更快的下载速度：\n```bash\n# 首先安装 modelscope\npip install modelscope\n\n# 使用 Python 脚本下载 (在 python 交互环境或新建 .py 文件中运行)\nfrom modelscope import snapshot_download\nmodel_dir = snapshot_download('stepfun-ai\u002FStep-Audio-2-mini')\n```\n*注：其他版本模型如 `Step-Audio-2-mini-Base` 和 `Step-Audio-2-mini-Think` 可在对应仓库替换名称下载。*\n\n## 3. 基本使用\n\n### 3.1 本地推理示例\n\n确保模型文件夹位于当前目录下，运行官方提供的示例脚本即可开始体验：\n\n```bash\n# 运行基础推理示例\npython examples.py\n\n# 如需体验 \"Think\" 模式 (思维链推理)\npython examples-think.py\n\n# 如需体验 vLLM 加速后端示例 (需先配置 vLLM 环境)\npython examples-vllm.py\n```\n\n*提示：请根据您下载的模型版本，适当修改示例脚本中的模型路径配置。*\n\n### 3.2 启动本地 Web 演示界面\n\nStep-Audio 2 提供了基于 Gradio 的本地网页演示，方便进行交互式测试：\n\n```bash\n# 安装 gradio\npip install gradio\n\n# 启动标准版 Web Demo\npython web_demo.py\n\n# 如果使用了 vLLM 后端，可启动对应的 Demo\npython web_demo_vllm.py\n```\n\n启动后，终端会显示本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），在浏览器中打开即可上传音频进行对话测试。\n\n---\n*更多高级用法（如 Docker 部署 vLLM 服务、工具调用配置等）请参考项目根目录下的完整 README 文档。*","某大型电商平台的智能客服团队正在升级其语音投诉处理系统，旨在从海量用户来电中自动识别情绪并精准解决复杂问题。\n\n### 没有 Step-Audio2 时\n- **情感识别缺失**：传统 ASR 系统仅能转录文字，无法捕捉用户语气中的愤怒、焦急或讽刺，导致机器回复机械冷漠，极易激化矛盾。\n- **非语言信息丢失**：背景噪音（如争吵声、键盘敲击声）被当作干扰过滤，系统无法利用这些副语言线索判断用户所处的紧急场景。\n- **多步骤处理延迟**：需先将语音转文字，再送入文本大模型分析，最后调用 TTS 合成回复，链路长且延迟高，难以满足实时对话需求。\n- **幻觉与上下文断裂**：在涉及退款政策等具体业务时，纯文本模型常因缺乏实时知识库支持而产生“幻觉”，给出错误的解决方案。\n\n### 使用 Step-Audio2 后\n- **深度情感推理**：Step-Audio2 直接理解语调中的愤怒与无奈，能主动调整回复策略，先进行共情安抚再处理业务，显著提升用户满意度。\n- **全维度音频感知**：模型能敏锐捕捉背景中的嘈杂人声或急促呼吸，自动判定为“高风险投诉”并优先接入人工专家坐席。\n- **端到端实时交互**：凭借端到端架构，Step-Audio2 实现了从听到说的毫秒级响应，支持自然打断和多轮流畅对话，体验接近真人。\n- **精准工具调用与 RAG**：通过内置的工具调用能力，Step-Audio2 实时检索最新退换货政策，并结合检索到的语音音色切换功能，用更温和的语调播报解决方案，杜绝胡编乱造。\n\nStep-Audio2 通过将情感理解、副语言分析与实时业务决策融合于单一模型，彻底重构了工业级语音交互的智能标准。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio2_929c165f.jpg","stepfun-ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fstepfun-ai_576b766a.png","",null,"opensource@stepfun.com","https:\u002F\u002Fgithub.com\u002Fstepfun-ai",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",99.9,{"name":88,"color":89,"percentage":90},"Dockerfile","#384d54",0.1,1387,103,"2026-04-10T09:15:48","Apache-2.0","Linux","必需 NVIDIA GPU。官方推荐通过 Docker 运行 vLLM 后端以支持多卡部署，需安装 CUDA Toolkit (对应 PyTorch cu121 版本)。构建 Docker 镜像时建议主机内存 32GB。","构建 Docker 镜像需 32GB；常规推理未明确说明，建议 16GB+。",{"notes":99,"python":100,"dependencies":101},"1. 官方强烈推荐使用提供的 vLLM Docker 镜像进行加速推理和流式输出，也支持多 GPU 部署。\n2. 构建自定义 Docker 镜像过程缓慢且需要 32GB 内存。\n3. 模型文件需从 Hugging Face 或 ModelScope 克隆，建议使用 git lfs。\n4. 提供了多种推理脚本（基础版、vLLM 版、Think 版）及本地 Web 演示脚本。",">=3.10",[102,103,104,105,106,107,108,109,110],"torch>=2.3 (cu121)","transformers==4.49.0","torchaudio","librosa","onnxruntime","s3tokenizer","diffusers","hyperpyyaml","gradio",[15,47,46],"2026-03-27T02:49:30.150509","2026-04-11T03:23:03.530952",[115,120,125,130,135,140,145],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},28627,"运行模型时遇到 'Segmentation fault' (段错误) 怎么办？","该错误通常由 torchaudio 的后端（如 sox 或 ffmpeg）或 ONNX Runtime 引起。可以尝试以下两种解决方案：\n1. 修改代码，在加载音频时强制指定 backend 为 'soundfile'：\n   waveform, sample_rate = torchaudio.load(file_path, backend=\"soundfile\")\n2. 如果错误发生在 token2wav.py 中，可能是 ONNX Runtime 版本问题，尝试重新安装 GPU 版本：\n   pip install onnxruntime-gpu==1.16.3","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fissues\u002F8",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},28628,"如何提升推理速度？当前使用 Transformers 后端太慢了。","Transformers 后端确实较慢。官方强烈建议使用 vLLM Docker 镜像进行推理，以获得更快的速度。在 L40S GPU 上，vLLM 后端每秒可生成约 1.5 秒的语音，足以满足实时聊天需求。vLLM 后端会预编译 CUDA 图从而加速推理，无需针对特定硬件做额外优化。\nDocker 镜像地址：https:\u002F\u002Fhub.docker.com\u002Flayers\u002Fstepfun2025\u002Fvllm\u002Fstep-audio-2-v20250909\u002Fimages\u002Fsha256-3d2068cfeec986795afcf1420c6b89277dec1265a41652e06204959257b505e3","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fissues\u002F16",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},28629,"AI 交互效果差、识别结果为'正在播放声音'或角色设定失效，如何解决？","这通常是由于 transformers 库版本过高导致的。请确保将 transformers 降级到 4.49.0 版本。高于此版本可能导致音频无法正确传输进模型，从而产生错误的识别结果（如重复输出“正在播放声音”）或交互逻辑失效。\n执行命令：pip install transformers==4.49.0","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fissues\u002F58",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},28630,"项目支持 vLLM 推理吗？基于哪个版本？","是的，项目已支持 vLLM 推理。它是基于 vLLM v0.10.1.1 的定制版本。源代码可在以下地址找到：https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002Fvllm\u002Ftree\u002Fstep-audio2-mini","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fissues\u002F12",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},28631,"使用 vLLM 流式推理时的延迟（TTFT）和实时率（RTF）是多少？","在 L40S GPU 上的测试数据如下：\n- 输出速率：约 46 tokens\u002F秒。\n- 实时率 (RTF)：约为 0.7。\n- 首字延迟 (TTFT)：理论值约 22ms (1\u002F46)。\n- 首段音频延迟：由于需要累积约 32 个 token（含文本和音频 token）才能生成第一段波形，加上 token2wav 的推理时间，实际听到第一段声音的延迟约为 1 秒（704ms + 300ms）。\n- 若利用 KV Cache 再次请求，延迟可降至 255ms 左右。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fissues\u002F42",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},28632,"有推荐的依赖列表或 Docker 镜像吗？","对于 Transformers 后端，请参考项目中创建 conda 环境的指南以获取最小依赖列表。但为了获得更快的推理速度，官方推荐使用专门的 vLLM Docker 镜像，因为 Transformers 后端相对较慢。\nDocker 镜像：stepfun2025\u002Fvllm:step-audio-2-v20250909","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio2\u002Fissues\u002F29",{"id":146,"question_zh":147,"answer_zh":148,"source_url":129},28633,"为什么使用特定 Prompt 时模型表现不佳？","官方只保证在文档指定的 Prompt 下的性能表现。虽然模型可以接受其他 Prompt，但官方并未对所有可能的 Prompt 进行逐一测试和优化，因此使用非推荐 Prompt 可能会导致效果下降。建议优先使用官方示例中的 Prompt 设置。",[]]