[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-stepfun-ai--Step-Audio-EditX":3,"tool-stepfun-ai--Step-Audio-EditX":64},[4,18,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,3,"2026-04-06T03:28:53",[13,14,15,16],"开发框架","图像","Agent","视频","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,2,"2026-04-06T11:09:19",[14,27,16,28,15,29,30,13,31],"数据工具","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":17},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,"2026-04-05T22:15:46",[31],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":17},3833,"MoneyPrinterTurbo","harry0703\u002FMoneyPrinterTurbo","MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。\n\n这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。\n\nMoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。",54991,"2026-04-05T12:23:02",[13,30,15,16,14],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":24,"last_commit_at":54,"category_tags":55,"status":17},2179,"oh-my-openagent","code-yeongyu\u002Foh-my-openagent","oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。\n\n这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。",49124,"2026-04-07T11:39:03",[16,30,13,14,15],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":17},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[31,13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":78,"owner_website":78,"owner_url":80,"languages":81,"stars":106,"forks":107,"last_commit_at":108,"license":109,"difficulty_score":10,"env_os":77,"env_gpu":110,"env_ram":111,"env_deps":112,"category_tags":117,"github_topics":118,"view_count":24,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":130,"updated_at":131,"faqs":132,"releases":173},5193,"stepfun-ai\u002FStep-Audio-EditX","Step-Audio-EditX","A powerful 3B-parameter, LLM-based Reinforcement Learning audio edit model excels at editing emotion, speaking style, and paralinguistics, and features robust zero-shot text-to-speech","Step-Audio-EditX 是一款基于大语言模型架构的开源音频编辑工具，拥有 30 亿参数并采用强化学习技术优化。它专注于对语音进行精细化修改，能够灵活调整说话人的情感色彩、演绎风格以及呼吸、轻笑、清嗓子等副语言特征，同时也具备强大的零样本文本转语音能力，支持中文、英文及多种方言的高质量克隆。\n\n这款工具主要解决了传统音频处理中难以自然修改语气细节或需要大量定制数据的痛点。用户无需重新录制，即可通过指令让现有音频呈现出截然不同的情绪状态或添加逼真的非语言声音，极大地提升了语音内容的表现力和编辑效率。\n\nStep-Audio-EditX 非常适合 AI 研究人员、语音应用开发者以及需要制作高品质语音内容的创作者使用。其独特的技术亮点在于引入了丰富的副语言标签控制，并支持多语言（含日韩语）及多音字发音精准调控。此外，项目不仅开放了模型权重，还公布了包括 SFT、DPO 和 GRPO 在内的完整训练代码，并适配了 vLLM 加速推理，为社区提供了从研究到落地的全方位支持。","# Step-Audio-EditX\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_76e02663483f.png\"  height=100>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fstepaudiollm.github.io\u002Fstep-audio-editx\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Demo%20Page&message=Web&color=green\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.03601\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Tech%20Report&message=Arxiv&color=red\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-EditX&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n\n  \n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-EditX&message=ModelScope&color=blue\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fstepfun-ai\u002FStep-Audio-EditX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Space%20Playground&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fwww.stepfun.com\u002Fstudio\u002Faudio?tab=edit\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Audio%20Studio&message=StepFun&color=blue\">\u003C\u002Fa> &ensp;\n\u003C\u002Fdiv>\n\n## 🔥🔥🔥 News!!！\n* Jan 29, 2026: \n  * 🧩 New Model Release: \n    * Better performance, with an overall improvement of over 4%.\n    * More **paralinguistic** tags have been added, including **`exhale`**, **`snort`**, **`inhale`**, **`chuckle`**, **`clears throat`**, **`giggle`**.\n    * Welcome to try out at [StepFun Audio Studio](https:\u002F\u002Fwww.stepfun.com\u002Fstudio\u002Faudio?tab=edit)\n  * 💻 We release the **SFT**, **DPO** and **GRPO** training code.\n  * 🌟 Training and inference for **vLLM** are now supported. Thanks to the vLLM team!\n* Nov 28, 2025: 🚀 New Model Release: Now supporting **`Japanese`** and **`Korean`** languages.\n* Nov 23, 2025: 📊 [Step-Audio-Edit-Benchmark](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-Edit-Benchmark) Released!\n* Nov 19, 2025: ⚙️ We release a **new version** of our model, which **supports polyphonic pronunciation control** and improves the performance of emotion, speaking style, and paralinguistic editing.\n* Nov 12, 2025: 📦 We release the **optimized inference code** and **model weights** of **Step-Audio-EditX** ([HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX);  [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX)) and **Step-Audio-Tokenizer**([HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-Tokenizer);  [ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-Tokenizer))\n* Nov 07, 2025: ✨ [Demo Page](https:\u002F\u002Fstepaudiollm.github.io\u002Fstep-audio-editx\u002F) ; 🎮  [HF Space Playground](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fstepfun-ai\u002FStep-Audio-EditX)\n* Nov 06, 2025: 👋 We release the technical report of [Step-Audio-EditX](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.03601).\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_771b8fb096b1.jpeg\"  height=200>\n\u003C\u002Fp>\n\n## Introduction\nWe are open-sourcing Step-Audio-EditX, a powerful **3B-parameter** LLM-based **Reinforcement Learning** audio model specialized in expressive and iterative audio editing. It excels at editing emotion, speaking style, and paralinguistics, and also features robust zero-shot text-to-speech (TTS) capabilities. \n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_54d1007b532d.jpeg\"  height=300>\nWechat developer group\n\n## 📑 Open-source Plan\n- [x] Inference Code\n- [x] Online demo (Gradio)\n- [x] Step-Audio-Edit-Benchmark\n- [x] Model Checkpoints\n  - [x] Step-Audio-Tokenizer\n  - [x] Step-Audio-EditX\n  - [x] Step-Audio-EditX-Int4\n- [ ] Training Code\n  - [x] SFT training\n  - [x] DPO training\n  - [x] GRPO training\n  - [ ] PPO training\n- [ ] ⏳ Feature Support Plan\n  - [ ] Editing\n    - [x] Polyphone pronunciation control\n    - [x] More paralinguistic tags ([Cough, Crying, Stress, etc.])\n    - [ ] Filler word removal\n  - [ ] Other Languages\n    - [x] Japanese, Korean\n    - [ ] Arabic, French, Russian, Spanish, etc.\n  \n## Features\n- **Zero-Shot TTS**\n  - Excellent zero-shot TTS cloning for Mandarin, English, Sichuanese, and Cantonese.\n  - To use dialect or other languages, just add a **`[Sichuanese]`** \u002F **`[Cantonese]`** \u002F **`[Japanese]`** \u002F **`[Korean]`** tag before your text.\n  - 🔥 Polyphone pronunciation control, all you need to do is replace the polyphonic characters with pinyin.\n    - **[我也想过过过儿过过的生活]** -> **[我也想guo4guo4guo1儿guo4guo4的生活]**\n \n    \n- **Emotion and Speaking Style Editing**\n  - Remarkably effective iterative control over emotions and styles, supporting **dozens** of options for editing.\n    - Emotion Editing : [ *Angry*, *Happy*, *Sad*, *Excited*, *Fearful*, *Surprised*, *Disgusted*, etc. ]\n    - Speaking Style Editing: [ *Act_coy*, *Older*, *Child*, *Whisper*, *Serious*, *Generous*, *Exaggerated*, etc.]\n    - Editing with more emotion and more speaking styles is on the way. **Get Ready!** 🚀\n    \n\n- **Paralinguistic Editing**\n  -  Precise control over 10 types of paralinguistic features for more natural, human-like, and expressive synthetic audio.\n  - Supporting Tags:\n    - [ *Breathing*, *Laughter*, *Surprise-oh*, *Confirmation-en*, *Uhm*, *Surprise-ah*, *Surprise-wa*, *Sigh*, *Question-ei*, *Dissatisfaction-hnn* ]\n\n- **Available Tags**\n\u003Ctable>\n  \u003Ctr>\n    \u003Ctd rowspan=\"8\" style=\"vertical-align: middle; text-align:center;\" align=\"center\">emotion\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>happy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing happiness\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>angry\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing anger\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>sad\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing sadness\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>fear\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing fear\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>surprised\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing surprise\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>confusion\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing confusion\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>empathy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing empathy and understanding\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>embarrass\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing embarrassment\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>excited\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing excitement and enthusiasm\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>depressed\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing a depressed or discouraged mood\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>admiration\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing admiration or respect\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>coldness\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing coldness and indifference\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>disgusted\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing disgust or aversion\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>humour\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing humor or playfulness\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"17\" style=\"vertical-align: middle; text-align:center;\" align=\"center\">speaking style\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>serious\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a serious or solemn manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>arrogant\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in an arrogant manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>child\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a childlike manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>older\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in an elderly-sounding manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>girl\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a light, youthful feminine manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>pure\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a pure, innocent manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>sister\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a mature, confident feminine manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>sweet\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a sweet, lovely manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>exaggerated\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in an exaggerated, dramatic manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>ethereal\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a soft, airy, dreamy manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>whisper\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a whispering, very soft manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>generous\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a hearty, outgoing, and straight-talking manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>recite\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a clear, well-paced, poetry-reading manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>act_coy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a sweet, playful, and endearing manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>warm\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a warm, friendly manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>shy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a shy, timid manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>comfort\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a comforting, reassuring manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>authority\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in an authoritative, commanding manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>chat\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a casual, conversational manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>radio\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a radio-broadcast manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>soulful\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a heartfelt, deeply emotional manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>gentle\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a gentle, soft manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>story\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a narrative, audiobook-style manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>vivid\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a lively, expressive manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>program\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a show-host\u002Fpresenter manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>news\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a news broadcasting manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>advertising\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a polished, high-end commercial voiceover manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>roar\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a loud, deep, roaring manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>murmur\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a quiet, low manner\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>shout\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a loud, sharp, shouting manner\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>deeply\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a deep and low-pitched tone\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>loudly\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Speaking in a loud and high-pitched tone\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003Ctd rowspan=\"11\" style=\"vertical-align: middle; text-align:center;\" align=\"center\">paralinguistic\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[sigh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Sighing sound\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[inhale]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Inhaling sound\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[laugh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Laughter sound\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[chuckle]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Chuckling sound\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[exhale]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Exhaling sound\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[clears throat]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Throat clearing sound\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[snort]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Snorting sound\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[giggle]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Giggling sound\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[cough]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Coughing sound\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[breath]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Breathing sound\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[uhm]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Hesitation sound: \"Uhm\"\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Confirmation-en]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Confirming: \"En\"\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-oh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing surprise: \"Oh\"\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-ah]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing surprise: \"Ah\"\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-wa]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing surprise: \"Wa\"\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-yo]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Expressing surprise: \"Yo\"\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Dissatisfaction-hnn]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Dissatisfied sound: \"Hnn\"\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Question-ei]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Questioning: \"Ei\"\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Question-ah]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Questioning: \"Ah\"\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Question-en]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Questioning: \"En\"\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Question-yi]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Questioning: \"Yi\"\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Question-oh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">Questioning: \"Oh\"\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n \n## Feature Requests & Wishlist\n💡 We welcome all ideas for new features! If you'd like to see a feature added to the project, please start a discussion in our [Discussions](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fdiscussions) section.\n\nWe'll be collecting community feedback here and will incorporate popular suggestions into our future development plans. Thank you for your contribution!\n\n## Demos\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">Task\u003C\u002Fth>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">Text\u003C\u002Fth>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">Source\u003C\u002Fth>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">Edited\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> Emotion-Fear\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 我总觉得，有人在跟着我，我能听到奇怪的脚步声。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n\n  [fear_zh_female_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa088c059-032c-423f-81d6-3816ba347ff5) \n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [fear_zh_female_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F917494ac-5913-4949-8022-46cf55ca05dd)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> Style-Whisper\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 比如在工作间隙，做一些简单的伸展运动，放松一下身体，这样，会让你更有精力。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [whisper_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fed9e22f1-1bac-417b-913a-5f1db31f35c9)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [whisper_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe0501050-40db-4d45-b380-8bcc309f0b5f)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> Style-Act_coy\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 我今天想喝奶茶，可是不知道喝什么口味，你帮我选一下嘛，你选的都好喝～\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n\n  [act_coy_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F74d60625-5b3c-4f45-becb-0d3fe7cc4b3f)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\"> \n\n  [act_coy_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fb2f74577-56c2-4997-afd6-6bf47d15ea51)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> Paralinguistics\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 你这次又忘记带钥匙了 [Dissatisfaction-hnn]，真是拿你没办法。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [paralingustic_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F21e831a3-8110-4c64-a157-60e0cf6735f0)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [paralingustic_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa82f5a40-c6a3-409b-bbe6-271180b20d7b)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> Denoising\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> Such legislation was clarified and extended from time to time thereafter. No, the man was not drunk, he wondered how we got tied up with this stranger. Suddenly, my reflexes had gone. It's healthier to cook without sugar.\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [denoising_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F70464bf4-ebde-44a3-b2a6-8c292333319b)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [denoising_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7cd0ae8d-1bf0-40fc-9bcd-f419bd4b2d21)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> Speed-Faster\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 上次你说鞋子有点磨脚，我给你买了一双软软的鞋垫。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [speed_faster_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fdb46609e-1b98-48d8-99c8-e166cfdfc6e3)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [speed_faster_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F0fbc14ca-dd4a-4362-aadc-afe0629f4c9f)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \n\u003C\u002Ftable>\n\n\nFor more examples, see [demo page](https:\u002F\u002Fstepaudiollm.github.io\u002Fstep-audio-editx\u002F).\n\n## Model Download\n\n| Models   | 🤗 Hugging Face | ModelScope |\n|-------|-------|-------|\n| Step-Audio-EditX | [stepfun-ai\u002FStep-Audio-EditX](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX) | [stepfun-ai\u002FStep-Audio-EditX](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX) |\n| Step-Audio-EditX | [stepfun-ai\u002FStep-Audio-EditX-AWQ-4bit](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX-AWQ-4bit) | [stepfun-ai\u002FStep-Audio-EditX-AWQ-4bit](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX-AWQ-4bit) |\n| Step-Audio-Tokenizer | [stepfun-ai\u002FStep-Audio-Tokenizer](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-Tokenizer) | [stepfun-ai\u002FStep-Audio-Tokenizer](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-Tokenizer) |\n\n\n## Model Usage\n### 📜 Requirements\nThe following table shows the requirements for running Step-Audio-EditX model (batch size = 1):\n\n|     Model    | Parameters |  Setting\u003Cbr\u002F>(sample frequency) | GPU Optimal Memory  |\n|------------|------------|--------------------------------|----------------|\n| Step-Audio-EditX   | 3B|         41.6Hz          |       12 GB        |\n\n* An NVIDIA GPU with CUDA support is required.\n  * The model is tested on a single L40S GPU.\n  * 12GB is just a critical value, and 16GB GPU memory shoule be safer. \n* Tested operating system: Linux\n\n### 🔧 Dependencies and Installation\n- Python >= 3.12\n- [PyTorch >= 2.9.1](https:\u002F\u002Fpytorch.org\u002F)\n- [CUDA Toolkit](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX.git\n\ncd Step-Audio-EditX\nuv sync --refresh\nsource .venv\u002Fbin\u002Factivate\n\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-Tokenizer\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX-AWQ-4bit\u002F\n\n```\n\nAfter downloading the models, where_you_download_dir should have the following structure:\n```\nwhere_you_download_dir\n├── Step-Audio-Tokenizer\n├── Step-Audio-EditX\n```\n\n#### Run with Docker\n\nYou can set up the environment required for running Step-Audio-EditX using the provided Dockerfile.\n\n```bash\n# build docker\ndocker build . -t step-audio-editx\n\n# run docker\ndocker run --rm --gpus all \\\n    -v \u002Fyour\u002Fcode\u002Fpath:\u002Fapp \\\n    -v \u002Fyour\u002Fmodel\u002Fpath:\u002Fmodel \\\n    -p 7860:7860 \\\n    step-audio-editx\n```\n#### Local Inference Demo\n> [!TIP]\n> For optimal performance, keep audio under 30 seconds per inference.\n\n```bash\n# zero-shot cloning\n# The path of the generated audio file is output\u002Ffear_zh_female_prompt_cloned.wav\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"我总觉得，有人在跟着我，我能听到奇怪的脚步声。\" \\\n    --prompt-audio \"examples\u002Ffear_zh_female_prompt.wav\" \\\n    --generated-text \"可惜没有如果，已经发生的事情终究是发生了。\" \\\n    --edit-type \"clone\" \\\n    --output-dir .\u002Foutput \n\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"His political stance was conservative, and he was particularly close to margaret thatcher.\" \\\n    --prompt-audio \"examples\u002Fzero_shot_en_prompt.wav\" \\\n    --generated-text \"Underneath the courtyard is a large underground exhibition room which connects the two buildings.\t\" \\\n    --edit-type \"clone\" \\\n    --output-dir .\u002Foutput \n\n# edit\n# There will be one or multiple wave files corresponding to each edit iteration, for example: output\u002Ffear_zh_female_prompt_edited_iter1.wav, output\u002Ffear_zh_female_prompt_edited_iter2.wav, ...\n# emotion; fear\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"我总觉得，有人在跟着我，我能听到奇怪的脚步声。\" \\\n    --prompt-audio \"examples\u002Ffear_zh_female_prompt.wav\" \\\n    --edit-type \"emotion\" \\\n    --edit-info \"fear\" \\\n    --output-dir .\u002Foutput \n\n# emotion; happy\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"You know, I just finished that big project and feel so relieved. Everything seems easier and more colorful, what a wonderful feeling!\" \\\n    --prompt-audio \"examples\u002Fen_happy_prompt.wav\" \\\n    --edit-type \"emotion\" \\\n    --edit-info \"happy\" \\\n    --output-dir .\u002Foutput \n\n# style; whisper\n# for style whisper, the edit iteration num should be set bigger than 1 to get better results.\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"比如在工作间隙，做一些简单的伸展运动，放松一下身体，这样，会让你更有精力.\" \\\n    --prompt-audio \"examples\u002Fwhisper_prompt.wav\" \\\n    --edit-type \"style\" \\\n    --edit-info \"whisper\" \\\n    --output-dir .\u002Foutput \n\n# paraliguistic \n# supported tags, Breathing, Laughter, Surprise-oh, Confirmation-en, Uhm, Surprise-ah, Surprise-wa, Sigh, Question-ei, Dissatisfaction-hnn\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"我觉得这个计划大概是可行的，不过还需要再仔细考虑一下。\" \\\n    --prompt-audio \"examples\u002Fparalingustic_prompt.wav\" \\\n    --generated-text \"我觉得这个计划大概是可行的，[Uhm]不过还需要再仔细考虑一下。\" \\\n    --edit-type \"paralinguistic\" \\\n    --output-dir .\u002Foutput \n\n# denoise\n# Prompt text is not needed.\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-audio \"examples\u002Fdenoise_prompt.wav\"\\\n    --edit-type \"denoise\" \\\n    --output-dir .\u002Foutput \n\n# vad \n# Prompt text is not needed.\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-audio \"examples\u002Fvad_prompt.wav\" \\\n    --edit-type \"vad\" \\\n    --output-dir .\u002Foutput \n\n# speed\n# supported edit-info: faster, slower, more faster, more slower\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"上次你说鞋子有点磨脚，我给你买了一双软软的鞋垫。\" \\\n    --prompt-audio \"examples\u002Fspeed_prompt.wav\" \\\n    --edit-type \"speed\" \\\n    --edit-info \"more faster\" \\\n    --output-dir .\u002Foutput \n\n```\n\n\n\n#### Launch Web Demo\nStart a local server for online inference.\nAssume you have one GPU with at least 12GB memory available and have already downloaded all the models.\n\n```bash\n# Standard launch\npython app.py --model-path where_you_download_dir --tokenizer-path where_you_download_dir --model-source local\n\n# Using pre-quantized AWQ 4-bit models, memory-efficient mode (for limited GPU memory, ~6-8GB usage)\npython app.py \\\n    --model-path path\u002Fto\u002Fquantized\u002Fmodel \\\n    --tokenizer-path where_you_download_dir \\\n    --model-source local \\\n    --gpu-memory-utilization 0.1 \\\n    --enforce-eager \\\n    --max-num-seqs 1 \\\n    --cosyvoice-dtype bfloat16 \\\n    --no-cosyvoice-cuda-graph\n\n```\n\n##### Available Parameters\n\n| Parameter | Default | Description |\n|-----------|---------|-------------|\n| `--model-path` | (required) | Path to the model directory |\n| `--model-source` | `auto` | Model source: `auto`, `local`, `modelscope`, `huggingface` |\n| `--gpu-memory-utilization` | `0.5` | GPU memory ratio for vLLM KV cache (0.0-1.0) |\n| `--max-model-len` | `3072` | Maximum sequence length, affects KV cache size |\n| `--enforce-eager` | `True` | Disable vLLM CUDA Graphs (saves ~0.5GB memory) |\n| `--max-num-seqs` | `1` | Maximum concurrent sequences (vLLM default: 256, lower = less memory) |\n| `--dtype` | `bfloat16` | Model dtype: `float16`, `bfloat16` |\n| `--quantization` | `None` | Quantization method: `awq`, `gptq`, `fp8` |\n| `--cosyvoice-dtype` | `bfloat16` | CosyVoice vocoder dtype: `float32`, `bfloat16`, `float16` |\n| `--no-cosyvoice-cuda-graph` | `False` | Disable CosyVoice CUDA Graphs (saves memory) |\n| `--enable-auto-transcribe` | `False` | Enable automatic audio transcription |\n\n##### Memory Usage Guide\n\n| Configuration | Estimated GPU Memory | Use Case |\n|--------------|---------------------|----------|\n| Standard (defaults) | ~12-15 GB | Best quality and speed |\n| Memory-efficient | ~6-8 GB | Limited GPU memory, some quality trade-off |\n| AWQ 4-bit quantized | ~8-10 GB | Good balance of quality and memory |\n\n## Training\nPlease refer to script\u002FReadMe.md\n\n### 🔄 Model Quantization (Optional)\n\nFor users with limited GPU memory, you can create quantized versions of the model to reduce memory requirements:\n\n```bash\n# Create an AWQ 4-bit quantized model\npython quantization\u002Fawq_quantize.py --model_path path\u002Fto\u002FStep-Audio-EditX\n\n# Advanced quantization options\npython quantization\u002Fawq_quantize.py\n```\n\nFor detailed quantization options and parameters, see [quantization\u002FREADME.md](quantization\u002FREADME.md).\n\n\n## Technical Details\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_c2c78c1594ff.png\" width=900>\nStep-Audio-EditX comprises three primary components: \n\n- A dual-codebook audio tokenizer, which converts reference or input audio into discrete tokens.\n- An audio LLM that generates dual-codebook token sequences.\n- An audio decoder, which converts the dual-codebook token sequences predicted by the audio LLM back into audio waveforms using a flow matching approach.\n\nAudio-Edit enables iterative control over emotion and speaking style across all voices, leveraging large-margin data during SFT and PPO training.\n\n## Evaluation\n\n### Comparison between Step-Audio-EditX and Closed-Source models.\n\n- Step-Audio-EditX demonstrates superior performance over Minimax and Doubao in both zero-shot cloning and emotion control.\n- Emotion editing of Step-Audio-EditX significantly improves the emotion-controlled audio outputs of all three models after just one iteration. With further iterations, their overall performance continues to improve.\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_434d16d17a83.png\" width=800 >\n\u003C\u002Fdiv>\n\n### Generalization on Closed-Source Models.\n- For emotion and speaking style editing, the built-in voices of leading closed-source systems possess considerable in-context capabilities, allowing them to partially convey the emotions in the text. After a single editing round with Step-Audio-EditX, the emotion and style accuracy across all voice models exhibited significant improvement. Further enhancement was observed over the next two iterations, robustly demonstrating our model's strong generalization.\n\n- For paralinguistic editing, after editing with Step-Audio-EditX, the performance of paralinguistic reproduction is comparable to that achieved by the built-in voices of closed-source models when synthesizing native paralinguistic content directly. (**sub** means replacement of paralinguistic tags with native words)\n\n\n\u003Cdiv align=\"center\">\n  \u003Ctable border=\"1\" cellspacing=\"0\" cellpadding=\"5\" style=\"border-collapse: collapse; font-family: sans-serif; width: auto;\">\n    \u003Ccaption>\u003Cb>Table: Generalization of Emotion, Speaking Style, and Paralinguistic Editing on Closed-Source Models.\u003C\u002Fb>\u003C\u002Fcaption>\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">Language\u003C\u002Fth>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">Model\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">Emotion &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">Speaking Style &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"3\" style=\"border-bottom: 1px solid black; border-left: 1px solid black;\">Paralinguistic &uarr;\u003C\u002Fth>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Cth>Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid #ccc;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid black;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>sub\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd rowspan=\"4\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">Chinese\u003C\u002Ftd>\n        \u003Ctd align=\"left\">MiniMax-2.6-hd\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">78.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">81.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>83.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">36.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">58.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.73\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.80\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">Doubao-Seed-TTS-2.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">67.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">80.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>82.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">38.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.67\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.81\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">GPT-4o-mini-TTS\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">76.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>81.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">45.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.7\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.71\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.93\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr style=\"border-bottom: 1px solid black;\">\n        \u003Ctd align=\"left\">ElevenLabs-v2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">74.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>79.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">43.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">69.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>70.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.70\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.71\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"4\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">English\u003C\u002Ftd>\n        \u003Ctd align=\"left\">MiniMax-2.6-hd\u003C\u002Ftd>\n        \u003Ctd align=\"center\">55.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">51.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>64.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.72\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.87\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">Doubao-Seed-TTS-2.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">53.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">47.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>62.7\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.72\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.75\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">GPT-4o-mini-TTS\u003C\u002Ftd>\n        \u003Ctd align=\"center\">56.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">52.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.90\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr style=\"border-bottom: 1px solid black;\">\n        \u003Ctd align=\"left\">ElevenLabs-v2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">51.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">51.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>64.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.93\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.87\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"4\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">Average\u003C\u002Ftd>\n        \u003Ctd align=\"left\">MiniMax-2.6-hd\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">72.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>74.9\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">44.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">59.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.73\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.84\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">Doubao-Seed-TTS-2.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">73.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>74.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">42.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.9\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.70\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.78\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.91\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">GPT-4o-mini-TTS\u003C\u002Ftd>\n        \u003Ctd align=\"center\">59.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">68.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">70.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>73.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">49.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.81\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">ElevenLabs-v2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">55.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">67.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">70.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>72.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">47.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.82\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.79\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\n\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n  \u003Ctable border=\"1\" cellspacing=\"0\" cellpadding=\"5\" style=\"border-collapse: collapse; font-family: sans-serif; width: auto;\">\n    \u003Ccaption>\u003Cb>Table: Generalization of Emotion, Speaking Style, and Paralinguistic Editing on Step-Audio-EditX.\u003C\u002Fb>\u003C\u002Fcaption>\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">Language\u003C\u002Fth>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">Model\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">Emotion &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">Speaking Style &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"2\" style=\"border-bottom: 1px solid black; border-left: 1px solid black;\">Paralinguistic &uarr;\u003C\u002Fth>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Cth>Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid #ccc;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid black;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd rowspan=\"3\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">Chinese\u003C\u002Ftd>\n        \u003Ctd align=\"left\">20251112\u003C\u002Ftd>\n        \u003Ctd align=\"center\">57.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">74.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">41.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\"style=\"border-left: 1px solid #ccc;\">1.80\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20251128\u003C\u002Ftd>\n        \u003Ctd align=\"center\">58.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">73.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">75.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">40.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>68.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.80\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20260129\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>60.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>75.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>79.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>81.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">\u003Cb>51.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>70.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>68.9\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">\u003Cb>2.07\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>2.91\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"3\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">English\u003C\u002Ftd>\n        \u003Ctd align=\"left\">20251112\u003C\u002Ftd>\n        \u003Ctd align=\"center\">49.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">\u003Cb>50.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">2.02\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20251128\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>51.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">48.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">2.02\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20260129\u003C\u002Ftd>\n        \u003Ctd align=\"center\">51.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">43.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">\u003Cb>2.18\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>2.93\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"3\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">Average\u003C\u002Ftd>\n        \u003Ctd align=\"left\">20251112\u003C\u002Ftd>\n        \u003Ctd align=\"center\">53.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">68.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">70.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">46.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.91\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20251128\u003C\u002Ftd>\n        \u003Ctd align=\"center\">55.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">69.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">44.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.91\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20260129\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>55.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>72.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>74.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">\u003Cb>47.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.7\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">\u003Cb>2.12\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>2.92\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\n\u003C\u002Fdiv>\n\n\n## Acknowledgements\n\nPart of the code and data for this project comes from:\n* [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n* [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* [FunASR](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunASR)\n* [NVSpeech](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-NV)\n* [vllm](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n\nThank you to all the open-source projects for their contributions to this project!\n\n## License Agreement\n+ The code in this open-source repository is licensed under the [Apache 2.0](LICENSE) License.\n\n## Citation\n\n```\n@misc{yan2025stepaudioeditxtechnicalreport,\n      title={Step-Audio-EditX Technical Report}, \n      author={Chao Yan and Boyong Wu and Peng Yang and Pengfei Tan and Guoqiang Hu and Yuxin Zhang and Xiangyu and Zhang and Fei Tian and Xuerui Yang and Xiangyu Zhang and Daxin Jiang and Gang Yu},\n      year={2025},\n      eprint={2511.03601},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.03601}, \n}\n```\n\n\n## ⚠️ Usage Disclaimer\n- Do not use this model for any unauthorized activities, including but not limited to:\n  - Voice cloning without permission\n  - Identity impersonation\n  - Fraud\n  - Deepfakes or any other illegal purposes\n- Ensure compliance with local laws and regulations, and adhere to ethical guidelines when using this model.\n- The model developers are not responsible for any misuse or abuse of this technology.\n\nWe advocate for responsible generative AI research and urge the community to uphold safety and ethical standards in AI development and application. If you have any concerns regarding the use of this model, please feel free to contact us.\n\n## Star History\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_55319cef1970.png)](https:\u002F\u002Fstar-history.com\u002F#stepfun-ai\u002FStep-Audio-EditX&Date)\n","# Step-Audio-EditX\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_76e02663483f.png\"  height=100>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fstepaudiollm.github.io\u002Fstep-audio-editx\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Demo%20Page&message=Web&color=green\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.03601\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Tech%20Report&message=Arxiv&color=red\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-EditX&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n\n  \n  \u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Step-Audio-EditX&message=ModelScope&color=blue\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fstepfun-ai\u002FStep-Audio-EditX\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Space%20Playground&message=HuggingFace&color=yellow\">\u003C\u002Fa> &ensp;\n  \u003Ca href=\"https:\u002F\u002Fwww.stepfun.com\u002Fstudio\u002Faudio?tab=edit\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Audio%20Studio&message=StepFun&color=blue\">\u003C\u002Fa> &ensp;\n\u003C\u002Fdiv>\n\n## 🔥🔥🔥 新闻！！！\n* 2026年1月29日: \n  * 🧩 新模型发布: \n    * 性能更优，整体提升超过4%。\n    * 增加了更多**超语言学**标签，包括**`呼气`**、**`嗅鼻声`**、**`吸气`**、**`轻笑`**、**`清嗓`**、**`咯咯笑`**。\n    * 欢迎前往[StepFun音频工作室](https:\u002F\u002Fwww.stepfun.com\u002Fstudio\u002Faudio?tab=edit)试用。\n  * 💻 我们发布了**SFT**、**DPO**和**GRPO**的训练代码。\n  * 🌟 现已支持使用**vLLM**进行训练和推理。感谢vLLM团队！\n* 2025年11月28日: 🚀 新模型发布：现已支持**日语**和**韩语**。\n* 2025年11月23日: 📊 [Step-Audio-Edit-Benchmark](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-Edit-Benchmark) 发布！\n* 2025年11月19日: ⚙️ 我们发布了模型的**新版本**，该版本**支持多音字发音控制**，并提升了情感、说话风格和超语言学编辑的表现。\n* 2025年11月12日: 📦 我们发布了**Step-Audio-EditX**（[HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX)；[ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX)）和**Step-Audio-Tokenizer**（[HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-Tokenizer)；[ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-Tokenizer)）的**优化推理代码**和**模型权重**。\n* 2025年11月7日: ✨ [演示页面](https:\u002F\u002Fstepaudiollm.github.io\u002Fstep-audio-editx\u002F)；🎮  [HF Space Playground](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fstepfun-ai\u002FStep-Audio-EditX)\n* 2025年11月6日: 👋 我们发布了[Step-Audio-EditX]的技术报告（[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.03601)）。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_771b8fb096b1.jpeg\"  height=200>\n\u003C\u002Fp>\n\n## 简介\n我们开源了Step-Audio-EditX，这是一个基于**3B参数**大语言模型的**强化学习**音频模型，专长于富有表现力的迭代式音频编辑。它在情感、说话风格和超语言学特征的编辑方面表现出色，同时还具备强大的零样本文本转语音（TTS）能力。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_54d1007b532d.jpeg\"  height=300>\n微信开发者群\n\n## 📑 开源计划\n- [x] 推理代码\n- [x] 在线演示（Gradio）\n- [x] Step-Audio-Edit-Benchmark\n- [x] 模型检查点\n  - [x] Step-Audio-Tokenizer\n  - [x] Step-Audio-EditX\n  - [x] Step-Audio-EditX-Int4\n- [ ] 训练代码\n  - [x] SFT训练\n  - [x] DPO训练\n  - [x] GRPO训练\n  - [ ] PPO训练\n- [ ] ⏳ 功能支持计划\n  - [ ] 编辑功能\n    - [x] 多音字发音控制\n    - [x] 更多超语言学标签（如咳嗽、哭泣、紧张等）\n    - [ ] 填充词去除\n  - [ ] 其他语言\n    - [x] 日语、韩语\n    - [ ] 阿拉伯语、法语、俄语、西班牙语等\n    \n## 特性\n- **零样本TTS**\n  - 对普通话、英语、四川话和粤语具有出色的零样本TTS克隆效果。\n  - 如果需要使用方言或其他语言，只需在文本前加上**`[四川话]`** \u002F **`[粤语]`** \u002F **`[日语]`** \u002F **`[韩语]`**标签即可。\n  - 🔥 支持多音字发音控制，只需将多音字替换为拼音即可。\n    - **[我也想过过过儿过过的生活]** -> **[我也想guo4guo4guo1儿guo4guo4的生活]**\n \n    \n- **情感与说话风格编辑**\n  - 对情感和风格的迭代控制效果显著，支持**数十种**选项进行编辑。\n    - 情感编辑：[*愤怒*、*快乐*、*悲伤*、*兴奋*、*恐惧*、*惊讶*、*厌恶*等]\n    - 说话风格编辑：[*娇嗔*、*年长*、*孩童*、*低语*、*严肃*、*慷慨*、*夸张*等]\n    - 更多情感和说话风格的编辑功能正在开发中。**敬请期待！** 🚀\n    \n\n- **超语言学编辑**\n  - 可精确控制10种超语言学特征，使合成音频更加自然、人性化且富有表现力。\n  - 支持的标签包括：\n    - [*呼吸*、*笑声*、*惊讶—哦*、*确认—嗯*、*嗯*、*惊讶—啊*、*惊讶—哇*、*叹息*、*疑问—诶*、*不满—哼*]\n\n- **可用标签**\n\u003Ctable>\n  \u003Ctr>\n    \u003Ctd rowspan=\"8\" style=\"vertical-align: middle; text-align:center;\" align=\"center\">情绪\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>happy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达快乐\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>angry\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达愤怒\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>sad\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达悲伤\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>fear\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达恐惧\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>surprised\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达惊讶\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>confusion\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达困惑\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>empathy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达共情与理解\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>embarrass\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达尴尬\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>excited\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达兴奋和热情\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>depressed\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达沮丧或灰心的情绪\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>admiration\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达钦佩或尊敬\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>coldness\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达冷淡和漠不关心\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>disgusted\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达厌恶或反感\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>humour\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达幽默或俏皮\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd rowspan=\"17\" style=\"vertical-align: middle; text-align:center;\" align=\"center\">说话风格\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>serious\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以严肃或庄重的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>arrogant\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以傲慢的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>child\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以孩子般的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>older\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以老年人的声音说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>girl\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以轻快、青春的女性化方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>pure\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以纯洁、天真的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>sister\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以成熟、自信的女性化方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>sweet\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以甜美、可爱的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>exaggerated\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以夸张、戏剧化的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>ethereal\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以柔和、空灵、梦幻的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>whisper\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以低语、非常轻柔的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>generous\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以豪爽、外向、直率的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>recite\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以清晰、节奏感强、朗诵诗歌的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>act_coy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以甜美、俏皮、惹人喜爱的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>warm\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以温暖、友好的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>shy\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以害羞、胆怯的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>comfort\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以安慰、令人安心的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>authority\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以权威、命令式的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>chat\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以随意、聊天般的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>radio\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以广播节目般的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>soulful\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以真挚、深情的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>gentle\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以温柔、柔和的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>story\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">以叙述性、有声书风格的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>vivid\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以生动、富有表现力的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>program\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以节目主持人\u002F司仪的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>news\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以新闻播报的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>advertising\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以 polished、高端商业配音的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>roar\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以洪亮、低沉、咆哮般的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>murmur\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以安静、低沉的方式说话\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>shout\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以响亮、尖锐、喊叫般的方式说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>deeply\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以低沉而深邃的音调说话\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>loudly\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》以响亮而高亢的音调说话\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003C\u002Ftr>\n  \u003Ctr>\n  \u003Ctd rowspan=\"11\" style=\"vertical-align: middle; text-align:center;\" align=\"center\">副语言\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[sigh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》叹息声\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[inhale]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》吸气声\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[laugh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》笑声\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>[chuckle]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》轻笑声\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[exhale]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》呼气声\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>[clears throat]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》清嗓子声\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[snort]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》嗤笑声\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>[giggle]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》咯咯笑声\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[cough]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》咳嗽声\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>[breath]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》呼吸声\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[uhm]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》犹豫的声音：“嗯”\u003C\u002Ftd>\n    \u003Ctd align=\"center>\u003Cb>[Confirmation-en]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center》确认的声音：“嗯”\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-oh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达惊讶：“哦”\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-ah]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达惊讶：“啊”\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-wa]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达惊讶：“哇”\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Surprise-yo]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">表达惊讶：“哟”\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Dissatisfaction-hnn]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">不满的声音：“哼”\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Question-ei]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">疑问：“诶”\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Question-ah]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">疑问：“啊”\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Question-en]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">疑问：“嗯”\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cb>[Question-yi]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">疑问：“咦”\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\u003Cb>[Question-oh]\u003C\u002Fb>\u003C\u002Ftd>\n    \u003Ctd align=\"center\">疑问：“哦”\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n \n\n\n## 功能请求与愿望清单\n💡 我们欢迎所有关于新功能的想法！如果您希望在项目中添加某项功能，请在我们的[讨论区](https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fdiscussions)发起讨论。\n\n我们将在此处收集社区反馈，并将受欢迎的建议纳入未来的开发计划。感谢您的贡献！\n\n## 演示\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">任务\u003C\u002Fth>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">文本\u003C\u002Fth>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">原始音频\u003C\u002Fth>\n    \u003Cth style=\"vertical-align : middle;text-align: center\">编辑后音频\u003C\u002Fth>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> 情感-恐惧\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 我总觉得，有人在跟着我，我能听到奇怪的脚步声。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n\n  [fear_zh_female_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa088c059-032c-423f-81d6-3816ba347ff5) \n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [fear_zh_female_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F917494ac-5913-4949-8022-46cf55ca05dd)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> 风格-耳语\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 比如在工作间隙，做一些简单的伸展运动，放松一下身体，这样，会让你更有精力。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [whisper_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fed9e22f1-1bac-417b-913a-5f1db31f35c9)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [whisper_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe0501050-40db-4d45-b380-8bcc309f0b5f)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> 风格-娇羞\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 我今天想喝奶茶，可是不知道喝什么口味，你帮我选一下嘛，你选的都好喝～\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n\n  [act_coy_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F74d60625-5b3c-4f45-becb-0d3fe7cc4b3f)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\"> \n\n  [act_coy_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fb2f74577-56c2-4997-afd6-6bf47d15ea51)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> 言语副语言特征\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 你这次又忘记带钥匙了 [Dissatisfaction-hnn]，真是拿你没办法。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [paralingustic_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F21e831a3-8110-4c64-a157-60e0cf6735f0)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [paralingustic_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa82f5a40-c6a3-409b-bbe6-271180b20d7b)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> 去噪\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 此类立法随后不时得到澄清和延长。不，那人并没有喝醉，他只是纳闷我们怎么会和这个陌生人扯上关系。突然间，我的反应变得迟钝了。不用糖烹饪更健康。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [denoising_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F70464bf4-ebde-44a3-b2a6-8c292333319b)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [denoising_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7cd0ae8d-1bf0-40fc-9bcd-f419bd4b2d21)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n\n  \u003Ctr>\n    \u003Ctd align=\"center\"> 语速-加快\u003C\u002Ftd>\n    \u003Ctd align=\"center\"> 上次你说鞋子有点磨脚，我给你买了一双软软的鞋垫。\u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [speed_faster_prompt.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fdb46609e-1b98-48d8-99c8-e166cfdfc6e3)\n  \u003C\u002Ftd>\n    \u003Ctd align=\"center\">\n      \n  [speed_faster_output.webm](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F0fbc14ca-dd4a-4362-aadc-afe0629f4c9f)\n  \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \n\u003C\u002Ftable>\n\n\n更多示例，请参阅[演示页面](https:\u002F\u002Fstepaudiollm.github.io\u002Fstep-audio-editx\u002F)。\n\n## 模型下载\n\n| 模型   | 🤗 Hugging Face | ModelScope |\n|-------|-------|-------|\n| Step-Audio-EditX | [stepfun-ai\u002FStep-Audio-EditX](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX) | [stepfun-ai\u002FStep-Audio-EditX](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX) |\n| Step-Audio-EditX | [stepfun-ai\u002FStep-Audio-EditX-AWQ-4bit](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX-AWQ-4bit) | [stepfun-ai\u002FStep-Audio-EditX-AWQ-4bit](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-EditX-AWQ-4bit) |\n| Step-Audio-Tokenizer | [stepfun-ai\u002FStep-Audio-Tokenizer](https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-Tokenizer) | [stepfun-ai\u002FStep-Audio-Tokenizer](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002Fstepfun-ai\u002FStep-Audio-Tokenizer) |\n\n\n## 模型使用\n### 📜 要求\n下表列出了运行 Step-Audio-EditX 模型所需的要求（批量大小 = 1）：\n\n|     模型    | 参数量 |  设置\u003Cbr\u002F>(采样频率) | GPU 最佳显存  |\n|------------|------------|--------------------------------|----------------|\n| Step-Audio-EditX   | 3B|         41.6Hz          |       12 GB        |\n\n* 需要支持 CUDA 的 NVIDIA 显卡。\n  * 该模型已在单个 L40S 显卡上测试过。\n  * 12GB 只是一个临界值，而 16GB 显存会更加安全。\n* 测试的操作系统：Linux\n\n### 🔧 依赖与安装\n- Python >= 3.12\n- [PyTorch >= 2.9.1](https:\u002F\u002Fpytorch.org\u002F)\n- [CUDA 工具包](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX.git\n\ncd Step-Audio-EditX\nuv sync --refresh\nsource .venv\u002Fbin\u002Factivate\n\ngit lfs install\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-Tokenizer\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX\ngit clone https:\u002F\u002Fhuggingface.co\u002Fstepfun-ai\u002FStep-Audio-EditX-AWQ-4bit\u002F\n\n```\n\n下载完模型后，您存放文件的目录应具有如下结构：\n```\nwhere_you_download_dir\n├── Step-Audio-Tokenizer\n├── Step-Audio-EditX\n```\n\n#### 使用 Docker 运行\n\n您可以使用提供的 Dockerfile 来设置运行 Step-Audio-EditX 所需的环境。\n\n```bash\n# 构建 Docker 镜像\ndocker build . -t step-audio-editx\n\n# 运行 Docker 容器\ndocker run --rm --gpus all \\\n    -v \u002Fyour\u002Fcode\u002Fpath:\u002Fapp \\\n    -v \u002Fyour\u002Fmodel\u002Fpath:\u002Fmodel \\\n    -p 7860:7860 \\\n    step-audio-editx\n```\n#### 本地推理演示\n> [!提示]\n> 为获得最佳性能，每次推理的音频长度应控制在 30 秒以内。\n\n```bash\n\n# 零样本克隆\n# 生成的音频文件路径为 output\u002Ffear_zh_female_prompt_cloned.wav\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"我总觉得，有人在跟着我，我能听到奇怪的脚步声。\" \\\n    --prompt-audio \"examples\u002Ffear_zh_female_prompt.wav\" \\\n    --generated-text \"可惜没有如果，已经发生的事情终究是发生了。\" \\\n    --edit-type \"clone\" \\\n    --output-dir .\u002Foutput \n\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"His political stance was conservative, and he was particularly close to margaret thatcher.\" \\\n    --prompt-audio \"examples\u002Fzero_shot_en_prompt.wav\" \\\n    --generated-text \"Underneath the courtyard is a large underground exhibition room which connects the two buildings.\t\" \\\n    --edit-type \"clone\" \\\n    --output-dir .\u002Foutput \n\n# 编辑\n# 每次编辑迭代都会生成一个或多个波形文件，例如：output\u002Ffear_zh_female_prompt_edited_iter1.wav、output\u002Ffear_zh_female_prompt_edited_iter2.wav，等等。\n# 情感；恐惧\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"我总觉得，有人在跟着我，我能听到奇怪的脚步声。\" \\\n    --prompt-audio \"examples\u002Ffear_zh_female_prompt.wav\" \\\n    --edit-type \"emotion\" \\\n    --edit-info \"fear\" \\\n    --output-dir .\u002Foutput \n\n# 情感；快乐\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"You know, I just finished that big project and feel so relieved. Everything seems easier and more colorful, what a wonderful feeling!\" \\\n    --prompt-audio \"examples\u002Fen_happy_prompt.wav\" \\\n    --edit-type \"emotion\" \\\n    --edit-info \"happy\" \\\n    --output-dir .\u002Foutput \n\n# 风格；耳语\n# 对于耳语风格的编辑，建议将迭代次数设置为大于1，以获得更好的效果。\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"比如在工作间隙，做一些简单的伸展运动，放松一下身体，这样，会让你更有精力.\" \\\n    --prompt-audio \"examples\u002Fwhisper_prompt.wav\" \\\n    --edit-type \"style\" \\\n    --edit-info \"whisper\" \\\n    --output-dir .\u002Foutput \n\n# 言语副语言特征\n# 支持的标签包括：呼吸、笑声、惊讶-哦、确认-英、嗯、惊讶-啊、惊讶-哇、叹息、疑问-哎、不满-哼\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"我觉得这个计划大概是可行的，不过还需要再仔细考虑一下。\" \\\n    --prompt-audio \"examples\u002Fparalingustic_prompt.wav\" \\\n    --generated-text \"我觉得这个计划大概是可行的，[Uhm]不过还需要再仔细考虑一下。\" \\\n    --edit-type \"paralinguistic\" \\\n    --output-dir .\u002Foutput \n\n# 去噪\n# 不需要提示文本。\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-audio \"examples\u002Fdenoise_prompt.wav\"\\\n    --edit-type \"denoise\" \\\n    --output-dir .\u002Foutput \n\n# VAD（语音活动检测）\n# 不需要提示文本。\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-audio \"examples\u002Fvad_prompt.wav\" \\\n    --edit-type \"vad\" \\\n    --output-dir .\u002Foutput \n\n# 语速\n# 支持的编辑信息包括：更快、更慢、更快一些、更慢一些\npython3 tts_infer.py \\\n    --model-path where_you_download_dir \\\n    --tokenizer-path where_you_download_dir \\\n    --prompt-text \"上次你说鞋子有点磨脚，我给你买了一双软软的鞋垫。\" \\\n    --prompt-audio \"examples\u002Fspeed_prompt.wav\" \\\n    --edit-type \"speed\" \\\n    --edit-info \"more faster\" \\\n    --output-dir .\u002Foutput \n\n```\n\n\n\n#### 启动Web演示\n启动本地服务器进行在线推理。\n假设您有一块至少有12GB显存的GPU，并且已经下载了所有模型。\n\n```bash\n# 标准启动\npython app.py --model-path where_you_download_dir --tokenizer-path where_you_download_dir --model-source local\n\n# 使用预量化AWQ 4位模型，内存高效模式（适用于显存有限的情况，约6-8GB使用）\npython app.py \\\n    --model-path path\u002Fto\u002Fquantized\u002Fmodel \\\n    --tokenizer-path where_you_download_dir \\\n    --model-source local \\\n    --gpu-memory-utilization 0.1 \\\n    --enforce-eager \\\n    --max-num-seqs 1 \\\n    --cosyvoice-dtype bfloat16 \\\n    --no-cosyvoice-cuda-graph\n\n```\n\n##### 可用参数\n\n| 参数 | 默认值 | 描述 |\n|-----------|---------|-------------|\n| `--model-path` | （必填） | 模型目录路径 |\n| `--model-source` | `auto` | 模型来源：`auto`、`local`、`modelscope`、`huggingface` |\n| `--gpu-memory-utilization` | `0.5` | vLLM KV缓存使用的显存比例（0.0-1.0） |\n| `--max-model-len` | `3072` | 最大序列长度，影响KV缓存大小 |\n| `--enforce-eager` | `True` | 禁用vLLM CUDA图（节省约0.5GB显存） |\n| `--max-num-seqs` | `1` | 最大并发序列数（vLLM默认：256，越小占用显存越少） |\n| `--dtype` | `bfloat16` | 模型数据类型：`float16`、`bfloat16` |\n| `--quantization` | `None` | 量化方法：`awq`、`gptq`、`fp8` |\n| `--cosyvoice-dtype` | `bfloat16` | CosyVoice声码器数据类型：`float32`、`bfloat16`、`float16` |\n| `--no-cosyvoice-cuda-graph` | `False` | 禁用CosyVoice CUDA图（节省显存） |\n| `--enable-auto-transcribe` | `False` | 启用自动音频转录 |\n\n##### 显存使用指南\n\n| 配置 | 估计显存用量 | 使用场景 |\n|--------------|---------------------|----------|\n| 标准（默认） | ~12-15 GB | 最佳质量和速度 |\n| 内存高效 | ~6-8 GB | 显存有限，质量略有牺牲 |\n| AWQ 4位量化 | ~8-10 GB | 质量和显存的良好平衡 |\n\n## 训练\n请参考script\u002FReadMe.md\n\n### 🔄 模型量化（可选）\n对于显存有限的用户，可以创建模型的量化版本以降低内存需求：\n\n```bash\n# 创建AWQ 4位量化模型\npython quantization\u002Fawq_quantize.py --model_path path\u002Fto\u002FStep-Audio-EditX\n\n# 高级量化选项\npython quantization\u002Fawq_quantize.py\n```\n\n有关详细的量化选项和参数，请参阅[quantization\u002FREADME.md](quantization\u002FREADME.md)。\n\n\n## 技术细节\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_c2c78c1594ff.png\" width=900>\nStep-Audio-EditX由三个主要组件组成：\n\n- 一个双码本音频分词器，用于将参考或输入音频转换成离散的标记。\n- 一个音频LLM，用于生成双码本标记序列。\n- 一个音频解码器，通过流匹配方法将音频LLM预测的双码本标记序列重新转换回音频波形。\n\nAudio-Edit能够在所有语音中实现对情感和说话风格的迭代控制，这得益于在SFT和PPO训练过程中使用的大规模数据集。\n\n## 评估\n\n### Step-Audio-EditX 与闭源模型的对比。\n\n- 在零样本克隆和情感控制方面，Step-Audio-EditX 的表现均优于 Minimax 和 Doubao。\n- 仅经过一轮迭代，Step-Audio-EditX 的情感编辑便显著提升了三款模型的情感可控音频输出质量。随着迭代次数的增加，其整体性能持续提升。\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_434d16d17a83.png\" width=800 >\n\u003C\u002Fdiv>\n\n### 对闭源模型的泛化能力。\n- 在情感和语调风格编辑方面，主流闭源系统的内置音色具备较强的上下文理解能力，能够在一定程度上传达文本中的情感。使用 Step-Audio-EditX 进行一轮编辑后，所有语音模型在情感和风格准确性上的表现均得到显著提升。随后的两轮迭代进一步优化了效果，充分证明了我们模型强大的泛化能力。\n- 对于超语言特征编辑，经 Step-Audio-EditX 编辑后，其超语言特征的还原效果已可与闭源模型的内置音色直接合成原生超语言内容时的效果相媲美。（“sub” 表示用原生词汇替换超语言标记）\n\n\u003Cdiv align=\"center\">\n  \u003Ctable border=\"1\" cellspacing=\"0\" cellpadding=\"5\" style=\"border-collapse: collapse; font-family: sans-serif; width: auto;\">\n    \u003Ccaption>\u003Cb>表：情感、语速风格及副语言编辑在闭源模型上的泛化效果。\u003C\u002Fb>\u003C\u002Fcaption>\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">语言\u003C\u002Fth>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">模型\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">情感 &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">语速风格 &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"3\" style=\"border-bottom: 1px solid black; border-left: 1px solid black;\">副语言 &uarr;\u003C\u002Fth>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Cth>Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid #ccc;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid black;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>sub\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd rowspan=\"4\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">中文\u003C\u002Ftd>\n        \u003Ctd align=\"left\">MiniMax-2.6-hd\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">78.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">81.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>83.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.73\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.80\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">Doubao-Seed-TTS-2.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">67.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">80.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>82.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.67\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.81\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">GPT-4o-mini-TTS\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">76.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>81.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.71\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.93\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr style=\"border-bottom: 1px solid black;\">\n        \u003Ctd align=\"left\">ElevenLabs-v2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">74.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>79.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.70\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.71\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"4\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">英文\u003C\u002Ftd>\n        \u003Ctd align=\"left\">MiniMax-2.6-hd\u003C\u002Ftd>\n        \u003Ctd align=\"center\">55.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.72\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.87\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">Doubao-Seed-TTS-2.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">53.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.72\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.75\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.92\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">GPT-4o-mini-TTS\u003C\u002Ftd>\n        \u003Ctd align=\"center\">56.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.90\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr style=\"border-bottom: 1px solid black;\">\n        \u003Ctd align=\"left\">ElevenLabs-v2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">51.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.93\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.87\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"4\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">平均\u003C\u002Ftd>\n        \u003Ctd align=\"left\">MiniMax-2.6-hd\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">72.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>74.9\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">44.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">59.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.8\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.73\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.84\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">Doubao-Seed-TTS-2.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">73.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>74.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">42.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.9\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.70\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.78\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.91\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">GPT-4o-mini-TTS\u003C\u002Ftd>\n        \u003Ctd align=\"center\">59.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">68.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">70.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>73.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">49.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.81\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">ElevenLabs-v2\u003C\u002Ftd>\n        \u003Ctd align=\"center\">55.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">67.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">70.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>72.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">47.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.82\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.79\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.90\u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n  \u003Ctable border=\"1\" cellspacing=\"0\" cellpadding=\"5\" style=\"border-collapse: collapse; font-family: sans-serif; width: auto;\">\n    \u003Ccaption>\u003Cb>表：Step-Audio-EditX 上情感、语速风格和副语言编辑的泛化效果\u003C\u002Fb>\u003C\u002Fcaption>\n    \u003Cthead>\n      \u003Ctr>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">语言\u003C\u002Fth>\n        \u003Cth rowspan=\"2\" align=\"center\" style=\"vertical-align: bottom;\">模型\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">情感 &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"4\" style=\"border-bottom: 1px solid black;\">语速风格 &uarr;\u003C\u002Fth>\n        \u003Cth colspan=\"2\" style=\"border-bottom: 1px solid black; border-left: 1px solid black;\">副语言 &uarr;\u003C\u002Fth>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Cth>Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid #ccc;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>2\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>3\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth style=\"border-left: 1px solid black;\">Iter\u003Csub>0\u003C\u002Fsub>\u003C\u002Fth>\n        \u003Cth>Iter\u003Csub>1\u003C\u002Fsub>\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd rowspan=\"3\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">中文\u003C\u002Ftd>\n        \u003Ctd align=\"left\">20251112\u003C\u002Ftd>\n        \u003Ctd align=\"center\">57.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">74.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">41.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\"style=\"border-left: 1px solid #ccc;\">1.80\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20251128\u003C\u002Ftd>\n        \u003Ctd align=\"center\">58.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\">73.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">75.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">77.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">40.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>68.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.80\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20260129\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>60.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>75.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>79.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>81.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">\u003Cb>51.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>70.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>68.9\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">\u003Cb>2.07\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>2.91\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"3\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">英文\u003C\u002Ftd>\n        \u003Ctd align=\"left\">20251112\u003C\u002Ftd>\n        \u003Ctd align=\"center\">49.9\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">61.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">\u003Cb>50.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">2.02\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.88\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20251128\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>51.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">48.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.4\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">64.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">2.02\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20260129\u003C\u002Ftd>\n        \u003Ctd align=\"center\">51.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>63.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.0\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">43.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">60.4\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.5\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">\u003Cb>2.18\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>2.93\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd rowspan=\"3\" align=\"center\" style=\"font-weight: bold; vertical-align: middle;\">平均\u003C\u002Ftd>\n        \u003Ctd align=\"left\">20251112\u003C\u002Ftd>\n        \u003Ctd align=\"center\">53.5\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">68.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">70.7\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">46.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.3\u003C\u002Ftd>\n        \u003Ctd align=\"center\">65.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.2\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.91\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20251128\u003C\u002Ftd>\n        \u003Ctd align=\"center\">55.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">69.1\u003C\u002Ftd>\n        \u003Ctd align=\"center\">71.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">44.6\u003C\u002Ftd>\n        \u003Ctd align=\"center\">62.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">63.8\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>66.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">1.91\u003C\u002Ftd>\n        \u003Ctd align=\"center\">2.89\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd align=\"left\">20260129\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>55.6\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>69.1\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>72.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>74.3\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid #ccc;\">\u003Cb>47.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>65.2\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>67.7\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">66.0\u003C\u002Ftd>\n        \u003Ctd align=\"center\" style=\"border-left: 1px solid black;\">\u003Cb>2.12\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd align=\"center\">\u003Cb>2.92\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\n\u003C\u002Fdiv>\n\n\n\n\n## 致谢\n\n本项目部分代码和数据来源于：\n* [CosyVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n* [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n* [FunASR](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunASR)\n* [NVSpeech](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Famphion\u002FEmilia-NV)\n* [vllm](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n\n感谢所有开源项目对本项目的贡献！\n\n## 许可协议\n+ 本开源仓库中的代码采用 [Apache 2.0](LICENSE) 许可证授权。\n\n## 引用\n\n```\n@misc{yan2025stepaudioeditxtechnicalreport,\n      title={Step-Audio-EditX 技术报告}, \n      author={Chao Yan 和 Boyong Wu 和 Peng Yang 和 Pengfei Tan 和 Guoqiang Hu 和 Yuxin Zhang 和 Xiangyu 和 Zhang 和 Fei Tian 和 Xuerui Yang 和 Xiangyu Zhang 和 Daxin Jiang 和 Gang Yu},\n      year={2025},\n      eprint={2511.03601},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.03601}, \n}\n```\n\n\n## ⚠️ 使用声明\n- 请勿将本模型用于任何未经授权的活动，包括但不限于：\n  - 未经许可的语音克隆\n  - 冒充他人身份\n  - 欺诈行为\n  - 制作深度伪造内容或其他非法用途\n- 使用本模型时，请确保遵守当地法律法规，并遵循相关伦理准则。\n- 模型开发者对任何滥用或误用该技术的行为不承担任何责任。\n\n我们倡导负责任的生成式人工智能研究，并呼吁社区在人工智能的开发与应用中坚持安全与伦理标准。如果您对使用本模型有任何疑虑，请随时与我们联系。\n\n## 星标历史\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_readme_55319cef1970.png)](https:\u002F\u002Fstar-history.com\u002F#stepfun-ai\u002FStep-Audio-EditX&Date)","# Step-Audio-EditX 快速上手指南\n\nStep-Audio-EditX 是一个基于 30 亿参数大语言模型（LLM）和强化学习技术的音频编辑模型。它擅长进行情感、说话风格及副语言特征（如呼吸、笑声）的精细化编辑，并具备强大的零样本语音克隆（Zero-Shot TTS）能力，支持中文、英文、日语、韩语及多种方言。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n*   **Python 版本**: 3.10 或更高\n*   **GPU**: 推荐使用 NVIDIA GPU (显存建议 16GB 以上以运行全精度模型，8GB+ 可尝试 Int4 量化版本)\n*   **依赖管理**: 建议使用 `conda` 创建独立虚拟环境\n\n## 安装步骤\n\n### 1. 创建并激活虚拟环境\n```bash\nconda create -n step-audio python=3.10 -y\nconda activate step-audio\n```\n\n### 2. 安装 PyTorch\n请根据您的 CUDA 版本安装对应的 PyTorch。以下为通用安装命令（CUDA 11.8）：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n*注：国内用户可使用清华源加速：`pip install torch ... -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`*\n\n### 3. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX.git\ncd Step-Audio-EditX\n```\n\n### 4. 安装项目依赖\n```bash\npip install -r requirements.txt\n```\n*如果 `requirements.txt` 未包含 vLLM 支持，且您需要高性能推理，可额外安装：*\n```bash\npip install vllm\n```\n\n### 5. 下载模型权重\n您可以从 HuggingFace 或 ModelScope（国内推荐）下载模型。\n\n**方式 A：使用 ModelScope (国内加速推荐)**\n```bash\npip install modelscope\npython -c \"from modelscope import snapshot_download; snapshot_download('stepfun-ai\u002FStep-Audio-EditX', local_dir='.\u002Fmodels\u002FStep-Audio-EditX')\"\npython -c \"from modelscope import snapshot_download; snapshot_download('stepfun-ai\u002FStep-Audio-Tokenizer', local_dir='.\u002Fmodels\u002FStep-Audio-Tokenizer')\"\n```\n\n**方式 B：使用 HuggingFace**\n```bash\npip install huggingface_hub\nhuggingface-cli download stepfun-ai\u002FStep-Audio-EditX --local-dir .\u002Fmodels\u002FStep-Audio-EditX\nhuggingface-cli download stepfun-ai\u002FStep-Audio-Tokenizer --local-dir .\u002Fmodels\u002FStep-Audio-Tokenizer\n```\n*提示：若显存有限，可下载 `Step-Audio-EditX-Int4` 量化版本。*\n\n## 基本使用\n\n以下是最简单的 Python 推理示例，展示如何进行带情感控制的语音生成\u002F编辑。\n\n### 简单推理示例\n\n创建一个名为 `demo_inference.py` 的文件：\n\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\n# 假设项目提供了标准的 inference 工具类，实际使用时请参考 repo 中的 infer.py 结构\n# 此处为伪代码逻辑，展示核心标签用法\n\n# 1. 加载分词器和模型 (路径需替换为您实际下载的本地路径)\nmodel_path = \".\u002Fmodels\u002FStep-Audio-EditX\"\ntokenizer_path = \".\u002Fmodels\u002FStep-Audio-Tokenizer\"\n\n# 初始化逻辑 (具体类名请参考源码 infer.py)\n# model = AutoModelForCausalLM.from_pretrained(model_path, device_map=\"auto\", trust_remote_code=True)\n# tokenizer = AutoTokenizer.from_pretrained(tokenizer_path, trust_remote_code=True)\n\n# 2. 构建输入提示 (Prompt)\n# 格式：[语言\u002F方言标签] [情感标签] [说话风格标签] [副语言标签] 文本内容\n\ninput_text = (\n    \"[Mandarin] \"\n    \"[happy] \"\n    \"[act_coy] \"\n    \"[laugh] \"\n    \"今天天气真好，我们一起去公园玩吧！\"\n)\n\n# 多音字控制示例 (将多音字替换为拼音)\npolyphone_text = (\n    \"[Mandarin] \"\n    \"[serious] \"\n    \"我也想 guo4guo4guo1 儿 guo4guo4 的生活\" \n)\n\n# 3. 执行推理\n# audio_output = model.generate(\n#     input_text=input_text, \n#     reference_audio=\"path\u002Fto\u002Freference.wav\", # 如果是编辑任务，需提供参考音频\n#     max_new_tokens=2048\n# )\n\n# 4. 保存结果\n# save_audio(audio_output, \"output.wav\")\n\nprint(\"提示构建示例:\")\nprint(f\"普通情感控制: {input_text}\")\nprint(f\"多音字控制：{polyphone_text}\")\nprint(\"\\n请根据 repo 中 infer.py 的具体接口调用模型进行生成。\")\n```\n\n### 核心标签速查\n\n在使用时，只需在文本前添加对应的标签即可控制输出效果：\n\n*   **语言\u002F方言**: `[Mandarin]`, `[English]`, `[Sichuanese]`, `[Cantonese]`, `[Japanese]`, `[Korean]`\n*   **情感 (Emotion)**: `[happy]`, `[angry]`, `[sad]`, `[fear]`, `[surprised]`, `[excited]` 等。\n*   **说话风格 (Style)**: `[child]` (童声), `[older]` (老年), `[whisper]` (耳语), `[news]` (新闻播报), `[act_coy]` (撒娇) 等。\n*   **副语言 (Paralinguistic)**: `[laugh]` (大笑), `[chuckle]` (轻笑), `[sigh]` (叹气), `[inhale]` (吸气), `[cough]` (咳嗽) 等。\n\n### 启动 Web Demo (可选)\n\n如果您希望使用图形界面进行测试，可以运行官方提供的 Gradio 服务：\n\n```bash\npython app.py\n```\n启动后，终端会显示本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），在浏览器中打开即可上传音频并进行可视化编辑。","某游戏本地化团队正在为一款悬疑冒险游戏制作多语言角色配音，需要将中文原声快速适配为带有特定情绪和非语言细节的日文与韩文版本。\n\n### 没有 Step-Audio-EditX 时\n- **情感调整成本高昂**：若录音演员语气不够惊恐或悲伤，必须重新召集配音员进棚补录，耗时且协调困难。\n- **非语言细节缺失**：原声中缺乏喘息、轻笑或清嗓子等副语言特征，导致角色听起来像机器人在念稿，缺乏真实感。\n- **多语种适配僵化**：切换日语或韩语时，难以保留原角色的独特音色和说话风格，往往需要寻找新的配音演员，破坏角色一致性。\n- **零样本克隆效果差**：传统工具在未见过的方言或特定语调上表现生硬，无法自然迁移角色的说话习惯。\n\n### 使用 Step-Audio-EditX 后\n- **指令式情感重绘**：只需输入文本指令（如“增加颤抖的恐惧感”），Step-Audio-EditX 即可基于强化学习直接修改音频情感，无需演员返场。\n- **精细化副语言注入**：利用新增的 `exhale`（呼气）、`chuckle`（轻笑）、`clears throat`（清嗓）等标签，一键为对话添加逼真的呼吸感和微表情声音。\n- **跨语言风格保持**：在生成日语和韩语配音时，Step-Audio-EditX 能完美锁定原角色的音色与说话风格，实现真正的“一人分饰多语”。\n- **强大的零样本泛化**：即使是复杂的四川话或粤语角色，也能通过零样本技术高质量克隆并迁移到新语言中，保持韵味不变。\n\nStep-Audio-EditX 将原本需要数周协调的重录工作缩短为分钟级的指令编辑，彻底改变了音频后期制作的流程效率。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fstepfun-ai_Step-Audio-EditX_771b8fb0.jpg","stepfun-ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fstepfun-ai_576b766a.png","",null,"opensource@stepfun.com","https:\u002F\u002Fgithub.com\u002Fstepfun-ai",[82,86,90,94,98,102],{"name":83,"color":84,"percentage":85},"Python","#3572A5",97.9,{"name":87,"color":88,"percentage":89},"Cuda","#3A4E3A",1,{"name":91,"color":92,"percentage":93},"C","#555555",0.5,{"name":95,"color":96,"percentage":97},"Shell","#89e051",0.4,{"name":99,"color":100,"percentage":101},"C++","#f34b7d",0.2,{"name":103,"color":104,"percentage":105},"Dockerfile","#384d54",0,896,62,"2026-04-07T11:18:43","Apache-2.0","未说明（模型为 3B 参数，支持 vLLM 推理及 Int4 量化版本，通常建议 NVIDIA GPU）","未说明",{"notes":113,"python":111,"dependencies":114},"README 中未明确列出具体的操作系统、Python 版本、CUDA 版本及基础依赖库（如 torch, transformers 等）。已知信息包括：模型参数量为 3B；支持 vLLM 进行训练和推理；提供 Gradio 在线演示代码；支持 Int4 量化版本以降低资源需求；支持多语言（中、英、日语、韩语等）及多种情感和副语言标签编辑。",[115,116],"vLLM","Gradio",[16,31],[119,120,121,122,123,124,125,126,127,128,129],"audio-editing","cross-lingual","emotion-control","paralinguistics","speaking-style","style-control","text-to-speech","tts","voice-cloning","zero-shot-tts","reinforcement-learning","2026-03-27T02:49:30.150509","2026-04-08T01:49:20.938958",[133,138,143,148,153,158,163,168],{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},23533,"使用 int4 量化时显存占用过高或启动失败怎么办？","目前显存优化正在进行中。对于 3060 等显卡，使用 `--quantization int4` 参数可能会遇到显存不足或启动失败的问题。建议关注后续版本的更新以获取更好的显存优化支持。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F5",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},23534,"Batch 推理时如何正确进行 token padding？","目前官方尚未正式支持 Batch 推理。如果尝试手动修改代码进行 padding，请注意 `pad_token` 应该填充在 `arole_toks`（助手角色标记）之后。有用户反馈通过转用 vllm 方案解决了该问题。此外，训练时的最大长度限制（如 30s）也可能影响 padding 效果。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F32",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},23535,"遇到 'libcublasLt.so.11: cannot open shared object file' 错误如何解决？","该错误通常与 onnxruntime-gpu 版本不兼容有关。建议将 `onnxruntime-gpu` 升级到 `1.23.2` 版本，升级后模型通常能正常运行。虽然可能仍会出现一些关于 Memcpy 节点的性能警告，但不影响基本功能。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F3",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},23536,"运行时报错 'Failed to check existence of repo' 且模型加载失败怎么办？","这通常是因为 `--model-path` 参数指向的路径不正确。请确保目录结构如下：\n```\nwhere_you_download_dir\n├── Step-Audio-Tokenizer\n├── Step-Audio-EditX\n```\n然后将 `--model-path` 的参数设置为父文件夹 `where_you_download_dir` 的路径，而不是具体的子模型文件夹。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F20",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},23537,"程序启动后无报错但长时间无输出且卡住不动是什么原因？","如果日志显示模型加载成功但进程卡住且显存被占用，可能是依赖环境存在问题。尝试重新安装项目依赖（reinstall requirements）通常可以解决此问题。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F16",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},23538,"Step-Audio-EditX 的模型权重允许商用吗？","是的，模型权重允许商用。虽然代码协议已明确，但根据官方在相关渠道的确认，权重同样支持商业使用。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F59",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},23539,"SFT（监督微调）代码何时发布？","GRPO 训练代码已经发布，SFT 代码预计将在不久后推出，请持续关注项目更新。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F46",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},23540,"遇到 'torch.ops.Optimus.fwd' 缺失导致的 AttributeError 报错怎么办？","该错误是因为缺少自定义 CUDA 扩展算子。StepAttention 默认调用 `torch.ops.Optimus.fwd`，但标准环境中未包含此算子。需检查是否安装了特定的 Optimus 扩展包或按照项目最新文档编译对应的 CUDA 扩展，否则推理会直接报错或卡死。","https:\u002F\u002Fgithub.com\u002Fstepfun-ai\u002FStep-Audio-EditX\u002Fissues\u002F22",[]]