[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Soul-AILab--SoulX-Podcast":3,"tool-Soul-AILab--SoulX-Podcast":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},5908,"ChatTTS","2noise\u002FChatTTS","ChatTTS 是一款专为日常对话场景打造的生成式语音模型，特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音（TTS）技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题，让机器生成的语音听起来更像真人在聊天。\n\n这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化：它不仅支持中英文双语，还能精准控制韵律细节，自动生成自然的 laughter（笑声）、pauses（停顿）和 interjections（插入语），从而实现多说话人的互动对话效果。在韵律表现上，ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成，虽主要用于学术研究与教育目的，但已展现出强大的潜力，并支持流式音频生成与零样本推理，为后续的多情绪控制等进阶功能奠定了基础。",39042,"2026-04-09T11:54:03",[19,17,20,21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":29,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":110,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":22,"created_at":111,"updated_at":112,"faqs":113,"releases":149},7772,"Soul-AILab\u002FSoulX-Podcast","SoulX-Podcast","SoulX-Podcast is an inference codebase by the Soul AI team for generating high-fidelity podcasts from text.","SoulX-Podcast 是由 Soul AI 团队推出的开源项目，旨在将文本转化为高保真、长篇幅的播客音频。它主要解决了传统语音合成在多人对话场景中自然度不足的问题，能够生成具备多轮互动、多角色切换且听感逼真的对话式语音，同时也胜任常规的单人独白任务。\n\n这款工具特别适合开发者、AI 研究人员以及希望制作个性化音频内容的创作者使用。其核心亮点在于强大的方言支持与副语言控制能力：不仅支持普通话和英语，还能通过零样本克隆技术生成四川话、河南话、粤语等多种中国方言；同时，它能精准模拟笑声、叹息、呼吸、咳嗽等细微的非语言声音，极大提升了合成语音的真实感与情感表现力。项目已提供 Hugging Face 在线演示、WebUI 界面及 Docker 部署方案，并采用 Apache 2.0 协议开源，方便用户快速上手体验或进行二次开发。","\u003Cdiv align=\"center\">\n    \u003Ch1>\n    SoulX-Podcast\n    \u003C\u002Fh1>\n    \u003Cp>\n    Official inference code for \u003Cbr>\n    \u003Cb>\u003Cem>SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity\u003C\u002Fem>\u003C\u002Fb>\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003C!-- \u003Cimg src=\"assets\u002FXiaoHongShu_Logo.png\" alt=\"Institution 4\" style=\"width: 102px; height: 48px;\"> -->\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_9739fb0396af.jpg\" alt=\"SoulX-Podcast_Logo\" style=\"width: 200px; height: 68px;\">\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003C\u002Fp>\n    \u003Ca href=\"https:\u002F\u002Fsoul-ailab.github.io\u002Fsoulx-podcast\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Page-lightgrey\" alt=\"version\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSoul-AILab\u002Fsoulx-podcast\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Model-blue' alt=\"HF-model\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.23541\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-Github?label=Technical&color=red' alt=\"technical report\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002Fspaces\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Demo-blue' alt=\"HF-demo\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg\" alt=\"Apache-2.0\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n\u003Cp align=\"center\">\n   \u003Ch1>SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity\u003C\u002Fh1>\n\u003Cp>\n\n##  Overview\nSoulX-Podcast is designed for podcast-style multi-turn, multi-speaker dialogic speech generation, while also achieving superior performance in the conventional monologue TTS task.\n\nTo meet the higher naturalness demands of multi-turn spoken dialogue, SoulX-Podcast integrates a range of paralinguistic controls and supports both Mandarin and English, as well as several Chinese dialects, including Sichuanese, Henanese, and Cantonese, enabling more personalized podcast-style speech generation.\n\n\n## Key Features 🔥\n\n- **Long-form, multi-turn, multi-speaker dialogic speech generation**: SoulX-Podcast excels in generating high-quality, natural-sounding dialogic speech for multi-turn, multi-speaker scenarios.\n\n- **Cross-dialectal, zero-shot voice cloning**: SoulX-Podcast supports zero-shot voice cloning across different Chinese dialects, enabling the generation of high-quality, personalized speech in any of the supported dialects.\n\n- **Paralinguistic controls**: SoulX-Podcast supports a variety of paralinguistic events, as as ***laugher*** and ***sighs*** to enhance the realism of synthesized results.\n- **Paralinguistic tags**: \u003C|laughter|>, \u003C|sigh|>, \u003C|breathing|>, \u003C|coughing|>, \u003C|throat_clearing|> .\n\n\u003Ctable align=\"center\">\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cbr>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_4947f125980b.png\" width=\"80%\" \u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n## Demo Examples\n\n**Zero-Shot Podcast Generation**\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa9d3da2a-aaff-49d0-a3c7-2bd3c0b6d5eb>\n\n\u003C\u002Fdiv>\n\n\n**Cross-Dialectal Zero-Shot Podcast Generation**\n\n🎙️ All prompt audio samples used in the following generations are in Mandarin.\n\n🎙️ 以下音频生成采用的参考音频全部为普通话。\n\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F982d799b-9f91-40a3-ab64-9e165166f788>\n\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd0a59d7b-27c9-4b47-8242-f7630814c1e9>\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa53ff35c-1e2b-42d9-9ef4-279164574646>\n\n\u003C\u002Fdiv>\n\nFor more examples, see [demo page](https:\u002F\u002Fsoul-ailab.github.io\u002Fsoulx-podcast\u002F).\n\n\n## 🚀 News\n- **[2025-11-03]** Support vllm with docker.\n- **[2025-10-31]** Deploy an online demo on [Hugging Face Spaces](https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002Fspaces).\n\n- **[2025-10-30]** Add example scripts for monologue TTS and support a WebUI for easy inference.\n\n- **[2025-10-29]** We are excited to announce that the latest SoulX-Podcast checkpoint is now available on Hugging Face! You can access it directly from [SoulX-Podcast-hugging-face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSoul-AILab\u002Fsoulx-podcast).\n\n- **[2025-10-28]** Our paper on this project has been published! You can read it here: [SoulX-Podcast](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.23541).\n\n## Install\n\n### Clone and Install\nHere are instructions for installing on Linux.\n- Clone the repo\n```\ngit clone git@github.com:Soul-AILab\u002FSoulX-Podcast.git\ncd SoulX-Podcast\n```\n- Install Conda: please see https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html\n- Create Conda env:\n```\nconda create -n soulxpodcast -y python=3.11\nconda activate soulxpodcast\npip install -r requirements.txt\n# If you are in mainland China, you can set the mirror as follows:\npip install -r requirements.txt -i https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F --trusted-host=mirrors.aliyun.com\n```\n- [Optional] VLLM accleration(Modified version from vllm 0.10.1)\n```\ncd runtime\u002Fvllm\ndocker build -t soulxpodcast:v1.0 .\n# Mounts the host directory at LOCAL_RESOURCE_PATH to CONTAINER_RESOURCE_PATH in the container, enabling file sharing between the host system and container. To access the web application, add -p LOCAL_PORT:CONTAINER_PORT\n# example: docker run -it --runtime=nvidia  --name soulxpodcast  -v \u002Fmnt\u002Fdata:\u002Fmnt\u002Fdata -p 7860:7860 soulxpodcast:v1.0\ndocker run -it --runtime=nvidia  --name soulxpodcast  -v LOCAL_RESOURCE_PATH:CONTAINER_RESOURCE_PATH soulxpodcast:v1.0\n```\n\n### Model Download\n\n```sh\npip install -U huggingface_hub\n\n# base model\nhuggingface-cli download --resume-download Soul-AILab\u002FSoulX-Podcast-1.7B --local-dir pretrained_models\u002FSoulX-Podcast-1.7B\n\n# dialectal model\nhuggingface-cli download --resume-download Soul-AILab\u002FSoulX-Podcast-1.7B-dialect --local-dir pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n\nDownload via python:\n```python\nfrom huggingface_hub import snapshot_download\n\n# base model\nsnapshot_download(\"Soul-AILab\u002FSoulX-Podcast-1.7B\", local_dir=\"pretrained_models\u002FSoulX-Podcast-1.7B\") \n\n# dialectal model\nsnapshot_download(\"Soul-AILab\u002FSoulX-Podcast-1.7B-dialect\", local_dir=\"pretrained_models\u002FSoulX-Podcast-1.7B-dialect\") \n\n```\n\nDownload via git clone:\n```sh\nmkdir -p pretrained_models\n\n# Make sure you have git-lfs installed (https:\u002F\u002Fgit-lfs.com)\ngit lfs install\n\n# base model\ngit clone https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002FSoulX-Podcast-1.7B pretrained_models\u002FSoulX-Podcast-1.7B\n\n# dialectal model\ngit clone https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002FSoulX-Podcast-1.7B-dialect pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n\n### Basic Usage\n\nYou can simply run the demo with the following commands:\n``` sh\n# dialectal inference\nbash example\u002Finfer_dialogue.sh\n```\n\n### WebUI\n\nYou can simply run the webui with the following commands:\n``` sh\n# Base Model:\npython3 webui.py --model_path pretrained_models\u002FSoulX-Podcast-1.7B\n\n# If you want to experience dialect podcast generation, use the dialectal model:\npython3 webui.py --model_path pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n\n\n```\n\n\n## TODOs\n- [x] Add example scripts for monologue TTS.\n- [x] Publish the [technical report](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.23541).\n- [x] Develop a WebUI for easy inference.\n- [x] Deploy an online demo on [Hugging Face Spaces](https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002Fspaces).\n- [x] Dockerize the project with vLLM support.\n- [ ] Add support for streaming inference.\n\n## Citation\n\n```bibtex\n@misc{SoulXPodcast,\n  title        = {SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity},\n  author       = {Hanke Xie and Haopeng Lin and Wenxiao Cao and Dake Guo and Wenjie Tian and Jun Wu and Hanlin Wen and Ruixuan Shang and Hongmei Liu and Zhiqi Jiang and Yuepeng Jiang and Wenxi Chen and Ruiqi Yan and Jiale Qian and Yichao Yan and Shunshun Yin and Ming Tao and Xie Chen and Lei Xie and Xinsheng Wang},\n  year         = {2025},\n  archivePrefix={arXiv},\n  url          = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.23541}\n}\n\n```\n\n## License\n\nWe use the Apache 2.0 license. Researchers and developers are free to use the codes and model weights of our SoulX-Podcast. Check the license at [LICENSE](LICENSE) for more details.\n\n\n## Acknowledge\n- This repo benefits from [FlashCosyVoice](https:\u002F\u002Fgithub.com\u002Fxingchensong\u002FFlashCosyVoice\u002Ftree\u002Fmain)\n\n\n##  Usage Disclaimer\nThis project provides a speech synthesis model for podcast generation capable of zero-shot voice cloning, intended for academic research, educational purposes, and legitimate applications, such as personalized speech synthesis, assistive technologies, and linguistic research.\n\nPlease note:\n\nDo not use this model for unauthorized voice cloning, impersonation, fraud, scams, deepfakes, or any illegal activities.\n\nEnsure compliance with local laws and regulations when using this model and uphold ethical standards.\n\nThe developers assume no liability for any misuse of this model.\n\nWe advocate for the responsible development and use of AI and encourage the community to uphold safety and ethical principles in AI research and applications. If you have any concerns regarding ethics or misuse, please contact us.\n\n## Contact Us\nIf you are interested in leaving a message to our work, feel free to email hkxie@mail.nwpu.edu.cn or linhaopeng@soulapp.cn or lxie@nwpu.edu.cn or wangxinsheng@soulapp.cn\n\nYou’re welcome to join our WeChat group for technical discussions, updates.\n\u003Cp align=\"center\">\n  \u003C!-- \u003Cem>Due to group limits, if you can't scan the QR code, please add my WeChat for group access  -->\n      \u003C!-- : \u003Cstrong>Tiamo James\u003C\u002Fstrong>\u003C\u002Fem> -->\n  \u003Cbr>\n  \u003Cspan style=\"display: inline-block; margin-right: 10px;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_d240cd7bd48e.jpg\" width=\"300\" alt=\"WeChat Group QR Code\"\u002F>\n  \u003C\u002Fspan>\n  \u003C!-- \u003Cspan style=\"display: inline-block;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_4a3460a6fc4c.jpg\" width=\"300\" alt=\"WeChat QR Code\"\u002F>\n  \u003C\u002Fspan> -->\n\u003C\u002Fp>\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_8a2044ea9f32.png)](https:\u002F\u002Fwww.star-history.com\u002F#Soul-AILab\u002FSoulX-Podcast&type=date&legend=top-left)\n","\u003Cdiv align=\"center\">\n    \u003Ch1>\n    SoulX-Podcast\n    \u003C\u002Fh1>\n    \u003Cp>\n    官方推理代码，用于\u003Cbr>\n    \u003Cb>\u003Cem>SoulX-Podcast：面向方言与副语言多样性的逼真长音频播客\u003C\u002Fem>\u003C\u002Fb>\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003C!-- \u003Cimg src=\"assets\u002FXiaoHongShu_Logo.png\" alt=\"Institution 4\" style=\"width: 102px; height: 48px;\"> -->\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_9739fb0396af.jpg\" alt=\"SoulX-Podcast_Logo\" style=\"width: 200px; height: 68px;\">\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003C\u002Fp>\n    \u003Ca href=\"https:\u002F\u002Fsoul-ailab.github.io\u002Fsoulx-podcast\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDemo-Page-lightgrey\" alt=\"version\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSoul-AILab\u002Fsoulx-podcast\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Model-blue' alt=\"HF-model\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.23541\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FReport-Github?label=Technical&color=red' alt=\"technical report\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002Fspaces\">\u003Cimg src='https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20 Face-Demo-blue' alt=\"HF-demo\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg\" alt=\"Apache-2.0\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n\u003Cp align=\"center\">\n   \u003Ch1>SoulX-Podcast：面向方言与副语言多样性的逼真长音频播客\u003C\u002Fh1>\n\u003Cp>\n\n##  概述\nSoulX-Podcast专为播客风格的多轮、多说话人对话式语音生成而设计，同时在传统的独白TTS任务中也表现出色。\n\n为了满足多轮口语对话对自然度的更高要求，SoulX-Podcast集成了多种副语言控制功能，并支持普通话和英语，以及四川话、河南话和粤语等多种中国方言，从而实现更加个性化的播客式语音生成。\n\n\n## 核心特性 🔥\n\n- **长音频、多轮、多说话人对话式语音生成**：SoulX-Podcast擅长在多轮、多说话人场景下生成高质量、自然流畅的对话式语音。\n\n- **跨方言零样本语音克隆**：SoulX-Podcast支持不同中国方言之间的零样本语音克隆，能够在任何一种受支持的方言中生成高质量、个性化的语音。\n\n- **副语言控制**：SoulX-Podcast支持多种副语言事件，如***笑声***和***叹息***，以提升合成结果的真实感。\n- **副语言标签**：\u003C|laughter|>, \u003C|sigh|>, \u003C|breathing|>, \u003C|coughing|>, \u003C|throat_clearing|> 。\n\n\u003Ctable align=\"center\">\n  \u003Ctr>\n    \u003Ctd align=\"center\">\u003Cbr>\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_4947f125980b.png\" width=\"80%\" \u002F>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n## 演示示例\n\n**零样本播客生成**\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa9d3da2a-aaff-49d0-a3c7-2bd3c0b6d5eb>\n\n\u003C\u002Fdiv>\n\n\n**跨方言零样本播客生成**\n\n🎙️ 以下所有生成中使用的提示音频均为普通话。\n\n🎙️ 以下音频生成采用的参考音频全部为普通话。\n\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F982d799b-9f91-40a3-ab64-9e165166f788>\n\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd0a59d7b-27c9-4b47-8242-f7630814c1e9>\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\">\n\n\u003Chttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa53ff35c-1e2b-42d9-9ef4-279164574646>\n\n\u003C\u002Fdiv>\n\n更多示例，请参阅[演示页面](https:\u002F\u002Fsoul-ailab.github.io\u002Fsoulx-podcast\u002F)。\n\n\n## 🚀 最新消息\n- **[2025-11-03]** 支持使用Docker运行vllm。\n- **[2025-10-31]** 在[Hugging Face Spaces](https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002Fspaces)上部署了在线演示。\n\n- **[2025-10-30]** 添加了独白TTS的示例脚本，并支持WebUI以便于推理。\n\n- **[2025-10-29]** 我们很高兴地宣布，最新的SoulX-Podcast检查点现已在Hugging Face上发布！您可以直接从[SoulX-Podcast-hugging-face](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FSoul-AILab\u002Fsoulx-podcast)获取。\n\n- **[2025-10-28]** 关于该项目的论文已发表！您可在此阅读：[SoulX-Podcast](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.23541)。\n\n## 安装\n\n### 克隆与安装\n以下是Linux系统上的安装说明。\n- 克隆仓库\n```\ngit clone git@github.com:Soul-AILab\u002FSoulX-Podcast.git\ncd SoulX-Podcast\n```\n- 安装Conda：请参阅https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html\n- 创建Conda环境：\n```\nconda create -n soulxpodcast -y python=3.11\nconda activate soulxpodcast\npip install -r requirements.txt\n# 如果您在中国大陆，可以设置镜像源如下：\npip install -r requirements.txt -i https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F --trusted-host=mirrors.aliyun.com\n```\n- [可选] VLLM加速（基于vllm 0.10.1的修改版本）\n```\ncd runtime\u002Fvllm\ndocker build -t soulxpodcast:v1.0 .\n# 将主机目录挂载到容器中的CONTAINER_RESOURCE_PATH，实现主机与容器之间的文件共享。若需访问Web应用，可添加-p LOCAL_PORT:CONTAINER_PORT\n# 示例：docker run -it --runtime=nvidia  --name soulxpodcast  -v \u002Fmnt\u002Fdata:\u002Fmnt\u002Fdata -p 7860:7860 soulxpodcast:v1.0\ndocker run -it --runtime=nvidia  --name soulxpodcast  -v LOCAL_RESOURCE_PATH:CONTAINER_RESOURCE_PATH soulxpodcast:v1.0\n```\n\n### 模型下载\n\n```sh\npip install -U huggingface_hub\n\n# 基础模型\nhuggingface-cli download --resume-download Soul-AILab\u002FSoulX-Podcast-1.7B --local-dir pretrained_models\u002FSoulX-Podcast-1.7B\n\n# 方言模型\nhuggingface-cli download --resume-download Soul-AILab\u002FSoulX-Podcast-1.7B-dialect --local-dir pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n\n通过Python下载：\n```python\nfrom huggingface_hub import snapshot_download\n\n# 基础模型\nsnapshot_download(\"Soul-AILab\u002FSoulX-Podcast-1.7B\", local_dir=\"pretrained_models\u002FSoulX-Podcast-1.7B\") \n\n# 方言模型\nsnapshot_download(\"Soul-AILab\u002FSoulX-Podcast-1.7B-dialect\", local_dir=\"pretrained_models\u002FSoulX-Podcast-1.7B-dialect\") \n\n```\n\n通过Git克隆下载：\n```sh\nmkdir -p pretrained_models\n\n# 确保已安装Git LFS（https:\u002F\u002Fgit-lfs.com）\ngit lfs install\n\n# 基础模型\ngit clone https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002FSoulX-Podcast-1.7B pretrained_models\u002FSoulX-Podcast-1.7B\n\n# 方言模型\ngit clone https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002FSoulX-Podcast-1.7B-dialect pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n\n### 基本使用\n\n您可以通过以下命令简单运行演示：\n``` sh\n# 方言推理\nbash example\u002Finfer_dialogue.sh\n```\n\n### WebUI\n\n您可以通过以下命令简单运行WebUI：\n``` sh\n# 基础模型：\npython3 webui.py --model_path pretrained_models\u002FSoulX-Podcast-1.7B\n\n# 若想体验方言播客生成，可使用方言模型：\npython3 webui.py --model_path pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n\n\n```\n\n## 待办事项\n- [x] 添加独白 TTS 的示例脚本。\n- [x] 发布[技术报告](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.23541)。\n- [x] 开发一个用于便捷推理的 WebUI。\n- [x] 在[Hugging Face Spaces](https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002Fspaces) 上部署在线演示。\n- [x] 使用 vLLM 支持对项目进行 Docker 化。\n- [ ] 增加流式推理支持。\n\n## 引用\n\n```bibtex\n@misc{SoulXPodcast,\n  title        = {SoulX-Podcast: 基于方言与副语言多样性的逼真长音频播客},\n  author       = {Hanke Xie 和 Haopeng Lin 和 Wenxiao Cao 和 Dake Guo 和 Wenjie Tian 和 Jun Wu 和 Hanlin Wen 和 Ruixuan Shang 和 Hongmei Liu 和 Zhiqi Jiang 和 Yuepeng Jiang 和 Wenxi Chen 和 Ruiqi Yan 和 Jiale Qian 和 Yichao Yan 和 Shunshun Yin 和 Ming Tao 和 Xie Chen 和 Lei Xie 和 Xinsheng Wang},\n  year         = {2025},\n  archivePrefix={arXiv},\n  url          = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.23541}\n}\n\n```\n\n## 许可证\n\n我们采用 Apache 2.0 许可协议。研究人员和开发者可以自由使用我们的 SoulX-Podcast 项目的代码及模型权重。更多详情请参阅 [LICENSE](LICENSE) 文件。\n\n## 致谢\n- 本仓库受益于 [FlashCosyVoice](https:\u002F\u002Fgithub.com\u002Fxingchensong\u002FFlashCosyVoice\u002Ftree\u002Fmain) 项目。\n\n## 使用声明\n本项目提供了一种可用于播客生成的语音合成模型，具备零样本语音克隆能力，旨在服务于学术研究、教育目的以及合法的应用场景，例如个性化语音合成、辅助技术及语言学研究等。\n\n请注意：\n\n请勿将本模型用于未经授权的语音克隆、冒充他人、欺诈、诈骗、深度伪造或其他任何非法活动。\n\n在使用本模型时，请务必遵守当地法律法规，并坚持道德规范。\n\n开发人员对本模型的任何滥用行为不承担任何责任。\n\n我们倡导负责任地开发和使用人工智能，并鼓励社区在 AI 研究与应用中坚守安全与伦理原则。如果您对伦理或潜在的滥用问题有任何疑虑，请随时与我们联系。\n\n## 联系我们\n如果您希望对我们的工作留下反馈，欢迎发送邮件至 hkxie@mail.nwpu.edu.cn 或 linhaopeng@soulapp.cn 或 lxie@nwpu.edu.cn 或 wangxinsheng@soulapp.cn。\n\n也欢迎您加入我们的微信技术交流群，获取最新动态。\n\u003Cp align=\"center\">\n  \u003C!-- \u003Cem>由于群人数限制，若无法扫描二维码，请添加我的微信以进入群聊 -->\n      \u003C!-- : \u003Cstrong>Tiamo James\u003C\u002Fstrong>\u003C\u002Fem> -->\n  \u003Cbr>\n  \u003Cspan style=\"display: inline-block; margin-right: 10px;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_d240cd7bd48e.jpg\" width=\"300\" alt=\"微信群二维码\"\u002F>\n  \u003C\u002Fspan>\n  \u003C!-- \u003Cspan style=\"display: inline-block;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_4a3460a6fc4c.jpg\" width=\"300\" alt=\"微信二维码\"\u002F>\n  \u003C\u002Fspan> -->\n\u003C\u002Fp>\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_readme_8a2044ea9f32.png)](https:\u002F\u002Fwww.star-history.com\u002F#Soul-AILab\u002FSoulX-Podcast&type=date&legend=top-left)","# SoulX-Podcast 快速上手指南\n\nSoulX-Podcast 是一款专为播客风格设计的多轮、多说话人对话语音生成模型，支持普通话、英语及多种中国方言（如四川话、河南话、粤语），并具备零样本声音克隆和副语言控制（如笑声、叹息）功能。\n\n## 1. 环境准备\n\n*   **操作系统**: Linux\n*   **Python 版本**: 3.11\n*   **依赖管理**: Conda (推荐)\n*   **硬件要求**: 推荐使用 NVIDIA GPU 进行推理加速（若使用 Docker + vLLM 方案需安装 NVIDIA Container Toolkit）\n\n请确保已安装 [Conda](https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html) 和 `git`。\n\n## 2. 安装步骤\n\n### 2.1 克隆代码库\n```bash\ngit clone git@github.com:Soul-AILab\u002FSoulX-Podcast.git\ncd SoulX-Podcast\n```\n\n### 2.2 创建并激活虚拟环境\n```bash\nconda create -n soulxpodcast -y python=3.11\nconda activate soulxpodcast\n```\n\n### 2.3 安装依赖\n国内用户建议使用阿里云镜像源以加速下载：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F --trusted-host=mirrors.aliyun.com\n```\n\n### 2.4 下载模型权重\n你需要下载基础模型或方言模型。以下提供三种下载方式，任选其一即可。\n\n**方式 A：使用 huggingface-cli (推荐)**\n```bash\npip install -U huggingface_hub\n\n# 下载基础模型\nhuggingface-cli download --resume-download Soul-AILab\u002FSoulX-Podcast-1.7B --local-dir pretrained_models\u002FSoulX-Podcast-1.7B\n\n# 下载方言模型 (如需生成方言播客)\nhuggingface-cli download --resume-download Soul-AILab\u002FSoulX-Podcast-1.7B-dialect --local-dir pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n**方式 B：使用 Python 脚本**\n```python\nfrom huggingface_hub import snapshot_download\n\n# 基础模型\nsnapshot_download(\"Soul-AILab\u002FSoulX-Podcast-1.7B\", local_dir=\"pretrained_models\u002FSoulX-Podcast-1.7B\") \n\n# 方言模型\nsnapshot_download(\"Soul-AILab\u002FSoulX-Podcast-1.7B-dialect\", local_dir=\"pretrained_models\u002FSoulX-Podcast-1.7B-dialect\") \n```\n\n**方式 C：使用 Git Clone (需预先安装 git-lfs)**\n```bash\nmkdir -p pretrained_models\ngit lfs install\n\n# 基础模型\ngit clone https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002FSoulX-Podcast-1.7B pretrained_models\u002FSoulX-Podcast-1.7B\n\n# 方言模型\ngit clone https:\u002F\u002Fhuggingface.co\u002FSoul-AILab\u002FSoulX-Podcast-1.7B-dialect pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n> **可选：Docker + vLLM 加速部署**\n> 如果需要高性能推理，可构建 Docker 镜像：\n> ```bash\n> cd runtime\u002Fvllm\n> docker build -t soulxpodcast:v1.0 .\n> # 运行容器示例 (挂载数据目录并映射端口)\n> docker run -it --runtime=nvidia --name soulxpodcast -v \u002Fmnt\u002Fdata:\u002Fmnt\u002Fdata -p 7860:7860 soulxpodcast:v1.0\n> ```\n\n## 3. 基本使用\n\n### 3.1 命令行推理 (脚本示例)\n运行官方提供的对话生成示例脚本（默认使用方言模型配置，具体取决于脚本内容）：\n```bash\nbash example\u002Finfer_dialogue.sh\n```\n\n### 3.2 WebUI 可视化界面 (推荐)\n启动 Web 界面可进行更灵活的交互式生成。\n\n**启动基础模型 (普通话\u002F英语):**\n```bash\npython3 webui.py --model_path pretrained_models\u002FSoulX-Podcast-1.7B\n```\n\n**启动方言模型 (支持四川话、河南话、粤语等):**\n```bash\npython3 webui.py --model_path pretrained_models\u002FSoulX-Podcast-1.7B-dialect\n```\n\n启动后，在浏览器访问显示的本地地址（通常为 `http:\u002F\u002F127.0.0.1:7860`）即可使用。\n\n### 3.3 副语言标签使用提示\n在输入文本中插入以下标签可增强生成的真实感：\n*   `\u003C|laughter|>` (笑声)\n*   `\u003C|sigh|>` (叹息)\n*   `\u003C|breathing|>` (呼吸)\n*   `\u003C|coughing|>` (咳嗽)\n*   `\u003C|throat_clearing|>` (清嗓子)","一家专注于方言文化传承的自媒体团队，正试图将整理好的四川话和粤语民间故事脚本转化为具有沉浸感的多人对话播客。\n\n### 没有 SoulX-Podcast 时\n- **多角色演绎成本高昂**：制作多人对话需聘请多位不同口音的配音演员，协调档期困难且录制成本极高，难以规模化生产。\n- **方言支持严重缺失**：主流 TTS 工具仅支持标准普通话或英语，无法自然生成地道的四川话、河南话或粤语，导致内容失去“原汁原味”。\n- **情感表达机械生硬**：合成语音缺乏笑声、叹息、咳嗽等副语言特征，听起来像机器人念稿，无法还原真实交谈中的情绪起伏。\n- **长篇幅连贯性差**：传统模型在处理长文本多轮对话时，容易出现语调单一或上下文衔接断裂，听众难以长时间保持专注。\n\n### 使用 SoulX-Podcast 后\n- **零样本克隆实现一人分饰多角**：仅需少量参考音频，SoulX-Podcast 即可通过零样本克隆技术，让同一位说话人瞬间切换多种方言角色，大幅降低人力与时间成本。\n- **地道方言无缝切换**：工具原生支持四川话、粤语等多种方言，能精准捕捉方言特有的韵律与腔调，让民间故事听起来如同老乡在耳边讲述。\n- **副语言标签注入灵魂**：通过在文本中插入 `\u003C|laughter|>`、`\u003C|sigh|>` 等标签，SoulX-Podcast 能自动生成逼真的笑声与呼吸声，使对话充满生活气息和真实感。\n- **长程对话自然流畅**：专为长篇幅多轮对话优化，生成的播客在数分钟内始终保持语调自然、逻辑连贯，显著提升了听众的沉浸体验。\n\nSoulX-Podcast 通过对方言多样性与副语言细节的极致掌控，让低成本制作高保真、在地化的多人对话播客成为现实。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSoul-AILab_SoulX-Podcast_9739fb03.jpg","Soul-AILab","Soul AI Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSoul-AILab_5d8f2931.jpg","",null,"https:\u002F\u002Fwww.soulapp.cn\u002FsoulX","https:\u002F\u002Fgithub.com\u002FSoul-AILab",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",98.8,{"name":88,"color":89,"percentage":90},"Shell","#89e051",0.7,{"name":92,"color":93,"percentage":94},"Dockerfile","#384d54",0.5,3287,429,"2026-04-14T11:27:53","Apache-2.0","Linux","需要 NVIDIA GPU (Docker 运行需 --runtime=nvidia)，具体显存和 CUDA 版本未在 README 中明确说明，但提及支持 vLLM 加速","未说明",{"notes":103,"python":104,"dependencies":105},"官方安装指南仅针对 Linux 系统。推荐使用 Conda 创建名为 soulxpodcast 的虚拟环境。模型分为基础版和方言版，需通过 huggingface-cli 或 git clone 下载至 pretrained_models 目录。支持使用 Docker 部署 vLLM 加速版本，运行容器时需挂载宿主机目录并映射端口（如 7860）。","3.11",[106,107,108,109],"requirements.txt 中定义的依赖包","huggingface_hub","vllm (可选，修改版 0.10.1)","git-lfs",[21],"2026-03-27T02:49:30.150509","2026-04-16T01:45:05.064734",[114,119,124,129,134,139,144],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},34803,"支持 CPU 推理吗？","支持。默认配置为 CUDA，但可以通过修改源码使用 CPU 进行推理。不过请注意，CPU 推理速度较慢，官方暂不推荐在生产环境中使用 CPU 模式。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F38",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},34804,"如何使用 vLLM 进行推理及解决报错问题？","使用 vLLM（如 0.10.2 版本）推理时，若遇到报错，需要注释掉 `SamplingParams` 类中的 `use_ras`、`win_size` 和 `tau_r` 参数。修改后虽然可以正常推理且速度约为 Hugging Face 模式的一半，但显存占用会非常大（例如在 24G 显存卡上可能占用 21G+）。建议根据实际显存调整 `gpu_memory_utilization` 或使用 `--kv-cache-memory` 参数进行优化。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F26",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},34805,"生成的对话语音衔接过快，如何增加停顿？","项目已增强对话合成功能，支持内联停顿标记来控制语速和停顿时间。您可以在文本中插入 `\u003C|pause:MS|>` 标签（其中 MS 代表毫秒数）来增加停顿。此外，对话人之间也增加了停顿时间控制，生成的文本支持换行以优化听感。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F16",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},34806,"Long Form Podcast 是一次性合成还是分段拼接的？显存占用多少？","是连续合成的，并非分段拼接。为了解决多轮对话和超长合成问题，模型采用了两种策略：1) 随着合成进行丢弃较早的历史信息；2) 训练过程中随机丢弃历史对话的语音 token 以保证长上下文能力。推理时的显存占用大约在 5-6GB 左右。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F1",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},34807,"为什么有时合成出来的声音像在唱歌？","这是模型的自发行为，属于一种“幻觉”现象。目前暂无特定的开关设置可以完全避免，通常与输入文本的内容或模型的随机采样有关。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F41",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},34808,"如何控制方言（如粤语），为什么方言会随文本变化？","方言控制存在通过标签和文本耦合两种情况。若要强制指定方言，请使用内联标签，例如 `\u003C|Yue|>` 来表示粤语。如果不加标签，模型可能会根据文本内容（如出现“阿妈”等词汇）自动判断并切换方言，导致混合发音。后续版本会对这一耦合情况进行优化。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F34",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},34809,"支持哪些副语言（情绪\u002F动作）标记？","支持的副语言标记包括：`\u003C|laughter|>` (笑声), `\u003C|sigh|>` (叹气), `\u003C|breathing|>` (呼吸), `\u003C|coughing|>` (咳嗽), `\u003C|throat_clearing|>` (清嗓子)。完整的标记列表也可以参考 Hugging Face 仓库中的 `tokenizer_config.json` 文件。","https:\u002F\u002Fgithub.com\u002FSoul-AILab\u002FSoulX-Podcast\u002Fissues\u002F7",[]]