SoulX-Podcast

GitHub
3.3k 429 中等 1 次阅读 昨天Apache-2.0音频
AI 解读 由 AI 自动生成,仅供参考

SoulX-Podcast 是由 Soul AI 团队推出的开源项目,旨在将文本转化为高保真、长篇幅的播客音频。它主要解决了传统语音合成在多人对话场景中自然度不足的问题,能够生成具备多轮互动、多角色切换且听感逼真的对话式语音,同时也胜任常规的单人独白任务。

这款工具特别适合开发者、AI 研究人员以及希望制作个性化音频内容的创作者使用。其核心亮点在于强大的方言支持与副语言控制能力:不仅支持普通话和英语,还能通过零样本克隆技术生成四川话、河南话、粤语等多种中国方言;同时,它能精准模拟笑声、叹息、呼吸、咳嗽等细微的非语言声音,极大提升了合成语音的真实感与情感表现力。项目已提供 Hugging Face 在线演示、WebUI 界面及 Docker 部署方案,并采用 Apache 2.0 协议开源,方便用户快速上手体验或进行二次开发。

使用场景

一家专注于方言文化传承的自媒体团队,正试图将整理好的四川话和粤语民间故事脚本转化为具有沉浸感的多人对话播客。

没有 SoulX-Podcast 时

  • 多角色演绎成本高昂:制作多人对话需聘请多位不同口音的配音演员,协调档期困难且录制成本极高,难以规模化生产。
  • 方言支持严重缺失:主流 TTS 工具仅支持标准普通话或英语,无法自然生成地道的四川话、河南话或粤语,导致内容失去“原汁原味”。
  • 情感表达机械生硬:合成语音缺乏笑声、叹息、咳嗽等副语言特征,听起来像机器人念稿,无法还原真实交谈中的情绪起伏。
  • 长篇幅连贯性差:传统模型在处理长文本多轮对话时,容易出现语调单一或上下文衔接断裂,听众难以长时间保持专注。

使用 SoulX-Podcast 后

  • 零样本克隆实现一人分饰多角:仅需少量参考音频,SoulX-Podcast 即可通过零样本克隆技术,让同一位说话人瞬间切换多种方言角色,大幅降低人力与时间成本。
  • 地道方言无缝切换:工具原生支持四川话、粤语等多种方言,能精准捕捉方言特有的韵律与腔调,让民间故事听起来如同老乡在耳边讲述。
  • 副语言标签注入灵魂:通过在文本中插入 <|laughter|><|sigh|> 等标签,SoulX-Podcast 能自动生成逼真的笑声与呼吸声,使对话充满生活气息和真实感。
  • 长程对话自然流畅:专为长篇幅多轮对话优化,生成的播客在数分钟内始终保持语调自然、逻辑连贯,显著提升了听众的沉浸体验。

SoulX-Podcast 通过对方言多样性与副语言细节的极致掌控,让低成本制作高保真、在地化的多人对话播客成为现实。

运行环境要求

操作系统
  • Linux
GPU

需要 NVIDIA GPU (Docker 运行需 --runtime=nvidia),具体显存和 CUDA 版本未在 README 中明确说明,但提及支持 vLLM 加速

内存

未说明

依赖
notes官方安装指南仅针对 Linux 系统。推荐使用 Conda 创建名为 soulxpodcast 的虚拟环境。模型分为基础版和方言版,需通过 huggingface-cli 或 git clone 下载至 pretrained_models 目录。支持使用 Docker 部署 vLLM 加速版本,运行容器时需挂载宿主机目录并映射端口(如 7860)。
python3.11
requirements.txt 中定义的依赖包
huggingface_hub
vllm (可选,修改版 0.10.1)
git-lfs
SoulX-Podcast hero image

快速开始

SoulX-Podcast

官方推理代码,用于
SoulX-Podcast:面向方言与副语言多样性的逼真长音频播客

SoulX-Podcast_Logo

version HF-model technical report HF-demo Apache-2.0

SoulX-Podcast:面向方言与副语言多样性的逼真长音频播客

概述

SoulX-Podcast专为播客风格的多轮、多说话人对话式语音生成而设计,同时在传统的独白TTS任务中也表现出色。

为了满足多轮口语对话对自然度的更高要求,SoulX-Podcast集成了多种副语言控制功能,并支持普通话和英语,以及四川话、河南话和粤语等多种中国方言,从而实现更加个性化的播客式语音生成。

核心特性 🔥

  • 长音频、多轮、多说话人对话式语音生成:SoulX-Podcast擅长在多轮、多说话人场景下生成高质量、自然流畅的对话式语音。

  • 跨方言零样本语音克隆:SoulX-Podcast支持不同中国方言之间的零样本语音克隆,能够在任何一种受支持的方言中生成高质量、个性化的语音。

  • 副语言控制:SoulX-Podcast支持多种副语言事件,如笑声叹息,以提升合成结果的真实感。

  • 副语言标签:<|laughter|>, <|sigh|>, <|breathing|>, <|coughing|>, <|throat_clearing|> 。


演示示例

零样本播客生成

跨方言零样本播客生成

🎙️ 以下所有生成中使用的提示音频均为普通话。

🎙️ 以下音频生成采用的参考音频全部为普通话。

更多示例,请参阅演示页面

🚀 最新消息

  • [2025-11-03] 支持使用Docker运行vllm。

  • [2025-10-31]Hugging Face Spaces上部署了在线演示。

  • [2025-10-30] 添加了独白TTS的示例脚本,并支持WebUI以便于推理。

  • [2025-10-29] 我们很高兴地宣布,最新的SoulX-Podcast检查点现已在Hugging Face上发布!您可以直接从SoulX-Podcast-hugging-face获取。

  • [2025-10-28] 关于该项目的论文已发表!您可在此阅读:SoulX-Podcast

安装

克隆与安装

以下是Linux系统上的安装说明。

  • 克隆仓库
git clone git@github.com:Soul-AILab/SoulX-Podcast.git
cd SoulX-Podcast
conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip install -r requirements.txt
# 如果您在中国大陆,可以设置镜像源如下:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
  • [可选] VLLM加速(基于vllm 0.10.1的修改版本)
cd runtime/vllm
docker build -t soulxpodcast:v1.0 .
# 将主机目录挂载到容器中的CONTAINER_RESOURCE_PATH,实现主机与容器之间的文件共享。若需访问Web应用,可添加-p LOCAL_PORT:CONTAINER_PORT
# 示例:docker run -it --runtime=nvidia  --name soulxpodcast  -v /mnt/data:/mnt/data -p 7860:7860 soulxpodcast:v1.0
docker run -it --runtime=nvidia  --name soulxpodcast  -v LOCAL_RESOURCE_PATH:CONTAINER_RESOURCE_PATH soulxpodcast:v1.0

模型下载

pip install -U huggingface_hub

# 基础模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B

# 方言模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

通过Python下载:

from huggingface_hub import snapshot_download

# 基础模型
snapshot_download("Soul-AILab/SoulX-Podcast-1.7B", local_dir="pretrained_models/SoulX-Podcast-1.7B") 

# 方言模型
snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect", local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect") 

通过Git克隆下载:

mkdir -p pretrained_models

# 确保已安装Git LFS(https://git-lfs.com)
git lfs install

# 基础模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B

# 方言模型
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect

基本使用

您可以通过以下命令简单运行演示:

# 方言推理
bash example/infer_dialogue.sh

WebUI

您可以通过以下命令简单运行WebUI:

# 基础模型:
python3 webui.py --model_path pretrained_models/SoulX-Podcast-1.7B

# 若想体验方言播客生成,可使用方言模型:
python3 webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

待办事项

  • 添加独白 TTS 的示例脚本。
  • 发布技术报告
  • 开发一个用于便捷推理的 WebUI。
  • Hugging Face Spaces 上部署在线演示。
  • 使用 vLLM 支持对项目进行 Docker 化。
  • 增加流式推理支持。

引用

@misc{SoulXPodcast,
  title        = {SoulX-Podcast: 基于方言与副语言多样性的逼真长音频播客},
  author       = {Hanke Xie 和 Haopeng Lin 和 Wenxiao Cao 和 Dake Guo 和 Wenjie Tian 和 Jun Wu 和 Hanlin Wen 和 Ruixuan Shang 和 Hongmei Liu 和 Zhiqi Jiang 和 Yuepeng Jiang 和 Wenxi Chen 和 Ruiqi Yan 和 Jiale Qian 和 Yichao Yan 和 Shunshun Yin 和 Ming Tao 和 Xie Chen 和 Lei Xie 和 Xinsheng Wang},
  year         = {2025},
  archivePrefix={arXiv},
  url          = {https://arxiv.org/abs/2510.23541}
}

许可证

我们采用 Apache 2.0 许可协议。研究人员和开发者可以自由使用我们的 SoulX-Podcast 项目的代码及模型权重。更多详情请参阅 LICENSE 文件。

致谢

使用声明

本项目提供了一种可用于播客生成的语音合成模型,具备零样本语音克隆能力,旨在服务于学术研究、教育目的以及合法的应用场景,例如个性化语音合成、辅助技术及语言学研究等。

请注意:

请勿将本模型用于未经授权的语音克隆、冒充他人、欺诈、诈骗、深度伪造或其他任何非法活动。

在使用本模型时,请务必遵守当地法律法规,并坚持道德规范。

开发人员对本模型的任何滥用行为不承担任何责任。

我们倡导负责任地开发和使用人工智能,并鼓励社区在 AI 研究与应用中坚守安全与伦理原则。如果您对伦理或潜在的滥用问题有任何疑虑,请随时与我们联系。

联系我们

如果您希望对我们的工作留下反馈,欢迎发送邮件至 hkxie@mail.nwpu.edu.cnlinhaopeng@soulapp.cnlxie@nwpu.edu.cnwangxinsheng@soulapp.cn

也欢迎您加入我们的微信技术交流群,获取最新动态。


微信群二维码

星标历史

星标历史图表

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|5天前
图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|1周前
音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|1周前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|1周前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|1周前
音频

ChatTTS

ChatTTS 是一款专为日常对话场景打造的生成式语音模型,特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音(TTS)技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题,让机器生成的语音听起来更像真人在聊天。 这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化:它不仅支持中英文双语,还能精准控制韵律细节,自动生成自然的 laughter(笑声)、pauses(停顿)和 interjections(插入语),从而实现多说话人的互动对话效果。在韵律表现上,ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成,虽主要用于学术研究与教育目的,但已展现出强大的潜力,并支持流式音频生成与零样本推理,为后续的多情绪控制等进阶功能奠定了基础。

39k|★★★☆☆|6天前
语言模型Agent开发框架