Thorsten-Voice
Thorsten-Voice 是一个专注于德语的高质量开源文本转语音(TTS)项目。它的核心目标是为各类应用提供一个完全免费、支持离线运行且无需担忧复杂授权问题的德语语音解决方案。在该项目出现之前,开发者往往难以找到既免费又具备商业友好许可的高质量德语语音数据,而 Thorsten-Voice 有效填补了这一空白,让德语语音合成技术能够更平等地服务于全球用户。
该项目由志愿者 Thorsten Müller 贡献,他并非专业配音演员,却以开放共享的精神提供了多版本的语音数据集,涵盖中性语调、情感表达以及特定的黑森方言(Hessisch),并持续更新优化音质。这些数据集不仅包含原始音频,还配套了训练好的 TTS 模型,方便直接集成使用。
Thorsten-Voice 特别适合软件开发者、人工智能研究人员以及需要德语语音功能的教育或公益项目团队。对于希望构建离线德语语音助手、有声读物系统或无障碍辅助工具的用户来说,这是一个极具价值的资源。其独特的亮点在于坚持“无许可负担”原则,所有数据均通过 Zenodo 公开并提供 DOI 引用标识,鼓励学术与工业界的自由使用和引用。无论是想快速原型验证的工程师,还是研究多语言语音合成的学者,都能从中受益,共同推动开放知识的发展。
使用场景
一家位于柏林的初创团队正在开发一款面向老年用户的离线德语健康提醒助手,需要自然且免费的语音合成方案。
没有 Thorsten-Voice 时
- 授权风险高:团队不得不使用昂贵的商业德语 TTS API,或冒险使用授权条款模糊的开源模型,面临潜在的法律纠纷。
- 离线部署难:现有高质量方案严重依赖云端连接,导致用户在网络信号差的卧室或地下室无法接收用药提醒。
- 情感表达缺失:通用的机器发音生硬冰冷,缺乏亲和力,难以让老年用户产生信任感,甚至造成听辨困难。
- 方言支持空白:无法覆盖黑森州(Hessisch)等特定地区的方言需求,导致部分本地老年用户理解障碍。
使用 Thorsten-Voice 后
- 零成本合规:直接集成 Thorsten-Voice 的免费数据集与模型,彻底消除版权顾虑,无需支付任何授权费用。
- 纯离线运行:利用其轻量级模型在本地设备完成推理,确保在无网环境下也能稳定播报健康指令。
- 拟人化交互:调用 2021.06 情感数据集,让语音助手用温暖、自然的语调关怀用户,显著提升接受度。
- 地域化适配:灵活切换至 2023.09 黑森方言版本,为特定地区用户提供母语般的亲切聆听体验。
Thorsten-Voice 通过提供高质量、免授权且支持多情感的离线德语语音,让开发者能轻松构建真正普惠且合法的本地化智能应用。
运行环境要求
未说明
未说明

快速开始

托斯滕-语音项目动机 :speaking_head: :speech_balloon:
应该为每个项目提供一种免费使用、离线运行、高质量的德语 TTS 语音,而无需担心许可证问题。
托斯滕·穆勒的个人寄语
我以一个相信人人平等的世界的人的身份贡献自己的声音。无论性别、性取向、宗教、肤色,还是出生地的地理位置如何。在这个全球化的世界里,每个人都受到热烈欢迎,无论身处地球上的哪个角落,开放且自由的知识和教育都应惠及每一个人。:earth_africa: (托斯滕·穆勒)
请记住,我并不是专业的配音演员。我只是一个普通人,将自己的声音分享给全世界。
社交媒体
欢迎在社交媒体上联系我 🤗。
| 平台 | 链接 |
|---|---|
| YouTube | 托斯滕语音的 YouTube 频道 |
| 托斯滕·穆勒的 LinkedIn 个人主页 | |
| 托斯滕语音的 Twitter 账号 | |
| Huggingface | 托斯滕语音的 Huggingface 页面 |
| 托斯滕语音的 Instagram 账号 |
语音数据集
我的所有“托斯滕-语音”数据集都已在 Zenodo 上列出并可供下载。如果您在项目、产品或论文中使用这些数据集,请务必注明出处,我们将不胜感激。
| 数据集 | DOI 链接 |
|---|---|
| 托斯滕-语音数据集 2021.02(中性) | |
| 托斯滕-语音数据集 2021.06(情感) | |
| 托斯滕-语音数据集 2022.10(中性) | |
| 托斯滕-语音数据集 2023.09(黑森方言) |
托斯滕-语音数据集 2021.02(中性)
@dataset{muller_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {托斯滕-语音数据集 2021.02},
month = sep,
year = 2021,
note = {{请将其用于让世界成为全人类更美好的地方。}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
数据集概要
- 由托斯滕·穆勒录制
- 由多米尼克·克罗伊茨优化
- LJSpeech 文件及目录结构
- 22,668 条录制短语(wav 文件)
- 超过 23 小时的纯音频
- 采样率 22,050Hz
- 单声道
- 归一化至 -24dB
- 开头和结尾无静音
- 短语长度(最小/平均/最大):2 / 52 / 180 字符
- 无静音段落
- 平均每秒发音字符数:14
- 带问号的句子:2,780 句
- 带感叹号的句子:1,840 句
数据集演进
如 PDF 文档所述(托斯滕数据集演进),该数据集由三个录音阶段组成。
- 阶段 1:使用廉价 USB 麦克风录制(低质量)
- 阶段 2:使用优质麦克风录制(高质量)
- 阶段 3:使用同一优质麦克风,但录制更长的短语(超过 100 字)(高质量)
如果您想使用数据集的子集,可以在 录音质量 CSV 文件中查看哪些文件属于哪个录音阶段。
托斯滕-语音数据集 2021.06(情感)
@dataset{muller_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {托斯滕-语音数据集 2021.06 情感版},
month = sep,
year = 2021,
note = {{请将其用于让世界成为全人类更美好的地方。}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
所有情感录音均由我自己录制,我尽力去感受并表达那种情感,即使句子的内容并不完全符合该情感。例如,在录制困倦状态的片段时,我尽量用自己即将入睡时的语气来朗读。
数据集概要
- 由托斯滕·穆勒录制
- 由多米尼克·克罗伊茨优化
- 300 句话 × 8 种情感 = 2,400 条录音
- 单声道
- 采样率 22,050Hz
- 归一化至 -24dB
- 开头和结尾无静音
- 句子长度:59–148 字符
Thorsten-Voice 数据集 2022.10(中性)
:speaking_head: 在此处收听该数据集的部分音频录音 这里。
@dataset{muller_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice 数据集 2022.10},
month = nov,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Thorsten-Voice 数据集 2023.09(黑森方言)
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice 数据集 2023.09 黑森方言},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Thorsten-Voice 数据集 全部 44kHz
为庆祝 🎉 Thorsten-Voice 项目五周年(成立于 2019 年 10 月),我在 🤗HuggingFace 上发布了一个包含 所有录音的全采样率(44kHz) 的一体化数据集!当然,依然采用 CC0 许可!
@misc {thorsten_müller_2024,
author = { {Thorsten Müller} },
title = { TV-44kHz-Full(修订版 ff427ec) },
year = 2024,
url = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
doi = { 10.57967/hf/3290 },
publisher = { Hugging Face }
}
TTS 模型
基于这些开源语音数据集,利用人工智能和机器学习技术训练出了多款 TTS(文本转语音)模型。
目前有多个德语模型可供使用,分别由 Coqui AI、Piper TTS 和 Home Assistant 等项目训练并应用。您可以在 Thorsten-Voice 项目官网 上找到更多关于如何使用这些模型的信息、音频样本以及视频教程。
在这里可以收听音频样本并查看安装与使用说明(德语):
此外,Silero、Monatis 和 ZDisket 也使用了我的语音数据集进行模型训练。更多样本和详细信息请参阅 Silero Thorsten-Voice 音频样本。有关更多信息,请参阅此 Colab 笔记本。
ZDisket 开发了一款名为 TensorVox 的工具,用于在 Windows 系统上搭建 TTS 环境,并内置了由 monatis 训练的德语 TTS 模型。感谢他们的分享。您可以在 YouTube 上观看其实际演示。
支持与致谢
如果您喜欢我的语音贡献,并希望支持我推动开源语音技术的发展,欢迎您通过以下方式给予支持:
- 订阅并分享我的 Thorsten-Voice YouTube 频道,同时关注我的社交媒体账号。
- 通过 Ko-Fi 或 GitHub 赞助 为我购买一杯茶。
我要感谢那些在这段旅程中以鼓励的话语、支持和计算资源帮助过我的优秀伙伴们: 感谢 El-Tocino、Eren Gölge、Gras64、Kris Gesling、Nmstoker、Othiele、Repodiac、SanjaESC、Synesthesiam。
特别感谢我亲爱的同事 Sebastian Kraus,他不仅为我提供了录音设备,还负责了标志设计的创意构思;当然也要感谢亲爱的 Dominik (@domcross),他在这一非凡的旅程中始终陪伴在我身边。
“Thorsten-Voice” YouTube 频道
在我的 Thorsten-Voice YouTube 频道 上,您可以找到关于开源语音技术的逐步教程(类似烹饪食谱)。如果您感兴趣,我将非常高兴欢迎您加入我这个充满活力的 YouTube 社区。TS** 在我的小 .
会议演讲者
我非常喜欢谈论开源语音技术未来发展的重要性。如果您希望我作为演讲嘉宾出席某次会议或活动,欢迎通过 Thorsten-Voice 网站联系表单 与我联系。您可以在 Thorsten-Voice 官网 上查看我的部分演讲记录。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
lobehub
LobeHub 是一个致力于工作与生活的智能体协作平台,旨在帮助用户发现、构建并与不断成长的 AI 智能体队友协同工作。它解决了当前 AI 应用中单点交互效率低、难以形成规模化协作网络的问题,将“智能体”确立为工作的基本单元,让人类与 AI 能够共同进化。 无论是开发者、研究人员还是普通用户,都能通过 LobeHub 轻松设计多智能体协作流程。平台支持一键安装 MCP 插件、访问丰富的智能体市场,并提供本地与云端数据库管理、多用户协作等高级功能。其独特的技术亮点包括对多种大模型服务商的兼容、本地大模型部署支持、视觉识别、语音对话(TTS/STT)、文生图以及思维链(Chain of Thought)等能力。此外,LobeHub 还具备分支对话、工件生成、文件上传与知识库集成等实用特性,并适配桌面端、移动端及 PWA 场景,支持自定义主题。 通过开源与自托管选项,LobeHub 为构建人机共演的未来协作网络提供了灵活、可扩展的基础设施。
scikit-learn
scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最