tensorflow-wavenet

5.4k 1.3k 较难 1 次阅读 5天前MIT音频

AI 解读由 AI 自动生成，仅供参考

tensorflow-wavenet 是 DeepMind 著名 WaveNet 论文的 TensorFlow 开源实现，专注于高质量原始音频波形生成。它主要解决了传统方法难以合成自然、逼真语音及通用音频的难题，在文本转语音（TTS）和音乐生成领域表现卓越。

该工具适合人工智能研究人员、音频算法开发者以及希望深入探索生成式模型的学生使用。由于涉及模型训练与参数配置，使用者需具备一定的 Python 编程基础和深度学习知识，普通用户若无技术背景可能较难直接上手。

其核心技术亮点在于采用了“因果膨胀卷积”（causal dilated convolution）架构。这种设计让网络在预测下一个音频采样点时，仅依赖当前及过去的信息，从而有效捕捉音频信号中长距离的时间依赖关系。此外，tensorflow-wavenet 还支持“全局条件化”功能，允许用户在生成阶段指定说话人 ID 等参数，实现对特定音色或风格的精准模仿。作为一个经典的基准实现，它为理解和发展现代音频生成技术提供了宝贵的代码参考。

使用场景

某语音合成初创团队正致力于为视障用户开发一款能模仿亲人声音的个性化有声书阅读器，需要高质量的原始音频生成能力。

没有 tensorflow-wavenet 时

音质机械生硬：传统参数合成或早期神经网络生成的语音缺乏细节，听起来像机器人，无法还原人类说话时的呼吸感和情感起伏。
难以复刻特定音色：若要模拟特定人物（如用户的家人），需要采集海量数据并重新训练整个声学模型，成本极高且周期长达数周。
波形处理粗糙：现有方案多基于梅尔频谱等中间特征转换，导致最终输出的波形存在伪影，听感不自然，长时间收听易产生疲劳。
长依赖捕捉不足：模型难以记住前文的语调模式，导致生成的长句在韵律和节奏上经常断裂，缺乏连贯性。

使用 tensorflow-wavenet 后

实现高保真原声生成：利用其因果膨胀卷积结构直接生成原始音频波形，输出的语音包含细腻的齿音和呼吸声，逼真度达到人类难以分辨的水平。
低成本个性化定制：通过全局条件化（Global Conditioning）功能，仅需输入说话人 ID 和少量样本，即可在同一模型中灵活切换并模仿上百种不同音色。
端到端波形建模：省去了复杂的中间特征转换步骤，直接对量化后的音频振幅进行建模，彻底消除了转换过程中的音质损失和伪影。
卓越的长程语境感知：深层扩张感受野让模型能“记住”数秒前的音频信息，确保生成的长段落语音在语调和节奏上高度连贯自然。

tensorflow-wavenet 通过将深度生成模型应用于原始音频流，以极低的算力成本实现了从“机械朗读”到“情感复现”的质的飞跃。

运行环境要求

GPU

可选
若需 GPU 加速，需安装 requirements_gpu.txt 中指定的包（通常包含特定版本的 tensorflow-gpu），具体显卡型号、显存及 CUDA 版本未在文中说明

内存

未说明

依赖

notes该工具基于较旧的 TensorFlow 1.0.1 版本，代码测试于 Python 2.7 和 3.5。训练数据需为 .wav 格式音频文件。默认启用快速生成模式以缩短推理时间。全局条件控制（Global Conditioning）功能目前硬编码适配 VCTK 语音数据集的文件命名规则，若使用其他数据集需修改源码。

python2.7, 3.5

tensorflow==1.0.1

librosa

快速开始

DeepMind WaveNet 论文的 TensorFlow 实现

这是一个用于音频生成的 WaveNet 生成式神经网络架构的 TensorFlow 实现。

WaveNet 神经网络架构直接生成原始音频波形，在文本到语音和通用音频生成任务中表现出色（详情请参阅 DeepMind 博客文章和论文）。

该网络通过建模条件概率来生成音频波形中的下一个样本，给定所有之前的样本以及可能的额外参数。

在音频预处理步骤之后，输入波形会被量化到一个固定的整数范围内。然后将这些整数值幅度进行独热编码，从而得到形状为 (num_samples, num_channels) 的张量。

随后，一个仅访问当前及之前输入的卷积层会减少通道维度。

网络的核心由一系列因果扩张层堆叠而成，每一层都是扩张卷积（带孔卷积），它只访问当前及过去的音频样本。

所有层的输出会被合并，并通过一系列密集的后处理层扩展回原始的通道数，最后使用 softmax 函数将输出转换为分类分布。

损失函数是每个时间步的输出与下一个时间步输入之间的交叉熵。

在这个仓库中，网络实现可以在 model.py 中找到。

需求

在运行训练脚本之前，需要先安装 TensorFlow。代码已在 TensorFlow 1.0.1 版本上进行了测试，支持 Python 2.7 和 Python 3.5。

此外，还需要安装 librosa 库，以便读取和写入音频文件。

要安装所需的 Python 包，可以运行以下命令：

pip install -r requirements.txt

如果需要 GPU 支持，可以使用以下命令：

pip install -r requirements_gpu.txt

训练网络

你可以使用任何包含 .wav 文件的数据集。我们目前主要使用的是 VCTK 数据集（约 10.4GB，替代下载地址）。

为了训练网络，执行以下命令：

python train.py --data_dir=corpus

其中 corpus 是一个包含 .wav 文件的目录。脚本会递归地收集该目录下的所有 .wav 文件。

可以通过运行以下命令查看每个训练设置的说明：

python train.py --help

模型参数的配置可以在 wavenet_params.json 中找到。这些参数在训练和生成过程中必须保持一致。

全局条件化

全局条件化是指在训练和生成 .wav 文件时，指定一组互斥类别中的某个类别的标识符来调整模型。对于 VCTK 数据集而言，这个标识符就是说话者的整数 ID，总共有上百个不同的说话者。这使得在生成时必须指定一个说话者 ID，以选择模仿哪位说话者的声音。更多细节请参阅论文或源代码。

使用全局条件化的训练

上述训练说明适用于不使用全局条件化的场景。若要使用全局条件化进行训练，需按如下方式指定命令行参数：

python train.py --data_dir=corpus --gc_channels=32

--gc_channels 参数有两个作用：

告诉 train.py 脚本构建一个包含全局条件化的模型。
指定基于说话者 ID 查找的嵌入向量的大小。

目前，train.py 和 audio_reader.py 中的全局条件化逻辑是针对 VCTK 数据集“硬编码”的，即假设能够从 VCTK 数据集中使用的文件命名模式中确定说话者 ID，但这一部分可以轻松修改。

生成音频

由 @jyegerlehner 基于 VCTK 数据集中的第 280 号说话者生成的示例输出。

你可以使用 generate.py 脚本，利用先前训练好的模型来生成音频。

不使用全局条件化的生成

运行以下命令：

python generate.py --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

其中 logdir/train/2017-02-13T16-45-34/model.ckpt-80000 是之前保存的模型路径（不含扩展名）。--samples 参数指定了你希望生成的音频样本数量（默认情况下，16000 个样本对应 1 秒钟）。

生成的波形可以使用 TensorBoard 播放，也可以通过 --wav_out_path 参数将其保存为 .wav 文件：

python generate.py --wav_out_path=generated.wav --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

如果同时传递 --save_every 参数，系统将会每隔 n 个样本保存一次正在生成的 .wav 文件：

python generate.py --wav_out_path=generated.wav --save_every 2000 --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

默认情况下启用了快速生成功能。它使用了来自 Fast Wavenet 仓库的实现。你可以通过链接了解其工作原理。这可以将生成样本所需的时间缩短至几分钟。

若要禁用快速生成功能，可以运行：

python generate.py --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000 --fast_generation=false

使用全局条件化的生成

按照以下方式从包含全局条件化的模型中生成音频：

python generate.py --samples 16000  --wav_out_path speaker311.wav --gc_channels=32 --gc_cardinality=377 --gc_id=311 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

其中：

--gc_channels=32 指定了嵌入向量的大小为 32，必须与训练时指定的值一致。

--gc_cardinality=377 是必需的，因为 376 是 VCTK 数据集中最大的说话者 ID。如果使用其他数据集，则此值应与训练时由 train.py 脚本自动确定并打印出来的值一致。

--gc_id=311 指定了要为其生成样本的说话者 ID，即第 311 号说话者。

运行测试

安装测试所需的依赖项：

pip install -r requirements_test.txt

然后运行测试套件：

./ci/test.sh

缺失的功能

目前尚不支持对额外信息的局部条件化，因此无法实现上下文堆栈或控制生成的具体语音内容。

tensorflow-wavenet 快速上手指南

本指南基于 DeepMind 的 WaveNet 论文，提供使用 TensorFlow 实现原始音频生成的快速入门流程。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux / macOS / Windows
Python 版本：推荐 Python 2.7 或 Python 3.5（代码已在这些版本上测试通过）
TensorFlow 版本：需安装 TensorFlow 1.0.1 或兼容版本
音频处理库：需要 librosa 用于读写音频文件
硬件建议：如需加速训练，建议使用支持 CUDA 的 GPU

安装步骤

1. 安装依赖包

克隆项目后，进入目录并安装所需的 Python 包。

CPU 版本：

pip install -r requirements.txt

GPU 版本（推荐）： 如果您拥有 NVIDIA GPU 并希望加速训练，请使用以下命令：

pip install -r requirements_gpu.txt

提示：国内用户若下载缓慢，可指定清华或阿里镜像源安装，例如： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 准备数据集

您可以使用任何包含 .wav 文件的音频语料库。官方示例主要使用 VCTK 语料库（约 10.4GB）。将解压后的 .wav 文件放入一个目录中（例如命名为 corpus），脚本会自动递归收集该目录下的所有音频文件。

基本使用

1. 训练模型

使用以下命令开始训练。请将 corpus 替换为您存放 .wav 文件的实际目录路径。

python train.py --data_dir=corpus

查看参数帮助：运行 python train.py --help 可查看所有训练配置选项。
模型配置：网络结构参数定义在 wavenet_params.json 中，训练和生成时必须保持一致。

(可选) 带全局条件控制训练（如区分不同说话人）：

python train.py --data_dir=corpus --gc_channels=32

2. 生成音频

训练完成后，使用保存的检查点文件生成新的音频样本。

基础生成命令：

python generate.py --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

--samples 16000：指定生成的采样点数（默认采样率下约等于 1 秒音频）。
末尾路径：替换为您实际训练生成的模型检查点路径（不含 .index 等后缀）。

保存为 WAV 文件： 添加 --wav_out_path 参数直接将结果保存为文件：

python generate.py --wav_out_path=generated.wav --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

启用快速生成（默认开启）： 该模式大幅缩短生成时间至几分钟内。若需关闭：

python generate.py --samples 16000 logdir/train/2017-02-13T16-45-34/model.ckpt-80000 --fast_generation=false

(可选) 带全局条件控制生成（指定说话人 ID）：

python generate.py --samples 16000 --wav_out_path speaker311.wav --gc_channels=32 --gc_cardinality=377 --gc_id=311 logdir/train/2017-02-13T16-45-34/model.ckpt-80000

--gc_channels：必须与训练时设置的嵌入向量大小一致。
--gc_cardinality：类别总数（如 VCTK 中最大说话人 ID+1）。
--gc_id：指定要模仿的说话人 ID。

常见问题

训练时出现 'TypeError: __int__ returned non-int' 或 CUDA 相关错误怎么办？

遇到 'librosa.util.exceptions.ParameterError: Buffer is too short' 错误如何解决？

如何在中断后恢复训练（断点续训）？

运行 generate.py 生成样本时出现 'Output dimensions must be positive' 错误怎么办？

生成的音频只有噪声或效果不好，可能的原因是什么？

WaveNet 模型可以用于文本生成吗？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

★ 56.4k|★★★☆☆|今天

音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|2天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|3天前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|2天前

音频

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|昨天

语言模型音频Agent