bark

GitHub
39.1k 4.7k 中等 4 次阅读 2天前MIT音频
AI 解读 由 AI 自动生成,仅供参考

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。

它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。

技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

使用场景

一家独立游戏开发团队正在为一款叙事驱动的冒险游戏制作原型,需要快速生成包含多语种对白、笑声、叹息及背景音效的沉浸式音频素材。

没有 bark 时

  • 成本高昂且周期长:团队必须聘请专业配音演员和拟音师,录制、剪辑和混音流程繁琐,严重拖慢原型迭代速度。
  • 情感表达受限:传统文本转语音工具语气生硬,无法自然呈现剧本中要求的“大笑”、“犹豫”或“哭泣”等非语言情感细节。
  • 多语言适配困难:为支持全球发行,需针对不同语言分别寻找配音资源,协调成本高且难以保证角色音色的一致性。
  • 创意试错成本高:每次修改剧本台词或调整情绪基调,都意味着重新预约录音棚和人员,导致开发者不敢轻易尝试新方案。

使用 bark 后

  • 即时生成与迭代:开发者只需输入带有情感标记(如 [laughs])的文本提示,bark 即可在本地瞬间生成高质量音频,将数天的工作缩短至几分钟。
  • 细腻的情感还原:bark 能精准识别并演绎剧本中的非语言沟通信号,生成的笑声和叹息自然逼真,极大提升了角色的真实感。
  • 无缝的多语言支持:利用 bark 的多语言能力,团队用同一套工作流直接生成英、日、法等多语种对白,且保持了统一的音色风格。
  • 低成本创意探索:修改台词或尝试不同情绪演绎变得零成本,策划人员可以实时听取多种版本效果,从而激发更多创意灵感。

bark 让小型团队也能以极低的成本和门槛,创造出具备电影级情感表现力的动态音频内容。

运行环境要求

操作系统
  • 未说明
GPU
  • 非必需(支持 CPU 和 GPU)
  • 若使用 GPU,需 PyTorch 2.0+ 及 CUDA 11.7 或 12.0
  • 完整版模型需约 12GB 显存
  • 可设置环境变量 SUNO_USE_SMALL_MODELS=True 使用小模型版本,仅需约 8GB 显存
内存

未说明

依赖
notes切勿使用 'pip install bark' 安装,需通过 git 地址安装。模型支持多种语言及非语音声音(如笑声、音乐)。首次运行需下载预训练模型。在旧 GPU 或 CPU 上推理速度可能较慢,建议使用小模型版本。
python未说明
torch>=2.0
scipy
transformers>=4.31.0 (可选)
bark hero image

快速开始

注意:Bark 是 Suno 的开源文本转音频模型。如果您正在寻找我们的文本转音乐模型,请访问我们的网页并在Discord上加入我们的社区。

🐶 Bark

Twitter

🔗 示例Suno Studio 等待名单更新使用方法安装常见问题解答



Bark 是由 Suno 开发的基于 Transformer 的文本转音频模型。Bark 能够生成高度逼真的多语言语音以及其他音频内容,包括音乐、背景噪音和简单的音效。该模型还能模拟非语言交流,如笑声、叹息和哭泣。为了支持研究社区,我们提供了预训练模型检查点的访问权限,这些检查点已准备好用于推理,并可用于商业用途。

⚠ 免责声明

Bark 是为研究目的而开发的。它并非传统的文本转语音模型,而是一个完全生成式的文本转音频模型,可能会以意想不到的方式偏离所提供的提示。Suno 对任何生成的输出不承担任何责任。请自行承担风险并负责任地使用。

📖 快速索引

🎧 演示

在 Spaces 中打开 在 Replicate 上打开 在 Colab 中打开

🚀 更新

2023年5月1日

  • ©️ Bark 现在采用 MIT 许可证授权,这意味着它现在可以用于商业用途!

  • ⚡ GPU 上的速度提升 2 倍。CPU 上的速度提升 10 倍。我们还增加了一个较小版本的 Bark 选项,虽然质量稍低,但速度更快。

  • 📕 长文本生成、语音一致性增强以及其他示例现已记录在一个新的 notebooks 部分中。

  • 👥 我们创建了一个 语音提示库。我们希望这个资源能帮助您找到适合自己用例的有用提示!您也可以加入我们的 Discord,社区成员会在 #audio-prompts 频道中积极分享有用的提示。

  • 💬 不断增长的社区支持以及新功能的访问权限:

  • 💾 现在您可以将 Bark 与显存较低(<4GB)的 GPU 一起使用。

2023年4月20日

  • 🐶 Bark 正式发布!

🐍 在 Python 中的使用

🪑 基础知识

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

# 下载并加载所有模型
preload_models()

# 根据文本生成音频
text_prompt = """
     你好,我叫 Sune。嗯——我喜欢披萨。[笑] 
     不过我也对玩井字棋之类的活动很感兴趣。
"""
audio_array = generate_audio(text_prompt)

# 将音频保存到磁盘
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

# 在笔记本中播放文本
音频(音频数组, 采样率=采样速率)

pizza1.webm

🌎 外语


Bark 默认支持多种语言,并能自动从输入文本中识别语言。当遇到代码转换的文本时,Bark 会尝试为每种语言采用其对应的母语口音。目前英语的质量最佳,我们预计随着模型规模的扩大,其他语言的表现也会进一步提升。


text_prompt = """
    中秋节是我最喜欢的节日。我可以休息几天,和朋友及家人一起度过时光。
"""
audio_array = generate_audio(text_prompt)

suno_korean.webm

注:由于Bark会自动从输入文本中识别语言,因此可以使用德语历史提示配合英文文本。这通常会产生带有德语口音的英语音频。

text_prompt = """
    三十年战争(1618-1648)是一场对欧洲影响深远的毁灭性冲突。
    这是历史的开端。如果想听更多,请继续。
"""
audio_array = generate_audio(text_prompt)

suno_german_accent.webm

🎶 音乐

Bark 可以生成各种类型的音频,原则上它并不区分语音和音乐。有时 Bark 会选择将文本生成为音乐,但你可以在歌词周围加入音乐记号来引导它。

text_prompt = """
    ♪ 在丛林里,那雄伟的丛林,今晚狮子在咆哮 ♪
"""
audio_array = generate_audio(text_prompt)

lion.webm

🎤 语音预设

Bark 支持超过100种说话人预设,涵盖所有支持的语言。你可以在这里浏览支持的语音预设库,或在bark/assets/prompts中查看代码。社区成员也经常在Discord上分享预设。

Bark 会尽量匹配给定预设的语气、音调、情感和韵律,但目前不支持自定义语音克隆。该模型还会尝试保留音乐、环境噪音等。

text_prompt = """
    我的声音非常柔和顺滑,今天我要跟大家聊聊普通树懒的锻炼计划。
"""
audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")

sloth.webm

📃 生成更长的音频

默认情况下,generate_audio 对于大约13秒的口语文本效果较好。如需了解如何进行长篇生成,请参阅 👉 Notebook 👈

点击展开示例长篇生成(来自示例笔记本)

dialog.webm

longform_advanced.webm

longform_basic.webm

命令行

python -m bark --text "你好,我叫Suno." --output_filename "example.wav"

💻 安装

‼️ 注意 ‼️ 请勿使用 pip install bark。这会安装一个由Suno未维护的其他软件包。

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark
cd bark && pip install . 

🤗 Transformers 使用

从版本4.31.0开始,Bark 已集成到🤗 Transformers 库中,所需依赖和额外包极少。入门步骤如下:

  1. 首先从主仓库安装🤗 Transformers库
pip install git+https://github.com/huggingface/transformers.git
  1. 运行以下Python代码生成语音样本:
from transformers import AutoProcessor, BarkModel

processor = AutoProcessor.from_pretrained("suno/bark")
model = BarkModel.from_pretrained("suno/bark")

voice_preset = "v2/en_speaker_6"

inputs = processor("你好,我的狗很可爱", voice_preset=voice_preset)

audio_array = model.generate(**inputs)
audio_array = audio_array.cpu().numpy().squeeze()
  1. 可以在ipynb笔记本中直接收听音频样本:
from IPython.display import Audio

sample_rate = model.generation_config.sample_rate
Audio(audio_array, rate=sample_rate)

或者使用第三方库(如scipy)将其保存为.wav文件:

import scipy

sample_rate = model.generation_config.sample_rate
scipy.io.wavfile.write("bark_out.wav", rate=sample_rate, data=audio_array)

有关如何使用🤗 Transformers库进行Bark模型推理的更多信息,请参阅Bark文档或动手实践的Google Colab

🛠️ 硬件与推理速度

Bark 已在CPU和GPU上进行了测试并正常运行(pytorch 2.0+,CUDA 11.7和CUDA 12.0)。

在企业级GPU和PyTorch nightly版本上,Bark 可以实现近实时的音频生成。而在较旧的GPU、默认Colab环境或CPU上,推理时间可能会显著变慢。对于老式GPU或CPU,建议使用较小的模型。详细信息可在我们的教程部分找到。

完整版Bark需要约12GB显存才能同时将所有内容加载到GPU上。若要使用更适合8GB显存的小型模型,请设置环境变量 SUNO_USE_SMALL_MODELS=True

如果你没有可用的硬件,或想体验更大版本的模型,也可以在此处注册以提前访问我们的模型试用平台这里

⚙️ 详情

Bark 是一款完全生成式的文本到音频模型,专为研究和演示目的而开发。它采用类似 GPT 的架构,与 AudioLMVall-E 类似,并使用来自 EnCodec 的量化音频表示。它并非传统的 TTS 模型,而是一个完全生成式的文本到音频模型,能够以意想不到的方式偏离给定的文本内容。与以往的方法不同,输入的文本提示会直接转换为音频,无需中间的音素步骤。因此,它可以泛化到语音之外的任意指令,例如音乐歌词、音效或其他非语音声音。

以下是一些已知的非语音声音示例,但我们每天都在发现更多。如果您在 Discord 上发现了特别有效的模式,请告诉我们!

  • [laughter]
  • [laughs]
  • [sighs]
  • [music]
  • [gasps]
  • [clears throat]
  • ... 表示停顿
  • 表示歌曲歌词
  • 大写字母用于强调某个词
  • [MAN][WOMAN] 分别用于将 Bark 的输出偏向男性或女性说话者

支持的语言

语言 状态
英语 (en)
德语 (de)
西班牙语 (es)
法语 (fr)
印地语 (hi)
意大利语 (it)
日语 (ja)
韩语 (ko)
波兰语 (pl)
葡萄牙语 (pt)
俄语 (ru)
土耳其语 (tr)
中文(简体)(zh)

如需未来支持其他语言,请在此处提交请求 这里,或在 Discord#forums 频道中提出。

🙏 致谢

  • nanoGPT,感谢其简单高效且速度极快的 GPT 样式模型实现。
  • EnCodec,感谢其先进的音频编解码器实现。
  • AudioLM,感谢其相关的训练和推理代码。
  • Vall-EAudioLM 以及其他许多开创性的论文,它们共同促成了 Bark 的开发。

© 许可证

Bark 采用 MIT 许可证授权。

📱 社区

🎧 Suno Studio(抢先体验)

我们正在开发一个用于测试我们模型的平台,其中包括 Bark。

如果您感兴趣,可以在此处注册抢先体验 这里

❓ 常见问题解答

如何指定模型的下载和缓存位置?

  • Bark 使用 Hugging Face 来下载和存储模型。您可以在此处找到更多信息 这里

Bark 的生成结果有时与我的提示不符。这是为什么?

  • Bark 是一种 GPT 样式的模型。因此,它在生成时可能会加入一些创造性的自由发挥,导致输出结果比传统文本到语音方法更具多样性。

Bark 支持哪些语音?

  • Bark 在所有 支持的语言 中支持 100 多种预设语音。您可以在此处浏览语音预设库 这里。社区成员也会在 Discord 上分享预设。此外,Bark 还支持根据输入文本生成独特的随机语音。目前,Bark 尚不支持自定义语音克隆。

为什么输出长度被限制在约 13–14 秒?

  • Bark 是一种 GPT 样式的模型,其架构和上下文窗口经过优化,适合生成大约这个长度的内容。

我需要多少显存?

  • Bark 的完整版本需要大约 12GB 显存才能将所有数据同时加载到 GPU 上。不过,即使是显存较小的显卡,最低至约 2GB,也可以通过一些额外设置来运行。只需在生成前添加以下代码片段:
import os
os.environ["SUNO_OFFLOAD_CPU"] = "True"
os.environ["SUNO_USE_SMALL_MODELS"] = "True"

我生成的音频听起来像 20 世纪 80 年代的电话通话。这是怎么回事?

  • Bark 是从零开始生成音频的,它并不旨在只生成高保真、录音室级别的语音。相反,它的输出可能从完美的语音,到用劣质麦克风录制的棒球比赛现场多人争吵的声音,各种情况都有可能。

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|2天前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|3天前
图像音频语言模型

airi

airi 是一款开源的本地化 AI 伴侣项目,旨在将虚拟角色(如“二次元老婆”或赛博生命)带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力,让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手,airi 允许用户在本地运行,不仅保护了对话隐私,还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天,甚至能直接参与《我的世界》(Minecraft)和《异星工厂》(Factorio)等游戏,实现了从单纯对话到共同娱乐的跨越。 这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者,以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持(涵盖 Web、macOS 和 Windows)以及强大的游戏交互能力,让 AI 不仅能“说”,还能“玩”。通过容器化的灵魂设计,airi 为每个人创造专属数字生命提供了可能,让虚拟陪伴变得更加真实且触手可及。

37.1k|★☆☆☆☆|今天
语言模型音频Agent

MockingBird

MockingBird 是一款开源的实时语音克隆工具,旨在让用户仅需 5 秒的参考音频,即可快速合成任意内容的语音,并实现逼真的音色复刻。它有效解决了传统语音合成技术中数据采集成本高、训练周期长以及难以实时生成的痛点,让个性化语音生成变得触手可及。 这款工具特别适合开发者、AI 研究人员以及对语音技术感兴趣的技术爱好者使用。无论是用于构建交互式语音应用、进行声学模型研究,还是制作创意内容,MockingBird 都能提供强大的支持。普通用户若具备基础的编程环境配置能力,也可通过其提供的 Web 服务或工具箱体验前沿的变声效果。 在技术亮点方面,MockingBird 基于 PyTorch 框架,不仅完美支持中文普通话及多种主流数据集,还实现了跨平台运行,兼容 Windows、Linux 乃至 M1 架构的 macOS。其独特的架构设计允许复用预训练的编码器与声码器,只需微调合成器即可获得出色效果,大幅降低了部署门槛。此外,项目内置了现成的 Web 服务器功能,方便用户通过远程调用快速集成到自己的应用中。尽管原作者已转向云端优化版本,但 MockingBird 作为经典的本地部署方案

36.9k|★★★★☆|3天前
Agent音频图像

LibreChat

LibreChat 是一个开源的多模型 AI 对话平台,界面设计参考了 ChatGPT,但功能更加丰富。它支持同时接入 OpenAI、Anthropic Claude、DeepSeek、Mistral、Google Gemini、AWS Bedrock、Azure 等数十种主流 AI 服务,用户可以在同一个界面中自由切换不同模型,找到最适合自己需求的 AI 助手。 这个工具特别适合需要使用多种 AI 服务的用户。无论是开发者想测试不同模型的编程能力,还是研究人员需要对比各模型的回答质量,或者是企业希望搭建私有的 AI 对话系统,LibreChat 都能满足。它支持自托管部署,数据完全保存在本地,安全性有保障。 LibreChat 的核心亮点包括:内置代码解释器,支持 Python、JavaScript、Go、C++ 等多种语言的安全沙箱执行;支持创建自定义 AI 智能体(Agents),并可通过 MCP 协议扩展工具能力;提供 Web 搜索功能,能实时获取最新信息;支持多用户协作和精细的权限管理。此外,它还兼容 Ollama 等本地模型,方便用户在本地运行 AI。 作为完全开源的

35.2k|★★★☆☆|今天
图像语言模型音频