bark
Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。
它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。
技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。
使用场景
一家独立游戏开发团队正在为一款叙事驱动的冒险游戏制作原型,需要快速生成包含多语种对白、笑声、叹息及背景音效的沉浸式音频素材。
没有 bark 时
- 成本高昂且周期长:团队必须聘请专业配音演员和拟音师,录制、剪辑和混音流程繁琐,严重拖慢原型迭代速度。
- 情感表达受限:传统文本转语音工具语气生硬,无法自然呈现剧本中要求的“大笑”、“犹豫”或“哭泣”等非语言情感细节。
- 多语言适配困难:为支持全球发行,需针对不同语言分别寻找配音资源,协调成本高且难以保证角色音色的一致性。
- 创意试错成本高:每次修改剧本台词或调整情绪基调,都意味着重新预约录音棚和人员,导致开发者不敢轻易尝试新方案。
使用 bark 后
- 即时生成与迭代:开发者只需输入带有情感标记(如
[laughs])的文本提示,bark 即可在本地瞬间生成高质量音频,将数天的工作缩短至几分钟。 - 细腻的情感还原:bark 能精准识别并演绎剧本中的非语言沟通信号,生成的笑声和叹息自然逼真,极大提升了角色的真实感。
- 无缝的多语言支持:利用 bark 的多语言能力,团队用同一套工作流直接生成英、日、法等多语种对白,且保持了统一的音色风格。
- 低成本创意探索:修改台词或尝试不同情绪演绎变得零成本,策划人员可以实时听取多种版本效果,从而激发更多创意灵感。
bark 让小型团队也能以极低的成本和门槛,创造出具备电影级情感表现力的动态音频内容。
运行环境要求
- 未说明
- 非必需(支持 CPU 和 GPU)
- 若使用 GPU,需 PyTorch 2.0+ 及 CUDA 11.7 或 12.0
- 完整版模型需约 12GB 显存
- 可设置环境变量 SUNO_USE_SMALL_MODELS=True 使用小模型版本,仅需约 8GB 显存
未说明

快速开始
注意:Bark 是 Suno 的开源文本转音频模型。如果您正在寻找我们的文本转音乐模型,请访问我们的网页并在Discord上加入我们的社区。
🐶 Bark
Bark 是由 Suno 开发的基于 Transformer 的文本转音频模型。Bark 能够生成高度逼真的多语言语音以及其他音频内容,包括音乐、背景噪音和简单的音效。该模型还能模拟非语言交流,如笑声、叹息和哭泣。为了支持研究社区,我们提供了预训练模型检查点的访问权限,这些检查点已准备好用于推理,并可用于商业用途。
⚠ 免责声明
Bark 是为研究目的而开发的。它并非传统的文本转语音模型,而是一个完全生成式的文本转音频模型,可能会以意想不到的方式偏离所提供的提示。Suno 对任何生成的输出不承担任何责任。请自行承担风险并负责任地使用。
📖 快速索引
🎧 演示
🚀 更新
2023年5月1日
©️ Bark 现在采用 MIT 许可证授权,这意味着它现在可以用于商业用途!
⚡ GPU 上的速度提升 2 倍。CPU 上的速度提升 10 倍。我们还增加了一个较小版本的 Bark 选项,虽然质量稍低,但速度更快。
👥 我们创建了一个 语音提示库。我们希望这个资源能帮助您找到适合自己用例的有用提示!您也可以加入我们的 Discord,社区成员会在 #audio-prompts 频道中积极分享有用的提示。
💬 不断增长的社区支持以及新功能的访问权限:
💾 现在您可以将 Bark 与显存较低(<4GB)的 GPU 一起使用。
2023年4月20日
- 🐶 Bark 正式发布!
🐍 在 Python 中的使用
🪑 基础知识
from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio
# 下载并加载所有模型
preload_models()
# 根据文本生成音频
text_prompt = """
你好,我叫 Sune。嗯——我喜欢披萨。[笑]
不过我也对玩井字棋之类的活动很感兴趣。
"""
audio_array = generate_audio(text_prompt)
# 将音频保存到磁盘
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
# 在笔记本中播放文本
音频(音频数组, 采样率=采样速率)
🌎 外语
Bark 默认支持多种语言,并能自动从输入文本中识别语言。当遇到代码转换的文本时,Bark 会尝试为每种语言采用其对应的母语口音。目前英语的质量最佳,我们预计随着模型规模的扩大,其他语言的表现也会进一步提升。
text_prompt = """
中秋节是我最喜欢的节日。我可以休息几天,和朋友及家人一起度过时光。
"""
audio_array = generate_audio(text_prompt)
注:由于Bark会自动从输入文本中识别语言,因此可以使用德语历史提示配合英文文本。这通常会产生带有德语口音的英语音频。
text_prompt = """
三十年战争(1618-1648)是一场对欧洲影响深远的毁灭性冲突。
这是历史的开端。如果想听更多,请继续。
"""
audio_array = generate_audio(text_prompt)
🎶 音乐
Bark 可以生成各种类型的音频,原则上它并不区分语音和音乐。有时 Bark 会选择将文本生成为音乐,但你可以在歌词周围加入音乐记号来引导它。
text_prompt = """
♪ 在丛林里,那雄伟的丛林,今晚狮子在咆哮 ♪
"""
audio_array = generate_audio(text_prompt)
🎤 语音预设
Bark 支持超过100种说话人预设,涵盖所有支持的语言。你可以在这里浏览支持的语音预设库,或在bark/assets/prompts中查看代码。社区成员也经常在Discord上分享预设。
Bark 会尽量匹配给定预设的语气、音调、情感和韵律,但目前不支持自定义语音克隆。该模型还会尝试保留音乐、环境噪音等。
text_prompt = """
我的声音非常柔和顺滑,今天我要跟大家聊聊普通树懒的锻炼计划。
"""
audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")
📃 生成更长的音频
默认情况下,generate_audio 对于大约13秒的口语文本效果较好。如需了解如何进行长篇生成,请参阅 👉 Notebook 👈
命令行
python -m bark --text "你好,我叫Suno." --output_filename "example.wav"
💻 安装
‼️ 注意 ‼️ 请勿使用 pip install bark。这会安装一个由Suno未维护的其他软件包。
pip install git+https://github.com/suno-ai/bark.git
或者
git clone https://github.com/suno-ai/bark
cd bark && pip install .
🤗 Transformers 使用
从版本4.31.0开始,Bark 已集成到🤗 Transformers 库中,所需依赖和额外包极少。入门步骤如下:
- 首先从主仓库安装🤗 Transformers库:
pip install git+https://github.com/huggingface/transformers.git
- 运行以下Python代码生成语音样本:
from transformers import AutoProcessor, BarkModel
processor = AutoProcessor.from_pretrained("suno/bark")
model = BarkModel.from_pretrained("suno/bark")
voice_preset = "v2/en_speaker_6"
inputs = processor("你好,我的狗很可爱", voice_preset=voice_preset)
audio_array = model.generate(**inputs)
audio_array = audio_array.cpu().numpy().squeeze()
- 可以在ipynb笔记本中直接收听音频样本:
from IPython.display import Audio
sample_rate = model.generation_config.sample_rate
Audio(audio_array, rate=sample_rate)
或者使用第三方库(如scipy)将其保存为.wav文件:
import scipy
sample_rate = model.generation_config.sample_rate
scipy.io.wavfile.write("bark_out.wav", rate=sample_rate, data=audio_array)
有关如何使用🤗 Transformers库进行Bark模型推理的更多信息,请参阅Bark文档或动手实践的Google Colab。
🛠️ 硬件与推理速度
Bark 已在CPU和GPU上进行了测试并正常运行(pytorch 2.0+,CUDA 11.7和CUDA 12.0)。
在企业级GPU和PyTorch nightly版本上,Bark 可以实现近实时的音频生成。而在较旧的GPU、默认Colab环境或CPU上,推理时间可能会显著变慢。对于老式GPU或CPU,建议使用较小的模型。详细信息可在我们的教程部分找到。
完整版Bark需要约12GB显存才能同时将所有内容加载到GPU上。若要使用更适合8GB显存的小型模型,请设置环境变量 SUNO_USE_SMALL_MODELS=True。
如果你没有可用的硬件,或想体验更大版本的模型,也可以在此处注册以提前访问我们的模型试用平台这里。
⚙️ 详情
Bark 是一款完全生成式的文本到音频模型,专为研究和演示目的而开发。它采用类似 GPT 的架构,与 AudioLM 和 Vall-E 类似,并使用来自 EnCodec 的量化音频表示。它并非传统的 TTS 模型,而是一个完全生成式的文本到音频模型,能够以意想不到的方式偏离给定的文本内容。与以往的方法不同,输入的文本提示会直接转换为音频,无需中间的音素步骤。因此,它可以泛化到语音之外的任意指令,例如音乐歌词、音效或其他非语音声音。
以下是一些已知的非语音声音示例,但我们每天都在发现更多。如果您在 Discord 上发现了特别有效的模式,请告诉我们!
[laughter][laughs][sighs][music][gasps][clears throat]—或...表示停顿♪表示歌曲歌词- 大写字母用于强调某个词
[MAN]和[WOMAN]分别用于将 Bark 的输出偏向男性或女性说话者
支持的语言
| 语言 | 状态 |
|---|---|
| 英语 (en) | ✅ |
| 德语 (de) | ✅ |
| 西班牙语 (es) | ✅ |
| 法语 (fr) | ✅ |
| 印地语 (hi) | ✅ |
| 意大利语 (it) | ✅ |
| 日语 (ja) | ✅ |
| 韩语 (ko) | ✅ |
| 波兰语 (pl) | ✅ |
| 葡萄牙语 (pt) | ✅ |
| 俄语 (ru) | ✅ |
| 土耳其语 (tr) | ✅ |
| 中文(简体)(zh) | ✅ |
如需未来支持其他语言,请在此处提交请求 这里,或在 Discord 的 #forums 频道中提出。
🙏 致谢
- nanoGPT,感谢其简单高效且速度极快的 GPT 样式模型实现。
- EnCodec,感谢其先进的音频编解码器实现。
- AudioLM,感谢其相关的训练和推理代码。
- Vall-E、AudioLM 以及其他许多开创性的论文,它们共同促成了 Bark 的开发。
© 许可证
Bark 采用 MIT 许可证授权。
📱 社区
🎧 Suno Studio(抢先体验)
我们正在开发一个用于测试我们模型的平台,其中包括 Bark。
如果您感兴趣,可以在此处注册抢先体验 这里。
❓ 常见问题解答
如何指定模型的下载和缓存位置?
- Bark 使用 Hugging Face 来下载和存储模型。您可以在此处找到更多信息 这里。
Bark 的生成结果有时与我的提示不符。这是为什么?
- Bark 是一种 GPT 样式的模型。因此,它在生成时可能会加入一些创造性的自由发挥,导致输出结果比传统文本到语音方法更具多样性。
Bark 支持哪些语音?
- Bark 在所有 支持的语言 中支持 100 多种预设语音。您可以在此处浏览语音预设库 这里。社区成员也会在 Discord 上分享预设。此外,Bark 还支持根据输入文本生成独特的随机语音。目前,Bark 尚不支持自定义语音克隆。
为什么输出长度被限制在约 13–14 秒?
- Bark 是一种 GPT 样式的模型,其架构和上下文窗口经过优化,适合生成大约这个长度的内容。
我需要多少显存?
- Bark 的完整版本需要大约 12GB 显存才能将所有数据同时加载到 GPU 上。不过,即使是显存较小的显卡,最低至约 2GB,也可以通过一些额外设置来运行。只需在生成前添加以下代码片段:
import os
os.environ["SUNO_OFFLOAD_CPU"] = "True"
os.environ["SUNO_USE_SMALL_MODELS"] = "True"
我生成的音频听起来像 20 世纪 80 年代的电话通话。这是怎么回事?
- Bark 是从零开始生成音频的,它并不旨在只生成高保真、录音室级别的语音。相反,它的输出可能从完美的语音,到用劣质麦克风录制的棒球比赛现场多人争吵的声音,各种情况都有可能。
常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
TTS
🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。
LocalAI
LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获
airi
airi 是一款开源的本地化 AI 伴侣项目,旨在将虚拟角色(如“二次元老婆”或赛博生命)带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力,让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手,airi 允许用户在本地运行,不仅保护了对话隐私,还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天,甚至能直接参与《我的世界》(Minecraft)和《异星工厂》(Factorio)等游戏,实现了从单纯对话到共同娱乐的跨越。 这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者,以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持(涵盖 Web、macOS 和 Windows)以及强大的游戏交互能力,让 AI 不仅能“说”,还能“玩”。通过容器化的灵魂设计,airi 为每个人创造专属数字生命提供了可能,让虚拟陪伴变得更加真实且触手可及。
MockingBird
MockingBird 是一款开源的实时语音克隆工具,旨在让用户仅需 5 秒的参考音频,即可快速合成任意内容的语音,并实现逼真的音色复刻。它有效解决了传统语音合成技术中数据采集成本高、训练周期长以及难以实时生成的痛点,让个性化语音生成变得触手可及。 这款工具特别适合开发者、AI 研究人员以及对语音技术感兴趣的技术爱好者使用。无论是用于构建交互式语音应用、进行声学模型研究,还是制作创意内容,MockingBird 都能提供强大的支持。普通用户若具备基础的编程环境配置能力,也可通过其提供的 Web 服务或工具箱体验前沿的变声效果。 在技术亮点方面,MockingBird 基于 PyTorch 框架,不仅完美支持中文普通话及多种主流数据集,还实现了跨平台运行,兼容 Windows、Linux 乃至 M1 架构的 macOS。其独特的架构设计允许复用预训练的编码器与声码器,只需微调合成器即可获得出色效果,大幅降低了部署门槛。此外,项目内置了现成的 Web 服务器功能,方便用户通过远程调用快速集成到自己的应用中。尽管原作者已转向云端优化版本,但 MockingBird 作为经典的本地部署方案
LibreChat
LibreChat 是一个开源的多模型 AI 对话平台,界面设计参考了 ChatGPT,但功能更加丰富。它支持同时接入 OpenAI、Anthropic Claude、DeepSeek、Mistral、Google Gemini、AWS Bedrock、Azure 等数十种主流 AI 服务,用户可以在同一个界面中自由切换不同模型,找到最适合自己需求的 AI 助手。 这个工具特别适合需要使用多种 AI 服务的用户。无论是开发者想测试不同模型的编程能力,还是研究人员需要对比各模型的回答质量,或者是企业希望搭建私有的 AI 对话系统,LibreChat 都能满足。它支持自托管部署,数据完全保存在本地,安全性有保障。 LibreChat 的核心亮点包括:内置代码解释器,支持 Python、JavaScript、Go、C++ 等多种语言的安全沙箱执行;支持创建自定义 AI 智能体(Agents),并可通过 MCP 协议扩展工具能力;提供 Web 搜索功能,能实时获取最新信息;支持多用户协作和精细的权限管理。此外,它还兼容 Ollama 等本地模型,方便用户在本地运行 AI。 作为完全开源的