bark

39.1k 4.7k 中等 4 次阅读 2天前MIT音频

AI 解读由 AI 自动生成，仅供参考

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。

它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。

技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

使用场景

一家独立游戏开发团队正在为一款叙事驱动的冒险游戏制作原型，需要快速生成包含多语种对白、笑声、叹息及背景音效的沉浸式音频素材。

没有 bark 时

成本高昂且周期长：团队必须聘请专业配音演员和拟音师，录制、剪辑和混音流程繁琐，严重拖慢原型迭代速度。
情感表达受限：传统文本转语音工具语气生硬，无法自然呈现剧本中要求的“大笑”、“犹豫”或“哭泣”等非语言情感细节。
多语言适配困难：为支持全球发行，需针对不同语言分别寻找配音资源，协调成本高且难以保证角色音色的一致性。
创意试错成本高：每次修改剧本台词或调整情绪基调，都意味着重新预约录音棚和人员，导致开发者不敢轻易尝试新方案。

使用 bark 后

即时生成与迭代：开发者只需输入带有情感标记（如 [laughs]）的文本提示，bark 即可在本地瞬间生成高质量音频，将数天的工作缩短至几分钟。
细腻的情感还原：bark 能精准识别并演绎剧本中的非语言沟通信号，生成的笑声和叹息自然逼真，极大提升了角色的真实感。
无缝的多语言支持：利用 bark 的多语言能力，团队用同一套工作流直接生成英、日、法等多语种对白，且保持了统一的音色风格。
低成本创意探索：修改台词或尝试不同情绪演绎变得零成本，策划人员可以实时听取多种版本效果，从而激发更多创意灵感。

bark 让小型团队也能以极低的成本和门槛，创造出具备电影级情感表现力的动态音频内容。

运行环境要求

操作系统

未说明

GPU

非必需（支持 CPU 和 GPU）
若使用 GPU，需 PyTorch 2.0+ 及 CUDA 11.7 或 12.0
完整版模型需约 12GB 显存
可设置环境变量 SUNO_USE_SMALL_MODELS=True 使用小模型版本，仅需约 8GB 显存

内存

未说明

依赖

notes切勿使用 'pip install bark' 安装，需通过 git 地址安装。模型支持多种语言及非语音声音（如笑声、音乐）。首次运行需下载预训练模型。在旧 GPU 或 CPU 上推理速度可能较慢，建议使用小模型版本。

python未说明

torch>=2.0

scipy

transformers>=4.31.0 (可选)

快速开始

注意：Bark 是 Suno 的开源文本转音频模型。如果您正在寻找我们的文本转音乐模型，请访问我们的网页并在Discord上加入我们的社区。

🐶 Bark

🔗 示例 • Suno Studio 等待名单 • 更新 • 使用方法 • 安装 • 常见问题解答

Bark 是由 Suno 开发的基于 Transformer 的文本转音频模型。Bark 能够生成高度逼真的多语言语音以及其他音频内容，包括音乐、背景噪音和简单的音效。该模型还能模拟非语言交流，如笑声、叹息和哭泣。为了支持研究社区，我们提供了预训练模型检查点的访问权限，这些检查点已准备好用于推理，并可用于商业用途。

⚠ 免责声明

Bark 是为研究目的而开发的。它并非传统的文本转语音模型，而是一个完全生成式的文本转音频模型，可能会以意想不到的方式偏离所提供的提示。Suno 对任何生成的输出不承担任何责任。请自行承担风险并负责任地使用。

📖 快速索引

🚀 更新
💻 安装
🐍 使用
🌀 实时示例
❓ 常见问题解答

🎧 演示

🚀 更新

2023年5月1日

©️ Bark 现在采用 MIT 许可证授权，这意味着它现在可以用于商业用途！
⚡ GPU 上的速度提升 2 倍。CPU 上的速度提升 10 倍。我们还增加了一个较小版本的 Bark 选项，虽然质量稍低，但速度更快。
📕 长文本生成、语音一致性增强以及其他示例现已记录在一个新的 notebooks 部分中。
👥 我们创建了一个语音提示库。我们希望这个资源能帮助您找到适合自己用例的有用提示！您也可以加入我们的 Discord，社区成员会在 #audio-prompts 频道中积极分享有用的提示。
💬 不断增长的社区支持以及新功能的访问权限：
💾 现在您可以将 Bark 与显存较低（<4GB）的 GPU 一起使用。

2023年4月20日

🐶 Bark 正式发布！

🐍 在 Python 中的使用

🪑 基础知识

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

# 下载并加载所有模型
preload_models()

# 根据文本生成音频
text_prompt = """
     你好，我叫 Sune。嗯——我喜欢披萨。[笑] 
     不过我也对玩井字棋之类的活动很感兴趣。
"""
audio_array = generate_audio(text_prompt)

# 将音频保存到磁盘
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

# 在笔记本中播放文本
音频(音频数组, 采样率=采样速率)

pizza1.webm

🌎 外语

Bark 默认支持多种语言，并能自动从输入文本中识别语言。当遇到代码转换的文本时，Bark 会尝试为每种语言采用其对应的母语口音。目前英语的质量最佳，我们预计随着模型规模的扩大，其他语言的表现也会进一步提升。


text_prompt = """
    中秋节是我最喜欢的节日。我可以休息几天，和朋友及家人一起度过时光。
"""
audio_array = generate_audio(text_prompt)

suno_korean.webm

注：由于Bark会自动从输入文本中识别语言，因此可以使用德语历史提示配合英文文本。这通常会产生带有德语口音的英语音频。

text_prompt = """
    三十年战争（1618-1648）是一场对欧洲影响深远的毁灭性冲突。
    这是历史的开端。如果想听更多，请继续。
"""
audio_array = generate_audio(text_prompt)

suno_german_accent.webm

🎶 音乐

Bark 可以生成各种类型的音频，原则上它并不区分语音和音乐。有时 Bark 会选择将文本生成为音乐，但你可以在歌词周围加入音乐记号来引导它。

text_prompt = """
    ♪ 在丛林里，那雄伟的丛林，今晚狮子在咆哮 ♪
"""
audio_array = generate_audio(text_prompt)

lion.webm

🎤 语音预设

Bark 支持超过100种说话人预设，涵盖所有支持的语言。你可以在这里浏览支持的语音预设库，或在bark/assets/prompts中查看代码。社区成员也经常在Discord上分享预设。

Bark 会尽量匹配给定预设的语气、音调、情感和韵律，但目前不支持自定义语音克隆。该模型还会尝试保留音乐、环境噪音等。

text_prompt = """
    我的声音非常柔和顺滑，今天我要跟大家聊聊普通树懒的锻炼计划。
"""
audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")

sloth.webm

📃 生成更长的音频

默认情况下，generate_audio 对于大约13秒的口语文本效果较好。如需了解如何进行长篇生成，请参阅 👉 Notebook 👈

点击展开示例长篇生成（来自示例笔记本）

dialog.webm

longform_advanced.webm

longform_basic.webm

命令行

python -m bark --text "你好，我叫Suno." --output_filename "example.wav"

💻 安装

‼️ 注意 ‼️ 请勿使用 pip install bark。这会安装一个由Suno未维护的其他软件包。

pip install git+https://github.com/suno-ai/bark.git

或者

git clone https://github.com/suno-ai/bark
cd bark && pip install .

🤗 Transformers 使用

从版本4.31.0开始，Bark 已集成到🤗 Transformers 库中，所需依赖和额外包极少。入门步骤如下：

首先从主仓库安装🤗 Transformers库：

pip install git+https://github.com/huggingface/transformers.git

运行以下Python代码生成语音样本：

from transformers import AutoProcessor, BarkModel

processor = AutoProcessor.from_pretrained("suno/bark")
model = BarkModel.from_pretrained("suno/bark")

voice_preset = "v2/en_speaker_6"

inputs = processor("你好，我的狗很可爱", voice_preset=voice_preset)

audio_array = model.generate(**inputs)
audio_array = audio_array.cpu().numpy().squeeze()

可以在ipynb笔记本中直接收听音频样本：

from IPython.display import Audio

sample_rate = model.generation_config.sample_rate
Audio(audio_array, rate=sample_rate)

或者使用第三方库（如scipy）将其保存为.wav文件：

import scipy

sample_rate = model.generation_config.sample_rate
scipy.io.wavfile.write("bark_out.wav", rate=sample_rate, data=audio_array)

有关如何使用🤗 Transformers库进行Bark模型推理的更多信息，请参阅Bark文档或动手实践的Google Colab。

🛠️ 硬件与推理速度

Bark 已在CPU和GPU上进行了测试并正常运行（pytorch 2.0+，CUDA 11.7和CUDA 12.0）。

在企业级GPU和PyTorch nightly版本上，Bark 可以实现近实时的音频生成。而在较旧的GPU、默认Colab环境或CPU上，推理时间可能会显著变慢。对于老式GPU或CPU，建议使用较小的模型。详细信息可在我们的教程部分找到。

完整版Bark需要约12GB显存才能同时将所有内容加载到GPU上。若要使用更适合8GB显存的小型模型，请设置环境变量 SUNO_USE_SMALL_MODELS=True。

如果你没有可用的硬件，或想体验更大版本的模型，也可以在此处注册以提前访问我们的模型试用平台这里。

⚙️ 详情

Bark 是一款完全生成式的文本到音频模型，专为研究和演示目的而开发。它采用类似 GPT 的架构，与 AudioLM 和 Vall-E 类似，并使用来自 EnCodec 的量化音频表示。它并非传统的 TTS 模型，而是一个完全生成式的文本到音频模型，能够以意想不到的方式偏离给定的文本内容。与以往的方法不同，输入的文本提示会直接转换为音频，无需中间的音素步骤。因此，它可以泛化到语音之外的任意指令，例如音乐歌词、音效或其他非语音声音。

以下是一些已知的非语音声音示例，但我们每天都在发现更多。如果您在 Discord 上发现了特别有效的模式，请告诉我们！

[laughter]
[laughs]
[sighs]
[music]
[gasps]
[clears throat]
— 或 ... 表示停顿
♪ 表示歌曲歌词
大写字母用于强调某个词
[MAN] 和 [WOMAN] 分别用于将 Bark 的输出偏向男性或女性说话者

支持的语言

语言	状态
英语 (en)	✅
德语 (de)	✅
西班牙语 (es)	✅
法语 (fr)	✅
印地语 (hi)	✅
意大利语 (it)	✅
日语 (ja)	✅
韩语 (ko)	✅
波兰语 (pl)	✅
葡萄牙语 (pt)	✅
俄语 (ru)	✅
土耳其语 (tr)	✅
中文（简体）(zh)	✅

如需未来支持其他语言，请在此处提交请求这里，或在 Discord 的 #forums 频道中提出。

🙏 致谢

nanoGPT，感谢其简单高效且速度极快的 GPT 样式模型实现。
EnCodec，感谢其先进的音频编解码器实现。
AudioLM，感谢其相关的训练和推理代码。
Vall-E、AudioLM 以及其他许多开创性的论文，它们共同促成了 Bark 的开发。

© 许可证

Bark 采用 MIT 许可证授权。

📱 社区

🎧 Suno Studio（抢先体验）

我们正在开发一个用于测试我们模型的平台，其中包括 Bark。

如果您感兴趣，可以在此处注册抢先体验这里。

❓ 常见问题解答

如何指定模型的下载和缓存位置？

Bark 使用 Hugging Face 来下载和存储模型。您可以在此处找到更多信息这里。

Bark 的生成结果有时与我的提示不符。这是为什么？

Bark 是一种 GPT 样式的模型。因此，它在生成时可能会加入一些创造性的自由发挥，导致输出结果比传统文本到语音方法更具多样性。

Bark 支持哪些语音？

Bark 在所有支持的语言中支持 100 多种预设语音。您可以在此处浏览语音预设库这里。社区成员也会在 Discord 上分享预设。此外，Bark 还支持根据输入文本生成独特的随机语音。目前，Bark 尚不支持自定义语音克隆。

为什么输出长度被限制在约 13–14 秒？

Bark 是一种 GPT 样式的模型，其架构和上下文窗口经过优化，适合生成大约这个长度的内容。

我需要多少显存？

Bark 的完整版本需要大约 12GB 显存才能将所有数据同时加载到 GPU 上。不过，即使是显存较小的显卡，最低至约 2GB，也可以通过一些额外设置来运行。只需在生成前添加以下代码片段：

import os
os.environ["SUNO_OFFLOAD_CPU"] = "True"
os.environ["SUNO_USE_SMALL_MODELS"] = "True"

我生成的音频听起来像 20 世纪 80 年代的电话通话。这是怎么回事？

Bark 是从零开始生成音频的，它并不旨在只生成高保真、录音室级别的语音。相反，它的输出可能从完美的语音，到用劣质麦克风录制的棒球比赛现场多人争吵的声音，各种情况都有可能。

Bark 快速上手指南

Bark 是由 Suno 开发的开源文本转音频（Text-to-Audio）模型。它不仅能生成逼真的多语言语音，还能创作音乐、背景音效以及笑声、叹息等非语言声音。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux, macOS, 或 Windows
Python 版本: Python 3.8 - 3.10 (推荐 3.9)
硬件要求:
- GPU (推荐): 需要 NVIDIA 显卡，显存建议 8GB 以上以获得最佳体验。若显存小于 4GB，需启用小模型模式。
- CPU: 支持运行，但生成速度较慢。
前置依赖:
- PyTorch 2.0+
- CUDA 11.7 或 12.0 (仅限 GPU 用户)

注意: 首次运行时会自动下载模型权重文件（约 2-3GB），请确保网络连接通畅。国内用户若下载缓慢，可尝试配置代理或使用支持断点续传的网络环境。

2. 安装步骤

⚠️ 重要提示: 请勿直接运行 pip install bark，这会安装一个无关的第三方包。请务必使用以下官方源进行安装。

方法一：直接通过 Git 安装（推荐）

pip install git+https://github.com/suno-ai/bark.git

方法二：克隆仓库后安装

git clone https://github.com/suno-ai/bark.git
cd bark && pip install .

可选：启用小模型模式（针对低显存设备）

如果您的 GPU 显存小于 8GB，建议在运行代码前设置环境变量以加载精简版模型：

export SUNO_USE_SMALL_MODELS=True

(Windows PowerShell 用户请使用: $env:SUNO_USE_SMALL_MODELS="True")

3. 基本使用

以下是最简单的 Python 使用示例，包含模型加载、音频生成及保存。

基础代码示例

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

# 1. 下载并加载所有模型 (首次运行时会下载)
preload_models()

# 2. 定义文本提示
# Bark 支持自然语言描述，如 [laughs] 表示笑声，♪ 表示音乐
text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""

# 3. 生成音频
audio_array = generate_audio(text_prompt)

# 4. 保存音频到磁盘
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
  
# 5. (可选) 在 Jupyter Notebook 中直接播放
# Audio(audio_array, rate=SAMPLE_RATE)

进阶技巧简述

多语言支持: 模型会自动识别输入文本的语言（支持中文、日文、韩文、德文等），无需额外配置。
音色预设: 可以通过 history_prompt 参数指定音色。例如：generate_audio(text, history_prompt="v2/zh_speaker_0") (具体预设名称需参考官方库)。
非语言声音: 在文本中使用 [laughter], [sighs], [music] 等标签可控制情感和非语音输出。
长文本生成: 默认单次生成适合约 13 秒的文本。如需生成长篇内容，建议分段生成后拼接，或参考官方提供的长文本生成 Notebook 示例。

常见问题

为什么提示未使用 GPU 且推理速度极慢？如何启用 GPU 加速？

如何在 Apple Silicon (M1/M2) Mac 上运行 Bark？

遇到 'CUDA out of memory' (显存不足) 错误如何解决？

报错 'cannot import name SAMPLE_RATE from bark' 怎么办？

如何消除 'The attention mask and the pad token id were not set' 警告？

模型下载速度慢或不稳定，支持断点续传吗？

哪里可以找到 Bark 的使用文档和教程？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|2天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|3天前

图像音频语言模型

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|今天

语言模型音频Agent

MockingBird

MockingBird 是一款开源的实时语音克隆工具，旨在让用户仅需 5 秒的参考音频，即可快速合成任意内容的语音，并实现逼真的音色复刻。它有效解决了传统语音合成技术中数据采集成本高、训练周期长以及难以实时生成的痛点，让个性化语音生成变得触手可及。这款工具特别适合开发者、AI 研究人员以及对语音技术感兴趣的技术爱好者使用。无论是用于构建交互式语音应用、进行声学模型研究，还是制作创意内容，MockingBird 都能提供强大的支持。普通用户若具备基础的编程环境配置能力，也可通过其提供的 Web 服务或工具箱体验前沿的变声效果。在技术亮点方面，MockingBird 基于 PyTorch 框架，不仅完美支持中文普通话及多种主流数据集，还实现了跨平台运行，兼容 Windows、Linux 乃至 M1 架构的 macOS。其独特的架构设计允许复用预训练的编码器与声码器，只需微调合成器即可获得出色效果，大幅降低了部署门槛。此外，项目内置了现成的 Web 服务器功能，方便用户通过远程调用快速集成到自己的应用中。尽管原作者已转向云端优化版本，但 MockingBird 作为经典的本地部署方案

★ 36.9k|★★★★☆|3天前

Agent音频图像

LibreChat

LibreChat 是一个开源的多模型 AI 对话平台，界面设计参考了 ChatGPT，但功能更加丰富。它支持同时接入 OpenAI、Anthropic Claude、DeepSeek、Mistral、Google Gemini、AWS Bedrock、Azure 等数十种主流 AI 服务，用户可以在同一个界面中自由切换不同模型，找到最适合自己需求的 AI 助手。这个工具特别适合需要使用多种 AI 服务的用户。无论是开发者想测试不同模型的编程能力，还是研究人员需要对比各模型的回答质量，或者是企业希望搭建私有的 AI 对话系统，LibreChat 都能满足。它支持自托管部署，数据完全保存在本地，安全性有保障。 LibreChat 的核心亮点包括：内置代码解释器，支持 Python、JavaScript、Go、C++ 等多种语言的安全沙箱执行；支持创建自定义 AI 智能体（Agents），并可通过 MCP 协议扩展工具能力；提供 Web 搜索功能，能实时获取最新信息；支持多用户协作和精细的权限管理。此外，它还兼容 Ollama 等本地模型，方便用户在本地运行 AI。作为完全开源的

★ 35.2k|★★★☆☆|今天

图像语言模型音频