fish-speech

GitHub
29.1k 2.4k 中等 44 次阅读 今天NOASSERTION音频语言模型图像开发框架
AI 解读 由 AI 自动生成,仅供参考

fish-speech 是一款开源的顶尖文本转语音(TTS)系统,专注于实现高保真、多语言的语音合成与克隆。它主要解决了传统语音合成中发音机械、情感表达匮乏以及跨语言支持不足的痛点,让生成的机器声音更加自然流畅,接近真人交流体验。

在技术层面,fish-speech 基于 Fish Audio S2 Pro 模型,采用了先进的双自回归(Dual-AR)架构。fish-speech 在超过 1000 万小时的高质量音频数据上进行训练,能够流畅处理 80 多种语言,并具备强大的零样本语音克隆能力。这种设计不仅提升了语音的自然度,还大幅降低了资源消耗。

fish-speech 非常适合开发者、AI 研究人员以及内容创作者。开发者可以轻松通过 WebUI 或命令行将其集成到应用中;研究人员可借此探索多模态模型的边界;而普通用户则能利用它快速制作高质量的配音视频。项目提供了丰富的部署选项,包括 Docker 和服务器模式,社区支持活跃。需要注意的是,fish-speech 遵循特定的研究许可协议,使用者应遵守相关条款,避免违规用途。

使用场景

独立游戏开发者小林正在制作一款多语言叙事游戏,急需为数十个 NPC 角色生成高质量且一致的配音,但预算十分有限。

没有 fish-speech 时

  • 聘请专业配音演员成本高昂,单个角色的英文、日文配音费用就占用了大部分美术预算。
  • 录制流程繁琐,需要协调档期、搭建录音棚并进行后期降噪处理,人力投入巨大。
  • 多语言版本难以保证角色音色统一,玩家容易出戏,严重影响沉浸感体验。
  • 剧情调整导致台词变更时,必须重新预约录音,迭代周期长达数周,严重拖慢进度。

使用 fish-speech 后

  • fish-speech 基于开源模型本地部署,零授权费即可无限次生成语音,彻底解决预算问题。
  • 输入文本秒级输出音频,支持快速试音,大幅缩短开发验证周期,当天即可上线测试。
  • 利用其强大的多语种克隆功能,同一角色在八种语言下保持音色高度一致,无需额外训练。
  • 修改剧本后直接重新生成,无需等待外部人员配合,实现敏捷开发,响应速度提升十倍。

fish-speech 让小型团队也能以极低成本获得媲美商业级的多语言语音生成能力。

运行环境要求

操作系统
  • 未说明
GPU

需要 NVIDIA GPU (文中提及 H200 性能测试及 CUDA Graph)

内存

未说明

依赖
notes详细环境要求请参照官方安装文档链接;支持 Docker 容器化部署;模型为 4B 参数多模态模型;推理需 NVIDIA GPU 配合 SGLang 加速;请遵守相关开源许可证及法律条款。
python未说明
fish-speech hero image

快速开始




[!IMPORTANT] 许可声明
本代码库及其关联的模型权重均根据 FISH AUDIO RESEARCH LICENSE 发布。有关更多详细信息,请参阅 LICENSE。我们将对任何违反许可证的行为采取行动。

[!WARNING] 法律免责声明
我们对代码库的任何非法使用不承担任何责任。请参照您当地关于 DMCA 和其他相关法律的规定。

快速开始

面向人类用户

以下是 Fish Audio S2 的官方文档,请按照说明轻松上手。

[!IMPORTANT] 对于 SGLang 服务器,请阅读 SGLang-Omni README

面向 LLM 智能体

Install and configure Fish-Audio S2 by following the instructions here: https://speech.fish.audio/install/

Fish Audio S2 Pro

最先进的多语言文本转语音 (TTS) 系统,重新定义了语音生成的边界。

Fish Audio S2 Pro 是由 Fish Audio 开发的最先进的多模态模型。该模型在超过 1000 万小时 的音频数据上进行了训练,涵盖 80 多种语言。S2 Pro 结合了 双自回归 (Dual-AR) 架构与强化学习 (RL) 对齐,以生成极其自然、逼真且情感丰富的语音,在开源和闭源系统中均处于领先地位。

S2 Pro 的核心优势在于其支持使用自然语言标签(例如 [whisper][excited][angry])进行 子词级别 的韵律和情感细粒度控制,同时原生支持多说话人和多轮对话生成。

访问 Fish Audio 网站 体验在线演示,或阅读我们的 技术报告博客文章 了解更多详情。

模型变体

模型 大小 可用性 描述
S2-Pro 4B 参数 HuggingFace 全功能旗舰模型,具备最高质量和稳定性

有关模型的更多详细信息,请参阅 技术报告

基准测试结果

基准测试 Fish Audio S2
Seed-TTS 评估 — WER(中文) 0.54% (整体最佳)
Seed-TTS 评估 — WER(英文) 0.99% (整体最佳)
音频图灵测试(带指令) 0.515 后验均值
EmergentTTS-Eval — 胜率 81.88% (整体最高)
Fish 指令基准测试 — TAR 93.3%
Fish 指令基准测试 — 质量 4.51 / 5.0
多语言(MiniMax 测试集)— 最佳 WER 24 种语言中的 11 种
多语言(MiniMax 测试集)— 最佳 SIM 24 种语言中的 17 种

在 Seed-TTS 评估中,S2 在所有评估模型(包括闭源系统)中实现了最低的 WER:Qwen3-TTS (0.77/1.24)、MiniMax Speech-02 (0.99/1.90)、Seed-TTS (1.12/2.25)。在音频图灵测试中,0.515 比 Seed-TTS (0.417) 高出 24%,比 MiniMax-Speech (0.387) 高出 33%。在 EmergentTTS-Eval 中,S2 在副语言特征(91.61% 胜率)、问答(84.41%)和句法复杂度(83.39%)方面取得了特别强的结果。

亮点

通过自然语言实现细粒度内联控制

S2 Pro 为语音带来了前所未有的“灵魂”。使用简单的 [tag] 语法,您可以在文本的任何位置精确嵌入情感指令。

  • 支持 15,000+ 个唯一标签:不限于固定预设;S2 支持自由形式的文本描述。尝试 [whisper in small voice][professional broadcast tone][pitch up]
  • 丰富的情感库[pause] [emphasis] [laughing] [inhale] [chuckle] [tsk] [singing] [excited] [laughing tone] [interrupting] [chuckling] [excited tone] [volume up] [echo] [angry] [low volume] [sigh] [low voice] [whisper] [screaming] [shouting] [loud] [surprised] [short pause] [exhale] [delight] [panting] [audience laughter] [with strong accent] [volume down] [clearing throat] [sad] [moaning] [shocked]

创新的双自回归(Dual-AR)架构

S2 Pro 采用了主从式 Dual-AR(双自回归)架构,由仅解码器 Transformer(Decoder-only Transformer)和 RVQ(残差矢量量化)音频编解码器组成(10 个码本,~21 Hz):

  • 慢速 AR(4B 参数):沿时间轴运行,预测主要的语义码本。
  • 快速 AR(4 亿参数):在每个时间步生成剩余的 9 个残差码本,重建精细的声学细节。

这种非对称设计在显著提升推理速度的同时实现了最高的音频保真度。

强化学习(RL)对齐

S2 Pro 利用**组相对策略优化(GRPO)**进行后训练对齐。我们直接使用相同的模型套件进行数据清洗和标注作为 Reward Models(奖励模型),完美解决了预训练数据与后训练目标之间的分布不匹配问题。

  • 多维奖励信号:综合评估语义准确性、指令遵循度、声学偏好评分和音色相似度,确保生成的每一秒语音对人类来说都感觉直观自然。

极致的流式性能(由 SGLang 驱动)

由于 Dual-AR 架构在结构上与标准大语言模型(LLMs)同构,S2 Pro 原生支持所有 SGLang 推理加速功能,包括连续批处理(Continuous Batching)、分页 KV 缓存(Paged KV Cache)、CUDA 图(CUDA Graph)以及基于 RadixAttention 的前缀缓存(Prefix Caching)。

单张 NVIDIA H200 GPU 上的性能:

  • 实时因子(RTF):0.195
  • 首帧音频延迟(TTFA):~100 毫秒
  • 极高吞吐量:3,000+ 声学 Token/秒,同时保持 RTF < 0.5

强大的多语言支持

S2 Pro 支持超过 80 种语言,无需音素或特定语言的预处理:

  • 第一梯队:日语 (ja)、英语 (en)、中文 (zh)
  • 第二梯队:韩语 (ko)、西班牙语 (es)、葡萄牙语 (pt)、阿拉伯语 (ar)、俄语 (ru)、法语 (fr)、德语 (de)
  • 全球覆盖:sv, it, tr, no, nl, cy, eu, ca, da, gl, ta, hu, fi, pl, et, hi, la, ur, th, vi, jw, bn, yo, xsl, cs, sw, nn, he, ms, uk, id, kk, bg, lv, my, tl, sk, ne, fa, af, el, bo, hr, ro, sn, mi, yi, am, be, km, is, az, sd, br, sq, ps, mn, ht, ml, sr, sa, te, ka, bs, pa, lt, kn, si, hy, mr, as, gu, fo, 等。

原生多说话人生成

Fish Audio S2 允许用户上传包含多个说话人的参考音频,模型通过 <|speaker:i|> Token(令牌)处理每个说话人的特征。随后,您可以通过说话人 ID 令牌控制模型的表现,从而实现单次生成包含多个说话人。不再需要为每个单独的说话人上传单独的参考音频。

多轮对话生成

得益于模型上下文的扩展,我们的模型现在可以利用先前的信息来提高后续生成内容的表现力,从而增加对话的自然度。

快速声音克隆

Fish Audio S2 支持使用短参考样本(通常为 10-30 秒)进行准确的声音克隆。该模型捕捉音色、说话风格和情感倾向,无需额外微调即可生成逼真且一致克隆的声音。 关于 SGLang Server 的使用,请参阅 SGLang-Omni README


致谢

技术报告

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}

@misc{liao2026fishaudios2technical,
      title={Fish Audio S2 Technical Report}, 
      author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han},
      year={2026},
      eprint={2603.08823},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2603.08823}, 
}

版本历史

v2.0.0-beta2026/03/10
v1.5.12025/05/31
v1.5.02024/12/25
v1.4.32024/11/29
v1.4.22024/10/25
v1.4.12024/09/15
v1.4.02024/09/12
v1.2.12024/09/10
v1.22024/07/18
v1.1.22024/07/02
v1.1.12024/06/08
v1.1.02024/05/11
v1.0.02024/04/30
v0.2.02023/12/25

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架