f5-tts-mlx

624 62 简单 1 次阅读 3天前MIT图像音频语言模型

AI 解读由 AI 自动生成，仅供参考

f5-tts-mlx 是知名语音合成模型 F5-TTS 基于 Apple MLX 框架的高效实现，专为苹果 Silicon 芯片（如 M 系列）优化。它致力于解决传统文本转语音系统在生成速度、自然度及跨说话人模仿能力上的平衡难题，支持“零样本”语音克隆，即仅需一段简短的参考音频，就能让 AI 用该声音流畅朗读任意文本。

这款工具特别适合拥有 Mac 设备的开发者、研究人员及技术爱好者使用。无论是希望将大语言模型的文本输出实时转化为语音，还是需要快速构建本地化语音应用，f5-tts-mlx 都能提供极佳体验。其核心技术亮点在于采用了非自回归架构与流匹配（Flow Matching）算法，结合扩散 Transformer，不仅大幅提升了推理速度（在 M3 Max 上生成仅需数秒），还显著改善了语音的自然度和情感表现。此外，项目原生支持 4 位和 8 位量化模型，有效降低内存占用，使得在资源受限环境下运行高性能语音合成成为可能。通过简单的命令行或 Python 调用，用户即可轻松实现高质量的语音生成与定制化声音复刻。

使用场景

一位独立开发者正在为 macOS 用户构建一款本地运行的 AI 有声书生成器，希望实现零样本语音克隆并保证流畅的听感。

没有 f5-tts-mlx 时

硬件门槛高：主流高质量 TTS 模型依赖 NVIDIA GPU，导致拥有 Apple Silicon 芯片的 Mac 用户无法本地运行，必须租用昂贵的云端算力。
语音自然度不足：传统非自回归模型在长句合成时容易出现语调平淡或断句不自然的问题，缺乏情感起伏，听感像“机器人”。
克隆流程繁琐：若要复刻特定讲述人的声音，通常需要收集大量音频进行漫长的微调训练，无法做到“即录即用”。
资源占用过大：全精度模型显存占用极高，在内存有限的设备上容易触发交换分区（Swap），导致生成速度极慢甚至崩溃。

使用 f5-tts-mlx 后

原生苹果硅支持：基于 MLX 框架深度优化，直接在 M 系列芯片上高效运行，无需配置复杂的 CUDA 环境或依赖云端。
拟真度显著提升：利用 Flow Matching 和扩散 Transformer 技术，生成的语音语调丰富、停顿自然，完美还原真人讲述的情感色彩。
零样本即时克隆：仅需一段 5-10 秒的参考音频，即可立即锁定目标音色进行合成，极大降低了个性化有声书的制作成本。
量化部署灵活：支持 4-bit 和 8-bit 量化加载，在保持音质的同时大幅降低内存占用，使普通笔记本也能流畅生成音频。

f5-tts-mlx 让高性能、高拟真的本地语音合成在苹果生态中变得触手可及，彻底改变了个人开发者创作有声内容的效率与体验。

运行环境要求

操作系统

macOS

GPU

不需要 NVIDIA GPU，依赖 Apple Silicon (M 系列芯片) 运行 MLX 框架

内存

未说明（支持量化模型以适应内存受限环境）

依赖

notes该工具专为苹果 M 系列芯片优化，基于 MLX 框架。参考音频需为单声道、24kHz 的 WAV 文件（约 5-10 秒）。支持 4-bit 和 8-bit 量化模型以降低显存和带宽需求。预训练模型托管在 Hugging Face。

python未说明

mlx

f5-tts-mlx

快速开始

F5 TTS 流程图

F5 TTS — MLX

基于 MLX 框架实现的 F5-TTS。

F5 TTS 是一种非自回归、零样本的文本到语音系统，它使用基于扩散变换器 (DiT) 的流匹配梅尔频谱生成器。

你可以在这里听到一个示例音频，该音频是在 M3 Max MacBook Pro 上大约 4 秒内生成的。

F5 是 E2 TTS 的演进版本，并通过在学习到的文本对齐中引入 ConvNeXT v2 块来提升性能。本仓库基于原始的 PyTorch 实现，可在这里找到。

安装

pip install f5-tts-mlx

基本用法

python -m f5_tts_mlx.generate --text "The quick brown fox jumped over the lazy dog."

你也可以通过管道将其他进程（例如语言模型）的输出直接传递给语音生成：

mlx_lm.generate --model mlx-community/Llama-3.2-1B-Instruct-4bit --verbose false \
 --temp 0 --max-tokens 512 --prompt "Write a concise paragraph explaining wavelets." \
| python -m f5_tts_mlx.generate

音色匹配

如果你想使用自己的参考音频，请确保它是单声道、采样率为 24kHz、时长约 5–10 秒的 WAV 文件：

python -m f5_tts_mlx.generate \
--text "The quick brown fox jumped over the lazy dog." \
--ref-audio /path/to/audio.wav \
--ref-text "This is the caption for the reference audio."

你可以使用 ffmpeg 将音频文件转换为正确格式，如下所示：

ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wav

更多自定义生成选项请参阅这里。

量化模型

如果你的环境带宽或内存有限，可以使用 --q 选项加载模型的量化版本。支持 4 位和 8 位两种量化方式。

python -m f5_tts_mlx.generate --text "The quick brown fox jumped over the lazy dog." --q 4

从 Python 调用

你也可以从 Python 中加载预训练模型：

from f5_tts_mlx.generate import generate

audio = generate(text = "Hello world.", ...)

预训练模型权重也可在 Hugging Face 上找到。

致谢

感谢 Yushen Chen 提供的 F5 TTS 原始 PyTorch 实现及预训练模型。

同时感谢 Phil Wang 提供的 E2 TTS 实现，本模型正是基于此构建的。

引用

@article{chen-etal-2024-f5tts,
      title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching}, 
      author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
      journal={arXiv preprint arXiv:2410.06885},
      year={2024},
}

@inproceedings{Eskimez2024E2TE,
    title   = {E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS},
    author  = {Sefik Emre Eskimez and Xiaofei Wang and Manthan Thakker and Canrun Li and Chung-Hsien Tsai and Zhen Xiao and Hemin Yang and Zirun Zhu and Min Tang and Xu Tan and Yanqing Liu and Sheng Zhao and Naoyuki Kanda},
    year    = {2024},
    url     = {https://api.semanticscholar.org/CorpusID:270738197}
}

许可证

本仓库中的代码采用 MIT 许可证发布，具体条款见 LICENSE 文件。

F5-TTS-MLX 快速上手指南

F5-TTS-MLX 是基于 Apple MLX 框架实现的 F5-TTS 语音合成工具。它采用非自回归架构，支持零样本（Zero-shot）语音克隆，能够生成流畅且高保真的语音。该版本针对 Apple Silicon (M1/M2/M3 等) 芯片进行了优化，推理速度极快。

环境准备

操作系统：macOS (必须运行在 Apple Silicon 芯片上，如 M1, M2, M3 系列)。
Python 版本：建议 Python 3.9 或更高版本。
前置依赖：
- 确保已安装 pip。
- 推荐配置国内镜像源以加速依赖下载（可选）：
```
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
```

安装步骤

通过 pip 直接安装预编译包：

pip install f5-tts-mlx

注意：如果安装过程中提示缺少 mlx 相关依赖，请手动安装：pip install mlx mlx-audio。

基本使用

1. 命令行快速生成

使用默认音色生成语音，只需提供文本内容：

python -m f5_tts_mlx.generate --text "The quick brown fox jumped over the lazy dog."

2. 自定义音色（语音克隆）

若需模仿特定人的声音，需提供参考音频文件（.wav 格式，单声道，24kHz，时长约 5-10 秒）及其对应的文本转录。

第一步：转换参考音频格式 使用 ffmpeg 将任意音频转换为符合要求的格式：

ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wav

第二步：生成语音

python -m f5_tts_mlx.generate \
--text "The quick brown fox jumped over the lazy dog." \
--ref-audio /path/to/output_audio.wav \
--ref-text "This is the caption for the reference audio."

3. 低显存模式（量化模型）

在内存受限的环境下，可加载 4-bit 或 8-bit 量化模型：

python -m f5_tts_mlx.generate --text "The quick brown fox jumped over the lazy dog." --q 4

4. Python 代码调用

也可以在 Python 脚本中直接调用：

from f5_tts_mlx.generate import generate

audio = generate(text="Hello world.", ...)

版本历史

0.2.62025/03/19

0.2.52025/01/21

0.2.42025/01/09

0.2.32024/12/13

0.2.22024/12/02

0.2.12024/12/01

0.2.02024/12/01

0.1.92024/11/30

0.1.82024/11/29

0.1.72024/10/31

0.1.62024/10/31

0.1.52024/10/27

0.1.42024/10/22

0.1.32024/10/21

0.1.22024/10/21

0.1.12024/10/21

0.1.02024/10/15

0.0.92024/10/14

0.0.82024/10/14

0.0.72024/10/14

常见问题

如何将微调后的模型转换为 MLX 格式？

安装时提示找不到 'mlx' 版本或分布怎么办？

生成长文本时语速过快或出现音频生成错误如何解决？

在将 Duration 模型从 MLX 移植到 PyTorch 时遇到权重键不匹配（Mismatched Keys）怎么办？

如何对 f5-tts-mlx 模型进行量化以减小体积？

生成的音频中包含特殊字符或表情符号导致报错怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent