QuickPiperAudiobook

GitHub
1k 78 简单 1 次阅读 今天AGPL-3.0音频
AI 解读 由 AI 自动生成,仅供参考

QuickPiperAudiobook 是一款能让用户通过一条命令,将各类电子文档(如 EPUB、PDF、TXT、MOBI、HTML 等)一键转换为自然流畅有声书的开源工具。它主要解决了传统文本转语音流程繁琐、依赖在线服务导致隐私泄露,以及难以批量处理多种文件格式的痛点。

这款工具特别适合注重数据隐私的普通读者、希望将技术文档或有声读物本地化的语言学习者,以及喜欢折腾命令行的高效极客用户。其核心亮点在于完全离线运行,所有转换过程均在本地完成,无需上传任何内容,确保了绝对的隐私安全。同时,它内置了对 Piper 高质量语音模型的支持,涵盖全球多种语言,并能自动管理模型下载,用户无需单独安装复杂的语音引擎。此外,它还支持生成带章节标记的 MP3 文件,让听书体验更接近专业出品。无论是想听最新的电子书,还是需要将非英语内容转化为母语音频,QuickPiperAudiobook 都能以极简的方式轻松实现。

使用场景

一位视障开发者急需将最新的技术文档(PDF 格式)和开源项目说明(ePub 格式)转换为有声书,以便在通勤途中高效获取信息。

没有 QuickPiperAudiobook 时

  • 流程繁琐断裂:需要先用 Calibre 将 PDF/ePub 转为纯文本,再找独立的 TTS 工具分段合成,最后用音频软件拼接,耗时数小时。
  • 隐私安全风险:若使用在线转换服务,敏感的内部技术文档或未公开代码说明必须上传至第三方服务器,存在泄露隐患。
  • 多语言支持困难:遇到非英语的技术资料(如波兰语或中文文档),难以找到自然流畅且免费的离线语音模型进行朗读。
  • 章节导航缺失:生成的音频往往是单一长文件,无法根据原书目录自动划分章节,导致听众难以定位特定内容。

使用 QuickPiperAudiobook 后

  • 一键自动化:只需执行一条命令(如 ./QuickPiperAudiobook doc.pdf),即可自动完成格式解析、文本提取到语音合成的全流程。
  • 完全本地私有:所有计算均在本地离线完成,无需联网,确保技术文档和数据绝对安全,不离开用户设备。
  • 多语言无缝切换:通过简单配置下载对应的 Piper 模型(.onnx 文件),即可用自然的母语口音流畅朗读各类小语种资料。
  • 智能章节标记:配合 --chapters 参数和 ffmpeg,能自动识别 ePub 结构并生成带元数据的 MP3 章节文件,实现精准跳转收听。

QuickPiperAudiobook 将原本复杂的多步工作流简化为单次命令行操作,让开发者能在保护隐私的前提下,瞬间将任意格式的文本转化为高质量的离线有声书。

运行环境要求

操作系统
  • Linux
  • macOS
GPU

未说明 (基于 CPU 运行,使用 Piper ONNX 模型)

内存

未说明

依赖
notes该工具由 Go 编写,无需安装 Python 或手动配置 Piper。需确保系统已安装 Calibre (提供 ebook-convert) 并加入环境变量;若需输出 MP3 格式或生成章节元数据,需额外安装 ffmpeg。模型文件 (.onnx 和 .json) 可手动下载至配置目录以支持多语言。macOS 支持取决于上游 Piper 项目的 Bug 修复情况。所有转换均在本地离线完成,保障隐私。
python不需要 (基于 Go 语言编译的二进制文件)
calibre (ebook-convert)
ffmpeg (可选,用于 MP3 和章节支持)
QuickPiperAudiobook hero image

快速开始

QuickPiper有声书

英文 | 波兰语 | 简体中文

只需一条命令,即可为任何文本内容创建自然的有声书。

收听示例输出 这里

安装

  1. 通过以下任一方式下载二进制文件:
    • 使用预先构建的发布版本
    • go install github.com/C-Loftus/QuickPiperAudiobook@latest
    • (或使用 go build 从源代码编译)
  2. 下载 ebook-convert 并确保其位于您的 PATH 中。(此工具随 calibre 一起提供)
  3. (可选) 下载 ffmpeg 以支持 MP3 和章节功能

[!NOTE]
您无需单独安装 Piper。本程序会自动管理 Piper 及其相关模型

使用方法

  • 传入带有正确扩展名的本地文件或远程 URL
    • 例如:./QuickPiperAudiobook test.txt
  • 使用 --chapters 标志为 epub 文件生成 MP3 章节
    • 例如:./QuickPiperAudiobook --chapters test.epub
  • 如需查看完整选项列表,请使用 --help 标志
    • 例如:./QuickPiperAudiobook --help

非英语 / UTF-8

  • Piper 模型 获取您所需语言的模型文件(.onnx 和 .json)
    • 例如:pl_PL-gosia-medium.onnx 及其对应的 pl_PL-gosia-medium.onnx.json(如有需要请重命名)
  • 将这些文件放入 ~/.config/QuickPiperAudiobook/
  • 使用 --speak-utf-8--model= 标志指定使用特定模型朗读 UTF 字符
    • 例如:./QuickPiperAudiobook --speak-utf-8 --model=pl_PL-gosia-medium.onnx MaszynaTuringa_Wikipedia.pdf

[!NOTE]
如果您计划频繁使用该模型,建议将其设置为配置文件中的默认模型

配置

  • 您可以在 ~/.config/QuickPiperAudiobook/ 创建一个配置文件,以指定首选值,而无需每次都在命令行中输入这些参数。
    • 例如,您可以将任意模型的相关 .onnx.onnx.json 文件放入 ~/.config/QuickPiperAudiobook/ 目录中。
    • 完整的配置示例可在 这里 查看。
# `~/.config/QuickPiperAudiobook/config.yaml` 示例

# 如果用户未在命令行中指定 --output,则使用的默认输出目录
output: ~/Audiobooks
# 如果用户未在命令行中指定 --model,则使用的默认模型
model: "en_US-hfc_female-medium.onnx"
# 将有声书输出为 MP3 文件(需要 PATH 中包含 ffmpeg)
mp3: false
# 在输出 MP3 时生成章节元数据(需要 epub 输入和 PATH 中包含 ffmpeg)
chapters: false

注意事项

  • Piper 不支持进度输出。由于所有计算都在本地进行,因此较长的有声书可能需要较长时间才能生成。
  • 此仓库已在 Linux 上测试过,但在 Piper 的上游 bug 修复后也可在 MacOS 上运行。

支持

感谢您考虑支持本项目。

我接受 GitHub 或 PayPal 上的捐赠。如果您希望赞助本项目或因商务原因与我联系,可以通过 电子邮件我的网站 与我取得联系。

版本历史

v0.0.72025/11/07
v0.0.52025/02/21
v0.0.42024/10/12
v0.0.32024/10/08
v0.0.22024/09/15
0.0.12024/08/26

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|昨天
音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|3天前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|4天前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|3天前
音频

airi

airi 是一款开源的本地化 AI 伴侣项目,旨在将虚拟角色(如“二次元老婆”或赛博生命)带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力,让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手,airi 允许用户在本地运行,不仅保护了对话隐私,还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天,甚至能直接参与《我的世界》(Minecraft)和《异星工厂》(Factorio)等游戏,实现了从单纯对话到共同娱乐的跨越。 这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者,以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持(涵盖 Web、macOS 和 Windows)以及强大的游戏交互能力,让 AI 不仅能“说”,还能“玩”。通过容器化的灵魂设计,airi 为每个人创造专属数字生命提供了可能,让虚拟陪伴变得更加真实且触手可及。

37.1k|★☆☆☆☆|昨天
语言模型音频Agent