gTTS

2.6k 383 非常简单 1 次阅读 3天前MIT插件音频

AI 解读由 AI 自动生成，仅供参考

gTTS（Google Text-to-Speech）是一款基于 Python 的开源库与命令行工具，旨在让开发者轻松调用谷歌翻译的语音合成能力。它能够将任意长度的文本转换为自然流畅的语音，并直接保存为 MP3 文件、输出到标准流或作为字节流供后续处理，极大简化了“文字转语音”的开发流程。

对于需要快速为应用添加朗读功能、制作有声内容或进行语音数据预处理的用户而言，gTTS 提供了一个零门槛的解决方案。它特别适合 Python 开发者、原型设计者以及希望低成本实现语音交互的研究人员。普通用户也可通过简单的命令行指令，瞬间将文本段落转化为音频文件，无需配置复杂的本地环境。

gTTS 的技术亮点在于其内置的智能句子分词器，能够处理超长文本并保持语调的自然连贯，同时准确识别缩写、小数等特殊格式。此外，它还支持自定义文本预处理，方便用户对发音进行微调。需要注意的是，gTTS 通过非官方接口利用谷歌翻译的免费语音服务，并非谷歌云官方付费产品，因此适用于个人项目或对稳定性要求不极端的场景，使用时需留意上游服务可能的变动。

使用场景

一位独立开发者正在为视障用户构建一个实时新闻朗读助手，需要将抓取到的长篇中文资讯快速转换为自然的语音文件。

没有 gTTS 时

开发门槛高：必须自行搭建复杂的深度学习语音合成模型或申请昂贵的商业云 API 密钥，初期投入成本巨大。
长文本处理难：直接调用基础接口时，长文章常被截断，且缺乏智能分句逻辑，导致朗读时语调生硬、停顿错乱。
集成流程繁琐：需要编写大量额外代码来处理音频流的下载、拼接及本地 MP3 文件保存，调试耗时费力。
多语言支持弱：若需扩展支持英文或其他语种，往往需要对接不同的服务商，维护多套认证和调用逻辑。

使用 gTTS 后

零成本快速启动：仅需一行 pip install 即可调用谷歌成熟的翻译语音引擎，无需训练模型或配置复杂凭证。
智能分句与语调：利用内置的可定制分句器，自动将长新闻拆解为合理段落，确保数字、缩写及整篇内容的语调自然流畅。
极简代码集成：通过简单的 Python 模块或 CLI 命令，直接将文本转化为本地 MP3 文件或字节流，大幅缩减开发周期。
全球语言无缝切换：只需修改语言参数代码，即可在同一架构下支持数十种语言的新闻播报，扩展性极强。

gTTS 让开发者能以极低的成本和代码量，将静态文本瞬间转化为高质量的自然语音，极大地降低了无障碍应用的构建门槛。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具通过调用 Google 翻译的在线 API 生成语音，无需本地模型文件，因此对硬件（GPU/内存）无特殊要求。运行时必须保持网络连接。注意：该项目非 Google 官方产品，依赖未公开的 API 接口，可能因上游变更而失效。

python3.7+

requests

click

快速开始

gTTS

gTTS（Google Text-to-Speech），是一个用于与 Google 翻译文本转语音 API 交互的 Python 库和命令行工具。可以将语音 mp3 数据写入文件、文件类对象（字节串）以供进一步音频处理，或直接输出到 stdout。 https://gtts.readthedocs.io/

功能特性

可自定义的、针对语音特性的句子分隔器，允许读取任意长度的文本，同时保持正确的语调、缩写、小数等；
可自定义的文本预处理器，例如可以提供发音修正等功能；

安装

$ pip install gTTS

快速入门

命令行：

$ gtts-cli 'hello' --output hello.mp3

模块：

>>> from gtts import gTTS
>>> tts = gTTS('hello')
>>> tts.save('hello.mp3')

更多文档和示例请参阅 https://gtts.readthedocs.io/。

免责声明

本项目并非与 Google 或 Google Cloud 有关联。上游变更可能会在未事先通知的情况下发生。本项目利用了未公开的 Google 翻译语音功能，与 Google Cloud 文本转语音不同。

项目信息

许可证

gTTS 快速上手指南

gTTS (Google Text-to-Speech) 是一个 Python 库和命令行工具，用于调用 Google 翻译的文本转语音 API。它可以将文本转换为 MP3 音频文件、字节流或标准输出。

环境准备

操作系统：Windows、macOS 或 Linux
Python 版本：支持 Python 3.7 及以上版本
前置依赖：需安装 pip 包管理工具
网络要求：由于调用 Google 服务，请确保网络环境可访问 Google Translate（国内用户可能需要配置代理）

安装步骤

使用 pip 直接安装：

pip install gTTS

提示：国内用户若下载缓慢，可使用国内镜像源加速安装：
pip install gTTS -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

方式一：命令行使用

在终端中直接运行以下命令，将文本 "hello" 转换为音频并保存为 hello.mp3：

gtts-cli 'hello' --output hello.mp3

方式二：Python 模块调用

在 Python 脚本或交互式环境中使用：

>>> from gtts import gTTS
>>> tts = gTTS('hello')
>>> tts.save('hello.mp3')

执行后，当前目录下将生成 hello.mp3 文件，可直接播放收听。

更多高级用法（如多语言支持、语速调整、自定义分词等）请参阅官方文档：https://gtts.readthedocs.io/

版本历史

v2.5.42024/11/10

v2.5.32024/08/13

v2.5.22024/07/20

v2.5.12024/01/29

v2.5.02023/12/20

v2.4.02023/10/03

v2.3.22023/04/29

v2.3.12023/01/16

v2.3.02022/11/21

v2.2.42022/03/15

v2.2.32021/06/18

v2.2.22021/02/04

v2.2.12020/11/15

v2.2.02020/11/15

v2.1.22020/11/11

v2.1.12020/01/26

v2.1.02020/01/01

v2.0.42019/08/30

v2.0.32018/12/15

v2.0.22018/12/09

常见问题

遇到 'ValueError: Unable to find token seed!' 或 'NoneType' object has no attribute 'group' 错误怎么办？

如何直接播放 gTTS 生成的音频而不保存到文件？

使用命令行工具 (gtts-cli) 时出现正则表达式匹配失败或 token 错误如何解决？

为什么重装后仍然报错，或者不同 Python 版本下行为不一致？

发送少量请求后突然报错，是否是被 Google 限制了 IP？

文本超过一定长度（如 200 字符）时转换失败是怎么回事？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架

gpt4free

gpt4free 是一个由社区驱动的开源项目，旨在聚合多种可访问的大型语言模型（LLM）和媒体生成接口，让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点，通过统一的标准将不同提供商的资源整合在一起。无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员，还是想免费体验最新技术的普通用户，都能从中受益。gpt4free 提供了丰富的使用方式：既包含易于上手的 Python 和 JavaScript 客户端库，也支持部署本地图形界面（GUI），更提供了兼容 OpenAI 标准的 REST API，方便无缝替换现有应用后端。其技术亮点在于强大的多提供商支持架构，能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源，并支持 Docker 一键部署及本地推理。项目秉持社区优先原则，在降低使用门槛的同时，也为贡献者提供了扩展新接口的便利框架，是探索和利用多样化 AI 资源的实用工具。

★ 66k|★★☆☆☆|2天前

插件语言模型Agent

gstack

gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置，旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战，gstack 提供了一套标准化解决方案，帮助开发者实现堪比二十人团队的高效产出。这套配置特别适合希望提升交付效率的创始人、技术负责人，以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具，涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令（如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能），即可自动化处理从需求分析到部署上线的全链路任务。所有操作基于 Markdown 和斜杠命令，无需复杂配置，完全免费且遵循 MIT 协议。gstack 不仅是一套工具集，更是一种现代化的软件工厂实践，让单人开发者也能拥有严谨的工程流程。

★ 64.3k|★★☆☆☆|今天

Agent插件

meilisearch

Meilisearch 是一个开源的极速搜索服务，专为现代应用和网站打造，开箱即用。它能帮助开发者快速集成高质量的搜索功能，无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果，而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性，并支持 AI 驱动的混合搜索（结合关键词与语义理解），显著提升用户查找信息的体验。 Meilisearch 特别适合 Web 开发者、产品团队或初创公司使用，尤其适用于需要快速上线搜索功能的场景，如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK，部署简单，资源占用低，本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下，为用户提供流畅、智能搜索体验的团队来说，Meilisearch 是一个高效且友好的选择。

★ 57k|★★☆☆☆|今天

图像Agent数据工具

awesome-claude-skills

awesome-claude-skills 是一个精心整理的开源资源库，旨在帮助用户挖掘和扩展 Claude AI 的潜力。它不仅仅是一份列表，更提供了实用的“技能（Skills）”模块，让 Claude 从单纯的文本生成助手，进化为能执行复杂工作流的智能代理。许多用户在使用 AI 时，常受限于其无法直接操作外部软件或处理特定格式文件的痛点。awesome-claude-skills 通过预设的工作流解决了这一问题：它不仅能教会 Claude 专业地处理 Word、PDF 等文档，进行代码开发与数据分析，还能借助 Composio 插件连接 Slack、邮箱及数百种常用应用，实现发送邮件、创建任务等自动化操作。这使得重复性任务变得标准化且可复用，极大提升了工作效率。无论是希望优化日常办公流程的普通用户、需要处理复杂文档的研究人员，还是寻求将 AI 深度集成到开发管线中的开发者，都能从中找到适合的解决方案。其独特的技术亮点在于“技能”的可定制性与强大的应用连接能力，让用户无需编写复杂代码，即可通过简单的配置让 Claude 具备跨平台执行真实任务的能力。如果你希望让 Claude

★ 51.3k|★★☆☆☆|今天

Agent插件