tts-vue

6.1k 858 非常简单 6 次阅读 4天前MIT音频

AI 解读由 AI 自动生成，仅供参考

tts-vue 是一款基于微软语音合成技术打造的桌面应用，旨在让用户轻松将文字转换为自然流畅的语音。它解决了普通用户在获取高质量语音素材时面临的技术门槛高、操作复杂等痛点，无需编写代码或配置复杂的环境，只需简单输入文本即可生成音频文件。

这款软件非常适合内容创作者、视频制作者、教育工作者以及任何需要语音辅助的普通用户使用。无论是制作有声读物、视频配音，还是进行语言学习练习，tts-vue 都能提供便捷的支持。虽然它也适合开发者参考学习其架构设计，但其核心定位是服务于非技术背景的大众用户。

在技术实现上，tts-vue 采用了 Electron 框架结合 Vue、ElementPlus 和 Vite 进行构建，既保证了跨平台运行的兼容性，又提供了现代化且简洁友好的用户界面。它直接调用微软先进的语音合成接口，确保了输出语音的高自然度和多语言支持能力。值得注意的是，该项目目前主要定位为个人学习与测试用途，开发者明确倡导免费使用并提醒用户注意合规性，避免用于商业场景。通过开源共享，tts-vue 为社区提供了一个体验前沿语音技术的低门槛窗口。

使用场景

一位自媒体创作者需要每天为多篇新闻稿件快速生成高质量的配音视频，以发布到短视频平台。

没有 tts-vue 时

必须手动登录微软 Azure 网页控制台，每次只能输入少量文本进行合成，无法批量处理长篇文章。
缺乏本地化管理功能，生成的音频文件散落在浏览器下载文件夹中，命名混乱且难以与原文稿对应。
调整语速、音调或切换不同发音人时，需要反复在网页表单中重新配置参数，操作繁琐且效率极低。
无法离线使用，一旦网络波动或账号会话过期，整个配音工作流就会被迫中断。

使用 tts-vue 后

直接在桌面客户端导入整篇文稿，利用批量合成功能一键生成所有段落的音频，大幅缩短制作周期。
内置项目管理机制，可保存每次合成的参数配置与输出路径，音频文件自动按规则命名并归档，井井有条。
通过直观的界面滑块实时调节语速、音量和角色音色，支持即时试听，快速找到最契合稿件情感的发音风格。
基于 Electron 构建的本地应用运行稳定，减少了网页端频繁的登录验证干扰，让创作过程更加流畅专注。

tts-vue 将原本碎片化、高门槛的云端语音合成操作，转化为高效、可控的本地化生产力工具，显著提升了内容创作的自动化水平。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

未说明

内存

未说明

依赖

notes该工具基于 Electron 构建，通常以桌面应用程序形式运行，无需用户手动配置 Python 环境或安装依赖库。具体安装包和运行方式请参考项目文档中的‘安装运行’链接。代码仅供个人学习测试，严禁商业用途。

python未说明

Electron

Vue

ElementPlus

Vite

快速开始

TTS-Vue

🎤 微软语音合成工具，使用 Electron + Vue + ElementPlus + Vite 构建.

开始使用

注意

该软件以及代码仅为个人学习测试使用，请在下载后24小时内删除，不得用于商业用途，否则后果自负。任何违规使用造成的法律后果与本人无关。该软件也永远不会收费，如果您使用该软件前支付了额外费用，或付费获得源码或成品软件，那么你一定被骗了！

搬运请注明出处。禁止诱导他人以加群、私信等方式获取软件的仓库、下载地址和安装包。

意见问题反馈，版本发布企鹅群：

【tts-vue问题反馈群⑤】439382846

【tts-vue问题反馈群④】781659118(满)

【tts-vue问题反馈群③】474128303(满)

【tts-vue问题反馈群②】702034846(满)

【tts-vue问题反馈群①】752801820(满)

Star History

TTS-Vue 快速上手指南

TTS-Vue 是一款基于微软语音合成接口的桌面工具，采用 Electron + Vue + ElementPlus + Vite 技术栈构建，支持将文本转换为自然流畅的语音。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Windows / macOS / Linux
Node.js：建议安装 LTS 版本（推荐 v16+）
包管理器：npm 或 yarn（推荐使用国内镜像源加速）

配置国内镜像源（可选但推荐）：

# 设置 npm 淘宝镜像
npm config set registry https://registry.npmmirror.com

安装步骤

你可以通过克隆源码并本地运行的方式来使用本项目：

克隆项目仓库

git clone https://github.com/LokerL/tts-vue.git
cd tts-vue

安装依赖

npm install
# 或者使用 yarn
yarn install

启动开发服务器
```
npm run dev
# 或者
yarn dev
```
打包构建（可选） 如需生成可分发的安装包：
```
npm run build
# 或者
yarn build
```

基本使用

启动成功后，程序会自动打开桌面应用窗口。最简单的使用流程如下：

在主界面的文本输入框中输入需要合成的文字内容。
在下拉菜单中选择所需的语音角色（支持多种语言和音色）。
点击 “试听” 按钮预览发音效果。
点击 “保存” 按钮将生成的音频导出为 MP3 或 WAV 格式。

注意：本软件仅供个人学习与测试使用，请在下载后 24 小时内删除，严禁用于任何商业用途。

版本历史

1.9.152023/08/07

1.9.122023/07/18

1.9.102023/06/14

1.9.92023/06/06

1.9.32023/05/18

1.9.22023/05/07

1.9.12023/04/28

1.9.02023/04/18

1.8.82023/02/21

1.8.72022/11/14

1.8.52022/11/07

1.8.32022/09/21

1.8.02022/09/11

1.7.32022/09/01

1.7.22022/08/23

1.7.12022/08/18

1.7.02022/08/16

1.6.02022/08/08

1.5.02022/08/06

常见问题

软件无法使用或提示微软接口更新，如何解决？

初次打开软件时只显示图标而不显示界面，怎么办？

有没有 macOS（包括 M1 芯片）版本？

转换失败并报错 'Speech invocation failed after 10 retries' 或 'azureApi' 错误，如何解决？

软件完全打不开或无反应，如何排查？

如何实现多角色朗读功能？

安装 auto-client 后 tts-vue 被覆盖或消失，怎么办？

偶尔出现合成语音报错或网络异常，是软件故障吗？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|2天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|3天前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|2天前

音频

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|今天

语言模型音频Agent

MockingBird

MockingBird 是一款开源的实时语音克隆工具，旨在让用户仅需 5 秒的参考音频，即可快速合成任意内容的语音，并实现逼真的音色复刻。它有效解决了传统语音合成技术中数据采集成本高、训练周期长以及难以实时生成的痛点，让个性化语音生成变得触手可及。这款工具特别适合开发者、AI 研究人员以及对语音技术感兴趣的技术爱好者使用。无论是用于构建交互式语音应用、进行声学模型研究，还是制作创意内容，MockingBird 都能提供强大的支持。普通用户若具备基础的编程环境配置能力，也可通过其提供的 Web 服务或工具箱体验前沿的变声效果。在技术亮点方面，MockingBird 基于 PyTorch 框架，不仅完美支持中文普通话及多种主流数据集，还实现了跨平台运行，兼容 Windows、Linux 乃至 M1 架构的 macOS。其独特的架构设计允许复用预训练的编码器与声码器，只需微调合成器即可获得出色效果，大幅降低了部署门槛。此外，项目内置了现成的 Web 服务器功能，方便用户通过远程调用快速集成到自己的应用中。尽管原作者已转向云端优化版本，但 MockingBird 作为经典的本地部署方案

★ 36.9k|★★★★☆|3天前

Agent音频图像