NaturalVoiceSAPIAdapter
NaturalVoiceSAPIAdapter 是一个开源的文本转语音(TTS)引擎,它让任何兼容 SAPI 5 的应用程序都能使用微软 Azure AI 语音服务提供的自然/神经语音,包括 Windows 11 中 Narrator 使用的本地语音、Microsoft Edge 的“朗读”在线语音,以及通过 Azure 订阅密钥访问的云端语音。
它主要解决了旧版或非原生支持现代神经语音的应用程序无法使用高质量语音的问题。许多传统软件(如屏幕阅读器、辅助工具或老旧系统上的程序)仅支持 SAPI 5 接口,而微软并未开放 Narrator 或 Edge 语音给第三方直接调用。NaturalVoiceSAPIAdapter 通过提取系统密钥等技术手段,巧妙地桥接了这一限制。
该工具适合需要在 Windows 环境下为 SAPI 5 应用启用高质量语音的普通用户、无障碍技术使用者,以及开发辅助功能软件的开发者。其独特之处在于无需修改原应用,即可让它们“自动”获得接近真人发音的语音能力。不过需注意,由于依赖系统内部机制,未来 Windows 更新可能导致部分功能失效。
使用场景
一位视障开发者正在使用 Windows 7 系统开发一款基于 SAPI 5 的屏幕朗读辅助工具,希望为用户提供更自然、流畅的语音反馈。
没有 NaturalVoiceSAPIAdapter 时
- 只能使用系统自带的老旧 SAPI 5 机械合成音(如 Microsoft Anna),语调生硬、缺乏情感,影响用户体验。
- 无法直接调用 Windows 11 或 Microsoft Edge 中的高质量神经语音,因为这些语音仅限特定应用(如 Narrator 或 Edge)使用。
- 若想集成 Azure 神经 TTS,需重写整个语音模块以对接 Azure SDK,开发成本高且破坏原有 SAPI 架构。
- 用户即使拥有 Azure 订阅,也无法在传统 SAPI 应用中享受云端自然语音服务。
- 在 Windows 7 上完全无法体验现代 TTS 技术,功能明显落后于主流平台。
使用 NaturalVoiceSAPIAdapter 后
- 直接在原有 SAPI 5 架构下无缝启用 Windows 11 Narrator 的本地神经语音(通过手动部署兼容版本),语音自然度显著提升。
- 无需修改代码即可调用 Microsoft Edge 的在线自然语音,快速验证不同语音效果。
- 若用户持有 Azure 订阅,还可一键启用 Azure AI Speech Service 的高质量云端神经语音,扩展性强。
- 开发者保持原有应用逻辑不变,仅通过安装该适配器即实现语音升级,节省大量重构时间。
- 即使在 Windows 7 这类旧系统上,也能提供接近现代操作系统的语音体验,缩小无障碍能力差距。
NaturalVoiceSAPIAdapter 让传统 SAPI 5 应用低成本接入前沿神经语音技术,真正实现“老架构,新声音”。
运行环境要求
- Windows
未说明
未说明

快速开始
NaturalVoiceSAPIAdapter
这是一个 SAPI 5 文本转语音(TTS)引擎,可以利用 Azure AI 语音服务 提供的 自然/神经网络语音(natural/neural voices),包括:
- Windows 11 上 Narrator 的自然语音
- Microsoft Edge“朗读”功能提供的在线自然语音
- 如果你拥有有效的订阅密钥,还可以使用 Azure AI 语音服务提供的在线自然语音
任何支持 SAPI 5 语音的应用程序都可以通过此 TTS 引擎使用上述自然语音。
更多技术信息请参阅 wiki 页面。
系统要求
最低测试平台:Windows XP SP3 和 Windows XP Professional x64 Edition SP2(仅限 32 位)。
支持本地 Narrator 语音的最低平台:Windows 7 RTM,x86 32/64 位。
支持通过 Microsoft Store 安装 Narrator 语音的最低平台:Windows 10,版本 17763。
如何在 Windows 11 上安装 Narrator 自然语音?
如果你打算使用本程序,不再建议在 Windows 11 上安装 Narrator 自然语音,因为这些语音的最新版本已无法与本程序兼容。建议改用最后一个可用版本。
如果安装本程序后 Narrator 停止工作,可尝试暂时卸载所有 Narrator 语音包作为临时解决方案。
我使用的是 Windows XP/Vista/7/8/10。能否使用 Windows 11 的 Narrator 自然语音?
Windows XP/Vista:很遗憾,这些平台不支持本地 Narrator 语音。但在线语音(包括 Edge 和 Azure 语音)仍然可用。
Windows 10(版本 17763 或更高):你可以通过这些链接选择并安装 Windows 11 的 Narrator 语音。
Windows 7/8/10(版本低于 17763):
- 从此处下载语音的 MSIX 文件。
- 准备一个文件夹用于存放语音子文件夹。确保该路径中不包含非 ASCII 字符。
- 将 MSIX 文件当作 ZIP 文件解压到其子文件夹中。你可以在同一个父文件夹下放置多个语音子文件夹。确保子文件夹名称中也不包含非 ASCII 字符。
- 在安装程序中将该父文件夹设置为“本地语音路径”。
- 不要在该父文件夹中放置除语音子文件夹以外的其他内容,否则可能导致语音加载失败。
Windows 10 的 Narrator 本身不直接支持自然语音,但它支持 SAPI 5 语音。因此,你可以通过本引擎在 Windows 10 上使用 Windows 11 的 Narrator 语音。
它能在未来的 Windows 版本上运行吗?
本引擎使用从系统文件中提取的加密密钥来调用语音,因此更像是一种“hack”而非官方解决方案。
目前,微软尚未允许第三方应用使用 Narrator/Edge 语音,因此该功能可能随时失效,例如在系统更新之后。
安装
- 从 Releases 页面下载 zip 文件。
- 将文件解压到某个文件夹中。安装后请勿移动、重命名或删除这些文件。如需移动或删除,请先卸载本程序。
- 运行
Installer.exe。 - 在“安装状态”部分,程序会显示 32 位和 64 位版本是否已安装:
- 32 位版本适用于 32 位程序,64 位版本适用于 64 位程序。
- 在 64 位系统上,若希望所有程序(32 位和 64 位)都能使用,需同时安装两个版本。
- 在 32 位系统上,“64 位”行不会显示。
- 点击“安装/卸载”。需要管理员权限。
- 选择你希望使用的语音类型。默认启用本地 Narrator 语音(如支持)和 Microsoft Edge 朗读在线语音:
- 在线语音需要互联网连接,且可能较慢或不够稳定。如果你只想使用本地 Narrator 语音,可以取消勾选“启用 Microsoft Edge 在线语音”和“启用 Azure 在线语音”。
- 由于在线语音种类繁多,默认仅包含你首选语言及英语(美国)的语音,以避免语音列表过于冗长。点击“更改...”可调整包含的语言。
- Azure 语音需要订阅密钥(API 密钥)及其区域。点击“设置 Azure 密钥”输入你的密钥。你可以访问 Azure 门户,进入你的语音服务资源,然后前往 资源管理 > 密钥和终结点 复制密钥和区域。
- 关闭安装程序窗口以应用更改。如需修改设置,可再次打开安装程序,且更改设置无需重新安装或管理员权限。

或者,你也可以使用 regsvr32 手动注册 DLL 文件。
高级用户可参考本程序的可配置注册表值列表。
测试
你可以使用 x86 和 x64 文件夹中的 TtsApplication.exe 来测试本引擎。
这是对 Windows-classic-samples 中的 TtsApplication 的修改版本,增加了中文翻译,并为音素(phoneme)/口型(viseme)事件提供了更详细的信息。
或者,你也可以前往控制面板 > 语音(Windows XP),或控制面板 > 语音识别 > 文本转语音(Windows Vista 及更高版本)进行测试。
使用的库
- Microsoft.CognitiveServices.Speech.Extension.Embedded.TTS
- websocketpp
- ASIO(独立版本)
- OpenSSL
- nlohmann/json
- YY-Thunks(用于 Windows XP 兼容性)
- spdlog
版本历史
v0.2.92026/01/02v0.2.82025/12/26v0.2.72025/12/19v0.2.62025/08/07v0.2.52025/07/03v0.2.42025/06/18v0.2.32024/11/19v0.2.22024/11/13v0.2.12024/11/12v0.22024/08/16v0.12024/05/10常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
OpenHands
OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。
gpt4free
gpt4free 是一个由社区驱动的开源项目,旨在聚合多种可访问的大型语言模型(LLM)和媒体生成接口,让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点,通过统一的标准将不同提供商的资源整合在一起。 无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员,还是想免费体验最新技术的普通用户,都能从中受益。gpt4free 提供了丰富的使用方式:既包含易于上手的 Python 和 JavaScript 客户端库,也支持部署本地图形界面(GUI),更提供了兼容 OpenAI 标准的 REST API,方便无缝替换现有应用后端。 其技术亮点在于强大的多提供商支持架构,能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源,并支持 Docker 一键部署及本地推理。项目秉持社区优先原则,在降低使用门槛的同时,也为贡献者提供了扩展新接口的便利框架,是探索和利用多样化 AI 资源的实用工具。
gstack
gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置,旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战,gstack 提供了一套标准化解决方案,帮助开发者实现堪比二十人团队的高效产出。 这套配置特别适合希望提升交付效率的创始人、技术负责人,以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具,涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令(如 `/review` 进行代码审查、`/qa` 执行测试、`/plan-ceo-review` 规划功能),即可自动化处理从需求分析到部署上线的全链路任务。 所有操作基于 Markdown 和斜杠命令,无需复杂配置,完全免费且遵循 MIT 协议。gstack 不仅是一套工具集,更是一种现代化的软件工厂实践,让单人开发者也能拥有严谨的工程流程。
meilisearch
Meilisearch 是一个开源的极速搜索服务,专为现代应用和网站打造,开箱即用。它能帮助开发者快速集成高质量的搜索功能,无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果,而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性,并支持 AI 驱动的混合搜索(结合关键词与语义理解),显著提升用户查找信息的体验。 Meilisearch 特别适合 Web 开发者、产品团队或初创公司使用,尤其适用于需要快速上线搜索功能的场景,如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK,部署简单,资源占用低,本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下,为用户提供流畅、智能搜索体验的团队来说,Meilisearch 是一个高效且友好的选择。
GPT-SoVITS
GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。