polyglot

2.6k 272 简单 1 次阅读昨天GPL-3.0语言模型音频

AI 解读由 AI 自动生成，仅供参考

Polyglot 是一款专为语言学习者打造的跨平台 AI 口语练习助手，支持 macOS、Windows、Linux 及网页端。它巧妙结合了 ChatGPT 的强大对话能力与 Azure 的智能语音合成技术，旨在解决传统语言学习中“缺乏真实语境”和“不敢开口练习”的痛点。通过模拟来自不同国家的 AI 角色，Polyglot 能与你进行自然流畅的多语种对话，让你随时随地沉浸在外语环境中锻炼口语。

这款应用特别适合希望提升外语听说能力的学生、职场人士以及语言爱好者。无需复杂的配置，普通用户只需填入 API Key 即可立即开始与自定义的 AI 伙伴聊天。其独特的技术亮点包括：支持按住空格键快速语音识别、对话时实时高亮显示单词以辅助跟读、以及允许用户深度定制 AI 角色的性格、头像和对话场景。此外，它还提供了暗黑模式、录音回听和内容模糊处理等贴心功能，甚至支持本地部署语音模型。无论是想纠正发音还是模拟真实面试场景，Polyglot 都能提供一个安全、私密且高效的练习空间，让语言学习变得更加轻松有趣。

使用场景

外企产品经理李明急需提升商务英语谈判能力，以应对下周与北美客户的关键会议，但他缺乏真实的对话环境和即时反馈机制。

没有 polyglot 时

场景割裂：需要在浏览器查单词、用录音机练口语、再找外教约时间，工具切换繁琐，难以模拟连续对话流。
反馈滞后：独自练习时无法判断发音是否准确或表达是否地道，往往要等到几天后的真人课程才能得到纠正，错失即时记忆点。
角色单一：市面上的通用聊天机器人缺乏特定商务场景设定，难以模拟“强势采购经理”或“技术质疑者”等具体谈判对手。
心理压力大：担心在真人面前犯错丢脸，导致开口前反复纠结，实际开口练习的时间被大量压缩。

使用 polyglot 后

沉浸式闭环：直接在桌面端启动应用，选择“商务谈判”预设场景，一键调用 Azure TTS 和 ChatGPT，实现从听题、回答到回听的全流程无缝衔接。
实时智能纠偏：说完即由 AI 分析语法与用词，并提供更地道的替换建议；支持高亮显示播放进度的单词，精准定位发音薄弱区。
自定义对手画像：快速配置一个“挑剔的美国采购总监”AI 角色，设定其语气强硬且关注成本，让练习环境高度还原真实战场。
私密安全试错：在本地或私有部署环境下无限次重试，利用“按住空格说话”的快捷键流畅交互，彻底消除开口的心理负担。

polyglot 将零散的语言学习工具整合为可定制的私人陪练，让用户在低成本、高仿真的环境中实现口语能力的快速突破。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes本项目为基于 Electron 的桌面应用，依赖 ChatGPT 和 Azure AI 云服务，无需本地部署大型模型。开发环境需安装 pnpm 和 Node.js。MacOS 用户首次运行可能需在系统设置中解除 Gatekeeper 限制。

python未说明

electron

pnpm

快速开始

Polyglot

跨平台AI语言练习应用

简体中文 / English

Polyglot是一款跨平台的桌面端应用程序（目前已支持web版本）。基于ChatGPT和Azure人工智能语言模型作为底层服务，旨在提供一个易于使用的语言练习平台，方便进行多语种的口语练习。 ( 📺 视频链接 )

Screenshot: Polyglot App running

下载

Mac: Apple Intel
Windows: 点击下载
Linux: 点击下载
Web版本：在线地址

访问 GitHub Releases 下载最新版本或任何以前的版本。

软件截图

展开

Screenshot: Polyglot App running

功能

多国语言口语练习（~~目前内置四个不同国家的AI人物，分别来自美国、日本、韩国和法国。后续将考虑增加更多的语种。~~）（内置了英语，其他语言现在支持自定义）
智能语音合成（目前基于Azure TTS服务，后续考虑接入可以本地部署的语音模型）
智能对话功能（基于chatGPT服务）
支持暗黑模式
接入文字翻译功能
支持用户自定义语种和AI人物
用户自定义配置Azure key
自定义头像
语音识别支持快捷键操作(按住空格键开始语音识别，放开空格键结束语音识别)
支持用户配置自定义对话场景
自身语音支持回听
支持Azure openai api、claude api服务（Azure openai api已支持）
Web版本 (目前对手机移动端的适配兼容性不高！)
支持AI回复内容模糊处理
支持语音播放时根据播放进度高亮对应单词
AI提供回复建议

使用方法

设置OpenAI Key
设置代理（非必须）
设置azure key
新建AI角色进行对话；
与AI人物进行对话练习口语。

本地启动

# 1.克隆本仓库；
git clone https://github.com/liou666/polyglot.git

# 2.安装依赖；
cd polyglot
pnpm install 
# 安装 electron 失败时尝试使用淘宝镜像源安装👇：
# export ELECTRON_MIRROR=http://npm.taobao.org/mirrors/electron/ && pnpm i

# 3. 根据注释提示配置相关的环境变量
mv .env.example .env

# 4. 启动服务
pnpm dev

协议

GNU General Public License v3.0

贡献者

常见问题

1. MacOS 提示无法打开“Polyglot”，因为Apple无法检查其是否包含恶意软件。

这个错误因为 macOS 操作系统中的 Gatekeeper 安全功能阻止了应用程序的运行。要解决此问题，请按照以下步骤操作：

打开“系统偏好设置”并点击“安全性与隐私”。在“通用”选项卡中，您将看到一个消息：“Polyglot”已被阻止。单击“仍要打开”。或者，你可以单击“打开任何方式”以打开你的应用程序。（可能需要使用管理员权限来打开应用程序。）

如果不想在每次打开应用程序时都执行这些步骤，则可以的应用程序添加到白名单中，以便在不受阻止的情况下运行。要将您的应用程序添加到白名单中，请执行以下操作：

打开终端并输入以下命令：

xattr -rd com.apple.quarantine /path/to/Polyglot.app

其中，/path/to/Polyglot.app 是你的应用程序的完整路径。

运行命令后，应用程序将被添加到白名单中，Gatekeeper 将不再阻止其运行。

2. azure语音服务如何申请？

要申请 Azure 语音服务的 API 密钥，可以按照以下步骤进行：

登录 Azure 门户（https://portal.azure.com/）
转到“Azure 语音服务”页面并单击“添加”按钮
在“创建 Azure 语音服务”窗口中，选择订阅、资源组、区域，并为新服务指定名称
选择“F0”价格层，并单击“创建”
创建完成后，转到新服务的“概述”页面，即可查看密钥和终结点

捐赠

如果觉的项目对你有帮助的话，欢迎请我喝杯奶茶😊。

微信	支付宝

Polyglot 快速上手指南

Polyglot 是一款基于 ChatGPT 和 Azure AI 的跨平台桌面应用，旨在提供便捷的多语种口语练习环境。

1. 环境准备

系统要求

支持以下操作系统（提供预编译安装包，普通用户可直接跳过“本地启动”步骤去官网下载）：

macOS: Intel 或 Apple Silicon (M1/M2/M3)
Windows: Windows 10/11
Linux: 主流发行版 (AppImage)

前置依赖（仅针对开发者本地运行）

若需从源码运行或二次开发，请确保安装以下工具：

Node.js: 推荐 v16+
pnpm: 包管理工具
Git: 代码版本控制
API Keys:
- OpenAI API Key
- Azure Speech Service Key (用于语音合成与识别)

2. 安装步骤

方式一：直接下载使用（推荐）

访问 GitHub Releases 或以下直达链接下载对应版本安装包：

Mac: Apple 芯片 | Intel 芯片
Windows: 点击下载 .exe
Linux: 点击下载 .AppImage
Web 版: 在线体验

注意：Mac 用户若遇到“无法打开”提示，请在“系统偏好设置”->“安全性与隐私”中点击“仍要打开”，或使用终端执行 xattr -rd com.apple.quarantine /path/to/Polyglot.app 解除限制。

方式二：本地源码启动（开发者）

# 1. 克隆仓库
git clone https://github.com/liou666/polyglot.git

# 2. 进入目录并安装依赖
cd polyglot
pnpm install 

# 若 Electron 下载失败，请使用国内镜像源：
# export ELECTRON_MIRROR=http://npm.taobao.org/mirrors/electron/ && pnpm i

# 3. 配置环境变量
mv .env.example .env
# 编辑 .env 文件，填入你的 OpenAI Key 和 Azure Key

# 4. 启动开发服务
pnpm dev

3. 基本使用

配置密钥 启动应用后，进入设置页面，填入你的 OpenAI Key 和 Azure Key。如有网络限制，可在设置中配置代理。
创建角色 点击“新建角色”，自定义语言（如英语、日语等）、AI 人物形象及对话场景（如日常交流、商务面试等）。
开始练习
- 语音对话：按住 空格键 开始录音说话，松开即结束，AI 将实时语音回复。
- 文字交互：直接输入文字进行对话练习。
- 功能辅助：支持查看翻译、回听自己的录音、以及跟随高亮单词跟读。
导出记录 练习结束后，可将对话记录导出保存，便于复盘复习。

版本历史

v0.3.52023/08/21

v0.3.42023/07/04

v0.3.32023/07/02

v0.3.22023/06/28

v0.3.12023/06/28

v0.2.12023/05/09

v0.3.72024/10/19

v0.3.62023/12/14

v0.2.02023/04/27

v0.1.12023/04/15

v0.0.02023/04/04

常见问题

遇到"Unexpected end of JSON input"或连接错误怎么办？

如何播放我输入内容的语音（TTS）以练习发音？

为什么录音功能一直卡住或报错？

接入 ChatGPT API 时报错"Unexpected token < in JSON at position 0"如何解决？

Mac M 系列芯片（Apple Silicon）用户可以使用原生版本吗？

提示"语音合成失败，StatusCode: 1006"或无法选择语言/音色怎么办？

国内用户可以使用国内的 API Key 吗？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架