voicemode

GitHub
975 134 中等 1 次阅读 今天MIT音频
AI 解读 由 AI 自动生成,仅供参考

VoiceMode 是一款让开发者能够与 Claude Code 进行自然双向语音对话的开源工具。它并非旨在完全取代键盘输入,而是填补了双手或双眼被占用时的交互空白。无论是通勤途中、做饭时调试代码,还是长时间面对屏幕后想让眼睛休息,用户只需开口说话,即可立即听到 AI 的回应,实现真正的“解放双手”编程体验。

该工具主要解决了传统命令行交互必须依赖键盘和视觉专注的局限,让编码辅助变得更加灵活便捷。它特别适合软件开发者、运维工程师以及任何频繁使用 Claude Code 的技术人员,帮助他们在多任务场景下保持高效的工作流。

在技术亮点方面,VoiceMode 支持低延迟对话,具备智能静音检测功能,能自动识别说话结束并停止录音。更值得一提的是其隐私友好设计:既支持调用云端服务,也允许完全离线运行。通过集成本地的 Whisper(语音转文字)和 Kokoro(文字转语音)模型,用户可以在不上传数据的情况下享受流畅的语音交互,且能在本地与云服务间无缝切换。目前,VoiceMode 已兼容 Linux、macOS 及 Windows (WSL) 等主流开发环境。

使用场景

资深后端工程师李明正在厨房准备晚餐,同时需要紧急修复一个线上服务的并发 Bug,此时他的双手沾满面粉,眼睛也因全天盯着屏幕而疲惫不堪。

没有 voicemode 时

  • 必须频繁洗手并擦干才能触碰键盘和鼠标,严重打断烹饪节奏和思路连续性。
  • 为了看清代码逻辑不得不凑近屏幕,导致眼睛在强光与油烟环境中更加干涩疲劳。
  • 只能利用碎片时间简短回复文字指令,无法向 Claude Code 完整口述复杂的调试思路和上下文。
  • 在锅具沸腾的噪音环境下,难以专注进行多轮次的代码逻辑推演和错误排查。
  • 被迫在“完成家务”和“修复故障”之间做单选,导致要么菜烧糊了,要么上线延迟。

使用 voicemode 后

  • 直接通过自然语音与 Claude Code 双向对话,无需洗手或触碰设备即可全程主导调试过程。
  • 彻底解放双眼,仅凭听觉接收代码修改建议和运行结果,让视力在烹饪间隙得到充分休息。
  • 能够流畅地口述完整的故障复现步骤和假设,voicemode 智能识别静音并实时转录给 AI 分析。
  • 即使在抽油烟机和沸水声中,也能通过低延迟的语音交互保持连贯的思维流,像与同事面对面讨论一样高效。
  • 完美实现“边做饭边修 Bug",既保证了晚餐按时上桌,又利用空闲时间迅速解决了生产问题。

voicemode 的核心价值在于将开发者从屏幕和键盘的物理束缚中解放出来,让编码对话自然融入行走、烹饪或休息等双手被占用的真实生活场景中。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows (WSL)
  • NixOS
GPU

未说明(支持完全本地运行 Whisper.cpp 和 Kokoro,通常可由 CPU 驱动,未强制要求 GPU)

内存

未说明

依赖
notes该工具主要作为 Claude Code 的插件运行。推荐使用 'uv' 包管理器安装。若需离线或隐私保护模式,可配置本地语音服务(Whisper.cpp 用于语音转文字,Kokoro 用于文字转语音)。在 WSL2 环境下使用麦克风需要安装 pulseaudio 相关包。若使用云端服务需配置 OPENAI_API_KEY。
python3.10-3.14
ffmpeg
portaudio
libasound2-dev (Linux)
uv (包管理器)
Whisper.cpp (可选,本地 STT)
Kokoro (可选,本地 TTS)
voicemode hero image

快速开始

VoiceMode

与 Claude Code(以及其他支持 MCP 的代理)进行自然的语音对话

PyPI 下载量 PyPI 下载量 PyPI 下载量

VoiceMode 让你能够与 Claude Code 进行自然的语音对话。语音并不是要取代打字——它是在无法打字时依然可以使用的工具。

非常适合:

  • 去往下一个会议的路上
  • 烹饪时调试代码
  • 在长时间盯着屏幕后让眼睛休息一下
  • 手里拿着咖啡(或抱着狗狗)
  • 任何双手或眼睛被占用的时刻

实际演示

VoiceMode 演示

快速开始

要求: 配备麦克风和扬声器的电脑

方法 1:Claude Code 插件(推荐)

对于 Claude Code 用户来说,这是最快速的入门方式:

# 添加 VoiceMode 市场
claude plugin marketplace add mbailey/voicemode

# 安装 VoiceMode 插件
claude plugin install voicemode@voicemode

## 安装依赖项(CLI、本地语音服务)

/voicemode:install

# 开始对话!
/voicemode:converse

方法 2:Python 安装包

安装依赖项和 VoiceMode Python 包。

# 安装 UV 包管理器(如果需要)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 运行安装程序(设置依赖项和本地语音服务)
uvx voice-mode-install

# 添加到 Claude Code
claude mcp add --scope user voicemode -- uvx --refresh voice-mode

# 可选:添加 OpenAI API 密钥作为本地服务的备用
export OPENAI_API_KEY=your-openai-key

# 开始对话
claude converse

如需手动设置,请参阅 入门指南

功能

  • 自然对话——自然地说话,立即听到回应
  • 离线可用——可选本地语音服务(Whisper STT、Kokoro TTS)
  • 低延迟——速度快,感觉就像真实的对话
  • 智能静音检测——当你停止说话时会自动停止录音
  • 隐私选项——完全在本地运行,或使用云服务

兼容性

平台: Linux、macOS、Windows(WSL)、NixOS
Python: 3.10–3.14

配置

VoiceMode 无需额外配置即可使用。如需自定义:

# 设置 OpenAI API 密钥(如果使用云服务)
export OPENAI_API_KEY="your-key"

# 或通过文件进行配置
voicemode config edit

有关所有选项,请参阅 配置指南

权限设置(可选)

若希望在不出现权限提示的情况下使用 VoiceMode,可在 ~/.claude/settings.json 中添加以下内容:

{
  "permissions": {
    "allow": [
      "mcp__voicemode__converse",
      "mcp__voicemode__service"
    ]
  }
}

更多选项请参阅 权限指南

本地语音服务

为保护隐私或在离线状态下使用,可安装本地语音服务:

  • Whisper.cpp——本地语音转文本
  • Kokoro——本地文本转语音,支持多种声音

这些服务提供与 OpenAI 相同的 API,因此 VoiceMode 可以无缝切换它们之间。

安装详情

各平台的系统依赖

Ubuntu/Debian

sudo apt update
sudo apt install -y ffmpeg gcc libasound2-dev libasound2-plugins libportaudio2 portaudio19-dev pulseaudio pulseaudio-utils python3-dev

WSL2 用户:上述 pulseaudio 软件包是访问麦克风所必需的。

Fedora/RHEL

sudo dnf install alsa-lib-devel ffmpeg gcc portaudio portaudio-devel python3-devel

macOS

brew install ffmpeg node portaudio

NixOS

# 使用开发环境
nix develop github:mbailey/voicemode

# 或者系统级安装
nix profile install github:mbailey/voicemode
其他安装方法

从源码安装

git clone https://github.com/mbailey/voicemode.git
cd voicemode
uv tool install -e .

NixOS 系统级安装

# 在 /etc/nixos/configuration.nix 中
environment.systemPackages = [
  (builtins.getFlake "github:mbailey/voicemode").packages.${pkgs.system}.default
];

故障排除

问题 解决方案
无法访问麦克风 检查终端或应用的权限。WSL2 需要 pulseaudio 软件包。
未找到 UV 运行 curl -LsSf https://astral.sh/uv/install.sh | sh
OpenAI API 错误 确认 OPENAI_API_KEY 是否正确设置
无音频输出 检查系统音频设置和可用设备

保存音频用于调试

export VOICEMODE_SAVE_AUDIO=true
# 文件将保存到 ~/.voicemode/audio/YYYY/MM/

文档

完整文档:voice-mode.readthedocs.io

链接

许可证

MIT——Failmode 项目


mcp-name: com.failmode/voicemode

版本历史

v8.5.12026/03/13
v8.5.02026/03/07
v8.4.02026/03/05
v8.3.02026/02/24
v8.2.12026/02/19
v8.2.02026/02/13
v8.1.02026/02/02
v8.0.82026/01/28
v8.0.72026/01/28
v8.0.62026/01/28
v8.0.52026/01/28
v8.0.42026/01/28
v8.0.32026/01/28
v8.0.22026/01/24
v8.0.12026/01/24
v8.0.02026/01/24
v7.4.22026/01/16
v7.4.12026/01/16
v7.4.02026/01/06
v7.3.02026/01/06

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|昨天
图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|2天前
音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|4天前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|5天前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|3天前
音频

airi

airi 是一款开源的本地化 AI 伴侣项目,旨在将虚拟角色(如“二次元老婆”或赛博生命)带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力,让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手,airi 允许用户在本地运行,不仅保护了对话隐私,还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天,甚至能直接参与《我的世界》(Minecraft)和《异星工厂》(Factorio)等游戏,实现了从单纯对话到共同娱乐的跨越。 这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者,以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持(涵盖 Web、macOS 和 Windows)以及强大的游戏交互能力,让 AI 不仅能“说”,还能“玩”。通过容器化的灵魂设计,airi 为每个人创造专属数字生命提供了可能,让虚拟陪伴变得更加真实且触手可及。

37.1k|★☆☆☆☆|2天前
语言模型音频Agent