voice-ai

528 85 较难 1 次阅读今天NOASSERTIONAgent音频开发框架

AI 解读由 AI 自动生成，仅供参考

Rapida 是一个开源的端到端语音 AI 编排平台，旨在帮助开发者高效构建实时对话式语音智能体。它解决了传统语音应用开发中音频流处理延迟高、组件集成复杂以及生产环境稳定性难以保障等痛点，将语音识别（STT）、语音合成（TTS）、静音检测（VAD）及多通道集成等关键环节统一整合。

该平台特别适合需要部署大规模、高可靠性语音服务的后端工程师和 AI 开发者。无论是希望快速验证原型的初创团队，还是追求极致性能的企业级用户，都能通过 Rapida 灵活适配各类大语言模型（LLM）和现有业务栈。

Rapida 的核心技术亮点在于其基于 Go 语言编写，并采用高度优化的 gRPC 协议进行双向通信，确保了低延迟的音频流传输与高效的系统响应。此外，它提供了深度的可观测性能力，让开发者能清晰监控通话日志、延迟分解及工具调用轨迹，同时具备完善的错误重试机制和生命周期管理，确保在生产负载下的稳定运行。通过模块化的架构设计，Rapida 让构建自定义工具链和集成后端服务变得简单直观，是打造下一代实时语音交互应用的理想基石。

使用场景

某大型电商平台的客服团队急需升级其电话系统，以部署能实时处理退货查询和订单修改的智能语音助手。

没有 voice-ai 时

延迟高且体验差：自行拼接 STT、LLM 和 TTS 服务导致音频流转延迟超过 2 秒，用户经常因等待过久而打断对话或挂断电话。
故障排查如“盲人摸象”：缺乏统一的监控面板，当通话中断或响应错误时，开发团队无法快速定位是网络问题、模型超时还是音频流丢失。
集成与维护成本高昂：每更换一个大语言模型或调整业务逻辑，都需要重写大量底层音频流处理代码，且难以保证高并发下的稳定性。
状态管理混乱：在多轮对话中难以精准维护上下文状态，导致助手经常忘记用户刚才提供的订单号，需要反复询问。

使用 voice-ai 后

毫秒级实时响应：利用 voice-ai 基于 gRPC 的低延迟音频流编排，将端到端响应时间压缩至 500 毫秒以内，对话流畅自然如同真人。
全链路可观测性：通过内置的仪表盘，团队能实时查看每通电话的延迟分解、工具调用轨迹和错误日志，故障定位时间从小时级缩短至分钟级。
灵活架构与快速迭代：借助其无关模型（LLM-Agnostic）架构，团队可无缝切换不同的 AI 模型或自定义后端工具，无需重构核心代码即可上线新功能。
可靠的状态编排：voice-ai 原生的代理状态管理机制确保了复杂多轮对话的上下文一致性，准确识别用户意图并一次性完成退货流程。

voice-ai 通过提供生产级的实时音频编排与深度可观测性，帮助企业在数天内构建出稳定、低延迟且易于维护的规模化语音智能体。

运行环境要求

操作系统

未说明

GPU

未说明

内存

16GB+

依赖

notes该项目主要基于 Go 语言和 Docker 容器化部署。核心运行依赖为 Docker 和 Docker Compose，建议内存至少 16GB 以运行所有服务。若选择非 Docker 本地开发模式，需单独安装 PostgreSQL、Redis 和 OpenSearch。前端 UI 部分需要 Node.js 环境（使用 Yarn 管理）。项目支持通过环境变量配置各类 API 密钥（如 OpenAI, Anthropic, Twilio 等）。

python未说明

Docker

Docker Compose

PostgreSQL

Redis

OpenSearch

Node.js/Yarn

快速开始

Rapida：端到端语音编排平台

Rapida 是一个用于设计、构建和大规模部署语音代理的开源平台。
它围绕三大核心原则构建：

可靠 — 专为生产级工作负载、实时音频和容错执行而设计
可观测性 — 深度洞察通话、延迟、指标及工具使用情况
可定制 — 灵活的架构，可适配任何大模型、工作流或企业级技术栈

Rapida 同时提供平台和框架，用于构建真实的语音代理——从低延迟音频流到编排、监控和集成。

Rapida 使用 Go 语言编写，并采用高度优化的 gRPC 协议，实现快速高效的双向通信。

架构

Rapida 平台架构

特性

实时语音编排
使用 gRPC 以低延迟流式传输和处理音频。
大模型无关架构
支持自定义模型——OpenAI、Anthropic、开源模型或自定义推理服务。
生产级可靠性
内置重试机制、错误处理、通话生命周期管理及健康检查。
全面可观测性
包括通话日志、流式事件、工具追踪、延迟细分、指标和仪表盘。
灵活的工具系统
可为您的代理构建自定义工具和动作，或与任何后端系统集成。
开发者友好
清晰的 API、模块化组件和简单配置。
企业就绪
可扩展的设计、高效协议和可预测的性能。

文档与指南

https://doc.rapida.ai

前提条件

Docker 和 Docker Compose（安装）
16GB+ 内存（适用于所有服务）

快速入门

只需四条命令即可运行所有服务：

# 克隆仓库
git clone https://github.com/rapidaai/voice-ai.git && cd voice-ai

# 设置并构建
make setup-local && make build-all

# 启动所有服务
make up-all

# 查看正在运行的服务
docker compose ps

服务已就绪（make up-all）：

UI：http://localhost:3000
API 网关（nginx）：http://localhost:8080
Web API：默认仅限内部访问（容器网络）
助手 API：http://localhost:9007
终端点 API：http://localhost:9005
集成 API：http://localhost:9004

如需包含知识服务（OpenSearch + 文档 API），请运行：

make up-all-with-knowledge

随后：

文档 API：http://localhost:9010

停止服务：

make down-all

开发

针对特定服务开发

# 仅启动数据库
make up-db

# 仅启动 UI
make up-ui

# 仅启动助手 API
make up-assistant

# 列出所有启动命令
make help

查看日志

# 所有服务
make logs-all

# 特定服务
make logs-web
make logs-assistant

代码变更后重建

# 重建并重启单个服务
make rebuild-assistant

# 重建全部
make rebuild-all

配置服务

在启动前编辑环境文件：

docker/web-api/.web.env - Web API（端口 9001）
docker/assistant-api/.assistant.env - 助手 API（端口 9007）
docker/endpoint-api/.endpoint.env - 终端点 API（端口 9005）
docker/integration-api/.integration.env - 集成 API（端口 9004）
docker/document-api/config.yaml - 文档 API（端口 9010）

在这些文件中添加您的 API 密钥（例如 OpenAI、Anthropic、Deepgram、Twilio 等）。

本地开发（无需 Docker）

Go 服务

# 安装依赖
go mod download

# 构建服务
go build -o bin/web ./cmd/web

# 运行服务
./bin/web

需要单独运行 PostgreSQL、Redis 和 OpenSearch。

React UI

cd ui

# 安装并运行
yarn install
yarn start:dev

# 构建用于生产
yarn build

故障排除

端口已被占用：

lsof -i :3000    # 查找进程
kill -9 <PID>    # 杀死该进程

服务无法启动：

make logs-all    # 检查日志
docker compose ps  # 验证状态

数据库问题：

# 测试连接
docker compose exec postgres psql -U rapida -d web_db -c "SELECT 1"

# 重置一切
make clean
make setup-local
make build-all
make up-all

所有命令

make help          # 显示所有可用命令
make setup-local   # 创建数据目录
make build-all     # 构建所有 Docker 镜像
make up-all        # 启动所有服务
make down-all      # 停止所有服务
make logs-all      # 查看所有日志
make clean         # 移除容器和卷
make restart-all   # 重启所有服务

贡献

请参阅 CONTRIBUTING.md 获取指南。

想要添加：

新的 STT/TTS 提供商？请查看 api/assistant-api/internal/transformer/
新的电话渠道？请查看 api/assistant-api/internal/telephony/

SDK 和工具

客户端 SDK

客户端 SDK 使您的前端能够支持交互式多用户体验。

语言	仓库	文档
Web (React)	rapida-react	文档
Web 小部件 (react)	react-widget

服务器 SDK

服务器 SDK 使您的后端能够构建和管理智能体。

语言	仓库	文档
Go	rapida-go	文档
Python	rapida-python	文档

贡献

对于希望贡献代码的开发者，请参阅我们的贡献指南。同时，也请通过在社交媒体以及各类活动和会议上分享 RapidaAi 来支持我们。

安全披露

为保护您的隐私，请勿在 GitHub 上公开安全问题。如有相关问题，请发送至 contact@rapida.ai，我们的团队将为您提供详细的解答。

许可证

Rapida 采用 GPL-2.0 开源许可证，并附加以下条件：

开源用户必须在 UI 组件中保持 Rapida 标志的可见性。
未来的许可条款可能会发生变化，但这不会影响已发布的版本。

针对企业使用，我们提供商业许可证，该许可证允许：

移除品牌标识
进行闭源使用
进行私有化修改如需了解详情，请联系 sales@rapida.ai。

Rapida Voice AI 快速上手指南

Rapida 是一个开源的端到端语音编排平台，专为构建高可靠、可观测且可扩展的实时语音助手而设计。核心采用 Go 语言和 gRPC 协议，支持低延迟音频流处理及任意大模型（LLM）集成。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (需安装 WSL2)
核心依赖：
- Docker 及 Docker Compose
- Git
硬件要求：
- 内存：16GB 或以上（运行全套服务所需）
- CPU：建议 4 核以上
网络配置：
- 需确保能访问 GitHub 以拉取代码。
- 若需使用特定 AI 模型或电话服务，请提前准备好相关 API Key（如 OpenAI, Anthropic, Deepgram, Twilio 等）。

提示：国内开发者若遇到 git clone 速度慢的问题，可使用国内镜像源加速，或在克隆后手动替换远程地址。

安装步骤

通过以下 4 个命令即可在本地启动全套服务：

克隆仓库并进入目录

git clone https://github.com/rapidaai/voice-ai.git && cd voice-ai

初始化环境与构建镜像
```
make setup-local && make build-all
```
启动所有服务
```
make up-all
```
(可选) 若需包含知识库服务（OpenSearch + Document API），请运行：
```
make up-all-with-knowledge
```
验证服务状态
```
docker compose ps
```

基本使用

服务启动成功后，您可以通过以下地址访问核心组件：

用户界面 (UI): http://localhost:3000
API 网关: http://localhost:8080
Assistant API: http://localhost:9007
Endpoint API: http://localhost:9005
Integration API: http://localhost:9004
Document API (仅当运行 up-all-with-knowledge 时): http://localhost:9010

配置 API Keys

在首次使用前，您需要配置第三方服务的凭证。编辑对应的环境变量文件：

Web API: docker/web-api/.web.env
Assistant API: docker/assistant-api/.assistant.env
Endpoint API: docker/endpoint-api/.endpoint.env
Integration API: docker/integration-api/.integration.env

在文件中填入您的 OPENAI_API_KEY, DEEPGRAM_API_KEY 等密钥，然后重启服务使其生效：

make restart-all

开发与调试

如果您需要针对特定服务进行开发或查看日志，可以使用以下快捷命令：

启动单个服务 (例如只启动数据库或 UI)：
```
make up-db
make up-ui
```

查看日志：

# 查看所有服务日志
make logs-all
# 查看特定服务日志
make logs-assistant

代码修改后重建：

# 重建并重启 Assistant 服务
make rebuild-assistant

停止服务

完成测试后，停止所有容器：

make down-all

如需彻底清理数据卷和容器，可执行：

make clean

版本历史

v2.1.02026/04/01

v2.0.22026/03/17

v2.0.2-pre2026/03/17

v2.0.1-pre2026/03/09

v2.0.02026/02/24

v0.1.32026/01/26

v0.1.22026/01/19

v0.1.12026/01/07

v1.0.02026/01/03

常见问题

为什么运行数据库迁移时会报错或导致表缺失？

如何在本地部署和配置 Twilio 进行语音通话集成？

配置 Twilio Webhook 时收到 404 错误怎么办？

如何部署 Web Widget 进行测试？遇到“未认证请求”错误如何解决？

是否支持 Asterisk PBX 集成？如何配置？

创建知识库时选择 Gemini/Google 嵌入模型为何验证失败？

在哪里可以找到本地服务器设置和依赖故障排除的详细文档？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像