[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-rapidaai--voice-ai":3,"tool-rapidaai--voice-ai":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":77,"owner_website":79,"owner_url":80,"languages":81,"stars":120,"forks":121,"last_commit_at":122,"license":123,"difficulty_score":124,"env_os":125,"env_gpu":125,"env_ram":126,"env_deps":127,"category_tags":136,"github_topics":138,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":158,"updated_at":159,"faqs":160,"releases":196},8711,"rapidaai\u002Fvoice-ai","voice-ai","Rapida is an open-source, end-to-end voice AI orchestration platform for building real-time conversational voice agents with audio streaming, STT, TTS, VAD, multi-channel integration, agent state management, and observability.","Rapida 是一个开源的端到端语音 AI 编排平台，旨在帮助开发者高效构建实时对话式语音智能体。它解决了传统语音应用开发中音频流处理延迟高、组件集成复杂以及生产环境稳定性难以保障等痛点，将语音识别（STT）、语音合成（TTS）、静音检测（VAD）及多通道集成等关键环节统一整合。\n\n该平台特别适合需要部署大规模、高可靠性语音服务的后端工程师和 AI 开发者。无论是希望快速验证原型的初创团队，还是追求极致性能的企业级用户，都能通过 Rapida 灵活适配各类大语言模型（LLM）和现有业务栈。\n\nRapida 的核心技术亮点在于其基于 Go 语言编写，并采用高度优化的 gRPC 协议进行双向通信，确保了低延迟的音频流传输与高效的系统响应。此外，它提供了深度的可观测性能力，让开发者能清晰监控通话日志、延迟分解及工具调用轨迹，同时具备完善的错误重试机制和生命周期管理，确保在生产负载下的稳定运行。通过模块化的架构设计，Rapida 让构建自定义工具链和集成后端服务变得简单直观，是打造下一代实时语音交互应用的理想基石。","\u003Cpicture>\n  \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_readme_8acef6dd4c7e.jpg\">\n  \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_readme_8acef6dd4c7e.jpg\">\n  \u003Cimg style=\"width:100%;\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_readme_8acef6dd4c7e.jpg\" alt=\"Banner\">\n\u003C\u002Fpicture>\n\n# Rapida: End-to-End Voice Orchestration Platform\n\n[Rapida](https:\u002F\u002Frapida.ai) is an open-source platform for designing, building, and deploying voice agents at scale.  \nIt’s built around three core principles:\n\n- **Reliable** — designed for production workloads, real-time audio, and fault-tolerant execution\n- **Observable** — deep visibility into calls, latency, metrics, and tool usage\n- **Customizable** — flexible architecture that adapts to any LLM, workflow, or enterprise stack\n\nRapida provides both a **platform** and a **framework** for building real-world voice agents—from low-latency audio streaming to orchestration, monitoring, and integrations.\n\nRapida is written in **Go**, using the highly optimized [gRPC](https:\u002F\u002Fgithub.com\u002Fgrpc\u002Fgrpc-go) protocol for fast, efficient, bidirectional communication.\n\n[![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Frapidaai\u002Fvoice-ai?style=social&label=Star&maxAge=2592000)](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fstargazers\u002F)\n[![Twitter Follow](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Frapidaai)](https:\u002F\u002Ftwitter.com\u002Frapidaai)\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Join%20Us-5865F2?logo=discord&logoColor=white)](https:\u002F\u002Fdiscord.gg\u002FZTZPsxD4St)\n[![Book a Meeting](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBook%20a%20Meeting-Cal.com-blue)](https:\u002F\u002Fcal.com\u002Fprashant-srivastav-u8duzh\u002F30min)\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Frapidaai\u002Fvoice-ai)\n[![CodeQL](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Factions\u002Fworkflows\u002Fgithub-code-scanning\u002Fcodeql\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Factions\u002Fworkflows\u002Fgithub-code-scanning\u002Fcodeql)\n[![GitHub release (latest SemVer)](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Frapidaai\u002Fvoice-ai)](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Freleases\u002Flatest)\n\n---\n\n## Architecture\n\n![Rapida Platform Architecture](.github\u002Frapida-platform-architecture.svg)\n\n---\n\n## Features\n\n- **Real-time Voice Orchestration**  \n  Stream and process audio with low latency using GRPC.\n\n- **LLM-Agnostic Architecture**  \n  Bring your own model—OpenAI, Anthropic, open-source models, or custom inference.\n\n- **Production-grade Reliability**  \n  Built-in retries, error handling, call lifecycle management, and health checks.\n\n- **Full Observability**  \n  Call logs, streaming events, tool traces, latency breakdowns, metrics, and dashboards.\n\n- **Flexible Tooling System**  \n  Build custom tools and actions for your agents, or integrate with any backend.\n\n- **Developer-friendly**  \n  Clear APIs, modular components, and simple configuration.\n\n- **Enterprise-ready**  \n  Scalable design, efficient protocol, and predictable performance.\n\n## Documentation & Guides\n\nhttps:\u002F\u002Fdoc.rapida.ai\n\n## Prerequisites\n\n- **Docker** & **Docker Compose** ([Install](https:\u002F\u002Fwww.docker.com\u002F))\n- **16GB+ RAM** (for all services)\n\n---\n\n## Quick Start\n\nGet all services running in 4 commands:\n\n```bash\n# Clone repo\ngit clone https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai.git && cd voice-ai\n\n# Setup & build\nmake setup-local && make build-all\n\n# Start all services\nmake up-all\n\n# View running services\ndocker compose ps\n```\n\n**Services Ready (`make up-all`):**\n\n- UI: http:\u002F\u002Flocalhost:3000\n- API Gateway (nginx): http:\u002F\u002Flocalhost:8080\n- Web API: internal-only by default (container network)\n- Assistant API: http:\u002F\u002Flocalhost:9007\n- Endpoint API: http:\u002F\u002Flocalhost:9005\n- Integration API: http:\u002F\u002Flocalhost:9004\n\nTo include knowledge services (OpenSearch + Document API), run:\n\n```bash\nmake up-all-with-knowledge\n```\n\nThen:\n\n- Document API: http:\u002F\u002Flocalhost:9010\n\n**Stop services:**\n\n```bash\nmake down-all\n```\n\n---\n\n## Development\n\n### Work on Specific Services\n\n```bash\n# Start only database\nmake up-db\n\n# Start only UI\nmake up-ui\n\n# Start only Assistant API\nmake up-assistant\n\n# List all start commands\nmake help\n```\n\n### View Logs\n\n```bash\n# All services\nmake logs-all\n\n# Specific service\nmake logs-web\nmake logs-assistant\n```\n\n### Rebuild After Code Changes\n\n```bash\n# Rebuild and restart one service\nmake rebuild-assistant\n\n# Rebuild all\nmake rebuild-all\n```\n\n### Configure Services\n\nEdit environment files before starting:\n\n- `docker\u002Fweb-api\u002F.web.env` - Web API (port 9001)\n- `docker\u002Fassistant-api\u002F.assistant.env` - Assistant API (port 9007)\n- `docker\u002Fendpoint-api\u002F.endpoint.env` - Endpoint API (port 9005)\n- `docker\u002Fintegration-api\u002F.integration.env` - Integration API (port 9004)\n- `docker\u002Fdocument-api\u002Fconfig.yaml` - Document API (port 9010)\n\nAdd your API keys (OpenAI, Anthropic, Deepgram, Twilio, etc.) in these files.\n\n---\n\n## Local Development (Without Docker)\n\n### Go Services\n\n```bash\n# Install dependencies\ngo mod download\n\n# Build service\ngo build -o bin\u002Fweb .\u002Fcmd\u002Fweb\n\n# Run service\n.\u002Fbin\u002Fweb\n```\n\nRequires PostgreSQL, Redis, OpenSearch running separately.\n\n### React UI\n\n```bash\ncd ui\n\n# Install & run\nyarn install\nyarn start:dev\n\n# Build for production\nyarn build\n```\n\n---\n\n## Troubleshooting\n\n**Port already in use:**\n\n```bash\nlsof -i :3000    # Find process\nkill -9 \u003CPID>    # Kill it\n```\n\n**Services won't start:**\n\n```bash\nmake logs-all    # Check logs\ndocker compose ps  # Verify status\n```\n\n**Database issues:**\n\n```bash\n# Test connection\ndocker compose exec postgres psql -U rapida -d web_db -c \"SELECT 1\"\n\n# Reset everything\nmake clean\nmake setup-local\nmake build-all\nmake up-all\n```\n\n---\n\n## All Commands\n\n```bash\nmake help          # Show all available commands\nmake setup-local   # Create data directories\nmake build-all     # Build all Docker images\nmake up-all        # Start all services\nmake down-all      # Stop all services\nmake logs-all      # View all logs\nmake clean         # Remove containers & volumes\nmake restart-all   # Restart all services\n```\n\n---\n\n## Contributing\n\nSee [CONTRIBUTING.md](CONTRIBUTING.md) for guidelines.\n\nWant to add:\n\n- New STT\u002FTTS provider? Check `api\u002Fassistant-api\u002Finternal\u002Ftransformer\u002F`\n- New telephony channel? Check `api\u002Fassistant-api\u002Finternal\u002Ftelephony\u002F`\n\n---\n\n## SDKs & Tools\n\n### Client SDKs\n\nClient SDKs enable your frontend to include interactive, multi-user experiences.\n\n| Language           | Repo                                                     | Docs                                                     |\n| :----------------- | :------------------------------------------------------- | :------------------------------------------------------- |\n| Web (React)        | [rapida-react](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Frapida-react) | [docs](https:\u002F\u002Fdoc.rapida.ai\u002Fapi-reference\u002Finstallation) |\n| Web Widget (react) | [react-widget](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Freact-widget) |                                                          |\n\n### Server SDKs\n\nServer SDKs enable your backend to build and manage agents.\n\n| Language | Repo                                                       | Docs                                                      |\n| :------- | :--------------------------------------------------------- | :-------------------------------------------------------- |\n| Go       | [rapida-go](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Frapida-go)         | [docs](https:\u002F\u002Fdoc.rapida.ai\u002Fapi-reference\u002Finstallation)  |\n| Python   | [rapida-python](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Frapida-python) | [docs](https:\u002F\u002Fdoc.rapida.ai\u002Fapi-reference\u002Finstallation\u002F) |\n\n## Contributing\n\nFor those who'd like to contribute code, see our [Contribution Guide](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fblob\u002Fmain\u002FCONTRIBUTING.md).\nAt the same time, please consider supporting RapidaAi by sharing it on social media and at events and conferences.\n\n## Security disclosure\n\nTo protect your privacy, please avoid posting security issues on GitHub. Instead, report issues to contact@rapida.ai, and our team will respond with detailed answer.\n\n## License\n\nRapida is open-source under the GPL-2.0 license, with additional conditions:\n\n- Open-source users must keep the Rapida logo visible in UI components.\n- Future license terms may change; this does not affect released versions.\n\nA commercial license is available for enterprise use, which allows:\n\n- Removal of branding\n- Closed-source usage\n- Private modifications\n  Contact sales@rapida.ai for details.\n","\u003Cpicture>\n  \u003Csource media=\"(prefers-color-scheme: dark)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_readme_8acef6dd4c7e.jpg\">\n  \u003Csource media=\"(prefers-color-scheme: light)\" srcset=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_readme_8acef6dd4c7e.jpg\">\n  \u003Cimg style=\"width:100%;\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_readme_8acef6dd4c7e.jpg\" alt=\"Banner\">\n\u003C\u002Fpicture>\n\n# Rapida：端到端语音编排平台\n\n[Rapida](https:\u002F\u002Frapida.ai) 是一个用于设计、构建和大规模部署语音代理的开源平台。  \n它围绕三大核心原则构建：\n\n- **可靠** — 专为生产级工作负载、实时音频和容错执行而设计\n- **可观测性** — 深度洞察通话、延迟、指标及工具使用情况\n- **可定制** — 灵活的架构，可适配任何大模型、工作流或企业级技术栈\n\nRapida 同时提供**平台**和**框架**，用于构建真实的语音代理——从低延迟音频流到编排、监控和集成。\n\nRapida 使用 **Go** 语言编写，并采用高度优化的 [gRPC](https:\u002F\u002Fgithub.com\u002Fgrpc\u002Fgrpc-go) 协议，实现快速高效的双向通信。\n\n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Frapidaai\u002Fvoice-ai?style=social&label=Star&maxAge=2592000)](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fstargazers\u002F)\n[![Twitter 关注](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Frapidaai)](https:\u002F\u002Ftwitter.com\u002Frapidaai)\n[![Discord](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Join%20Us-5865F2?logo=discord&logoColor=white)](https:\u002F\u002Fdiscord.gg\u002FZTZPsxD4St)\n[![预约会议](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBook%20a%20Meeting-Cal.com-blue)](https:\u002F\u002Fcal.com\u002Fprashant-srivastav-u8duzh\u002F30min)\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Frapidaai\u002Fvoice-ai)\n[![CodeQL](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Factions\u002Fworkflows\u002Fgithub-code-scanning\u002Fcodeql\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Factions\u002Fworkflows\u002Fgithub-code-scanning\u002Fcodeql)\n[![GitHub 发布（最新 SemVer）](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Frapidaai\u002Fvoice-ai)](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Freleases\u002Flatest)\n\n---\n\n## 架构\n\n![Rapida 平台架构](.github\u002Frapida-platform-architecture.svg)\n\n---\n\n## 特性\n\n- **实时语音编排**  \n  使用 gRPC 以低延迟流式传输和处理音频。\n\n- **大模型无关架构**  \n  支持自定义模型——OpenAI、Anthropic、开源模型或自定义推理服务。\n\n- **生产级可靠性**  \n  内置重试机制、错误处理、通话生命周期管理及健康检查。\n\n- **全面可观测性**  \n  包括通话日志、流式事件、工具追踪、延迟细分、指标和仪表盘。\n\n- **灵活的工具系统**  \n  可为您的代理构建自定义工具和动作，或与任何后端系统集成。\n\n- **开发者友好**  \n  清晰的 API、模块化组件和简单配置。\n\n- **企业就绪**  \n  可扩展的设计、高效协议和可预测的性能。\n\n## 文档与指南\n\nhttps:\u002F\u002Fdoc.rapida.ai\n\n## 前提条件\n\n- **Docker** 和 **Docker Compose**（[安装](https:\u002F\u002Fwww.docker.com\u002F)）\n- **16GB+ 内存**（适用于所有服务）\n\n---\n\n## 快速入门\n\n只需四条命令即可运行所有服务：\n\n```bash\n# 克隆仓库\ngit clone https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai.git && cd voice-ai\n\n# 设置并构建\nmake setup-local && make build-all\n\n# 启动所有服务\nmake up-all\n\n# 查看正在运行的服务\ndocker compose ps\n```\n\n**服务已就绪（`make up-all`）：**\n\n- UI：http:\u002F\u002Flocalhost:3000\n- API 网关（nginx）：http:\u002F\u002Flocalhost:8080\n- Web API：默认仅限内部访问（容器网络）\n- 助手 API：http:\u002F\u002Flocalhost:9007\n- 终端点 API：http:\u002F\u002Flocalhost:9005\n- 集成 API：http:\u002F\u002Flocalhost:9004\n\n如需包含知识服务（OpenSearch + 文档 API），请运行：\n\n```bash\nmake up-all-with-knowledge\n```\n\n随后：\n\n- 文档 API：http:\u002F\u002Flocalhost:9010\n\n**停止服务：**\n\n```bash\nmake down-all\n```\n\n---\n\n## 开发\n\n### 针对特定服务开发\n\n```bash\n# 仅启动数据库\nmake up-db\n\n# 仅启动 UI\nmake up-ui\n\n# 仅启动助手 API\nmake up-assistant\n\n# 列出所有启动命令\nmake help\n```\n\n### 查看日志\n\n```bash\n# 所有服务\nmake logs-all\n\n# 特定服务\nmake logs-web\nmake logs-assistant\n```\n\n### 代码变更后重建\n\n```bash\n# 重建并重启单个服务\nmake rebuild-assistant\n\n# 重建全部\nmake rebuild-all\n```\n\n### 配置服务\n\n在启动前编辑环境文件：\n\n- `docker\u002Fweb-api\u002F.web.env` - Web API（端口 9001）\n- `docker\u002Fassistant-api\u002F.assistant.env` - 助手 API（端口 9007）\n- `docker\u002Fendpoint-api\u002F.endpoint.env` - 终端点 API（端口 9005）\n- `docker\u002Fintegration-api\u002F.integration.env` - 集成 API（端口 9004）\n- `docker\u002Fdocument-api\u002Fconfig.yaml` - 文档 API（端口 9010）\n\n在这些文件中添加您的 API 密钥（例如 OpenAI、Anthropic、Deepgram、Twilio 等）。\n\n---\n\n## 本地开发（无需 Docker）\n\n### Go 服务\n\n```bash\n# 安装依赖\ngo mod download\n\n# 构建服务\ngo build -o bin\u002Fweb .\u002Fcmd\u002Fweb\n\n# 运行服务\n.\u002Fbin\u002Fweb\n```\n\n需要单独运行 PostgreSQL、Redis 和 OpenSearch。\n\n### React UI\n\n```bash\ncd ui\n\n# 安装并运行\nyarn install\nyarn start:dev\n\n# 构建用于生产\nyarn build\n```\n\n---\n\n## 故障排除\n\n**端口已被占用：**\n\n```bash\nlsof -i :3000    # 查找进程\nkill -9 \u003CPID>    # 杀死该进程\n```\n\n**服务无法启动：**\n\n```bash\nmake logs-all    # 检查日志\ndocker compose ps  # 验证状态\n```\n\n**数据库问题：**\n\n```bash\n# 测试连接\ndocker compose exec postgres psql -U rapida -d web_db -c \"SELECT 1\"\n\n# 重置一切\nmake clean\nmake setup-local\nmake build-all\nmake up-all\n```\n\n---\n\n## 所有命令\n\n```bash\nmake help          # 显示所有可用命令\nmake setup-local   # 创建数据目录\nmake build-all     # 构建所有 Docker 镜像\nmake up-all        # 启动所有服务\nmake down-all      # 停止所有服务\nmake logs-all      # 查看所有日志\nmake clean         # 移除容器和卷\nmake restart-all   # 重启所有服务\n```\n\n---\n\n## 贡献\n\n请参阅 [CONTRIBUTING.md](CONTRIBUTING.md) 获取指南。\n\n想要添加：\n\n- 新的 STT\u002FTTS 提供商？请查看 `api\u002Fassistant-api\u002Finternal\u002Ftransformer\u002F`\n- 新的电话渠道？请查看 `api\u002Fassistant-api\u002Finternal\u002Ftelephony\u002F`\n\n---\n\n## SDK 和工具\n\n### 客户端 SDK\n\n客户端 SDK 使您的前端能够支持交互式多用户体验。\n\n| 语言           | 仓库                                                     | 文档                                                     |\n| :----------------- | :------------------------------------------------------- | :------------------------------------------------------- |\n| Web (React)        | [rapida-react](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Frapida-react) | [文档](https:\u002F\u002Fdoc.rapida.ai\u002Fapi-reference\u002Finstallation) |\n| Web 小部件 (react) | [react-widget](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Freact-widget) |                                                          |\n\n### 服务器 SDK\n\n服务器 SDK 使您的后端能够构建和管理智能体。\n\n| 语言   | 仓库                                                       | 文档                                                      |\n| :------- | :--------------------------------------------------------- | :-------------------------------------------------------- |\n| Go       | [rapida-go](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Frapida-go)         | [文档](https:\u002F\u002Fdoc.rapida.ai\u002Fapi-reference\u002Finstallation)  |\n| Python   | [rapida-python](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Frapida-python) | [文档](https:\u002F\u002Fdoc.rapida.ai\u002Fapi-reference\u002Finstallation\u002F) |\n\n## 贡献\n\n对于希望贡献代码的开发者，请参阅我们的[贡献指南](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fblob\u002Fmain\u002FCONTRIBUTING.md)。同时，也请通过在社交媒体以及各类活动和会议上分享 RapidaAi 来支持我们。\n\n## 安全披露\n\n为保护您的隐私，请勿在 GitHub 上公开安全问题。如有相关问题，请发送至 contact@rapida.ai，我们的团队将为您提供详细的解答。\n\n## 许可证\n\nRapida 采用 GPL-2.0 开源许可证，并附加以下条件：\n\n- 开源用户必须在 UI 组件中保持 Rapida 标志的可见性。\n- 未来的许可条款可能会发生变化，但这不会影响已发布的版本。\n\n针对企业使用，我们提供商业许可证，该许可证允许：\n\n- 移除品牌标识\n- 进行闭源使用\n- 进行私有化修改\n如需了解详情，请联系 sales@rapida.ai。","# Rapida Voice AI 快速上手指南\n\nRapida 是一个开源的端到端语音编排平台，专为构建高可靠、可观测且可扩展的实时语音助手而设计。核心采用 Go 语言和 gRPC 协议，支持低延迟音频流处理及任意大模型（LLM）集成。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux, macOS 或 Windows (需安装 WSL2)\n*   **核心依赖**：\n    *   [Docker](https:\u002F\u002Fwww.docker.com\u002F) 及 Docker Compose\n    *   Git\n*   **硬件要求**：\n    *   内存：**16GB 或以上**（运行全套服务所需）\n    *   CPU：建议 4 核以上\n*   **网络配置**：\n    *   需确保能访问 GitHub 以拉取代码。\n    *   若需使用特定 AI 模型或电话服务，请提前准备好相关 API Key（如 OpenAI, Anthropic, Deepgram, Twilio 等）。\n\n> **提示**：国内开发者若遇到 `git clone` 速度慢的问题，可使用国内镜像源加速，或在克隆后手动替换远程地址。\n\n## 安装步骤\n\n通过以下 4 个命令即可在本地启动全套服务：\n\n1.  **克隆仓库并进入目录**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai.git && cd voice-ai\n    ```\n\n2.  **初始化环境与构建镜像**\n    ```bash\n    make setup-local && make build-all\n    ```\n\n3.  **启动所有服务**\n    ```bash\n    make up-all\n    ```\n    *(可选)* 若需包含知识库服务（OpenSearch + Document API），请运行：\n    ```bash\n    make up-all-with-knowledge\n    ```\n\n4.  **验证服务状态**\n    ```bash\n    docker compose ps\n    ```\n\n## 基本使用\n\n服务启动成功后，您可以通过以下地址访问核心组件：\n\n*   **用户界面 (UI)**: http:\u002F\u002Flocalhost:3000\n*   **API 网关**: http:\u002F\u002Flocalhost:8080\n*   **Assistant API**: http:\u002F\u002Flocalhost:9007\n*   **Endpoint API**: http:\u002F\u002Flocalhost:9005\n*   **Integration API**: http:\u002F\u002Flocalhost:9004\n*   **Document API** (仅当运行 `up-all-with-knowledge` 时): http:\u002F\u002Flocalhost:9010\n\n### 配置 API Keys\n\n在首次使用前，您需要配置第三方服务的凭证。编辑对应的环境变量文件：\n\n*   Web API: `docker\u002Fweb-api\u002F.web.env`\n*   Assistant API: `docker\u002Fassistant-api\u002F.assistant.env`\n*   Endpoint API: `docker\u002Fendpoint-api\u002F.endpoint.env`\n*   Integration API: `docker\u002Fintegration-api\u002F.integration.env`\n\n在文件中填入您的 `OPENAI_API_KEY`, `DEEPGRAM_API_KEY` 等密钥，然后重启服务使其生效：\n```bash\nmake restart-all\n```\n\n### 开发与调试\n\n如果您需要针对特定服务进行开发或查看日志，可以使用以下快捷命令：\n\n*   **启动单个服务** (例如只启动数据库或 UI)：\n    ```bash\n    make up-db\n    make up-ui\n    ```\n*   **查看日志**：\n    ```bash\n    # 查看所有服务日志\n    make logs-all\n    # 查看特定服务日志\n    make logs-assistant\n    ```\n*   **代码修改后重建**：\n    ```bash\n    # 重建并重启 Assistant 服务\n    make rebuild-assistant\n    ```\n\n### 停止服务\n\n完成测试后，停止所有容器：\n```bash\nmake down-all\n```\n\n如需彻底清理数据卷和容器，可执行：\n```bash\nmake clean\n```","某大型电商平台的客服团队急需升级其电话系统，以部署能实时处理退货查询和订单修改的智能语音助手。\n\n### 没有 voice-ai 时\n- **延迟高且体验差**：自行拼接 STT、LLM 和 TTS 服务导致音频流转延迟超过 2 秒，用户经常因等待过久而打断对话或挂断电话。\n- **故障排查如“盲人摸象”**：缺乏统一的监控面板，当通话中断或响应错误时，开发团队无法快速定位是网络问题、模型超时还是音频流丢失。\n- **集成与维护成本高昂**：每更换一个大语言模型或调整业务逻辑，都需要重写大量底层音频流处理代码，且难以保证高并发下的稳定性。\n- **状态管理混乱**：在多轮对话中难以精准维护上下文状态，导致助手经常忘记用户刚才提供的订单号，需要反复询问。\n\n### 使用 voice-ai 后\n- **毫秒级实时响应**：利用 voice-ai 基于 gRPC 的低延迟音频流编排，将端到端响应时间压缩至 500 毫秒以内，对话流畅自然如同真人。\n- **全链路可观测性**：通过内置的仪表盘，团队能实时查看每通电话的延迟分解、工具调用轨迹和错误日志，故障定位时间从小时级缩短至分钟级。\n- **灵活架构与快速迭代**：借助其无关模型（LLM-Agnostic）架构，团队可无缝切换不同的 AI 模型或自定义后端工具，无需重构核心代码即可上线新功能。\n- **可靠的状态编排**：voice-ai 原生的代理状态管理机制确保了复杂多轮对话的上下文一致性，准确识别用户意图并一次性完成退货流程。\n\nvoice-ai 通过提供生产级的实时音频编排与深度可观测性，帮助企业在数天内构建出稳定、低延迟且易于维护的规模化语音智能体。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Frapidaai_voice-ai_98693823.png","rapidaai","RapidaAI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Frapidaai_64db6efd.png","",null,"prashant@rapida.ai","https:\u002F\u002Frapida.ai","https:\u002F\u002Fgithub.com\u002Frapidaai",[82,86,90,94,98,102,105,109,112,116],{"name":83,"color":84,"percentage":85},"Go","#00ADD8",50.8,{"name":87,"color":88,"percentage":89},"TypeScript","#3178c6",28.3,{"name":91,"color":92,"percentage":93},"Python","#3572A5",12.6,{"name":95,"color":96,"percentage":97},"CSS","#663399",3.5,{"name":99,"color":100,"percentage":101},"Shell","#89e051",1.9,{"name":103,"color":104,"percentage":101},"HTML","#e34c26",{"name":106,"color":107,"percentage":108},"C","#555555",0.3,{"name":110,"color":111,"percentage":108},"Makefile","#427819",{"name":113,"color":114,"percentage":115},"Dockerfile","#384d54",0.2,{"name":117,"color":118,"percentage":119},"SCSS","#c6538c",0.1,528,85,"2026-04-17T16:18:40","NOASSERTION",4,"未说明","16GB+",{"notes":128,"python":125,"dependencies":129},"该项目主要基于 Go 语言和 Docker 容器化部署。核心运行依赖为 Docker 和 Docker Compose，建议内存至少 16GB 以运行所有服务。若选择非 Docker 本地开发模式，需单独安装 PostgreSQL、Redis 和 OpenSearch。前端 UI 部分需要 Node.js 环境（使用 Yarn 管理）。项目支持通过环境变量配置各类 API 密钥（如 OpenAI, Anthropic, Twilio 等）。",[130,131,83,132,133,134,135],"Docker","Docker Compose","PostgreSQL","Redis","OpenSearch","Node.js\u002FYarn",[13,137,14],"音频",[139,140,141,142,143,144,145,146,147,148,149,65,150,151,152,153,154,155,156,157],"agent-framework","audio-streaming","golang","orchestration","realtime-audio","sip","speech-ai","speech-to-text","telephony","text-to-speech","voice-agents","voice-ai-agents","voice-ai-platform","voice-bot","voice-observability","open-source","voice-assistant-ai","ai-voice-agent","ai-voice","2026-03-27T02:49:30.150509","2026-04-18T09:20:54.333751",[161,166,171,176,181,186,191],{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},39015,"为什么运行数据库迁移时会报错或导致表缺失？","这通常是因为所有服务共用了同一个数据库，导致 schema_migrations 表发生冲突。例如，集成 API 可能检测到版本 2 但缺少对应的迁移文件，而助手 API 可能因为已有版本 2 记录而跳过了版本 1 的关键表创建。解决方案是确保每个服务使用独立的数据库，或者等待官方更新以支持单数据库多服务模式。如果是开发环境临时修复，需检查并补全缺失的迁移文件版本。","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F60",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},39016,"如何在本地部署和配置 Twilio 进行语音通话集成？","完整的 Twilio 本地部署文档已更新。关键配置包括：\n1. 入站呼叫：在 Twilio 控制台将 Webhook URL 指向正确的路由（通常涉及 \u002Fvoice 或特定 webhook 路径），并使用 ngrok 等工具映射本地地址。\n2. 出站呼叫：通过特定端点发起，服务器会生成 TwiML 响应。\n3. 媒体流：Twilio 需连接到指定的 WebSocket URL 以处理实时音频流。\n详细步骤请参阅官方文档：https:\u002F\u002Fdoc.rapida.ai\u002Fopensource\u002Fservices\u002Fassistant-api\u002Ftelephony\u002Ftwilio","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F73",{"id":172,"question_zh":173,"answer_zh":174,"source_url":175},39017,"配置 Twilio Webhook 时收到 404 错误怎么办？","404 错误通常意味着 HTTP 路由不匹配。请注意 Rapida 不同版本的 Webhook 方法差异：\n- 在 v0.1.3 及更早版本中，Twilio Voice Webhook 必须指向正确的 HTTP 端点并使用 POST 方法。\n- 在新版本的 Rapida 中，Twilio Voice Webhook 的方法已从 POST 更改为 GET。\n请检查您使用的 Rapida 版本，并在 Twilio 控制台中相应地调整 Webhook 的 HTTP 方法（POST 或 GET）以及 URL 路径。","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F71",{"id":177,"question_zh":178,"answer_zh":179,"source_url":180},39018,"如何部署 Web Widget 进行测试？遇到“未认证请求”错误如何解决？","该问题已在最新版本中修复。如果您在部署 Web Widget 时遇到\"unauthenticated request for create assistant webplugin deployment\"错误，请尝试升级到最新版本。同时，请参考最新的 Web Widget 部署文档进行操作：https:\u002F\u002Fdoc.rapida.ai\u002Fvoice-deployment-options\u002Fweb-widget。确保按照文档步骤正确配置认证信息和部署参数。","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F74",{"id":182,"question_zh":183,"answer_zh":184,"source_url":185},39019,"是否支持 Asterisk PBX 集成？如何配置？","是的，Rapida 现在支持 Asterisk 集成。您可以通过以下两种方式连接：\n1. AudioSocket\n2. WebSocket\n这允许您将 Asterisk 直接连接到 Rapida 的实时语音编排层，同时保留对电话栈的完全控制。适用于本地 PBX 部署、私有云 Asterisk 集群或自定义 SIP 路由环境。详细配置文档请访问：https:\u002F\u002Fdoc.rapida.ai\u002Fintegrations\u002Ftelephony\u002Fasterisk","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F67",{"id":187,"question_zh":188,"answer_zh":189,"source_url":190},39020,"创建知识库时选择 Gemini\u002FGoogle 嵌入模型为何验证失败？","这是因为较旧的 Gemini\u002FGoogle 嵌入模型（如 text-embedding-004 等）已被弃用。即使 UI 显示已选中，后端验证也会失败。解决方法是：请在创建知识库时选择当前受支持的 Gemini 嵌入模型版本，或者切换到其他可用的提供商和模型组合。建议查看最新文档以获取当前支持的模型列表。","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F66",{"id":192,"question_zh":193,"answer_zh":194,"source_url":195},39021,"在哪里可以找到本地服务器设置和依赖故障排除的详细文档？","官方已更新详细的本地安装和故障排除文档，涵盖了构建和运行所有所需服务器的逐步指南。您可以访问以下链接获取最新信息：https:\u002F\u002Fdoc.rapida.ai\u002Fopensource\u002Finstallation。该文档旨在帮助贡献者在无需外部协助的情况下成功在本地构建和运行服务。","https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fissues\u002F58",[197,202,207,212,217,222,227,232,237],{"id":198,"version":199,"summary_zh":200,"released_at":201},314942,"v2.1.0","# Rapida v2.1.0 — 内置可观测性，功能比大多数托管平台更丰富。\n\nRapida 是唯一一个完全开源的语音 AI 平台：您可以自行部署整个技术栈，查看每次通话中各环节的延迟情况，通过配置轻松切换任意服务提供商，并完全掌控您的数据。\n\n不再需要外部媒体服务器，也不再需要用胶水代码拼接起来的碎片化系统。只需纯粹的工程实现。\n\n---\n\n## 每个环节的遥测数据\n\n现在，每通电话都会跟踪整个语音处理流程中各个细粒度环节的延迟信息，无需任何外部工具。\n\n- **语音转文本（STT）延迟** — 从音频帧到转写结果中的第一个词元所用的时间\n- **大模型首字节响应时间（TTFB）** — 每轮对话的推理延迟\n- **文本转语音（TTS）首字节响应时间（TTFB）** — 每次合成的延迟\n- **时长指标** — 端到端通话各阶段的详细时长，并支持下钻分析\n- **可配置的遥测提供者** — 提供 CRUD API，允许您为每个助手接入自定义的遥测导出器\n- **仪表盘可视化** — 所有指标均可在 Rapida 的 UI 中查看，既可按单次通话展示，也可进行聚合统计\n\n衡量您自己的流程，找出瓶颈所在，并基于数据进行优化。\n\n---\n\n## 流式管道架构重写\n\n执行层已被重构为流式管道架构。\n\n- **大模型执行器抽象** — 将 AgentKit、基于模型的后端以及 WebSocket 大模型后端清晰分离\n- **执行器到管道的重构** — 调度循环现在通过统一的管道流转，而非独立的执行器\n- **管道优化** — 降低内存分配开销，提升流式处理吞吐量\n- **输入规范化器** — 在大模型推理之前对结构化输入进行预处理\n\n---\n\n## 基于 JSON 的服务提供商配置\n\n添加新的 STT、TTS 或大模型服务提供商，不再需要深入了解代码库。\n\n- 服务提供商配置以声明式 JSON 格式定义\n- 避免了集成新服务时的大量样板代码\n- 已与现有服务提供商矩阵一起经过验证和测试\n\n---\n\n## 内联降噪\n\n- 将降噪功能集成到音频输入管道中\n- 降噪在 VAD 之前直接运行，从而在嘈杂环境中提高语音检测的准确性\n- 调度系统中新增 `DenoiseAudioPacket` 和 `DenoisedAudioPacket` 两种数据包类型\n\n---\n\n## 用户体验全面升级\n\n- **简化助手创建流程** — 步骤更少，默认设置更优，流程更流畅\n- **模型设置弹窗** — 无需离开助手视图即可配置大模型参数\n- **简化部署流程** — 更快进入生产环境\n- **多代理工作空间管理** — 可在一个工作空间中管理多个代理\n- **分析界面优化** — 更新了创建分析的流程，可视化效果更好\n- **系统变量提示** — 对预留的提示变量提供自动补全\n- **参数建议** — 对工具\u002F函数的参数提供内联建议\n\n---\n\n## 错误修复\n\n- Google STT 的超时处理\n- 遥测提供者配置中的凭据下拉菜单\n- 知识工具仅在启用该功能时才会加载\n- 句子边界后的空格保留","2026-04-01T05:59:30",{"id":203,"version":204,"summary_zh":205,"released_at":206},314943,"v2.0.2","## v2.0.2 — 更智能的聆听，更完善的测试\n\nRapida 如今 **听得更清楚，并且懂得何时停止聆听。** 本次发布引入了可插拔的语音活动检测与语音结束引擎、全面的提供商测试套件，以及多项关键基础设施升级。\n\n---\n\n### 亮点\n\n**可插拔 VAD 及语音结束检测** — 您的智能助手现在拥有了真正能识别您何时说完的“耳朵”。\n\n| 引擎 | 类型       | 工作原理                                       |\n|------|------------|------------------------------------------------|\n| **LiveKit EOS** | 语音结束检测 | 基于 ONNX 的轮次检测，具备聊天场景感知推理能力 |\n| **Pipecat EOS** | 语音结束检测 | 通过梅尔频谱图分析实现精准的语音边界检测     |\n| **基于静音的 EOS** | 语音结束检测 | 可配置的静音阈值作为后备方案                   |\n| **TEN VAD**   | 语音活动检测 | 轻量级实时语音活动检测                         |\n| **FireRed VAD** | 语音活动检测 | 基于 ONNX 的 VAD，采用 fbank 特征提取           |\n\n所有模型均在构建时打包并下载——无需运行时动态获取。\n\n**音频心跳机制** — 新增的保活机制可在自然停顿期间防止过早触发语音结束信号，使对话更加自然流畅。\n\n---\n\n### 测试与可靠性\n\n- **完整的 STT\u002FTTS 测试覆盖** — 涵盖所有提供商的集成与单元测试：Google、Deepgram、ElevenLabs、Cartesia、AssemblyAI、Azure、Sarvam、Rime、Speechmatics\n- **Google STT 自动重连** — 在长时间通话中，能够自动从“流超时”错误中恢复\n- 针对静态数据包发送及 ElevenLabs TTS 的流修复\n\n---\n\n### 基础设施\n\n- 所有服务及 Docker 基础镜像均升级至 Go 1.25.8\n- CI 管道已更新以支持新版本的 Go\n- 开发配置中默认启用知识库与遥测功能\n\n---\n\n### Web 小部件与部署\n\n- 为 Web 插件部署新增空闲超时退避配置\n- 修复了实体中 `ideal_timeout` → `idle_timeout` 的拼写错误（迁移 `000009`、`000010`）\n- 生产环境部署测试与修复\n\n---\n\n### UI 优化\n\n- 所有列表页面采用一致的卡片式设计\n- 修复配置表单中的多选输入问题\n- 对齐日期选择器样式\n- 更新文档 API 的集成桥接\n- 新增 VAD\u002F语音结束检测配置面板，并提供合理默认值\n\n---\n\n### SDK 与示例\n\n更新了 SDK（Python、React、React 小部件）及示例（Go、Node.js、Python、React）至最新版本。\n\n---\n\n### 社区\n\n- 欢迎加入我们的 [Discord](https:\u002F\u002Fdiscord.gg\u002FqKNzjBkh)\n- [预约会议](https:\u002F\u002Fcal.com\u002Fprashant-srivastav-u8duzh\u002F30min) 与团队交流\n\n---\n\n### 升级指南\n\n```bash\ngit pull origin main\ndocker compose down\ndocker compose up -d --build\n```\n\n> 助理 API 的迁移 `000009` 和 `000010` 将在启动时自动执行。\n\n**完整差异对比：** [`v2.0.1-pre...v2.0.2`](https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fcompare\u002Fv2.0.1-pre...v2.0.2)","2026-03-17T09:34:56",{"id":208,"version":209,"summary_zh":210,"released_at":211},314944,"v2.0.2-pre","## v2.0.2-pre 中的变更\n\n### 语音活动检测 (VAD) 和语音结束引擎\n语音处理管道现在支持**可插拔的 VAD 和语音结束 (EOS) 检测**，使您能够精细控制智能体何时开始和停止监听。\n\n#### 新增 EOS 引擎\n- **LiveKit EOS** — 基于 ONNX 的发言者切换检测，配备自定义分词器和聊天模板推理（`livekit\u002Fturn_detector.go`）\n- **Pipecat EOS** — 基于梅尔频谱图的语音结束检测，采用平台特定的 ONNX 推理（`pipecat\u002Fmel_spectrogram.go`）\n- **基于静音的 EOS** — 可配置的静音阈值回退机制（`silence_based\u002Fsilence_based_end_of_speech.go`）\n\n#### 新增 VAD 提供商\n- **TEN VAD** — 轻量级语音活动检测器\n- **FireRed VAD** — 基于 ONNX 的 VAD，配备 fbank 特征提取和后处理模块\n\n所有 VAD\u002FEOS ONNX 模型现均已打包到代码库中，并在 Docker 构建时下载——无需在运行时动态获取模型。\n- `48df33c0` `1ef73aec` `03332e79` `41980364` `f9c53e5a` `b047e755`\n\n#### 音频心跳机制\n新增音频心跳机制，以保持语音管道的活跃状态并优化语音结束触发时机，防止过早切断。\n- `03332e79` 功能：音频心跳优化语音结束触发\n\n#### UI 配置\n新增 UI 面板，用于配置 VAD 提供商设置（FireRed、Silero、TEN）和 EOS 提供商设置（LiveKit EOS），并提供合理的默认值。\n- `31c2d51d` `31538388`\n\n---\n\n### 全面的 STT\u002FTTS 测试套件\n新增了针对**所有 STT、TTS 和集成服务提供商**的集成测试和单元测试：Google、Deepgram、ElevenLabs、Cartesia、AssemblyAI、Azure、Sarvam、Rime、Speechmatics。包含共享的测试工具，用于音频测试用例、凭据加载和指标收集。\n- `0d96809c` 功能：为所有 STT、TTS 和集成服务添加集成与单元测试\n- `3328f404`（来自 v2.0.1-pre）对 STT 和 TTS 集成进行测试与重构\n\n---\n\n### Google STT 自动重连\nGoogle STT 流现在在遇到“流在未收到更多客户端请求后超时”错误时会自动重连，从而避免长时间通话中的无声 STT 故障。\n- `ca9e1b8d` 功能：为 Google STT 添加流超时重连功能\n\n---\n\n### 基础设施与构建\n\n#### Go 1.25.8\n将所有服务及基础 Docker 镜像中的 Go 版本升级至 1.25.8。\n- `949288ad` `3b591ec0`\n\n#### CI\n更新 CI 工作流以适配新的 Go 版本，并在开发配置中启用知识\u002F遥测功能。\n- `3b591ec0` 杂项：将 Go 升级至 1.25.8，修复格式问题，并在开发环境中启用知识\u002F遥测功能\n\n---\n\n### Web 小部件与部署\n- 在 Web 插件部署中新增空闲超时退避配置（迁移 `000009`）\n- 修复拼写错误：将实体中的 `ideal_timeout` 重命名为 `idle_timeout`（迁移 `000010`）\n- Web 小部件部署的生产环境测试与修复\n- `a7b9707a` `095b9400`\n\n---\n\n### UI 改进\n- **卡片列表设计**在所有列表页面上实现统一（助手、知识库、集成、凭据）\n- **配置表单多输入**选择组件","2026-03-17T09:31:10",{"id":213,"version":214,"summary_zh":215,"released_at":216},314945,"v2.0.1-pre","### 新特性\n\n#### Rime TTS 集成\n新增 Rime 作为第 15 家 TTS 提供商。可通过助手配置中的 `tts.provider: rime` 进行设置。\n- `69f453f5` 功能：添加 Rime 实现\n\n#### 外部遥测与指标\n将调用遥测和性能指标推送至您自己的可观测性堆栈（Prometheus、Datadog 等）。\n- `fe5899f8` 功能：指标与遥测\n- `48a542ff` 功能：将遥测和指标推送至外部系统\n\n#### Docker 配置文件\n支持有或无知识库模块的部署。OpenSearch 现在完全可选。\n```bash\n# 不带知识库\ndocker compose up -d\n\n# 带知识库\ndocker compose --profile knowledge up -d\n```\n- `a691152f` 功能：添加用于有\u002F无知识库部署的 Docker 配置文件\n- `b89cc01b` 功能：使用 Compose 覆盖文件根据配置文件自动配置环境变量\n- `d27ce98d` 修复：使 OpenSearch 配置对非知识库部署安全地变为可选\n- `89b37c60` 功能：移除本地部署中的知识库依赖\n- `57614f7f` 功能：将可选依赖项作为 document-api 引入\n\n#### 差分包调度\n新增差分包类型，通过基于优先级的调度器实现更高效的实时音频传输。\n- `ebf090ff` 功能：添加差分包\n- `fa5ce201` 功能：修复包调度相关问题\n\n#### 统一的 LLM 流式传输\n统一了所有 11 家以上 LLM 提供商的流式传输行为。语音管道中不再存在各提供商特有的差异。\n- `eff2494b` 功能：实现所有 LLM 的一致流式传输行为\n\n#### AgentKit 改进\n简化了 AgentKit 实现，并提升了测试覆盖率。\n- `6443646c` 功能：简化 AgentKit 实现\n- `8a9eab05` 功能：为 AgentKit 和模型添加测试\n- `b23b7dd7` 功能：为 AgentKit 测试和 UI 修复添加变更\n\n#### 调试器更新\n调试器 UI 中的指标信息比图表更加丰富。WebTalk 现已支持调试器。\n- `911ea238` 功能：更新调试器的 UI 组件\n- `a7752724` 修复：调整调试器和遥测的设计，以显示比图表更多的指标\n- `8b321a55` 功能：使 WebTalk 适配并支持调试器\n\n---\n\n### UI 变更\n\n#### IBM Carbon 设计系统迁移\n仪表板 UI 全面迁移到 IBM Carbon Design System v11。影响所有页面——助手配置、调试器、遥测以及核心工作流程。\n- `14a578c7` 功能：迁移到 IBM Carbon 设计模式\n- `86a0d6bd` 功能：按 IBM Carbon 设计理念重构设计\n- `01ccb972` 功能：按 IBM Carbon 设计理念重构设计\n- `5df065e1` 功能：添加与 IBM Carbon 设计对齐的变更\n\n---\n\n### 性能优化\n\n#### Docker 构建优化\n切换到 `rapidaai\u002Frapida-*` 基础镜像。移除了不必要的暴露端口，并固定使用 `linux\u002Famd64` 架构以确保本地构建的一致性。\n- `a42e98e6` 功能：使用 rapidaai\u002Frapida-* 基础镜像优化 Docker 构建\n- `908fe0f7` 功能：优化构建时间\n- `7074f973` 功能：优化构建时间\n- `9a332f36` 修复：简化构建流程\n- `40cd927c` 修复：固定本地构建的 linux\u002Famd64 平台","2026-03-09T03:24:24",{"id":218,"version":219,"summary_zh":220,"released_at":221},314946,"v2.0.0","## 变更内容\n\n### 电话通信：全新重构\n  - 统一的通道架构，跨 Twilio、Vonage、Exotel、Asterisk 和 SIP 共享\n  - 所有供应商之间一致处理中断、通话结束信号以及转移\u002F挂断事件\n  - 新增 \\`call_contexts\\` 表持久化通话状态——即使通话结束后，异步供应商回调也能正确解析\n  - 通道 UUID 端到端传递，确保转移和挂断操作的可靠性\n\n### 新增：SIP 集成\n  完整的原生 SIP 堆栈，支持 RTP 处理、SDP 协商、端口分配器和会话管理。\n\n### 新增：Asterisk \u002F AudioSocket\n  通过 AudioSocket 和 WebSocket 与 Asterisk 原生集成。已测试入站和出站呼叫流程。\n\n### 新增：WebRTC 通道\n  基于浏览器的语音功能，支持 Opus 编码和 gRPC 信令，与电话通信共享相同的健壮基础。\n\n### 音频管道：确定性帧处理\n  - 精确的 20 毫秒输出帧，每帧无堆内存分配\n  - 原子级中断——\\`ClearOutputBuffer\\` 会立即清空缓冲区并向输出写入器发送信号\n  - 每位发言人的录音拆分为 \\`assistant_recording_url\\` 和 \\`user_recording_url\\`\n\n### LLM 文本聚合器\n  在 LLM 流与 TTS 之间按句子边界进行聚合——通过可配置的分隔符和干净的上下文切换刷新，降低首词延迟。\n\n### 测试覆盖率\n  - 31 个 \\`BaseStreamer\\` 单元测试\n  - 完整的电话通信供应商测试套件（Twilio、Vonage、Exotel）\n  - AssemblyAI、Azure、Cartesia、Deepgram、ElevenLabs、Google、Resemble、Sarvam 的 Transformer 测试\n  - LLM 文本聚合器：972 行单元测试 + 381 行基准测试\n\n### 错误修复\n  - 修复 Google TTS 在输出超过 5 句时出现的过时响应问题\n  - 修复 AgentKit 执行器的稳定性问题\n  - 现在会在 LLM 链路追踪中记录首个 token 的响应时间\n  - MCP 工具支持代理工具调用\n\n## 破坏性变更 \u002F 迁移\n  | 迁移 | 变更 |\n  |---|---|\n  | \\`000005\\` | 需要新的 \\`call_contexts\\` 表 |\n  | \\`000006\\` | \\`recording_url\\` 拆分为 \\`assistant_recording_url\\` 和 \\`user_recording_url\\` |","2026-02-24T04:13:51",{"id":223,"version":224,"summary_zh":225,"released_at":226},314947,"v0.1.3","## 新特性\n\n### 模型上下文协议 (MCP) 和远程代理执行\n- **基于 WebSocket 的 LLM 执行器** — 通过 WebSocket 集成实现与语言模型的实时、低延迟通信，支持流式响应\n- **远程执行器和 AgentKit (gRPC)** — 支持在远程运行代理和模型，提升部署灵活性和可扩展性\n\n### MCP 工具实现\n- 新增工具，扩展与外部服务和 API 的集成能力\n\n## 改进\n\n### 前端及依赖更新\n- **React 依赖升级** — 更新至最新 React 依赖，提升安全性和性能\n- **更简洁的日志记录** — 移除不必要的日志，提供更专注的开发体验\n- **ESLint 修复** — 解决未处理的 lint 错误，保持代码库整洁\n\n### CI\u002FCD 与开发体验优化\n- **优化构建流水线** — 更新 CI 流程，跳过依赖 CGO 的包，并将 Trivy 安全扫描设置为非阻塞，以实现更快、更可靠的构建\n- **Go 代码风格改进** — 使用 golangci-lint 实现全面的自动格式化和编码规范强制执行，在 Docker 和 CI 中统一采用 Go 1.25 标准\n- **依赖安全性** — 更新软件包并改进审计流程，进一步提升安全防护水平\n\n### 稳定性与重构\n- 多项底层改进，提升系统可靠性和可维护性\n\n## 升级注意事项\n\n- **无破坏性变更** — 使用现有功能的应用程序仍完全兼容\n- **建议验证** — 使用新 LLM 执行路径或远程部署功能的应用程序应进行测试\n- **重新安装依赖** — 开发人员应通过 `npm install` 和 `go mod download` 更新依赖项","2026-01-26T04:17:28",{"id":228,"version":229,"summary_zh":230,"released_at":231},314948,"v0.1.2","\r\n## 面向产品经理\r\n\r\n### 新功能与能力\r\n\r\n- **会话管理控制** - 最大会话时长、空闲超时、超时提示消息、超时退避\r\n- **提供商特定的 SSML 规范器** - 针对每个 TTS 提供商的智能文本规范器，确保在 Azure、Google 等不同提供商之间实现自然的声音输出\r\n- **Google STT 模型验证** - 所有 Google 语音转文本模型均已测试，并优化默认置信度阈值至 0.5\r\n- **轮次检测优化** - 优化对话轮次检测，实现自然的人机语音交互\r\n\r\n### 新增提供商支持\r\n\r\n- **Sarvam AI** - 文本转语音和语音转文本（印度语言专家）\r\n- **AssemblyAI** - 具有全面语言支持的语音转文本提供商\r\n- **Cartesia** - 语音转文本模型支持\r\n- **Azure Foundry 和 Vertex AI** - 扩展了用于 LLM 交互的文本模型选项\r\n\r\n### 电话功能改进\r\n\r\n- **统一呼叫处理** - 合并了呼入和呼出逻辑（Exotel）\r\n- **智能超时退避** - 通过自适应超时机制提升通话体验\r\n\r\n### 仪表板与 UI\r\n\r\n- **V3 仪表板** - 全新体验，新增电话功能可见性和 STT 验证\r\n- **调试器中的句子分词器** - 增强对话分析能力\r\n- **UI 消息序列化** - 改进消息流可视化效果\r\n\r\n---\r\n\r\n## 面向开发者\r\n\r\n### 新功能\r\n\r\n- **maxSessionDuration** - 对话会话允许的最大时长（以秒为单位）。强制执行对话长度硬性限制，以管理资源和成本\r\n- **idealTimeout** - 空闲超时时长（以秒为单位）。若在此期间未检测到用户输入，系统将提示用户\r\n- **idealTimeoutMessage** - 空闲超时时触发的自定义提示消息或语音提示（例如：“您还在吗？”）\r\n- **idealTimeoutBackoff** - 显示超时提示消息后，在采取进一步行动之前的退避间隔（以秒为单位）。为用户提供响应的宽限期\r\n\r\n### 后端变更（Go）\r\n\r\n- **模型执行器** - 修复了并发执行中的竞态条件\r\n- **工具系统** - 重构了工具调用的创建、编辑及结果处理流程\r\n- **语音结束检测** - 新系统支持可配置的提供商\r\n- **配置验证** - 添加了全面的配置测试\r\n\r\n### 前端变更（React\u002FTypeScript）\r\n\r\n- **工具组件** - 统一组件，共享钩子和类型\r\n- **提供商配置** - 新增用于 STT\u002FTTS 模型的 JSON 配置文件\r\n- **侧边栏上下文** - 新增用于侧边栏状态管理的上下文\r\n\r\n### 性能优化\r\n\r\n- **文本对话** - 不再初始化音频转换器（性能提升）\r\n- **多条消息 UI** - 修复了按 ID 分组的多条消息对齐问题\r\n\r\n### 依赖与安全\r\n\r\n- 更新了 React SDK 子模块\r\n- 更新了 Node 包（yarn.lock）\r\n- 应用了 Dependabot 安全补丁\r\n- 添加了 CodeQL 静态代码分析\r\n- 修复了 OAuth2 认证流程\r\n\r\n---\r\n\r\n## 总结\r\n\r\n本次发布引入了全面的会话…","2026-01-19T05:40:14",{"id":233,"version":234,"summary_zh":235,"released_at":236},314949,"v0.1.1","**新集成**\n电话\n- 集成 Exotel\n- 支持呼入和呼出电话\n- 流式音频管道已接入 Rapida 编排器\n\n**通话生命周期事件与坐席状态清晰映射**\n语音转文本\n- 集成 Sarvam STT\n- 支持流式转写\n- 处理部分和最终转录结果\n\n**负载下延迟一致性提升**\n- 修复 Bug & 稳定性改进\n- 修复长时间通话中的音频流不同步问题\n- 解决间歇性语音结束检测的边缘场景\n- 改进 STT 或 TTS 流重新启动时的错误处理\n- 修复异常挂断时的状态泄漏\n- 减少高频音频输入时的冗余日志\n\n**可靠性与内部优化**\n- 更安全地处理外部供应商超时\n- 针对接入失败提供更完善的重试和退避机制\n- 向编排器更清晰地上报失败信号\n- 对流式管道进行小幅性能优化\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Frapidaai\u002Fvoice-ai\u002Fcompare\u002Fv1.0.0...v0.1.1","2026-01-07T07:25:00",{"id":238,"version":239,"summary_zh":240,"released_at":241},314950,"v1.0.0","这是 Rapida 的首次公开发布。Rapida 是一款面向实际生产系统的开源端到端语音 AI 编排平台。\n\nRapida 致力于解决团队在大规模部署语音智能体时面临的三大难题：可靠性、可观测性以及可控性。\n\n本次发布包含以下功能：\n1. 实时语音编排  \n2. 低延迟处理的流式音频管道  \n3. 内置的 VAD 和语音结束检测\n\n可插拔的 AI 技术栈：\n1. 语音转文本（STT）集成  \n2. 基于大模型的智能体推理  \n3. 文本转语音（TTS）流式响应  \n\n生产级基础架构：\n1. 带状态的通话处理与路由  \n2. 基于 gRPC 的内部 API，确保高性能与高可靠性  \n3. 专为水平扩展而设计  \n\n原生支持可观测性：\n1. 可实时查看音频流、延迟及智能体执行情况  \n2. 支持调试交互，而非黑盒行为","2026-01-03T07:13:05"]