ElatoAI

1.5k 168 较难 1 次阅读昨天NOASSERTION开发框架音频插件Agent图像

AI 解读由 AI 自动生成，仅供参考

ElatoAI 是一款让微型硬件“开口说话”的开源解决方案，旨在将顶尖的实时语音 AI 能力带入 Arduino ESP32 等低成本嵌入式设备。它成功解决了在资源受限的边缘设备上实现长时、低延迟双向语音交互的难题，支持全球范围内超过 15 分钟的不间断流畅对话。

无论是想制作智能玩具、AI 陪伴机器人，还是开发新型语音交互设备的开发者与硬件爱好者，都能通过 ElatoAI 快速落地创意。用户无需深厚的底层通信知识，即可利用 OpenAI Realtime、Gemini Live、Grok、Eleven Labs 及 Hume AI 等前沿大模型，轻松定制拥有不同性格和音色的智能体。

其核心技术亮点在于结合了安全 WebSocket 加密传输与 Deno Edge Functions（边缘函数），不仅保障了通信的稳定性与安全性，还大幅降低了云端延迟。此外，ElatoAI 提供了完善的 DIY 硬件设计参考与手机控制端应用，并最新支持了在本地运行 Qwen、Mistral 等大模型的方案，让离线隐私保护成为可能。这让创造具备自然语音交互能力的智能设备变得前所未有的简单高效。

使用场景

一位创客开发者正试图为儿童教育市场打造一款能进行自然对话的智能陪伴玩偶，希望将其部署在低成本的 ESP32 硬件上。

没有 ElatoAI 时

对话延迟高且易中断：传统方案在 ESP32 上难以维持稳定的长连接，导致孩子说话后需等待数秒才有回应，且对话往往在几分钟内因超时断开，体验支离破碎。
开发门槛极高：开发者需要手动整合语音识别、大模型推理和语音合成多个独立服务，并自行解决 WebSocket 加密与边缘函数部署难题，耗时数周仍难调通。
声音机械缺乏情感：受限于本地算力或廉价 TTS 接口，玩偶的声音单调生硬，无法根据语境调整语气，难以吸引儿童注意力。
全球部署困难：缺乏统一的边缘运行时支持，设备在不同网络环境下连接不稳定，难以实现全球化量产部署。

使用 ElatoAI 后

流畅超长对话：依托 ElatoAI 优化的实时架构，玩偶基于 OpenAI Realtime 或 Gemini Live API，可实现超过 15 分钟无中断的低延迟双向语音交互，反应如真人般迅速。
一站式快速落地：通过 ElatoAI 提供的 Arduino 库和 Deno 边缘函数模板，开发者只需少量代码即可集成多种顶尖模型，将原本数周的联调工作缩短至几天。
拟人化情感语音：直接调用 Eleven Labs 或 Hume AI 等前沿模型，玩偶能拥有多种个性化音色，并根据对话内容展现丰富的情感起伏，极大提升用户粘性。
稳定全球互联：利用 ElatoAI 内置的安全 WebSocket 和全球边缘节点，设备无论身处何地都能保持加密稳定连接，轻松支撑大规模量产设备的并发需求。

ElatoAI 让低成本硬件瞬间具备顶尖的实时语音交互能力，彻底打破了智能玩具开发的性能与成本壁垒。

运行环境要求

操作系统

未说明

GPU

不需要 GPU

内存

ESP32 设备无需 PSRAM 即可运行

依赖

notes该项目主要是一个基于 ESP32-S3 微控制器的物联网 (IoT) 解决方案，而非传统的本地大模型推理软件。核心硬件为 ESP32-S3，无需额外显存或高性能 CPU。开发环境支持 PlatformIO 和 Arduino IDE。后端服务依赖 Deno Edge Functions 和 Supabase 数据库，前端基于 Next.js 部署在 Vercel。音频处理使用 Opus 编码，通信采用安全 WebSocket (WSS)。项目支持连接 OpenAI、Gemini、xAI 等云端 API，部分功能提及支持通过 MLX 运行本地模型（需参考关联的 local-ai-toys 项目），但本仓库核心侧重于边缘设备与云端的实时语音交互架构。

python未说明

PlatformIO

Arduino Framework

Next.js

Deno

Supabase

ArduinoJson

arduinoWebSockets

ESPAsyncWebServer

arduino-audio-tools

arduino-libopus

快速开始

新闻

2026年3月14日： Elato 刚刚推出了本地 AI 玩具。🎉🎉🎉 同时也是圆周率日！现在，您的 ESP32 设备可以通过 MLX 框架，支持前沿的本地 LLM 和 TTS 模型（如通义千问、Mistral 等），实现本地 AI 模型和语音生成。请在此处查看：https://www.github.com/akdeb/local-ai-toys。

👾 ElatoAI：在 Arduino ESP32 上运行的实时语音 AI 模型

基于 SoTA 语音模型的实时 AI 语音技术，运行于 ESP32 上，并结合安全的 WebSockets 和 Deno 边缘函数，可在全球范围内实现超过 15 分钟的不间断对话。我们目前支持 OpenAI 实时 API、Gemini Live API、xAI Grok Voice Agents API、Eleven Labs 对话式 AI 助手以及 Hume AI EVI-4。

📽️ 演示视频

视频链接：OpenAI 演示 | Gemini 演示 | Eleven Labs 演示 | Hume AI EVI-4 演示

👷‍♀️ DIY 硬件设计

📱 应用程序设计

通过 ElatoAI 的 Web 应用程序，您可以从手机上控制您的 ESP32 AI 设备。

⭐️ 核心语音 AI 特性

🌟 完整功能列表

实时语音到语音转换：由 OpenAI 实时 API、Gemini Live API、xAI Grok Voice Agent API、Eleven Labs 对话式 AI 助手以及 Hume AI EVI4 提供支持的即时语音转换。
创建自定义 AI 助手：创建具有不同个性与声音的自定义助手。
可定制的声音：从多种声音和个性中进行选择。
安全的 WebSockets：可靠且加密的 WebSocket 通信。
服务器端 VAD 转换检测：智能处理对话流程，确保流畅互动。
Opus 音频压缩：以最小带宽实现高质量音频流。
全球边缘性能：低延迟的 Deno 边缘函数，确保全球范围内的无缝对话。
ESP32 Arduino 框架：优化且易于使用的硬件集成。
对话历史记录：查看您的对话历史。
设备管理和认证：注册并管理您的设备。
用户认证：安全的用户身份验证与授权。
WebRTC 和 WebSockets 对话：您可以在 NextJS Web 应用程序上通过 WebRTC 与 AI 对话，也可以通过 ESP32 上的 WebSockets 进行交流。
音量控制：可通过 NextJS Web 应用程序控制 ESP32 扬声器的音量。
实时转录：您的对话实时转录将存储在 Supabase 数据库中。
OTA 更新：为 ESP32 固件提供无线更新。
带有 captive portal 的 Wi‑Fi 管理：您可以通过 ESP32 设备连接到 Wi‑Fi 网络或热点。
恢复出厂设置：可通过 NextJS Web 应用程序将 ESP32 设备恢复为出厂设置。
按钮与触摸支持：使用按钮或触摸传感器来控制 ESP32 设备。
无需 PSRAM：ESP32 设备运行语音到语音 AI 时不需要 PSRAM。
面向 Web 客户端的 OAuth：允许您的用户管理他们的 AI 角色和设备。
音高因子：可通过 NextJS Web 应用程序控制 AI 的音高，从而创造出卡通般的声音。
工具调用：从 ESP32 设备向 Deno 边缘函数调用工具和功能，构建完整的语音 AI 助手。
轻点唤醒：轻触触摸板即可将其从睡眠状态唤醒。

项目架构

ElatoAI 由三个主要组件组成：

前端客户端（由 Vercel 托管的 Next.js）——用于创建并与您的 AI 助手对话，并将其“发送”至您的 ESP32 设备。
边缘服务器函数（在 Deno/Supabase Edge 上运行的 Deno）——用于处理来自 ESP32 设备的 WebSocket 连接以及与 LLM 提供商的 API 调用。
ESP32 物联网客户端（PlatformIO/Arduino）——用于接收来自边缘服务器函数的 WebSocket 连接，并通过 Deno 边缘服务器将音频发送至 LLM 提供商。

🛠 技术栈

组件	使用的技术
前端	Next.js, Vercel
后端	Supabase DB
边缘函数	Deno/Supabase 上的 Deno 边缘函数
IoT 客户端	PlatformIO、Arduino 框架、ESP32-S3
音频编解码器	Opus
通信	安全 WebSockets
库	ArduinoJson、WebSockets、AsyncWebServer、ESP32_Button、Arduino Audio Tools、ArduinoLibOpus

高级流程图

flowchart TD
  subgraph 用户层
    UserInput[用户语音输入]
    UserOutput[AI生成的语音输出]
  end
  
  UserInput --> ESP32
  ESP32[ESP32 设备] -->|WebSocket| Edge[Deno 边缘函数]
  Edge -->|OpenAI API| OpenAI[OpenAI 实时 API]
  Edge -->|Gemini API| Gemini[Gemini Live API]
  Edge -->|xAI API| xAI[xAI Grok Voice Agent API]
  Edge -->|ElevenLabs API| ElevenLabs[ElevenLabs AI 代理]
  Edge -->|Hume API| Hume[Hume AI EVI4]
  OpenAI --> Edge
  Gemini --> Edge
  xAI --> Edge
  ElevenLabs --> Edge
  Hume --> Edge
  Edge -->|WebSocket| ESP32
  ESP32 --> UserOutput

项目结构

graph TD
  repo[ElatoAI]
  repo --> frontend[前端 Vercel NextJS]
  repo --> deno[Deno 边缘函数]
  repo --> esp32[ESP32 Arduino 客户端]
  deno --> supabase[Supabase 数据库]

  frontend --> supabase
  esp32 --> websockets[安全 WebSockets]
  esp32 --> opus[Opus 编解码器]
  esp32 --> audio_tools[arduino-audio-tools]
  esp32 --> libopus[arduino-libopus]
  esp32 --> ESPAsyncWebServer[ESPAsyncWebServer]

📊 重要统计数据

延迟: 全球范围内往返小于2秒
音频质量: Opus 编解码器，12kbps（高清晰度），采样率24kHz
不间断对话: 全球范围内最长可达15分钟连续对话
全球可用性: 通过边缘计算优化

🛡 安全性

使用安全 WebSockets (WSS) 进行加密数据传输
可选：使用256位AES对API密钥进行加密
使用 Supabase 数据库进行安全认证
所有表均采用 Postgres RLS

🚫 局限性

连接到边缘服务器时存在3-4秒的冷启动时间
已测试最长可支持17分钟的不间断对话
当超过设定的时钟时间时，边缘服务器会停止运行
ESP32上无法检测语音打断

🙌 贡献

我们非常重视您的贡献！以下是一些想法：

在ESP32上实现语音打断功能（与OpenAI配合）
~~添加对Arduino IDE的支持~~
~~添加Hume API客户端以实现情绪检测~~
在Deno边缘中添加MCP支持
~~接入Eleven Labs API用于语音生成~~
添加Azure OpenAI支持（相对容易） - 正在审核中
添加Cartesia支持
添加Amazon Nova支持
添加Deepgram支持

许可证

本项目采用 MIT 许可证授权 - 详情请参阅 LICENSE 文件。

欢迎查看我们的硬件产品：ElatoAI Products。如果您觉得这个项目有趣或有用，请在 GitHub 上为该项目点赞支持。⭐

ElatoAI 快速上手指南

ElatoAI 是一个基于 ESP32 的实时语音 AI 项目，支持连接 OpenAI、Gemini、xAI (Grok)、ElevenLabs 和 Hume AI 等主流大模型，实现低延迟的语音对话功能。本项目采用 Deno Edge Functions 处理 WebSocket 连接，无需 PSRAM 即可运行。

环境准备

系统要求

操作系统: Windows, macOS 或 Linux
硬件设备: ESP32 开发板（推荐 ESP32-S3，无需 PSRAM）
外设: 麦克风模块、扬声器/音频放大器、按钮或触摸传感器（可选）

前置依赖

请选择以下任一开发环境进行安装：

方案 A：PlatformIO (推荐)

Visual Studio Code
PlatformIO IDE 插件

方案 B：Arduino IDE

Arduino IDE (最新版本)
ESP32 板级支持包 (Board Manager)
以下库文件（需在库管理器中安装）：
- ArduinoJson by Benoit Blanchon
- arduinoWebSockets by Markus Sattler
- ESPAsyncWebServer (ESP32Async 版本)
- ESP32_Button
- arduino-audio-tools by Pschatzmann
- arduino-libopus by Pschatzmann

云端服务准备

在编译固件前，你需要准备以下云端资源（项目架构依赖）：

Supabase 项目: 用于数据库存储和用户认证。
Deno Deploy / Edge Functions: 用于部署后端 WebSocket 中转服务。
大模型 API Key: OpenAI, Google Gemini, xAI, ElevenLabs 或 Hume AI 的密钥。
前端部署 (可选): 将 Next.js 前端部署到 Vercel 以管理设备和对话。

注意: 具体的云端部署代码位于仓库的 frontend 和 deno 目录中，请先参考官方文档完成服务端部署，获取必要的配置参数（如 WebSocket URL、API Keys 等）。

安装步骤

以下以 PlatformIO 为例展示安装与编译流程（Arduino IDE 步骤类似，只需打开对应的 .ino 文件）。

1. 克隆项目

git clone https://github.com/akdeb/ElatoAI.git
cd ElatoAI

2. 配置项目

进入 esp32 目录，根据你部署的后端服务修改配置文件。通常需要在 src 目录下找到配置头文件（如 config.h 或通过 PlatformIO 的 platformio.ini 定义构建标志），填入以下信息：

WebSocket 服务器地址 (Deno Edge Function URL)
默认的大模型 Provider 及 API Key (或在 Web 端动态配置)
WiFi 凭证（或通过 Captive Portal 配网）

注：具体配置变量名请参考 esp32/src/main.cpp 或项目文档中的配置章节。

3. 编译与烧录

确保 ESP32 设备通过 USB 连接电脑，然后在 VS Code 底部状态栏点击 PlatformIO 的箭头图标，或运行以下命令：

# 进入 esp32 项目目录
cd esp32

# 编译并上传固件 (替换 <your_port> 为实际端口，如 /dev/ttyUSB0 或 COM3)
pio run --target upload --upload-port <your_port>

如果使用 Arduino IDE：

打开 esp32/src/main.cpp (或对应的主程序文件)。
选择正确的开发板型号 (Tools -> Board -> ESP32 Arduino -> Your Board)。
选择端口 (Tools -> Port)。
点击“上传”按钮。

基本使用

1. 设备启动与配网

给 ESP32 上电。
如果是首次使用，设备将启动 Captive Portal（热点配网模式）。
手机或电脑连接名为 ElatoAI-Setup (或类似名称) 的 WiFi 热点。
浏览器会自动弹出配置页面（若未弹出，访问 192.168.4.1）。
输入你的家庭 WiFi 账号和密码，保存后设备将重启并连接互联网。

2. 通过 Web 端控制

访问你部署的 Next.js 前端应用地址。
登录/注册账号（基于 Supabase 认证）。
在仪表盘中新建一个 AI Agent，选择声音角色和大模型提供商（如 OpenAI Realtime API）。
确保 ESP32 设备已在线，它会自动连接到边缘服务器并等待指令。

3. 开始对话

触发方式:
- 按下连接的物理按钮。
- 或者触摸触摸传感器（如果硬件支持 "Tap to turn on"）。
交互: 对着麦克风说话，ESP32 会通过 WebSocket 将音频流（Opus 编码）发送至边缘服务器，经大模型处理后，实时返回语音流并在扬声器播放。
状态监控: 你可以在 Web 端查看实时转录文本、调整音量、改变音调 (Pitch) 或查看历史对话记录。

4. 高级功能

OTA 升级: 通过 Web 端推送新的固件版本，ESP32 将自动通过空中下载更新。
多设备管理: 同一账号可绑定多个 ESP32 设备，分别部署在不同房间。
工具调用 (Tool Calling): 在边缘函数中配置自定义工具，让语音助手能执行特定逻辑。

更多详细架构说明、硬件设计图及自定义 Agent 教程，请访问 ElatoAI 官方文档。

常见问题

遇到 'nvs_get_str len fail: auth_token NOT_FOUND' 错误导致设备崩溃怎么办？

如何在 M5 Atom Echo 或其他非官方开发板上运行该项目？

是否支持 Azure OpenAI Realtime API 以优化成本？

设备启动时问候语太长且无法打断，如何自定义或缩短初始消息？

ESP32-S3 在接收欢迎音频后立即崩溃且调试音频文件为空，可能的原因是什么？

该项目是否计划支持除 OpenAI 以外的其他 LLM 模型以避免厂商锁定？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架