xiaozhi-esp32

25.7k 5.6k 较难 1 次阅读今天MIT语言模型

AI 解读由 AI 自动生成，仅供参考

xiaozhi-esp32 是一款基于 ESP32 系列芯片打造的开源语音交互机器人项目。它巧妙结合了通义千问、DeepSeek 等大语言模型的智能，通过创新的 MCP（模型上下文协议）架构，实现了从本地硬件控制到云端复杂任务处理的无缝连接。

该项目主要解决了传统嵌入式设备智能化程度低、交互方式单一的问题。用户不再局限于简单的指令执行，而是能通过自然语音与设备进行深度对话。xiaozhi-esp32 支持离线语音唤醒、流式语音识别与合成，甚至具备声纹识别能力，能分辨不同说话人。其独特的“端云协同”MCP 机制是最大亮点：设备端可直接控制灯光、舵机等硬件，而云端则能延伸出智能家居管理、电脑操作、知识检索等高级功能。

无论是希望动手制作专属 AI 伴侣或智能助手的电子爱好者，还是想要快速验证语音交互原型的开发者，xiaozhi-esp32 都是理想选择。它对硬件极其友好，不仅提供面包板 DIY 教程，还适配了包括立创开发板、M5Stack、ESP32-S3-BOX 在内的 70 多种开源硬件。配合可视化的在线配置工具，即使是初学者也能轻松定制唤醒词、界面表情和聊天背景，低成本体验前沿的 AI 语音技术。

使用场景

独居老人张大爷希望拥有一个能随时对话、还能帮忙控制家中智能设备的陪伴助手，但他不懂编程，预算也有限。

没有 xiaozhi-esp32 时

交互门槛高：传统智能音箱需要复杂的配网和固定的唤醒词，老人操作困难，且无法识别特定人的声音，容易误触发。
功能扩展难：若想控制家里的灯光或窗帘，通常需要购买昂贵的品牌生态网关，不同品牌设备间无法联动，形成“数据孤岛”。
情感连接弱：通用语音助手回答机械生硬，无法根据老人的说话习惯调整语气，更做不到像真人一样通过摄像头观察并提醒“三天没洗头”这类生活细节。
硬件成本贵：市面上具备屏幕显示、离线唤醒及大模型接入能力的成品设备价格动辄上千，超出普通家庭的尝试预算。

使用 xiaozhi-esp32 后

自然语音互动：利用 ESP-SR 实现离线精准唤醒和 3D Speaker 声纹识别，张大爷只需叫一声定制昵称，xiaozhi-esp32 就能立刻分辨出是他本人在说话，响应迅速且私密。
万能设备中枢：通过 MCP 协议，xiaozhi-esp32 直接打通了云端大模型与本地 GPIO、舵机及智能家居接口，一句话即可同时控制不同品牌的灯光、风扇甚至自制的小机械臂。
有温度的陪伴：基于 Qwen/DeepSeek 大模型的流式对话能力，配合 OLED 屏幕上的表情反馈，它能像家人一样闲聊、提醒吃药，甚至通过摄像头主动关怀老人的生活状态。
极低落地成本：仅需一块几十元的 ESP32-S3 开发板（如 M5Stack 或立创板），配合开源固件即可快速组装成专属的 AI 伴侣，总成本不足百元。

xiaozhi-esp32 将昂贵的大模型能力下沉到廉价硬件上，让每个人都能以极低成本拥有懂自己、能控物的专属 AI 伙伴。

运行环境要求

操作系统

Linux
Windows
macOS

GPU

未说明

内存

未说明

依赖

notes该项目为嵌入式固件项目，主要运行在 ESP32-C3/S3/P4 芯片上。开发环境推荐使用 Linux 以获得更快的编译速度和更少的驱动问题；支持 Windows 和 macOS 但可能面临驱动或编译效率问题。需安装 VSCode 或 Cursor 及 ESP-IDF 插件。固件默认连接官方服务器使用大模型，也可自行部署后端服务（支持 Python/Java/Go 等版本）。

python未说明

ESP-IDF SDK >= 5.4

快速开始

基于MCP的聊天机器人

(英语 | 中文 | 日语)

简介

👉 人类：给AI一台相机 vs AI：瞬间发现主人三天没洗头【bilibili】

👉 亲手打造你的AI女友，新手指南【bilibili】

作为一款语音交互设备，小智AI聊天机器人利用通义千问、DeepSeek等大模型的AI能力，并通过MCP协议实现多终端控制。

版本说明

当前v2版本与v1分区表不兼容，因此无法通过OTA方式从v1升级到v2。有关分区表的详细信息，请参阅partitions/v2/README.md。

所有运行v1的硬件都可以通过手动刷写固件升级到v2。

v1的稳定版本为1.9.2。您可以通过运行git checkout v1切换到v1版本。v1分支将一直维护到2026年2月。

已实现的功能

Wi‑Fi / ML307 Cat.1 4G
离线语音唤醒 ESP‑SR
支持两种通信协议（Websocket 或 MQTT+UDP）
使用OPUS音频编解码器
基于流式ASR + LLM + TTS架构的语音交互
说话人识别，可识别当前说话人 3D Speaker
OLED / LCD显示屏，支持表情符号显示
电池电量显示及电源管理
多语言支持（中文、英文、日文）
支持ESP32‑C3、ESP32‑S3、ESP32‑P4芯片平台
设备端MCP用于设备控制（扬声器、LED、舵机、GPIO等）
云端MCP扩展大模型能力（智能家居控制、PC桌面操作、知识搜索、邮件等）
可在线网页编辑自定义唤醒词、字体、表情符号和聊天背景（Custom Assets Generator）

硬件

面包板DIY实践

请参阅飞书文档教程：

👉 "小智AI聊天机器人百科"

面包板演示：

面包板演示

支持70余款开源硬件（部分列表）

软件

固件刷写

对于初学者，建议使用无需搭建开发环境即可刷写的固件。

该固件默认连接到官方xiaozhi.me服务器。个人用户可以注册账号免费使用通义千问实时模型。

👉 新手固件刷写指南

开发环境

Cursor 或 VSCode
安装ESP‑IDF插件，选择SDK版本5.4及以上
Linux相比Windows编译速度更快且驱动问题更少
本项目采用Google C++代码风格，请在提交代码时确保符合规范

开发者文档

自定义主板指南 - 学习如何为小智AI创建自定义主板
MCP协议物联网控制使用指南 - 学习如何通过MCP协议控制物联网设备
MCP协议交互流程 - 设备端MCP协议实现
MQTT + UDP混合通信协议文档
详细的WebSocket通信协议文档

大模型配置

如果您已经拥有小智AI聊天机器人设备并已连接到官方服务器，您可以登录xiaozhi.me控制台进行配置。

👉 后端操作视频教程（旧界面）

关于项目

这是一个基于ESP32的开源项目，采用MIT许可证发布，允许任何人免费使用，包括用于商业用途。我们希望该项目能够帮助大家理解AI硬件开发，并将快速发展的大型语言模型应用到实际硬件设备中。如果您有任何想法或建议，欢迎随时提交Issue，或加入我们的Discord及QQ群：994694848。

星标历史

xiaozhi-esp32 快速上手指南

小智 (xiaozhi-esp32) 是一款基于 MCP 协议的开源 AI 语音聊天机器人项目，支持 ESP32-C3/S3/P4 系列芯片。它结合大模型（如通义千问、DeepSeek）实现流式语音交互，并可通过 MCP 协议控制本地硬件或扩展云端能力。

环境准备

系统要求

操作系统：推荐 Linux（编译速度快、驱动问题少），Windows 或 macOS 也可用。
开发工具：VSCode 或 Cursor 编辑器。
SDK 版本：ESP-IDF v5.4 或以上版本。

前置依赖

安装 Git。
安装 ESP-IDF 框架及对应插件：
- 访问 ESP-IDF 官方文档完成安装。
- 在 VSCode/Cursor 中安装 Espressif IDF 插件，并在设置中选择 SDK 版本 5.4+。
确保电脑已安装 Python 3.8+ 及相关依赖（ESP-IDF 安装过程通常会自动处理）。

提示：国内用户若遇到 Git 克隆慢的问题，可配置国内镜像源或使用代理加速。

安装步骤

1. 克隆项目代码

打开终端，执行以下命令拉取最新代码：

git clone https://github.com/78/xiaozhi-esp32.git
cd xiaozhi-esp32

注意：当前 v2 版本与 v1 分区表不兼容。若需使用稳定的 v1 版本，请执行 git checkout v1 切换分支。

2. 配置开发环境

在 VSCode/Cursor 中打开项目文件夹，点击底部状态栏的 ESP-IDF 插件按钮，选择：

Configure ESP-IDF Extension
确保 SDK 版本指向 v5.4 或更高。

3. 编译与烧录

连接 ESP32 开发板到电脑，执行以下命令进行编译并烧录固件：

idf.py set-target esp32s3  # 根据实际芯片型号修改，如 esp32c3, esp32p4
idf.py flash monitor

set-target：指定目标芯片型号（常见为 esp32s3）。
flash：编译并烧录固件。
monitor：烧录后自动打开串口监视器查看日志。

新手建议：若无开发环境，可直接使用官方提供的免编译固件进行烧录，参考新手固件烧录指南。

基本使用

1. 连接网络

设备启动后，默认尝试连接 Wi-Fi。若需配置：

首次运行或通过串口发送配网指令（具体视硬件而定，部分开发板支持按键配网）。
支持 Wi-Fi 或 ML307 Cat.1 4G 模块联网。

2. 唤醒与对话

默认唤醒词：通常为“小智”（可在后台自定义）。
交互流程：
1. 说出唤醒词，设备指示灯亮起或屏幕显示表情。
2. 直接说话提问（例如：“今天天气怎么样？”）。
3. 设备将通过云端大模型处理并语音回复。

3. 后台配置

固件默认连接官方服务器 xiaozhi.me。

访问官网注册账号。
登录控制台绑定设备 MAC 地址。
免费使用通义千问实时模型，并可自定义唤醒词、音色、背景图等资源（可使用资源生成器制作）。

4. 进阶开发（可选）

若需私有化部署或自定义硬件控制：

自建服务端：参考 Python 版服务端或其他语言版本。
自定义硬件：查阅 docs/custom-board.md 适配自己的电路板。
MCP 控制：通过 MCP 协议控制 GPIO、舵机、LED 等外设，详见 docs/mcp-usage.md。

版本历史

v2.2.42026/03/09

v2.2.32026/02/17

v2.2.22026/02/02

v2.1.02025/12/30

v2.0.52025/11/19

v1.9.42025/11/04

v2.0.42025/10/28

v2.0.32025/09/26

v2.0.22025/09/17

v1.9.22025/09/16

v1.9.2_22025/09/16

v2.0.12025/09/14

v2.0.02025/09/12

v1.9.12025/09/05

v1.9.02025/09/04

v1.8.92025/08/23

v1.8.82025/08/14

v1.8.72025/08/13

v1.8.62025/08/09

v1.8.52025/08/01

常见问题

OV3660 摄像头初始化成功但语音唤醒后崩溃或屏幕锁死怎么办？

ESP32-S3-Cam 拍摄图片成功但无法上传，报错"Not enough space"如何解决？

自定义设备上表情动画黑屏且报错"Animation source not set"或"No icon data found"怎么办？

设备连接 WiFi 后不显示绑定验证码（Verification Code）怎么办？

购买的第三方设备如何升级到最新固件？

使用 ML307 4G 模组和大尺寸触摸屏时出现通信故障或不稳定怎么办？

音频播放卡顿并报错"Ringbuffer of AFE(FEED) is full"是什么原因？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|今天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

使用场景

没有 xiaozhi-esp32 时

使用 xiaozhi-esp32 后

运行环境要求

快速开始

基于MCP的聊天机器人

简介

版本说明

已实现的功能

硬件

面包板DIY实践

支持70余款开源硬件（部分列表）

软件

固件刷写

开发环境

开发者文档

大模型配置

相关开源项目

关于项目

星标历史

xiaozhi-esp32 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

1. 克隆项目代码

2. 配置开发环境

3. 编译与烧录

基本使用

1. 连接网络

2. 唤醒与对话

3. 后台配置

4. 进阶开发（可选）

版本历史

常见问题

相似工具推荐

everything-claude-code

LLMs-from-scratch

spec-kit

NextChat

ML-For-Beginners

funNLP