mi-gpt

GitHub
12.3k 1.7k 简单 6 次阅读 2天前MIT语言模型音频Agent
AI 解读 由 AI 自动生成,仅供参考

MiGPT 是一款能将小爱音箱变身为你专属智能管家的开源工具。它通过连接 ChatGPT、豆包等大语言模型,赋予传统智能家居设备强大的理解与对话能力,解决了普通智能音箱回答生硬、缺乏情感互动及无法深度定制的问题。

该项目非常适合希望提升家居体验的普通用户,同时也为前端开发者提供了基于 Node.js 和 Docker 的灵活部署方案。借助 MiGPT,小爱音箱不仅能上知天文下知地理地回答复杂问题,还能进行角色扮演,成为你的贴心伴侣或闺蜜。其核心技术亮点包括流式响应技术,让语音回复如真人般自然流畅;长短期记忆功能,使音箱能记住过往对话,越聊越默契;以及自定义 TTS 音色,让你可以解锁如“豆包”等更自然的语音风格。虽然部分高级自动化功能仍在演进中,但 MiGPT 已成功将冰冷的硬件转化为有温度、懂你心思的家庭成员,让智能家居真正服务于人的情感与生活需求。

使用场景

独居的程序员小林下班回家,想通过语音与家中设备互动来缓解疲惫,却受限于传统音箱的刻板反应。

没有 mi-gpt 时

  • 回答机械生硬:询问“今天心情不好怎么办”,小爱只能回复预设的天气或新闻,无法提供情感慰藉。
  • 无法连续对话:想多聊几句必须每次重复唤醒词“小爱同学”,打断交流兴致,像在对机器下指令。
  • 音色单调乏味:标准的合成语音缺乏感情色彩,听起来冷冰冰,难以营造温馨的居家氛围。
  • 记忆能力缺失:昨天提到的“喜欢听爵士乐”,今天再问推荐音乐时,它完全遗忘,需要重新输入偏好。
  • 角色单一固定:无论怎么设置,它始终是那个只会执行命令的助手,无法扮演知心朋友或特定角色进行互动。

使用 mi-gpt 后

  • 情感智能回应:接入 ChatGPT 后,它能理解情绪并温柔建议:“要不要放首舒缓的爵士乐,再调暗灯光陪你坐会儿?”
  • 流畅连续交互:支持自然连续对话,无需反复唤醒,小林可以像和老朋友聊天一样随意倾诉心事。
  • 定制真人音色:解锁豆包同款拟人化 TTS 音色,回复语气抑扬顿挫,仿佛真人在耳边轻声细语。
  • 长短期记忆加持:自动记住小林的喜好和过往对话细节,越聊越默契,主动推荐符合口味的音乐和内容。
  • 百变角色扮演:一键切换为“贴心闺蜜”或“专属管家”模式,不仅能聊天,还能主动联动米家设备调节环境。

mi-gpt 将原本冰冷的智能音箱升级为懂情感、有记忆、能进化的家庭专属伙伴,让智能家居真正拥有了“温度”。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes本项目基于 Node.js 开发,非 Python 项目。支持通过 Docker 或 Node.js (npm) 两种方式运行。需要拥有小爱音箱设备(推荐小爱音箱 Pro)及小米账号。需配置 .env 和 .migpt.js 文件以设置小米账号信息及大模型 API 密钥。暂不支持小度、天猫精灵等其他品牌音箱。
python未说明
Node.js
npm
Docker (可选)
mi-gpt hero image

快速开始

MiGPT:智能家居,从未如此贴心 ❤️

npm 版本 Docker 镜像版本 Docker 拉取 精选|HelloGitHub

👉 查看完整演示视频:【将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手~

👋 项目简介

[!TIP] 如果你是小爱音箱 Pro 用户,推荐使用 Open-XiaoAI

即刻解锁自定义唤醒词、连续对话、接入小智 AI 等全新玩法

[!IMPORTANT] 全新 MiGPT-Next 已发布,该项目已停止维护 ⚠️

新项目修复了一些已知问题,支持自定义消息回复,拥有更好的稳定性,建议尽早迁移

在这个数字化的世界里,家已不仅仅是一个居住的地方,而是我们数字生活的延伸。

MiGPT 通过将小爱音箱、米家智能设备,与 ChatGPT 的理解能力完美融合,让你的智能家居更懂你。

MiGPT 不仅仅是关于设备自动化,而是关于:打造一个懂你、有温度、与你共同进化的家

未来,你的每个智能家居设备,从灯泡、插座,到扫地机器人、电视等,

都可以作为一个个独立的智能体 (Agent),更智能、更贴心的响应你的指令。

这些独立的智能体,也可以彼此感知,彼此配合,构成一个更强大的协作网络。

而小爱音箱就像是你的智能家居专属管家,全心全意为你服务,释放智能家居的真正潜力。

✨ 功能亮点

  • 🎓 AI 问答。想象一下,当小爱音箱接入大模型后,上知天文,下知地理,从“人工智障”秒变学霸。
  • 🎭 角色扮演。一秒调教小爱,无论是成为你的完美伴侣,还是那个能听你倾诉心事的贴心闺蜜,都不在话下。
  • 💬 流式响应。爱情来得太快就像龙卷风,而你的小爱音箱也是,对你的爱意秒回,爱你不会让你等太久。
  • 🧠 长短期记忆。小爱音箱现在能记住你们之间的每一次对话,越聊越默契,就像是你身边的老朋友。
  • 🔊 自定义 TTS。厌倦了小爱同学的语音?帮你解锁「豆包」同款音色,就像真人在回你的消息。
  • 🤖️ 智能家居 Agent。心情不好?小爱立刻懂你,自动帮你播放喜欢的音乐,调节灯光,逗你开心。

🦄 Sponsors

302.AI

302.AI 是一个按需付费的一站式 AI 应用平台,开放平台,开源生态。官方网站网站介绍

⚡️ 快速开始

视频教程

👉 MiGPT 光速入门视频教程,手把手教你调教小爱音箱~

设备要求

MiGPT 支持大部分的小爱音箱型号,推荐使用小爱音箱 Pro(完美运行)

👉 查看更多兼容的小爱音箱型号和配置参数

注意:本项目暂不支持小度音箱、天猫精灵、HomePod 等智能音箱设备,亦无相关适配计划。

使用方式

MiGPT 有两种启动方式: DockerNode.js

启动成功后,你可以通过以下方式来召唤 AI 回答问题:

  • 小爱同学,请 xxx。比如 小爱同学,请问地球为什么是圆的?
  • 小爱同学,你 xxx。比如 小爱同学,你喜欢我吗?
  • 小爱同学,召唤 xxx。比如 小爱同学,召唤傻妞

Docker

Docker Image Version

对于电脑小白或者不想自己配置代码运行环境(Node)的同学,可以使用 Docker 启动方式。

请先按照 ⚙️ 参数设置 相关说明,配置好你的 .env.migpt.js 文件,然后使用以下命令启动 docker:

docker run -d --env-file $(pwd)/.env -v $(pwd)/.migpt.js:/app/.migpt.js idootop/mi-gpt:latest

注意:在 Windows 终端下需要将配置文件路径 $(pwd) 替换为绝对路径。

Node.js

npm 版本

如果你是一名前端 (Node) 开发者,也可以通过 NPM 安装 mi-gpt 启动 MiGPT

npm install mi-gpt # 安装依赖

然后,创建并启动 MiGPT 实例。初始化参数的具体说明请到 ⚙️ 参数设置 查看。

import { MiGPT } from "mi-gpt";

async function main() {
  const client = MiGPT.create({
    speaker: {
      userId: "987654321", // 注意:不是手机号或邮箱,请在「个人信息」-「小米 ID」查看
      password: "123456", // 账号密码
      did: "小爱音箱Pro", // 小爱音箱 ID 或在米家中设置的名称
    },
  });
  await client.start();
}

main();

注意:此模式下并不会主动读取 .env.migpt.js 中的配置信息,你需要手动初始化 Node 环境变量,并将 .migpt.js 中的参数作为 MiGPT.create 的初始化参数传入。👉 示例代码

📖 使用文档

提示:大多数问题都可在 💬 常见问题 中找到答案。

🔗 相关项目与教程

项目链接 简介 来源
相关项目
MiGPT GUI 通过图形化界面的方式创建并管理 MiGPT,支持运行多个账号 @lmk123
MiGPT 配置中心 基于 Vue 的 MiGPT 可视化配置界面,提供直观的服务管理和参数配置能力 @LipapaSma
@shinedlc/mi-gpt 支持摄像头模块的 MiGPT 分支,让小爱同学可以看到和理解现实世界 @shinedlc
使用教程
MiGPT 官方视频教程 官方视频教程配套 PPT 文件 👉 MiGPT 官方教程.pdf @idootop
MiGPT 接入豆包等大模型教程 豆包、Moonshot(Kimi)等常见大模型的详细接入教程 @lmk123
通过 Docker 快速安装 MiGPT,手把手教你绕开异地登录风控 适合小白的使用教程,全程几乎都是图形化页界面 @Jasonzhu1207
小爱音箱 PRO 的 AI 模式使用说明 这是一位老爸为家里的小朋友专门整理的贴心教程 @mxyblog
使用 MiGPT 将你的小爱音箱接入 ChatGPT 作者详细介绍了如何在 1Panel 上,通过 OneAPI 来转换腾讯混元大模型,和讯飞星火大模型的 API 并成功接入 MiGPT @miaowmint
Unraid 部署 MiGPT 在 Unraid 上使用 Docker 部署 MiGPT 的详细教程 @ilovesouthpark

❤️ 鸣谢

特别感谢以下项目提供的实现参考:

🚨 免责声明

本项目仅供学习和研究目的,不得用于任何商业活动。用户在使用本项目时应遵守所在地区的法律法规,对于违法使用所导致的后果,本项目及作者不承担任何责任。 本项目可能存在未知的缺陷和风险(包括但不限于设备损坏和账号封禁等),使用者应自行承担使用本项目所产生的所有风险及责任。 作者不保证本项目的准确性、完整性、及时性、可靠性,也不承担任何因使用本项目而产生的任何损失或损害责任。 使用本项目即表示您已阅读并同意本免责声明的全部内容。

License

MIT License © 2024-PRESENT Del Wang

版本历史

v4.2.02024/08/26
v4.1.02024/06/22
v4.0.02024/06/17
v3.1.02024/06/11
v3.0.02024/06/05
v2.0.02024/05/26
v1.2.02024/05/21

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架