mini-omni2

1.9k 205 中等 1 次阅读 6天前MIT语言模型图像音频其他

AI 解读由 AI 自动生成，仅供参考

Mini-Omni2 是一款旨在迈向开源版 GPT-4o 的多模态交互模型，能够同时理解图像、音频和文本输入，并支持与用户进行端到端的实时语音对话。它主要解决了传统多模态系统依赖外部语音识别（ASR）和语音合成（TTS）模块导致的延迟高、流程复杂的问题，实现了无需额外组件的原生“语音对语音”交互。

该工具特别适合 AI 开发者、研究人员以及希望探索下一代人机交互模式的技术爱好者使用。其核心亮点在于具备“全双工”交互能力：模型在说话时也能持续聆听，支持用户通过关键词随时打断，从而模拟出更自然流畅的人类对话体验。此外，Mini-Omni2 采用文本引导的延迟并行输出技术，显著降低了首字音频延迟，确保响应即时性。虽然目前训练数据以英语为主，但借助 Whisper 编码器，它也能理解多种语言的输入。作为一个基于 Qwen2 架构的开源项目，Mini-Omni2 为构建低成本、高效率的实时多模态应用提供了宝贵的技术参考与实践基础。

使用场景

一位视障开发者正在远程调试一段包含复杂图表和语音注释的代码库，需要实时理解屏幕内容并与同事进行自然对话。

没有 mini-omni2 时

交互链路割裂：必须分别运行图像识别模型、语音转文字（ASR）和文字转语音（TTS）三个独立服务，系统架构臃肿且维护成本高。
响应延迟严重：由于多模型串行处理，从看到图表到听到反馈往往有数秒延迟，无法实现流畅的“打断式”交流。
多模态理解困难：难以同时处理“看着图表说话”的场景，同事的语音解释和屏幕上的代码错误无法被同步关联分析。
部署门槛高：需要为不同组件配置复杂的依赖环境，且在边缘设备上几乎无法运行如此庞大的组合系统。

使用 mini-omni2 后

端到端一体化：mini-omni2 单个模型即可直接接收图像、音频和文本输入，并直接输出语音，无需额外拼接 ASR 或 TTS 模块。
实时双向互动：凭借原生支持的流式语音输出和低延迟特性，开发者可在模型播报过程中随时喊停并插入新问题，体验如真人通话般自然。
深度多模态融合：模型能同步“看”懂屏幕截图中的代码逻辑，“听”懂同事的口头修正，并立即用语音给出综合解决方案。
轻量便捷部署：基于优化的架构，mini-omni2 可在普通消费级显卡甚至部分边缘设备上快速启动，大幅降低落地难度。

mini-omni2 通过原生的全双工多模态交互能力，将繁琐的多模型串联流程简化为单一的实时语音对话，真正实现了开源界的"GPT-4o"级体验。

运行环境要求

操作系统

Linux

GPU

未说明（基于 Qwen2/Whisper/CLIP 架构，通常推理需要 NVIDIA GPU，具体显存需求未在文档中明确）

内存

未说明

依赖

notes1. 官方安装指南明确使用 conda 创建环境并指定 Python 3.10。 2. Linux 环境下运行服务器需安装系统级依赖 ffmpeg (sudo apt-get install ffmpeg)。 3. 运行本地 Streamlit 演示必须安装 PyAudio==0.2.14，且需在本地浏览器运行。 4. 模型仅针对英语训练，输出仅限英语（虽可通过 Whisper 理解其他语言输入）。 5. 架构依赖包括 Qwen2 (LLM), Whisper (音频编码), CLIP (图像编码), SNAC (音频解码)。

python3.10

PyAudio==0.2.14

streamlit

ffmpeg

torch (隐含)

transformers (隐含)

whisper (隐含)

clip (隐含)

snac (隐含)

litGPT (隐含)

快速开始

Mini-Omni2

🤗 Hugging Face | 📖 Github | 📑 Technical report

如果你喜欢小Omni2，请给我们点个赞⭐，并引用我们的论文！

简介

Mini-Omni2是一个全模态交互模型。它可以理解图像、音频和文本输入，并与用户进行端到端的语音对话。其特点是实时语音输出、全模态多模态理解能力，以及在说话时具备灵活的可中断交互能力。

更新

2024年10月： 发布模型、技术报告、推理及聊天演示代码。

特性

✅ 多模态交互：具备理解图像、语音和文本的能力，就像GPT-4o一样。

✅ 实时语音到语音对话能力。无需额外的ASR或TTS模型，就像Mini-Omni一样。

演示

注意：需要先取消静音。

https://github.com/user-attachments/assets/ad97ca7f-f8b4-40c3-a7e8-fa54b4edf155

安装

创建一个新的conda环境并安装所需的包：

conda create -n omni python=3.10
conda activate omni

git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

快速开始

交互式演示

启动服务器

注意：在运行streamlit或gradio演示之前，需要先启动服务器，并将API_URL设置为服务器地址。

sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

运行streamlit演示

注意：你需要在本地运行streamlit，并安装PyAudio。

pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

本地测试

conda activate omni
cd mini-omni2
# 测试预设的音频样本和问题
python inference_vision.py

Mini-Omni2概述

1. 多模态建模：我们使用多个序列作为模型的输入和输出。在输入部分，我们将图像、音频和文本特征拼接在一起，以执行一系列综合任务，如图所示。在输出部分，我们采用文本引导的延迟并行输出来生成实时语音响应。

2. 多阶段训练：我们提出了一种高效的对齐训练方法，并在三阶段训练中分别进行编码器适配、模态对齐和多模态微调。

常见问题解答

1. 模型是否支持其他语言？

不，该模型仅用英语进行训练。不过，由于我们使用whisper作为音频编码器，模型可以理解whisper支持的其他语言（例如中文），但输出仅为英语。

2. 错误：无法在本地浏览器中运行streamlit，但远程streamlit服务器正常工作

你需要在本地启动streamlit，并确保已安装PyAudio。

致谢

Qwen2 作为LLM骨干。
litGPT 用于训练和推理。
whisper 用于音频编码。
clip 用于图像编码。
snac 用于音频解码。
CosyVoice 用于生成合成语音。
OpenOrca 和 MOSS 用于对齐。

引用

@article{xie2024miniomni2opensourcegpt4ovision,
      title={Mini-Omni2: 开源GPT-4o视觉、语音和双工能力的探索}, 
      author={Zhifei Xie and Changqiao Wu},
      year={2024},
      eprint={2410.11190},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      journal={ArXiv},
      volume={abs/2410.11190},
}

星标历史

Mini-Omni2 快速上手指南

Mini-Omni2 是一款开源的多模态交互模型，支持图像、音频和文本输入，并具备端到端的实时语音对话能力。它无需额外的 ASR（语音识别）或 TTS（语音合成）模型，即可实现类似 GPT-4o 的实时语音交互体验。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐 Ubuntu) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本: 3.10
包管理器: Conda (推荐)
系统依赖: ffmpeg (用于音频处理)
硬件建议: 需要 NVIDIA GPU 以进行流畅的推理（显存需求视具体量化版本而定，建议 16GB 以上以获得最佳体验）。

安装步骤

1. 创建并激活 Conda 环境

conda create -n omni python=3.10
conda activate omni

2. 克隆项目代码

git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2

提示：如果 GitHub 连接缓慢，国内用户可使用镜像加速： git clone https://ghp.ci/https://github.com/gpt-omni/mini-omni2.git

3. 安装 Python 依赖

pip install -r requirements.txt

提示：国内用户建议使用清华源或阿里源加速安装： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4. 安装系统级音频依赖

Mini-Omni2 依赖 ffmpeg 处理音频流，且前端演示需要 PyAudio。

Ubuntu/Debian:

sudo apt-get update
sudo apt-get install ffmpeg

macOS:

brew install ffmpeg

安装 PyAudio (用于本地 Streamlit 演示):

pip install PyAudio==0.2.14

(注：若 pip 安装 PyAudio 失败，Linux 用户可能需要先安装 portaudio19-dev，macOS 用户需确保已安装 portaudio)

基本使用

Mini-Omni2 提供两种主要的使用方式：交互式 Web 演示和本地脚本测试。

方式一：运行交互式 Web 演示 (推荐)

该模式启动一个本地服务器和一个 Streamlit 网页界面，支持实时语音对话。

第一步：启动后端服务器

在终端中运行以下命令启动 API 服务：

conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

保持此终端窗口运行，不要关闭。

第二步：启动前端界面

打开一个新的终端窗口，设置 API 地址并运行 Streamlit：

conda activate omni
cd mini-omni2
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py

运行成功后，浏览器会自动打开演示页面。请确保允许浏览器访问麦克风权限，并在页面上取消静音即可开始对话。

方式二：本地脚本测试

如果您只想测试预设的音频样本和视觉问答功能，无需启动服务器，可直接运行推理脚本：

conda activate omni
cd mini-omni2
python inference_vision.py

该脚本将加载模型并对内置的测试数据进行推理，输出结果将打印在终端中。

常见问题

运行 server.py 时出现 'Error opening input: No such file or directory' 错误怎么办？

运行 Streamlit 时遇到 'ModuleNotFoundError: No module named utils' 错误如何解决？

在哪里可以下载模型所需的 checkpoint 文件？

在 Ubuntu 上安装 PyAudio 时遇到编译错误（缺少 Python.h）怎么办？

如何为模型添加更自然的人声语音？

模型是否支持同时输入音频、视觉和文本，并输出文本或音频？

为什么我的 Streamlit 响应速度很慢，生成令牌数很低？

在没有本地 GPU 的服务器上运行时，遇到 'Invalid input device (no default output device)' 音频错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent