MMAudio

2.1k 252 中等 1 次阅读 2天前MIT视频音频图像开发框架

AI 解读由 AI 自动生成，仅供参考

MMAudio 是一款专为高质量视频配音设计的开源 AI 模型，能够根据输入的视频画面和文本描述，自动生成同步且逼真的音效。它主要解决了当前视频生成领域中“有画无声”或音画不同步的痛点，让静态或无声的视频素材瞬间拥有契合场景的环境音、动作声甚至对话背景音。

这款工具特别适合视频创作者、游戏开发者、AI 研究人员以及多媒体设计师使用。无论是需要为 Sora、Veo 2 等前沿模型生成的视频添加音效，还是为传统影视素材进行后期配音，MMAudio 都能提供专业级的支持。其核心技术创新在于采用了“多模态联合训练”策略，使其能够同时利用大量的音视频数据和图文数据进行学习，从而具备更强的泛化能力。此外，内置的专用同步模块能精准对齐音频与视频帧，确保声音节奏与画面动作完美契合。目前，MMAudio 已开放代码、预训练模型及在线演示，用户只需具备基础的 Python 环境和显卡资源，即可通过命令行或云端平台轻松体验这一前沿技术。

使用场景

一家独立游戏开发团队正在为生成的过场动画制作同步音效，需要将无声的视频片段转化为包含环境音和动作音效的完整音频轨道。

没有 MMAudio 时

音画不同步：手动配音或拼接素材难以精确对齐视频中的细微动作（如脚步声、物体碰撞），导致观感割裂。
多模态适配难：无法同时利用视频画面和文本提示（如“雨夜中的金属撞击声”）来生成复杂音效，需分别处理再合成。
数据利用率低：现有的单一模态模型无法联合训练音视频与文音数据，导致生成的声音缺乏语境理解，听起来机械生硬。
制作成本高：需要专业音效师逐帧调整或购买昂贵版权素材，严重拖慢迭代速度。

使用 MMAudio 后

毫秒级同步：MMAudio 内置的同步模块能自动将生成的音频与视频帧精准对齐，确保每一步动作都有对应的实时反馈。
多模态联合生成：支持输入视频加文本描述，MMAudio 能结合画面动态与文字语义，生成既符合视觉又满足剧情设定的高质量音效。
数据泛化能力强：得益于多模态联合训练技术，MMAudio 能理解多样化的视听场景，从自然风雨到机械轰鸣均能自然呈现。
自动化工作流：开发者只需一行命令即可批量处理视频，大幅降低人力成本，让小型团队也能拥有电影级音效。

MMAudio 通过突破性的多模态联合训练，将繁琐的音视频对齐工作转化为一键式的高保真合成流程，彻底改变了视频音效的制作范式。

运行环境要求

操作系统

Linux (Ubuntu)

GPU

需要 NVIDIA GPU，显存约 6GB+ (16-bit 模式)，支持 CUDA 11.8 或其他 PyTorch 支持的版本

内存

未说明

依赖

notes仅在 Ubuntu 上测试过。推荐使用 miniforge 管理环境。推理时显存占用约 6GB。视频处理耗时主要集中在编解码过程。模型文件会在首次运行演示脚本时自动下载。预训练模型基于 CC-BY-NC 4.0 许可，可能不适用于商业用途。

python3.9+

torch>=2.5.1

torchvision

torchaudio

pyav

gradio

快速开始

MMAudio

论文 | 网页 | 模型 | Hugging Face 演示 | Colab 演示 | Replicate 演示

驾驭多模态联合训练以实现高质量的视频转音频合成

Ho Kei Cheng、Masato Ishii、Akio Hayakawa、Takashi Shibuya、Alexander Schwing、Yuki Mitsufuji

伊利诺伊大学厄巴纳-香槟分校、索尼 AI 以及索尼集团公司

CVPR 2025

亮点

MMAudio 可以根据视频和/或文本输入生成同步的音频。我们的关键创新在于多模态联合训练，这使得我们能够在广泛的视听和音文数据集上进行训练。此外，一个同步模块会将生成的音频与视频帧对齐。

请观看这段有趣的视频：

[你的声音和脸匹配吗？ https://youtu.be/SLz3NWLyHxg]

结果

（所有音频均由我们的算法 MMAudio 生成）

来自 Sora 的视频：

https://github.com/user-attachments/assets/82afd192-0cee-48a1-86ca-bd39b8c8f330

来自 Veo 2 的视频：

https://github.com/user-attachments/assets/8a11419e-fee2-46e0-9e67-dfb03c48d00e

来自 MovieGen/Hunyuan Video/VGGSound 的视频：

https://github.com/user-attachments/assets/29230d4e-21c1-4cf8-a221-c28f2af6d0ca

更多结果请访问 https://hkchengrex.com/MMAudio/video_main.html。

安装

我们仅在 Ubuntu 上进行了测试。

前提条件

我们建议使用 miniforge 环境。

Python 3.9+
PyTorch 2.5.1+ 和相应的 torchvision/torchaudio（请根据你的 CUDA 版本选择，推荐使用 pip 安装）

1. 如果尚未满足前提条件，请先安装：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

（或者任何其他你的 GPU/驱动支持的 CUDA 版本）

2. 克隆我们的仓库：

git clone https://github.com/hkchengrex/MMAudio.git

3. 使用 pip 安装（请先安装 PyTorch 再尝试此步骤！）：

cd MMAudio
pip install -e .

（如果你遇到“setup.py 文件未找到”的错误，请使用 pip install --upgrade pip 升级你的 pip）

预训练模型：

当你运行演示脚本时，模型会自动下载。MD5 校验和已在 mmaudio/utils/download_utils.py 中提供。这些模型也可在 https://huggingface.co/hkchengrex/MMAudio/tree/main 上找到。更多详情请参阅 MODELS.md。

演示

默认情况下，这些脚本使用 large_44k_v2 模型。在我们的实验中，推理仅需约 6GB 的 GPU 内存（以 16 位模式运行），这应该足以在大多数现代 GPU 上运行。

命令行界面

使用 demo.py：

python demo.py --duration=8 --video=<视频路径> --prompt "你的提示"

输出（音频为 .flac 格式，视频为 .mp4 格式）将保存在 ./output 目录中。更多选项请参阅该文件。如果只进行文本到音频的合成，只需省略 --video 选项即可。默认的输出（也是训练）时长为 8 秒。更长或更短的时长也可能适用，但若与训练时长相差过大，可能会导致较低的质量。

Gradio 界面

支持视频到音频和文本到音频的合成。你还可以尝试实验性的图像到音频合成，它会将输入图像复制成视频进行处理。这对某些人来说可能很有趣，但这并不是 MMAudio 经过训练的任务。如有必要，可以使用端口转发（例如 ssh -L 7860:localhost:7860 server）。默认端口为 7860，你可以通过 --port 参数指定。

python gradio_demo.py

常见问题解答

视频处理
- 处理更高分辨率的视频需要更长时间，因为编码和解码占据了超过 95% 的处理时间，但这并不会提高结果的质量。
- CLIP 编码器会将输入帧调整为 384×384 像素。
- Synchformer 会将较短的边调整为 224 像素，并进行中心裁剪，只关注每帧的中央正方形区域。
帧率
- CLIP 模型以 8 FPS 运行，而 Synchformer 以 25 FPS 工作。
- 帧率转换会在视频读取器中实时完成。
- 对于帧率低于 25 FPS 的输入视频，帧会被重复以达到所需的帧率。
失败情况与其他同类模型一样，MMAudio 有时也会出现失败的情况，原因并不总是明确。以下是一些已知的失败模式。如果你发现了新的失败模式或认为存在 bug，请随时在仓库中提交 issue。
性能差异我们注意到，在不同的硬件和软件环境中，性能可能会有细微的差异。造成这种差异的原因包括是否使用 torch.compile、视频读取库/后端、推理精度、批量大小、随机种子等。我们将会提供标准基准上的预计算结果作为参考。从本代码库获得的结果应该相似，但未必完全相同。

已知局限性

该模型有时会生成难以理解的人类语音类似的声音。
该模型有时会生成背景音乐（尽管没有专门训练过，其质量并不高）。
该模型在处理不熟悉的概念时表现不佳，例如它可以生成“枪声”，但无法生成“RPG 发射”的声音。

我们认为，通过提供更多高质量的训练数据，这三项局限性都可以得到解决。

训练

请参阅 TRAINING.md。

评估

请参阅 EVAL.md。

训练数据集

MMAudio 在多个数据集上进行了训练，包括 AudioSet、Freesound、VGGSound、AudioCaps 和 WavCaps。这些数据集受特定许可证约束，相关许可证信息可在其各自官网查阅。我们不保证预训练模型适用于商业用途，请用户自行承担使用风险。

更新日志

2025-03-09：上传了修正后的 tsv 文件。详情请参阅 TRAINING.md。
2025-02-27：为提高训练稳定性，默认禁用了 GradScaler。详情请参阅 #49。
2024-12-23：新增了训练脚本和批量评估脚本。
2024-12-14：通过将 torio.io.StreamingMediaDecoder 替换为 pyav 来读取帧率，从而移除了演示中对 ffmpeg<7 的依赖。同时对读取的帧进行缓存，避免在重建过程中重复读取同一帧，这应能提升速度并简化安装流程。
2024-12-13：在 CLIP/Sync 特征提取中引入批大小倍增器，优化了 for 循环处理。在不增加内存占用的情况下，可将近似使用 40 倍的批大小，从而加快处理速度。此外，在推理过程中移除了 VAE 编码器——我们并不需要它。
2024-12-11：在重构输入视频时，将用于读取帧率的 torio.io.StreamingMediaDecoder 替换为 pyav。torio.io.StreamingMediaDecoder 在 huggingface ZeroGPU 环境中无法稳定工作，且我怀疑它在其他某些环境中也可能存在问题。

引用

@inproceedings{cheng2025taming,
  title={{MMAudio}: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis},
  author={Cheng, Ho Kei and Ishii, Masato and Hayakawa, Akio and Shibuya, Takashi and Schwing, Alexander and Mitsufuji, Yuki},
  booktitle={CVPR},
  year={2025}
}

许可证

本仓库中的代码采用 MIT 许可证发布，具体见 LICENSE 文件。
检查点文件在 Hugging Face 上以 CC-BY-NC 4.0 许可证发布，详情请参阅 https://creativecommons.org/licenses/by-nc/4.0/。

免责声明

我们与 “mmaudio.net” 域名背后的主体没有任何关联，也对其一无所知。

致谢

特别感谢以下项目：

Make-An-Audio 2，提供了 16kHz 的 BigVGAN 预训练模型及 VAE 架构。
BigVGAN。
Synchformer。
EDM2，提供了保幅式的 VAE 网络架构。

MMAudio 快速上手指南

MMAudio 是一个用于高质量视频转音频（Video-to-Audio）和文本转音频（Text-to-Audio）合成的开源模型。它通过多模态联合训练，能够根据视频画面或文本描述生成同步的高质量音频。

环境准备

本项目主要在 Ubuntu 系统上测试通过。请确保满足以下前置条件：

操作系统: Linux (推荐 Ubuntu)
Python: 3.9 或更高版本
PyTorch: 2.5.1 或更高版本（需匹配对应的 torchvision/torchaudio 及 CUDA 版本）
GPU: 建议显存至少 6GB（在 16-bit 模式下推理）

注意：安装前请确认您的显卡驱动支持的 CUDA 版本。国内用户若访问 PyTorch 官方源较慢，可使用清华或中科大镜像源。

安装步骤

1. 安装 PyTorch 及相关依赖

推荐使用 pip 安装与您的 CUDA 版本匹配的 PyTorch。以下以 CUDA 11.8 为例（请根据实际情况调整 cu118）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

国内加速方案（可选）：

pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 注意：PyTorch 的 whl 文件通常仍需从官方源下载，上述命令主要加速其他依赖包。
# 若需完整镜像加速，请配置 pip 全局镜像或使用 conda 环境。

2. 克隆项目代码

git clone https://github.com/hkchengrex/MMAudio.git
cd MMAudio

3. 安装项目依赖

确保已安装 PyTorch 后，执行以下命令安装其余依赖：

pip install -e .

若遇到 setup.py not found 错误，请先升级 pip：pip install --upgrade pip。

4. 模型下载

预训练模型会在首次运行演示脚本时自动下载。模型文件托管在 Hugging Face 上，国内用户若下载缓慢，可手动从镜像站下载并放置到对应目录，或配置 HF_ENDPOINT 环境变量。

基本使用

安装完成后，您可以使用命令行接口进行音频生成。默认使用 large_44k_v2 模型。

视频转音频 (Video-to-Audio)

根据输入视频和文本提示生成同步音频：

python demo.py --duration=8 --video=<path to video> --prompt "your prompt"

--duration: 生成音频的时长（秒），默认为 8 秒。
--video: 输入视频文件的路径。
--prompt: 描述音频内容的文本提示词。

生成的音频 (.flac) 和视频 (.mp4) 将保存在 ./output 目录中。

文本转音频 (Text-to-Audio)

仅根据文本提示生成音频（省略 --video 参数）：

python demo.py --duration=8 --prompt "rain falling on a tin roof"

启动 Web 界面 (可选)

MMAudio 提供了基于 Gradio 的交互式网页界面，支持上传视频或输入文本进行操作：

python gradio_demo.py

启动后，在浏览器访问 http://localhost:7860 即可使用。若在远程服务器运行，请使用 SSH 端口转发（如 ssh -L 7860:localhost:7860 user@server）。

版本历史

v0.12024/12/07

常见问题

如何仅使用音频数据训练模型而不使用视频数据？

运行 Video-to-Audio 生成时遇到 'ValueError: File object has no read() method' 错误或 GPU 未被利用怎么办？

论文中使用的音频提取设置（如 16kHz 和 44kHz 版本）具体是什么？

如何解决 'ModuleNotFoundError: No module named av_bench' 错误？

在哪里可以找到论文中提到的 'Greatest Hits' 数据集的 244 测试分割文件？

训练时出现 'FileNotFoundError' 找不到 tsv 文件（如 vgg-example.tsv）如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 153.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 MMAudio 时

使用 MMAudio 后

运行环境要求

快速开始

MMAudio

驾驭多模态联合训练以实现高质量的视频转音频合成

亮点

结果

安装

前提条件

演示

命令行界面

Gradio 界面

常见问题解答

已知局限性

训练

评估

训练数据集

更新日志

引用

相关仓库

许可证

免责声明

致谢

MMAudio 快速上手指南

环境准备

安装步骤

1. 安装 PyTorch 及相关依赖

2. 克隆项目代码

3. 安装项目依赖

4. 模型下载

基本使用

视频转音频 (Video-to-Audio)

文本转音频 (Text-to-Audio)

启动 Web 界面 (可选)

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown