RAVE

1.7k 218 中等 1 次阅读 2天前NOASSERTIONAgent音频开发框架图像

AI 解读由 AI 自动生成，仅供参考

RAVE（Realtime Audio Variational autoEncoder）是一款专为实时音频合成设计的开源变分自编码器模型。它致力于解决传统神经音频生成方法计算量大、延迟高且难以在表演中实时交互的痛点，能够在极低延迟下实现高质量的音频压缩与重建。

这款工具非常适合音乐技术研究人员、音频算法开发者以及希望将 AI 融入现场演出的电子音乐人使用。通过 RAVE，用户可以将自己的音频数据集训练成专属的神经网络乐器，并在主流数字音频工作站（DAW）或 Max 8 环境中实时演奏和变形声音。

RAVE 的核心技术亮点在于其卓越的效率与灵活性。它不仅支持“懒加载”模式，允许直接基于 MP3 等压缩格式训练而无需预先解压海量数据，还提供了离散化配置（类似 SoundStream）和因果卷积模式，进一步降低延迟以适应实时场景。此外，项目提供了完善的 VST 插件测试版、详细的教程文档以及 Google Colab 训练脚本，大幅降低了从数据处理、模型训练到最终部署的使用门槛，让前沿的神经音频合成技术变得触手可及。

使用场景

一位电子音乐制作人希望在现场演出中，通过自定义训练的神经网络实时将人声转化为独特的合成器音色，同时保持极低的延迟以配合乐队演奏。

没有 RAVE 时

延迟过高导致无法同步：传统神经音频模型推理速度慢，产生的数百毫秒延迟让人声与伴奏严重脱节，完全无法用于实时舞台表演。
硬件门槛极高：为了勉强达到可接受的帧率，必须依赖配备多张高端显卡的工作站，昂贵的设备成本让独立艺术家难以负担。
工作流割裂：只能在离线状态下预先渲染音频片段，无法根据现场情绪即兴调整参数，创作过程缺乏互动性和灵活性。
音质与速度难兼得：若强行使用轻量级模型降低延迟，输出音频往往充满伪影和噪点，无法满足专业演出的听感要求。

使用 RAVE 后

真正的实时低延迟：RAVE 专为实时性设计，能将处理延迟压缩至几毫秒级别，让人声转换效果能与鼓点和贝斯完美同步。
消费级硬件即可运行：得益于高效的变分自编码器架构，普通的笔记本电脑甚至嵌入式设备就能流畅运行模型，大幅降低了部署成本。
无缝集成主流宿主：通过 RAVE VST 插件或 Max 8 对象，可以直接在 Ableton Live 等 DAW 中像使用普通乐器一样加载自定义模型，支持现场即兴调制。
高保真神经合成：即使在极低延迟下，RAVE 仍能保持高信噪比和丰富的频谱细节，确保输出音色温暖自然，具备专业出版级音质。

RAVE 通过将高质感的神经音频合成带入实时领域，彻底打破了算法音乐从“离线实验”走向“现场即兴”的最后壁垒。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

需要 GPU 进行训练
显存需求取决于模型配置：v1/v2_small/onnx/raspberry 需 5-8GB，v2/discrete 需 16-18GB，v3 需 32GB
未明确指定 CUDA 版本，但需预先安装与硬件匹配的 torch 和 torchaudio

内存

未说明

依赖

notes1. 强烈建议在安装 acids-rave 之前先单独安装合适版本的 torch 和 torchaudio，以便选择适配当前设备的版本。 2. 系统必须安装 ffmpeg，可通过 conda 安装。 3. 提供多种模型架构配置，对显存要求差异较大（最低 5GB，最高 32GB），请根据硬件选择配置（如 raspberry 配置适用于低显存设备）。 4. 若在 Windows 上使用懒加载（lazy）模式处理数据集，会显著增加 CPU 负载。 5. 导出模型用于实时处理（如 Max/MSP）时，务必添加 --streaming 参数以避免音频爆音。

python未说明

torch

torchaudio

acids-rave

ffmpeg

快速开始

rave_logo

RAVE：实时音频变分自编码器

由Antoine Caillon和Philippe Esling共同撰写的论文《RAVE：用于快速且高质量神经音频合成的变分自编码器》（论文链接）的官方实现。

如果您在音乐表演或装置艺术中使用RAVE，请务必引用本仓库或该论文！

如果您想分享、讨论或咨询有关RAVE及ACIDS其他研究的内容，欢迎加入我们的Discord服务器！

在提交问题之前，请先查看常见问题解答！

RAVE VST 适用于Windows、Mac和Linux的RAVE VST插件目前以测试版形式发布在IRCAM论坛相应页面上。如遇问题，请在此处或IRCAM论坛讨论页中提交问题。

教程：IRCAM论坛网页上已提供新教程，视频版本也将很快推出！

旧版本

可通过以下命令恢复RAVE模型的原始实现：

git checkout v1

安装

使用以下命令安装RAVE：

pip install acids-rave

警告强烈建议在安装acids-rave之前先安装torch和torchaudio，以便您可以在PyTorch官网上选择合适的版本。为确保与未来新设备及现代Python环境的兼容性，rave-acids不再强制要求使用torch==1.13。

您的计算机需要安装ffmpeg。您也可以在虚拟环境中本地安装它：

conda install ffmpeg

Colab

感谢hexorcismos，现在有一个用于训练RAVEv2的Colab笔记本可用！

使用方法

训练RAVE模型通常包括三个独立步骤：数据集准备、训练和导出。

数据集准备

您可以采用常规和懒人两种方式来准备数据集。懒人预处理允许RAVE直接在原始文件（如mp3、ogg）上进行训练，而无需先将其转换为其他格式。警告：懒人加载方式会显著增加训练时的CPU负载，尤其是在Windows系统上。不过，这在处理无法解压后存入硬盘的大规模音频语料时非常有用。无论如何，您都可以使用以下命令准备数据集：

rave preprocess --input_path /audio/folder --output_path /dataset/path --channels X (--lazy)

镜像内容结束 -->

先验

对于离散模型，我们会将用户重定向到 msprior 库这里。然而，由于该库仍处于实验阶段，1.x 版本中的先验已在 2.3 版中重新集成。

训练

要为预训练的 RAVE 模型训练先验：

rave train_prior --model /path/to/your/run --db_path /path/to/your_preprocessed_data --out_path /path/to/output

这将在预训练模型 path/to/your/run 的潜在空间上训练先验，并将模型和 TensorBoard 日志保存到 /path/to/output 文件夹中。

脚本化

要将先验与 RAVE 模型一起脚本化，请通过为您的预训练先验提供 --prior 关键字来导出您的模型：

rave export --run /path/to/your/run --prior /path/to/your/prior (--streaming)

预训练模型

几个预训练的流式模型可在此处获取。我们将持续更新此列表以包含新模型。

实时使用

本节介绍如何将 RAVE 加载到 nn~ 中，以便在 Max/MSP 或 PureData 中实时使用。

重建

您计算机上可用的名为 darbouka.gin 的预训练 RAVE 模型可以使用以下语法加载到 nn~ 中，其中默认方法设置为前向（即先编码再解码）：

这与以下补丁的效果相同，但速度稍快。

高级操作

能够显式访问 RAVE 产生的潜在表示，使我们能够使用 Max/MSP 或 PureData 的信号处理工具与该表示进行交互：

风格迁移

默认情况下，RAVE 可用作风格迁移工具，这得益于该模型的大压缩比。我们最近添加了一种受 StyleGAN 启发的技术，将自适应实例归一化引入重建过程，从而能够在 Max/MSP 或 PureData 中直接定义“源”和“目标”风格，利用 nn~ 的属性系统。

其他属性，如 enable 或 gpu，可用于启用或禁用计算，或使用 GPU 来加速处理（目前仍处于实验阶段）。

离线使用

在 2.3 版中发布了一个批量生成脚本，用于转换大量文件：

rave generate model_path path_1 path_2 --out out_path

其中 model_path 是您训练好的模型路径（原始模型或脚本化模型），path_X 是音频文件或目录列表，而 out_path 是生成结果的输出目录。

讨论

如果您有任何问题、想分享您使用 RAVE 的经验，或分享使用该模型创作的音乐作品，欢迎使用讨论页！

演示

RAVE x nn~

演示如何结合 RAVE 和 maxmsp 的 nn~ 外挂插件进行创作！

嵌入式 RAVE

使用 nn~ for puredata，RAVE 可以在嵌入式平台上实时运行！

常见问题解答 (FAQ)

问题：我的预处理卡住了，显示 0it[00:00, ?it/s]
回答：这意味着您数据集中的音频文件太短，无法为 RAVE 提供足够的时域范围。请尝试使用 preprocess 中的 --num_signal XXX(samples) 参数减小信号窗口，之后别忘了在 train 中添加 --n_signal XXX(samples) 参数。

问题：在训练过程中，我遇到了类似 ValueError: n_components=128 必须介于 0 和 min(n_samples, n_features)=64 之间，且 svd_solver='full' 的异常。
回答：这意味着您的数据集没有足够的数据批次来计算内部潜在 PCA，而后者至少需要 128 个样本（或批次）。

资助

这项工作由 IRCAM 主导，并得到了以下项目的资助：

ANR MakiMono
ACTOR
DAFNE+ 编号 101061548

RAVE 快速上手指南

RAVE (Realtime Audio Variational autoEncoder) 是一个用于快速、高质量神经音频合成的变分自编码器。它支持实时音频处理、音色转换及风格迁移，并可与 Max/MSP、PureData 等环境集成。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Windows, macOS 或 Linux
Python 版本：建议 Python 3.8+
核心依赖：
- torch 和 torchaudio：强烈建议先手动安装适合您硬件（CPU/CUDA）版本的 PyTorch。
- ffmpeg：用于音频文件处理，必须安装在系统中或虚拟环境中。
硬件要求：
- 训练建议使用 NVIDIA GPU。
- 不同模型架构对显存要求不同（v2 版本建议至少 16GB 显存，v2_small 或 raspberry 配置可降低需求）。

安装依赖

安装 PyTorch 请访问 PyTorch 官网获取适合您环境的安装命令。例如（CUDA 11.8）：
```
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118
```
(注：国内用户可使用清华源加速：--index-url https://pypi.tuna.tsinghua.edu.cn/simple)
安装 ffmpeg
- Conda 用户推荐：
```
conda install ffmpeg
```
- 系统级安装：
  - Ubuntu/Debian: sudo apt-get install ffmpeg
  - macOS: brew install ffmpeg
  - Windows: 下载构建包并配置环境变量

安装步骤

完成前置依赖安装后，使用 pip 安装 RAVE：

pip install acids-rave

提示：如果您在中国大陆，建议使用国内镜像源以提高下载速度：
pip install acids-rave -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

RAVE 的工作流主要包含三个步骤：数据集预处理、模型训练和模型导出。

1. 数据集预处理

将您的音频文件夹转换为 RAVE 可用的数据集格式。假设您的音频文件位于 /audio/folder，希望将数据集保存到 /dataset/path，且音频为单声道（channels=1）：

rave preprocess --input_path /audio/folder --output_path /dataset/path --channels 1

可选：如果您的数据集非常大且不想占用过多磁盘空间进行解压，可以添加 --lazy 参数直接读取原始文件（如 mp3, ogg），但这会增加训练时的 CPU 负载。
```
rave preprocess --input_path /audio/folder --output_path /dataset/path --channels 1 --lazy
```

2. 模型训练

使用预处理好的数据集训练模型。以下命令使用推荐的 v2 架构进行训练：

rave train --config v2 --db_path /dataset/path --out_path /model/out --name my_first_rave --channels 1

--config: 模型架构（可选 v1, v2, discrete, raspberry 等）。
--db_path: 预处理后的数据集路径。
--out_path: 模型检查点保存路径。
--name: 本次运行任务的名称。

3. 模型导出

训练完成后，需要将模型导出为 TorchScript 格式以便推理或部署到实时环境（如 Max/MSP）。

重要：若需用于实时流式处理（Realtime），必须添加 --streaming 标志，否则会出现爆音。

rave export --run /model/out/my_first_rave --streaming

导出成功后，您将得到一个 .ts 文件，可用于后续的离线批量生成或加载到 nn~ 外部对象中进行实时表演。

进阶：离线批量生成

如果您只想用训练好的模型批量处理音频文件：

rave generate /model/out/my_first_rave.ts input_audio_1.wav input_folder_2 --out processed_output

版本历史

v2.3.12023/12/18

常见问题

训练 Prior 时出现 'cannot reshape tensor of 0 elements' 错误怎么办？

为什么 TensorBoard 预览效果很好，但在 Max (nn~) 中使用时输出会有卡顿或退化？

运行 train_rave.py 时提示 'Exception: No data found!' 但文件明明存在，如何解决？

使用 prior 生成音频时出现 'Kernel size can't be greater than actual input size' 错误？

为什么我的模型在 Max (nn~) 中有 127 个维度，而不是预期的 16 个？

如何手动修改模型架构或学习率等高级参数？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架