neural-amp-modeler

2.5k 232 中等 1 次阅读今天MIT音频

AI 解读由 AI 自动生成，仅供参考

Neural Amp Modeler 是一款利用神经网络技术对吉他音箱进行高精度建模的开源工具。它核心解决了传统数字效果器难以完美复刻电子管音箱复杂音色与动态响应的问题，通过深度学习算法捕捉硬件设备的细微特质，让音乐人能在电脑或移动设备上获得近乎真实的经典音箱体验。

该项目主要包含模型训练与导出功能，用户可录制特定信号并通过软件训练生成专属的.nam 格式模型文件。若需实时演奏，可配合其兄弟项目 NeuralAmpModelerPlugin 作为插件或在独立应用中加载使用。其独特之处在于拥有开放的生态系统，不仅支持社区共享大量免费音色模型，还提供了完整的文档与跨平台构建支持，方便用户自定义开发。

Neural Amp Modeler 非常适合吉他手、音频工程师及音乐制作人用于日常创作与录音，同时也面向对音频机器学习感兴趣的研究者和开发者。无论你是希望低成本获取顶级音箱音色的普通乐手，还是想要探索神经音频建模技术的极客，都能在这个项目中找到所需的功能与支持。

使用场景

独立音乐制作人小李希望将自己珍藏的复古电子管音箱音色数字化，以便在家庭录音室中随时调用，同时避免深夜排练时打扰邻居。

没有 neural-amp-modeler 时

硬件依赖严重：必须物理连接沉重的音箱头和箱体，无法在静音环境下通过耳机进行高质量录音。
音色复刻困难：传统建模插件难以捕捉老式音箱独特的非线性失真和动态响应，听起来总是“数码味”太重，缺乏灵魂。
成本高昂且不可复制：若请专业机构定制采样或购买高端仿真插件，费用动辄数千美元，且无法针对自己改装过的特定电路进行训练。
调整灵活性差：一旦录音完成，后期无法再调整麦克风摆放位置或旋钮角度，只能重新架设设备录制。

使用 neural-amp-modeler 后

实现静音高保真演奏：只需录制一段干琴信号作为训练数据，neural-amp-modeler 即可训练出深度神经网络模型，让小李戴上耳机就能获得与真实推大音量完全一致的音色。
完美还原个性特征：该工具能精准学习特定音箱电路的非线性特性，连小李自行更换电子管后产生的细微音色变化都能完美复刻，听感极度逼真。
零成本私有化定制：利用开源脚本，小李免费将自己的独家设备转化为 .nam 格式文件，无需支付昂贵的授权费即可拥有专属音色库。
后期编辑自由度高：生成的模型可直接加载到 DAW 插件中，随时像调节真实旋钮一样改变增益和音调，甚至在不同歌曲间无缝切换多种音箱状态。

neural-amp-modeler 将原本昂贵且笨重的硬件依赖，转化为轻便、可无限复制且高度保真的数字资产，彻底改变了吉他音色的创作与工作流。

运行环境要求

操作系统

Linux
Windows

GPU

未说明

内存

未说明

依赖

notesREADME 仅提供了构建本地文档的命令（Linux 使用 make，Windows 使用 make.bat），未列出具体的运行环境、硬件配置或 Python 依赖库。训练模型和导出 .nam 文件是此仓库的主要功能，实时演奏需参考关联的 NeuralAmpModelerPlugin 项目。

python未说明

快速开始

NAM：神经放大器建模器

本仓库用于训练模型并将它们导出为 .nam 文件。如需在独立应用程序或插件中实时运行已训练的模型，请参阅配套仓库： NeuralAmpModelerPlugin。

有关 NAM 生态系统的更多信息，请访问 https://www.neuralampmodeler.com/。

文档

在线文档请见： https://neural-amp-modeler.readthedocs.io

在 Linux 系统上本地构建文档：

cd docs
make html

或在 Windows 上：

cd docs
make.bat html

Neural Amp Modeler (NAM) 快速上手指南

Neural Amp Modeler (NAM) 是一个用于训练吉他音箱建模神经网络并将模型导出为 .nam 格式的工具。本指南将帮助你快速搭建环境并开始训练。

环境准备

在开始之前，请确保你的系统满足以下要求：

操作系统：Linux、macOS 或 Windows。
Python 版本：推荐 Python 3.8 或更高版本。
硬件建议：虽然可以在 CPU 上运行，但强烈建议使用 NVIDIA GPU 以加速训练过程（需安装对应的 CUDA 驱动）。
前置依赖：
- Git（用于克隆代码库）
- pip（Python 包管理工具）

国内加速建议：在安装 Python 依赖时，推荐使用清华或阿里镜像源以提升下载速度。

安装步骤

克隆项目仓库 打开终端（Terminal 或 CMD），执行以下命令获取源代码：
```
git clone https://github.com/sdatkinson/neural-amp-modeler.git
cd neural-amp-modeler
```

创建虚拟环境（推荐） 为了避免依赖冲突，建议创建一个独立的虚拟环境：

python -m venv venv
# Linux/macOS 激活环境
source venv/bin/activate
# Windows 激活环境
venv\Scripts\activate

安装依赖包 使用国内镜像源安装项目所需的 Python 库：
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
```
(注：如果 requirements.txt 不存在，请直接安装主包：pip install neural-amp-modeler -i https://pypi.tuna.tsinghua.edu.cn/simple)
安装本地开发版本 将当前目录下的包安装到环境中：
```
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple
```

基本使用

NAM 的核心工作流通常包含数据录制、模型训练和模型导出。以下是最基础的训练命令示例。

1. 准备数据

你需要准备好输入信号（通常是干声吉他录音）和对应的输出信号（经过真实音箱录制后的声音）。文件通常为 WAV 格式。

2. 开始训练

使用 nam 命令行工具启动训练。以下是一个最简单的训练示例，假设你的数据位于 data/my_amp 目录下：

nam train data/my_amp --model-type lstm

data/my_amp：包含训练数据（输入/输出对）的目录路径。
--model-type：指定模型架构，常用选项包括 lstm 或 wavenet。

训练完成后，模型文件通常会保存在输出目录中，并可转换为 .nam 文件。

3. 查看文档

如需了解更详细的参数配置、数据结构要求或高级用法，可以查看官方在线文档： https://neural-amp-modeler.readthedocs.io

或者在本地构建文档（Linux）：

cd docs
make html

Windows 用户：

cd docs
make.bat html

版本历史

v0.12.22025/09/05

v0.12.12025/09/05

v0.12.02025/05/30

v0.11.02024/12/08

v0.10.02024/10/08

v0.9.02024/07/27

v0.8.42024/05/14

v0.8.32024/05/14

v0.8.22024/05/14

v0.8.12024/02/11

v0.8.02024/02/10

v0.7.42024/01/13

v0.7.32023/11/07

v0.7.22023/07/27

v0.7.12023/07/27

v0.7.02023/07/17

v0.6.02023/06/12

v0.5.22023/04/27

v0.5.12023/04/26

v0.5.02023/02/26

常见问题

在 Apple Silicon (M1/M2/M3) Mac 上安装时遇到 PyTorch CUDA 版本错误怎么办？

如何调整模型架构以在性能和质量之间取得平衡（例如在树莓派等低性能设备上运行）？

NAM 支持哪些元数据字段来描述模型？

为什么在 Mac 上训练时会报 'Exception in Tkinter callback' 错误？

如何使用 ReLU 激活函数训练模型？有什么注意事项？

是否有比 'feather' 更轻量的模型预设可供低性能硬件使用？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|今天

图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

★ 56.4k|★★★☆☆|3天前

音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|5天前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|6天前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|5天前

音频

airi

airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。

★ 37.1k|★☆☆☆☆|3天前

语言模型音频Agent