audio

2.9k 768 简单 1 次阅读昨天BSD-2-Clause音频其他数据工具插件开发框架Agent语言模型图像视频

AI 解读由 AI 自动生成，仅供参考

torchaudio 是专为 PyTorch 打造的音频数据处理库，致力于将深度学习能力延伸至音频与语音领域。它主要解决了在机器学习工作流中高效加载、转换和处理音频信号的难题，让开发者无需在不同库之间切换，即可在一个统一的框架内完成从数据预处理到模型训练的全过程。

这款工具非常适合 AI 研究人员、深度学习工程师以及需要构建音频相关模型的开发者使用。无论是处理常见的语音数据集，还是进行复杂的声学特征提取，torchaudio 都能提供流畅的支持。其核心亮点在于深度集成 PyTorch 生态：所有计算均基于 PyTorch 张量操作，不仅天然支持强大的 GPU 加速，还能利用自动求导系统实现端到端的可训练音频变换。库内置了丰富的功能模块，涵盖梅尔频谱图（MelSpectrogram）、MFCC 提取、重采样等常用变换，并提供与 Kaldi 等专业工具兼容的接口，确保实验结果的一致性与复现性。目前，torchaudio 已进入维护阶段，更加聚焦于为机器学习任务提供精简、高效的音频数据处理核心能力，是构建现代语音识别与音频分析系统的理想基石。

使用场景

某语音识别初创团队的算法工程师正在构建一个端到端的说话人情感分析模型，需要处理海量原始录音数据并提取声学特征。

没有 audio 时

数据处理割裂：需先用 LibROSA 或 SciPy 加载音频，再手动转换为 NumPy 数组并传入 PyTorch，流程繁琐且容易在格式转换中出错。
GPU 加速缺失：频谱图（Spectrogram）和梅尔频率倒谱系数（MFCC）等特征提取只能在 CPU 上串行计算，处理大规模数据集时耗时极长，成为训练瓶颈。
梯度断裂风险：传统信号处理库不支持自动求导，导致无法将音频预处理环节纳入整体神经网络进行端到端的联合优化。
生态兼容困难：难以直接复用 PyTorch 现有的 DataLoader 机制，编写自定义数据集类时代码冗余度高，维护成本大。

使用 audio 后

原生无缝集成：audio 提供原生的 PyTorch Tensor 接口，可直接加载波形并在一行代码内完成从文件到张量的转换，消除格式壁垒。
全链路 GPU 加速：利用 audio 内置的 Spectrogram、MelSpectrogram 等变换算子，特征提取过程直接运行在 GPU 上，数据准备速度提升数倍。
支持端到端训练：所有音频操作均基于 PyTorch Autograd 系统构建，允许梯度反向传播至预处理层，实现了真正的端到端模型微调。
标准化数据流：通过 audio 提供的专用 Datasets 和 Transforms 组件，轻松构建高效的数据流水线，代码风格与主流视觉任务保持一致。

audio 通过将音频信号处理深度融入 PyTorch 生态，彻底打破了数据准备与模型训练之间的性能及功能隔阂，让音频深度学习开发变得高效且流畅。

运行环境要求

操作系统

未说明

GPU

支持 GPU 加速（基于 PyTorch），具体型号、显存大小及 CUDA 版本未在文档中明确指定

内存

未说明

依赖

notes该工具已进入维护阶段，部分功能在 2.9 版本中被移除。主要定位为机器学习库而非通用信号处理库。安装详情需参考官方安装文档，数据集和预训练模型的使用需用户自行确认许可协议。

python未说明

torch

快速开始

torchaudio：PyTorch 的音频库

TorchAudio Logo

[!NOTE] 我们已将 TorchAudio 进入维护阶段。在此过程中，移除了部分面向用户的特性。这些特性自 TorchAudio 2.8 起已被弃用，并在 2.9 中彻底移除。我们的主要目标是减少与 PyTorch 生态其他部分的冗余，简化维护工作，并打造一个更专注于其优势——为机器学习处理音频数据——的 TorchAudio 版本。更多详情请参阅我们的社区公告。

torchaudio 的目标是将 PyTorch 应用于音频领域。通过支持 PyTorch，torchaudio 坚持相同的理念：提供强大的 GPU 加速、通过 autograd 系统聚焦可训练特征，并保持一致的风格（张量名称和维度名称）。因此，它主要是一个机器学习库，而非通用信号处理库。PyTorch 的优势在 torchaudio 中得以体现，所有计算都通过 PyTorch 操作完成，这使得使用起来非常方便，仿佛是 PyTorch 的自然扩展。

常用音频数据集的数据加载器
音频和语音处理函数
- 强制对齐
常用音频变换
- 频谱图、幅度转分贝、梅尔尺度、梅尔频谱图、MFCC、μ律编码、μ律解码、重采样
兼容接口：使用 PyTorch 编写与其他库兼容的代码
- Kaldi：频谱图、FBank、MFCC

安装

请参阅 https://pytorch.org/audio/main/installation.html 以获取 TorchAudio 的安装和构建流程。

API 参考

API 参考位于此处：http://pytorch.org/audio/main/

贡献指南

请参阅 CONTRIBUTING.md

引用

如果您觉得本包有用，请按以下方式引用：

@article{yang2021torchaudio,
  title={TorchAudio: Building Blocks for Audio and Speech Processing},
  author={Yao-Yuan Yang and Moto Hira and Zhaoheng Ni and Anjali Chourdia and Artyom Astafurov and Caroline Chen and Ching-Feng Yeh and Christian Puhrsch and David Pollack and Dmitriy Genzel and Donny Greenberg and Edward Z. Yang and Jason Lian and Jay Mahadeokar and Jeff Hwang and Ji Chen and Peter Goldsborough and Prabhat Roy and Sean Narenthiran and Shinji Watanabe and Soumith Chintala and Vincent Quenneville-Bélair and Yangyang Shi},
  journal={arXiv preprint arXiv:2110.15018},
  year={2021}
}

@misc{hwang2023torchaudio,
      title={TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch},
      author={Jeff Hwang and Moto Hira and Caroline Chen and Xiaohui Zhang and Zhaoheng Ni and Guangzhi Sun and Pingchuan Ma and Ruizhe Huang and Vineel Pratap and Yuekai Zhang and Anurag Kumar and Chin-Yun Yu and Chuang Zhu and Chunxi Liu and Jacob Kahn and Mirco Ravanelli and Peng Sun and Shinji Watanabe and Yangyang Shi and Yumeng Tao and Robin Scheibler and Samuele Cornell and Sean Kim and Stavros Petridis},
      year={2023},
      eprint={2310.17864},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}

数据集免责声明

这是一个用于下载和准备公开数据集的工具库。我们不托管或分发这些数据集，也不对其质量或公平性作出保证，更不声称您拥有使用这些数据集的许可。您有责任根据数据集的许可协议确定自己是否有权使用该数据集。

如果您是数据集的所有者，并希望更新其中的任何部分（描述、引用等），或者不希望您的数据集被包含在本库中，请通过 GitHub 问题与我们联系。感谢您对机器学习社区的贡献！

预训练模型许可

本库中提供的预训练模型可能具有各自的许可或由训练所用数据集衍生的条款和条件。您有责任确定自己是否拥有针对特定用途使用这些模型的许可。

例如，SquimSubjective 模型采用知识共享署名非商业性使用 4.0 国际许可协议（CC-BY-NC 4.0）发布。更多详细信息请参阅此链接。

其他具有不同许可的预训练模型已在文档中注明。请查阅文档页面。

Torchaudio 快速上手指南

Torchaudio 是 PyTorch 生态中专为音频和语音处理设计的库。它利用 PyTorch 的 GPU 加速能力和自动求导机制，专注于为机器学习任务提供高效的音频数据处理功能（如频谱图提取、重采样、特征工程等），而非通用的信号处理库。

注意：Torchaudio 目前已进入维护阶段（Maintenance Phase）。部分功能在 2.8 版本弃用并在 2.9 版本移除，旨在精简库结构，更聚焦于机器学习所需的音频数据处理核心能力。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS, 或 Windows
Python：建议 Python 3.8 及以上版本
前置依赖：必须先安装 PyTorch。Torchaudio 的版本需与已安装的 PyTorch 版本兼容。
硬件：可选配 NVIDIA GPU 以加速音频特征计算（需安装 CUDA 版本的 PyTorch）。

2. 安装步骤

推荐优先使用 PyTorch 官方提供的安装命令，该命令会自动匹配适合您当前环境的版本。

方式一：使用 pip 安装（推荐）

访问 PyTorch 官网安装页面获取最新命令。通常情况下，如果您已安装 PyTorch，可直接运行：

pip install torchaudio

国内加速方案：如果您在中国大陆地区，建议使用清华大学或阿里云镜像源以加快下载速度：

pip install torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：使用 Conda 安装

如果您使用 Anaconda 或 Miniconda 管理环境：

conda install -c pytorch torchaudio

国内加速方案：配置清华源后执行：

conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch torchaudio

3. 基本使用

Torchaudio 的核心功能是加载音频文件并将其转换为 Tensor，以便直接输入到 PyTorch 模型中。以下是最简单的加载与变换示例。

示例：加载音频并提取梅尔频谱图

import torch
import torchaudio

# 1. 加载音频文件
# waveform: 音频波形数据 (Tensor)
# sample_rate: 采样率 (int)
waveform, sample_rate = torchaudio.load("example.wav")

print(f"波形形状：{waveform.shape}, 采样率：{sample_rate}")

# 2. 数据变换：提取梅尔频谱图 (MelSpectrogram)
# 定义变换参数
transform = torchaudio.transforms.MelSpectrogram(
    sample_rate=sample_rate,
    n_mels=128
)

# 应用变换
mel_specgram = transform(waveform)

print(f"梅尔频谱图形状：{mel_specgram.shape}")

# 3. (可选) 转换为分贝刻度
to_db = torchaudio.transforms.AmplitudeToDB()
mel_specgram_db = to_db(mel_specgram)

# 此时 mel_specgram_db 可直接用于训练神经网络

常用功能概览

数据集加载：torchaudio.datasets 提供了常见音频数据集（如 LibriSpeech, GTZAN）的 DataLoader 接口。
合规性接口：提供与 Kaldi 等传统工具库对齐的接口（如 fbank, mfcc），方便迁移旧代码。
强制对齐：支持 forced_align 等功能，用于语音识别任务中的时间戳对齐。

更多详细 API 请参考官方文档。

版本历史

v2.11.02026/03/23

v2.10.02026/01/21

v2.9.12025/11/12

v2.9.02025/10/15

v2.8.02025/08/06

v2.7.12025/06/04

v2.7.02025/04/24

v2.6.02025/01/29

v2.5.02024/10/17

v2.4.12024/09/04

v2.4.02024/07/24

v2.3.12024/06/05

v2.3.02024/04/24

v2.2.22024/03/28

v2.2.12024/02/22

v2.2.02024/01/30

v2.1.22023/12/15

v2.1.12023/11/15

v2.1.02023/10/04

v2.0.22023/05/08

常见问题

如何在 Apple Silicon (M1) Mac 上安装 torchaudio？

如何使用 file-like object（如内存流）加载 MP3 文件？

如何迁移到 torchaudio 0.7+ 的新后端接口？

新的 AudioMetaData 类中哪里可以找到编码和位深信息？

Windows 上是否支持 MP3 格式？如何解决依赖问题？

为什么加载 24-bit 音频文件会出错，如何支持？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|3天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前

开发框架图像Agent