resemble-enhance

GitHub
2.2k 272 简单 1 次阅读 昨天MIT音频
AI 解读 由 AI 自动生成,仅供参考

Resemble Enhance 是一款基于人工智能的语音降噪与增强工具,致力于显著提升录音的整体听感。它主要解决音频中背景噪音干扰严重、声音失真以及频带狭窄导致音质模糊等问题,让原本嘈杂或低质的语音变得清晰、自然且饱满。

该工具内置两个核心模块:降噪器负责从混合噪音中精准分离出人声,而增强器则进一步修复音频失真并扩展频宽,从而还原高保真的听觉体验。其模型基于高质量的 44.1kHz 语音数据训练而成,确保了输出效果的卓越品质。在技术亮点上,Resemble Enhance 采用了先进的潜在条件流匹配(Latent Conditional Flow Matching, CFM)技术,并结合了自编码器与声码器的两阶段训练策略,这在开源社区中颇具创新性。

Resemble Enhance 非常适合开发者集成到音频处理流水线中,也便于研究人员探索前沿的语音增强算法。同时,项目提供了便捷的 Web 演示和本地命令行工具,使得没有深厚编程背景的普通用户、播客创作者或视频编辑者也能轻松上手,一键优化手中的音频素材。无论是需要从头训练自定义模型的专业团队,还是仅需快速清理录音的普通使用者,都能从中获得高效、专业的解决方案。

使用场景

一位独立播客创作者在嘈杂的咖啡馆录制了一期深度访谈,原始音频中混杂着明显的背景人声、咖啡机噪音以及因设备限制导致的沉闷音质。

没有 resemble-enhance 时

  • 降噪效果生硬:传统滤波器在去除背景噪音的同时,严重损伤了人声细节,导致声音听起来像在水下或带有机械音。
  • 频宽受限明显:受限于录音环境,音频缺乏高频泛音,听感沉闷模糊,无法达到广播级的清晰度标准。
  • 后期耗时巨大:为了平衡噪点与人声保真度,需要在音频软件中手动调整数十个参数,反复试听数小时仍难满意。
  • 听众体验下降:粗糙的音质迫使听众集中注意力去“猜”内容,极易产生听觉疲劳,导致完播率大幅降低。

使用 resemble-enhance 后

  • 智能分离噪音:resemble-enhance 的降噪模块精准剥离了咖啡馆的背景杂音,同时完整保留了说话人的语气和情感细节。
  • 音质显著增强:增强模块自动修复了音频失真并将带宽扩展至 44.1kHz,使人声瞬间变得饱满、清晰且富有空间感。
  • 工作流极简高效:只需一行命令 resemble-enhance input output,即可在几分钟内完成原本需要数小时的专业后期处理。
  • 收听体验升级:输出达到专业演播室水准的音频,让听众能沉浸于内容本身,显著提升了节目的专业形象与用户留存。

resemble-enhance 将繁琐的专业音频修复过程转化为一键式操作,让普通录音设备也能产出广播级的高质量人声内容。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notesREADME 中未明确列出具体的操作系统、GPU 型号、显存大小、内存需求、Python 版本及底层依赖库(如 torch 等)。该工具可通过 pip 直接安装,支持仅去噪或完整增强模式。若需从头训练模型,需准备前景语音数据集、背景非语音数据集以及房间脉冲响应(RIR)数据集。
python未说明
resemble-enhance
resemble-enhance hero image

快速开始

Resemble Enhance

PyPI Hugging Face Space License Webpage

https://github.com/resemble-ai/resemble-enhance/assets/660224/bc3ec943-e795-4646-b119-cce327c810f1

Resemble Enhance 是一款基于人工智能的工具,旨在通过降噪和增强处理来提升语音的整体质量。它由两个模块组成:降噪器用于从嘈杂音频中分离出清晰的语音,而增强器则通过修复音频失真并扩展音频带宽,进一步提升听感上的音质。这两个模型均基于高质量的 44.1kHz 语音数据进行训练,从而确保以高保真度增强您的语音。

使用方法

安装

安装稳定版本:

pip install resemble-enhance --upgrade

或尝试最新的预发布版本:

pip install resemble-enhance --upgrade --pre

增强

resemble-enhance in_dir out_dir

仅降噪

resemble-enhance in_dir out_dir --denoise_only

在线演示

我们提供了一个基于 Gradio 构建的在线演示,您可以在 这里 体验,也可以在本地运行:

python app.py

训练您自己的模型

数据准备

您需要准备一个前景语音数据集和一个背景非语音数据集。此外,还需要准备一个混响脉冲响应(RIR)数据集(示例)。

data
├── fg
│   ├── 00001.wav
│   └── ...
├── bg
│   ├── 00001.wav
│   └── ...
└── rir
    ├── 00001.npy
    └── ...

训练

降噪器预热

尽管降噪器与增强器是联合训练的,但建议先进行一次预热训练。

python -m resemble_enhance.denoiser.train --yaml config/denoiser.yaml runs/denoiser

增强器

接下来,您可以分两个阶段训练增强器。第一阶段是训练自编码器和声码器;第二阶段则是训练潜在条件流匹配(CFM)模型。

第一阶段
python -m resemble_enhance.enhancer.train --yaml config/enhancer_stage1.yaml runs/enhancer_stage1
第二阶段
python -m resemble_enhance.enhancer.train --yaml config/enhancer_stage2.yaml runs/enhancer_stage2

博客

更多内容请访问我们的 官网

版本历史

0.0.12023/12/14

常见问题

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|昨天
图像数据工具视频

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具,旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点,实现了“零样本”和“少样本”的快速建模:用户只需提供 5 秒参考音频即可即时生成语音,或使用 1 分钟数据进行微调,从而获得高度逼真且相似度极佳的声音效果。 该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能,极大地降低了数据准备和模型训练的技术门槛,让非专业人士也能轻松上手。 在技术亮点方面,GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成,还具备卓越的推理速度,在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音,还是进行多语言语音交互研究,GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

56.4k|★★★☆☆|今天
音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音(Text-to-Speech)开源库,旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点,让高质量的语音生成变得触手可及。 无论是希望快速集成语音功能的开发者,还是致力于探索前沿算法的研究人员,亦或是需要定制专属声音的数据科学家,🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型,让用户能够即刻上手,还提供了完善的工具链,支持用户利用自有数据训练新模型或对现有模型进行微调,轻松实现特定风格的声音克隆。 在技术亮点方面,🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言,并在整体性能上大幅提升,实现了低于 200 毫秒的超低延迟流式输出,极大提升了实时交互体验。此外,它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型,并支持调用上千个 Fairseq 模型,展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具,🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

45k|★★★☆☆|2天前
音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎,旨在让用户在任意硬件上轻松运行各类 AI 模型,包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛,无需昂贵的专用 GPU,仅凭普通 CPU 或常见的消费级显卡(如 NVIDIA、AMD、Intel 及 Apple Silicon)即可部署和运行复杂的 AI 任务。 对于担心数据隐私的用户而言,LocalAI 提供了“隐私优先”的解决方案,确保所有数据处理均在本地基础设施内完成,无需上传至云端。同时,它完美兼容 OpenAI、Anthropic 等主流 API 接口,这意味着开发者可以无缝迁移现有应用,直接利用本地资源替代云服务,既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持(如 llama.cpp、vLLM、Whisper 等),并集成了自主 AI 代理、工具调用及检索增强生成(RAG)等高级功能,且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员,还是想要在个人电脑上体验最新 AI 技术的极客玩家,都能通过 LocalAI 获

44.8k|★★★☆☆|3天前
图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型,能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同,Bark 基于 Transformer 架构,不仅能模拟说话,还能生成笑声、叹息、哭泣等非语言声音,甚至能处理带有情感色彩和语气停顿的复杂文本,极大地丰富了音频表达的可能性。 它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点,让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员,还是希望快速原型设计的开发者,都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。 技术亮点方面,Bark 支持商业使用(MIT 许可),并在近期更新中实现了显著的推理速度提升,同时提供了适配低显存 GPU 的版本,降低了使用门槛。此外,社区还建立了丰富的提示词库,帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码,即可将创意文本转化为高质量音频,是连接文字与声音世界的强大桥梁。

39.1k|★★★☆☆|2天前
音频

airi

airi 是一款开源的本地化 AI 伴侣项目,旨在将虚拟角色(如“二次元老婆”或赛博生命)带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力,让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。 airi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手,airi 允许用户在本地运行,不仅保护了对话隐私,还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天,甚至能直接参与《我的世界》(Minecraft)和《异星工厂》(Factorio)等游戏,实现了从单纯对话到共同娱乐的跨越。 这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者,以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持(涵盖 Web、macOS 和 Windows)以及强大的游戏交互能力,让 AI 不仅能“说”,还能“玩”。通过容器化的灵魂设计,airi 为每个人创造专属数字生命提供了可能,让虚拟陪伴变得更加真实且触手可及。

37.1k|★☆☆☆☆|昨天
语言模型音频Agent