DeepXi

523 126 中等 1 次阅读 3周前MPL-2.0音频开发框架

AI 解读由 AI 自动生成，仅供参考

DeepXi 是一个基于 TensorFlow 2 和 Keras 构建的开源深度学习项目，核心功能是通过神经网络精准估计“先验信噪比”（a priori SNR）。它主要致力于解决嘈杂环境下的语音增强难题，能够有效从混合了背景噪音的音频中还原清晰的人声，同时也可用于噪声功率谱估计、声源分离以及提升自动语音识别（ASR）系统在复杂声学环境中的鲁棒性。

该工具特别适合语音处理领域的研究人员、算法工程师及开发者使用。用户不仅可以利用其预训练模型直接进行语音降噪实验，还能基于其架构开发自定义网络或将其作为前端模块集成到更大的语音识别系统中。

DeepXi 的技术亮点在于将传统的信号处理理论与现代深度学习相结合。它支持多种先进的网络结构，如掩码多头自注意力机制（MHANet）和带有频率维度自适应注意力的时序卷积网络，能够更精细地捕捉语音的时空特征。此外，项目还衍生出了 DeepMMSE 等变体，提供了从理论推导到工程落地的完整参考，是探索基于深度学习的语音增强方案的优质资源。

使用场景

某智能客服团队正在优化其语音机器人，以应对嘈杂呼叫中心环境下的用户指令识别难题。

没有 DeepXi 时

语音清晰度差：在背景人声嘈杂或电话线路噪声大时，传统降噪算法难以区分噪声与语音，导致输出音频依然模糊不清。
识别率骤降：由于输入音频信噪比（SNR）估计不准，后端自动语音识别（ASR）引擎频繁将“查询余额”误听为无关词汇，意图识别失败率高。
开发调优困难：工程师需要手动调整复杂的信号处理参数来适配不同噪声场景，耗时且难以泛化到新环境。
实时性受限：为了追求一定的降噪效果，往往引入较大的处理延迟，影响人机交互的流畅体验。

使用 DeepXi 后

精准语音增强：DeepXi 利用深度学习准确估算先验信噪比，有效分离人声与背景噪声，显著提升了输出音频的纯净度。
鲁棒性大幅提升：作为 ASR 的前端处理器，DeepXi 提供的干净语谱图让识别引擎在 -5dB 低信噪比下仍能保持高准确率，大幅减少误识。
自适应能力强：基于训练好的模型（如 MHANet），DeepXi 能自动适应各种未见过的噪声类型，无需人工反复调试参数。
高效端到端集成：依托 TensorFlow 2/Keras 实现，团队可轻松将其嵌入现有流水线，在保证低延迟的同时实现因果语音增强。

DeepXi 通过高精度的先验信噪比估计，从根本上解决了复杂噪声环境下的语音增强难题，让智能语音系统在真实世界中听得清、认得准。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU（基于注释中的 CUDA 10.1 路径推断），具体显存大小未说明，建议 CUDA 10.1+

内存

未说明

依赖

notes该项目基于 TensorFlow 2/Keras 实现。README 开头的注释中提到了 CUDA 10.1 的环境变量配置，暗示主要支持 Linux 环境下的 NVIDIA GPU 加速。文中提到不同模型参数量在 200 万到 1000 万之间。所有可用模型均需在 Deep Xi 数据集上训练或使用预训练权重。

python未说明

TensorFlow 2

Keras

快速开始

Deep Xi: 一种基于深度学习的先验信噪比估计方法，用于语音增强。

新闻

新发表的期刊论文：

关于清洁语音幅度谱估计的深度学习方法的训练目标 [链接] [.pdf]

新训练好的模型：

在 model 目录中提供了一个训练好的 MHANet 模型。

新发表的期刊论文：

用于因果语音增强的掩码多头自注意力机制 [链接] [.pdf]

新发表的期刊论文：

导致先验信噪比估计与其瞬时值之间产生可察觉差异的频谱失真水平 [链接] [.pdf]

新发表的会议论文：

带有频率维度自适应注意力的时序卷积网络用于语音增强（INTERSPEECH 2021）[链接]

引言

Deep Xi 使用 TensorFlow 2/Keras 实现，可用于语音增强、噪声估计、掩膜估计，以及作为鲁棒自动语音识别系统的前端。 Deep Xi（其中希腊字母“xi”或 ξ 发音为 /zaɪ/，是文献中表示先验信噪比的符号）是一种用于先验信噪比估计的深度学习方法，该方法最初在 [1] 中提出。其部分应用场景包括：

基于最小均方误差 (MMSE) 的 语音增强 方法。
基于 MMSE 的 噪声功率谱密度估计器，如 DeepMMSE [2]。
用于 缺失特征法 的理想二进制掩膜 (IBM) 估计。
用于 源分离 的理想比率掩膜 (IRM) 估计。
鲁棒自动语音识别系统的前端

Deep Xi 是如何工作的？

图 2 展示了一个训练示例。Deep Xi 框架内的深度神经网络 (DNN) 将 噪声语音的短时幅度谱 作为输入。该 DNN 的训练目标是瞬时先验信噪比的映射版本（即 映射后的先验信噪比）。为了提高所使用的随机梯度下降算法的收敛速度，瞬时先验信噪比被映射到区间 [0,1]。这种映射是瞬时先验信噪比的累积分布函数 (CDF)，具体公式见 [1] 中的式 (13)。CDF 的统计信息是在训练集的一个样本上计算得出的。每个频段样本的均值和标准差示例如 图 3 所示。每个小批量中的训练样本都会被填充到该批量中最长序列长度。TensorFlow 使用 序列掩码 来确保 DNN 不会基于填充部分进行训练。在推理阶段，先验信噪比估计值通过使用样本统计信息和 [2] 中的式 (12)，由映射后的先验信噪比反推得出。


图 2： Deep Xi 的一个训练示例。由 `eval_example.m` 生成。


图 3：每个频段的正态分布是根据训练集中瞬时先验信噪比（dB）的均值和标准差计算得出的。由 `eval_stats.m` 生成。

当前网络架构

以下网络的配置可以在 run.sh 中找到。

MHANet：多头注意力网络 [6]。
RDLNet：残差密集网格网络 [3]。
ResNet：残差网络 [2]。
ResLSTM 和 ResBiLSTM：残差长短时记忆网络和残差双向 LSTM 网络 [1]。

利用 MHANet 的 Deep Xi（Deep Xi-MHANet）最早在 [6] 中提出。它采用多头注意力机制，能够高效地建模噪声语音中的长距离依赖关系。Deep Xi-MHANet 如 图 4 所示。利用 ResNet TCN 的 Deep Xi（Deep Xi-ResNet）最早在 [2] 中提出。该网络使用瓶颈残差块和循环扩张率。整个网络约有 200 万个参数，上下文感受野约为 8 秒。利用 ResLSTM 网络的 Deep Xi（Deep Xi-ResLSTM）最早在 [1] 中提出。其每个残差块仅包含一个 LSTM 单元。该网络约有 1000 万个参数。


图 4： (左) 来自 [6] 的 Deep Xi-MHANet。

可用模型

mhanet-1.1c（位于 model 目录中）

resnet-1.1n（位于 model 目录中）

resnet-1.1c（位于 model 目录中）

每个可用模型均使用 Deep Xi 数据集进行训练。有关这些网络的更多详细信息，请参阅 run.sh。

Deep Xi 有多个版本，分别对应不同的网络架构和约束条件。例如，ver 命名规范为 resnet-1.0c。ver 开头标明了网络类型。带有 c 的版本是因果的，而带有 n 的版本则是 非因果 的。此外，还标明了版本迭代号，如 1.0。

结果

注意：本仓库中 Deep Xi 框架的结果均基于 Tensorflow 2/Keras 报告。而论文中的结果则是使用 Tensorflow 1 得到的。今后的所有工作都将基于 Tensorflow 2/Keras 完成。

DEMAND Voice Bank 测试集

在 DEMAND Voicebank 测试集中获得的客观评分如下所述这里。每个 Deep Xi 模型均在 DEMAND Voicebank 训练集上进行训练。与以往的工作一致，客观评分是对所有测试条件取平均值。CSIG、CBAK 和 COVL 分别是信号失真、背景噪声侵扰性和整体信号质量的主观意见评分预测指标。PESQ 是语音质量的感知评估指标。STOI 是短时客观可懂度指标（以百分比表示）。各项指标中的最高得分以粗体显示。

方法	增益	因果	CSIG	CBAK	COVL	PESQ	STOI	SegSNR
噪声语音	--	--	3.35	2.44	2.63	1.97	92 (91.5)	--
Wiener		是	3.23	2.68	2.67	2.22	--	--
SEGAN	--	否	3.48	2.94	2.80	2.16	93	--
WaveNet	--	否	3.62	3.23	2.98	--	--	--
MMSE-GAN	--	否	3.80	3.12	3.14	2.53	93	--
Deep Feature Loss	--	是	3.86	3.33	3.22	--	--	--
Metric-GAN	--	否	3.99	3.18	3.42	2.86	--	--
Koizumi2020	--	否	4.15	3.42	3.57	2.99	--	--
T-GSA	--	否	4.18	3.59	3.62	3.06	--	--
Deep Xi-ResLSTM (1.0c)	MMSE-LSA	是	4.01	3.25	3.34	2.65	91 (91.0)	8.2
Deep Xi-ResNet (1.0c)	MMSE-LSA	是	4.14	3.32	3.46	2.77	93 (93.2)	--
Deep Xi-ResNet (1.0n)	MMSE-LSA	否	4.28	3.46	3.64	2.95	94 (93.6)	--
Deep Xi-ResNet (1.1c)	MMSE-LSA	是	4.24	3.40	3.59	2.91	94 (93.5)	8.4
Deep Xi-ResNet (1.1n)	MMSE-LSA	否	4.35	3.52	3.71	3.03	94 (94.1)	9.3
Deep Xi-MHANet (1.0c)	MMSE-LSA	是	4.15	3.37	3.48	2.77	93 (93.2)	8.9
Deep Xi-MHANet (1.1c)	MMSE-LSA	是	4.34	3.49	3.69	2.99	94 (94.0)	9.1

Deep Xi 测试集

在 Deep Xi 数据集的测试集中，针对不同条件测得的平均客观评分。每个 Deep Xi 模型均在 Deep Xi 数据集的测试集上进行训练。仅考虑 -10 dB 至 20 dB 之间的信噪比水平。每种条件的结果均可在 log/results 中找到。

方法	增益	因果	CSIG	CBAK	COVL	PESQ	STOI
Deep Xi-ResNet (1.1c)	MMSE-STSA	是	3.14	2.52	2.43	1.82	84.85
Deep Xi-ResNet (1.1c)	MMSE-LSA	是	3.15	2.55	2.46	1.85	84.72
Deep Xi-ResNet (1.1c)	SRWF/IRM	是	3.12	2.50	2.41	1.79	84.95
Deep Xi-ResNet (1.1c)	cWF	是	3.15	2.51	2.44	1.83	84.94
Deep Xi-ResNet (1.1c)	WF	是	2.66	2.46	2.12	1.69	83.02
Deep Xi-ResNet (1.1c)	IBM	是	1.36	2.16	1.26	1.30	77.57
Deep Xi-ResNet (1.1n)	MMSE-LSA	否	3.30	2.62	2.59	1.97	86.70
Deep Xi-MHANet (1.1c)	MMSE-LSA	是	3.45	2.75	2.73	2.08	87.11

DeepMMSE

DeepMMSE：一种基于深度学习的 MMSE 噪声功率谱密度估计方法。

要保存来自 DeepMMSE 的噪声 PSD 估计 .mat 文件，请使用以下命令：

./run.sh VER="mhanet-1.1c" INFER=1 GAIN="deepmmse"

安装

使用 GPU 的前提条件：

安装步骤：

git clone https://github.com/anicolson/DeepXi.git
python3 -m venv --system-site-packages ~/venv/DeepXi
source ~/venv/DeepXi/bin/activate
cd DeepXi
pip install -r requirements.txt

此外，您也可以在 Docker Hub 上找到对应的 Docker 镜像：https://hub.docker.com/r/fhoerst/deepxi

如何使用 Deep Xi

使用 run.sh 来配置并运行 Deep Xi。请参考 config.sh 设置数据集、模型和输出文件的路径。

推理： 若需执行推理并保存结果，请使用以下命令：

./run.sh VER="mhanet-1.1c" INFER=1 GAIN="mmse-lsa"

有关可用增益函数的信息，请参阅 thoth/args.py，更多选项则可在 run.sh 中找到。

测试： 若需进行测试并获取客观评分，请使用以下命令：

./run.sh VER="mhanet-1.1c" TEST=1 GAIN="mmse-lsa"

测试结果将保存在 log/results 中。

训练：

./run.sh VER="mhanet-1.1c" TRAIN=1

请注意，在开始训练之前务必删除数据目录，以便保存和使用您的训练集列表和统计信息。若需从特定 epoch 继续训练，请在 run.sh 中设置 --resume_epoch 参数为所需 epoch。

当前问题及潜在改进方向

如果您希望为 Deep Xi 贡献代码，请研究以下内容，并与现有模型进行比较：

目前，ResLSTM 网络的表现不如预期（与 TensorFlow 1.x 版本相比）。

我在哪里可以找到用于 Deep Xi 的数据集？

IEEE DataPort 上提供了 Deep Xi 的开源训练和测试数据集：

[4] Deep Xi 数据集（训练、验证和测试集）：http://dx.doi.org/10.21227/3adt-pb04。

[5] 来自原始 Deep Xi 论文的测试集：http://dx.doi.org/10.21227/0ppr-yy46。

用于生成这些数据集的 MATLAB 脚本可在 set 目录中找到。

我应该使用哪种音频与 Deep Xi 配合使用？

Deep Xi 处理的是单声道/单通道音频（而非立体声/双通道音频）。之所以采用单声道音频，是因为大多数手机都只配备一个麦克风。目前可用的训练模型以采样率为 f_s=16000 Hz 运行，这也是当前语音增强领域普遍采用的标准采样率。您可以在 run.sh 中更改采样率。虽然 Deep Xi 也可以使用更高的采样率（如 f_s=44100 Hz）进行训练，但这并非必要，因为人类语音的频率通常不超过 8 kHz（f_s=16000 Hz 的奈奎斯特频率正是 8 kHz）。当前训练好的模型分别采用窗口持续时间 T_d=32 ms 和滑动步长 T_s=16 ms。如果需要使用不同的窗口持续时间和滑动步长来训练模型，可以在 run.sh 中进行调整。目前，Deep Xi 支持 .wav、.mp3 和 .flac 等音频格式。音频编解码器和比特率不会影响 Deep Xi 的性能。

`set/` 目录中的命名规范

以下规范已在 Deep Xi 数据集中设定。

训练集

train_clean_speech 和 train_noise 目录中波形文件的命名没有限制。每个目录中的波形数量可以不同。Deep Xi 框架会在每个 epoch 中使用一次 train_clean_speech 目录中的所有波形。对于每个小批量中的 train_clean_speech 波形，Deep Xi 框架会从 train_noise 目录中随机选择一段长度不小于 train_clean_speech 波形的噪声片段，并以随机选定的信噪比水平将其添加到 train_clean_speech 波形中（信噪比范围可在 run.sh 中设置）。

验证集

由于验证集的内容必须保持不变，因此对 val_clean_speech 和 val_noise 目录中的波形有一些限制。这两个目录中的波形数量必须相同。val_clean_speech 中的每一条波形只能对应 val_noise 中的一条波形，即构成一对清洁语音和噪声的验证波形。每对验证波形必须具有相同的文件名和样本数。此外，每对验证波形的文件名末尾还需注明它们将被混合的信噪比水平（dB），格式为 _XdB，其中 X 替换为所需的信噪比值。例如，val_clean_speech/NAME_-5dB.wav 和 val_noise/NAME_-5dB.wav。一对验证波形的完整文件名示例如下：val_clean_speech/198_19-198-0003_Machinery17_15dB.wav 和 val_noise/198_19-198-0003_Machinery17_15dB.wav。

测试集

test_noisy_speech 目录中波形文件的命名没有限制。如果您只需要 Deep Xi 的推理输出，即执行 ./run.sh VER="ANY_NAME" INFER=1，那么只需遵循此规则即可。但如果您希望通过 ./run.sh VER="ANY_NAME" TEST=1 获取客观评分，则需要在 test_clean_speech 目录中放置用于客观测量的参考波形。test_clean_speech 和 test_noisy_speech 中相互对应的波形必须拥有相同的样本数（即相同的序列长度）。test_clean_speech 中与某条 test_noisy_speech 波形相对应的文件名必须包含在后者文件名中。例如，如果一条测试噪声波形的文件名为 test_noisy_speech/61-70968-0000_SIGNAL021_-5dB.wav，那么与其对应的清洁语音波形文件名就必须包含在测试噪声波形文件名中：test_clean_speech/61-70968-0000.wav。这是因为同一条清洁语音波形可能被用作多条测试噪声波形的参考（例如，test_noisy_speech/61-70968-0000_SIGNAL021_0dB.wav、test_noisy_speech/61-70968-0000_SIGNAL021_5dB.wav 和 test_noisy_speech/61-70968-0000_SIGNAL021_10dB.wav 都是以先前示例中的清洁语音波形为参考的测试噪声波形）。

引用指南

请根据您的使用情况引用以下文献：

Deep Xi 框架最初在 [1] 中提出。
如果使用 Deep Xi-MHANet，请同时引用 [1] 和 [6]。
如果使用 Deep Xi-ResLSTM，请引用 [1]。
如果使用 Deep Xi-ResNet，请引用 [1] 和 [2]。
如果使用 DeepMMSE，请引用 [2]。
如果使用 Deep Xi-RDLNet，请引用 [1] 和 [3]。
如果使用 Deep Xi 数据集，请引用 [4]。
如果使用来自 10.1016/j.specom.2019.06.002 的测试集，请引用 [5]。

[1] A. Nicolson, K. K. Paliwal, 基于深度学习的最小均方误差语音增强方法，语音通信 111 (2019) 44–55，https://doi.org/10.1016/j.specom.2019.06.002。

[2] Q. Zhang, A. M. Nicolson, M. Wang, K. Paliwal 和 C. Wang，“DeepMMSE：一种基于深度学习的 MMSE 噪声功率谱密度估计方法”，载于 IEEE/ACM 音频、语音和语言处理汇刊，第 28 卷，第 1404–1415 页，2020 年，doi: 10.1109/TASLP.2020.2987441。

[3] Mohammad Nikzad、Aaron Nicolson、Yongsheng Gao、Jun Zhou、Kuldip K. Paliwal 和 Fanhua Shang。“用于语音增强的深度残差密集网格网络”。载于 AAAI 人工智能大会论文集，第 8552–8559 页，2020 年。

[4] Aaron Nicolson，“Deep Xi 数据集”，IEEE Dataport，2020 年。[在线]。网址：http://dx.doi.org/10.21227/3adt-pb04。

[5] Aaron Nicolson，“来自 10.1016/j.specom.2019.06.002 的测试集”，IEEE Dataport，2020 年。[在线]。网址：http://dx.doi.org/10.21227/0ppr-yy46。

[6] A. Nicolson、K. K. Paliwal，“用于因果语音增强的掩码多头自注意力机制”，语音通信 125 (2020) 80–96，https://doi.org/10.1016/j.specom.2019.06.002。

DeepXi 快速上手指南

DeepXi 是一个基于深度学习的先验信噪比（a priori SNR）估计框架，主要用于语音增强、噪声估计、掩膜估计以及作为鲁棒自动语音识别（ASR）的前端。本项目基于 TensorFlow 2/Keras 实现。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐) 或 macOS
Python: 3.6 或更高版本
GPU (可选但推荐): 需要安装 CUDA 和 cuDNN。
- 原文示例环境为 CUDA 10.1，建议根据您安装的 TensorFlow GPU 版本匹配对应的 CUDA 版本。
- 若使用 GPU，需配置环境变量（参考原文）：
```
export PATH=/usr/local/cuda-10.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
```
前置依赖:
- TensorFlow 2.x
- Keras
- NumPy, SciPy, Matplotlib 等科学计算库

国内加速建议：在安装 Python 依赖时，建议使用清华或阿里镜像源以加快下载速度：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

克隆仓库 从 GitHub 获取源代码：

git clone https://github.com/anicolson/DeepXi.git
cd DeepXi

安装 Python 依赖 确保已安装 pip，然后运行：
```
pip install -r requirements.txt
```
(注：如果项目中没有 requirements.txt，请手动安装核心依赖：pip install tensorflow numpy scipy matplotlib)
验证模型文件 预训练模型位于 model 目录中。确保该目录下存在以下模型文件之一（如 mhanet-1.1c 或 resnet-1.1n）：
```
ls model/
```

基本使用

DeepXi 的核心功能是通过脚本进行推理或评估。以下是基于现有脚本的最简使用流程。

1. 准备输入音频

确保你有一段带噪的语音文件（例如 noisySpeech.wav）。DeepXi 通常处理短时幅度谱，输入音频应为单声道 WAV 格式。

2. 运行评估/推理示例

项目提供了 eval_example.m (MATLAB) 用于生成训练示例图示，但在 Python 环境中，主要通过修改 run.sh 或直接调用 Python 脚本来加载模型并进行增强。

由于 README 主要展示了配置脚本 run.sh，最直接的用法是查看并执行该脚本中的对应配置来加载预训练模型。

使用预训练模型进行语音增强（概念示例）：

你需要编写或修改一个 Python 脚本来加载模型并处理音频。以下是一个基于 DeepXi 逻辑的最小化推理代码示例：

import tensorflow as tf
import numpy as np
import scipy.io.wavfile as wav
from deepxi.model import load_model  # 假设模块路径，具体需参考源码结构
from deepxi.utils import stft, istft # 假设的工具函数

# 1. 加载预训练模型 (以 ResNet 为例)
# 模型路径需指向 model 目录下的具体权重文件
model_path = 'model/resnet-1.1n' 
model = tf.keras.models.load_model(model_path)

# 2. 读取带噪语音
fs, noisy_audio = wav.read('noisySpeech.wav')
noisy_audio = noisy_audio.astype(np.float32) / 32768.0 # 归一化

# 3. 计算短时傅里叶变换 (STFT) 获取幅度谱
# 注意：具体的帧长、帧移需与模型训练时保持一致
noisy_spec = stft(noisy_audio) 
noisy_mag = np.abs(noisy_spec)

# 4. 模型推理：预测映射后的先验 SNR
# 输入通常需要扩展维度以匹配批次大小 [batch, time, freq]
input_data = np.expand_dims(noisy_mag, axis=0)
mapped_xi_hat = model.predict(input_data)

# 5. 反映射得到真实的先验 SNR 估计值
# 此处需使用训练集统计量进行逆 CDF 变换 (参考原文 Equation 12)
# xi_hat = inverse_cdf(mapped_xi_hat, stats_mean, stats_std) 
# (具体实现请参考源码中的 eval_stats.m 或对应的 Python 工具类)

# 6. 计算增益函数 (如 MMSE-LSA) 并重构语音
# gain = compute_gain(xi_hat, noisy_mag)
# clean_mag = gain * noisy_mag
# clean_spec = clean_mag * np.exp(1j * np.angle(noisy_spec))
# clean_audio = istft(clean_spec)

# 7. 保存结果
# wav.write('enhancedSpeech.wav', fs, (clean_audio * 32768).astype(np.int16))
print("推理完成。请参考源码中 run.sh 调用的具体 Python 脚本执行完整流程。")

注意：由于 DeepXi 强依赖于特定的数据预处理（如 CDF 映射统计量），强烈建议直接参考项目中的 run.sh 脚本，它包含了调用训练或评估的具体命令行参数和入口脚本。对于初次使用者，可以先运行 run.sh 中定义的评估命令来测试预训练模型的效果。

3. 查看结果

处理后的音频将输出为增强的语音波形。您可以对比原始带噪音频和增强后音频的频谱图，或使用 PESQ/STOI 等指标进行评估（项目 log/results 目录提供了相关评测脚本的输出示例）。

常见问题

训练过程中出现 'mbatch_err: nan' 错误怎么办？

运行时报错 'ValueError: Sample larger than population or is negative' 如何解决？

测试集文件夹中的 'test noise' 和 'test clean speech' 文件需要不同吗？

DeepXi 输出的增强语音能否直接用于训练 Deep Speech 等 ASR 模型？

是否可以使用 MFCC 特征代替幅度谱来训练 DeepXi 以减少参数量？

在实时场景下只使用少量帧进行推理会影响效果吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 DeepXi 时

使用 DeepXi 后

运行环境要求

快速开始

Deep Xi: 一种基于深度学习的先验信噪比估计方法，用于语音增强。

新闻

目录

引言

Deep Xi 是如何工作的？

当前网络架构

可用模型

结果

DeepMMSE

安装

如何使用 Deep Xi

当前问题及潜在改进方向

我在哪里可以找到用于 Deep Xi 的数据集？

我应该使用哪种音频与 Deep Xi 配合使用？

set/ 目录中的命名规范

引用指南

DeepXi 快速上手指南

环境准备

安装步骤

基本使用

1. 准备输入音频

2. 运行评估/推理示例

3. 查看结果

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

`set/` 目录中的命名规范