DeepXi

GitHub
523 126 中等 1 次阅读 3周前MPL-2.0音频开发框架
AI 解读 由 AI 自动生成,仅供参考

DeepXi 是一个基于 TensorFlow 2 和 Keras 构建的开源深度学习项目,核心功能是通过神经网络精准估计“先验信噪比”(a priori SNR)。它主要致力于解决嘈杂环境下的语音增强难题,能够有效从混合了背景噪音的音频中还原清晰的人声,同时也可用于噪声功率谱估计、声源分离以及提升自动语音识别(ASR)系统在复杂声学环境中的鲁棒性。

该工具特别适合语音处理领域的研究人员、算法工程师及开发者使用。用户不仅可以利用其预训练模型直接进行语音降噪实验,还能基于其架构开发自定义网络或将其作为前端模块集成到更大的语音识别系统中。

DeepXi 的技术亮点在于将传统的信号处理理论与现代深度学习相结合。它支持多种先进的网络结构,如掩码多头自注意力机制(MHANet)和带有频率维度自适应注意力的时序卷积网络,能够更精细地捕捉语音的时空特征。此外,项目还衍生出了 DeepMMSE 等变体,提供了从理论推导到工程落地的完整参考,是探索基于深度学习的语音增强方案的优质资源。

使用场景

某智能客服团队正在优化其语音机器人,以应对嘈杂呼叫中心环境下的用户指令识别难题。

没有 DeepXi 时

  • 语音清晰度差:在背景人声嘈杂或电话线路噪声大时,传统降噪算法难以区分噪声与语音,导致输出音频依然模糊不清。
  • 识别率骤降:由于输入音频信噪比(SNR)估计不准,后端自动语音识别(ASR)引擎频繁将“查询余额”误听为无关词汇,意图识别失败率高。
  • 开发调优困难:工程师需要手动调整复杂的信号处理参数来适配不同噪声场景,耗时且难以泛化到新环境。
  • 实时性受限:为了追求一定的降噪效果,往往引入较大的处理延迟,影响人机交互的流畅体验。

使用 DeepXi 后

  • 精准语音增强:DeepXi 利用深度学习准确估算先验信噪比,有效分离人声与背景噪声,显著提升了输出音频的纯净度。
  • 鲁棒性大幅提升:作为 ASR 的前端处理器,DeepXi 提供的干净语谱图让识别引擎在 -5dB 低信噪比下仍能保持高准确率,大幅减少误识。
  • 自适应能力强:基于训练好的模型(如 MHANet),DeepXi 能自动适应各种未见过的噪声类型,无需人工反复调试参数。
  • 高效端到端集成:依托 TensorFlow 2/Keras 实现,团队可轻松将其嵌入现有流水线,在保证低延迟的同时实现因果语音增强。

DeepXi 通过高精度的先验信噪比估计,从根本上解决了复杂噪声环境下的语音增强难题,让智能语音系统在真实世界中听得清、认得准。

运行环境要求

操作系统
  • Linux
GPU

需要 NVIDIA GPU(基于注释中的 CUDA 10.1 路径推断),具体显存大小未说明,建议 CUDA 10.1+

内存

未说明

依赖
notes该项目基于 TensorFlow 2/Keras 实现。README 开头的注释中提到了 CUDA 10.1 的环境变量配置,暗示主要支持 Linux 环境下的 NVIDIA GPU 加速。文中提到不同模型参数量在 200 万到 1000 万之间。所有可用模型均需在 Deep Xi 数据集上训练或使用预训练权重。
python未说明
TensorFlow 2
Keras
DeepXi hero image

快速开始

Deep Xi: 一种基于深度学习的先验信噪比估计方法,用于语音增强。

新闻

新发表的期刊论文:

  • 关于清洁语音幅度谱估计的深度学习方法的训练目标 [链接] [.pdf]

新训练好的模型:

  • model 目录中提供了一个训练好的 MHANet 模型。

新发表的期刊论文:

  • 用于因果语音增强的掩码多头自注意力机制 [链接] [.pdf]

新发表的期刊论文:

  • 导致先验信噪比估计与其瞬时值之间产生可察觉差异的频谱失真水平 [链接] [.pdf]

新发表的会议论文:

  • 带有频率维度自适应注意力的时序卷积网络用于语音增强(INTERSPEECH 2021)[链接]

目录

引言

Deep Xi 使用 TensorFlow 2/Keras 实现,可用于语音增强、噪声估计、掩膜估计,以及作为鲁棒自动语音识别系统的前端。 Deep Xi(其中希腊字母“xi”或 ξ 发音为 /zaɪ/,是文献中表示先验信噪比的符号)是一种用于先验信噪比估计的深度学习方法,该方法最初在 [1] 中提出。其部分应用场景包括:

  • 基于最小均方误差 (MMSE) 的 语音增强 方法。
  • 基于 MMSE 的 噪声功率谱密度估计器,如 DeepMMSE [2]
  • 用于 缺失特征法 的理想二进制掩膜 (IBM) 估计。
  • 用于 源分离 的理想比率掩膜 (IRM) 估计。
  • 鲁棒自动语音识别系统的前端

Deep Xi 是如何工作的?

图 2 展示了一个训练示例。Deep Xi 框架内的深度神经网络 (DNN) 将 噪声语音的短时幅度谱 作为输入。该 DNN 的训练目标是瞬时先验信噪比的映射版本(即 映射后的先验信噪比)。为了提高所使用的随机梯度下降算法的收敛速度,瞬时先验信噪比被映射到区间 [0,1]。这种映射是瞬时先验信噪比的累积分布函数 (CDF),具体公式见 [1] 中的式 (13)。CDF 的统计信息是在训练集的一个样本上计算得出的。每个频段样本的均值和标准差示例如 图 3 所示。每个小批量中的训练样本都会被填充到该批量中最长序列长度。TensorFlow 使用 序列掩码 来确保 DNN 不会基于填充部分进行训练。在推理阶段,先验信噪比估计值通过使用样本统计信息和 [2] 中的式 (12),由映射后的先验信噪比反推得出。

图 2: Deep Xi 的一个训练示例。由 eval_example.m 生成。

图 3: 每个频段的正态分布是根据训练集中瞬时先验信噪比(dB)的均值和标准差计算得出的。由 eval_stats.m 生成。

当前网络架构

以下网络的配置可以在 run.sh 中找到。

  • MHANet:多头注意力网络 [6]。
  • RDLNet:残差密集网格网络 [3]。
  • ResNet:残差网络 [2]。
  • ResLSTM 和 ResBiLSTM:残差长短时记忆网络和残差双向 LSTM 网络 [1]。

利用 MHANet 的 Deep Xi(Deep Xi-MHANet)最早在 [6] 中提出。它采用多头注意力机制,能够高效地建模噪声语音中的长距离依赖关系。Deep Xi-MHANet 如 图 4 所示。利用 ResNet TCN 的 Deep Xi(Deep Xi-ResNet)最早在 [2] 中提出。该网络使用瓶颈残差块和循环扩张率。整个网络约有 200 万个参数,上下文感受野约为 8 秒。利用 ResLSTM 网络的 Deep Xi(Deep Xi-ResLSTM)最早在 [1] 中提出。其每个残差块仅包含一个 LSTM 单元。该网络约有 1000 万个参数。

图 4: (左) 来自 [6] 的 Deep Xi-MHANet。

可用模型

mhanet-1.1c(位于 model 目录中)

resnet-1.1n(位于 model 目录中)

resnet-1.1c(位于 model 目录中)

每个可用模型均使用 Deep Xi 数据集 进行训练。有关这些网络的更多详细信息,请参阅 run.sh

Deep Xi 有多个版本,分别对应不同的网络架构和约束条件。例如,ver 命名规范为 resnet-1.0cver 开头标明了网络类型。带有 c 的版本是 因果 的,而带有 n 的版本则是 非因果 的。此外,还标明了版本迭代号,如 1.0

结果

注意:本仓库中 Deep Xi 框架的结果均基于 Tensorflow 2/Keras 报告。而论文中的结果则是使用 Tensorflow 1 得到的。今后的所有工作都将基于 Tensorflow 2/Keras 完成。

DEMAND Voice Bank 测试集

在 DEMAND Voicebank 测试集中获得的客观评分如下所述 这里每个 Deep Xi 模型均在 DEMAND Voicebank 训练集上进行训练。与以往的工作一致,客观评分是对所有测试条件取平均值。CSIGCBAKCOVL 分别是信号失真、背景噪声侵扰性和整体信号质量的主观意见评分预测指标。PESQ 是语音质量的感知评估指标。STOI 是短时客观可懂度指标(以百分比表示)。各项指标中的最高得分以粗体显示。

方法 增益 因果 CSIG CBAK COVL PESQ STOI SegSNR
噪声语音 -- -- 3.35 2.44 2.63 1.97 92 (91.5) --
Wiener 3.23 2.68 2.67 2.22 -- --
SEGAN -- 3.48 2.94 2.80 2.16 93 --
WaveNet -- 3.62 3.23 2.98 -- -- --
MMSE-GAN -- 3.80 3.12 3.14 2.53 93 --
Deep Feature Loss -- 3.86 3.33 3.22 -- -- --
Metric-GAN -- 3.99 3.18 3.42 2.86 -- --
Koizumi2020 -- 4.15 3.42 3.57 2.99 -- --
T-GSA -- 4.18 3.59 3.62 3.06 -- --
Deep Xi-ResLSTM (1.0c) MMSE-LSA 4.01 3.25 3.34 2.65 91 (91.0) 8.2
Deep Xi-ResNet (1.0c) MMSE-LSA 4.14 3.32 3.46 2.77 93 (93.2) --
Deep Xi-ResNet (1.0n) MMSE-LSA 4.28 3.46 3.64 2.95 94 (93.6) --
Deep Xi-ResNet (1.1c) MMSE-LSA 4.24 3.40 3.59 2.91 94 (93.5) 8.4
Deep Xi-ResNet (1.1n) MMSE-LSA 4.35 3.52 3.71 3.03 94 (94.1) 9.3
Deep Xi-MHANet (1.0c) MMSE-LSA 4.15 3.37 3.48 2.77 93 (93.2) 8.9
Deep Xi-MHANet (1.1c) MMSE-LSA 4.34 3.49 3.69 2.99 94 (94.0) 9.1

Deep Xi 测试集

Deep Xi 数据集 的测试集中,针对不同条件测得的平均客观评分。每个 Deep Xi 模型均在 Deep Xi 数据集的测试集上进行训练。仅考虑 -10 dB 至 20 dB 之间的信噪比水平。每种条件的结果均可在 log/results 中找到

方法 增益 因果 CSIG CBAK COVL PESQ STOI
Deep Xi-ResNet (1.1c) MMSE-STSA 3.14 2.52 2.43 1.82 84.85
Deep Xi-ResNet (1.1c) MMSE-LSA 3.15 2.55 2.46 1.85 84.72
Deep Xi-ResNet (1.1c) SRWF/IRM 3.12 2.50 2.41 1.79 84.95
Deep Xi-ResNet (1.1c) cWF 3.15 2.51 2.44 1.83 84.94
Deep Xi-ResNet (1.1c) WF 2.66 2.46 2.12 1.69 83.02
Deep Xi-ResNet (1.1c) IBM 1.36 2.16 1.26 1.30 77.57
Deep Xi-ResNet (1.1n) MMSE-LSA 3.30 2.62 2.59 1.97 86.70
Deep Xi-MHANet (1.1c) MMSE-LSA 3.45 2.75 2.73 2.08 87.11

DeepMMSE

DeepMMSE:一种基于深度学习的 MMSE 噪声功率谱密度估计方法。

要保存来自 DeepMMSE 的噪声 PSD 估计 .mat 文件,请使用以下命令:

./run.sh VER="mhanet-1.1c" INFER=1 GAIN="deepmmse"

安装

使用 GPU 的前提条件:

安装步骤:

  1. git clone https://github.com/anicolson/DeepXi.git
  2. python3 -m venv --system-site-packages ~/venv/DeepXi
  3. source ~/venv/DeepXi/bin/activate
  4. cd DeepXi
  5. pip install -r requirements.txt

此外,您也可以在 Docker Hub 上找到对应的 Docker 镜像https://hub.docker.com/r/fhoerst/deepxi

如何使用 Deep Xi

使用 run.sh 来配置并运行 Deep Xi。请参考 config.sh 设置数据集、模型和输出文件的路径。

推理: 若需执行推理并保存结果,请使用以下命令:

./run.sh VER="mhanet-1.1c" INFER=1 GAIN="mmse-lsa"

有关可用增益函数的信息,请参阅 thoth/args.py,更多选项则可在 run.sh 中找到。

测试: 若需进行测试并获取客观评分,请使用以下命令:

./run.sh VER="mhanet-1.1c" TEST=1 GAIN="mmse-lsa"

测试结果将保存在 log/results 中。

训练:

./run.sh VER="mhanet-1.1c" TRAIN=1

请注意,在开始训练之前务必删除数据目录,以便保存和使用您的训练集列表和统计信息。若需从特定 epoch 继续训练,请在 run.sh 中设置 --resume_epoch 参数为所需 epoch。

当前问题及潜在改进方向

如果您希望为 Deep Xi 贡献代码,请研究以下内容,并与现有模型进行比较:

  • 目前,ResLSTM 网络的表现不如预期(与 TensorFlow 1.x 版本相比)。

我在哪里可以找到用于 Deep Xi 的数据集?

IEEE DataPort 上提供了 Deep Xi 的开源训练和测试数据集:

[4] Deep Xi 数据集(训练、验证和测试集):http://dx.doi.org/10.21227/3adt-pb04

[5] 来自原始 Deep Xi 论文 的测试集:http://dx.doi.org/10.21227/0ppr-yy46

用于生成这些数据集的 MATLAB 脚本可在 set 目录中找到。

我应该使用哪种音频与 Deep Xi 配合使用?

Deep Xi 处理的是单声道/单通道音频(而非立体声/双通道音频)。之所以采用单声道音频,是因为大多数手机都只配备一个麦克风。目前可用的训练模型以采样率为 f_s=16000 Hz 运行,这也是当前语音增强领域普遍采用的标准采样率。您可以在 run.sh 中更改采样率。虽然 Deep Xi 也可以使用更高的采样率(如 f_s=44100 Hz)进行训练,但这并非必要,因为人类语音的频率通常不超过 8 kHz(f_s=16000 Hz 的奈奎斯特频率正是 8 kHz)。当前训练好的模型分别采用窗口持续时间 T_d=32 ms 和滑动步长 T_s=16 ms。如果需要使用不同的窗口持续时间和滑动步长来训练模型,可以在 run.sh 中进行调整。目前,Deep Xi 支持 .wav.mp3.flac 等音频格式。音频编解码器和比特率不会影响 Deep Xi 的性能。

set/ 目录中的命名规范

以下规范已在 Deep Xi 数据集 中设定。

训练集

train_clean_speechtrain_noise 目录中波形文件的命名没有限制。每个目录中的波形数量可以不同。Deep Xi 框架会在每个 epoch 中使用一次 train_clean_speech 目录中的所有波形。对于每个小批量中的 train_clean_speech 波形,Deep Xi 框架会从 train_noise 目录中随机选择一段长度不小于 train_clean_speech 波形的噪声片段,并以随机选定的信噪比水平将其添加到 train_clean_speech 波形中(信噪比范围可在 run.sh 中设置)。

验证集

由于验证集的内容必须保持不变,因此对 val_clean_speechval_noise 目录中的波形有一些限制。这两个目录中的波形数量必须相同。val_clean_speech 中的每一条波形只能对应 val_noise 中的一条波形,即构成一对清洁语音和噪声的验证波形。每对验证波形必须具有相同的文件名和样本数。此外,每对验证波形的文件名末尾还需注明它们将被混合的信噪比水平(dB),格式为 _XdB,其中 X 替换为所需的信噪比值。例如,val_clean_speech/NAME_-5dB.wavval_noise/NAME_-5dB.wav。一对验证波形的完整文件名示例如下:val_clean_speech/198_19-198-0003_Machinery17_15dB.wavval_noise/198_19-198-0003_Machinery17_15dB.wav

测试集

test_noisy_speech 目录中波形文件的命名没有限制。如果您只需要 Deep Xi 的推理输出,即执行 ./run.sh VER="ANY_NAME" INFER=1,那么只需遵循此规则即可。但如果您希望通过 ./run.sh VER="ANY_NAME" TEST=1 获取客观评分,则需要在 test_clean_speech 目录中放置用于客观测量的参考波形。test_clean_speechtest_noisy_speech 中相互对应的波形必须拥有相同的样本数(即相同的序列长度)。test_clean_speech 中与某条 test_noisy_speech 波形相对应的文件名必须包含在后者文件名中。例如,如果一条测试噪声波形的文件名为 test_noisy_speech/61-70968-0000_SIGNAL021_-5dB.wav,那么与其对应的清洁语音波形文件名就必须包含在测试噪声波形文件名中:test_clean_speech/61-70968-0000.wav。这是因为同一条清洁语音波形可能被用作多条测试噪声波形的参考(例如,test_noisy_speech/61-70968-0000_SIGNAL021_0dB.wavtest_noisy_speech/61-70968-0000_SIGNAL021_5dB.wavtest_noisy_speech/61-70968-0000_SIGNAL021_10dB.wav 都是以先前示例中的清洁语音波形为参考的测试噪声波形)。

引用指南

请根据您的使用情况引用以下文献:

  • Deep Xi 框架最初在 [1] 中提出。
  • 如果使用 Deep Xi-MHANet,请同时引用 [1] 和 [6]。
  • 如果使用 Deep Xi-ResLSTM,请引用 [1]。
  • 如果使用 Deep Xi-ResNet,请引用 [1] 和 [2]。
  • 如果使用 DeepMMSE,请引用 [2]。
  • 如果使用 Deep Xi-RDLNet,请引用 [1] 和 [3]。
  • 如果使用 Deep Xi 数据集,请引用 [4]。
  • 如果使用来自 10.1016/j.specom.2019.06.002 的测试集,请引用 [5]。

[1] A. Nicolson, K. K. Paliwal, 基于深度学习的最小均方误差语音增强方法,语音通信 111 (2019) 44–55,https://doi.org/10.1016/j.specom.2019.06.002。

[2] Q. Zhang, A. M. Nicolson, M. Wang, K. Paliwal 和 C. Wang,“DeepMMSE:一种基于深度学习的 MMSE 噪声功率谱密度估计方法”,载于 IEEE/ACM 音频、语音和语言处理汇刊,第 28 卷,第 1404–1415 页,2020 年,doi: 10.1109/TASLP.2020.2987441。

[3] Mohammad Nikzad、Aaron Nicolson、Yongsheng Gao、Jun Zhou、Kuldip K. Paliwal 和 Fanhua Shang。“用于语音增强的深度残差密集网格网络”。载于 AAAI 人工智能大会论文集,第 8552–8559 页,2020 年。

[4] Aaron Nicolson,“Deep Xi 数据集”,IEEE Dataport,2020 年。[在线]。网址:http://dx.doi.org/10.21227/3adt-pb04。

[5] Aaron Nicolson,“来自 10.1016/j.specom.2019.06.002 的测试集”,IEEE Dataport,2020 年。[在线]。网址:http://dx.doi.org/10.21227/0ppr-yy46。

[6] A. Nicolson、K. K. Paliwal,“用于因果语音增强的掩码多头自注意力机制”,语音通信 125 (2020) 80–96,https://doi.org/10.1016/j.specom.2019.06.002。

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

154.3k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|4天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|4天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架