Automatic_Speech_Recognition

2.8k 534 较难 1 次阅读 1周前MIT开发框架数据工具音频其他

AI 解读由 AI 自动生成，仅供参考

Automatic_Speech_Recognition 是一个基于 TensorFlow 框架开发的端到端自动语音识别（ASR）开源项目。它致力于解决将曼达林语（普通话）和英语的音频信号直接转换为文本的核心难题，支持从音素、字符到序列到序列（seq2seq）等多种任务层级。

该项目特别适合人工智能开发者、语音技术研究人员以及高校学生使用。对于希望深入理解 ASR 底层原理或需要构建自定义语音识别模型的技术人员来说，它提供了一套完整的训练、评估及数据预处理流程，并兼容 TIMIT、LibriSpeech 和 WSJ 等主流数据集。

在技术亮点方面，Automatic_Speech_Recognition 不仅实现了经典的 DeepSpeech2 架构，还前瞻性地引入了胶囊网络（Capsule Network）和层归一化 RNN（Layer Normalization RNN）以提升模型效率与准确率。此外，项目内置了语言建模模块和简单的 n-gram 模型，支持动态 Dropout 和自动化评估机制。尽管其部分代码依赖较早期的 TensorFlow 版本（如 1.x），但它作为一份详实的学术与实践参考资源，依然对探索语音识别演进历史和技术复现具有重要价值。

使用场景

一家专注于方言保护的科研团队正试图构建曼达林语与英语的双语语音转写系统，以数字化保存濒危的口述历史资料。

没有 Automatic_Speech_Recognition 时

多语言支持缺失：传统开源方案大多仅支持标准英语，团队需从零研发曼达林语声学模型，耗时数月且数据对齐困难。
架构迭代缓慢：若要尝试 DeepSpeech2 或胶囊网络等先进架构，研究人员需手动重写底层 TensorFlow 代码，调试周期极长。
数据预处理繁琐：缺乏针对 TIMIT、LibriSpeech 等标准数据集的自动化预处理脚本，清洗音频和提取特征占用了 80% 的开发时间。
训练监控薄弱：无法自动在多个训练周期后进行评估，模型优化全靠人工干预，难以快速验证算法改进效果。

使用 Automatic_Speech_Recognition 后

双语即时可用：直接调用内置的曼达林语与英语端到端识别模块，无需重新造轮子，项目启动时间从数月缩短至几天。
前沿模型一键切换：通过命令行参数即可灵活切换 DeepSpeech2、Layer Normalization RNN 或胶囊网络模型，快速对比不同架构的性能。
标准化数据流水线：利用集成的 s5 配方和预处理代码，自动完成 WSJ、LibriSpeech 等 corpus 的特征提取与缩放，大幅释放人力。
自动化训练闭环：配置后可自动执行定期评估与断点保存，结合 n-gram 语言模型辅助，显著提升了收敛速度与识别准确率。

Automatic_Speech_Recognition 通过提供开箱即用的多语言支持与模块化架构，将科研团队从重复的基础设施搭建中解放出来，使其能专注于核心算法的创新与方言数据的深度挖掘。

运行环境要求

操作系统

未说明

GPU

支持 CPU/GPU 训练，具体型号、显存及 CUDA 版本未说明

内存

未说明

依赖

notes该项目基于较旧的 TensorFlow 1.x 版本（最新提及支持至 1.12），依赖 scikit.audiolab，因此需要在系统中预先安装 libsndfile 库。代码主要面向 TIMIT、LibriSpeech 和 WSJ 数据集，包含数据预处理脚本。由于项目最后更新时间为 2019 年且依赖旧版框架，在现代环境中运行可能需要配置兼容的旧版依赖环境。

python3.5

tensorflow>=1.0

scikit.audiolab

libsndfile

快速开始

自动语音识别

使用 TensorFlow 实现的端到端自动语音识别系统。

安装与使用

目前仅支持 Python 3.5。

该项目依赖于 scikit.audiolab，因此您需要在系统中安装 libsndfile。

将仓库克隆到您喜欢的目录，并使用以下命令进行安装：

sudo pip3 install -r requirements.txt
sudo python3 setup.py install

使用时，只需运行以下命令：

python main/timit_train.py [-h] [--mode MODE] [--keep [KEEP]] [--nokeep]
                      [--level LEVEL] [--model MODEL] [--rnncell RNNCELL]
                      [--num_layer NUM_LAYER] [--activation ACTIVATION]
                      [--optimizer OPTIMIZER] [--batch_size BATCH_SIZE]
                      [--num_hidden NUM_HIDDEN] [--num_feature NUM_FEATURE]
                      [--num_classes NUM_CLASSES] [--num_epochs NUM_EPOCHS]
                      [--lr LR] [--dropout_prob DROPOUT_PROB]
                      [--grad_clip GRAD_CLIP] [--datadir DATADIR]
                      [--logdir LOGDIR]

可选参数：
  -h, --help            显示帮助信息并退出
  --mode MODE           设置是训练还是测试模式
  --keep [KEEP]         设置是否恢复模型，在测试模式下应设置为 True
  --nokeep
  --level LEVEL         设置任务级别，phn、cha 或 seq2seq，seq2seq 将很快支持
  --model MODEL         设置使用的模型，DBiRNN、BiRNN、ResNet 等
  --rnncell RNNCELL     设置使用的 RNN 单元，RNN、GRU、LSTM 等
  --num_layer NUM_LAYER 设置 RNN 的层数
  --activation ACTIVATION 设置激活函数，sigmoid、tanh、ReLU、ELU 等
  --optimizer OPTIMIZER 设置优化器，SGD、Adam 等
  --batch_size BATCH_SIZE 设置批次大小
  --num_hidden NUM_HIDDEN 设置 RNN 单元的隐藏层大小
  --num_feature NUM_FEATURE 设置输入特征的维度
  --num_classes NUM_CLASSES 设置输出类别的数量
  --num_epochs NUM_EPOCHS 设置训练轮数
  --lr LR               设置学习率
  --dropout_prob DROPOUT_PROB 设置 dropout 概率
  --grad_clip GRAD_CLIP 设置梯度裁剪阈值
  --datadir DATADIR     设置数据根目录
  --logdir LOGDIR       设置日志目录

除了在命令行中配置参数外，您也可以在实际操作中直接在 timit_train.py 中设置上述参数。

此外，您还可以运行 main/run.sh 来同时进行训练和测试！详情请参阅 run_timit.sh。

性能

基于 PER 的动态 BLSTM 在 TIMIT 数据集上的表现，由于时间有限进行了简单调优

LibriSpeech 语音识别结果（无语言模型）

标签：

大约正午时分，韦弗利船长走进了散乱的村庄——更确切地说，是图利·维奥兰的小村落——庄园主的宅邸就坐落在附近。

预测：

大约正午时分，韦弗利船长走进了散乱的比拉戈尔村——更确切地说，是图利·维奥兰的小村落——庄园主的宅邸就坐落在附近。

标签：

很明显，如果英国人先前没有得到保证，他们绝不会拿出如此巨额的资金；而他们却通过同样的举措削弱了自己，同时增强了与他们日后必须进行重要交涉的民族的力量。

预测：

很明显，如果英国人先前没有得到保证，他们绝不会拿出如此巨额的资金；而他们却通过同样的举措削弱了自己的力量，同时增强了与他们日后必须进行重要交涉的民族的力量。

标签：

描写这样一个时代的人，往往处于一种令人困扰的劣势之中。

预测：

描写这样一个时代的一个人，处于一种令人困扰的劣势之中。

标签：

随后他们再次启程，两小时后便看到了皮普特医生的房子。

预测：

随后他们再次启程，两小时后便看到了皮普特医生的房子。

标签：

他想要什么？

预测：

他想要什么？

标签：

就在前面。

预测：

就在前面。

标签：

在一般情况下，鲍鱼又硬又不好吃，但在赫伯特巧妙的处理下，它们变得鲜嫩可口，无论是油炸、做成浓汤，还是以纽伯格式烹调，都是一道美味佳肴。

预测：

标签：

渐渐地，他所有的快乐和光彩都消退为悔恨和不安，以至于他的四肢失去了力气，双臂沉重地垂在身旁，头也低垂下来，仿佛被麻痹了一样。

预测：

渐渐地，他所有的快乐和光彩都消退为悔恨和不安，以至于他的四肢失去了力气，双臂沉重地垂在身旁，头也低垂下来，仿佛被麻痹了一样。

标签：

如果一定要有人去找沃尔特的话，那我就是那个人。托马斯先生，我会去的。

预测：

如果一定要有人去找沃尔特的话，那我就是那个人。托马斯先生，我会去的。

标签：

我不得不仔细地反复阅读它，因为文本必须绝对正确。

预测：

我不得不仔细地反复阅读它，因为文本必须绝对正确。

标签：

伴随着一声呼喊，男孩们一窝蜂地冲上前去迎接驮队，在缓慢前行的骡子后面跟上，用嘲讽的叫喊声和响亮的拍打声催促着这些动物前进。

预测：

伴随着一声呼喊，男孩们一窝蜂地冲上前去迎接驮队，在缓慢前行的骡子后面跟上，用嘲讽的叫喊声和响亮的拍打声催促着这些动物前进。

标签：

我想，虽然对他们来说还太早了，但随后就发生了爆炸。

预测：

我想，虽然对他们来说还太早了，但随后就发生了爆炸。

内容

这是一个功能强大的自动语音识别库，基于 TensorFlow 实现，并支持使用 CPU 或 GPU 进行训练。该库包含以下模型，您可以选择其中任意一种来训练自己的模型：

数据预处理
声学建模
- RNN
- BRNN
- LSTM
- BLSTM
- GRU
- BGRU
- 动态 RNN
- 深度残差网络
- 带注意力机制解码器的 Seq2Seq
- 等等
CTC 解码
评估（对部分相似音素进行映射）
模型保存与恢复
小批量训练
使用 TensorFlow 在 GPU 或 CPU 上训练
将每个 epoch 的耗时及错误率记录到磁盘中

实现细节

数据预处理

TIMIT 语料库

原始的 TIMIT 数据库包含 6300 条语音样本，但我们发现其中“SA”类别的音频文件重复出现多次，这会导致我们的语音识别系统产生偏差。因此，我们从原始数据集中移除了所有“SA”类别的文件，得到了一个新的 TIMIT 数据集，其中仅包含 5040 条语音样本，包括 3696 条标准训练集和 1344 条测试集。

自动语音识别会将原始音频文件转录为字符序列；而预处理阶段则是将原始音频文件转换为由若干帧组成的特征向量。我们首先将每段音频分割成 20 毫秒的汉明窗口，重叠 10 毫秒，然后计算 12 个梅尔频率倒谱系数，并在每一帧中附加一个能量变量，从而得到长度为 13 的向量。接着，我们再计算一阶和二阶差分系数，最终每帧共有 39 个系数。换句话说，每段音频都会被汉明窗口函数分割成多个帧，而每个帧则会被提取为一个长度为 39 的特征向量（若需获取不同长度的特征向量，可在 timit_preprocess.py 文件中修改相关设置）。

在 data/mfcc 文件夹中，每个文件都是某段音频的时间长度乘以 39 维的特征矩阵；而在 data/label 文件夹中，每个文件则是对应 mfcc 文件的标签向量。

如果您希望自定义数据预处理流程，可以编辑 calcmfcc.py 或 timit_preprocess.py 文件。

原始 TIMIT 数据集包含 61 个音素，我们在训练和评估时使用这 61 个音素，但在评分时，为了提升性能，我们将这 61 个音素映射为 39 个音素。这一映射依据论文《基于隐马尔可夫模型的独立于说话人的音素识别》（http://repository.cmu.edu/cgi/viewcontent.cgi?article=2768&context=compsci）进行。映射详情如下：

原始音素	映射后的音素
iy	iy
ix, ih	ix
eh	eh
ae	ae
ax, ah, ax-h	ax
uw, ux	uw
uh	uh
ao, aa	ao
ey	ey
ay	ay
oy	oy
aw	aw
ow	ow
er, axr	er
l, el	l
r	r
w	w
y	y
m, em	m
n, en, nx	n
ng, eng	ng
v	v
f	f
dh	dh
th	th
z	z
s	s
zh, sh	zh
jh	jh
ch	ch
b	b
p	p
d	d
dx	dx
t	t
g	g
k	k
hh, hv	hh
bcl, pcl, dcl, tcl, gcl, kcl, q, epi, pau, h#	h#

LibriSpeech 语料库

LibriSpeech 是一个约 1000 小时的 16kHz 英语朗读语音语料库。可以从这里下载。

为了预处理 LibriSpeech 数据，首先从上述链接下载数据集，解压后运行以下命令：

cd feature/libri
python libri_preprocess.py -h 
usage: libri_preprocess [-h]
                        [-n {dev-clean,dev-other,test-clean,test-other,train-clean-100,train-clean-360,train-other-500}]
                        [-m {mfcc,fbank}] [--featlen FEATLEN] [-s]
                        [-wl WINLEN] [-ws WINSTEP]
                        path save

用于预处理 Libri 数据的脚本

位置参数:
  path                  LibriSpeech 数据集的目录
  save                  预处理后的数组保存目录

可选参数:
  -h, --help            显示此帮助信息并退出
  -n {dev-clean,dev-other,test-clean,test-other,train-clean-100,train-clean-360,train-other-500}, --name {dev-clean,dev-other,test-clean,test-other,train-clean-100,train-clean-360,train-other-500}
                        数据集名称
  -m {mfcc,fbank}, --mode {mfcc,fbank}
                        模式
  --featlen FEATLEN     特征长度
  -s, --seq2seq         设置此标志以使用 seq2seq
  -wl WINLEN, --winlen WINLEN
                        指定特征的窗口长度
  -ws WINSTEP, --winstep WINSTEP
                        指定特征的窗口步长

处理后的数据将保存在“save”路径中。

要训练模型，请运行以下命令：

python main/libri_train.py -h 
usage: libri_train.py [-h] [--task TASK] [--train_dataset TRAIN_DATASET]
                      [--dev_dataset DEV_DATASET]
                      [--test_dataset TEST_DATASET] [--mode MODE]
                      [--keep [KEEP]] [--nokeep] [--level LEVEL]
                      [--model MODEL] [--rnncell RNNCELL]
                      [--num_layer NUM_LAYER] [--activation ACTIVATION]
                      [--optimizer OPTIMIZER] [--batch_size BATCH_SIZE]
                      [--num_hidden NUM_HIDDEN] [--num_feature NUM_FEATURE]
                      [--num_classes NUM_CLASSES] [--num_epochs NUM_EPOCHS]
                      [--lr LR] [--dropout_prob DROPOUT_PROB]
                      [--grad_clip GRAD_CLIP] [--datadir DATADIR]
                      [--logdir LOGDIR]

可选参数:
  -h, --help            显示此帮助信息并退出
  --task TASK           设置程序的任务名称
  --train_dataset TRAIN_DATASET
                        设置训练数据集
  --dev_dataset DEV_DATASET
                        设置开发数据集
  --test_dataset TEST_DATASET
                        设置测试数据集
  --mode MODE           设置是进行训练、开发还是测试
  --keep [KEEP]         设置是否恢复模型，在测试模式下，keep 应设置为 True
  --nokeep
  --level LEVEL         设置任务级别，phn、cha 或 seq2seq，seq2seq 将很快支持
  --model MODEL         设置要使用的模型，DBiRNN、BiRNN、ResNet 等
  --rnncell RNNCELL     设置要使用的 RNN 单元，rnn、gru、lstm 等
  --num_layer NUM_LAYER
                        设置 RNN 的层数
  --activation ACTIVATION
                        设置要使用的激活函数，sigmoid、tanh、relu、elu 等
  --optimizer OPTIMIZER
                        设置要使用的优化器，sgd、adam 等
  --batch_size BATCH_SIZE
                        设置批量大小
  --num_hidden NUM_HIDDEN
                        设置 RNN 单元的隐藏层大小
  --num_feature NUM_FEATURE
                        设置输入特征的大小
  --num_classes NUM_CLASSES
                        设置输出类别的数量
  --num_epochs NUM_EPOCHS
                        设置训练轮数
  --lr LR               设置学习率
  --dropout_prob DROPOUT_PROB
                        设置丢弃概率
  --grad_clip GRAD_CLIP
                        设置梯度裁剪的阈值，-1 表示不进行裁剪
  --datadir DATADIR     设置数据根目录
  --logdir LOGDIR       设置日志目录

其中，“datadir”即为预处理阶段使用的“save”路径。

华尔街日报语料库

待完成

核心功能

动态 RNN（GRU、LSTM）
残差网络（深度 CNN）
CTC 解码
TIMIT 语音音素编辑距离（PER）

未来工作

发布预训练的英语 ASR 模型
添加注意力机制
添加说话人验证
添加 TTS

许可证

MIT

联系我们

如果这个程序对您有所帮助，请为我们点个 星标或 Fork，以鼓励我们持续更新。感谢您的支持！此外，任何问题或 Pull Request 都将不胜感激。

贡献者：

Automatic-Speech-Recognition 快速上手指南

本项目是一个基于 TensorFlow 实现的端到端自动语音识别（ASR）系统，支持多种声学模型（如 RNN, LSTM, BLSTM, DeepSpeech2 等）及 CTC 解码。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / macOS (Windows 需额外配置编译环境)
Python 版本：目前仅支持 Python 3.5
核心依赖：
- TensorFlow (推荐版本 r1.0 - r1.12，根据项目更新日志适配)
- scikit.audiolab (需要系统预先安装 libsndfile 库)
- 其他 Python 依赖包（见 requirements.txt）

提示：国内用户安装 Python 依赖时，建议指定清华或阿里镜像源以加速下载。

安装步骤

安装系统级依赖 libsndfile
- Ubuntu/Debian:
```
sudo apt-get install libsndfile1-dev
```
- macOS (使用 Homebrew):
```
brew install libsndfile
```

克隆项目代码

git clone https://github.com/zzw922cn/Automatic_Speech_Recognition.git
cd Automatic_Speech_Recognition

安装 Python 依赖并构建项目 建议使用国内镜像源加速安装：

# 安装 requirements.txt 中的依赖
sudo pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装本项目
sudo python3 setup.py install

基本使用

本项目提供了灵活的命令行参数进行训练和测试。以下以 TIMIT 数据集为例展示最基础的用法。

1. 命令行运行模式

您可以直接通过 python main/timit_train.py 启动训练或测试。

训练示例：

python main/timit_train.py --mode train --level phn --model DBiRNN --rnncell lstm --num_layer 3 --batch_size 32 --num_epochs 10 --datadir ./data/timit --logdir ./logs

测试示例：

python main/timit_train.py --mode test --level phn --model DBiRNN --keep True --datadir ./data/timit --logdir ./logs

主要参数说明：

--mode: 设置模式，train (训练) 或 test (测试)。
--keep: 测试时必须设为 True 以加载已保存的模型。
--level: 任务级别，可选 phn (音素), cha (字符), seq2seq。
--model: 模型类型，如 DBiRNN, BiRNN, ResNet, DeepSpeech2 等。
--rnncell: RNN 单元类型，如 rnn, gru, lstm。
--datadir: 数据根目录路径。
--logdir: 日志和模型保存目录。

2. 脚本运行模式

项目也提供了 Shell 脚本以便同时执行训练和测试流程（需先根据需求修改脚本内容）：

bash main/run.sh

具体配置可参考 main/run_timit.sh 文件。

3. 代码配置模式

除了命令行参数，您也可以直接编辑 main/timit_train.py 文件，在代码内部硬编码上述参数值，适合固定实验配置的场景。

常见问题

项目是否提供预训练模型？

运行时报错 'SyntaxError: Missing parentheses in call to print' 如何解决？

scikits.audiolab 库只支持 Python 2，在 Python 3 中有什么替代方案？

如何获取 TIMIT 数据集的有效链接？

如何输出音素（phonemes）而不是英文文本？

中文语音识别是如何处理的？标签是汉字还是拼音？

requirements.txt 中的 theano、tabulate 和 xlwt 是必需的吗？

遇到 '_linear' 函数找不到或导入错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 148.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

使用场景

没有 Automatic_Speech_Recognition 时

使用 Automatic_Speech_Recognition 后

运行环境要求

快速开始

自动语音识别

最新更新

推荐

安装与使用

性能

基于 PER 的动态 BLSTM 在 TIMIT 数据集上的表现，由于时间有限进行了简单调优

LibriSpeech 语音识别结果（无语言模型）

内容

实现细节

数据预处理

TIMIT 语料库

LibriSpeech 语料库

华尔街日报语料库

核心功能

未来工作

许可证

联系我们

Automatic-Speech-Recognition 快速上手指南

环境准备

安装步骤

基本使用

1. 命令行运行模式

2. 脚本运行模式

3. 代码配置模式

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch