kospeech

638 192 中等 1 次阅读 2周前Apache-2.0语言模型开发框架音频

AI 解读由 AI 自动生成，仅供参考

KoSpeech 是一个专为韩语语音识别打造的开源工具包，基于 PyTorch 深度学习框架构建，旨在提供端到端的自动语音识别（ASR）解决方案。在 KoSpeech 出现之前，主流的开源语音识别工具多专注于英语等非韩语环境，导致韩语研究者缺乏统一的预处理方法和基准模型进行性能对比。即便有了如 KsponSpeech 这样的大规模韩语语料库，业界也长期缺少标准化的研究基线。KoSpeech 填补了这一空白，它不仅提供了针对韩语数据的标准化预处理流程，还集成了 Deep Speech 2、LAS、Transformer、Jasper 及 Conformer 等多种经典与前沿的声学模型，成为韩语语音识别研究的重要参考指南。

该项目特别适合人工智能研究人员、算法工程师以及希望深入探索韩语语音技术的学生使用。其技术亮点在于高度的模块化与可扩展性，并引入了 Hydra 框架来优雅地管理复杂的应用配置，让模型训练与实验复现更加便捷。需要注意的是，目前该仓库已归档，作者建议有新项目需求的用户转向其继任者 OpenSpeech，或尝试 Pororo ASR 与 Whisper 进行快速测试，但 KoSpeech 留下的代码架构与论文成果依然是理解韩语语音识别发展的宝贵资源。

使用场景

韩国某初创团队正致力于开发一款针对老年用户的韩语语音健康记录应用，需要将医生的口述诊疗内容实时转化为结构化文本。

没有 kospeech 时

缺乏韩语专用基线：市面上主流开源工具（如 ESPnet）主要针对英语优化，直接用于韩语时识别率极低，且无现成的韩语预处理方案。
数据清洗成本高：面对韩国 AI Hub 公开的 KsponSpeech 千小时语料，团队需从零编写复杂的清洗和特征提取代码，耗时数周。
模型复现困难：想要尝试业界领先的 Conformer 或 Jasper 架构，必须逐行研读论文并手动搭建网络，调试周期漫长且容易出错。
实验配置混乱：不同模型的超参数管理依赖硬编码，每次切换实验都要修改大量文件，难以进行系统性的性能对比。

使用 kospeech 后

开箱即用的韩语支持：kospeech 提供了专为 KsponSpeech 设计的标准化预处理流程和基线模型，团队当天即可启动训练。
主流架构一键调用：内置了 Deep Speech 2、Transformer、Conformer 等多种经过验证的端到端模型，无需重复造轮子，直接微调即可适配医疗场景。
高效灵活的实验管理：基于 Hydra 框架，通过简单的配置文件即可灵活调整模型结构和训练参数，快速完成多模型效果比对。
研发门槛显著降低：模块化的 PyTorch 代码结构让团队成员能轻松理解内部逻辑，将原本一个月的数据准备与模型搭建期缩短至三天。

kospeech 填补了韩语端到端语音识别开源生态的空白，让开发者能从繁琐的基础设施构建中解放出来，专注于垂直领域的业务落地。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU (因依赖 warp-rnnt 和 PyTorch)，具体型号和显存未说明，CUDA 版本需与安装的 PyTorch 版本匹配

内存

未说明

依赖

notes该项目已归档，作者建议使用 OpenSpeech 进行新模型训练或使用 Pororo/Whisper 进行测试。强烈建议使用 virtualenv 或 conda 创建独立虚拟环境。配置管理使用 Hydra 框架。支持 KsponSpeech 和 LibriSpeech 数据集。

python3.7+

numpy

pytorch

pandas

matplotlib

librosa

torchaudio==0.6.0

tqdm

sentencepiece

warp-rnnt

hydra-core

快速开始

一个基于 PyTorch 的 Apache 2.0 许可的自动语音识别研究库，用于开发端到端语音识别模型。

简介 • 路线图 • 文档 • Codefactor • 许可证 • Gitter • 论文

此仓库已归档。如果您找到本仓库的原因属于以下情况，我们将为您推荐不同的仓库：

我想训练自己的语音识别模型或研究内部代码！ → OpenSpeech
我想立即测试已训练好的韩语语音识别模型！ → Pororo ASR 或 Whisper

注意事项

近期我对代码进行了大量修改，但由于个人事务繁忙，未能对所有情况进行充分测试。如果发现任何问题，请随时向我反馈。
子词和字素单元目前尚未经过全面测试。

KoSpeech：面向端到端韩语语音识别的开源工具包 [论文]

KoSpeech 是一款开源软件，基于深度学习库 PyTorch 构建，是一个模块化且可扩展的端到端韩语自动语音识别（ASR）工具包。目前已发布多款自动语音识别开源工具包，但它们大多针对非韩语语言，例如英语（如 ESPnet、Espresso）。尽管 AI Hub 开放了名为 KsponSpeech 的 1,000 小时韩语语音语料库，但至今仍缺乏标准化的预处理方法和基准模型来比较不同模型的性能。因此，我们提出了针对 KsponSpeech 语料库的预处理方法，并实现了多种模型（Deep Speech 2、LAS、Transformer、Jasper、Conformer）。通过 KoSpeech，我们希望为从事韩语语音识别研究的人员提供参考指南。

支持的模型

声学模型	备注	引用
Deep Speech 2	二维不变卷积 & RNN & CTC	Dario Amodei 等，2015
听-注意-拼写（LAS）	基于注意力机制的 RNN 序列到序列模型	William Chan 等，2016
联合 CTC-注意力 LAS	联合 CTC-注意力 LAS	Suyoun Kim 等，2017
RNN-Transducer	RNN Transducer	Ales Graves，2012
Speech Transformer	卷积特征提取器 & Transformer	Linhao Dong 等，2018
Jasper	全卷积网络 & 密集残差连接 & CTC	Jason Li 等，2019
Conformer	卷积增强型 Transformer	Anmol Gulati 等，2020

注
这些模型主要基于上述文献，但在具体实现中可能还包含其他部分。

简介

端到端（E2E）自动语音识别（ASR）是基于神经网络的语音识别领域中一种新兴范式，具有诸多优势。传统的“混合”ASR 系统由声学模型、语言模型和发音模型组成，需要分别训练这些组件，而每个组件的训练过程都可能相当复杂。

例如，声学模型的训练通常涉及多个阶段，包括模型训练以及语音声学特征序列与输出标签序列之间的对齐。相比之下，E2E ASR 采用单一的集成方法，其训练流程更为简单，模型以较低的音频帧率运行。这不仅缩短了训练和解码时间，还允许与下游处理任务（如自然语言理解）进行联合优化。

路线图

截至目前，已实现多个模型：Deep Speech 2、听-看-拼写（LAS）、RNN-转换器、语音Transformer、Jasper、Conformer。

Deep Speech 2

Deep Speech 2 在使用连接时序分类（CTC）损失的 ASR 任务中表现出更快且更准确的性能。该模型因相较于之前的端到端模型显著提升性能而备受关注。

听-看-拼写（LAS）

我们沿用了“听-看-拼写”中提出的架构，但进行了一些改进以提升性能。我们提供了四种不同的注意力机制：缩放点积注意力、加性注意力、位置感知注意力、多头注意力。注意力机制对模型性能影响很大。

RNN-转换器

RNN-转换器是一种无需使用注意力机制的序列到序列模型。与大多数通常需要处理整个输入序列（在我们的案例中为波形）才能生成输出（即句子）的序列到序列模型不同，RNN-T 可以持续处理输入样本并流式输出符号，这一特性非常适合语音转文字应用。在我们的实现中，输出符号是字母表中的字符。

语音Transformer

Transformer 是自然语言处理（NLP）领域中一种强大的架构。该架构在 ASR 任务中也表现出良好的性能。此外，随着该模型在自然语言处理领域的研究不断深入，其具有很高的进一步开发潜力。

联合 CTC-注意力

通过所提出的架构，同时利用基于 CTC 的模型和基于注意力的模型的优势。这是一种通过在编码器中加入 CTC 来增强模型鲁棒性的结构。联合 CTC-注意力模型可以与 LAS 和语音 Transformer 结合训练。

Jasper

Jasper（Just Another SPEech Recognizer）是一种端到端卷积神经网络声学模型。Jasper 仅使用 CNN → BatchNorm → ReLU → Dropout 块以及残差连接，便展现出强大的性能。

Conformer

Conformer 将卷积神经网络与 Transformer 相结合，以参数高效的方式建模音频序列的局部和全局依赖关系。Conformer 显著优于先前的基于 Transformer 和 CNN 的模型，达到了最先进的准确率。

安装

本项目推荐使用 Python 3.7 或更高版本。
我们建议为此项目创建一个新的虚拟环境（使用 virtual env 或 conda）。

先决条件

Numpy: pip install numpy（安装 Numpy 时遇到问题可参考这里）。
Pytorch: 请参考 PyTorch 官网，根据您的环境安装相应版本。
Pandas: pip install pandas（安装 Pandas 时遇到问题可参考这里）
Matplotlib: pip install matplotlib（安装 Matplotlib 时遇到问题可参考这里）
librosa: conda install -c conda-forge librosa（安装 librosa 时遇到问题可参考这里）
torchaudio: pip install torchaudio==0.6.0（安装 torchaudio 时遇到问题可参考这里）
tqdm: pip install tqdm（安装 tqdm 时遇到问题可参考这里）
sentencepiece: pip install sentencepiece（安装 sentencepiece 时遇到问题可参考这里）
warp-rnnt: pip install warp_rnnt（安装 warp-rnnt 时遇到问题可参考这里）
hydra: pip install hydra-core --upgrade（安装 hydra 时遇到问题可参考这里）

从源码安装

目前我们仅支持使用 setuptools 从源代码安装。克隆源代码并运行以下命令：

pip install -e .

开始使用

我们使用 Hydra 来管理所有的训练配置。如果您不熟悉 Hydra，建议访问 Hydra 官网。一般来说，Hydra 是一个开源框架，它通过提供动态创建分层配置的能力，简化了科研应用程序的开发。

准备 KsponSpeech 数据集（LibriSpeech 也可支持）

可以从这里下载，或参考以下内容进行预处理。

KsponSpeech : 查看此页面
LibriSpeech : 查看此页面

训练 KsponSpeech 数据集

您可以选择多种模型和训练选项。还有许多其他训练选项，请仔细查看并执行以下命令：

Deep Speech 2 训练

python ./bin/main.py model=ds2 train=ds2_train train.dataset_path=$DATASET_PATH

听-看-拼写 训练

python ./bin/main.py model=las train=las_train train.dataset_path=$DATASET_PATH

联合 CTC-注意力听-看-拼写 训练

python ./bin/main.py model=joint-ctc-attention-las train=las_train train.dataset_path=$DATASET_PATH

RNN 转换器 训练

python ./bin/main.py model=rnnt train=rnnt_train train.dataset_path=$DATASET_PATH

语音 Transformer 训练

python ./bin/main.py model=transformer train=transformer_train train.dataset_path=$DATASET_PATH

联合 CTC-注意力语音 Transformer 训练

python ./bin/main.py model=joint-ctc-attention-transformer train=transformer_train train.dataset_path=$DATASET_PATH

Jasper 训练

python ./bin/main.py model=jasper train=jasper_train train.dataset_path=$DATASET_PATH

Conformer 训练

python ./bin/main.py model=conformer-large train=conformer_large_train train.dataset_path=$DATASET_PATH

您也可以使用 conformer-medium 或 conformer-small 模型进行训练。

对 KsponSpeech 进行评估

python ./bin/eval.py eval.dataset_path=$DATASET_PATH eval.transcripts_path=$TRANSCRIPTS_PATH eval.model_path=$MODEL_PATH

现在您已经拥有一款可用于对新数据进行预测的模型。我们可以通过运行 贪婪搜索 或 束搜索 来实现这一点。

使用预训练模型对单个音频文件进行推理

命令

$ python3 ./bin/inference.py --model_path $MODEL_PATH --audio_path $AUDIO_PATH --device $DEVICE

输出

语音识别结果句子会显示出来

您可以通过一段音频快速查看预训练模型的推理效果。

检查点

检查点按实验和时间戳组织，文件结构如下所示。

outputs
+-- YYYY_mm_dd
|  +-- HH_MM_SS
   |  +-- trainer_states.pt
   |  +-- model.pt

您可以从检查点恢复并加载模型。

故障排除与贡献

如果您有任何问题、错误报告或功能请求，请在 GitHub 上提交一个问题。
如需实时讨论，请访问我们的 Gitter，或联系 sh951011@gmail.com。

我们欢迎任何形式的反馈和贡献。您可以从小的改进入手，例如修复 bug 或完善文档。对于重大贡献或新功能，请先在相关 issue 中与合作者讨论。

代码风格

我们遵循 PEP-8 代码风格规范。尤其是 docstring 的风格对生成文档非常重要。

论文参考

Ilya Sutskever 等人，《使用神经网络进行序列到序列学习》(arXiv: 1409.3215)
Dzmitry Bahdanau 等人，《通过联合学习对齐与翻译实现神经机器翻译》(arXiv: 1409.0473)
Jan Chorowski 等人，《基于注意力机制的语音识别模型》(arXiv: 1506.07503)
Wiliam Chan 等人，《听、注意与拼写》(arXiv: 1508.01211)
Dario Amodei 等人，《Deep Speech2：英语和普通话的端到端语音识别》(arXiv: 1512.02595)
Takaaki Hori 等人，《结合深度 CNN 编码器和 RNN-LM 的 CTC-注意力联合 E2E 自动语音识别进展》(arXiv: 1706.02737)
Ashish Vaswani 等人，《注意力就是一切》(arXiv: 1706.03762)
Chung-Cheng Chiu 等人，《基于序列到序列模型的最先进语音识别》(arXiv: 1712.01769)
Anjuli Kannan 等人，《将外部语言模型融入序列到序列模型的分析》(arXiv: 1712.01996)
Daniel S. Park 等人，《SpecAugment：一种简单的自动语音识别数据增强方法》(arXiv: 1904.08779)
Rafael Muller 等人，《标签平滑何时有效？》(arXiv: 1906.02629)
Daniel S. Park 等人，《SpecAugment 在大规模数据集上的应用》(arXiv: 1912.05533)
Jung-Woo Ha 等人，《ClovaCall：面向呼叫中心自动语音识别的韩语目标导向对话语音语料库》(arXiv: 2004.09367)
Jason Li 等人，《Jasper：一种端到端卷积神经网络声学模型》(arXiv: 1902.03288)
Anmol Gulati 等人，《Conformer：用于语音识别的卷积增强 Transformer》(arXiv: 2005.08100)

GitHub 参考

许可证

本项目采用 Apache-2.0 许可证授权——详情请参阅 LICENSE.md 文件。

引用

关于 KoSpeech 的一篇论文已在 ScienceDirect 上发表。如果您在学术研究中使用该系统，请引用以下内容：

@ARTICLE{2021-kospeech,
  author    = {Kim, Soohwan and Bae, Seyoung and Won, Cheolhwang},
  title     = {KoSpeech：用于端到端韩语语音识别的开源工具包},
  url       = {https://www.sciencedirect.com/science/article/pii/S2665963821000026},
  month     = {二月},
  year      = {2021},
  publisher = {ELSEVIER},
  journal   = {SIMPAC},
  pages     = {第7卷，100054页}
}

此外，还有一篇关于 KoSpeech 的技术报告已发布于 arXiv：

@TECHREPORT{2020-kospeech,
  author    = {Kim, Soohwan and Bae, Seyoung and Won, Cheolhwang},
  title     = {KoSpeech：用于端到端韩语语音识别的开源工具包},
  month     = {九月},
  year      = {2020},
  url       = {https://arxiv.org/abs/2009.03092},
  journal   = {ArXiv e-prints},
  eprint    = {2009.03092}
}

KoSpeech 快速上手指南

KoSpeech 是一个基于 PyTorch 构建的开源端到端韩语语音识别（ASR）研究库。虽然该项目仓库已归档，但其核心代码和预训练模型仍具有参考价值。若需继续开发或训练新模型，官方建议迁移至 OpenSpeech；若仅需测试韩语识别效果，推荐使用 Pororo ASR 或 Whisper。

以下指南基于原仓库内容整理，适用于想要复现经典模型或学习内部代码的开发者。

环境准备

本项目推荐 Python 3.7 或更高版本。强烈建议使用虚拟环境（如 venv 或 conda）以避免依赖冲突。

系统要求

操作系统：Linux / macOS (Windows 需自行配置编译环境)
GPU：支持 CUDA 的 NVIDIA 显卡（可选，但推荐用于加速训练）

前置依赖安装

请依次安装以下基础依赖。国内用户可使用清华源或阿里源加速 pip 安装。

# 基础科学计算库
pip install numpy pandas matplotlib tqdm -i https://pypi.tuna.tsinghua.edu.cn/simple

# PyTorch 及相关音频库 (请根据官网选择对应 CUDA 版本)
# 示例：pip install torch torchvision torchaudio==0.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install torchaudio==0.6.0

# 音频处理与分词
conda install -c conda-forge librosa
pip install sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple

# RNN-T 专用加速库
pip install warp_rnnt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 配置管理框架 Hydra
pip install hydra-core --upgrade -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：librosa 在部分 Linux 环境下通过 pip 安装可能报错，优先推荐使用 conda 安装。

安装步骤

克隆源代码并进入目录，使用 setuptools 进行本地开发模式安装：

git clone https://github.com/sooftware/kospeech.git
cd kospeech
pip install -e .

基本使用

KoSpeech 使用 Hydra 框架管理所有训练配置。使用前请确保已准备好数据集（如 KsponSpeech 或 LibriSpeech）。

1. 数据准备

请下载并预处理数据集。具体脚本和说明请参考仓库内的 dataset/kspon 或 dataset/libri 目录。假设数据集已处理完毕，路径为 /path/to/dataset。

2. 模型训练

你可以选择不同的声学模型进行训练。以下以 Deep Speech 2 和 Conformer 为例：

训练 Deep Speech 2 模型：

python ./bin/main.py model=ds2 train=ds2_train train.dataset_path=/path/to/dataset

训练 Conformer 模型 (Large 版本)：

python ./bin/main.py model=conformer-large train=conformer_large_train train.dataset_path=/path/to/dataset

注：也可选用 conformer-medium 或 conformer-small。

其他支持模型命令参考：

LAS: python ./bin/main.py model=las train=las_train train.dataset_path=...
Jasper: python ./bin/main.py model=jasper train=jasper_train train.dataset_path=...
RNN-T: python ./bin/main.py model=rnnt train=rnnt_train train.dataset_path=...

3. 模型评估

使用测试集评估训练好的模型：

python ./bin/eval.py eval.dataset_path=/path/to/dataset eval.transcripts_path=/path/to/transcripts eval.model_path=/path/to/model.pt

4. 单条音频推理

使用预训练模型对单个音频文件进行识别：

python3 ./bin/inference.py --model_path /path/to/model.pt --audio_path /path/to/audio.wav --device cuda

输出示例：

음성인식 결과 문장이 나옵니다

检查点说明

训练产生的模型权重和状态将按时间戳保存在 outputs/ 目录下：

outputs
+-- YYYY_mm_dd
|  +-- HH_MM_SS
   |  +-- trainer_states.pt  (用于恢复训练)
   |  +-- model.pt           (用于推理/评估)

版本历史

v1.32021/01/25

v1.22021/01/05

v1.12020/12/14

v1.02020/12/02

常见问题

运行 main.py 训练时提示找不到音频文件路径，应该如何配置？

训练集 CER 和 Loss 下降，但验证集指标停滞不前或无法提升，可能是什么原因？

遇到 TypeError: forward() missing required positional arguments 'inputs' and 'targets' 错误如何解决？

使用 resume=True 继续训练时，为什么从第 2 个 epoch 开始 CER 值不再下降？

训练开始后卡在 epoch 0，没有任何进展或报错，可能是什么原因？

训练过程中出现 CUDA device-side assert triggered 错误怎么办？

Token 编号顺序（如 PAD_TOKEN, SOS_TOKEN, Space Bar 的顺序）对识别准确率有影响吗？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

使用场景

没有 kospeech 时

使用 kospeech 后

运行环境要求

快速开始

此仓库已归档。如果您找到本仓库的原因属于以下情况，我们将为您推荐不同的仓库：

最新动态

注意事项

KoSpeech：面向端到端韩语语音识别的开源工具包 [论文]

支持的模型

简介

路线图

安装

先决条件

从源码安装

开始使用

准备 KsponSpeech 数据集（LibriSpeech 也可支持）

训练 KsponSpeech 数据集

对 KsponSpeech 进行评估

使用预训练模型对单个音频文件进行推理

检查点

故障排除与贡献

代码风格

论文参考

GitHub 参考

许可证

引用

KoSpeech 快速上手指南

环境准备

系统要求

前置依赖安装

安装步骤

基本使用

1. 数据准备

2. 模型训练

3. 模型评估

4. 单条音频推理

检查点说明

版本历史

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow