[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-yeyupiaoling--MASR":3,"similar-yeyupiaoling--MASR":106},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":18,"owner_url":19,"languages":20,"stars":37,"forks":38,"last_commit_at":39,"license":40,"difficulty_score":41,"env_os":42,"env_gpu":43,"env_ram":44,"env_deps":45,"category_tags":52,"github_topics":55,"view_count":65,"oss_zip_url":18,"oss_zip_packed_at":18,"status":66,"created_at":67,"updated_at":68,"faqs":69,"releases":105},9960,"yeyupiaoling\u002FMASR","MASR","Pytorch实现的流式与非流式的自动语音识别框架，同时兼容在线和离线识别，目前支持Conformer、Squeezeformer、DeepSpeech2模型，支持多种数据增强方法。","MASR 是一款基于 PyTorch 构建的“神奇”自动语音识别框架，旨在为开发者提供简单、实用且高效的语音转文字解决方案。它完美解决了语音识别中在线流式（实时）与离线非流式场景的兼容难题，让用户无需切换框架即可灵活应对不同业务需求。\n\n无论是希望快速部署语音服务的工程师，还是致力于算法优化的人工智能研究人员，MASR 都是理想的选择。该工具不仅支持在服务器及 Nvidia Jetson 等边缘设备上运行，未来还将拓展至移动端，具有极强的落地适应性。\n\n在技术层面，MASR 展现了显著的亮点：它内置了 Conformer、Squeezeformer 及 DeepSpeech2 等多种主流模型，并支持 CTC 贪心搜索、束搜索及注意力重评分等多种解码策略。特别值得一提的是，其 V3 版本通过引入 kaldi_native_fbank 加速预处理，并利用 SentencePiece 优化分词机制，大幅降低了多语言及中英文混合训练的难度。此外，丰富的数据增强手段和模块化的项目结构，进一步帮助用户轻松训练出高精度的定制化语音识别模型。","![python version](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.11+-orange.svg)\n![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fyeyupiaoling\u002FMASR)\n![GitHub Repo stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fyeyupiaoling\u002FMASR)\n![GitHub](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fyeyupiaoling\u002FMASR)\n![支持系统](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F支持系统-Win\u002FLinux\u002FMAC-9cf)\n\n# MASR流式与非流式语音识别项目\n\nMASR是一款基于Pytorch实现的自动语音识别框架，MASR全称是神奇的自动语音识别框架（Magical Automatic Speech Recognition），当前为V3版本，与V2版本不兼容，如果想使用V2版本，请在这个分支[V2](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Ftree\u002Frelease\u002F2.3.x)。MASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。\n\n\n**欢迎大家扫码入知识星球或者QQ群讨论，知识星球里面提供项目的模型文件和博主其他相关项目的模型文件，也包括其他一些资源。**\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_d4ba433d3d87.jpg\" alt=\"知识星球\" width=\"400\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_645bdcaba681.jpg\" alt=\"QQ群\" width=\"400\">\n\u003C\u002Fdiv>\n\n\n本项目使用的环境：\n - Anaconda 3\n - Python 3.11\n - Pytorch 2.5.1\n - Windows 11 or Ubuntu 22.04\n\n\n# 在线试用\n\n**网页版：**[在线试用地址](https:\u002F\u002Ftools.yeyupiaoling.cn\u002Fspeech\u002Fmasr)\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_3b1f368cdba7.jpg\" alt=\"微信小程序\" width=\"200\">\u003Cbr\u002F>\n  微信小程序\n\u003C\u002Fdiv>\n\n\n## 项目特点\n\n1. 支持多个语音识别模型，包含`deepspeech2`、`conformer`、`squeezeformer`、`efficient_conformer`等，每个模型都支持流式识别和非流式识别，在配置文件中`streaming`参数设置。\n2. 支持多种解码器，包含`ctc_greedy_search`、`ctc_prefix_beam_search`、`attention_rescoring`、`ctc_beam_search`等。\n3. 支持多种预处理方法，包含`fbank`、`mfcc`等。\n4. 支持多种数据增强方法，包含噪声增强、混响增强、语速增强、音量增强、重采样增强、位移增强、SpecAugmentor、SpecSubAugmentor等。\n5. 支持多种推理方法，包含短音频推理、长音频推理、流式推理、说话人分离推理等。\n6. 更多特点等待你发现。\n\n\n## 与V2版本的区别\n\n1. 项目结构的优化，大幅度降低的使用难度。\n2. 更换预处理的库，改用kaldi_native_fbank，在提高数据预处理的速度，同时也支持多平台。\n3. 修改token的方法，使用sentencepiece制作token，这个框架极大的降低了多种语言的处理难度，同时还使中英文混合训练成为可能。\n\n\n## 更新记录\n\n - 2025.3: 正式发布最终级的V3版本。\n\n## 模型下载\n\n\n1. [WenetSpeech](.\u002Fdocs\u002Fwenetspeech.md) (10000小时，普通话) 的预训练模型列表，错误率类型为字错率（CER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | test_net | test_meeting | aishell_test |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:--------:|:------------:|:------------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.14391  |   0.18665    |   0.06751    | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.14326  |   0.18488    |   0.06763    | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.13523  |   0.18069    |   0.06079    | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     | 0.18227  |   0.21586    |   0.04981    | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    |          |              |              | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search |          |              |              | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     |          |              |              | 加入知识星球获取 |\n\n2. [AIShell](https:\u002F\u002Fopenslr.magicdatatech.com\u002Fresources\u002F33) (179小时，普通话) 的预训练模型列表，错误率类型为字错率（CER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | 自带的测试集  |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:-------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.06134 | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.06132 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.05366 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     | 0.04409 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    | 0.12000 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search | 0.12016 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     | 0.08748 | 加入知识星球获取 |\n\n\n3. [Librispeech](https:\u002F\u002Fopenslr.magicdatatech.com\u002Fresources\u002F12) (960小时，英语) 的预训练模型列表，错误率类型为词错率（WER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | 自带的测试集  |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:-------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.07432 | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.07418 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.06549 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     |    \u002F    | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    | 0.15491 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search | 0.15307 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     |    \u002F    | 加入知识星球获取 |\n\n\n4. 其他数据集的预训练模型列表，错误率类型，如果是中文就是字错率（CER），英文则是词错率（WER），中英混合为混合错误率（MER）：\n\n|   使用模型    |             数据集              |  语言  |          解码方式          |                                           测试数据                                           |   下载地址   |\n|:---------:|:----------------------------:|:----:|:----------------------:|:----------------------------------------------------------------------------------------:|:--------:|\n| Conformer |          粤语(含港式粤语)           |  粤语  |   ctc_greedy_search    |                                         0.04241                                          | 加入知识星球获取 |\n| Conformer |          粤语(含港式粤语)           |  粤语  | ctc_prefix_beam_search |                                         0.04234                                          | 加入知识星球获取 |\n| Conformer |          粤语(含港式粤语)           |  粤语  |  attention_rescoring   |                                         0.02969                                          | 加入知识星球获取 |\n| Conformer |          粤语(含港式粤语)           |  粤语  |    ctc_beam_search     |                                         0.04461                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  |   ctc_greedy_search    |                                         0.09582                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  | ctc_prefix_beam_search |                                         0.09523                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  |  attention_rescoring   |                                         0.08470                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  |    ctc_beam_search     |                                            \u002F                                             | 加入知识星球获取 |\n| Conformer |       更大数据集（16000+小时）        | 中英文  |   ctc_greedy_search    | test_net: 0.17378\u003Cbr>test_meeting: 0.20505\u003Cbr>Librispeech-Test: 0.20888\u003Cbr>中英混合: 0.14189 | 加入知识星球获取 |\n| Conformer |       更大数据集（16000+小时）        | 中英文  | ctc_prefix_beam_search | test_net: 0.17311\u003Cbr>test_meeting: 0.20408\u003Cbr>Librispeech-Test: 0.20508\u003Cbr>中英混合: 0.14009 | 加入知识星球获取 |\n| Conformer |       更大数据集（16000+小时）        | 中英文  |  attention_rescoring   | test_net: 0.15607\u003Cbr>test_meeting: 0.19188\u003Cbr>Librispeech-Test: 0.17477\u003Cbr>中英混合: 0.12389 | 加入知识星球获取 |\n| Conformer | CommonVoice-Uyghur + THUYG20 | 维吾尔语 |   ctc_greedy_search    |                                         0.04179                                          | 加入知识星球获取 |\n| Conformer | CommonVoice-Uyghur + THUYG20 | 维吾尔语 | ctc_prefix_beam_search |                                         0.04078                                          | 加入知识星球获取 |\n| Conformer | CommonVoice-Uyghur + THUG20  | 维吾尔语 |  attention_rescoring   |                                         0.02759                                          | 加入知识星球获取 |\n\n**说明：** \n1. 这里字错率或者词错率是使用`eval.py`。\n2. 分别给出了使用三个解码器的错误率，其中`ctc_prefix_beam_search`、`attention_rescoring`的解码搜索大小为10。\n3. 训练时使用了噪声增强和混响增强，以及其他增强方法，具体请看配置参数`configs\u002Faugmentation.yml`。\n4. 这里只提供了流式模型，但全部模型都支持流式和非流式的，在配置文件中`streaming`参数设置。\n5. `更大数据集`准确率比其他的低最主要的是应为训练的epoch太少，但是足以作为其他微调任务的预训练模型。\n6. 使用`CommonVoice-Uyghur`的测试集作为本项目测试集，其余的和THUYG20全部作为训练集。\n\n>有问题欢迎提 [issue](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues) 交流\n\n\n## 文档教程\n\n- [快速安装](.\u002Fdocs\u002Finstall.md)\n- [快速使用](.\u002Fdocs\u002FGETTING_STARTED.md)\n- [数据准备](.\u002Fdocs\u002Fdataset.md)\n- [WenetSpeech数据集](.\u002Fdocs\u002Fwenetspeech.md)\n- [合成语音数据](.\u002Fdocs\u002Fgenerate_audio.md)\n- [数据增强](.\u002Fdocs\u002Faugment.md)\n- [训练模型](.\u002Fdocs\u002Ftrain.md)\n- [集束搜索解码](.\u002Fdocs\u002Fbeam_search.md)\n- [执行评估](.\u002Fdocs\u002Feval.md)\n- [导出模型](.\u002Fdocs\u002Fexport_model.md)\n- [使用标点符号模型](.\u002Fdocs\u002Fpunctuation.md)\n- 预测\n   - [本地预测](.\u002Fdocs\u002Finfer.md)\n   - [说话人日志语音识别](.\u002Fdocs\u002Finfer.md)\n   - [Web部署模型](.\u002Fdocs\u002Finfer.md)\n   - [GUI界面预测](.\u002Fdocs\u002Finfer.md)\n- [常见问题解答](.\u002Fdocs\u002Ffaq.md)\n\n\n## 相关项目\n - 基于Pytorch实现的声纹识别：[VoiceprintRecognition-Pytorch](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FVoiceprintRecognition-Pytorch)\n - 基于Pytorch实现的分类：[AudioClassification-Pytorch](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FAudioClassification-Pytorch)\n - 基于PaddlePaddle实现的语音识别：[PPASR](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FPPASR)\n\n\n## 打赏作者\n\n\u003Cbr\u002F>\n\u003Cdiv align=\"center\">\n\u003Cp>打赏一块钱支持一下作者\u003C\u002Fp>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_8fee2eae2436.jpg\" alt=\"打赏作者\" width=\"400\">\n\u003C\u002Fdiv>\n\n\n## 参考资料\n - https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FPPASR\n - https:\u002F\u002Fgithub.com\u002Fjiwidi\u002FDeepSpeech-pytorch\n - https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002FWenetSpeech\n - https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwenet\n - https:\u002F\u002Fgithub.com\u002FSeanNaren\u002Fdeepspeech.pytorch\n","![Python版本](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.11+-orange.svg)\n![GitHub分支数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fyeyupiaoling\u002FMASR)\n![GitHub仓库点赞数](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fyeyupiaoling\u002FMASR)\n![GitHub许可证](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fyeyupiaoling\u002FMASR)\n![支持系统](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F支持系统-Win\u002FLinux\u002FMAC-9cf)\n\n# MASR流式与非流式语音识别项目\n\nMASR是一款基于Pytorch实现的自动语音识别框架，MASR全称是神奇的自动语音识别框架（Magical Automatic Speech Recognition），当前为V3版本，与V2版本不兼容，如果想使用V2版本，请在这个分支[V2](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Ftree\u002Frelease\u002F2.3.x)。MASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。\n\n\n**欢迎大家扫码入知识星球或者QQ群讨论，知识星球里面提供项目的模型文件和博主其他相关项目的模型文件，也包括其他一些资源。**\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_d4ba433d3d87.jpg\" alt=\"知识星球\" width=\"400\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_645bdcaba681.jpg\" alt=\"QQ群\" width=\"400\">\n\u003C\u002Fdiv>\n\n\n本项目使用的环境：\n - Anaconda 3\n - Python 3.11\n - Pytorch 2.5.1\n - Windows 11 or Ubuntu 22.04\n\n\n# 在线试用\n\n**网页版：**[在线试用地址](https:\u002F\u002Ftools.yeyupiaoling.cn\u002Fspeech\u002Fmasr)\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_3b1f368cdba7.jpg\" alt=\"微信小程序\" width=\"200\">\u003Cbr\u002F>\n  微信小程序\n\u003C\u002Fdiv>\n\n\n## 项目特点\n\n1. 支持多个语音识别模型，包含`deepspeech2`、`conformer`、`squeezeformer`、`efficient_conformer`等，每个模型都支持流式识别和非流式识别，在配置文件中`streaming`参数设置。\n2. 支持多种解码器，包含`ctc_greedy_search`、`ctc_prefix_beam_search`、`attention_rescoring`、`ctc_beam_search`等。\n3. 支持多种预处理方法，包含`fbank`、`mfcc`等。\n4. 支持多种数据增强方法，包含噪声增强、混响增强、语速增强、音量增强、重采样增强、位移增强、SpecAugmentor、SpecSubAugmentor等。\n5. 支持多种推理方法，包含短音频推理、长音频推理、流式推理、说话人分离推理等。\n6. 更多特点等待你发现。\n\n\n## 与V2版本的区别\n\n1. 项目结构的优化，大幅度降低的使用难度。\n2. 更换预处理的库，改用kaldi_native_fbank，在提高数据预处理的速度，同时也支持多平台。\n3. 修改token的方法，使用sentencepiece制作token，这个框架极大的降低了多种语言的处理难度，同时还使中英文混合训练成为可能。\n\n\n## 更新记录\n\n - 2025.3: 正式发布最终级的V3版本。\n\n## 模型下载\n\n\n1. [WenetSpeech](.\u002Fdocs\u002Fwenetspeech.md) (10000小时，普通话) 的预训练模型列表，错误率类型为字错率（CER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | test_net | test_meeting | aishell_test |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:--------:|:------------:|:------------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.14391  |   0.18665    |   0.06751    | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.14326  |   0.18488    |   0.06763    | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.13523  |   0.18069    |   0.06079    | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     | 0.18227  |   0.21586    |   0.04981    | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    |          |              |              | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search |          |              |              | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     |          |              |              | 加入知识星球获取 |\n\n2. [AIShell](https:\u002F\u002Fopenslr.magicdatatech.com\u002Fresources\u002F33) (179小时，普通话) 的预训练模型列表，错误率类型为字错率（CER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | 自带的测试集  |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:-------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.06134 | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.06132 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.05366 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     | 0.04409 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    | 0.12000 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search | 0.12016 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     | 0.08748 | 加入知识星球获取 |\n\n\n3. [Librispeech](https:\u002F\u002Fopenslr.magicdatatech.com\u002Fresources\u002F12) (960小时，英语) 的预训练模型列表，错误率类型为词错率（WER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | 自带的测试集  |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:-------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.07432 | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.07418 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.06549 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     |    \u002F    | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    | 0.15491 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search | 0.15307 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     |    \u002F    | 加入知识星球获取 |\n\n\n4. 其他数据集的预训练模型列表，错误率类型，如果是中文就是字错率（CER），英文则是词错率（WER），中英混合为混合错误率（MER）：\n\n|   使用模型    |             数据集              |  语言  |          解码方式          |                                           测试数据                                           |   下载地址   |\n|:---------:|:----------------------------:|:----:|:----------------------:|:----------------------------------------------------------------------------------------:|:--------:|\n| Conformer |          粤语(含港式粤语)           |  粤语  |   ctc_greedy_search    |                                         0.04241                                          | 加入知识星球获取 |\n| Conformer |          粤语(含港式粤语)           |  粤语  | ctc_prefix_beam_search |                                         0.04234                                          | 加入知识星球获取 |\n| Conformer |          粤语(含港式粤语)           |  病毒  |  attention_rescoring   |                                         0.02969                                          | 加入知识星球获取 |\n| Conformer |          粤语(含港式粤语)           |  病毒  |    ctc_beam_search     |                                         0.04461                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  |   ctc_greedy_search    |                                         0.09582                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  | ctc_prefix_beam_search |                                         0.09523                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  |  attention_rescoring   |                                         0.08470                                          | 加入知识星球获取 |\n| Conformer |           中英混合数据集            | 中英文  |    ctc_beam_search     |                                            \u002F                                             | 加入知识星球获取 |\n| Conformer |       更大数据集（16000+小时）        | 中英文  |   ctc_greedy_search    | test_net: 0.17378\u003Cbr>test_meeting: 0.20505\u003Cbr>Librispeech-Test: 0.20888\u003Cbr>中英混合: 0.14189 | 加入知识星球获取 |\n| Conformer |       更大数据集（16000+小时）        | 中英文  | ctc_prefix_beam_search | test_net: 0.17311\u003Cbr>test_meeting: 0.20408\u003Cbr>Librispeech-Test: 0.20508\u003Cbr>中英混合: 0.14009 | 加入知识星球获取 |\n| Conformer |       更大数据集（16000+小时）        | 中英文  |  attention_rescoring   | test_net: 0.15607\u003Cbr>test_meeting: 0.19188\u003Cbr>Librispeech-Test: 0.17477\u003Cbr>中英混合: 0.12389 | 加入知识星球获取 |\n| Conformer | CommonVoice-Uyghur + THUYG20 | 维吾尔语 |   ctc_greedy_search    |                                         0.04179                                          | 加入知识星球获取 |\n| Conformer | CommonVoice-Uyghur + THUYG20 | 维吾尔语 | ctc_prefix_beam_search |                                         0.04078                                          | 加入知识星球获取 |\n| Conformer | CommonVoice-Uyghur + THUG20  | 维吾尔语 |  attention_rescoring   |                                         0.02759                                          | 加入知识星球获取 |\n\n**说明：** \n1. 这里字错率或者词错率是使用`eval.py`。\n2. 分别给出了使用三个解码器的错误率，其中`ctc_prefix_beam_search`、`attention_rescoring`的解码搜索大小为10。\n3. 训练时使用了噪声增强和混响增强，以及其他增强方法，具体请看配置参数`configs\u002Faugmentation.yml`。\n4. 这里只提供了流式模型，但全部模型都支持流式和非流式的，在配置文件中`streaming`参数设置。\n5. `更大数据集`准确率比其他的低最主要的是应为训练的epoch太少，但是足以作为其他微调任务的预训练模型。\n6. 使用`CommonVoice-Uyghur`的测试集作为本项目测试集，其余的和THUYG20全部作为训练集。\n\n>有问题欢迎提 [issue](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues) 交流\n\n\n## 文档教程\n\n- [快速安装](.\u002Fdocs\u002Finstall.md)\n- [快速使用](.\u002Fdocs\u002FGETTING_STARTED.md)\n- [数据准备](.\u002Fdocs\u002Fdataset.md)\n- [WenetSpeech数据集](.\u002Fdocs\u002Fwenetspeech.md)\n- [合成语音数据](.\u002Fdocs\u002Fgenerate_audio.md)\n- [数据增强](.\u002Fdocs\u002Faugment.md)\n- [训练模型](.\u002Fdocs\u002Ftrain.md)\n- [集束搜索解码](.\u002Fdocs\u002Fbeam_search.md)\n- [执行评估](.\u002Fdocs\u002Feval.md)\n- [导出模型](.\u002Fdocs\u002Fexport_model.md)\n- [使用标点符号模型](.\u002Fdocs\u002Fpunctuation.md)\n- 预测\n   - [本地预测](.\u002Fdocs\u002Finfer.md)\n   - [说话人日志语音识别](.\u002Fdocs\u002Finfer.md)\n   - [Web部署模型](.\u002Fdocs\u002Finfer.md)\n   - [GUI界面预测](.\u002Fdocs\u002Finfer.md)\n- [常见问题解答](.\u002Fdocs\u002Ffaq.md)\n\n\n## 相关项目\n - 基于Pytorch实现的声纹识别：[VoiceprintRecognition-Pytorch](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FVoiceprintRecognition-Pytorch)\n - 基于Pytorch实现的分类：[AudioClassification-Pytorch](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FAudioClassification-Pytorch)\n - 基于PaddlePaddle实现的语音识别：[PPASR](https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FPPASR)\n\n\n## 打赏作者\n\n\u003Cbr\u002F>\n\u003Cdiv align=\"center\">\n\u003Cp>打赏一块钱支持一下作者\u003C\u002Fp>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_readme_8fee2eae2436.jpg\" alt=\"打赏作者\" width=\"400\">\n\u003C\u002Fdiv>\n\n## 参考资料\n - https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FPPASR\n - https:\u002F\u002Fgithub.com\u002Fjiwidi\u002FDeepSpeech-pytorch\n - https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002FWenetSpeech\n - https:\u002F\u002Fgithub.com\u002Fwenet-e2e\u002Fwenet\n - https:\u002F\u002Fgithub.com\u002FSeanNaren\u002Fdeepspeech.pytorch","# MASR 快速上手指南\n\nMASR（Magical Automatic Speech Recognition）是一款基于 PyTorch 实现的流式与非流式自动语音识别框架。本指南将帮助你快速在本地环境中部署并运行 MASR。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**：Windows 11, Ubuntu 22.04, macOS\n- **Python 版本**：3.11 或更高\n- **推荐管理工具**：Anaconda 3\n\n### 前置依赖\n确保已安装以下核心库（建议通过 Conda 创建独立环境）：\n- PyTorch 2.5.1+\n- kaldi_native_fbank\n- sentencepiece\n\n## 2. 安装步骤\n\n### 第一步：创建并激活 Conda 环境\n```bash\nconda create -n masr python=3.11\nconda activate masr\n```\n\n### 第二步：安装 PyTorch\n请根据你的硬件环境选择安装命令。\n**国内用户推荐使用清华源加速安装：**\n\n*Linux\u002FWindows (CUDA 12.4):*\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n*macOS (CPU\u002FMPS):*\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 第三步：安装 MASR 及依赖\n克隆项目代码并安装依赖包：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR.git\ncd MASR\npip install -r requirements.txt --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 第四步：下载预训练模型\nMASR V3 的预训练模型（支持中文普通话、粤语、英语及中英混合）主要托管在作者的知识星球中。\n1. 扫描 README 中的二维码加入知识星球或 QQ 群获取模型文件。\n2. 将下载的模型文件解压至项目根目录下的 `models` 文件夹（若不存在请新建）。\n   - 目录结构示例：`MASR\u002Fmodels\u002Fconformer_streaming_chinese\u002F`\n\n## 3. 基本使用\n\n安装完成并准备好模型后，即可进行语音识别推理。\n\n### 命令行预测\n使用提供的脚本对单个音频文件进行识别。以下示例使用 Conformer 流式模型识别中文音频：\n\n```bash\npython infer.py \\\n    --model_path models\u002Fconformer_streaming_chinese \\\n    --audio_path test.wav \\\n    --decoder ctc_greedy_search\n```\n\n**参数说明：**\n- `--model_path`: 预训练模型文件夹路径。\n- `--audio_path`: 待识别的音频文件路径（支持 wav, mp3 等格式）。\n- `--decoder`: 解码方式，可选 `ctc_greedy_search`, `ctc_prefix_beam_search`, `attention_rescoring` 等。\n\n### Python 代码调用\n你也可以直接在 Python 代码中集成 MASR：\n\n```python\nfrom masr import MasrPredictor\n\n# 初始化预测器\npredictor = MasrPredictor(\n    model_path='models\u002Fconformer_streaming_chinese',\n    decoder='ctc_greedy_search'\n)\n\n# 执行识别\ntext = predictor.predict(audio_path='test.wav')\nprint(f\"识别结果：{text}\")\n```\n\n### 启动 Web 服务（可选）\nMASR 支持一键启动 Web 界面进行在线试用：\n```bash\npython app.py\n```\n启动后访问 `http:\u002F\u002F127.0.0.1:5000` 即可在浏览器中上传音频进行识别。","某智能客服团队需要为银行构建一套既能实时转录客户通话，又能精准归档长录音的语音系统，且必须同时支持普通话与方言混合场景。\n\n### 没有 MASR 时\n- **架构割裂**：需分别部署两套系统处理实时流式通话和离线录音文件，导致服务器资源浪费且维护成本翻倍。\n- **多语言支持难**：面对中英文夹杂或方言口音，传统模型分词困难，训练数据预处理繁琐，识别错误率居高不下。\n- **抗噪能力弱**：在嘈杂的呼叫中心环境下，缺乏内置的高级数据增强（如混响、噪声模拟），导致背景音严重干扰识别结果。\n- **模型切换僵化**：若想尝试更先进的 Conformer 或 Squeezeformer 模型，需重写大量底层代码，无法灵活配置解码策略。\n\n### 使用 MASR 后\n- **统一框架部署**：利用 MASR 兼容流式与非流式的特性，一套代码即可同时支撑实时通话转录和离线录音归档，大幅降低运维复杂度。\n- **混合语言无缝处理**：借助 SentencePiece 分词技术，轻松实现中英文混合及多方言训练，显著提升了复杂语境下的字错率（CER）表现。\n- **鲁棒性显著增强**：直接调用内置的噪声、语速及 SpecAugment 等多种数据增强方法，使模型在嘈杂环境中依然保持高准确率。\n- **灵活模型迭代**：通过简单修改配置文件，即可在 DeepSpeech2 与 Conformer 等主流模型间自由切换，并尝试不同的解码器以优化最终效果。\n\nMASR 通过“一套框架、多种模式”的设计，彻底解决了语音识别项目中实时性与准确性难以兼得、多场景适配成本高的核心痛点。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fyeyupiaoling_MASR_319776ed.png","yeyupiaoling","夜雨飘零","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fyeyupiaoling_4a486346.png","博客：https:\u002F\u002Fyeyupiaoling.cn",null,"https:\u002F\u002Fgithub.com\u002Fyeyupiaoling",[21,25,29,33],{"name":22,"color":23,"percentage":24},"Python","#3572A5",97.5,{"name":26,"color":27,"percentage":28},"JavaScript","#f1e05a",1.5,{"name":30,"color":31,"percentage":32},"HTML","#e34c26",0.8,{"name":34,"color":35,"percentage":36},"CSS","#663399",0.3,722,115,"2026-04-07T13:30:02","Apache-2.0",3,"Windows, Linux, macOS","未说明（项目基于 PyTorch，支持 NVIDIA GPU 加速及 Nvidia Jetson 设备，具体显存和 CUDA 版本取决于所选模型大小）","未说明",{"notes":46,"python":47,"dependencies":48},"推荐使用 Anaconda 3 管理环境。V3 版本与 V2 不兼容。预处理库已更换为 kaldi_native_fbank 以支持多平台并提高速度。使用 sentencepiece 进行 Token 制作，支持中英文混合训练。预训练模型文件需加入知识星球获取。支持部署在服务器、Nvidia Jetson 设备，未来计划支持 Android。","3.11+",[49,50,51],"torch==2.5.1","kaldi_native_fbank","sentencepiece",[53,54],"开发框架","音频",[56,57,58,59,60,61,62,63,64],"deepspeech","pytorch","asr","deep-learning","speech-recognition","speech-to-text","speech","conformer","squeezeformer",2,"ready","2026-03-27T02:49:30.150509","2026-04-20T12:57:12.669511",[70,75,80,85,90,95,100],{"id":71,"question_zh":72,"answer_zh":73,"source_url":74},44723,"训练过程中出现 Loss 为 inf 或 nan 怎么办？","如果出现 inf，通常可以忽略并继续训练，模型可能会自行恢复；但如果出现 nan，则说明训练失败，需要检查数据或超参数。建议适当降低学习率，或者加载预训练模型参数来规避初始训练不稳定的问题。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F15",{"id":76,"question_zh":77,"answer_zh":78,"source_url":79},44724,"使用自定义数据集训练时 Loss 不收敛且 CER 很高是什么原因？","这通常是因为训练数据量太少导致的。解决方案是使用预训练模型（如 AIShell 预训练权重）进行微调（Fine-tuning），而不是从头开始训练，这样可以显著改善收敛效果和识别准确率。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F25",{"id":81,"question_zh":82,"answer_zh":83,"source_url":84},44725,"运行时报错提示'GPU execution requested, but not compiled with GPU support'如何解决？","该错误通常与 CUDA 版本兼容性有关。虽然项目支持 CUDA 10.2，但某些组件（如 warp-ctc）可能对特定版本敏感。请确保安装的 warp-ctc 已成功编译并支持当前 CUDA 版本，可以通过运行 `test_gpu.py` 测试脚本来验证 GPU 绑定是否正常工作。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F10",{"id":86,"question_zh":87,"answer_zh":88,"source_url":89},44726,"实时语音识别时报错'hidden 层 size 不匹配'怎么处理？","这可能是因为使用的音频数据与预训练模型不匹配，或者数据量太小导致模型效果不佳。建议尽量使用集束搜索（Beam Search）方法进行解码以提高鲁棒性，如果条件允许，最好使用自己的数据重新训练模型以匹配实际场景。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F42",{"id":91,"question_zh":92,"answer_zh":93,"source_url":94},44727,"模型输入的特征是声谱图（Spectrogram）、梅尔声谱图还是 MFCC？","该项目中输入到神经网络的特征是声谱图（Spectrogram）。代码预处理后返回的是线性声谱图数据，而非 MFCC 或 Mel-spectrogram。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F40",{"id":96,"question_zh":97,"answer_zh":98,"source_url":99},44728,"如何评估训练结果是否正常（例如 Loss 值和 CER 的含义）？","训练后的 Loss 值（如 30+）和字错率（CER 67%）在某些情况下属于正常范围，特别是当数据集较小时。需要注意的是，CER（Character Error Rate）是字错率，与实际的语义错误率有区别，不能直接等同于识别准确度，需结合具体业务场景评估。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F28",{"id":101,"question_zh":102,"answer_zh":103,"source_url":104},44729,"CTC Loss 报错或安装有问题怎么解决？","如果是 CTC Loss 相关的底层报错，请确保已发布最新版本，因为新版中 CTC Loss 已改用 PyTorch 原生实现，通常能解决兼容性问题。同时请务必仔细阅读文档，文档末尾通常提供了现成的模型下载链接和详细的安装指引。","https:\u002F\u002Fgithub.com\u002Fyeyupiaoling\u002FMASR\u002Fissues\u002F19",[],[107,118,127,136,144,152],{"id":108,"name":109,"github_repo":110,"description_zh":111,"stars":112,"difficulty_score":41,"last_commit_at":113,"category_tags":114,"status":66},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[115,53,116,117],"Agent","图像","数据工具",{"id":119,"name":120,"github_repo":121,"description_zh":122,"stars":123,"difficulty_score":65,"last_commit_at":124,"category_tags":125,"status":66},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,"2026-04-19T23:22:26",[117,53,115,116,126],"插件",{"id":128,"name":129,"github_repo":130,"description_zh":131,"stars":132,"difficulty_score":41,"last_commit_at":133,"category_tags":134,"status":66},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[115,135,126,53,116],"语言模型",{"id":137,"name":138,"github_repo":139,"description_zh":140,"stars":141,"difficulty_score":41,"last_commit_at":142,"category_tags":143,"status":66},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[53,116,115],{"id":145,"name":146,"github_repo":147,"description_zh":148,"stars":149,"difficulty_score":65,"last_commit_at":150,"category_tags":151,"status":66},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[53,115,135],{"id":153,"name":154,"github_repo":155,"description_zh":156,"stars":157,"difficulty_score":65,"last_commit_at":158,"category_tags":159,"status":66},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[53,116,115]]