[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-TensorSpeech--TensorFlowASR":3,"tool-TensorSpeech--TensorFlowASR":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",146793,2,"2026-04-08T23:32:35",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":10,"env_os":94,"env_gpu":95,"env_ram":96,"env_deps":97,"category_tags":104,"github_topics":106,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":157},5793,"TensorSpeech\u002FTensorFlowASR","TensorFlowASR",":zap: TensorFlowASR: Almost State-of-the-art Automatic Speech Recognition in Tensorflow 2. Supported languages that can use characters or subwords","TensorFlowASR 是一个基于 TensorFlow 2 构建的开源自动语音识别（ASR）工具包，旨在提供接近业界最先进水平的语音转文字解决方案。它主要解决了开发者在构建高精度语音识别模型时面临的架构选择少、部署困难以及多语言支持不足等痛点。\n\n这款工具非常适合人工智能研究人员、算法工程师以及希望将语音功能集成到应用中的开发者使用。无论是需要复现前沿学术论文，还是进行生产环境部署，TensorFlowASR 都能提供强有力的支持。\n\n其核心技术亮点在于内置了多种主流且高效的模型架构，包括基于 CTC 损失的 DeepSpeech2、Jasper，以及基于 RNN-T 损失的 Conformer、ContextNet 和流式传输模型等。特别值得一提的是，TensorFlowASR 支持将这些复杂模型轻松转换为 TFLite 格式，从而显著降低内存占用和计算需求，使其能够高效运行在移动设备或边缘计算终端上。此外，它还原生支持多种语言（如英语、越南语等），允许用户灵活使用字符或子词单元进行训练，为全球化应用场景提供了极大的便利。通过简洁的安装脚本和详细的教程，即使是初学者也能快速上手","TensorFlowASR 是一个基于 TensorFlow 2 构建的开源自动语音识别（ASR）工具包，旨在提供接近业界最先进水平的语音转文字解决方案。它主要解决了开发者在构建高精度语音识别模型时面临的架构选择少、部署困难以及多语言支持不足等痛点。\n\n这款工具非常适合人工智能研究人员、算法工程师以及希望将语音功能集成到应用中的开发者使用。无论是需要复现前沿学术论文，还是进行生产环境部署，TensorFlowASR 都能提供强有力的支持。\n\n其核心技术亮点在于内置了多种主流且高效的模型架构，包括基于 CTC 损失的 DeepSpeech2、Jasper，以及基于 RNN-T 损失的 Conformer、ContextNet 和流式传输模型等。特别值得一提的是，TensorFlowASR 支持将这些复杂模型轻松转换为 TFLite 格式，从而显著降低内存占用和计算需求，使其能够高效运行在移动设备或边缘计算终端上。此外，它还原生支持多种语言（如英语、越南语等），允许用户灵活使用字符或子词单元进行训练，为全球化应用场景提供了极大的便利。通过简洁的安装脚本和详细的教程，即使是初学者也能快速上手进行模型训练与测试。","\u003Ch1 align=\"center\">\nTensorFlowASR :zap:\n\u003C\u002Fh1>\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fblob\u002Fmain\u002FLICENSE\">\n  \u003Cimg alt=\"GitHub\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FTensorSpeech\u002FTensorFlowASR?logo=apache&logoColor=green\">\n\u003C\u002Fa>\n\u003Cimg alt=\"python\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-%3E%3D3.8-blue?logo=python\">\n\u003Cimg alt=\"tensorflow\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Ftensorflow-%3E%3D2.12.0-orange?logo=tensorflow\">\n\u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002FTensorFlowASR\u002F\">\n  \u003Cimg alt=\"PyPI\" src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002FTensorFlowASR?color=%234285F4&label=release&logo=pypi&logoColor=%234285F4\">\n\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Ch2 align=\"center\">\nAlmost State-of-the-art Automatic Speech Recognition in Tensorflow 2\n\u003C\u002Fh2>\n\n\u003Cp align=\"center\">\nTensorFlowASR implements some automatic speech recognition architectures such as DeepSpeech2, Jasper, RNN Transducer, ContextNet, Conformer, etc. These models can be converted to TFLite to reduce memory and computation for deployment :smile:\n\u003C\u002Fp>\n\n## What's New?\n\n## Table of Contents\n\n\u003C!-- TOC -->\n\n- [What's New?](#whats-new)\n- [Table of Contents](#table-of-contents)\n- [:yum: Supported Models](#yum-supported-models)\n  - [Baselines](#baselines)\n  - [Publications](#publications)\n- [Installation](#installation)\n- [Training \\& Testing Tutorial](#training--testing-tutorial)\n- [Features Extraction](#features-extraction)\n- [Augmentations](#augmentations)\n- [TFLite Convertion](#tflite-convertion)\n- [Pretrained Models](#pretrained-models)\n- [Corpus Sources](#corpus-sources)\n  - [English](#english)\n  - [Vietnamese](#vietnamese)\n- [How to contribute](#how-to-contribute)\n- [References \\& Credits](#references--credits)\n- [Contact](#contact)\n\n\u003C!-- \u002FTOC -->\n\n## :yum: Supported Models\n\n### Baselines\n\n- **Transducer Models** (End2end models using RNNT Loss for training, currently supported Conformer, ContextNet, Streaming Transducer)\n- **CTCModel** (End2end models using CTC Loss for training, currently supported DeepSpeech2, Jasper)\n\n### Publications\n\n- **Conformer Transducer** (Reference: [https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.08100](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.08100))\n  See [examples\u002Fmodels\u002Ftransducer\u002Fconformer](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Fconformer)\n- **Streaming Conformer** (Reference: [http:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11395](http:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11395))\n  See [examples\u002Fmodels\u002Ftransducer\u002Fconformer](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Fconformer)\n- **ContextNet** (Reference: [http:\u002F\u002Farxiv.org\u002Fabs\u002F2005.03191](http:\u002F\u002Farxiv.org\u002Fabs\u002F2005.03191))\n  See [examples\u002Fmodels\u002Ftransducer\u002Fcontextnet](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Fcontextnet)\n- **RNN Transducer** (Reference: [https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.06621](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.06621))\n  See [examples\u002Fmodels\u002Ftransducer\u002Frnnt](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Frnnt)\n- **Deep Speech 2** (Reference: [https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.02595](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.02595))\n  See [examples\u002Fmodels\u002Fctc\u002Fdeepspeech2](.\u002Fexamples\u002Fmodels\u002Fctc\u002Fdeepspeech2)\n- **Jasper** (Reference: [https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.03288](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.03288))\n  See [examples\u002Fmodels\u002Fctc\u002Fjasper](.\u002Fexamples\u002Fmodels\u002Fctc\u002Fjasper)\n\n## Installation\n\nFor training and testing, you should use `git clone` for installing necessary packages from other authors (`ctc_decoders`, `rnnt_loss`, etc.)\n\n**NOTE ONLY FOR APPLE SILICON**: TensorFlowASR requires python >= 3.12\n\nSee the `requirements.[extra].txt` files for extra dependencies\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR.git\ncd TensorFlowASR\n.\u002Fsetup.sh [apple|tpu|gpu] [dev]\n```\n\n**Running in a container**\n\n```bash\ndocker-compose up -d\n```\n\n\n## Training & Testing Tutorial\n\n- For training, please read [tutorial_training](.\u002Fdocs\u002Ftutorials\u002Ftraining.md)\n- For testing, please read [tutorial_testing](.\u002Fdocs\u002Ftutorials\u002Ftesting.md)\n\n**FYI**: Keras builtin training uses **infinite dataset**, which avoids the potential last partial batch.\n\nSee [examples](.\u002Fexamples\u002F) for some predefined ASR models and results\n\n## Features Extraction\n\nSee [features_extraction](.\u002Ftensorflow_asr\u002Ffeatures\u002FREADME.md)\n\n## Augmentations\n\nSee [augmentations](.\u002Ftensorflow_asr\u002Faugmentations\u002FREADME.md)\n\n## TFLite Convertion\n\nAfter converting to tflite, the tflite model is like a function that transforms directly from an **audio signal** to **text and tokens**\n\nSee [tflite_convertion](.\u002Fdocs\u002Ftutorials\u002Ftflite.md)\n\n## Pretrained Models\n\nSee the results on each example folder, e.g. [.\u002Fexamples\u002Fmodels\u002F\u002Ftransducer\u002Fconformer\u002Fresults\u002Fsentencepiece\u002FREADME.md](.\u002Fexamples\u002Fmodels\u002F\u002Ftransducer\u002Fconformer\u002Fresults\u002Fsentencepiece\u002FREADME.md)\n\n## Corpus Sources\n\n### English\n\n| **Name**     | **Source**                                                         | **Hours** |\n| :----------- | :----------------------------------------------------------------- | :-------- |\n| LibriSpeech  | [LibriSpeech](http:\u002F\u002Fwww.openslr.org\u002F12)                           | 970h      |\n| Common Voice | [https:\u002F\u002Fcommonvoice.mozilla.org](https:\u002F\u002Fcommonvoice.mozilla.org) | 1932h     |\n\n### Vietnamese\n\n| **Name**                               | **Source**                                                                                                           | **Hours** |\n| :------------------------------------- | :------------------------------------------------------------------------------------------------------------------- | :-------- |\n| Vivos                                  | [https:\u002F\u002Failab.hcmus.edu.vn\u002Fvivos](https:\u002F\u002Fwww.kaggle.com\u002Fdatasets\u002Fkynthesis\u002Fvivos-vietnamese-speech-corpus-for-asr) | 15h       |\n| InfoRe Technology 1                    | [InfoRe1 (passwd: BroughtToYouByInfoRe)](https:\u002F\u002Ffiles.huylenguyen.com\u002Fdatasets\u002Finfore\u002F25hours.zip)                  | 25h       |\n| InfoRe Technology 2 (used in VLSP2019) | [InfoRe2 (passwd: BroughtToYouByInfoRe)](https:\u002F\u002Ffiles.huylenguyen.com\u002Fdatasets\u002Finfore\u002Faudiobooks.zip)               | 415h      |\n| VietBud500                             | [https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinhtran92\u002Fviet_bud500](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinhtran92\u002Fviet_bud500)     | 500h      |\n\n## How to contribute\n\n1. Fork the project\n2. [Install for development](#installing-for-development)\n3. Create a branch\n4. Make a pull request to this repo\n\n## References & Credits\n\n1. [NVIDIA OpenSeq2Seq Toolkit](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FOpenSeq2Seq)\n2. [https:\u002F\u002Fgithub.com\u002Fnoahchalifour\u002Fwarp-transducer](https:\u002F\u002Fgithub.com\u002Fnoahchalifour\u002Fwarp-transducer)\n3. [Sequence Transduction with Recurrent Neural Network](https:\u002F\u002Farxiv.org\u002Fabs\u002F1211.3711)\n4. [End-to-End Speech Processing Toolkit in PyTorch](https:\u002F\u002Fgithub.com\u002Fespnet\u002Fespnet)\n5. [https:\u002F\u002Fgithub.com\u002Fiankur\u002FContextNet](https:\u002F\u002Fgithub.com\u002Fiankur\u002FContextNet)\n\n## Contact\n\nHuy Le Nguyen\n\nEmail: nlhuy.cs.16@gmail.com\n","\u003Ch1 align=\"center\">\nTensorFlowASR :zap:\n\u003C\u002Fh1>\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fblob\u002Fmain\u002FLICENSE\">\n  \u003Cimg alt=\"GitHub\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FTensorSpeech\u002FTensorFlowASR?logo=apache&logoColor=green\">\n\u003C\u002Fa>\n\u003Cimg alt=\"python\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-%3E%3D3.8-blue?logo=python\">\n\u003Cimg alt=\"tensorflow\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Ftensorflow-%3E%3D2.12.0-orange?logo=tensorflow\">\n\u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002FTensorFlowASR\u002F\">\n  \u003Cimg alt=\"PyPI\" src=\"https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002FTensorFlowASR?color=%234285F4&label=release&logo=pypi&logoColor=%234285F4\">\n\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Ch2 align=\"center\">\n几乎达到最先进水平的 TensorFlow 2 自动语音识别\n\u003C\u002Fh2>\n\n\u003Cp align=\"center\">\nTensorFlowASR 实现了 DeepSpeech2、Jasper、RNN Transducer、ContextNet、Conformer 等多种自动语音识别架构。这些模型可以转换为 TFLite 格式，以减少内存和计算量，便于部署 :smile:\n\u003C\u002Fp>\n\n## 最新动态？\n\n## 目录\n\n\u003C!-- TOC -->\n\n- [最新动态？](#whats-new)\n- [目录](#table-of-contents)\n- [:yum: 支持的模型](#yum-supported-models)\n  - [基准模型](#baselines)\n  - [论文模型](#publications)\n- [安装](#installation)\n- [训练与测试教程](#training--testing-tutorial)\n- [特征提取](#features-extraction)\n- [数据增强](#augmentations)\n- [TFLite 转换](#tflite-convertion)\n- [预训练模型](#pretrained-models)\n- [语料库来源](#corpus-sources)\n  - [英语](#english)\n  - [越南语](#vietnamese)\n- [如何贡献](#how-to-contribute)\n- [参考文献与致谢](#references--credits)\n- [联系方式](#contact)\n\n\u003C!-- \u002FTOC -->\n\n## :yum: 支持的模型\n\n### 基准模型\n\n- **Transducer 模型**（使用 RNNT 损失进行训练的端到端模型，目前支持 Conformer、ContextNet 和 Streaming Transducer）\n- **CTCModel**（使用 CTC 损失进行训练的端到端模型，目前支持 DeepSpeech2 和 Jasper）\n\n### 论文模型\n\n- **Conformer Transducer**（参考文献：[https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.08100](https:\u002F\u002Farxiv.org\u002Fabs\u002F2005.08100)）\n  请参阅 [examples\u002Fmodels\u002Ftransducer\u002Fconformer](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Fconformer)\n- **Streaming Conformer**（参考文献：[http:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11395](http:\u002F\u002Farxiv.org\u002Fabs\u002F2010.11395)）\n  请参阅 [examples\u002Fmodels\u002Ftransducer\u002Fconformer](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Fconformer)\n- **ContextNet**（参考文献：[http:\u002F\u002Farxiv.org\u002Fabs\u002F2005.03191](http:\u002F\u002Farxiv.org\u002Fabs\u002F2005.03191)）\n  请参阅 [examples\u002Fmodels\u002Ftransducer\u002Fcontextnet](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Fcontextnet)\n- **RNN Transducer**（参考文献：[https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.06621](https:\u002F\u002Farxiv.org\u002Fabs\u002F1811.06621)）\n  请参阅 [examples\u002Fmodels\u002Ftransducer\u002Frnnt](.\u002Fexamples\u002Fmodels\u002Ftransducer\u002Frnnt)\n- **Deep Speech 2**（参考文献：[https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.02595](https:\u002F\u002Farxiv.org\u002Fabs\u002F1512.02595)）\n  请参阅 [examples\u002Fmodels\u002Fctc\u002Fdeepspeech2](.\u002Fexamples\u002Fmodels\u002Fctc\u002Fdeepspeech2)\n- **Jasper**（参考文献：[https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.03288](https:\u002F\u002Farxiv.org\u002Fabs\u002F1904.03288)）\n  请参阅 [examples\u002Fmodels\u002Fctc\u002Fjasper](.\u002Fexamples\u002Fmodels\u002Fctc\u002Fjasper)\n\n## 安装\n\n为了进行训练和测试，您需要使用 `git clone` 从其他作者处安装必要的包（如 `ctc_decoders`、`rnnt_loss` 等）。\n\n**仅适用于 Apple Silicon 的注意事项**：TensorFlowASR 需要 Python >= 3.12。\n\n有关额外依赖项，请参阅 `requirements.[extra].txt` 文件。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR.git\ncd TensorFlowASR\n.\u002Fsetup.sh [apple|tpu|gpu] [dev]\n```\n\n**在容器中运行**\n\n```bash\ndocker-compose up -d\n```\n\n\n## 训练与测试教程\n\n- 关于训练，请阅读 [tutorial_training](.\u002Fdocs\u002Ftutorials\u002Ftraining.md)\n- 关于测试，请阅读 [tutorial_testing](.\u002Fdocs\u002Ftutorials\u002Ftesting.md)\n\n**温馨提示**：Keras 内置的训练方法使用的是**无限数据集**，这样可以避免可能出现的最后一个不完整的批次。\n\n请参阅 [examples](.\u002Fexamples\u002F) 中的一些预定义 ASR 模型及其结果。\n\n## 特征提取\n\n请参阅 [features_extraction](.\u002Ftensorflow_asr\u002Ffeatures\u002FREADME.md)\n\n## 数据增强\n\n请参阅 [augmentations](.\u002Ftensorflow_asr\u002Faugmentations\u002FREADME.md)\n\n## TFLite 转换\n\n转换为 TFLite 后，TFLite 模型就像一个函数，可以直接将**音频信号**转换为**文本和标记**。\n\n请参阅 [tflite_convertion](.\u002Fdocs\u002Ftutorials\u002Ftflite.md)\n\n## 预训练模型\n\n请查看每个示例文件夹中的结果，例如 [.\u002Fexamples\u002Fmodels\u002F\u002Ftransducer\u002Fconformer\u002Fresults\u002Fsentencepiece\u002FREADME.md](.\u002Fexamples\u002Fmodels\u002F\u002Ftransducer\u002Fconformer\u002Fresults\u002Fsentencepiece\u002FREADME.md)\n\n## 语料库来源\n\n### 英语\n\n| **名称**     | **来源**                                                         | **小时数** |\n| :----------- | :----------------------------------------------------------------- | :-------- |\n| LibriSpeech  | [LibriSpeech](http:\u002F\u002Fwww.openslr.org\u002F12)                           | 970 小时      |\n| Common Voice | [https:\u002F\u002Fcommonvoice.mozilla.org](https:\u002F\u002Fcommonvoice.mozilla.org) | 1932 小时     |\n\n### 越南语\n\n| **名称**                               | **来源**                                                                                                           | **小时数** |\n| :------------------------------------- | :------------------------------------------------------------------------------------------------------------------- | :-------- |\n| Vivos                                  | [https:\u002F\u002Failab.hcmus.edu.vn\u002Fvivos](https:\u002F\u002Fwww.kaggle.com\u002Fdatasets\u002Fkynthesis\u002Fvivos-vietnamese-speech-corpus-for-asr) | 15 小时       |\n| InfoRe Technology 1                    | [InfoRe1 (密码：BroughtToYouByInfoRe)](https:\u002F\u002Ffiles.huylenguyen.com\u002Fdatasets\u002Finfore\u002F25hours.zip)                  | 25 小时       |\n| InfoRe Technology 2 (用于 VLSP2019)    | [InfoRe2 (密码：BroughtToYouByInfoRe)](https:\u002F\u002Ffiles.huylenguyen.com\u002Fdatasets\u002Finfore\u002Faudiobooks.zip)               | 415 小时      |\n| VietBud500                             | [https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinhtran92\u002Fviet_bud500](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flinhtran92\u002Fviet_bud500)     | 500 小时      |\n\n## 如何贡献\n\n1. 分支该项目\n2. [安装用于开发](#installing-for-development)\n3. 创建分支\n4. 向本仓库提交拉取请求\n\n## 参考文献与致谢\n\n1. [NVIDIA OpenSeq2Seq 工具箱](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FOpenSeq2Seq)\n2. [https:\u002F\u002Fgithub.com\u002Fnoahchalifour\u002Fwarp-transducer](https:\u002F\u002Fgithub.com\u002Fnoahchalifour\u002Fwarp-transducer)\n3. [循环神经网络的序列转导](https:\u002F\u002Farxiv.org\u002Fabs\u002F1211.3711)\n4. [PyTorch 中的端到端语音处理工具箱](https:\u002F\u002Fgithub.com\u002Fespnet\u002Fespnet)\n5. [https:\u002F\u002Fgithub.com\u002Fiankur\u002FContextNet](https:\u002F\u002Fgithub.com\u002Fiankur\u002FContextNet)\n\n## 联系方式\n\nHuy Le Nguyen\n\n邮箱：nlhuy.cs.16@gmail.com","# TensorFlowASR 快速上手指南\n\nTensorFlowASR 是一个基于 TensorFlow 2 的自动语音识别（ASR）工具库，实现了 DeepSpeech2、Jasper、Conformer、ContextNet 等接近最先进（SOTA）的模型架构，并支持转换为 TFLite 以便部署。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux, macOS (Apple Silicon 需特别注意), Windows (建议通过 WSL2 或 Docker)\n*   **Python 版本**: >= 3.8\n    *   **注意**: 如果您使用的是 **Apple Silicon (M1\u002FM2\u002FM3)** 芯片，必须使用 **Python >= 3.12**。\n*   **TensorFlow 版本**: >= 2.12.0\n*   **硬件加速**: 推荐配备 NVIDIA GPU (用于训练)，或使用 TPU。CPU 也可运行但速度较慢。\n*   **依赖项**: 需要 `git` 以及编译 C++ 扩展的工具链 (如 `build-essential`)，因为安装过程会自动克隆并编译 `ctc_decoders` 和 `rnnt_loss` 等底层库。\n\n## 安装步骤\n\n推荐使用源码安装方式，以便自动配置必要的第三方依赖。\n\n### 1. 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR.git\ncd TensorFlowASR\n```\n\n### 2. 执行安装脚本\n根据您的硬件环境选择对应的参数运行 `setup.sh` 脚本。脚本会自动处理 Python 依赖及子模块编译。\n\n*   **GPU 环境 (NVIDIA)**:\n    ```bash\n    .\u002Fsetup.sh gpu\n    ```\n*   **TPU 环境**:\n    ```bash\n    .\u002Fsetup.sh tpu\n    ```\n*   **Apple Silicon (M1\u002FM2\u002FM3)**:\n    ```bash\n    .\u002Fsetup.sh apple\n    ```\n*   **开发模式 (如需修改源码)**:\n    ```bash\n    .\u002Fsetup.sh gpu dev\n    ```\n\n> **提示**: 如果在国内网络环境下克隆子模块或下载依赖失败，建议配置 Git 代理或使用国内镜像源加速 pip 安装（可在 `requirements.txt` 安装阶段指定 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`）。\n\n### 3. Docker 方式 (可选)\n如果您希望避免环境配置冲突，可以直接使用 Docker Compose 运行：\n```bash\ndocker-compose up -d\n```\n\n## 基本使用\n\nTensorFlowASR 的核心流程分为**特征提取**、**模型训练**和**推理测试**。以下是最简化的使用逻辑。\n\n### 1. 准备数据与配置\n在 `examples\u002F` 目录下包含了各种预定义模型（如 Conformer, DeepSpeech2）的配置示例。您需要准备音频文件列表和对应的文本标注文件。\n\n### 2. 训练模型\n训练脚本通常位于 `examples\u002Ftrain.py` (具体路径视模型示例而定)。Keras 内置的训练循环支持无限数据集，避免了最后一个批次不完整的问题。\n\n启动训练的基本命令结构如下（以 Conformer Transducer 为例）：\n```bash\npython examples\u002Fmodels\u002Ftransducer\u002Fconformer\u002Ftrain.py \\\n  --config_path examples\u002Fmodels\u002Ftransducer\u002Fconformer\u002Fconfig.yml \\\n  --dataset_path \u002Fpath\u002Fto\u002Fyour\u002Fdataset\n```\n*详细训练参数请参考项目内的 `docs\u002Ftutorials\u002Ftraining.md`。*\n\n### 3. 模型测试与推理\n训练完成后，可以使用测试脚本评估模型性能或直接进行语音转文字。\n\n```bash\npython examples\u002Fmodels\u002Ftransducer\u002Fconformer\u002Ftest.py \\\n  --config_path examples\u002Fmodels\u002Ftransducer\u002Fconformer\u002Fconfig.yml \\\n  --checkpoint_path \u002Fpath\u002Fto\u002Fbest_checkpoint.h5 \\\n  --audio_path \u002Fpath\u002Fto\u002Ftest_audio.wav\n```\n*详细测试流程请参考项目内的 `docs\u002Ftutorials\u002Ftesting.md`。*\n\n### 4. 转换为 TFLite (部署用)\n为了在移动端或嵌入式设备部署，可将训练好的模型转换为 TFLite 格式。转换后的模型可直接将**音频信号**映射为**文本和 Token**。\n\n```bash\npython examples\u002Fmodels\u002Ftransducer\u002Fconformer\u002Fexport_tflite.py \\\n  --config_path examples\u002Fmodels\u002Ftransducer\u002Fconformer\u002Fconfig.yml \\\n  --checkpoint_path \u002Fpath\u002Fto\u002Fbest_checkpoint.h5 \\\n  --output_path model.tflite\n```\n*详细转换教程请参考 `docs\u002Ftutorials\u002Ftflite.md`。*\n\n---\n*更多高级功能（如数据增强、特征提取细节、预训练模型下载）请参阅仓库中的 `tensorflow_asr` 目录文档及各模型示例文件夹下的 `README.md`。*","某初创医疗科技公司正在开发一款面向医生的多语言电子病历语音录入系统，需要快速构建支持中文和英文的高精度语音识别后端。\n\n### 没有 TensorFlowASR 时\n- **研发周期漫长**：团队需从零复现 Conformer 或 DeepSpeech2 等复杂论文算法，仅模型架构搭建与调试就耗时数月，严重拖慢产品上线进度。\n- **多语言适配困难**：缺乏统一的字符与子词处理框架，为不同语言定制数据预处理流水线时经常出错，导致小语种识别率极低。\n- **端侧部署受阻**：训练好的庞大模型难以在医生手持的平板设备上运行，内存占用过高且推理延迟大，无法满足离线实时录入需求。\n- **技术栈割裂**：若尝试其他非 TensorFlow 生态的 SOTA 模型，将无法利用公司现有的 TF2 基础设施，造成维护成本双重叠加。\n\n### 使用 TensorFlowASR 后\n- **极速模型落地**：直接调用内置的 Conformer Transducer 或 Jasper 架构，几天内即可完成从数据加载到模型训练的全流程，大幅缩短研发周期。\n- **灵活语言支持**：利用其原生支持的字符与子词（subwords）处理机制，轻松配置中英文混合训练任务，显著提升了多语言场景下的识别准确率。\n- **高效边缘部署**：通过一键将训练好的模型转换为 TFLite 格式，成功将模型体积压缩并部署至医生平板，实现了低延迟、低功耗的离线语音转写。\n- **生态无缝集成**：基于 TensorFlow 2 构建的特性完美契合现有技术栈，团队无需学习新框架即可进行二次开发与性能调优。\n\nTensorFlowASR 通过提供近乎最先进的预置架构与便捷的端侧转换能力，让医疗语音录入系统得以在极短时间内实现高精度、多语言且可离线运行的商业化落地。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTensorSpeech_TensorFlowASR_5b30ea7a.png","TensorSpeech","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTensorSpeech_288c8fa1.png",null,"https:\u002F\u002Fgithub.com\u002FTensorSpeech",[78,82,86],{"name":79,"color":80,"percentage":81},"Python","#3572A5",99.2,{"name":83,"color":84,"percentage":85},"Shell","#89e051",0.6,{"name":87,"color":88,"percentage":89},"Dockerfile","#384d54",0.1,1007,240,"2026-04-07T06:51:20","Apache-2.0","Linux, macOS","支持 GPU\u002FTPU\u002FCPU 模式。若使用 GPU，需 NVIDIA 显卡（具体型号和显存未说明），安装脚本支持 'gpu' 参数；Apple Silicon (M1\u002FM2) 有专门支持。","未说明",{"notes":98,"python":99,"dependencies":100},"1. Apple Silicon (M1\u002FM2) 用户必须使用 Python 3.12 或更高版本。2. 训练和测试需要通过 git clone 安装额外依赖包（如 ctc_decoders, rnnt_loss）。3. 提供针对 Apple、TPU 和 GPU 的不同安装脚本参数。4. 支持将模型转换为 TFLite 格式以进行部署。5. 可通过 Docker 容器运行。",">=3.8 (Apple Silicon 设备要求 >=3.12)",[101,102,103],"tensorflow>=2.12.0","ctc_decoders","rnnt_loss",[105,14],"音频",[107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123],"automatic-speech-recognition","deepspeech2","speech-recognition","speech-to-text","tensorflow2","rnn-transducer","conformer","tflite","tflite-model","tflite-convertion","ctc","tensorflow","subword-speech-recognition","end2end","contextnet","jasper","streaming-transducer","2026-03-27T02:49:30.150509","2026-04-09T12:33:17.524429",[127,132,137,142,147,152],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},26259,"如何在 TPU 上进行训练？","项目已在 PR #146 中添加了对 TPU 训练的支持。您可以尝试使用 Keras 内置的 `fit` 方法进行训练。此外，也可以查看最新的 PR #130 以获取在 TPU 上运行的相关更新。","https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fissues\u002F100",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},26260,"推荐哪种模型用于 Android 实时语音识别？","该库支持将模型导出为 `tflite` 格式，适合在 Android 上使用。对于实时流式传输，建议关注 `train_streaming_transducer.py` 相关的实现。注意：如果使用 Adam 优化器，需要设置较小的学习率（例如 0.0001）或使用学习率调度器才能正常工作。目前社区正在开发 Android Demo，完成后可参考具体示例。","https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fissues\u002F35",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},26261,"ContextNet 模型测试失败或结果不佳怎么办？","如果遇到测试失败或结果与论文差距较大（特别是贪婪解码），请参考官方提供的 ContextNet 训练配置和结果说明（examples\u002Fcontextnet\u002FREADME.md）。请仔细对比您的 `config.yml` 文件与官方配置，确保编码器块（encoder_blocks）、步长（strides）和激活函数等参数一致。","https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fissues\u002F182",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},26262,"运行代码时遇到 'During Variant Host->Device Copy: non-DMA-copy attempted of tensor type: string' 错误如何解决？","此错误通常与 TensorFlow 版本或 GPU 内存拷贝机制有关。虽然默认集束搜索（beam search）速度较慢且可能触发此类问题，但维护者指出对于子词（subwords）Conformer 模型，贪婪解码（greedy decode）与集束搜索的效果差异不大。建议优先尝试使用贪婪解码以避免该错误并提高速度，或者检查 TensorFlow 版本兼容性。","https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fissues\u002F71",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},26263,"运行 DeepSpeech2 训练时卡在 'GpuTracer has collected 0 callback api events' 怎么办？","如果在指定 GPU 设备运行时程序卡住，可以尝试在代码中显式隐藏 GPU 或重新配置可见设备。请在调用 `env_util.setup_devices([args.device], cpu=args.cpu)` 之后，添加一行代码：`tf.config.set_visible_devices([], \"GPU\")`，这有助于解决某些环境下的 GPU 追踪器挂起问题。","https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fissues\u002F190",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},26264,"在 stream_transducer tflite 模型上进行推理时出错怎么办？","如果在运行 `streaming_tflite_conformer.py` 进行推理时遇到错误（通常涉及 TensorFlow Lite delegate 或算子支持问题），请确保您使用的 TensorFlow 二进制文件已针对 CPU 指令集（如 oneDNN）优化，并且正确加载了动态库（如 libcudart.so）。此类问题常与特定版本的 TF Lite 代理对选择性 TF 操作的支持有关，建议检查是否与已知 Issue #119 类似，并确认模型导出时的算子兼容性设置。","https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fissues\u002F168",[158,163,168,173,178,183,188,193,198,203,208,213,218,223,228,233,238,243,248,253],{"id":159,"version":160,"summary_zh":161,"released_at":162},170649,"v3.0.0","## 变更内容\n* 杂项：修复功能源代码，由 @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F293 中完成\n* Keras 3、Kaggle、命令行工具、流式处理，由 @nglehuy 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F295 中实现\n\n## 新贡献者\n* @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F293 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fcompare\u002Fv2.1.0...v3.0.0","2025-06-11T15:07:34",{"id":164,"version":165,"summary_zh":166,"released_at":167},170650,"v2.1.0","**完整更新日志**: https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fcompare\u002Fv2.0.1...v2.1.0","2024-06-09T15:14:47",{"id":169,"version":170,"summary_zh":171,"released_at":172},170651,"v2.0.1","**完整更新日志**: https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fcompare\u002Fv2.0.0...v2.0.1","2024-05-19T17:34:39",{"id":174,"version":175,"summary_zh":176,"released_at":177},170652,"v2.0.0","## 变更内容\n* WordPiece、Sentencepiece 重构，由 @nglehuy 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F253 中修正配置\n* chore(deps): 将 black 从 23.7.0 升级至 24.3.0，由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F288 中完成\n* chore(deps): 将 jinja2 从 3.1.2 升级至 3.1.3，由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F287 中完成\n* chore(deps): 将 tqdm 从 4.66.1 升级至 4.66.3，由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F286 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fcompare\u002Fv1.0.3...v2.0.0","2024-05-04T17:01:33",{"id":179,"version":180,"summary_zh":181,"released_at":182},170653,"v1.0.3","## 变更内容\n* 由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F240 中将 pillow 从 8.3.2 升级至 9.0.0\n* 由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F245 中将 nltk 从 3.6.4 升级至 3.6.6\n* 由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F250 中将 pillow 从 9.0.0 升级至 9.0.1\n* 重构：添加对 TensorFlow 2.8 的支持、更新导入语句、更新示例、添加辅助函数，由 @usimarit 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F251 中完成\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fcompare\u002Fv1.0.2...v1.0.3","2022-03-12T07:39:08",{"id":184,"version":185,"summary_zh":186,"released_at":187},170654,"v1.0.2","## 变更内容\n* 由 @usimarit 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F200 中修复了 CTC 识别问题\n* 由 @ebraraktas 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F202 中修复并新增了依赖项\n* 由 @ebraraktas 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F203 中修复并优化了 Conformer 模型的 TFLite 转换\n* 由 @ebraraktas 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F204 中修复并改进了 Conformer 演示\n* 由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F223 中将 Pillow 从 8.3.1 升级至 8.3.2\n* 由 @ebraraktas 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F225 中修复了 `PositionalEncoding` 的 `get_config()` 方法\n* 由 @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F227 中将 NLTK 从 3.6.2 升级至 3.6.5\n* 由 @usimarit 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F229 中进行了多项错误修复\n* 由 @cemildemir19 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F230 中修复了时间缩减因子的计算问题\n* 由 @usimarit 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F233 中增加了对 Transducer 模型的 SavedModel 转换支持\n\n## 新贡献者\n* @ebraraktas 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F202 中做出了首次贡献\n* @dependabot 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F223 中做出了首次贡献\n* @cemildemir19 在 https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fpull\u002F230 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FTensorSpeech\u002FTensorFlowASR\u002Fcompare\u002Fv1.0.1...v1.0.2","2021-11-07T11:49:41",{"id":189,"version":190,"summary_zh":191,"released_at":192},170655,"v1.0.1","# 发布说明\n\n- 修复 bug\n- 更新数据集\n- 更新特征提取器\n- 更新脚本\n- 将 `BaseModel` 类中的 `_build` 方法重命名为 `make`（在 Python 中不应调用以下划线开头的函数）","2021-05-16T07:18:27",{"id":194,"version":195,"summary_zh":196,"released_at":197},170656,"v1.0.0","# 发布说明\n\n- 重构仓库结构\n- 添加笔记本示例\n- 移除自定义训练循环，改用自定义 Keras 循环\n- 更新示例","2021-04-17T17:37:38",{"id":199,"version":200,"summary_zh":201,"released_at":202},170657,"v0.8.3","# 发行说明\n\n- 修复了在较大批次大小下进行测试时的 `streaming transducer`\n- 在 `setup.py` 中添加了 `extras_require`，以便支持安装多个 TensorFlow 版本","2021-04-10T06:14:59",{"id":204,"version":205,"summary_zh":206,"released_at":207},170658,"v0.8.2","# 发行说明\n\n- 更新转换器、数据集\n- 修复一些错误","2021-04-06T17:43:41",{"id":209,"version":210,"summary_zh":211,"released_at":212},170659,"v0.8.1","# Release Notes\r\n\r\n- Fix small bug when not declaring the eval dataset","2021-03-17T17:57:06",{"id":214,"version":215,"summary_zh":216,"released_at":217},170660,"v0.8.0","# Release Notes\r\n\r\n- Update stft\r\n- Update WER and CER Metrics","2021-03-09T17:45:49",{"id":219,"version":220,"summary_zh":221,"released_at":222},170661,"v0.7.8","# Release Notes\r\n\r\n- Fix duplicate log softmax in rnnt loss in tf","2021-02-24T12:28:38",{"id":224,"version":225,"summary_zh":226,"released_at":227},170662,"v0.7.7","# Release Notes\r\n\r\n- Support for infinite dataset (for using `steps_per_execution`)\r\n- Support for storing hdf5 to cloud\r\n- Update training script using keras builtin functions","2021-02-21T16:32:16",{"id":229,"version":230,"summary_zh":231,"released_at":232},170663,"v0.7.6","# Release Notes\r\n\r\n- Replace max lengths by metadata to store other dataset information, such as number of entries\r\n- Update TPU example script to use `steps_per_execution`","2021-02-19T18:08:02",{"id":234,"version":235,"summary_zh":236,"released_at":237},170664,"v0.7.5","# Release Notes\r\n\r\n- Move dependencies to `requirements.txt`\r\n- Add option to use loss scale in keras compile\r\n- Add max lengths computation in ASR dataset\r\n- Support TPU and static shape training","2021-02-16T14:36:49",{"id":239,"version":240,"summary_zh":241,"released_at":242},170665,"v0.7.4","# Release Notes\r\n\r\n- Fixed rnnt loss in pure tf for batch size 1\r\n- Update example configs","2021-02-13T09:15:45",{"id":244,"version":245,"summary_zh":246,"released_at":247},170666,"v0.7.3","# Release Notes\r\n\r\n- Fix Transducer Batch Recognition\r\n- Cast step to float32 in schedules\r\n- Update create tfrecords and add subwords scripts","2021-02-12T09:31:25",{"id":249,"version":250,"summary_zh":251,"released_at":252},170667,"v0.7.2","# Release Notes\r\n\r\n- Fix some minor bugs in dataset","2021-02-07T16:15:37",{"id":254,"version":255,"summary_zh":256,"released_at":257},170668,"v0.7.1","# Release Notes\r\n\r\n- Update dataset config\r\n- Update ASRDataset with option to use preprocessing in pure tf (not `tf.numpy_function`)\r\n- Add Transducer Greedy Decoding V2 from [https:\u002F\u002Farxiv.org\u002Fpdf\u002F1801.00841.pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1801.00841.pdf)\r\n- Update documents and results\r\n- Update examples scripts to use new dataset config","2021-01-31T10:14:28"]