[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SpeechColab--Leaderboard":3,"tool-SpeechColab--Leaderboard":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[19,13,20,18],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[20,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65628,"2026-04-05T10:10:46",[20,18,14],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":22},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[20,14,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":79,"languages":80,"stars":92,"forks":93,"last_commit_at":94,"license":77,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":97,"env_deps":98,"category_tags":101,"github_topics":102,"view_count":10,"oss_zip_url":77,"oss_zip_packed_at":77,"status":22,"created_at":108,"updated_at":109,"faqs":110,"releases":111},3442,"SpeechColab\u002FLeaderboard","Leaderboard","SpeechIO Leaderboard: a large, robust, comprehensive, benchmarking platform for Automatic Speech Recognition.","Leaderboard 是一个专为自动语音识别（ASR）技术打造的大型、稳健且全面的基准测试平台。它致力于解决当前语音识别领域缺乏统一评估标准、不同模型难以公平对比以及实验结果难以复现的痛点，让“无法度量就无法改进”的理念真正落地。\n\n该平台通过三大核心组件构建起完整的评估生态：首先是\"TestSet Zoo\"，汇集了涵盖中英文多种场景的学术数据集及精心标注的真实场景测试集（如新闻、会议、体育等），确保测试数据的广泛性与代表性；其次是\"Model Zoo\"，支持接入商业 API 与开源模型进行横向对比；最后是标准化的“基准测试流水线”，自动化处理数据准备、识别、后处理及错误率评估全流程。\n\nLeaderboard 特别适合语音算法研究人员、AI 开发者以及需要评估语音技术性能的企业团队使用。其独特的技术亮点在于提供了从数据采集到指标评估的一站式闭环服务，不仅包含高质量的付费人工标注测试集以模拟真实复杂环境，还定义了清晰的评测规范，让用户能够轻松地对各类 ASR 系统进行基准测试、复现结果并深入分析优劣，从而推动语音识别技术的持续迭代与优化。","# SpeechColab ASR leaderboard\n\n![result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_9f8db666cea0.png)\n![result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_ff8438e18ee3.png)\n\n## 1. Overview\n\n> \"If you can’t measure it, you can’t improve it.\" -- *Peter Drucker*\n\nSpeechIO leaderboard serves as an ASR benchmarking platform by providing 3 components:\n\n1. **TestSet Zoo**: A collection of test sets covering wide range of speech recognition tasks & scenarios\n\n2. **Model Zoo**: A collection of models including commercial APIs & open-sourced models\n\n3. **Benchmarking Pipeline**: a simple & well-specified pipeline to take care of data preparation \u002F recognition \u002F post processing \u002F error rate evaluation.\n\n_**People should be able to easily benchmark, reproduce, examine ASR systems from each other**_\n\n![Overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_36b902af550e.png)\n\n---\n\n## 2. TestSet Zoo: `datasets\u002F*`\n\n\u003Cdetails>\u003Csummary> Academic Test Sets (EN & ZH)  \u003C\u002Fsummary>\u003Cp>\n\n| 已公开 \u003Cbr> UNLOCKED | 编号 \u003Cbr> DATASET_ID | 说明 \u003Cbr> DESCRIPTION | 语言 \u003Cbr> LANGUAGE |\n| --- | --- | --- | --- |\n| &check; | AISHELL1_TEST | test set of AISHELL-1 | zh |\n| &check; | AISHELL2_IOS_TEST | test set of AISHELL-2 (iOS channel) | zh |\n| &check; | AISHELL2_ANDROID_TEST | test set of AISHELL-2 (Android channel) | zh |\n| &check; | AISHELL2_MIC_TEST | test set of AISHELL-2 (Microphone channel) | zh |\n| &check; | ALIMEETING_EVAL_NEAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | ALIMEETING_TEST_NEAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | ALIMEETING_EVAL_FAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | ALIMEETING_TEST_FAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | LIBRISPEECH_TEST_CLEAN | \"test_clean\" set of [LibriSpeech](https:\u002F\u002Fwww.openslr.org\u002F12) | en |\n| &check; | LIBRISPEECH_TEST_OTHER | \"test_other\" set of [LibriSpeech](https:\u002F\u002Fwww.openslr.org\u002F12) | en |\n| &check; | TEDLIUM_RELEASE3_LEGACY_DEV | tedlium release 3, legacy dir dev set [TEDLium3](https:\u002F\u002Fwww.openslr.org\u002F51\u002F) | en |\n| &check; | TEDLIUM_RELEASE3_LEGACY_TEST | tedlium release 3, legacy dir test set [TEDLium3](https:\u002F\u002Fwww.openslr.org\u002F51\u002F) | en |\n| &check; | GIGASPEECH_V1.0.0_DEV | dev set of [GigaSpeech](https:\u002F\u002Fgithub.com\u002FSpeechColab\u002FGigaSpeech) | en |\n| &check; | GIGASPEECH_V1.0.0_TEST | test set of [GigaSpeech](https:\u002F\u002Fgithub.com\u002FSpeechColab\u002FGigaSpeech) | en |\n| &check; | VOXPOPULI_V1.0_EN_DEV | dev set of [VoxPopuli](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvoxpopuli) | en |\n| &check; | VOXPOPULI_V1.0_EN_TEST | test set of [VoxPopuli](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvoxpopuli) | en |\n| &check; | VOXPOPULI_V1.0_EN_ACCENTED_TEST | accented test set of [VoxPopuli](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvoxpopuli) | en |\n| &check; | COMMON_VOICE_V11.0_DEV | dev set of [Common Voice](https:\u002F\u002Fcommonvoice.mozilla.org\u002Fen\u002Fdatasets) | en |\n| &check; | COMMON_VOICE_V11.0_TEST | test set of [Common Voice](https:\u002F\u002Fcommonvoice.mozilla.org\u002Fen\u002Fdatasets) | en |\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n\u003Cdetails>\u003Csummary> SpeechIO Test Sets (ZH) \u003C\u002Fsummary>\u003Cp>\n\n```\nSpeechIO test sets are carefully curated by SpeechIO authors, crawled from publicly available sources (Youtube, TV programs, Podcast etc), covering various well-known scenarios and topics, transcribed by payed professional annotators.\n```\n\n| 已公开 \u003Cbr> UNLOCKED | 编号 \u003Cbr> DATASET_ID | 名称 \u003Cbr> NAME | 场景 \u003Cbr> SCENARIO | 内容领域 \u003Cbr> TOPIC | 有效时长 \u003Cbr> DURATION (HOURS) | 难度(1-5) \u003Cbr> DIFFICULTY  |\n| --- | --- | --- | --- | --- | --- | --- |\n| &check; |SPEECHIO_ASR_ZH00000| 调试集 \u003Cbr> for debugging | 视频会议、论坛演讲 \u003Cbr> conference & speech | 经济、货币、金融 \u003Cbr> economy, currency, finance | 1.0 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00001| 新闻联播 | 新闻播报 \u003Cbr> TV News | 时政 \u003Cbr> news & politics | 9 | ★ |\n| &check; |SPEECHIO_ASR_ZH00002| 鲁豫有约 | 访谈电视节目 \u003Cbr> TV interview | 名人工作\u002F生活 \u003Cbr> celebrity & film & music & daily | 3 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00003| 天下足球 | 专题电视节目 \u003Cbr> TV program | 足球 \u003Cbr> Sports & Football & Worldcup | 2.7 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00004| 罗振宇跨年演讲 | 会场演讲 \u003Cbr> Stadium Public Speech | 社会、人文、商业 \u003Cbr> Society & Culture & Business Trend | 2.7 | ★★ |\n| &check; |SPEECHIO_ASR_ZH00005| 李永乐讲堂 | 在线教育 \u003Cbr> Online Education | 科普 \u003Cbr> Popular Science | 4.4 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00006| 王者荣耀 \u003Cbr> 张大仙 & 骚白 | 直播 \u003Cbr> Live Broadcasting | 游戏 \u003Cbr> Game | 1.6 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00007| 直播带货 \u003Cbr> 李佳琪 & 薇娅 | 直播 \u003Cbr> Live Broadcasting | 电商、美妆 \u003Cbr> Makeup & Online shopping\u002Fadvertising | 0.9 | ★★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00008| 老罗语录 | 线下培训 \u003Cbr> Offline lecture | 段子、做人 \u003Cbr> Life & Purpose & Ethics | 1.3 | ★★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00009| 故事FM | 播客 \u003Cbr> Podcast | 人生故事、见闻 \u003Cbr> Ordinary Life Story Telling | 4.5 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00010| 创业内幕 | 播客 \u003Cbr> Podcast | 创业、产品、投资 \u003Cbr> Startup & Enterprenuer & Product & Investment | 4.2 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00011| 罗翔刑法法考 | 在线教育 \u003Cbr> Online Education | 法律 法考 \u003Cbr> Law & Lawyer Qualification Exams | 3.4 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00012| 张雪峰考研 | 在线教育 \u003Cbr> Online Education | 考研 高校报考 \u003Cbr> University & Graduate School Entrance Exams | 3.4 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00013| 谷阿莫 \u003Cbr> 牛叔说电影 | 短视频 \u003Cbr> VLog | 电影剪辑 \u003Cbr> Movie Cuts | 1.8 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00014| 贫穷料理 \u003Cbr> 琼斯爱生活 | 短视频 \u003Cbr> VLog | 美食、烹饪 \u003Cbr> Food & Cooking & Gourmet | 1 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00015| 单田芳 白眉大侠 | 评书 \u003Cbr> Traditional Podcast | 江湖、武侠 \u003Cbr> Kongfu Fiction | 2.2 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00016| 德云社演出 | 剧场相声 \u003Cbr> Theater Crosstalk Show | 包袱段子 \u003Cbr> Funny Stories | 1 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00017| 吐槽大会 | 脱口秀电视节目 \u003Cbr> Standup Comedy | 明星糗事 \u003Cbr> Celebrity Jokes | 1.8 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00018| 小猪佩奇 \u003Cbr> 熊出没 | 少儿动画 \u003Cbr> Children Cartoon | 童话故事、日常 \u003Cbr> Fairy Tale | 0.9 | ★☆ |\n| &check; |SPEECHIO_ASR_ZH00019| CCTV5 NBA 转播 | 体育赛事解说 \u003Cbr> Sports Game Live | 篮球、NBA \u003Cbr> NBA Game | 0.7 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00020| 篮球人物 | 纪录片 \u003Cbr> Documentary | 篮球明星、成长 \u003Cbr> NBA Super Stars' Life & History | 2.2 | ★★ |\n| &check; |SPEECHIO_ASR_ZH00021| 汽车之家评测 | 短视频 \u003Cbr> VLog | 汽车测评 \u003Cbr> Car benchmarks, Road driving test | 1.7 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00022| 小艾大叔 豪宅带看 | 短视频 \u003Cbr> VLog | 房地产、豪宅 \u003Cbr> Realestate, Mansion tour | 1.7 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00023| 无聊开箱 \u003Cbr> Zealer评测 | 短视频 \u003Cbr> VLog | 产品开箱评测 \u003Cbr> Unboxing | 2 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00024| 付老师种植技术 | 短视频 \u003Cbr> VLog | 农业、种植 \u003Cbr> Agriculture, Planting | 2.7 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00025| 石国鹏讲历史 | 线下培训 \u003Cbr> Offline lecture | 历史，古希腊哲学 \u003Cbr> History, Greek philosophy | 1.3 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00026| 张震鬼故事 | 广播节目 \u003Cbr> Broadcasting Program | 鬼故事 \u003Cbr> Horror Stories | 2.4 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00027| 华语辩论世界杯 | 辩论赛 \u003Cbr> Debates Contest | 兴趣、技能、成长 \u003Cbr> Hobby, Skill, Growth | 1.4 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00028| 时政现场同传 | 同声传译 \u003Cbr> Simultaneous Translation | 时政、社会公共治理 \u003Cbr> News & Events on Public Governance | 2.1 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00029| 港台明星访谈 \u003Cbr> 周杰伦,曾志伟 \u003Cbr> 张家辉,陈小春 \u003Cbr> 周星驰 | 口音(港台) \u003Cbr> HongKong\u002FTaiwan Accents | 娱乐、生活、演艺 \u003Cbr> Entertainment, Acting, Musics | 1.5 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00030| 世界青年说 | 口音(老外) \u003Cbr> Foreigner Accents | 异国文化比较 \u003Cbr> Cultural Difference | 2 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00031| 东方甄选 | 直播 \u003Cbr> broadcast | 带货，英语教学 \u003Cbr> Online advertising & English Education | 2.4 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00032| 郎朗钢琴课 | 长视频 \u003Cbr> long-form video | 音乐乐理，钢琴 \u003Cbr> Music & piano | 1.7 | ★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00033| 老石谈芯 | 短视频 \u003Cbr> VLog | 芯片 \u003Cbr> chips | 2.8 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00034| 电丸科技AK | 短视频 \u003Cbr> VLog | 网络 IT \u003Cbr> Internet tech, IT | 1.4 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00035| 新氧医美 | 短视频 \u003Cbr> VLog | 医疗美容 \u003Cbr> Medical Cosmetology | 1.4 | ★★ |\n| &cross; |SPEECHIO_ASR_ZH00036| 交通广播 | 交通广播 \u003Cbr> traffic radio | 路况，娱乐 \u003Cbr> Traffics | 1.2 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00037| 老俞闲聊 | 在线会议 \u003Cbr> Online meeting | 闲聊 \u003Cbr> chat | 2.4 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00038| 电影：疯狂石头+疯狂赛车 | 电影 \u003Cbr> Film | 重庆话、山东青岛、四川成都话、河北唐山话、粤语、天津话、河南话、陕西话、闽南话，武汉话等 \u003Cbr> multiple accents | 1.3 | ★★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00039| 电影：1942 | 电影 \u003Cbr> Film | 河南话 \u003Cbr> HeNan Accent | 0.9 | ★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00040| 电影：白鹿原 | 电影 \u003Cbr> Film | 陕西话 \u003Cbr> ShaanXi Accent | 1.1 | ★★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00041| 电影：让子弹飞 | 电影 \u003Cbr> Film | 四川话 \u003Cbr> SiChuan Accent | 1.1 | ★★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00042| 电影：人生大事 | 电影 \u003Cbr> Film | 武汉话 \u003Cbr> WuHan Accent | 0.8 | ★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00043| 听障 | 听障语音识别 \u003Cbr> Hearing Imperiment Speaker | 新闻脚本 \u003Cbr> News Prompts | 0.6 | ★★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00044| 唐诗宋词 | 诗词朗诵 \u003Cbr> Poems Reading | 唐诗宋词 \u003Cbr> Chinese Poems | 1.1 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00045| 文言文 | 文言文朗诵 \u003Cbr> Classical Chinese Reading | 论语，老子，诗经，孙子兵法 | 0.5 | ★★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00046| 音乐歌词识别 | 演唱 \u003Cbr> Singing | 歌词 \u003Cbr> Lyrics | 1.2 | ★★★★☆ |\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n![Download Dataset](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_320c9d0d73ea.png)\n\n---\n\n## 3. Model Zoo: `models\u002F*`\n\n\u003Cdetails>\u003Csummary> EN Models \u003C\u002Fsummary>\u003Cp>\n\n| 编号 \u003Cbr> MODEL_ID | 类型 \u003Cbr> TYPE | 厂商\u002F作者 \u003Cbr> PROVIDER\u002FAUTHOR | 简介 \u003Cbr> DESCRIPTION | 链接 \u003Cbr> URL |\n| --- | --- | --- | --- | --- |\n| [aliyun_api_en](models\u002Faliyun_api_en\u002F) | Cloud | Alibaba | | [link](https:\u002F\u002Fwww.alibabacloud.com\u002Fproduct\u002Fintelligent-speech-interaction) |\n| [amazon_api_en](models\u002Famazon_api_en\u002F) | Cloud | Amazon AWS | | [link](https:\u002F\u002Faws.amazon.com\u002Fcn\u002Ftranscribe\u002F) |\n| [baidu_api_en](models\u002Fbaidu_api_en\u002F) | Cloud | Baidu | | [link](https:\u002F\u002Fcloud.baidu.com\u002Fproduct\u002Fspeech\u002Fasr) |\n| [google_api_en](models\u002Fgoogle_api_en\u002F) | Cloud | Google | | [link](https:\u002F\u002Fcloud.google.com\u002Fspeech-to-text) |\n| [google_USM_en](models\u002Fgoogle_USM_en\u002F) | Cloud | Google | | [request access](https:\u002F\u002Fsites.research.google\u002Fusm\u002F) |\n| [microsoft_sdk_en](models\u002Fmicrosoft_sdk_en\u002F) | Cloud | Microsoft Azure | | [link](https:\u002F\u002Fazure.microsoft.com\u002Fen-us\u002Fservices\u002Fcognitive-services\u002Fspeech-to-text\u002F) |\n| [tencent_api_en](models\u002Ftencent_api_en\u002F) | Cloud | Tencent | | [link](https:\u002F\u002Fcloud.tencent.com\u002Fproduct\u002Fasr) |\n| coqui_model_en | Local \u003Cbr> | [coqui](https:\u002F\u002Fcoqui.ai\u002F) | | [link](https:\u002F\u002Fcoqui.ai\u002Fmodels)|\n| deepspeech_model_en | Local \u003Cbr> | [deepspeech](https:\u002F\u002Fgithub.com\u002Fmozilla\u002FDeepSpeech) | | [link](https:\u002F\u002Fgithub.com\u002Fmozilla\u002FDeepSpeech\u002Freleases\u002Ftag\u002Fv0.9.3)\n| k2_gigaspeech | Local \u003Cbr> | [k2-fsa](https:\u002F\u002Fgithub.com\u002Fk2-fsa) | | [link](https:\u002F\u002Fhuggingface.co\u002Fwgb14\u002Ficefall-asr-gigaspeech-pruned-transducer-stateless2) |\n| nemo_conformer_ctc_large_en | Local \u003Cbr> | [NVidia NeMo](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo) | | [link](https:\u002F\u002Fcatalog.ngc.nvidia.com\u002Forgs\u002Fnvidia\u002Fteams\u002Fnemo\u002Fmodels\u002Fstt_en_conformer_ctc_large)|\n| nemo_conformer_transducer_xlarge_en | Local \u003Cbr> | [NVidia NeMo](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo) | | [link](https:\u002F\u002Fcatalog.ngc.nvidia.com\u002Forgs\u002Fnvidia\u002Fteams\u002Fnemo\u002Fmodels\u002Fstt_en_conformer_transducer_xlarge)|\n| vosk_model_en | Local \u003Cbr> | [alphacephei](https:\u002F\u002Falphacephei.com\u002Fvosk) | | [link](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) |\n| vosk_model_en_large | Local \u003Cbr> | [alphacephei](https:\u002F\u002Falphacephei.com\u002Fvosk) | | [link](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) |\n| whisper_large | Local \u003Cbr> | [OpenAI](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) | | [link](https:\u002F\u002Fopenaipublic.azureedge.net\u002Fmain\u002Fwhisper\u002Fmodels\u002Fe4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a\u002Flarge.pt) |\n| whisper_large_v2 | Local \u003Cbr> | [OpenAI](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) | | [link](https:\u002F\u002Fopenaipublic.azureedge.net\u002Fmain\u002Fwhisper\u002Fmodels\u002F81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524\u002Flarge-v2.pt) |\n| data2vec_audio_large_ft_libri_960h | Local | [Facebook AI](https:\u002F\u002Fhuggingface.co\u002Ffacebook) | | [link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fdata2vec-audio-large-960h) |\n| hubert_xlarge_ft_libri_960h | Local | [Facebook AI](https:\u002F\u002Fhuggingface.co\u002Ffacebook) | | [link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fhubert-xlarge-ls960-ft) |\n| wav2vec2_large_robust_ft_libri_960h | Local | [Facebook AI](https:\u002F\u002Fhuggingface.co\u002Ffacebook) | | [link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-large-robust-ft-libri-960h) |\n| wavlm_base_plus_ft_libri_clean_100h | Local | [Microsoft](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft) \u003Cbr> [patrickvonplaten](https:\u002F\u002Fhuggingface.co\u002Fpatrickvonplaten) | | [link](https:\u002F\u002Fhuggingface.co\u002Fpatrickvonplaten\u002Fwavlm-libri-clean-100h-base-plus) |\n\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n\u003Cdetails>\u003Csummary> ZH Models \u003C\u002Fsummary>\u003Cp>\n\nCloud Models\n\n| 编号 \u003Cbr> MODEL_ID                                     | 类型 \u003Cbr> TYPE | 厂商 \u003Cbr> PROVIDER | 简介 \u003Cbr> DESCRIPTION | 链接 \u003Cbr> URL |\n|------------------------------------------------------| --- | --- | --- | --- |\n| [aispeech_api_zh](models\u002Faispeech_api_zh\u002F)           | Cloud | 思必驰 \u003Cbr> AISpeech | 思必驰开放平台 | [link](https:\u002F\u002Fcloud.aispeech.com) |\n| [aliyun_api_zh](models\u002Faliyun_api_zh\u002F)               | Cloud | 阿里巴巴 \u003Cbr> Alibaba | 阿里云 - 一句话识别 | [link](https:\u002F\u002Fai.aliyun.com\u002Fnls\u002Fasr) |\n| [aliyun_ftasr_api_zh](models\u002Faliyun_ftasr_api_zh\u002F)   | Cloud | 阿里巴巴 \u003Cbr> Alibaba | 阿里云 - 文件识别(非流式) | [link](https:\u002F\u002Fai.aliyun.com\u002Fnls\u002Fasr) |\n| [baidu_pro_api_zh](models\u002Fbaidu_pro_api_zh\u002F)         | Cloud | 百度 \u003Cbr> Baidu | 百度智能云 \u003Cbr> (极速版) | [link](https:\u002F\u002Fcloud.baidu.com\u002Fproduct\u002Fspeech\u002Fasr) |\n| [bilibili_api_zh](models\u002Fbilibili_api_zh\u002F)           | Cloud | 哔哩哔哩 \u003Cbr> bilibili | 哔哩哔哩AI开放平台 | not available yet |\n| [ximalaya_api_zh](models\u002Fximalaya_api_zh\u002F)           | Cloud | 喜马拉雅 \u003Cbr> ximalaya | 喜马拉雅AI开放平台 \u003Cbr> (转写,非流式) | [link](https:\u002F\u002Feverest-ai.ximalaya.com) |\n| [iflytek_lfasr_api_zh](models\u002Fiflytek_lfasr_api_zh\u002F) | Cloud | 讯飞 \u003Cbr> IFlyTek | 讯飞开放平台 \u003Cbr> (转写,非流式) | [link](https:\u002F\u002Fwww.xfyun.cn\u002Fservices\u002Flfasr) |\n| [microsoft_sdk_zh](models\u002Fmicrosoft_sdk_zh\u002F)         | Cloud | 微软 \u003Cbr> Microsoft | Azure \u003Cbr> (流式) | [link](https:\u002F\u002Fazure.microsoft.com\u002Fzh-cn\u002Fservices\u002Fcognitive-services\u002Fspeech-services\u002F) |\n| [microsoft_batch_zh](models\u002Fmicrosoft_batch_zh\u002F)     | Cloud | 微软 \u003Cbr> Microsoft | Azure \u003Cbr> (离线转写) | [link](https:\u002F\u002Flearn.microsoft.com\u002Fzh-cn\u002Fazure\u002Fai-services\u002Fspeech-service\u002Fbatch-transcription\u002F) |\n| [tencent_api_zh](models\u002Ftencent_api_zh\u002F)             | Cloud | 腾讯 \u003Cbr> Tencent | 腾讯云 | [link](https:\u002F\u002Fcloud.tencent.com\u002Fproduct\u002Fasr) |\n| [yitu_api_zh](models\u002Fyitu_api_zh\u002F)                   | Cloud | 依图 \u003Cbr> YituTech |依图语音开放平台 | [link](https:\u002F\u002Fspeech.yitutech.com) |\n\nLocal Models\n\n| 编号 \u003Cbr> MODEL_ID | 类型 \u003Cbr> TYPE | 作者 \u003Cbr> AUTHOR | 简介 \u003Cbr> DESCRIPTION |\n| --- | --- | --- | --- |\n| speechio_kaldi_multicn | Local | Xingyu NA(那兴宇) | Kaldi multi_cn [recipe](https:\u002F\u002Fgithub.com\u002Fkaldi-asr\u002Fkaldi\u002Ftree\u002Fmaster\u002Fegs\u002Fmulti_cn\u002Fs5) |\n| vosk_model_cn | Local | [alphacephei](https:\u002F\u002Falphacephei.com\u002Fvosk) | Chinese engine of [Vosk](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) |\n| paraformer_large_offline_zh | Local | [modelscope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fdamo\u002Fspeech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary) | Paraformer, default Chinese 16k model, offline, support long-form audio recognition |\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n![Download Model](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_e492b3aa2c65.png)\n\n### To submit a model\nFollow this [specification](HOW_TO_SUBMIT.md). Existing models are good references as well.\n\n---\n\n## 4. Benchmarking Pipeline\n![Benchmark](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_61e8b90c00c4.png)\n\n---\n\n## 5. Latest Results\n\n### Public Models\n#### **Unlocked** SpeechIO test sets (ZH00001 ~ ZH00026)\n| Rank 排名 | Model 模型 | CER 字错误率 | Date 时间 |\n| ---  | --- | --- | --- |\n| 1 | ximalaya_api_zh | 1.72% | 2025.01 |\n| 2 | aliyun_ftasr_api_zh | 1.80% | 2025.01 |\n| 3 | microsoft_batch_zh | 1.95% | 2025.01 |\n| 4 | iflytek_lfasr_api_zh | 3.01% | 2025.01 |\n| 5 | tencent_api_zh | 3.20% | 2025.01 |\n| 6 | aispeech_api_zh | 3.61% | 2025.01 |\n| 7 | baidu_pro_api_zh | 7.30% | 2025.01 |\n\n#### **Locked** SpeechIO test sets (ZH00027 ~ ZH00046)\n| Rank 排名 | Model 模型 | CER 字错误率 | Date 时间 |\n| --- | --- | --- | --- |\n| 1 | microsoft_batch_zh | 5.26% | 2025.01 |\n| 2 | ximalaya_api_zh | 6.89% | 2025.01 |\n| 3 | aliyun_ftasr_api_zh | 6.92% | 2025.01 |\n| 4 | tencent_api_zh | 7.81% | 2025.01 |\n| 5 | iflytek_lfasr_api_zh | 8.70% | 2025.01 |\n| 6 | aispeech_api_zh | 10.42% | 2025.01 |\n| 7 | baidu_pro_api_zh | 16.23% | 2025.01 |\n\n#### **All** SpeechIO test sets (ZH00001 ~ ZH00046)\n| Rank 排名 | Model 模型 | CER 字错误率 | Date 时间 |\n| --- | --- |----------| --- |\n| 1 | microsoft_batch_zh | 2.99% | 2025.01 |\n| 2 | ximalaya_api_zh | 3.35% | 2025.01 |\n| 3 | aliyun_ftasr_api_zh | 3.40% | 2025.01 |\n| 4 | tencent_api_zh | 4.64% | 2025.01 |\n| 5 | iflytek_lfasr_api_zh | 4.80% | 2025.01 |\n| 6 | aispeech_api_zh | 5.75% | 2025.01 |\n| 7 | baidu_pro_api_zh | 10.10% | 2025.01 |\n\n\n### Private Models\n#### **Unlocked** SpeechIO test sets (ZH00001 ~ ZH00026)\n| Model 模型 | CER 字错误率 | Date 时间 |\n| --- |-------|---------|\n| bilibili_api_zh(*) | 2.49% | 2025.01 |\n\n#### **Locked** SpeechIO test sets (ZH00027 ~ ZH00046)\n| Model 模型 | CER 字错误率 | Date 时间 |\n| --- |-------|---------|\n| bilibili_api_zh(*) | 5.56% | 2025.01 |\n\n#### **All** SpeechIO test sets (ZH00001 ~ ZH00046)\n| Model 模型 | CER 字错误率 | Date 时间 |\n| --- | --- |---------|\n| bilibili_api_zh(*) | 3.45% | 2025.01 |\n\n\u003Cdetails>\u003Csummary> Detail all results (字错误率 CER %) \u003C\u002Fsummary>\u003Cp>\n\n| Test Set ID | 测试场景&内容领域 | bilibili_api_zh | Date 时间 |\n| --- | --- | --- | --- |\n| SPEECHIO_ASR_ZH00001 | 新闻联播 | 0.53 | 2025.01 |\n| SPEECHIO_ASR_ZH00002 | 访谈 | 2.83 | 2025.01 |\n| SPEECHIO_ASR_ZH00003 | 电视节目 | 0.97 | 2025.01 |\n| SPEECHIO_ASR_ZH00004 | 场馆演讲 | 1.59 | 2025.01 |\n| SPEECHIO_ASR_ZH00005 | 在线教育 | 1.45 | 2025.01 |\n| SPEECHIO_ASR_ZH00006 | 直播 | 5.76 | 2025.01 |\n| SPEECHIO_ASR_ZH00007 | 直播 | 6.40 | 2025.01 |\n| SPEECHIO_ASR_ZH00008 | 线下培训 | 3.69 | 2025.01 |\n| SPEECHIO_ASR_ZH00009 | 播客 | 3.18 | 2025.01 |\n| SPEECHIO_ASR_ZH00010 | 播客 | 3.48 | 2025.01 |\n| SPEECHIO_ASR_ZH00011 | 在线教育 | 1.78 | 2025.01 |\n| SPEECHIO_ASR_ZH00012 | 在线教育 | 2.13 | 2025.01 |\n| SPEECHIO_ASR_ZH00013 | 短视频 | 3.03 | 2025.01 |\n| SPEECHIO_ASR_ZH00014 | 短视频 | 3.47 | 2025.01 |\n| SPEECHIO_ASR_ZH00015 | 评书 | 4.83 | 2025.01 |\n| SPEECHIO_ASR_ZH00016 | 相声 | 3.04 | 2025.01 |\n| SPEECHIO_ASR_ZH00017 | 脱口秀 | 2.82 | 2025.01 |\n| SPEECHIO_ASR_ZH00018 | 少儿卡通 | 1.96 | 2025.01 |\n| SPEECHIO_ASR_ZH00019 | 体育赛事解说 | 2.29 | 2025.01 |\n| SPEECHIO_ASR_ZH00020 | 纪录片 | 1.55 | 2025.01 |\n| SPEECHIO_ASR_ZH00021 | 短视频 | 1.69 | 2025.01 |\n| SPEECHIO_ASR_ZH00022 | 短视频 | 3.47 | 2025.01 |\n| SPEECHIO_ASR_ZH00023 | 短视频 | 2.14 | 2025.01 |\n| SPEECHIO_ASR_ZH00024 | 短视频 | 4.70 | 2025.01 |\n| SPEECHIO_ASR_ZH00025 | 线下课堂 | 3.14 | 2025.01 |\n| SPEECHIO_ASR_ZH00026 | 广播电台节目 | 3.63 | 2025.01 |\n| SPEECHIO_ASR_ZH00027 | 华语大学生辩论赛 | 2.03 | 2025.01 |\n| SPEECHIO_ASR_ZH00028 | 同声传译：时政&社会公共治理 | 2.04 | 2025.01 |\n| SPEECHIO_ASR_ZH00029 | 港台口音：港台明星访谈 | 3.87 | 2025.01 |\n| SPEECHIO_ASR_ZH00030 | 老外口音：《世界青年说》 | 3.86 | 2025.01 |\n| SPEECHIO_ASR_ZH00031 | 直播带货 | 3.74 | 2025.01 |\n| SPEECHIO_ASR_ZH00032 | 音乐 | 3.86 | 2025.01 |\n| SPEECHIO_ASR_ZH00033 | 芯片 | 2.45 | 2025.01 |\n| SPEECHIO_ASR_ZH00034 | 网络IT | 5.10 | 2025.01 |\n| SPEECHIO_ASR_ZH00035 | 新氧医美 | 1.13 | 2025.01 |\n| SPEECHIO_ASR_ZH00036 | 交通广播 | 6.01 | 2025.01 |\n| SPEECHIO_ASR_ZH00037 | 在线会议聊天 | 3.02 | 2025.01 |\n| SPEECHIO_ASR_ZH00038 | 电影：疯狂石头+疯狂赛车（方言杂烩） | 18.36 | 2025.01 |\n| SPEECHIO_ASR_ZH00039 | 电影：1942（河南话） | 13.92 | 2025.01 |\n| SPEECHIO_ASR_ZH00040 | 电影：白鹿原（陕西话） | 25.80 | 2025.01 |\n| SPEECHIO_ASR_ZH00041 | 电影：让子弹飞（四川话） | 11.37 | 2025.01 |\n| SPEECHIO_ASR_ZH00042 | 电影：人生大事（武汉话） | 18.24 | 2025.01 |\n| SPEECHIO_ASR_ZH00043 | 听障 | 23.34 | 2025.01 |\n| SPEECHIO_ASR_ZH00044 | 诗词 | 1.64 | 2025.01 |\n| SPEECHIO_ASR_ZH00045 | 文言文 | 4.22 | 2025.01 |\n| SPEECHIO_ASR_ZH00046 | 歌词 | 9.60 | 2025.01 |\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n_note: models with `(*)` marker can be found in model zoo, but not universally available to public yet._\n\n\n---\n\n## Contacts\nEmail: leaderboard@speechio.ai\n","# SpeechColab ASR排行榜\n\n![result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_9f8db666cea0.png)\n![result](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_ff8438e18ee3.png)\n\n## 1. 概述\n\n> “如果你无法衡量它，你就无法改进它。”——彼得·德鲁克\n\nSpeechIO排行榜作为一个ASR基准测试平台，提供三大组成部分：\n\n1. **测试集库**：涵盖广泛语音识别任务与场景的测试集集合\n\n2. **模型库**：包括商业API和开源模型在内的模型集合\n\n3. **基准测试流水线**：一套简单且规范化的流程，负责数据准备、识别、后处理及错误率评估。\n\n_**人们应当能够轻松地对彼此的ASR系统进行基准测试、复现和分析**_\n\n![Overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_36b902af550e.png)\n\n---\n\n## 2. 测试集库: `datasets\u002F*`\n\n\u003Cdetails>\u003Csummary> 学术测试集（英、中）  \u003C\u002Fsummary>\u003Cp>\n\n| 已公开 \u003Cbr> UNLOCKED | 编号 \u003Cbr> DATASET_ID | 说明 \u003Cbr> DESCRIPTION | 语言 \u003Cbr> LANGUAGE |\n| --- | --- | --- | --- |\n| &check; | AISHELL1_TEST | AISHELL-1的测试集 | zh |\n| &check; | AISHELL2_IOS_TEST | AISHELL-2的iOS渠道测试集 | zh |\n| &check; | AISHELL2_ANDROID_TEST | AISHELL-2的Android渠道测试集 | zh |\n| &check; | AISHELL2_MIC_TEST | AISHELL-2的麦克风渠道测试集 | zh |\n| &check; | ALIMEETING_EVAL_NEAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | ALIMEETING_TEST_NEAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | ALIMEETING_EVAL_FAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | ALIMEETING_TEST_FAR_FIELD | [AliMeeting](https:\u002F\u002Fwww.openslr.org\u002F119\u002F) | zh |\n| &check; | LIBRISPEECH_TEST_CLEAN | [LibriSpeech](https:\u002F\u002Fwww.openslr.org\u002F12)的“test_clean”集合 | en |\n| &check; | LIBRISPEECH_TEST_OTHER | [LibriSpeech](https:\u002F\u002Fwww.openslr.org\u002F12)的“test_other”集合 | en |\n| &check; | TEDLIUM_RELEASE3_LEGACY_DEV | TEDLium3发布版3中的旧版开发集 [TEDLium3](https:\u002F\u002Fwww.openslr.org\u002F51\u002F) | en |\n| &check; | TEDLIUM_RELEASE3_LEGACY_TEST | TEDLium3发布版3中的旧版测试集 [TEDLium3](https:\u002F\u002Fwww.openslr.org\u002F51\u002F) | en |\n| &check; | GIGASPEECH_V1.0.0_DEV | [GigaSpeech](https:\u002F\u002Fgithub.com\u002FSpeechColab\u002FGigaSpeech)的开发集 | en |\n| &check; | GIGASPEECH_V1.0.0_TEST | [GigaSpeech](https:\u002F\u002Fgithub.com\u002FSpeechColab\u002FGigaSpeech)的测试集 | en |\n| &check; | VOXPOPULI_V1.0_EN_DEV | [VoxPopuli](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvoxpopuli)的开发集 | en |\n| &check; | VOXPOPULI_V1.0_EN_TEST | [VoxPopuli](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvoxpopuli)的测试集 | en |\n| &check; | VOXPOPULI_V1.0_EN_ACCENTED_TEST | [VoxPopuli](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fvoxpopuli)的带有口音的测试集 | en |\n| &check; | COMMON_VOICE_V11.0_DEV | [Common Voice](https:\u002F\u002Fcommonvoice.mozilla.org\u002Fen\u002Fdatasets)的开发集 | en |\n| &check; | COMMON_VOICE_V11.0_TEST | [Common Voice](https:\u002F\u002Fcommonvoice.mozilla.org\u002Fen\u002Fdatasets)的测试集 | en |\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n\u003Cdetails>\u003Csummary> SpeechIO测试集（中文） \u003C\u002Fsummary>\u003Cp>\n\n```\nSpeechIO测试集由SpeechIO团队精心整理，从公开资源（如YouTube、电视节目、播客等）中收集而来，覆盖多种知名场景和主题，并由专业标注人员进行转录。\n```\n\n| 已公开 \u003Cbr> UNLOCKED | 编号 \u003Cbr> DATASET_ID | 名称 \u003Cbr> NAME | 场景 \u003Cbr> SCENARIO | 内容领域 \u003Cbr> TOPIC | 有效时长 \u003Cbr> DURATION (HOURS) | 难度(1-5) \u003Cbr> DIFFICULTY  |\n| --- | --- | --- | --- | --- | --- | --- |\n| &check; |SPEECHIO_ASR_ZH00000| 调试集 \u003Cbr> for debugging | 视频会议、论坛演讲 \u003Cbr> conference & speech | 经济、货币、金融 \u003Cbr> economy, currency, finance | 1.0 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00001| 新闻联播 | 新闻播报 \u003Cbr> TV News | 时政 \u003Cbr> news & politics | 9 | ★ |\n| &check; |SPEECHIO_ASR_ZH00002| 鲁豫有约 | 访谈电视节目 \u003Cbr> TV interview | 名人工作\u002F生活 \u003Cbr> celebrity & film & music & daily | 3 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00003| 天下足球 | 专题电视节目 \u003Cbr> TV program | 足球 \u003Cbr> Sports & Football & Worldcup | 2.7 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00004| 罗振宇跨年演讲 | 会场演讲 \u003Cbr> Stadium Public Speech | 社会、人文、商业 \u003Cbr> Society & Culture & Business Trend | 2.7 | ★★ |\n| &check; |SPEECHIO_ASR_ZH00005| 李永乐讲堂 | 在线教育 \u003Cbr> Online Education | 科普 \u003Cbr> Popular Science | 4.4 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00006| 王者荣耀 \u003Cbr> 张大仙 & 骚白 | 直播 \u003Cbr> Live Broadcasting | 游戏 \u003Cbr> Game | 1.6 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00007| 直播带货 \u003Cbr> 李佳琪 & 薇娅 | 直播 \u003Cbr> Live Broadcasting | 电商、美妆 \u003Cbr> Makeup & Online shopping\u002Fadvertising | 0.9 | ★★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00008| 老罗语录 | 线下培训 \u003Cbr> Offline lecture | 段子、做人 \u003Cbr> Life & Purpose & Ethics | 1.3 | ★★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00009| 故事FM | 播客 \u003Cbr> Podcast | 人生故事、见闻 \u003Cbr> Ordinary Life Story Telling | 4.5 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00010| 创业内幕 | 播客 \u003Cbr> Podcast | 创业、产品、投资 \u003Cbr> Startup & Enterprenuer & Product & Investment | 4.2 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00011| 罗翔刑法法考 | 在线教育 \u003Cbr> Online Education | 法律 法考 \u003Cbr> Law & Lawyer Qualification Exams | 3.4 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00012| 张雪峰考研 | 在线教育 \u003Cbr> Online Education | 考研 高校报考 \u003Cbr> University & Graduate School Entrance Exams | 3.4 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00013| 谷阿莫 \u003Cbr> 牛叔说电影 | 短视频 \u003Cbr> VLog | 电影剪辑 \u003Cbr> Movie Cuts | 1.8 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00014| 贫穷料理 \u003Cbr> 琼斯爱生活 | 短视频 \u003Cbr> VLog | 美食、烹饪 \u003Cbr> Food & Cooking & Gourmet | 1 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00015| 单田芳 白眉大侠 | 评书 \u003Cbr> Traditional Podcast | 江湖、武侠 \u003Cbr> Kongfu Fiction | 2.2 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00016| 德云社演出 | 剧场相声 \u003Cbr> Theater Crosstalk Show | 包袱段子 \u003Cbr> Funny Stories | 1 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00017| 吐槽大会 | 脱口秀电视节目 \u003Cbr> Standup Comedy | 明星糗事 \u003Cbr> Celebrity Jokes | 1.8 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00018| 小猪佩奇 \u003Cbr> 熊出没 | 少儿动画 \u003Cbr> Children Cartoon | 童话故事、日常 \u003Cbr> Fairy Tale | 0.9 | ★☆ |\n| &check; |SPEECHIO_ASR_ZH00019| CCTV5 NBA 转播 | 体育赛事解说 \u003Cbr> Sports Game Live | 篮球、NBA \u003Cbr> NBA Game | 0.7 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00020| 篮球人物 | 纪录片 \u003Cbr> Documentary | 篮球明星、成长 \u003Cbr> NBA Super Stars' Life & History | 2.2 | ★★ |\n| &check; |SPEECHIO_ASR_ZH00021| 汽车之家评测 | 短视频 \u003Cbr> VLog | 汽车测评 \u003Cbr> Car benchmarks, Road driving test | 1.7 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00022| 小艾大叔 豪宅带看 | 短视频 \u003Cbr> VLog | 房地产、豪宅 \u003Cbr> Realestate, Mansion tour | 1.7 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00023| 无聊开箱 \u003Cbr> Zealer评测 | 短视频 \u003Cbr> VLog | 产品开箱评测 \u003Cbr> Unboxing | 2 | ★★★ |\n| &check; |SPEECHIO_ASR_ZH00024| 付老师种植技术 | 短视频 \u003Cbr> VLog | 农业、种植 \u003Cbr> Agriculture, Planting | 2.7 | ★★★☆ |\n| &check; |SPEECHIO_ASR_ZH00025| 石国鹏讲历史 | 线下培训 \u003Cbr> Offline lecture | 历史，古希腊哲学 \u003Cbr> History, Greek philosophy | 1.3 | ★★☆ |\n| &check; |SPEECHIO_ASR_ZH00026| 张震鬼故事 | 广播节目 \u003Cbr> Broadcasting Program | 鬼故事 \u003Cbr> Horror Stories | 2.4 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00027| 华语辩论世界杯 | 辩论赛 \u003Cbr> Debates Contest | 兴趣、技能、成长 \u003Cbr> Hobby, Skill, Growth | 1.4 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00028| 时政现场同传 | 同声传译 \u003Cbr> Simultaneous Translation | 时政、社会公共治理 \u003Cbr> News & Events on Public Governance | 2.1 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00029| 港台明星访谈 \u003Cbr> 周杰伦,曾志伟 \u003Cbr> 张家辉,陈小春 \u003Cbr> 周星驰 | 口音(港台) \u003Cbr> HongKong\u002FTaiwan Accents | 娱乐、生活、演艺 \u003Cbr> Entertainment, Acting, Musics | 1.5 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00030| 世界青年说 | 口音(老外) \u003Cbr> Foreigner Accents | 异国文化比较 \u003Cbr> Cultural Difference | 2 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00031| 东方甄选 | 直播 \u003Cbr> broadcast | 带货，英语教学 \u003Cbr> Online advertising & English Education | 2.4 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00032| 郎朗钢琴课 | 长视频 \u003Cbr> long-form video | 音乐乐理，钢琴 \u003Cbr> Music & piano | 1.7 | ★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00033| 老石谈芯 | 短视频 \u003Cbr> VLog | 芯片 \u003Cbr> chips | 2.8 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00034| 电丸科技AK | 短视频 \u003Cbr> VLog | 网络 IT \u003Cbr> Internet tech, IT | 1.4 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00035| 新氧医美 | 短视频 \u003Cbr> VLog | 医疗美容 \u003Cbr> Medical Cosmetology | 1.4 | ★★ |\n| &cross; |SPEECHIO_ASR_ZH00036| 交通广播 | 交通广播 \u003Cbr> traffic radio | 路况，娱乐 \u003Cbr> Traffics | 1.2 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00037| 老俞闲聊 | 在线会议 \u003Cbr> Online meeting | 闲聊 \u003Cbr> chat | 2.4 | ★★★ |\n| &cross; |SPEECHIO_ASR_ZH00038| 电影：疯狂石头+疯狂赛车 | 电影 \u003Cbr> Film | 重庆话、山东青岛、四川成都话、河北唐山话、粤语、天津话、河南话、陕西话、闽南话、武汉话等 \u003Cbr> multiple accents | 1.3 | ★★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00039| 电影：1942 | 电影 \u003Cbr> Film | 河南话 \u003Cbr> HeNan Accent | 0.9 | ★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00040| 电影：白鹿原 | 电影 \u003Cbr> Film | 陕西话 \u003Cbr> ShaanXi Accent | 1.1 | ★★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00041| 电影：让子弹飞 | 电影 \u003Cbr> Film | 四川话 \u003Cbr> SiChuan Accent | 1.1 | ★★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00042| 电影：人生大事 | 电影 \u003Cbr> Film | 武汉话 \u003Cbr> WuHan Accent | 0.8 | ★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00043| 听障 | 听障语音识别 \u003Cbr> Hearing Imperiment Speaker | 新闻脚本 \u003Cbr> News Prompts | 0.6 | ★★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00044| 唐诗宋词 | 诗词朗诵 \u003Cbr> Poems Reading | 唐诗宋词 \u003Cbr> Chinese Poems | 1.1 | ★★★☆ |\n| &cross; |SPEECHIO_ASR_ZH00045| 文言文 | 文言文朗诵 \u003Cbr> Classical Chinese Reading | 论语，老子，诗经，孙子兵法 | 0.5 | ★★★★★ |\n| &cross; |SPEECHIO_ASR_ZH00046| 音乐歌词识别 | 演唱 \u003Cbr> Singing | 歌词 \u003Cbr> Lyrics | 1.2 | ★★★★☆ |\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n![Download Dataset](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_320c9d0d73ea.png)\n\n---\n\n## 3. 模型动物园：`models\u002F*`\n\n\u003Cdetails>\u003Csummary> 英文模型 \u003C\u002Fsummary>\u003Cp>\n\n| 编号 \u003Cbr> MODEL_ID | 类型 \u003Cbr> TYPE | 厂商\u002F作者 \u003Cbr> PROVIDER\u002FAUTHOR | 简介 \u003Cbr> DESCRIPTION | 链接 \u003Cbr> URL |\n| --- | --- | --- | --- | --- |\n| [aliyun_api_en](models\u002Faliyun_api_en\u002F) | 云 | 阿里巴巴 | | [link](https:\u002F\u002Fwww.alibabacloud.com\u002Fproduct\u002Fintelligent-speech-interaction) |\n| [amazon_api_en](models\u002Famazon_api_en\u002F) | 云 | 亚马逊 AWS | | [link](https:\u002F\u002Faws.amazon.com\u002Fcn\u002Ftranscribe\u002F) |\n| [baidu_api_en](models\u002Fbaidu_api_en\u002F) | 云 | 百度 | | [link](https:\u002F\u002Fcloud.baidu.com\u002Fproduct\u002Fspeech\u002Fasr) |\n| [google_api_en](models\u002Fgoogle_api_en\u002F) | 云 | Google | | [link](https:\u002F\u002Fcloud.google.com\u002Fspeech-to-text) |\n| [google_USM_en](models\u002Fgoogle_USM_en\u002F) | 云 | Google | | [request access](https:\u002F\u002Fsites.research.google\u002Fusm\u002F) |\n| [microsoft_sdk_en](models\u002Fmicrosoft_sdk_en\u002F) | 云 | Microsoft Azure | | [link](https:\u002F\u002Fazure.microsoft.com\u002Fen-us\u002Fservices\u002Fcognitive-services\u002Fspeech-to-text\u002F) |\n| [tencent_api_en](models\u002Ftencent_api_en\u002F) | 云 | 腾讯 | | [link](https:\u002F\u002Fcloud.tencent.com\u002Fproduct\u002Fasr) |\n| coqui_model_en | 本地 \u003Cbr> | [coqui](https:\u002F\u002Fcoqui.ai\u002F) | | [link](https:\u002F\u002Fcoqui.ai\u002Fmodels)|\n| deepspeech_model_en | 本地 \u003Cbr> | [deepspeech](https:\u002F\u002Fgithub.com\u002Fmozilla\u002FDeepSpeech) | | [link](https:\u002F\u002Fgithub.com\u002Fmozilla\u002FDeepSpeech\u002Freleases\u002Ftag\u002Fv0.9.3)\n| k2_gigaspeech | 本地 \u003Cbr> | [k2-fsa](https:\u002F\u002Fgithub.com\u002Fk2-fsa) | | [link](https:\u002F\u002Fhuggingface.co\u002Fwgb14\u002Ficefall-asr-gigaspeech-pruned-transducer-stateless2) |\n| nemo_conformer_ctc_large_en | 本地 \u003Cbr> | [NVidia NeMo](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo) | | [link](https:\u002F\u002Fcatalog.ngc.nvidia.com\u002Forgs\u002Fnvidia\u002Fteams\u002Fnemo\u002Fmodels\u002Fstt_en_conformer_ctc_large)|\n| nemo_conformer_transducer_xlarge_en | 本地 \u003Cbr> | [NVidia NeMo](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo) | | [link](https:\u002F\u002Fcatalog.ngc.nvidia.com\u002Forgs\u002Fnvidia\u002Fteams\u002Fnemo\u002Fmodels\u002Fstt_en_conformer_transducer_xlarge)|\n| vosk_model_en | 本地 \u003Cbr> | [alphacephei](https:\u002F\u002Falphacephei.com\u002Fvosk) | | [link](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) |\n| vosk_model_en_large | 本地 \u003Cbr> | [alphacephei](https:\u002F\u002Falphacephei.com\u002Fvosk) | | [link](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) |\n| whisper_large | 本地 \u003Cbr> | [OpenAI](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) | | [link](https:\u002F\u002Fopenaipublic.azureedge.net\u002Fmain\u002Fwhisper\u002Fmodels\u002Fe4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a\u002Flarge.pt) |\n| whisper_large_v2 | 本地 \u003Cbr> | [OpenAI](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) | | [link](https:\u002F\u002Fopenaipublic.azureedge.net\u002Fmain\u002Fwhisper\u002Fmodels\u002F81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524\u002Flarge-v2.pt) |\n| data2vec_audio_large_ft_libri_960h | 本地 | [Facebook AI](https:\u002F\u002Fhuggingface.co\u002Ffacebook) | | [link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fdata2vec-audio-large-960h) |\n| hubert_xlarge_ft_libri_960h | 本地 | [Facebook AI](https:\u002F\u002Fhuggingface.co\u002Ffacebook) | | [link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fhubert-xlarge-ls960-ft) |\n| wav2vec2_large_robust_ft_libri_960h | 本地 | [Facebook AI](https:\u002F\u002Fhuggingface.co\u002Ffacebook) | | [link](https:\u002F\u002Fhuggingface.co\u002Ffacebook\u002Fwav2vec2-large-robust-ft-libri-960h) |\n| wavlm_base_plus_ft_libri_clean_100h | 本地 | [Microsoft](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft) \u003Cbr> [patrickvonplaten](https:\u002F\u002Fhuggingface.co\u002Fpatrickvonplaten) | | [link](https:\u002F\u002Fhuggingface.co\u002Fpatrickvonplaten\u002Fwavlm-libri-clean-100h-base-plus) |\n\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n\u003Cdetails>\u003Csummary> 中文模型 \u003C\u002Fsummary>\u003Cp>\n\n云模型\n\n| 编号 \u003Cbr> MODEL_ID                                     | 类型 \u003Cbr> TYPE | 厂商 \u003Cbr> PROVIDER | 简介 \u003Cbr> DESCRIPTION | 链接 \u003Cbr> URL |\n|------------------------------------------------------| --- | --- | --- | --- |\n| [aispeech_api_zh](models\u002Faispeech_api_zh\u002F)           | Cloud | 思必驰 \u003Cbr> AISpeech | 思必驰开放平台 | [link](https:\u002F\u002Fcloud.aispeech.com) |\n| [aliyun_api_zh](models\u002Faliyun_api_zh\u002F)               | Cloud | 阿里巴巴 \u003Cbr> Alibaba | 阿里云 - 一句话识别 | [link](https:\u002F\u002Fai.aliyun.com\u002Fnls\u002Fasr) |\n| [aliyun_ftasr_api_zh](models\u002Faliyun_ftasr_api_zh\u002F)   | Cloud | 阿里巴巴 \u003Cbr> Alibaba | 阿里云 - 文件识别(非流式) | [link](https:\u002F\u002Fai.aliyun.com\u002Fnls\u002Fasr) |\n| [baidu_pro_api_zh](models\u002Fbaidu_pro_api_zh\u002F)         | Cloud | 百度 \u003Cbr> Baidu | 百度智能云 \u003Cbr> (极速版) | [link](https:\u002F\u002Fcloud.baidu.com\u002Fproduct\u002Fspeech\u002Fasr) |\n| [bilibili_api_zh](models\u002Fbilibili_api_zh\u002F)           | Cloud | 哔哩哔哩 \u003Cbr> bilibili | 哔哩哔哩AI开放平台 | not available yet |\n| [ximalaya_api_zh](models\u002Fximalaya_api_zh\u002F)           | Cloud | 喜马拉雅 \u003Cbr> ximalaya | 喜马拉雅AI开放平台 \u003Cbr> (转写,非流式) | [link](https:\u002F\u002Feverest-ai.ximalaya.com) |\n| [iflytek_lfasr_api_zh](models\u002Fiflytek_lfasr_api_zh\u002F) | Cloud | 讯飞 \u003Cbr> IFlyTek | 讯飞开放平台 \u003Cbr> (转写,非流式) | [link](https:\u002F\u002Fwww.xfyun.cn\u002Fservices\u002Flfasr) |\n| [microsoft_sdk_zh](models\u002Fmicrosoft_sdk_zh\u002F)         | Cloud | 微软 \u003Cbr> Microsoft | Azure \u003Cbr> (流式) | [link](https:\u002F\u002Fazure.microsoft.com\u002Fzh-cn\u002Fservices\u002Fcognitive-services\u002Fspeech-services\u002F) |\n| [microsoft_batch_zh](models\u002Fmicrosoft_batch_zh\u002F)     | Cloud | 微软 \u003Cbr> Microsoft | Azure \u003Cbr> (离线转写) | [link](https:\u002F\u002Flearn.microsoft.com\u002Fzh-cn\u002Fazure\u002Fai-services\u002Fspeech-service\u002Fbatch-transcription\u002F) |\n| [tencent_api_zh](models\u002Ftencent_api_zh\u002F)             | Cloud | 腾讯 \u003Cbr> Tencent | 腾讯云 | [link](https:\u002F\u002Fcloud.tencent.com\u002Fproduct\u002Fasr) |\n| [yitu_api_zh](models\u002Fyitu_api_zh\u002F)                   | Cloud | 依图 \u003Cbr> YituTech |依图语音开放平台 | [link](https:\u002F\u002Fspeech.yitutech.com) |\n\n本地模型\n\n| 编号 \u003Cbr> MODEL_ID | 类型 \u003Cbr> TYPE | 作者 \u003Cbr> AUTHOR | 简介 \u003Cbr> DESCRIPTION |\n| --- | --- | --- | --- |\n| speechio_kaldi_multicn | Local | Xingyu NA(那兴宇) | Kaldi multi_cn [recipe](https:\u002F\u002Fgithub.com\u002Fkaldi-asr\u002Fkaldi\u002Ftree\u002Fmaster\u002Fegs\u002Fmulti_cn\u002Fs5) |\n| vosk_model_cn | Local | [alphacephei](https:\u002F\u002Falphacephei.com\u002Fvosk) | Chinese engine of [Vosk](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) |\n| paraformer_large_offline_zh | Local | [modelscope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fdamo\u002Fspeech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch\u002Fsummary) | Paraformer, default Chinese 16k model, offline, support long-form audio recognition |\n\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n![下载模型](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_e492b3aa2c65.png)\n\n### 提交模型\n请遵循此 [规范](HOW_TO_SUBMIT.md)。现有模型也可作为参考。\n\n---\n\n## 4. 基准测试流程\n![基准测试](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_readme_61e8b90c00c4.png)\n\n---\n\n## 5. 最新结果\n\n### 公开模型\n#### **已解锁** SpeechIO 测试集（ZH00001 ~ ZH00026）\n| 排名 | 模型 | CER 字错误率 | 日期 |\n| --- | --- | --- | --- |\n| 1 | ximalaya_api_zh | 1.72% | 2025.01 |\n| 2 | aliyun_ftasr_api_zh | 1.80% | 2025.01 |\n| 3 | microsoft_batch_zh | 1.95% | 2025.01 |\n| 4 | iflytek_lfasr_api_zh | 3.01% | 2025.01 |\n| 5 | tencent_api_zh | 3.20% | 2025.01 |\n| 6 | aispeech_api_zh | 3.61% | 2025.01 |\n| 7 | baidu_pro_api_zh | 7.30% | 2025.01 |\n\n#### **已锁定** SpeechIO 测试集（ZH00027 ~ ZH00046）\n| 排名 | 模型 | CER 字错误率 | 日期 |\n| --- | --- | --- | --- |\n| 1 | microsoft_batch_zh | 5.26% | 2025.01 |\n| 2 | ximalaya_api_zh | 6.89% | 2025.01 |\n| 3 | aliyun_ftasr_api_zh | 6.92% | 2025.01 |\n| 4 | tencent_api_zh | 7.81% | 2025.01 |\n| 5 | iflytek_lfasr_api_zh | 8.70% | 2025.01 |\n| 6 | aispeech_api_zh | 10.42% | 2025.01 |\n| 7 | baidu_pro_api_zh | 16.23% | 2025.01 |\n\n#### **全部** SpeechIO 测试集（ZH00001 ~ ZH00046）\n| 排名 | 模型 | CER 字错误率 | 日期 |\n| --- | --- |----------| --- |\n| 1 | microsoft_batch_zh | 2.99% | 2025.01 |\n| 2 | ximalaya_api_zh | 3.35% | 2025.01 |\n| 3 | aliyun_ftasr_api_zh | 3.40% | 2025.01 |\n| 4 | tencent_api_zh | 4.64% | 2025.01 |\n| 5 | iflytek_lfasr_api_zh | 4.80% | 2025.01 |\n| 6 | aispeech_api_zh | 5.75% | 2025.01 |\n| 7 | baidu_pro_api_zh | 10.10% | 2025.01 |\n\n\n### 私有模型\n#### **已解锁** SpeechIO 测试集（ZH00001 ~ ZH00026）\n| 模型 | CER 字错误率 | 日期 |\n| --- |-------|---------|\n| bilibili_api_zh(*) | 2.49% | 2025.01 |\n\n#### **已锁定** SpeechIO 测试集（ZH00027 ~ ZH00046）\n| 模型 | CER 字错误率 | 日期 |\n| --- |-------|---------|\n| bilibili_api_zh(*) | 5.56% | 2025.01 |\n\n#### **全部** SpeechIO 测试集（ZH00001 ~ ZH00046）\n| 模型 | CER 字错误率 | 日期 |\n| --- | --- |---------|\n| bilibili_api_zh(*) | 3.45% | 2025.01 |\n\n\u003Cdetails>\u003Csummary> 查看所有结果（字错误率 CER %） \u003C\u002Fsummary>\u003Cp>\n\n| 测试集编号 | 测试场景及内容领域 | bilibili_api_zh | 日期 |\n| --- | --- | --- | --- |\n| SPEECHIO_ASR_ZH00001 | 新闻联播 | 0.53 | 2025.01 |\n| SPEECHIO_ASR_ZH00002 | 访谈 | 2.83 | 2025.01 |\n| SPEECHIO_ASR_ZH00003 | 电视节目 | 0.97 | 2025.01 |\n| SPEECHIO_ASR_ZH00004 | 场馆演讲 | 1.59 | 2025.01 |\n| SPEECHIO_ASR_ZH00005 | 在线教育 | 1.45 | 2025.01 |\n| SPEECHIO_ASR_ZH00006 | 直播 | 5.76 | 2025.01 |\n| SPEECHIO_ASR_ZH00007 | 直播 | 6.40 | 2025.01 |\n| SPEECHIO_ASR_ZH00008 | 线下培训 | 3.69 | 2025.01 |\n| SPEECHIO_ASR_ZH00009 | 播客 | 3.18 | 2025.01 |\n| SPEECHIO_ASR_ZH00010 | 播客 | 3.48 | 2025.01 |\n| SPEECHIO_ASR_ZH00011 | 在线教育 | 1.78 | 2025.01 |\n| SPEECHIO_ASR_ZH00012 | 在线教育 | 2.13 | 2025.01 |\n| SPEECHIO_ASR_ZH00013 | 短视频 | 3.03 | 2025.01 |\n| SPEECHIO_ASR_ZH00014 | 短视频 | 3.47 | 2025.01 |\n| SPEECHIO_ASR_ZH00015 | 评书 | 4.83 | 2025.01 |\n| SPEECHIO_ASR_ZH00016 | 相声 | 3.04 | 2025.01 |\n| SPEECHIO_ASR_ZH00017 | 脱口秀 | 2.82 | 2025.01 |\n| SPEECHIO_ASR_ZH00018 | 少儿卡通 | 1.96 | 2025.01 |\n| SPEECHIO_ASR_ZH00019 | 体育赛事解说 | 2.29 | 2025.01 |\n| SPEECHIO_ASR_ZH00020 | 纪录片 | 1.55 | 2025.01 |\n| SPEECHIO_ASR_ZH00021 | 短视频 | 1.69 | 2025.01 |\n| SPEECHIO_ASR_ZH00022 | 短视频 | 3.47 | 2025.01 |\n| SPEECHIO_ASR_ZH00023 | 短视频 | 2.14 | 2025.01 |\n| SPEECHIO_ASR_ZH00024 | 短视频 | 4.70 | 2025.01 |\n| SPEECHIO_ASR_ZH00025 | 线下课堂 | 3.14 | 2025.01 |\n| SPEECHIO_ASR_ZH00026 | 广播电台节目 | 3.63 | 2025.01 |\n| SPEECHIO_ASR_ZH00027 | 华语大学生辩论赛 | 2.03 | 2025.01 |\n| SPEECHIO_ASR_ZH00028 | 同声传译：时政与社会公共治理 | 2.04 | 2025.01 |\n| SPEECHIO_ASR_ZH00029 | 港台口音：港台明星访谈 | 3.87 | 2025.01 |\n| SPEECHIO_ASR_ZH00030 | 外国人口音：《世界青年说》 | 3.86 | 2025.01 |\n| SPEECHIO_ASR_ZH00031 | 直播带货 | 3.74 | 2025.01 |\n| SPEECHIO_ASR_ZH00032 | 音乐 | 3.86 | 2025.01 |\n| SPEECHIO_ASR_ZH00033 | 芯片 | 2.45 | 2025.01 |\n| SPEECHIO_ASR_ZH00034 | 网络IT | 5.10 | 2025.01 |\n| SPEECHIO_ASR_ZH00035 | 新氧医美 | 1.13 | 2025.01 |\n| SPEECHIO_ASR_ZH00036 | 交通广播 | 6.01 | 2025.01 |\n| SPEECHIO_ASR_ZH00037 | 在线会议聊天 | 3.02 | 2025.01 |\n| SPEECHIO_ASR_ZH00038 | 电影：《疯狂石头》+《疯狂赛车》（方言杂烩） | 18.36 | 2025.01 |\n| SPEECHIO_ASR_ZH00039 | 电影：《1942》（河南话） | 13.92 | 2025.01 |\n| SPEECHIO_ASR_ZH00040 | 电影：《白鹿原》（陕西话） | 25.80 | 2025.01 |\n| SPEECHIO_ASR_ZH00041 | 电影：《让子弹飞》（四川话） | 11.37 | 2025.01 |\n| SPEECHIO_ASR_ZH00042 | 电影：《人生大事》（武汉话） | 18.24 | 2025.01 |\n| SPEECHIO_ASR_ZH00043 | 听障人士 | 23.34 | 2025.01 |\n| SPEECHIO_ASR_ZH00044 | 诗词 | 1.64 | 2025.01 |\n| SPEECHIO_ASR_ZH00045 | 文言文 | 4.22 | 2025.01 |\n| SPEECHIO_ASR_ZH00046 | 歌词 | 9.60 | 2025.01 |\n\u003C\u002Fp>\u003C\u002Fdetails>\n\n_注：带有 `(*)` 标记的模型可在模型库中找到，但目前尚未向公众开放。_\n\n\n---\n\n## 联系方式\n邮箱：leaderboard@speechio.ai","# SpeechColab ASR Leaderboard 快速上手指南\n\nSpeechColab ASR Leaderboard 是一个专业的自动语音识别（ASR）基准测试平台，旨在帮助用户轻松评估、复现和对比各类商业 API 及开源模型的性能。它提供了丰富的测试集（TestSet Zoo）、多样的模型库（Model Zoo）以及标准化的评测流水线。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：推荐 Linux (Ubuntu 18.04\u002F20.04+) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python 版本**：Python 3.8 或更高版本。\n*   **硬件要求**：\n    *   运行本地模型（如 Whisper, NeMo 等）强烈建议配备 NVIDIA GPU 并安装对应的 CUDA 驱动。\n    *   若仅调用云端 API 或运行小型模型，CPU 环境亦可。\n*   **前置依赖**：\n    *   `git`：用于克隆代码库。\n    *   `ffmpeg`：用于音频处理。\n    *   `sox` (可选)：部分数据集预处理可能需要。\n\n**安装系统依赖示例 (Ubuntu):**\n```bash\nsudo apt-get update\nsudo apt-get install -y git ffmpeg sox libsndfile1\n```\n\n## 2. 安装步骤\n\n### 2.1 克隆项目\n首先从 GitHub 克隆仓库到本地：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FSpeechColab\u002FLeaderboard.git\ncd Leaderboard\n```\n\n### 2.2 创建虚拟环境并安装依赖\n推荐使用 `conda` 或 `venv` 创建独立的 Python 环境。\n\n**使用 Conda (推荐):**\n```bash\nconda create -n asr_leaderboard python=3.9\nconda activate asr_leaderboard\n```\n\n**安装 Python 依赖:**\n```bash\npip install -r requirements.txt\n```\n> **提示**：国内开发者如遇下载速度慢，可指定清华源加速安装：\n> ```bash\n> pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 2.3 配置模型与数据集\n项目采用模块化结构，模型和数据集分别位于 `models\u002F` 和 `datasets\u002F` 目录。\n\n*   **数据集准备**：\n    学术数据集（如 LibriSpeech, AISHELL-1）通常需要根据 `datasets\u002F*` 下的脚本自行下载。部分 SpeechIO 专属数据集可能需要联系作者或遵循特定解锁流程（见 README 中的表格状态，&check; 为已公开，&cross; 为未公开）。\n    \n    示例：下载并准备 AISHELL-1 测试集（具体命令请参考 `datasets\u002FAISHELL1_TEST\u002FREADME.md` 或对应脚本）。\n\n*   **模型准备**：\n    *   **云端 API**：需在 `models\u002F\u003Cprovider>_api_\u003Clang>\u002F` 目录下配置相应的 API Key（通常通过环境变量或配置文件）。\n    *   **本地模型**：首次运行时，大部分脚本会自动从 HuggingFace 或官方源下载模型权重。国内用户建议配置 HuggingFace 镜像以加速下载：\n    ```bash\n    export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n    ```\n\n## 3. 基本使用\n\n本工具的核心是通过统一的流水线对指定模型在指定数据集上进行评测。\n\n### 3.1 运行基准测试\n假设您想使用开源的 `whisper_large` 模型在 `AISHELL1_TEST` 数据集上进行中文语音识别评测。\n\n进入项目根目录，执行以下命令（具体入口脚本名称请以实际仓库结构为准，通常为 `run.sh` 或 `python eval.py`）：\n\n```bash\n# 示例命令格式，具体参数请参考项目 scripts 目录\npython tools\u002Fevaluate.py \\\n    --model_id whisper_large \\\n    --dataset_id AISHELL1_TEST \\\n    --output_dir results\u002Fwhisper_aishell1\n```\n\n*   `--model_id`: 对应 `models\u002F` 目录下的模型标识符（例如 `whisper_large`, `aliyun_api_zh` 等）。\n*   `--dataset_id`: 对应 `datasets\u002F` 目录下的数据集标识符（例如 `AISHELL1_TEST`, `SPEECHIO_ASR_ZH00001` 等）。\n*   `--output_dir`: 评测结果（包含识别文本、错误率统计等）的保存路径。\n\n### 3.2 查看结果\n运行完成后，您可以在指定的输出目录中找到详细的评测报告，通常包含：\n*   **CER\u002FWER**：字符错误率 \u002F 词错误率。\n*   **RTF**：实时率（推理速度）。\n*   **详细日志**：每条音频的识别结果与参考文本对比。\n\n您可以直接对比不同模型在同一数据集下的输出文件，或使用项目提供的可视化工具生成排行榜图表。\n\n### 3.3 添加自定义模型\n若要测试自己的模型，只需在 `models\u002F` 目录下新建一个文件夹，按照现有模型的接口规范实现数据加载、推理和后处理脚本，即可无缝接入评测流水线。","某语音技术团队正在为一款面向中文市场的智能会议助手筛选最优的自动语音识别（ASR）模型，需确保其在新闻播报、多人访谈及嘈杂会场等多种真实场景下均表现稳定。\n\n### 没有 Leaderboard 时\n- **测试数据零散且单一**：团队只能依赖公开的 LibriSpeech 或 AISHELL-1 等学术数据集，缺乏涵盖“新闻联播”、“鲁豫有约”等真实复杂场景的高质量中文测试集，导致模型在实地部署时效果骤降。\n- **评估标准不统一**：不同成员使用各自的脚本进行数据预处理和错误率计算，结果无法复现，难以公平对比开源模型与商业 API 的真实性能差异。\n- **选型效率低下**：手动搭建评测流程耗时数周，且难以覆盖从近场麦克风到远场会议录音的全方位声学环境，极易遗漏关键性能短板。\n\n### 使用 Leaderboard 后\n- **场景覆盖全面**：直接调用 TestSet Zoo 中精心标注的中文专属数据集（如 SPEECHIO_ASR_ZH00001 新闻播报、SPEECHIO_ASR_ZH00004 跨年演讲），精准模拟产品实际遇到的各类高难度语音场景。\n- **评测流程标准化**：利用内置的 Benchmarking Pipeline 一键完成数据准备、识别推理及误差评估，确保所有模型在完全一致的条件下“同台竞技”，结果客观可复现。\n- **决策快速精准**：通过 Model Zoo 快速对比各模型在特定难度（如★至★★★★★）下的表现，仅需数小时即可锁定最适合会议场景的模型方案，大幅缩短研发周期。\n\nLeaderboard 通过提供标准化的全场景测试集与评测流水线，让团队从繁琐的数据清洗中解放出来，真正实现了“可度量即可优化”的高效模型选型。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpeechColab_Leaderboard_9f8db666.png","SpeechColab",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSpeechColab_d81df245.png","https:\u002F\u002Fgithub.com\u002FSpeechColab",[81,85,89],{"name":82,"color":83,"percentage":84},"Python","#3572A5",94.1,{"name":86,"color":87,"percentage":88},"Shell","#89e051",3.8,{"name":90,"color":91,"percentage":10},"Dockerfile","#384d54",542,71,"2026-03-24T04:45:53",4,"","未说明",{"notes":99,"python":97,"dependencies":100},"README 主要介绍了评测平台的概念、测试集（TestSet Zoo）和模型库（Model Zoo）的列表，未包含具体的安装指南、运行环境配置或依赖库版本信息。该工具是一个基准测试框架，实际运行环境需求取决于用户选择的具体模型（如 Whisper、NeMo、DeepSpeech 等），需参考各模型各自的文档。",[],[18,21],[103,104,105,106,107],"asr","speech-recognition","speech","benchmark","benchmarking","2026-03-27T02:49:30.150509","2026-04-06T06:46:01.641211",[],[]]