Leaderboard

542 71 较难 1 次阅读 1周前其他音频

AI 解读由 AI 自动生成，仅供参考

Leaderboard 是一个专为自动语音识别（ASR）技术打造的大型、稳健且全面的基准测试平台。它致力于解决当前语音识别领域缺乏统一评估标准、不同模型难以公平对比以及实验结果难以复现的痛点，让“无法度量就无法改进”的理念真正落地。

该平台通过三大核心组件构建起完整的评估生态：首先是"TestSet Zoo"，汇集了涵盖中英文多种场景的学术数据集及精心标注的真实场景测试集（如新闻、会议、体育等），确保测试数据的广泛性与代表性；其次是"Model Zoo"，支持接入商业 API 与开源模型进行横向对比；最后是标准化的“基准测试流水线”，自动化处理数据准备、识别、后处理及错误率评估全流程。

Leaderboard 特别适合语音算法研究人员、AI 开发者以及需要评估语音技术性能的企业团队使用。其独特的技术亮点在于提供了从数据采集到指标评估的一站式闭环服务，不仅包含高质量的付费人工标注测试集以模拟真实复杂环境，还定义了清晰的评测规范，让用户能够轻松地对各类 ASR 系统进行基准测试、复现结果并深入分析优劣，从而推动语音识别技术的持续迭代与优化。

使用场景

某语音技术团队正在为一款面向中文市场的智能会议助手筛选最优的自动语音识别（ASR）模型，需确保其在新闻播报、多人访谈及嘈杂会场等多种真实场景下均表现稳定。

没有 Leaderboard 时

测试数据零散且单一：团队只能依赖公开的 LibriSpeech 或 AISHELL-1 等学术数据集，缺乏涵盖“新闻联播”、“鲁豫有约”等真实复杂场景的高质量中文测试集，导致模型在实地部署时效果骤降。
评估标准不统一：不同成员使用各自的脚本进行数据预处理和错误率计算，结果无法复现，难以公平对比开源模型与商业 API 的真实性能差异。
选型效率低下：手动搭建评测流程耗时数周，且难以覆盖从近场麦克风到远场会议录音的全方位声学环境，极易遗漏关键性能短板。

使用 Leaderboard 后

场景覆盖全面：直接调用 TestSet Zoo 中精心标注的中文专属数据集（如 SPEECHIO_ASR_ZH00001 新闻播报、SPEECHIO_ASR_ZH00004 跨年演讲），精准模拟产品实际遇到的各类高难度语音场景。
评测流程标准化：利用内置的 Benchmarking Pipeline 一键完成数据准备、识别推理及误差评估，确保所有模型在完全一致的条件下“同台竞技”，结果客观可复现。
决策快速精准：通过 Model Zoo 快速对比各模型在特定难度（如★至★★★★★）下的表现，仅需数小时即可锁定最适合会议场景的模型方案，大幅缩短研发周期。

Leaderboard 通过提供标准化的全场景测试集与评测流水线，让团队从繁琐的数据清洗中解放出来，真正实现了“可度量即可优化”的高效模型选型。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesREADME 主要介绍了评测平台的概念、测试集（TestSet Zoo）和模型库（Model Zoo）的列表，未包含具体的安装指南、运行环境配置或依赖库版本信息。该工具是一个基准测试框架，实际运行环境需求取决于用户选择的具体模型（如 Whisper、NeMo、DeepSpeech 等），需参考各模型各自的文档。

python未说明

快速开始

SpeechColab ASR排行榜

result result

1. 概述

“如果你无法衡量它，你就无法改进它。”——彼得·德鲁克

SpeechIO排行榜作为一个ASR基准测试平台，提供三大组成部分：

测试集库：涵盖广泛语音识别任务与场景的测试集集合
模型库：包括商业API和开源模型在内的模型集合
基准测试流水线：一套简单且规范化的流程，负责数据准备、识别、后处理及错误率评估。

人们应当能够轻松地对彼此的ASR系统进行基准测试、复现和分析

Overview

2. 测试集库: `datasets/*`

学术测试集（英、中）

已公开 UNLOCKED	编号 DATASET_ID	说明 DESCRIPTION	语言 LANGUAGE
✓	AISHELL1_TEST	AISHELL-1的测试集	zh
✓	AISHELL2_IOS_TEST	AISHELL-2的iOS渠道测试集	zh
✓	AISHELL2_ANDROID_TEST	AISHELL-2的Android渠道测试集	zh
✓	AISHELL2_MIC_TEST	AISHELL-2的麦克风渠道测试集	zh
✓	ALIMEETING_EVAL_NEAR_FIELD	AliMeeting	zh
✓	ALIMEETING_TEST_NEAR_FIELD	AliMeeting	zh
✓	ALIMEETING_EVAL_FAR_FIELD	AliMeeting	zh
✓	ALIMEETING_TEST_FAR_FIELD	AliMeeting	zh
✓	LIBRISPEECH_TEST_CLEAN	LibriSpeech的“test_clean”集合	en
✓	LIBRISPEECH_TEST_OTHER	LibriSpeech的“test_other”集合	en
✓	TEDLIUM_RELEASE3_LEGACY_DEV	TEDLium3发布版3中的旧版开发集 TEDLium3	en
✓	TEDLIUM_RELEASE3_LEGACY_TEST	TEDLium3发布版3中的旧版测试集 TEDLium3	en
✓	GIGASPEECH_V1.0.0_DEV	GigaSpeech的开发集	en
✓	GIGASPEECH_V1.0.0_TEST	GigaSpeech的测试集	en
✓	VOXPOPULI_V1.0_EN_DEV	VoxPopuli的开发集	en
✓	VOXPOPULI_V1.0_EN_TEST	VoxPopuli的测试集	en
✓	VOXPOPULI_V1.0_EN_ACCENTED_TEST	VoxPopuli的带有口音的测试集	en
✓	COMMON_VOICE_V11.0_DEV	Common Voice的开发集	en
✓	COMMON_VOICE_V11.0_TEST	Common Voice的测试集	en

SpeechIO测试集（中文）

SpeechIO测试集由SpeechIO团队精心整理，从公开资源（如YouTube、电视节目、播客等）中收集而来，覆盖多种知名场景和主题，并由专业标注人员进行转录。

已公开 UNLOCKED	编号 DATASET_ID	名称 NAME	场景 SCENARIO	内容领域 TOPIC	有效时长 DURATION (HOURS)	难度(1-5) DIFFICULTY
✓	SPEECHIO_ASR_ZH00000	调试集 for debugging	视频会议、论坛演讲 conference & speech	经济、货币、金融 economy, currency, finance	1.0	★★☆
✓	SPEECHIO_ASR_ZH00001	新闻联播	新闻播报 TV News	时政 news & politics	9	★
✓	SPEECHIO_ASR_ZH00002	鲁豫有约	访谈电视节目 TV interview	名人工作/生活 celebrity & film & music & daily	3	★★☆
✓	SPEECHIO_ASR_ZH00003	天下足球	专题电视节目 TV program	足球 Sports & Football & Worldcup	2.7	★★☆
✓	SPEECHIO_ASR_ZH00004	罗振宇跨年演讲	会场演讲 Stadium Public Speech	社会、人文、商业 Society & Culture & Business Trend	2.7	★★
✓	SPEECHIO_ASR_ZH00005	李永乐讲堂	在线教育 Online Education	科普 Popular Science	4.4	★★★
✓	SPEECHIO_ASR_ZH00006	王者荣耀张大仙 & 骚白	直播 Live Broadcasting	游戏 Game	1.6	★★★☆
✓	SPEECHIO_ASR_ZH00007	直播带货李佳琪 & 薇娅	直播 Live Broadcasting	电商、美妆 Makeup & Online shopping/advertising	0.9	★★★★☆
✓	SPEECHIO_ASR_ZH00008	老罗语录	线下培训 Offline lecture	段子、做人 Life & Purpose & Ethics	1.3	★★★★☆
✓	SPEECHIO_ASR_ZH00009	故事FM	播客 Podcast	人生故事、见闻 Ordinary Life Story Telling	4.5	★★☆
✓	SPEECHIO_ASR_ZH00010	创业内幕	播客 Podcast	创业、产品、投资 Startup & Enterprenuer & Product & Investment	4.2	★★☆
✓	SPEECHIO_ASR_ZH00011	罗翔刑法法考	在线教育 Online Education	法律法考 Law & Lawyer Qualification Exams	3.4	★★☆
✓	SPEECHIO_ASR_ZH00012	张雪峰考研	在线教育 Online Education	考研高校报考 University & Graduate School Entrance Exams	3.4	★★★☆
✓	SPEECHIO_ASR_ZH00013	谷阿莫牛叔说电影	短视频 VLog	电影剪辑 Movie Cuts	1.8	★★★
✓	SPEECHIO_ASR_ZH00014	贫穷料理琼斯爱生活	短视频 VLog	美食、烹饪 Food & Cooking & Gourmet	1	★★★☆
✓	SPEECHIO_ASR_ZH00015	单田芳白眉大侠	评书 Traditional Podcast	江湖、武侠 Kongfu Fiction	2.2	★★☆
✓	SPEECHIO_ASR_ZH00016	德云社演出	剧场相声 Theater Crosstalk Show	包袱段子 Funny Stories	1	★★★
✓	SPEECHIO_ASR_ZH00017	吐槽大会	脱口秀电视节目 Standup Comedy	明星糗事 Celebrity Jokes	1.8	★★☆
✓	SPEECHIO_ASR_ZH00018	小猪佩奇熊出没	少儿动画 Children Cartoon	童话故事、日常 Fairy Tale	0.9	★☆
✓	SPEECHIO_ASR_ZH00019	CCTV5 NBA 转播	体育赛事解说 Sports Game Live	篮球、NBA NBA Game	0.7	★★★
✓	SPEECHIO_ASR_ZH00020	篮球人物	纪录片 Documentary	篮球明星、成长 NBA Super Stars' Life & History	2.2	★★
✓	SPEECHIO_ASR_ZH00021	汽车之家评测	短视频 VLog	汽车测评 Car benchmarks, Road driving test	1.7	★★★☆
✓	SPEECHIO_ASR_ZH00022	小艾大叔豪宅带看	短视频 VLog	房地产、豪宅 Realestate, Mansion tour	1.7	★★★
✓	SPEECHIO_ASR_ZH00023	无聊开箱 Zealer评测	短视频 VLog	产品开箱评测 Unboxing	2	★★★
✓	SPEECHIO_ASR_ZH00024	付老师种植技术	短视频 VLog	农业、种植 Agriculture, Planting	2.7	★★★☆
✓	SPEECHIO_ASR_ZH00025	石国鹏讲历史	线下培训 Offline lecture	历史，古希腊哲学 History, Greek philosophy	1.3	★★☆
✓	SPEECHIO_ASR_ZH00026	张震鬼故事	广播节目 Broadcasting Program	鬼故事 Horror Stories	2.4	★★★
✗	SPEECHIO_ASR_ZH00027	华语辩论世界杯	辩论赛 Debates Contest	兴趣、技能、成长 Hobby, Skill, Growth	1.4	★★★
✗	SPEECHIO_ASR_ZH00028	时政现场同传	同声传译 Simultaneous Translation	时政、社会公共治理 News & Events on Public Governance	2.1	★★★☆
✗	SPEECHIO_ASR_ZH00029	港台明星访谈周杰伦,曾志伟张家辉,陈小春周星驰	口音(港台) HongKong/Taiwan Accents	娱乐、生活、演艺 Entertainment, Acting, Musics	1.5	★★★☆
✗	SPEECHIO_ASR_ZH00030	世界青年说	口音(老外) Foreigner Accents	异国文化比较 Cultural Difference	2	★★★☆
✗	SPEECHIO_ASR_ZH00031	东方甄选	直播 broadcast	带货，英语教学 Online advertising & English Education	2.4	★★★☆
✗	SPEECHIO_ASR_ZH00032	郎朗钢琴课	长视频 long-form video	音乐乐理，钢琴 Music & piano	1.7	★★☆
✗	SPEECHIO_ASR_ZH00033	老石谈芯	短视频 VLog	芯片 chips	2.8	★★★
✗	SPEECHIO_ASR_ZH00034	电丸科技AK	短视频 VLog	网络 IT Internet tech, IT	1.4	★★★☆
✗	SPEECHIO_ASR_ZH00035	新氧医美	短视频 VLog	医疗美容 Medical Cosmetology	1.4	★★
✗	SPEECHIO_ASR_ZH00036	交通广播	交通广播 traffic radio	路况，娱乐 Traffics	1.2	★★★☆
✗	SPEECHIO_ASR_ZH00037	老俞闲聊	在线会议 Online meeting	闲聊 chat	2.4	★★★
✗	SPEECHIO_ASR_ZH00038	电影：疯狂石头+疯狂赛车	电影 Film	重庆话、山东青岛、四川成都话、河北唐山话、粤语、天津话、河南话、陕西话、闽南话、武汉话等 multiple accents	1.3	★★★★☆
✗	SPEECHIO_ASR_ZH00039	电影：1942	电影 Film	河南话 HeNan Accent	0.9	★★★★
✗	SPEECHIO_ASR_ZH00040	电影：白鹿原	电影 Film	陕西话 ShaanXi Accent	1.1	★★★★★
✗	SPEECHIO_ASR_ZH00041	电影：让子弹飞	电影 Film	四川话 SiChuan Accent	1.1	★★★★☆
✗	SPEECHIO_ASR_ZH00042	电影：人生大事	电影 Film	武汉话 WuHan Accent	0.8	★★★★
✗	SPEECHIO_ASR_ZH00043	听障	听障语音识别 Hearing Imperiment Speaker	新闻脚本 News Prompts	0.6	★★★★★
✗	SPEECHIO_ASR_ZH00044	唐诗宋词	诗词朗诵 Poems Reading	唐诗宋词 Chinese Poems	1.1	★★★☆
✗	SPEECHIO_ASR_ZH00045	文言文	文言文朗诵 Classical Chinese Reading	论语，老子，诗经，孙子兵法	0.5	★★★★★
✗	SPEECHIO_ASR_ZH00046	音乐歌词识别	演唱 Singing	歌词 Lyrics	1.2	★★★★☆

Download Dataset

3. 模型动物园：`models/*`

英文模型

编号 MODEL_ID	类型 TYPE	厂商/作者 PROVIDER/AUTHOR	链接 URL
aliyun_api_en	云	阿里巴巴	link
amazon_api_en	云	亚马逊 AWS	link
baidu_api_en	云	百度	link
google_api_en	云	Google	link
google_USM_en	云	Google	request access
microsoft_sdk_en	云	Microsoft Azure	link
tencent_api_en	云	腾讯	link
coqui_model_en	本地	coqui	link
deepspeech_model_en	本地	deepspeech	link
k2_gigaspeech	本地	k2-fsa	link
nemo_conformer_ctc_large_en	本地	NVidia NeMo	link
nemo_conformer_transducer_xlarge_en	本地	NVidia NeMo	link
vosk_model_en	本地	alphacephei	link
vosk_model_en_large	本地	alphacephei	link
whisper_large	本地	OpenAI	link
whisper_large_v2	本地	OpenAI	link
data2vec_audio_large_ft_libri_960h	本地	Facebook AI	link
hubert_xlarge_ft_libri_960h	本地	Facebook AI	link
wav2vec2_large_robust_ft_libri_960h	本地	Facebook AI	link
wavlm_base_plus_ft_libri_clean_100h	本地	Microsoft patrickvonplaten	link

中文模型

云模型

编号 MODEL_ID	类型 TYPE	厂商 PROVIDER	简介 DESCRIPTION	链接 URL
aispeech_api_zh	Cloud	思必驰 AISpeech	思必驰开放平台	link
aliyun_api_zh	Cloud	阿里巴巴 Alibaba	阿里云 - 一句话识别	link
aliyun_ftasr_api_zh	Cloud	阿里巴巴 Alibaba	阿里云 - 文件识别(非流式)	link
baidu_pro_api_zh	Cloud	百度 Baidu	百度智能云 (极速版)	link
bilibili_api_zh	Cloud	哔哩哔哩 bilibili	哔哩哔哩AI开放平台	not available yet
ximalaya_api_zh	Cloud	喜马拉雅 ximalaya	喜马拉雅AI开放平台 (转写,非流式)	link
iflytek_lfasr_api_zh	Cloud	讯飞 IFlyTek	讯飞开放平台 (转写,非流式)	link
microsoft_sdk_zh	Cloud	微软 Microsoft	Azure (流式)	link
microsoft_batch_zh	Cloud	微软 Microsoft	Azure (离线转写)	link
tencent_api_zh	Cloud	腾讯 Tencent	腾讯云	link
yitu_api_zh	Cloud	依图 YituTech	依图语音开放平台	link

本地模型

编号 MODEL_ID	类型 TYPE	作者 AUTHOR	简介 DESCRIPTION
speechio_kaldi_multicn	Local	Xingyu NA(那兴宇)	Kaldi multi_cn recipe
vosk_model_cn	Local	alphacephei	Chinese engine of Vosk
paraformer_large_offline_zh	Local	modelscope	Paraformer, default Chinese 16k model, offline, support long-form audio recognition

下载模型

提交模型

请遵循此规范。现有模型也可作为参考。

4. 基准测试流程

基准测试

5. 最新结果

公开模型

已解锁 SpeechIO 测试集（ZH00001 ~ ZH00026）

排名	模型	CER 字错误率	日期
1	ximalaya_api_zh	1.72%	2025.01
2	aliyun_ftasr_api_zh	1.80%	2025.01
3	microsoft_batch_zh	1.95%	2025.01
4	iflytek_lfasr_api_zh	3.01%	2025.01
5	tencent_api_zh	3.20%	2025.01
6	aispeech_api_zh	3.61%	2025.01
7	baidu_pro_api_zh	7.30%	2025.01

已锁定 SpeechIO 测试集（ZH00027 ~ ZH00046）

排名	模型	CER 字错误率	日期
1	microsoft_batch_zh	5.26%	2025.01
2	ximalaya_api_zh	6.89%	2025.01
3	aliyun_ftasr_api_zh	6.92%	2025.01
4	tencent_api_zh	7.81%	2025.01
5	iflytek_lfasr_api_zh	8.70%	2025.01
6	aispeech_api_zh	10.42%	2025.01
7	baidu_pro_api_zh	16.23%	2025.01

全部 SpeechIO 测试集（ZH00001 ~ ZH00046）

排名	模型	CER 字错误率	日期
1	microsoft_batch_zh	2.99%	2025.01
2	ximalaya_api_zh	3.35%	2025.01
3	aliyun_ftasr_api_zh	3.40%	2025.01
4	tencent_api_zh	4.64%	2025.01
5	iflytek_lfasr_api_zh	4.80%	2025.01
6	aispeech_api_zh	5.75%	2025.01
7	baidu_pro_api_zh	10.10%	2025.01

私有模型

已解锁 SpeechIO 测试集（ZH00001 ~ ZH00026）

模型	CER 字错误率	日期
bilibili_api_zh(*)	2.49%	2025.01

已锁定 SpeechIO 测试集（ZH00027 ~ ZH00046）

模型	CER 字错误率	日期
bilibili_api_zh(*)	5.56%	2025.01

全部 SpeechIO 测试集（ZH00001 ~ ZH00046）

模型	CER 字错误率	日期
bilibili_api_zh(*)	3.45%	2025.01

查看所有结果（字错误率 CER %）

测试集编号	测试场景及内容领域	bilibili_api_zh	日期
SPEECHIO_ASR_ZH00001	新闻联播	0.53	2025.01
SPEECHIO_ASR_ZH00002	访谈	2.83	2025.01
SPEECHIO_ASR_ZH00003	电视节目	0.97	2025.01
SPEECHIO_ASR_ZH00004	场馆演讲	1.59	2025.01
SPEECHIO_ASR_ZH00005	在线教育	1.45	2025.01
SPEECHIO_ASR_ZH00006	直播	5.76	2025.01
SPEECHIO_ASR_ZH00007	直播	6.40	2025.01
SPEECHIO_ASR_ZH00008	线下培训	3.69	2025.01
SPEECHIO_ASR_ZH00009	播客	3.18	2025.01
SPEECHIO_ASR_ZH00010	播客	3.48	2025.01
SPEECHIO_ASR_ZH00011	在线教育	1.78	2025.01
SPEECHIO_ASR_ZH00012	在线教育	2.13	2025.01
SPEECHIO_ASR_ZH00013	短视频	3.03	2025.01
SPEECHIO_ASR_ZH00014	短视频	3.47	2025.01
SPEECHIO_ASR_ZH00015	评书	4.83	2025.01
SPEECHIO_ASR_ZH00016	相声	3.04	2025.01
SPEECHIO_ASR_ZH00017	脱口秀	2.82	2025.01
SPEECHIO_ASR_ZH00018	少儿卡通	1.96	2025.01
SPEECHIO_ASR_ZH00019	体育赛事解说	2.29	2025.01
SPEECHIO_ASR_ZH00020	纪录片	1.55	2025.01
SPEECHIO_ASR_ZH00021	短视频	1.69	2025.01
SPEECHIO_ASR_ZH00022	短视频	3.47	2025.01
SPEECHIO_ASR_ZH00023	短视频	2.14	2025.01
SPEECHIO_ASR_ZH00024	短视频	4.70	2025.01
SPEECHIO_ASR_ZH00025	线下课堂	3.14	2025.01
SPEECHIO_ASR_ZH00026	广播电台节目	3.63	2025.01
SPEECHIO_ASR_ZH00027	华语大学生辩论赛	2.03	2025.01
SPEECHIO_ASR_ZH00028	同声传译：时政与社会公共治理	2.04	2025.01
SPEECHIO_ASR_ZH00029	港台口音：港台明星访谈	3.87	2025.01
SPEECHIO_ASR_ZH00030	外国人口音：《世界青年说》	3.86	2025.01
SPEECHIO_ASR_ZH00031	直播带货	3.74	2025.01
SPEECHIO_ASR_ZH00032	音乐	3.86	2025.01
SPEECHIO_ASR_ZH00033	芯片	2.45	2025.01
SPEECHIO_ASR_ZH00034	网络IT	5.10	2025.01
SPEECHIO_ASR_ZH00035	新氧医美	1.13	2025.01
SPEECHIO_ASR_ZH00036	交通广播	6.01	2025.01
SPEECHIO_ASR_ZH00037	在线会议聊天	3.02	2025.01
SPEECHIO_ASR_ZH00038	电影：《疯狂石头》+《疯狂赛车》（方言杂烩）	18.36	2025.01
SPEECHIO_ASR_ZH00039	电影：《1942》（河南话）	13.92	2025.01
SPEECHIO_ASR_ZH00040	电影：《白鹿原》（陕西话）	25.80	2025.01
SPEECHIO_ASR_ZH00041	电影：《让子弹飞》（四川话）	11.37	2025.01
SPEECHIO_ASR_ZH00042	电影：《人生大事》（武汉话）	18.24	2025.01
SPEECHIO_ASR_ZH00043	听障人士	23.34	2025.01
SPEECHIO_ASR_ZH00044	诗词	1.64	2025.01
SPEECHIO_ASR_ZH00045	文言文	4.22	2025.01
SPEECHIO_ASR_ZH00046	歌词	9.60	2025.01

注：带有 (*) 标记的模型可在模型库中找到，但目前尚未向公众开放。

联系方式

邮箱：leaderboard@speechio.ai

SpeechColab ASR Leaderboard 快速上手指南

SpeechColab ASR Leaderboard 是一个专业的自动语音识别（ASR）基准测试平台，旨在帮助用户轻松评估、复现和对比各类商业 API 及开源模型的性能。它提供了丰富的测试集（TestSet Zoo）、多样的模型库（Model Zoo）以及标准化的评测流水线。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：推荐 Linux (Ubuntu 18.04/20.04+) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本：Python 3.8 或更高版本。
硬件要求：
- 运行本地模型（如 Whisper, NeMo 等）强烈建议配备 NVIDIA GPU 并安装对应的 CUDA 驱动。
- 若仅调用云端 API 或运行小型模型，CPU 环境亦可。
前置依赖：
- git：用于克隆代码库。
- ffmpeg：用于音频处理。
- sox (可选)：部分数据集预处理可能需要。

安装系统依赖示例 (Ubuntu):

sudo apt-get update
sudo apt-get install -y git ffmpeg sox libsndfile1

2. 安装步骤

2.1 克隆项目

首先从 GitHub 克隆仓库到本地：

git clone https://github.com/SpeechColab/Leaderboard.git
cd Leaderboard

2.2 创建虚拟环境并安装依赖

推荐使用 conda 或 venv 创建独立的 Python 环境。

使用 Conda (推荐):

conda create -n asr_leaderboard python=3.9
conda activate asr_leaderboard

安装 Python 依赖:

pip install -r requirements.txt

提示：国内开发者如遇下载速度慢，可指定清华源加速安装：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.3 配置模型与数据集

项目采用模块化结构，模型和数据集分别位于 models/ 和 datasets/ 目录。

数据集准备：学术数据集（如 LibriSpeech, AISHELL-1）通常需要根据 datasets/* 下的脚本自行下载。部分 SpeechIO 专属数据集可能需要联系作者或遵循特定解锁流程（见 README 中的表格状态，✓ 为已公开，✗ 为未公开）。

示例：下载并准备 AISHELL-1 测试集（具体命令请参考 datasets/AISHELL1_TEST/README.md 或对应脚本）。
模型准备：
- 云端 API：需在 models/<provider>_api_<lang>/ 目录下配置相应的 API Key（通常通过环境变量或配置文件）。
- 本地模型：首次运行时，大部分脚本会自动从 HuggingFace 或官方源下载模型权重。国内用户建议配置 HuggingFace 镜像以加速下载：
```
export HF_ENDPOINT=https://hf-mirror.com
```

3. 基本使用

本工具的核心是通过统一的流水线对指定模型在指定数据集上进行评测。

3.1 运行基准测试

假设您想使用开源的 whisper_large 模型在 AISHELL1_TEST 数据集上进行中文语音识别评测。

进入项目根目录，执行以下命令（具体入口脚本名称请以实际仓库结构为准，通常为 run.sh 或 python eval.py）：

# 示例命令格式，具体参数请参考项目 scripts 目录
python tools/evaluate.py \
    --model_id whisper_large \
    --dataset_id AISHELL1_TEST \
    --output_dir results/whisper_aishell1

--model_id: 对应 models/ 目录下的模型标识符（例如 whisper_large, aliyun_api_zh 等）。
--dataset_id: 对应 datasets/ 目录下的数据集标识符（例如 AISHELL1_TEST, SPEECHIO_ASR_ZH00001 等）。
--output_dir: 评测结果（包含识别文本、错误率统计等）的保存路径。

3.2 查看结果

运行完成后，您可以在指定的输出目录中找到详细的评测报告，通常包含：

CER/WER：字符错误率 / 词错误率。
RTF：实时率（推理速度）。
详细日志：每条音频的识别结果与参考文本对比。

您可以直接对比不同模型在同一数据集下的输出文件，或使用项目提供的可视化工具生成排行榜图表。

3.3 添加自定义模型

若要测试自己的模型，只需在 models/ 目录下新建一个文件夹，按照现有模型的接口规范实现数据加载、推理和后处理脚本，即可无缝接入评测流水线。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他

使用场景

没有 Leaderboard 时

使用 Leaderboard 后

运行环境要求

快速开始

SpeechColab ASR排行榜

1. 概述

2. 测试集库: datasets/*

3. 模型动物园：models/*

提交模型

4. 基准测试流程

5. 最新结果

公开模型

已解锁 SpeechIO 测试集（ZH00001 ~ ZH00026）

已锁定 SpeechIO 测试集（ZH00027 ~ ZH00046）

全部 SpeechIO 测试集（ZH00001 ~ ZH00046）

私有模型

已解锁 SpeechIO 测试集（ZH00001 ~ ZH00026）

已锁定 SpeechIO 测试集（ZH00027 ~ ZH00046）

全部 SpeechIO 测试集（ZH00001 ~ ZH00046）

联系方式

SpeechColab ASR Leaderboard 快速上手指南

1. 环境准备

2. 安装步骤

2.1 克隆项目

2.2 创建虚拟环境并安装依赖

2.3 配置模型与数据集

3. 基本使用

3.1 运行基准测试

3.2 查看结果

3.3 添加自定义模型

相似工具推荐

ML-For-Beginners

ragflow

PaddleOCR

awesome-machine-learning

scikit-learn

keras

2. 测试集库: `datasets/*`

3. 模型动物园：`models/*`