silero-vad
Silero VAD 是一款预训练的企业级语音活动检测工具,核心功能是精准识别音频中“有人说话”和“无人说话”的时间段。它有效解决了在嘈杂背景音、静音片段或复杂声学环境中,难以自动剥离无效音频数据的痛点,为后续的语音转文字、会议记录整理或实时通讯应用提供了干净、高效的输入源。
这款工具特别适合开发者、算法研究人员以及需要处理大量音频数据的技术团队使用。无论是构建实时语音交互系统,还是对历史录音进行批量清洗,Silero VAD 都能轻松集成到 Python 项目中。其独特的技术亮点在于卓越的准确率与极高的运行效率:它不仅支持实时流式处理,反应迅速,而且对硬件要求友好,无需昂贵的 GPU 资源,在普通的 CPU 环境下即可流畅运行。此外,项目提供了简洁的 API 接口和详细的示例代码,让用户只需几行代码即可加载模型并获取精确到秒的语音时间戳,大大降低了语音前端处理的开发门槛。
使用场景
某在线教育平台的技术团队需要处理每天产生的数万小时师生互动录音,以便提取有效教学内容并归档。
没有 silero-vad 时
- 存储资源浪费严重:录音文件中包含大量学生思考、翻书或环境噪音的静音片段,导致存储空间被无效数据占据,云存储成本居高不下。
- 后续处理效率低下:语音转文字(ASR)引擎被迫对静音段进行无效计算,不仅增加了 GPU 算力消耗,还显著延长了整体转录等待时间。
- 内容检索困难:由于无法精准定位说话起止时间,教研人员难以快速跳过沉默区间,手动查找关键对话如同“大海捞针”。
- 实时交互体验差:在直播课实时字幕场景中,系统无法及时区分人声与背景噪,导致字幕输出延迟或出现大量无意义的空白帧。
使用 silero-vad 后
- 存储成本大幅降低:silero-vad 能毫秒级精准识别并切除非人声片段,仅保留有效语音,使音频文件体积平均缩减 40%,直接节省存储预算。
- 转录速度与性价比双升:通过预过滤静音段,ASR 引擎只处理含人声部分,算力消耗减少一半以上,万小时录音的处理周期从数天缩短至数小时。
- 智能切片助力高效复盘:利用 silero-vad 输出的精确时间戳,系统自动将长录音切割为独立的问答片段,老师可一键定位并回放特定教学瞬间。
- 实时响应流畅自然:在直播流中,silero-vad 实时判定语音活动,确保字幕仅在有人说话时生成,消除了静默期的画面卡顿与资源空转。
silero-vad 通过企业级的精准语音活动检测,将冗余的音频数据转化为高价值的结构化信息,实现了从“存得下”到“用得好”的本质跨越。
运行环境要求
- Linux
- macOS
- Windows
- 非必需
- 可在单核 CPU 上运行(处理时间<1ms)
- 支持 GPU 加速以提升性能,但未指定具体型号或显存要求
最低 1GB+

快速开始

Silero VAD
Silero VAD - 预训练的企业级语音活动检测器(也可参阅我们的STT模型)。
实时示例
请注意,只有登录您的 GitHub 账户时视频才会加载。
快速入门
依赖项
在 x86-64 系统上运行 Python 示例的系统要求:
python 3.8+;- 1G+ 内存;
- 具有 AVX、AVX2、AVX-512 或 AMX 指令集的现代 CPU。
依赖项:
torch>=1.12.0;torchaudio>=0.12.0(仅用于 I/O);onnxruntime>=1.16.1(用于使用 ONNX 模型)。
Silero VAD 使用 torchaudio 库进行音频 I/O(torchaudio.info、torchaudio.load 和 torchaudio.save),因此需要合适的音频后端:
- 选项 №1 - FFmpeg 后端。
conda install -c conda-forge 'ffmpeg<7'; - 选项 №2 - sox_io 后端。
apt-get install sox,TorchAudio 已在 libsox 14.4.2 上测试过; - 选项 №3 - soundfile 后端。
pip install soundfile。
如果您计划仅使用 onnx-runtime 运行 VAD,则它可以在任何支持 onnx-runtime 的其他系统架构上运行。在这种情况下,请注意:
- 您需要实现 I/O;
- 您需要根据自己的用例调整现有的封装/示例/后处理。
使用 pip:
pip install silero-vad
from silero_vad import load_silero_vad, read_audio, get_speech_timestamps
model = load_silero_vad()
wav = read_audio('path_to_audio_file')
speech_timestamps = get_speech_timestamps(
wav,
model,
return_seconds=True, # 返回以秒为单位的语音时间戳(默认为样本)
)
使用 torch.hub:
import torch
torch.set_num_threads(1)
model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad', model='silero_vad')
(get_speech_timestamps, _, read_audio, _, _) = utils
wav = read_audio('path_to_audio_file')
speech_timestamps = get_speech_timestamps(
wav,
model,
return_seconds=True, # 返回以秒为单位的语音时间戳(默认为样本)
)
主要特性
卓越的准确性
Silero VAD 在语音检测任务上具有优异的表现。
快速
一个音频片段(30+ 毫秒)耗时不到 1 毫秒 即可在单个 CPU 线程上处理完毕。使用批处理或 GPU 也可以显著提高性能。在特定条件下,ONNX 甚至可以快 4-5 倍。
轻量级
JIT 模型大小约为两兆字节。
通用性
Silero VAD 在包含超过 6000 种语言的大规模语料库上进行了训练,并且在来自不同领域、具有各种背景噪声和质量水平的音频上表现良好。
灵活的采样率
高度可移植性
Silero VAD 受益于围绕 PyTorch 和 ONNX 构建的丰富生态系统,在这些运行时环境可用的任何地方都能运行。
无附加条件
Silero VAD 采用宽松的 MIT 许可证发布,没有任何附加条件——没有遥测、没有密钥、没有注册、没有内置到期日期、也没有密钥或供应商锁定。
典型应用场景
- 用于物联网/边缘计算/移动设备的语音活动检测
- 数据清洗与准备,一般语音检测
- 电话及呼叫中心自动化,语音机器人
- 语音交互界面
相关链接
联系我们
试用我们的模型,创建一个issue,发起一个讨论,加入我们的 Telegram 聊天,给我们发送邮件,阅读我们的新闻。
引用
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD:预训练的企业级语音活动检测器 (VAD)、数字检测器和语言分类器},
year = {2024},
publisher = {GitHub},
journal = {GitHub 仓库},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
示例及基于VAD的社区应用
版本历史
v6.2.12026/02/24v6.22025/11/06v6.12025/11/05v6.02025/08/26v5.1.22024/10/09v5.1.12024/10/09v5.12024/07/09v4.02022/10/28v3.12021/12/17v5.02024/06/27v3.02021/12/07v2.0-legacy2021/12/07常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器