[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-snakers4--silero-vad":3,"tool-snakers4--silero-vad":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":76,"owner_website":76,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":32,"env_os":92,"env_gpu":93,"env_ram":94,"env_deps":95,"category_tags":102,"github_topics":104,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":117,"updated_at":118,"faqs":119,"releases":153},8697,"snakers4\u002Fsilero-vad","silero-vad","Silero VAD: pre-trained enterprise-grade Voice Activity Detector","Silero VAD 是一款预训练的企业级语音活动检测工具，核心功能是精准识别音频中“有人说话”和“无人说话”的时间段。它有效解决了在嘈杂背景音、静音片段或复杂声学环境中，难以自动剥离无效音频数据的痛点，为后续的语音转文字、会议记录整理或实时通讯应用提供了干净、高效的输入源。\n\n这款工具特别适合开发者、算法研究人员以及需要处理大量音频数据的技术团队使用。无论是构建实时语音交互系统，还是对历史录音进行批量清洗，Silero VAD 都能轻松集成到 Python 项目中。其独特的技术亮点在于卓越的准确率与极高的运行效率：它不仅支持实时流式处理，反应迅速，而且对硬件要求友好，无需昂贵的 GPU 资源，在普通的 CPU 环境下即可流畅运行。此外，项目提供了简洁的 API 接口和详细的示例代码，让用户只需几行代码即可加载模型并获取精确到秒的语音时间戳，大大降低了语音前端处理的开发门槛。","[![Mailing list : test](http:\u002F\u002Fimg.shields.io\u002Fbadge\u002FEmail-gray.svg?style=for-the-badge&logo=gmail)](mailto:hello@silero.ai) [![Mailing list : test](http:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTelegram-blue.svg?style=for-the-badge&logo=telegram)](https:\u002F\u002Ft.me\u002Fsilero_speech) [![License: CC BY-NC 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-lightgrey.svg?style=for-the-badge)](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fblob\u002Fmaster\u002FLICENSE) [![downloads](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Fsilero-vad?style=for-the-badge)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsilero-vad\u002F) \n\n[![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fsnakers4\u002Fsilero-vad\u002Fblob\u002Fmaster\u002Fsilero-vad.ipynb) [![Test Package](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Factions\u002Fworkflows\u002Ftest.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Factions\u002Fworkflows\u002Ftest.yml) [![Pypi version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fsilero-vad)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsilero-vad\u002F) [![Python version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Fsilero-vad)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsilero-vad)\n\n![header](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsnakers4_silero-vad_readme_322d557c5d07.png)\n\n\u003Cbr\u002F>\n\u003Ch1 align=\"center\">Silero VAD\u003C\u002Fh1>\n\u003Cbr\u002F>\n\n**Silero VAD** - pre-trained enterprise-grade [Voice Activity Detector](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FVoice_activity_detection) (also see our [STT models](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models)).\n\n\u003Cbr\u002F>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsnakers4_silero-vad_readme_d9dba649144a.png\" \u002F>\n\u003C\u002Fp>\n\n\n\u003Cdetails>\n\u003Csummary>Real Time Example\u003C\u002Fsummary>\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F36505480\u002F144874384-95f80f6d-a4f1-42cc-9be7-004c891dd481.mp4\n\nPlease note, that video loads only if you are logged in your GitHub account. \n\n\u003C\u002Fdetails>\n\n\u003Cbr\u002F>\n\n\u003Ch2 align=\"center\">Fast start\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n\u003Cdetails>\n\u003Csummary>Dependencies\u003C\u002Fsummary>\n\n  System requirements to run python examples on `x86-64` systems:\n  \n  - `python 3.8+`;\n  - 1G+ RAM;\n  - A modern CPU with AVX, AVX2, AVX-512 or AMX instruction sets.\n\n  Dependencies:\n  \n  - `torch>=1.12.0`;\n  - `torchaudio>=0.12.0` (for I\u002FO only);\n  - `onnxruntime>=1.16.1` (for ONNX model usage).\n  \n  Silero VAD uses torchaudio library for audio I\u002FO (`torchaudio.info`, `torchaudio.load`, and `torchaudio.save`), so a proper audio backend is required:\n  \n  - Option №1 - [**FFmpeg**](https:\u002F\u002Fwww.ffmpeg.org\u002F) backend. `conda install -c conda-forge 'ffmpeg\u003C7'`;\n  - Option №2 - [**sox_io**](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsox\u002F) backend. `apt-get install sox`, TorchAudio is tested on libsox 14.4.2;\n  - Option №3 - [**soundfile**](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsoundfile\u002F) backend. `pip install soundfile`.\n\nIf you are planning to run the VAD using solely the `onnx-runtime`, it will run on any other system architectures where onnx-runtume is [supported](https:\u002F\u002Fonnxruntime.ai\u002Fgetting-started). In this case please note that:\n\n- You will have to implement the I\u002FO;\n- You will have to adapt the existing wrappers \u002F examples \u002F post-processing for your use-case.\n\n\u003C\u002Fdetails>\n\n**Using pip**:\n`pip install silero-vad`\n\n```python3\nfrom silero_vad import load_silero_vad, read_audio, get_speech_timestamps\nmodel = load_silero_vad()\nwav = read_audio('path_to_audio_file')\nspeech_timestamps = get_speech_timestamps(\n  wav,\n  model,\n  return_seconds=True,  # Return speech timestamps in seconds (default is samples)\n)\n```\n\n**Using torch.hub**:\n```python3\nimport torch\ntorch.set_num_threads(1)\n\nmodel, utils = torch.hub.load(repo_or_dir='snakers4\u002Fsilero-vad', model='silero_vad')\n(get_speech_timestamps, _, read_audio, _, _) = utils\n\nwav = read_audio('path_to_audio_file')\nspeech_timestamps = get_speech_timestamps(\n  wav,\n  model,\n  return_seconds=True,  # Return speech timestamps in seconds (default is samples)\n)\n```\n\n\u003Cbr\u002F>\n\n\u003Ch2 align=\"center\">Key Features\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n- **Stellar accuracy**\n\n  Silero VAD has [excellent results](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics#vs-other-available-solutions) on speech detection tasks.\n  \n- **Fast**\n\n  One audio chunk (30+ ms) [takes](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics#silero-vad-performance-metrics) less than **1ms** to be processed on a single CPU thread. Using batching or GPU can also improve performance considerably. Under certain conditions ONNX may even run up to 4-5x faster. \n\n- **Lightweight**\n\n  JIT model is around two megabytes in size.\n\n- **General**\n\n  Silero VAD was trained on huge corpora that include over **6000** languages and it performs well on audios from different domains with various background noise and quality levels.\n\n- **Flexible sampling rate**\n\n  Silero VAD [supports](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics#sample-rate-comparison)  **8000 Hz** and **16000 Hz** [sampling rates](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FSampling_(signal_processing)#Sampling_rate).\n\n- **Highly Portable**\n\n  Silero VAD reaps benefits from the rich ecosystems built around **PyTorch** and **ONNX** running everywhere where these runtimes are available.\n\n- **No Strings Attached**\n\n   Published under permissive license (MIT) Silero VAD has zero strings attached - no telemetry, no keys, no registration, no built-in expiration, no keys or vendor lock.\n\n\u003Cbr\u002F>\n\n\u003Ch2 align=\"center\">Typical Use Cases\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n- Voice activity detection for IOT \u002F edge \u002F mobile use cases\n- Data cleaning and preparation, voice detection in general\n- Telephony and call-center automation, voice bots\n- Voice interfaces\n\n\u003Cbr\u002F>\n\u003Ch2 align=\"center\">Links\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n\n- [Examples and Dependencies](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FExamples-and-Dependencies#dependencies)\n- [Quality Metrics](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics)\n- [Performance Metrics](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics)\n- [Versions and Available Models](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FVersion-history-and-Available-Models)\n- [Further reading](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models#further-reading)\n- [FAQ](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FFAQ)\n\n\u003Cbr\u002F>\n\u003Ch2 align=\"center\">Get In Touch\u003C\u002Fh2>\n\u003Cbr\u002F>\n\nTry our models, create an [issue](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002Fnew), start a [discussion](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fdiscussions\u002Fnew), join our telegram [chat](https:\u002F\u002Ft.me\u002Fsilero_speech), [email](mailto:hello@silero.ai) us, read our [news](https:\u002F\u002Ft.me\u002Fsilero_news).\n\nPlease see our [wiki](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models\u002Fwiki) for relevant information and [email](mailto:hello@silero.ai) us directly.\n\n**Citations**\n\n```\n@misc{Silero VAD,\n  author = {Silero Team},\n  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},\n  year = {2024},\n  publisher = {GitHub},\n  journal = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad}},\n  commit = {insert_some_commit_here},\n  email = {hello@silero.ai}\n}\n```\n\n\u003Cbr\u002F>\n\u003Ch2 align=\"center\">Examples and VAD-based Community Apps\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n- Example of VAD ONNX Runtime model usage in [C++](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fcpp)\n\n- Example of VAD [ExecuTorch](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fexecutorch) model usage in [C++](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fexecutorch\u002Ftree\u002Fmain\u002Fexamples\u002Fmodels\u002Fsilero_vad)\n\n- Voice activity detection for the [browser](https:\u002F\u002Fgithub.com\u002Fricky0123\u002Fvad) using ONNX Runtime Web\n\n- [Rust](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Frust-example), [Rust (wavekat-vad)](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Frust-wav-processing-with-wavekat-vad), [Go](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fgo), [Java](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fjava-example), [C++](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fcpp), [C#](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fcsharp) and [other](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples) community examples\n","[![邮件列表：测试](http:\u002F\u002Fimg.shields.io\u002Fbadge\u002FEmail-gray.svg?style=for-the-badge&logo=gmail)](mailto:hello@silero.ai) [![邮件列表：测试](http:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTelegram-blue.svg?style=for-the-badge&logo=telegram)](https:\u002F\u002Ft.me\u002Fsilero_speech) [![许可证：CC BY-NC 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-lightgrey.svg?style=for-the-badge)](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fblob\u002Fmaster\u002FLICENSE) [![下载量](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fdm\u002Fsilero-vad?style=for-the-badge)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsilero-vad\u002F) \n\n[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fsnakers4\u002Fsilero-vad\u002Fblob\u002Fmaster\u002Fsilero-vad.ipynb) [![测试包](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Factions\u002Fworkflows\u002Ftest.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Factions\u002Fworkflows\u002Ftest.yml) [![PyPI 版本](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fsilero-vad)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsilero-vad\u002F) [![Python 版本](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Fsilero-vad)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsilero-vad)\n\n![header](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsnakers4_silero-vad_readme_322d557c5d07.png)\n\n\u003Cbr\u002F>\n\u003Ch1 align=\"center\">Silero VAD\u003C\u002Fh1>\n\u003Cbr\u002F>\n\n**Silero VAD** - 预训练的企业级[语音活动检测器](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FVoice_activity_detection)（也可参阅我们的[STT模型](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models)）。\n\n\u003Cbr\u002F>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsnakers4_silero-vad_readme_d9dba649144a.png\" \u002F>\n\u003C\u002Fp>\n\n\n\u003Cdetails>\n\u003Csummary>实时示例\u003C\u002Fsummary>\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F36505480\u002F144874384-95f80f6d-a4f1-42cc-9be7-004c891dd481.mp4\n\n请注意，只有登录您的 GitHub 账户时视频才会加载。 \n\n\u003C\u002Fdetails>\n\n\u003Cbr\u002F>\n\n\u003Ch2 align=\"center\">快速入门\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n\u003Cdetails>\n\u003Csummary>依赖项\u003C\u002Fsummary>\n\n在 `x86-64` 系统上运行 Python 示例的系统要求：\n\n- `python 3.8+`;\n- 1G+ 内存；\n- 具有 AVX、AVX2、AVX-512 或 AMX 指令集的现代 CPU。\n\n依赖项：\n\n- `torch>=1.12.0`;\n- `torchaudio>=0.12.0`（仅用于 I\u002FO）；\n- `onnxruntime>=1.16.1`（用于使用 ONNX 模型）。\n\nSilero VAD 使用 torchaudio 库进行音频 I\u002FO（`torchaudio.info`、`torchaudio.load` 和 `torchaudio.save`），因此需要合适的音频后端：\n\n- 选项 №1 - [**FFmpeg**](https:\u002F\u002Fwww.ffmpeg.org\u002F) 后端。`conda install -c conda-forge 'ffmpeg\u003C7'`；\n- 选项 №2 - [**sox_io**](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsox\u002F) 后端。`apt-get install sox`，TorchAudio 已在 libsox 14.4.2 上测试过；\n- 选项 №3 - [**soundfile**](https:\u002F\u002Fpypi.org\u002Fproject\u002Fsoundfile\u002F) 后端。`pip install soundfile`。\n\n如果您计划仅使用 `onnx-runtime` 运行 VAD，则它可以在任何支持 onnx-runtime 的其他系统架构上运行。在这种情况下，请注意：\n\n- 您需要实现 I\u002FO；\n- 您需要根据自己的用例调整现有的封装\u002F示例\u002F后处理。\n\n\u003C\u002Fdetails>\n\n**使用 pip**：\n`pip install silero-vad`\n\n```python3\nfrom silero_vad import load_silero_vad, read_audio, get_speech_timestamps\nmodel = load_silero_vad()\nwav = read_audio('path_to_audio_file')\nspeech_timestamps = get_speech_timestamps(\n  wav,\n  model,\n  return_seconds=True,  # 返回以秒为单位的语音时间戳（默认为样本）\n)\n```\n\n**使用 torch.hub**：\n```python3\nimport torch\ntorch.set_num_threads(1)\n\nmodel, utils = torch.hub.load(repo_or_dir='snakers4\u002Fsilero-vad', model='silero_vad')\n(get_speech_timestamps, _, read_audio, _, _) = utils\n\nwav = read_audio('path_to_audio_file')\nspeech_timestamps = get_speech_timestamps(\n  wav,\n  model,\n  return_seconds=True,  # 返回以秒为单位的语音时间戳（默认为样本）\n)\n```\n\n\u003Cbr\u002F>\n\n\u003Ch2 align=\"center\">主要特性\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n- **卓越的准确性**\n\n  Silero VAD 在语音检测任务上具有[优异的表现](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics#vs-other-available-solutions)。\n\n- **快速**\n\n  一个音频片段（30+ 毫秒）[耗时](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics#silero-vad-performance-metrics)不到 **1 毫秒** 即可在单个 CPU 线程上处理完毕。使用批处理或 GPU 也可以显著提高性能。在特定条件下，ONNX 甚至可以快 4-5 倍。\n\n- **轻量级**\n\n  JIT 模型大小约为两兆字节。\n\n- **通用性**\n\n  Silero VAD 在包含超过 **6000** 种语言的大规模语料库上进行了训练，并且在来自不同领域、具有各种背景噪声和质量水平的音频上表现良好。\n\n- **灵活的采样率**\n\n  Silero VAD [支持](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics#sample-rate-comparison) **8000 Hz** 和 **16000 Hz** 的[采样率](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FSampling_(signal_processing)#Sampling_rate)。\n\n- **高度可移植性**\n\n  Silero VAD 受益于围绕 **PyTorch** 和 **ONNX** 构建的丰富生态系统，在这些运行时环境可用的任何地方都能运行。\n\n- **无附加条件**\n\n  Silero VAD 采用宽松的 MIT 许可证发布，没有任何附加条件——没有遥测、没有密钥、没有注册、没有内置到期日期、也没有密钥或供应商锁定。\n\n\u003Cbr\u002F>\n\n\u003Ch2 align=\"center\">典型应用场景\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n- 用于物联网\u002F边缘计算\u002F移动设备的语音活动检测\n- 数据清洗与准备，一般语音检测\n- 电话及呼叫中心自动化，语音机器人\n- 语音交互界面\n\n\u003Cbr\u002F>\n\u003Ch2 align=\"center\">相关链接\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n\n- [示例与依赖项](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FExamples-and-Dependencies#dependencies)\n- [质量指标](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics)\n- [性能指标](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics)\n- [版本与可用模型](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FVersion-history-and-Available-Models)\n- [拓展阅读](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models#further-reading)\n- [常见问题解答](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FFAQ)\n\n\u003Cbr\u002F>\n\u003Ch2 align=\"center\">联系我们\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n试用我们的模型，创建一个[issue](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002Fnew)，发起一个[讨论](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fdiscussions\u002Fnew)，加入我们的 Telegram [聊天](https:\u002F\u002Ft.me\u002Fsilero_speech)，给我们[发送邮件](mailto:hello@silero.ai)，阅读我们的[新闻](https:\u002F\u002Ft.me\u002Fsilero_news)。\n\n请参阅我们的[wiki](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models\u002Fwiki)以获取相关信息，并直接给我们[发送邮件](mailto:hello@silero.ai)。\n\n**引用**\n\n```\n@misc{Silero VAD,\n  author = {Silero Team},\n  title = {Silero VAD：预训练的企业级语音活动检测器 (VAD)、数字检测器和语言分类器},\n  year = {2024},\n  publisher = {GitHub},\n  journal = {GitHub 仓库},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad}},\n  commit = {insert_some_commit_here},\n  email = {hello@silero.ai}\n}\n```\n\n\u003Cbr\u002F>\n\u003Ch2 align=\"center\">示例及基于VAD的社区应用\u003C\u002Fh2>\n\u003Cbr\u002F>\n\n- 在[C++](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fcpp)中使用VAD ONNX Runtime模型的示例\n\n- 在[C++](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fexecutorch\u002Ftree\u002Fmain\u002Fexamples\u002Fmodels\u002Fsilero_vad)中使用VAD [ExecuTorch](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fexecutorch)模型的示例\n\n- 使用ONNX Runtime Web实现的[浏览器]端语音活动检测([github链接](https:\u002F\u002Fgithub.com\u002Fricky0123\u002Fvad))\n\n- [Rust](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Frust-example)、[Rust (wavekat-vad)](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Frust-wav-processing-with-wavekat-vad)、[Go](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fgo)、[Java](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fjava-example)、[C++](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fcpp)、[C#](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples\u002Fcsharp)以及其他[社区示例](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Ftree\u002Fmaster\u002Fexamples)","# Silero VAD 快速上手指南\n\nSilero VAD 是一款预训练的企业级语音活动检测（Voice Activity Detector）模型，具有高精度、低延迟和轻量级的特点，支持 8000Hz 和 16000Hz 采样率，适用于物联网、呼叫中心自动化及语音接口等场景。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：`x86-64` 架构系统（若仅使用 ONNX Runtime 可支持更多架构）。\n- **Python 版本**：3.8 及以上。\n- **内存**：1GB 以上。\n- **CPU**：支持 AVX、AVX2、AVX-512 或 AMX 指令集的现代处理器。\n\n### 前置依赖\nSilero VAD 依赖 `torch` 和 `torchaudio` 进行音频读写。请确保安装合适的音频后端（任选其一）：\n\n1. **FFmpeg 后端**（推荐）：\n   ```bash\n   conda install -c conda-forge 'ffmpeg\u003C7'\n   ```\n2. **sox_io 后端**：\n   ```bash\n   apt-get install sox\n   ```\n3. **soundfile 后端**：\n   ```bash\n   pip install soundfile\n   ```\n\n> **注意**：核心依赖库版本要求为 `torch>=1.12.0` 和 `torchaudio>=0.12.0`。国内用户建议使用清华源或阿里源加速安装。\n\n## 安装步骤\n\n推荐使用 pip 进行安装：\n\n```bash\npip install silero-vad\n```\n\n若需使用国内镜像加速：\n```bash\npip install silero-vad -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\n以下是最简单的使用示例，演示如何加载模型并获取音频中的语音时间戳。\n\n### 方式一：使用 pip 安装包\n\n```python3\nfrom silero_vad import load_silero_vad, read_audio, get_speech_timestamps\n\n# 加载模型\nmodel = load_silero_vad()\n\n# 读取音频文件\nwav = read_audio('path_to_audio_file')\n\n# 获取语音时间戳 (return_seconds=True 表示返回秒数，默认为采样点数)\nspeech_timestamps = get_speech_timestamps(\n  wav,\n  model,\n  return_seconds=True,\n)\n\nprint(speech_timestamps)\n```\n\n### 方式二：使用 torch.hub 动态加载\n\n无需预先安装 `silero-vad` 包，直接通过 PyTorch Hub 加载：\n\n```python3\nimport torch\ntorch.set_num_threads(1)\n\n# 从 GitHub 仓库加载模型和工具函数\nmodel, utils = torch.hub.load(repo_or_dir='snakers4\u002Fsilero-vad', model='silero_vad')\n(get_speech_timestamps, _, read_audio, _, _) = utils\n\n# 读取音频文件\nwav = read_audio('path_to_audio_file')\n\n# 获取语音时间戳\nspeech_timestamps = get_speech_timestamps(\n  wav,\n  model,\n  return_seconds=True,\n)\n\nprint(speech_timestamps)\n```","某在线教育平台的技术团队需要处理每天产生的数万小时师生互动录音，以便提取有效教学内容并归档。\n\n### 没有 silero-vad 时\n- **存储资源浪费严重**：录音文件中包含大量学生思考、翻书或环境噪音的静音片段，导致存储空间被无效数据占据，云存储成本居高不下。\n- **后续处理效率低下**：语音转文字（ASR）引擎被迫对静音段进行无效计算，不仅增加了 GPU 算力消耗，还显著延长了整体转录等待时间。\n- **内容检索困难**：由于无法精准定位说话起止时间，教研人员难以快速跳过沉默区间，手动查找关键对话如同“大海捞针”。\n- **实时交互体验差**：在直播课实时字幕场景中，系统无法及时区分人声与背景噪，导致字幕输出延迟或出现大量无意义的空白帧。\n\n### 使用 silero-vad 后\n- **存储成本大幅降低**：silero-vad 能毫秒级精准识别并切除非人声片段，仅保留有效语音，使音频文件体积平均缩减 40%，直接节省存储预算。\n- **转录速度与性价比双升**：通过预过滤静音段，ASR 引擎只处理含人声部分，算力消耗减少一半以上，万小时录音的处理周期从数天缩短至数小时。\n- **智能切片助力高效复盘**：利用 silero-vad 输出的精确时间戳，系统自动将长录音切割为独立的问答片段，老师可一键定位并回放特定教学瞬间。\n- **实时响应流畅自然**：在直播流中，silero-vad 实时判定语音活动，确保字幕仅在有人说话时生成，消除了静默期的画面卡顿与资源空转。\n\nsilero-vad 通过企业级的精准语音活动检测，将冗余的音频数据转化为高价值的结构化信息，实现了从“存得下”到“用得好”的本质跨越。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsnakers4_silero-vad_d9dba649.png","snakers4","Alexander Veysov","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsnakers4_2d4de121.png","It is by will alone I set my mind in motion.",null,"aveysov@gmail.com","https:\u002F\u002Fgithub.com\u002Fsnakers4",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",89.1,{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",10.9,8823,764,"2026-04-17T15:20:42","MIT","Linux, macOS, Windows","非必需。可在单核 CPU 上运行（处理时间\u003C1ms）；支持 GPU 加速以提升性能，但未指定具体型号或显存要求。","最低 1GB+",{"notes":96,"python":97,"dependencies":98},"音频后端需额外配置：可选 FFmpeg (conda install -c conda-forge 'ffmpeg\u003C7')、sox_io (apt-get install sox) 或 soundfile (pip install soundfile)。若仅使用 ONNX Runtime，可跨架构运行但需自行实现音频输入输出及后处理逻辑。模型文件极小（JIT 模型约 2MB）。","3.8+",[99,100,101],"torch>=1.12.0","torchaudio>=0.12.0","onnxruntime>=1.16.1",[103,14],"音频",[105,106,107,108,109,110,111,112,113,114,115,116],"voice-detection","voice-recognition","voice-commands","pytorch","onnx","voice-activity-detection","voice-control","onnx-runtime","onnxruntime","speech","speech-processing","vad","2026-03-27T02:49:30.150509","2026-04-18T09:20:45.878162",[120,125,130,135,140,144,149],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},38951,"在 Android 或移动端运行时遇到 'RuntimeError: stft: ATen not compiled with MKL support' 错误怎么办？","请尝试使用最新的模型版本。早期的 3.0 版本包含 `torch.stft`，但后续版本已将其替换为支持移动端的等效实现。当前的 JIT 和 ONNX 模型不再包含 `torch.stft`，因此更新模型即可解决此问题。","https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002F37",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},38952,"为什么 Python 和 C++ 运行 Silero VAD 得到的时间戳结果不一致？","这通常与批处理推理（batch inference）的实现差异有关。模型在处理连续音频块时可能依赖内部缓存状态。虽然文档提到 V3 支持批处理，但在 V5 中使用时需确保输入处理和状态重置逻辑与 Python 端完全一致。建议检查 C++ 端是否正确复用了模型状态或进行了适当的初始化。","https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002F533",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},38953,"如何通过 torch.hub 加载旧版本（如 v4.0）的模型？","可以使用特定的标签版本加载旧模型。例如，加载 v4.0 版本的命令为：`vad, utils = torch.hub.load(repo_or_dir=\"snakers4\u002Fsilero-vad:v4.0\", model=\"silero_vad\", onnx=False)`。如果在新环境中遇到文件缺失错误，请确保网络通畅以便自动下载对应版本的资源文件，或在 Databricks 等特定环境中验证缓存路径权限。","https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002F474",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},38954,"Silero VAD 是否支持针对特定语言（如乌尔都语）进行微调或从头训练？","本仓库主要提供预训练的 VAD 模型。关于微调代码，官方已在 `tuning` 目录中发布相关代码（部分注释可能为俄语，可使用翻译工具辅助）。但请注意，VAD 模型主要用于检测语音存在与否，通常不针对特定语言进行微调；如果是为了 ASR（语音识别）任务需要语言适配，请参考专门的 ASR 仓库。","https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002F414",{"id":141,"question_zh":142,"answer_zh":143,"source_url":129},38955,"官方是否有计划发布量化版（half\u002Fint8）的 JIT 模型以减少体积？","官方曾经提供过量化模型，但由于收到大量反馈表明量化模型在某些平台上无法正常运行，且考虑到当前模型本身已经非常小，维护团队决定不再提供量化版本，以确保跨平台的兼容性和稳定性。",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},38956,"未来的模型更新中是否会取消对 ONNX 格式的支持？","官方曾考虑简化架构并可能放弃 ONNX 模型，因为在导出过程中遇到了难以解决的底层错误（如数据类型 int64 兼容性问题及自定义模块限制）。虽然目前仍提供 ONNX 支持，但未来可能会优先简化模型种类（如统一采样率、合并模型类型），ONNX 的支持情况取决于后续调试进展，目前建议优先使用 PyTorch\u002FJIT 格式以获得最佳兼容性。","https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002F125",{"id":150,"question_zh":151,"answer_zh":152,"source_url":124},38957,"如何在 ARM、Edge 或移动设备上构建和使用 Silero VAD？","官方目前未提供专门的 ARM 或移动端构建指令。社区用户反馈通过将 PyTorch 中的 `mkl` 替换为 `cblas` 可成功构建。建议参考 ONNX Runtime 的 Dockerfile 示例（如基于 Debian\u002FUbuntu\u002FAlpine 的 ARM 构建），并鼓励社区贡献经过测试的 Docker 构建文件，同时注明运行的硬件架构、设备类型及性能表现。",[154,159,164,169,174,179,184,189,194,199,204,209],{"id":155,"version":156,"summary_zh":157,"released_at":158},314889,"v6.2.1","- ONNX Runtime 现在是可选依赖，不再是必需要的。\n\n现在你需要显式地安装 ONNX Runtime：\n`pip install onnxruntime`      # 用于 CPU\n`pip install onnxruntime-gpu`  # 用于 GPU","2026-02-24T08:41:19",{"id":160,"version":161,"summary_zh":162,"released_at":163},314890,"v6.2","- 重新设计了 VAD 训练范式；\n- 整体质量略有提升（未更新指标）；\n- 在 OOD\u002F稀有\u002F奇怪\u002F独特数据上的稳定性更高；\n- 在多种已知边缘场景中实现了显著的质量提升：\n  - 异常嗓音\n  - 儿童嗓音\n  - 卡通配音\n  - 音量较低的语音\n  - 模糊不清的语音\n  - 低质量电话通话\n\n## 变更内容\n\n* 修复 `min_silence_at_max_speech` 的类型注解（从 float 改为 int），由 @Purfview 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F714 中完成\n* Adamnsandle，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F717 中完成\n* Adamnsandle，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F719 中完成\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fcompare\u002Fv6.1...v6.2","2025-11-06T08:38:40",{"id":165,"version":166,"summary_zh":167,"released_at":168},314891,"v6.1","## 变更内容\n* 移除 ipdb，并由 @mpariente 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F695 中直接在 get_speech_timestamps 函数中抛出错误。\n* @VvvvvGH 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F697 中更新了 v6 版本的 Java 示例。\n* 修复 tuning\u002Futils.py 中的 bug：在 loss.backward() 之前添加 optimizer.zero_grad()，由 @JiJiJiang 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F699 中完成。\n* 解决 torchaudio 2.9 的工具问题，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F704 中完成。\n* 修复了一些错别字，由 @Purfview 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F707 中完成。\n* 移除冗余的 hop_size_samples 变量，由 @Purfview 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F708 中完成。\n* 修复 drop_chunks 问题，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F712 中完成。\n* 修复并优化 - 使用 use_max_poss_sil_at_max_speech 参数，由 @Purfview 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F710 中完成。\n\n## 新贡献者\n* @mpariente 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F695 中完成了首次贡献。\n* @JiJiJiang 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F699 中完成了首次贡献。\n* @Purfview 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F707 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fcompare\u002Fv6.0...v6.1","2025-11-05T05:39:07",{"id":170,"version":171,"summary_zh":172,"released_at":173},314892,"v6.0","## 新版 v6 VAD 发布\n\n- 优化了[质量](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics#silero-vad-vs-old-silero-vad)；\n- 保留了 v5 的功能和改进；\n- 在嘈杂的真实场景数据上错误率降低了 16%；\n- 在多领域验证集上错误率降低了 11%；\n- 包含多项社区贡献；\n- 增加了与 TenVAD 的质量对比；\n- 更改了训练算法，理论上应带来更高的鲁棒性；\n- 即将添加基于社区提供的全新（手动添加噪声）数据集的评估指标；\n- 已知的持续问题：包含类似人声乐器的音乐、极高音调的声音（如合成音、卡通角色音、幼儿声音）；\n\n\n## 变更内容\n\n* 改进文档。由 @EarningsCall 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F553 中完成\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F573 中进行了修改\n* fx https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fissues\u002F576 由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F579 中修复\n* 基于 libtorch 的 C++ 源代码由 @NathanJHLee 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F578 中添加\n* 修复负值相关 bug，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F581 中完成\n* Haskell 示例由 @qwbarch 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F591 中添加\n* 添加 CITATION.cff 文件以便正确引用，由 @kiwamizamurai 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F601 中完成\n* 修复 C++ 版 VAD 上下文问题，由 @OJRYK 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F605 中解决\n* 在返回语音坐标时明确以秒为单位的时间分辨率，由 @b3by 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F627 中实现\n* 在 collect_chunks 和 drop_chunks 中使用秒级坐标进行音频拼接，由 @b3by 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F626 中完成\n* 在 init 中暴露 drop_chunks 接口，由 @davidrs 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F656 中完成\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F669 中进行了修改\n* fx 由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F670 中修复\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F671 中进行了修改\n* fx 由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F672 中修复\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F673 中进行了修改\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F674 中进行了修改\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F675 中进行了修改\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F676 中进行了修改\n* 向 get_speech_timestamps 方法添加额外参数，由 @shashank14k 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F664 中完成\n* 移除 hop_size_ratio 参数，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F677 中完成\n\n## 新贡献者\n\n* @EarningsCall 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F553 中完成了首次贡献\n* @NathanJHLee 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F578 中完成了首次贡献\n* @qwbarch 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F591 中完成了首次贡献\n* @kiwamizamurai m","2025-08-26T07:09:23",{"id":175,"version":176,"summary_zh":177,"released_at":178},314893,"v5.1.2","用于上传新的 PIP 包的标签。","2024-10-09T09:50:09",{"id":180,"version":181,"summary_zh":182,"released_at":183},314894,"v5.1.1","## 变更内容\n\n* 修复 Go 示例，由 @streamer45 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F496 中完成\n* 修复：v5 检查点的 Rust 示例，由 @rumbleFTW 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F497 中完成\n* VadIterator 的首个分块处理逻辑，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F505 中完成\n* 添加针对 WAV 文件的 Java 示例，并支持 V5 模型，由 @yuguanqin 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F506 中完成\n* 添加 C# 示例，由 @nganju98 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F507 中完成\n* 降低 onnxruntime 依赖版本，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F521 中完成\n* 调优代码，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F526 中完成\n* 显式添加 neg_threshold 参数，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F528 中完成\n* Adamnsandle，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F529 中完成\n* 修复了 pyaudio 示例无法运行的问题，由 @gengyuchao 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F539 中完成\n* 更新 README.md，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F540 中完成\n* 更新 README.md，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F541 中完成\n* 更新 README.md，由 @snakers4 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F542 中完成\n* Adamnsandle，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F543 中完成\n* Adamnsandle，由 @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F549 中完成\n\n## 新贡献者\n\n* @rumbleFTW 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F497 中完成了首次贡献\n* @yuguanqin 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F506 中完成了首次贡献\n* @nganju98 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F507 中完成了首次贡献\n* @gengyuchao 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F539 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fcompare\u002Fv5.1...v5.1.1","2024-10-09T09:44:10",{"id":185,"version":186,"summary_zh":187,"released_at":188},314895,"v5.1","# 实验性 pip 包发布\n\n- 实验性 pip 包发布；\n- 社区 PR 用于更新示例；\n\n## 变更内容\n\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F481 中提交\n* @eltociear 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F475 中更新了 microphone_and_webRTC_integration.py\n* @filtercodes 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F482 中提供了 C++ 示例\n* @streamer45 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F489 中更新了 Go 示例，以支持模型 v5\n* @adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F492 中创建了 python-publish.yml\n* Adamnsandle 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F493 中提交\n\n## 新贡献者\n* @eltociear 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F475 中完成了首次贡献\n* @filtercodes 在 https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fpull\u002F482 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fcompare\u002Fv5.0...v5.1","2024-07-09T13:18:46",{"id":190,"version":191,"summary_zh":192,"released_at":193},314896,"v4.0","# 新 V4 VAD 发布\n\n\n- 优化了 [质量](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics#silero-vad-vs-old-silero-vad)\n- 优化了 [性能](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics#silero-vad-performance-metrics)\n- ONNX 模型现同时支持 8k 和 16k 采样率\n- ONNX 模型现支持批处理\n- 新增 audio_forward 方法，可对单个或多个音频进行一行式处理，无需后处理\n- 已应用热修复——此前上传了错误的模型\n- 针对 PyTorch 版本的小幅热修复\n","2022-10-28T11:48:02",{"id":195,"version":196,"summary_zh":197,"released_at":198},314897,"v3.1","我们终于成功将一个模型导出为 ONNX 格式：\n\n- 模型较为紧凑（约 10 万参数）；\n- PyTorch 和 ONNX 模型均未进行量化；\n- 模型质量与最新发布的最佳 PyTorch 版本一致；\n- 目前仅支持 16 kHz 采样率（ONNX 在处理 if 语句和\u002F或 tracing 与 scripting 的差异时存在一些问题，且错误信息较为晦涩）；\n- 在我们的测试中，对于短音频片段（分块处理），ONNX 的推理速度是 PyTorch 的 2–3 倍（这一差距可通过增大批大小或处理较长音频来缓解）；\n- 为节省仓库空间，已将音频示例和非核心模型移出本仓库。","2021-12-17T15:22:44",{"id":200,"version":201,"summary_zh":202,"released_at":203},314898,"v5.0","![image](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fassets\u002F12515440\u002F5f581592-3035-411e-9803-44a2fda0af8e)\n\n## **性能与模型大小**\n\n- TorchScript 推理速度提升至 3 倍（[性能指标](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics)），ONNX 推理速度提升 10%；\n- 现在 TorchScript 的推理速度已与 ONNX 相当；\n- 模型大小扩大了 2 倍，从 1MB 增至 2MB；\n\n## **质量**\n\n- 该 VAD 现已支持超过 6,000 种语言；\n- 在噪声数据上的鲁棒性显著增强；\n- 在干净数据上的整体质量提升 5–7%；\n- 8kHz 和 16kHz 输入的音质差异现已可忽略不计；\n- 不同窗口大小对音质的影响也可忽略不计，因此窗口大小参数已被弃用；\n- 新增了针对 9 个独特数据集（其中 2 个为私有数据集）以及一个综合性多领域数据集的 [基准测试](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics)；\n\n## **变更与弃用**\n\n- ONNX opset 更新至 16；\n- `window_size_samples` 参数已被弃用——现在 VAD 仅使用固定大小的窗口；\n- VAD 现在支持 8kHz 和 16kHz 采样率，分别对应固定的 256 和 512 样本窗口；\n- 内部逻辑略有调整，当前数据块会携带部分前一数据块的上下文信息；\n- 仍支持 16kHz 的整数倍采样率；","2024-06-27T20:07:34",{"id":205,"version":206,"summary_zh":207,"released_at":208},314899,"v3.0","## Main changes\r\n\r\n- One VAD to rule them all! New model includes the functionality of the previous ones with [improved quality](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FQuality-Metrics) and [speed](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FPerformance-Metrics)!\r\n- Flexible sampling rate, `8000 Hz` and `16000 Hz` are supported;\r\n- Flexible chunk size, minimum chunk size is just 30 milliseconds!\r\n- 100k parameters;\r\n- GPU and batching are supported;\r\n- Radically simplified examples;\r\n\r\n## Migration\r\n\r\nPlease see the new [examples](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad\u002Fwiki\u002FExamples-and-Dependencies#examples).\r\n\r\nNew `get_speech_timestamps` is a simplified and unified version of the old deprecated `get_speech_ts` or `get_speech_ts_adaptive` methods.\r\n\r\n```\r\nspeech_timestamps = get_speech_timestamps(wav, model, sampling_rate=16000)\r\n```\r\n\r\nNew `VADIterator` class serves as an example for streaming tasks instead of old deprecated `VADiterator` and `VADiteratorAdaptive`.\r\n\r\n```\r\nvad_iterator = VADIterator(model)\r\nwindow_size_samples = 1536\r\n\r\nfor i in range(0, len(wav), window_size_samples):\r\n   speech_dict = vad_iterator(wav[i: i+ window_size_samples], return_seconds=True)\r\n   if speech_dict:\r\n       print(speech_dict, end=' ')\r\nvad_iterator.reset_states()\r\n\r\n```","2021-12-07T12:17:33",{"id":210,"version":211,"summary_zh":212,"released_at":213},314900,"v2.0-legacy","This is a technical tag, so that users, who do now want to use newer models, could just checkout this tag.","2021-12-07T09:07:25"]