[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-sindresorhus--awesome-whisper":3,"tool-sindresorhus--awesome-whisper":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":74,"owner_website":80,"owner_url":81,"languages":78,"stars":82,"forks":83,"last_commit_at":84,"license":85,"difficulty_score":32,"env_os":86,"env_gpu":87,"env_ram":88,"env_deps":89,"category_tags":93,"github_topics":95,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":104,"updated_at":105,"faqs":106,"releases":107},9594,"sindresorhus\u002Fawesome-whisper","awesome-whisper","🔊 Awesome list for Whisper — an open-source AI-powered speech recognition system developed by OpenAI","awesome-whisper 是一个精心整理的开源资源清单，旨在帮助开发者、研究人员及普通用户更好地利用 OpenAI 推出的 Whisper 语音识别系统。Whisper 本身是一款强大的 AI 模型，能将音频精准转换为文本，但其在不同场景下的部署与应用往往需要额外的工具支持。awesome-whisper 正是为了解决这一痛点，它汇聚了从底层优化到终端应用的全方位生态资源。\n\n这里不仅收录了官方文档与论文，更整理了多种高性能模型变体，例如专为本地运行优化的 C++ 版本 whisper.cpp、大幅提升推理速度的 faster-whisper，以及支持说话人区分和时间戳标记的 WhisperX。此外，清单还涵盖了适用于 macOS、Windows、Linux 及移动端的各类桌面应用、命令行工具和 Web 服务，让用户无需深厚技术背景也能轻松体验语音转文字、实时听写或多语言翻译功能。\n\n无论是希望深入研究模型架构的算法工程师，还是寻找高效转录工具的创作者，亦或是想要构建自定义语音应用的开发者，都能在这里找到合适的解决方案。awesome-whisper 通过分类清晰的索引，降低了 ","awesome-whisper 是一个精心整理的开源资源清单，旨在帮助开发者、研究人员及普通用户更好地利用 OpenAI 推出的 Whisper 语音识别系统。Whisper 本身是一款强大的 AI 模型，能将音频精准转换为文本，但其在不同场景下的部署与应用往往需要额外的工具支持。awesome-whisper 正是为了解决这一痛点，它汇聚了从底层优化到终端应用的全方位生态资源。\n\n这里不仅收录了官方文档与论文，更整理了多种高性能模型变体，例如专为本地运行优化的 C++ 版本 whisper.cpp、大幅提升推理速度的 faster-whisper，以及支持说话人区分和时间戳标记的 WhisperX。此外，清单还涵盖了适用于 macOS、Windows、Linux 及移动端的各类桌面应用、命令行工具和 Web 服务，让用户无需深厚技术背景也能轻松体验语音转文字、实时听写或多语言翻译功能。\n\n无论是希望深入研究模型架构的算法工程师，还是寻找高效转录工具的创作者，亦或是想要构建自定义语音应用的开发者，都能在这里找到合适的解决方案。awesome-whisper 通过分类清晰的索引，降低了 Whisper 的使用门槛，推动了开源语音技术在更多领域的落地与创新。","\u003Cdiv align=\"center\">\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cdiv>\n\t\t\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsindresorhus_awesome-whisper_readme_445fcedac347.png\" alt=\"Awesome Whisper\">\n\t\t\u003Cbr>\n\t\u003C\u002Fdiv>\n\t\u003Cbr>\n\t\u003Cp>\n\t\t\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fresearch\u002Fwhisper\">Whisper\u003C\u002Fa> is an open-source AI-powered speech recognition system developed by \u003Ca href=\"https:\u002F\u002Fopenai.com\">OpenAI\u003C\u002Fa>\n\t\u003C\u002Fp>\n\t\u003Cbr>\n\t\u003Ca href=\"https:\u002F\u002Fawesome.re\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fawesome.re\u002Fbadge-flat2.svg\" alt=\"Awesome\">\n\t\u003C\u002Fa>\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cbr>\n\u003C\u002Fdiv>\n\n## Contents\n\n- [Official](#official)\n- [Model variants](#model-variants)\n- [Apps](#apps)\n- [Web apps](#web-apps)\n- [CLI tools](#cli-tools)\n- [Playgrounds](#playgrounds)\n- [Packages](#packages)\n- [Articles](#articles)\n- [Videos](#videos)\n- [Community](#community)\n- [Third-party APIs](#third-party-apis)\n- [Related lists](#related-lists)\n\n## Official\n\n- [Introduction](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fwhisper)\n- [Source code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)\n- [White paper](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fwhisper.pdf)\n\n## Model variants\n\n- [Whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) - Port of Whisper in C++.\n\t- [Bindings for many languages](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp#bindings)\n- [WhisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX) - Adds fast automatic speaker recognition with word-level timestamps and speaker diarization.\n- [faster-whisper](https:\u002F\u002Fgithub.com\u002Fguillaumekln\u002Ffaster-whisper) - Faster reimplementation of Whisper using CTranslate2.\n- [Whisper JAX](https:\u002F\u002Fgithub.com\u002Fsanchit-gandhi\u002Fwhisper-jax) - JAX implementation of Whisper for up to 70x speed-up on TPU.\n- [whisper-timestamped](https:\u002F\u002Fgithub.com\u002Flinto-ai\u002Fwhisper-timestamped) - Adds word-level timestamps and confidence scores.\n- [whisper-openvino](https:\u002F\u002Fgithub.com\u002Fzhuzilin\u002Fwhisper-openvino) - Whisper running on OpenVINO.\n- [whisper.tflite](https:\u002F\u002Fgithub.com\u002Fusefulsensors\u002Fopenai-whisper) - Whisper running on TensorFlow Lite.\n- [Whisper variants](https:\u002F\u002Fhuggingface.co\u002Fmodels?other=whisper) - Various Whisper variants on Hugging Faces.\n- [Whisper-AT](https:\u002F\u002Fgithub.com\u002FYuanGongND\u002Fwhisper-at) - Whisper that can recognize non-speech audio events in addition to speech.\n\n## Apps\n\n- [Aiko](https:\u002F\u002Fsindresorhus.com\u002Faiko) - Audio transcription iOS and macOS app.\n- [MacWhisper](https:\u002F\u002Fgoodsnooze.gumroad.com\u002Fl\u002Fmacwhisper) - Audio transcription macOS app. (Freemium)\n- [Whisper Memos](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid6443658039) - Audio transcription iOS app. (Freemium)\n- [FourYou](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid1671616134) - Audio journal iOS app.\n- [Jojo Transcribe](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid1659864300) - Audio transcription macOS app.\n- [Buzz](https:\u002F\u002Fgithub.com\u002Fchidiwilliams\u002FBuzz) - Audio transcription and translation macOS app.\n- [WhisperScript](https:\u002F\u002Fstore.getwavery.com\u002Fl\u002Fwhisperscript) - Audio transcription macOS app. (Freemium · Electron)\n- [Audio Podium](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid6449008295) - Audio\u002Fvideo management macOS app.\n- [superwhisper](https:\u002F\u002Fsuperwhisper.com) - Global audio transcription macOS menu bar app.\n- [TypeWhisper](https:\u002F\u002Fgithub.com\u002FTypeWhisper\u002Ftypewhisper-mac) - Local speech-to-text transcription for macOS and Windows with system-wide dictation.\n- [Speech Note](https:\u002F\u002Fgithub.com\u002Fmkiol\u002Fdsnote) - Audio transcription Linux app.\n- [FridayGPT](https:\u002F\u002Fwww.fridaygpt.app) - Dictation macOS app powered by OpenAI API.\n- [EasyWhisper](https:\u002F\u002Feasywhisper.io) - Windows and macOS app for audio transcription and speaker diarization. (Freemium)\n- [Audio Note](https:\u002F\u002Faudionote.app) - Real-time audio transcription on macOS and Windows. (Freemium · Electron)\n- [Whisper](https:\u002F\u002Fgithub.com\u002Fwoheller69\u002FwhisperIME) - Android app for transcription and translation. (FOSS)\n- [VoiceInk](https:\u002F\u002Fgithub.com\u002FBeingpax\u002FVoiceInk) - Dictation and transcription macOS app. (FOSS)\n- [Ito AI](https:\u002F\u002Fgithub.com\u002Fheyito\u002Fito) - AI voice dictation for Mac. (FOSS)\n- [OpenSuperWhisper](https:\u002F\u002Fgithub.com\u002FStarmel\u002FOpenSuperWhisper) - Dictation app for macOS. (FOSS)\n- [Screenpipe](https:\u002F\u002Fscreenpi.pe) - 24\u002F7 local screen and audio recording with AI search. (FOSS)\n\n## Web apps\n\n\u003C!-- ### Hosted and self-hosted -->\n\n### Hosted\n\n- [bigWav](https:\u002F\u002Fbigwav.app) - Audio transcription and annotation tool.\n- [Free Podcast Transcription](https:\u002F\u002Ffreepodcasttranscription.com) - Runs locally in your browser.\n- [Gladia](https:\u002F\u002Fwww.gladia.io) - Transcription with real-time processing.\n- [Whisper-Web](https:\u002F\u002Fgithub.com\u002FPierreMesure\u002Fwhisper-web) - Local transcription using WebGPU, with optimised fine-tuned models for several languages. (FOSS)\n\n### Self-hosted\n\n- [Subs AI](https:\u002F\u002Fgithub.com\u002Fabdeladim-s\u002Fsubsai) - Subtitle generation.\n- [WaaS](https:\u002F\u002Fgithub.com\u002Fschibsted\u002FWAAS) - GUI and API for Whisper.\n- [writeout.ai](https:\u002F\u002Fgithub.com\u002Fbeyondcode\u002Fwriteout.ai) - Laravel app to transcribe and translate audio files.\n- [Meeper](https:\u002F\u002Fgithub.com\u002Fpas1ko\u002Fmeeper) - Transcriptions, summary and more for meetings and any browser tab. (Chrome app)\n\n## CLI tools\n\n- [yt-whisper](https:\u002F\u002Fgithub.com\u002Fm1guelpf\u002Fyt-whisper) - YouTube subtitle generation.\n- [phonix](https:\u002F\u002Fgithub.com\u002Fplatisd\u002Fphonix) - Generate captions for videos.\n- [whisper-standalone-win](https:\u002F\u002Fgithub.com\u002FPurfview\u002Fwhisper-standalone-win) - Standalone Windows executable for Whisper and Faster Whisper.\n- [whisper-ctranslate2](https:\u002F\u002Fgithub.com\u002FSoftcatala\u002Fwhisper-ctranslate2) - Whisper command-line tool based on CTranslate2, compatible with the original.\n- [insanely-fast-whisper-cli](https:\u002F\u002Fgithub.com\u002Fochen1\u002Finsanely-fast-whisper-cli) - Achieve transcription speeds near 30x real-time with several optimizations.\n- [whisper-diarization](https:\u002F\u002Fgithub.com\u002FMahmoudAshraf97\u002Fwhisper-diarization) - Automatic speech recognition with speaker diarization.\n- [hns](https:\u002F\u002Fgithub.com\u002Fprimaprashant\u002Fhns) - On-device speech-to-text CLI using faster-whisper with automatic clipboard copy.\n\n## Playgrounds\n\n- [Hugging Faces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenai\u002Fwhisper) - Whisper demo running on Hugging Faces. ([Source](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenai\u002Fwhisper\u002Ftree\u002Fmain))\n- [Monster API](https:\u002F\u002Fwhisperui.monsterapi.ai) - Whisper demo running on Monster API. ([Source](https:\u002F\u002Fgithub.com\u002Fsaharmor\u002Fwhisper-playground))\n- [Web Whisper](https:\u002F\u002Fwhisper.r3d.red) - Whisper demo by Pluja. ([Source](https:\u002F\u002Fcodeberg.org\u002Fpluja\u002Fweb-whisper))\n- [YouTube Video Transcription](https:\u002F\u002Fgithub.com\u002FArthurFDLR\u002Fwhisper-youtube) - Running on Colab.\n\n## Packages\n\n### JavaScript\n\n- [use-whisper](https:\u002F\u002Fgithub.com\u002Fchengsokdara\u002Fuse-whisper) - React hook.\n\n## Articles\n\n- [Whispers of A.I.'s Modular Future](https:\u002F\u002Fwww.newyorker.com\u002Ftech\u002Fannals-of-technology\u002Fwhispers-of-ais-modular-future) - The future of machine learning lies in adaptable and accessible open-source speech-transcription programs.\n- [How to Run Whisper Speech Recognition Model](https:\u002F\u002Fwww.assemblyai.com\u002Fblog\u002Fhow-to-run-openais-whisper-speech-recognition-model\u002F) - Explains how to install and run the model, as well as providing a performance analysis comparing Whisper to other models.\n- [Create your own speech to text app using Flask](https:\u002F\u002Fblog.paperspace.com\u002Fwhisper-openai-flask-application-deployment\u002F) - The tutorial demonstrates Whisper's speech-to-text model, with a demo on running it in a Gradient Notebook and a guide for setting up a Flask app with Gradient Deployments.\n- [Convert Podcasts to Text](https:\u002F\u002Fbetterprogramming.pub\u002Fopenais-whisper-tutorial-42140dd696ee) - Tutorial on the Whisper API with Python for speech-to-text transcription, showcasing GPU's faster transcription and advanced technology.\n\n## Videos\n\n- [Open AI's Whisper is Amazing!](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=OCBZtgQGt1I) - Introduction to Whisper.\n- [How to do Free Speech-to-Text Transcription Better Than Google Premium API](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=msj3wuYf3d8) - Tutorial.\n- [Multilingual AI Speech Recognition Live App](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ywIyc8l1K1Q) - Tutorial.\n\n## Community\n\n- [Discussions](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Fdiscussions)\n- [Discord](https:\u002F\u002Fdiscord.com\u002Finvite\u002Fopenai)\n\n## Third-party APIs\n\n*APIs that use Whisper.*\n\n- [Whisper+](https:\u002F\u002Fwww.oneai.com\u002Fspeech-to-text) - Extension of the Whisper model which adds powerful features such as speaker identification custom vocabulary, summarization, and chapter generation.\n- [Replicate](https:\u002F\u002Freplicate.com\u002Fopenai\u002Fwhisper) - Use Whisper running on Replicate.\n\n## Related lists\n\n- [awesome-chatgpt](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome-chatgpt) - ChatGPT resources.\n","\u003Cdiv align=\"center\">\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cdiv>\n\t\t\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsindresorhus_awesome-whisper_readme_445fcedac347.png\" alt=\"Awesome Whisper\">\n\t\t\u003Cbr>\n\t\u003C\u002Fdiv>\n\t\u003Cbr>\n\t\u003Cp>\n\t\t\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fresearch\u002Fwhisper\">Whisper\u003C\u002Fa> 是由 \u003Ca href=\"https:\u002F\u002Fopenai.com\">OpenAI\u003C\u002Fa> 开发的一款开源、基于人工智能的语音识别系统。\n\t\u003C\u002Fp>\n\t\u003Cbr>\n\t\u003Ca href=\"https:\u002F\u002Fawesome.re\">\n\t\t\u003Cimg src=\"https:\u002F\u002Fawesome.re\u002Fbadge-flat2.svg\" alt=\"Awesome\">\n\t\u003C\u002Fa>\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cbr>\n\t\u003Cbr>\n\u003C\u002Fdiv>\n\n## 目录\n\n- [官方](#official)\n- [模型变体](#model-variants)\n- [应用](#apps)\n- [Web 应用](#web-apps)\n- [命令行工具](#cli-tools)\n- [在线实验环境](#playgrounds)\n- [软件包](#packages)\n- [文章](#articles)\n- [视频](#videos)\n- [社区](#community)\n- [第三方 API](#third-party-apis)\n- [相关列表](#related-lists)\n\n## 官方\n\n- [简介](https:\u002F\u002Fopenai.com\u002Fresearch\u002Fwhisper)\n- [源代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper)\n- [白皮书](https:\u002F\u002Fcdn.openai.com\u002Fpapers\u002Fwhisper.pdf)\n\n## 模型变体\n\n- [Whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) - Whisper 的 C++ 移植版本。\n\t- [多语言绑定](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp#bindings)\n- [WhisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX) - 添加快速自动说话人识别功能，支持词级时间戳和说话人分离。\n- [faster-whisper](https:\u002F\u002Fgithub.com\u002Fguillaumekln\u002Ffaster-whisper) - 使用 CTranslate2 对 Whisper 进行更高效的重新实现。\n- [Whisper JAX](https:\u002F\u002Fgithub.com\u002Fsanchit-gandhi\u002Fwhisper-jax) - 基于 JAX 的 Whisper 实现，在 TPU 上可获得高达 70 倍的速度提升。\n- [whisper-timestamped](https:\u002F\u002Fgithub.com\u002Flinto-ai\u002Fwhisper-timestamped) - 添加词级时间戳和置信度分数。\n- [whisper-openvino](https:\u002F\u002Fgithub.com\u002Fzhuzilin\u002Fwhisper-openvino) - 在 OpenVINO 上运行的 Whisper。\n- [whisper.tflite](https:\u002F\u002Fgithub.com\u002Fusefulsensors\u002Fopenai-whisper) - 在 TensorFlow Lite 上运行的 Whisper。\n- [Whisper 变体](https:\u002F\u002Fhuggingface.co\u002Fmodels?other=whisper) - Hugging Face 上的各种 Whisper 变体。\n- [Whisper-AT](https:\u002F\u002Fgithub.com\u002FYuanGongND\u002Fwhisper-at) - 除了语音之外，还能识别非语音音频事件的 Whisper。\n\n## 应用\n\n- [Aiko](https:\u002F\u002Fsindresorhus.com\u002Faiko) - iOS 和 macOS 平台上的音频转录应用。\n- [MacWhisper](https:\u002F\u002Fgoodsnooze.gumroad.com\u002Fl\u002Fmacwhisper) - macOS 平台上的音频转录应用。（免费增值模式）\n- [Whisper Memos](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid6443658039) - iOS 平台上的音频转录应用。（免费增值模式）\n- [FourYou](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid1671616134) - iOS 平台上的音频日记应用。\n- [Jojo Transcribe](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid1659864300) - macOS 平台上的音频转录应用。\n- [Buzz](https:\u002F\u002Fgithub.com\u002Fchidiwilliams\u002FBuzz) - macOS 平台上的音频转录与翻译应用。\n- [WhisperScript](https:\u002F\u002Fstore.getwavery.com\u002Fl\u002Fwhisperscript) - macOS 平台上的音频转录应用。（免费增值模式 · Electron）\n- [Audio Podium](https:\u002F\u002Fapps.apple.com\u002Fapp\u002Fid6449008295) - macOS 平台上的音频\u002F视频管理应用。\n- [superwhisper](https:\u002F\u002Fsuperwhisper.com) - 全球范围内的 macOS 菜单栏音频转录应用。\n- [TypeWhisper](https:\u002F\u002Fgithub.com\u002FTypeWhisper\u002Ftypewhisper-mac) - 支持全系统听写功能的本地语音转文字应用，适用于 macOS 和 Windows。\n- [Speech Note](https:\u002F\u002Fgithub.com\u002Fmkiol\u002Fdsnote) - Linux 平台上的音频转录应用。\n- [FridayGPT](https:\u002F\u002Fwww.fridaygpt.app) - 基于 OpenAI API 的 macOS 听写应用。\n- [EasyWhisper](https:\u002F\u002Feasywhisper.io) - Windows 和 macOS 平台上的音频转录及说话人分离应用。（免费增值模式）\n- [Audio Note](https:\u002F\u002Faudionote.app) - macOS 和 Windows 平台上实时音频转录的应用。（免费增值模式 · Electron）\n- [Whisper](https:\u002F\u002Fgithub.com\u002Fwoheller69\u002FwhisperIME) - Android 平台上的转录与翻译应用。（开源软件）\n- [VoiceInk](https:\u002F\u002Fgithub.com\u002FBeingpax\u002FVoiceInk) - macOS 平台上的听写与转录应用。（开源软件）\n- [Ito AI](https:\u002F\u002Fgithub.com\u002Fheyito\u002Fito) - Mac 平台上的 AI 语音听写应用。（开源软件）\n- [OpenSuperWhisper](https:\u002F\u002Fgithub.com\u002FStarmel\u002FOpenSuperWhisper) - macOS 平台上的听写应用。（开源软件）\n- [Screenpipe](https:\u002F\u002Fscreenpi.pe) - 24\u002F7 本地屏幕与音频录制，并配备 AI 搜索功能。（开源软件）\n\n## Web 应用\n\n\u003C!-- ### 托管与自托管 -->\n\n### 托管\n\n- [bigWav](https:\u002F\u002Fbigwav.app) - 音频转录与标注工具。\n- [Free Podcast Transcription](https:\u002F\u002Ffreepodcasttranscription.com) - 在您的浏览器中本地运行。\n- [Gladia](https:\u002F\u002Fwww.gladia.io) - 实时处理的转录服务。\n- [Whisper-Web](https:\u002F\u002Fgithub.com\u002FPierreMesure\u002Fwhisper-web) - 使用 WebGPU 进行本地转录，优化了针对多种语言的微调模型。（开源软件）\n\n### 自托管\n\n- [Subs AI](https:\u002F\u002Fgithub.com\u002Fabdeladim-s\u002Fsubsai) - 字幕生成工具。\n- [WaaS](https:\u002F\u002Fgithub.com\u002Fschibsted\u002FWAAS) - 提供 Whisper 的 GUI 和 API。\n- [writeout.ai](https:\u002F\u002Fgithub.com\u002Fbeyondcode\u002Fwriteout.ai) - Laravel 应用程序，用于转录和翻译音频文件。\n- [Meeper](https:\u002F\u002Fgithub.com\u002Fpas1ko\u002Fmeeper) - 会议及其他浏览器标签页的转录、摘要等功能。（Chrome 插件）\n\n## 命令行工具\n\n- [yt-whisper](https:\u002F\u002Fgithub.com\u002Fm1guelpf\u002Fyt-whisper) - YouTube 字幕生成工具。\n- [phonix](https:\u002F\u002Fgithub.com\u002Fplatisd\u002Fphonix) - 视频字幕生成工具。\n- [whisper-standalone-win](https:\u002F\u002Fgithub.com\u002FPurfview\u002Fwhisper-standalone-win) - Whisper 和 Faster Whisper 的独立 Windows 可执行文件。\n- [whisper-ctranslate2](https:\u002F\u002Fgithub.com\u002FSoftcatala\u002Fwhisper-ctranslate2) - 基于 CTranslate2 的 Whisper 命令行工具，与原版兼容。\n- [insanely-fast-whisper-cli](https:\u002F\u002Fgithub.com\u002Fochen1\u002Finsanely-fast-whisper-cli) - 通过多项优化，可实现接近 30 倍实时速度的转录。\n- [whisper-diarization](https:\u002F\u002Fgithub.com\u002FMahmoudAshraf97\u002Fwhisper-diarization) - 自动语音识别与说话人分离功能。\n- [hns](https:\u002F\u002Fgithub.com\u002Fprimaprashant\u002Fhns) - 使用 faster-whisper 的设备端语音转文字 CLI，并具备自动复制到剪贴板的功能。\n\n## 在线实验环境\n\n- [Hugging Faces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenai\u002Fwhisper) - 在 Hugging Face 上运行的 Whisper 演示。（[源码](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fopenai\u002Fwhisper\u002Ftree\u002Fmain)）\n- [Monster API](https:\u002F\u002Fwhisperui.monsterapi.ai) - 在 Monster API 上运行的 Whisper 演示。（[源码](https:\u002F\u002Fgithub.com\u002Fsaharmor\u002Fwhisper-playground)）\n- [Web Whisper](https:\u002F\u002Fwhisper.r3d.red) - Pluja 提供的 Whisper 演示。（[源码](https:\u002F\u002Fcodeberg.org\u002Fpluja\u002Fweb-whisper)）\n- [YouTube 视频转录](https:\u002F\u002Fgithub.com\u002FArthurFDLR\u002Fwhisper-youtube) - 在 Colab 上运行。\n\n## 软件包\n\n### JavaScript\n\n- [use-whisper](https:\u002F\u002Fgithub.com\u002Fchengsokdara\u002Fuse-whisper) - React 钩子。\n\n## 文章\n\n- [A.I. 模块化未来的低语](https:\u002F\u002Fwww.newyorker.com\u002Ftech\u002Fannals-of-technology\u002Fwhispers-of-ais-modular-future) - 机器学习的未来在于可适应且易于使用的开源语音转文字程序。\n- [如何运行 Whisper 语音识别模型](https:\u002F\u002Fwww.assemblyai.com\u002Fblog\u002Fhow-to-run-openais-whisper-speech-recognition-model\u002F) - 解释了如何安装和运行该模型，并提供了将 Whisper 与其他模型进行比较的性能分析。\n- [使用 Flask 构建自己的语音转文字应用](https:\u002F\u002Fblog.paperspace.com\u002Fwhisper-openai-flask-application-deployment\u002F) - 该教程演示了 Whisper 的语音转文字模型，包括在 Gradient Notebook 中运行的示例，以及如何通过 Gradient Deployments 设置一个 Flask 应用的指南。\n- [将播客转换为文本](https:\u002F\u002Fbetterprogramming.pub\u002Fopenais-whisper-tutorial-42140dd696ee) - 使用 Python 和 Whisper API 进行语音转文字转录的教程，展示了 GPU 加速的更快转录速度及先进技术。\n\n## 视频\n\n- [OpenAI 的 Whisper 太棒了！](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=OCBZtgQGt1I) - Whisper 简介。\n- [如何实现比 Google 高级 API 更好的免费语音转文字转录](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=msj3wuYf3d8) - 教程。\n- [多语言 AI 语音识别实时应用](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ywIyc8l1K1Q) - 教程。\n\n## 社区\n\n- [讨论区](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper\u002Fdiscussions)\n- [Discord](https:\u002F\u002Fdiscord.com\u002Finvite\u002Fopenai)\n\n## 第三方 API\n\n*使用 Whisper 的 API。*\n\n- [Whisper+](https:\u002F\u002Fwww.oneai.com\u002Fspeech-to-text) - Whisper 模型的扩展版本，增加了说话人识别、自定义词汇表、摘要生成和章节划分等强大功能。\n- [Replicate](https:\u002F\u002Freplicate.com\u002Fopenai\u002Fwhisper) - 在 Replicate 上运行 Whisper。\n\n## 相关列表\n\n- [awesome-chatgpt](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome-chatgpt) - ChatGPT 资源。","# Awesome Whisper 快速上手指南\n\nWhisper 是由 OpenAI 开源的自动语音识别（ASR）系统，支持多语言转录和翻译。本指南基于官方及社区优化版本，帮助开发者快速部署和使用。\n\n## 环境准备\n\n在开始之前，请确保你的开发环境满足以下要求：\n\n*   **操作系统**：Linux, macOS, 或 Windows (WSL2 推荐)\n*   **Python 版本**：3.8 - 3.11\n*   **硬件加速（可选但推荐）**：NVIDIA GPU (需安装 CUDA) 或 Apple Silicon (M1\u002FM2\u002FM3)\n*   **前置依赖**：\n    *   `pip` (Python 包管理工具)\n    *   `ffmpeg` (用于音频处理)\n\n**安装 ffmpeg：**\n\n*   **Ubuntu\u002FDebian:**\n    ```bash\n    sudo apt update && sudo apt install ffmpeg\n    ```\n*   **macOS (使用 Homebrew):**\n    ```bash\n    brew install ffmpeg\n    ```\n*   **Windows:**\n    下载构建包并添加到环境变量，或使用 winget：\n    ```powershell\n    winget install Gyan.FFmpeg\n    ```\n\n> **国内加速提示**：建议使用国内镜像源安装 Python 依赖，以提升下载速度。\n> ```bash\n    pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>\n    ```\n\n## 安装步骤\n\n你可以选择安装官方原版，或者社区优化版（推荐用于生产环境，速度更快）。\n\n### 方案 A：安装官方原版 (OpenAI Whisper)\n\n最基础的版本，兼容性好。\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple openai-whisper\n```\n\n### 方案 B：安装优化版 (faster-whisper) **[推荐]**\n\n基于 `CTranslate2` 重写，推理速度更快，显存占用更低，且支持更多量化选项。\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple faster-whisper\n```\n\n### 方案 C：本地运行 (无 Python 环境)\n\n如果你不想配置 Python 环境，可以直接下载预编译的二进制文件：\n*   **Windows**: 访问 [whisper-standalone-win](https:\u002F\u002Fgithub.com\u002FPurfview\u002Fwhisper-standalone-win) 下载 exe 文件。\n*   **C++ 实现**: 克隆 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 并在本地编译，适合嵌入式或极低资源场景。\n\n## 基本使用\n\n以下示例展示如何使用命令行进行最简单的语音转文字操作。\n\n### 1. 使用官方原版\n\n加载模型并转录音频文件。首次运行时会自动下载模型权重（约几百 MB 到几 GB 不等）。\n\n```bash\nwhisper audio_file.mp3 --model base --language zh\n```\n\n*   `--model`: 可选 `tiny`, `base`, `small`, `medium`, `large`。模型越大越准确，但速度越慢。\n*   `--language`: 指定源语言（如 `zh` 代表中文），不指定则自动检测。\n*   输出：默认生成同名的 `.txt` (文本) 和 `.srt` (字幕) 文件。\n\n### 2. 使用 faster-whisper (Python API)\n\n如果你需要在代码中集成，推荐使用 `faster-whisper`：\n\n```python\nfrom faster_whisper import WhisperModel\n\n# 初始化模型 (device 可选 \"cuda\", \"cpu\", \"auto\")\nmodel = WhisperModel(\"base\", device=\"cuda\", compute_type=\"float16\")\n\n# 执行转录\nsegments, info = model.transcribe(\"audio_file.mp3\", language=\"zh\")\n\nprint(\"检测到的语言:\", info.language)\n\nfor segment in segments:\n    print(\"[%.2fs -> %.2fs] %s\" % (segment.start, segment.end, segment.text))\n```\n\n### 3. 进阶功能：带时间戳与说话人区分\n\n如果需要词级时间戳或区分不同说话人，可以使用社区变体：\n\n*   **词级时间戳**: 使用 [whisper-timestamped](https:\u002F\u002Fgithub.com\u002Flinto-ai\u002Fwhisper-timestamped)\n    ```bash\n    pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple whisper-timestamped\n    whisper-timestamped audio_file.mp3 --model base\n    ```\n*   **说话人区分 (Diarization)**: 使用 [WhisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)\n    ```bash\n    pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple whisperx\n    # 具体用法需参考 WhisperX 文档，支持批量处理和说话人聚类\n    ```\n\n### 常用模型大小参考\n\n| 模型 | 参数量 | 推荐场景 | 显存需求 (近似) |\n| :--- | :--- | :--- | :--- |\n| `tiny` | 39M | 快速测试，低配设备 | \u003C 1GB |\n| `base` | 74M | 日常通用，平衡速度与精度 | ~1GB |\n| `small` | 244M | 高精度需求 | ~2GB |\n| `medium` | 769M | 专业转录 | ~5GB |\n| `large` | 1550M | 最高精度，多语言混合 | ~10GB+ |","一位独立播客创作者每周需处理长达两小时的访谈录音，旨在快速生成带时间戳的精校字幕以便发布视频。\n\n### 没有 awesome-whisper 时\n- 只能依赖昂贵的云端转录服务，不仅按分钟计费成本高昂，还担心未公开音频泄露隐私。\n- 原始 Whisper 模型推理速度慢，在本地笔记本上转译一小时音频需耗时数小时，严重拖慢更新节奏。\n- 生成的文本缺乏说话人区分（Diarization），多人对话混在一起，后期人工梳理角色发言极其痛苦。\n- 缺少精确到单词级的时间轴数据，无法直接导入剪辑软件自动对齐字幕，必须手动逐句打点。\n- 面对众多优化版本（如 C++ 移植、JAX 加速等）无从下手，反复试错配置环境浪费大量开发时间。\n\n### 使用 awesome-whisper 后\n- 通过清单直接选用 `MacWhisper` 或 `Buzz` 等成熟应用，实现完全离线的免费转录，既省钱又确保素材安全。\n- 利用集成的 `faster-whisper` 或 `Whisper.cpp` 方案，将本地转译速度提升数倍，实现“录完即出稿”。\n- 借助 `WhisperX` 变体自动识别不同说话人并标记段落，清晰区分主持人与嘉宾内容，免去人工分拣烦恼。\n- 采用 `whisper-timestamped` 直接输出带高精度时间码的字幕文件，一键导入剪辑软件完成自动对齐。\n- 依据分类清晰的资源列表，按需匹配适合 Windows、Linux 或移动端的特定工具，彻底告别环境配置焦虑。\n\nawesome-whisper 将原本繁琐的音频处理流程转化为高效、低成本且隐私安全的自动化工作流，让创作者专注于内容本身。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsindresorhus_awesome-whisper_445fceda.png","sindresorhus","Sindre Sorhus","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsindresorhus_129a2a44.jpg","Full-Time Open-Sourcerer. Focused on Swift & JavaScript. Makes macOS apps, CLI tools, npm packages.",null,"sindresorhus@gmail.com","https:\u002F\u002Fsindresorhus.com\u002Fapps","https:\u002F\u002Fgithub.com\u002Fsindresorhus",2268,122,"2026-04-19T01:59:21","CC0-1.0","Linux, macOS, Windows, iOS, Android","未说明 (官方实现通常需 NVIDIA GPU 以加速，但列表中包含 whisper.cpp、Whisper JAX (TPU)、whisper.tflite 等支持 CPU、TPU 或移动端的变体)","未说明",{"notes":90,"python":88,"dependencies":91},"awesome-whisper 是一个 curated list（精选列表），汇集了 Whisper 的官方代码、不同语言的移植版本（C++, JAX 等）、桌面应用、Web 应用、CLI 工具及 API 服务。它本身不是一个可直接运行的软件，因此没有统一的运行环境需求。用户需根据列表中选择的具体工具（如 whisper.cpp 适合 CPU 运行，faster-whisper 适合高效推理，官方仓库适合 GPU 训练\u002F推理）查阅其各自的文档以获取详细的系统要求。",[92],"未说明 (README 为资源列表，非单一工具的安装文档，具体依赖取决于所选变体，如 CTranslate2, JAX, OpenVINO, TensorFlow Lite 等)",[35,15,94,14,13],"音频",[96,97,98,99,100,101,102,103],"ai","artificial-intelligence","awesome","awesome-list","gpt","openai","speech-to-text","transcription","2026-03-27T02:49:30.150509","2026-04-20T04:08:06.430375",[],[]]