[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Vaibhavs10--insanely-fast-whisper":3,"tool-Vaibhavs10--insanely-fast-whisper":64},[4,16,31,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":15},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,2,"2026-04-06T19:52:38",[13,14],"插件","开发框架","ready",{"id":17,"name":18,"github_repo":19,"description_zh":20,"stars":21,"difficulty_score":10,"last_commit_at":22,"category_tags":23,"status":15},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[24,25,26,13,27,28,29,14,30],"图像","数据工具","视频","Agent","其他","语言模型","音频",{"id":32,"name":33,"github_repo":34,"description_zh":35,"stars":36,"difficulty_score":37,"last_commit_at":38,"category_tags":39,"status":15},2181,"OpenHands","OpenHands\u002FOpenHands","OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。\n\n无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。\n\n其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。",70665,3,"2026-04-06T11:28:43",[29,27,14,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":15},3074,"gpt4free","xtekky\u002Fgpt4free","gpt4free 是一个由社区驱动的开源项目，旨在聚合多种可访问的大型语言模型（LLM）和媒体生成接口，让用户能更灵活、便捷地使用前沿 AI 能力。它解决了直接调用各类模型时面临的接口分散、门槛高或成本昂贵等痛点，通过统一的标准将不同提供商的资源整合在一起。\n\n无论是希望快速集成 AI 功能的开发者、需要多模型对比测试的研究人员，还是想免费体验最新技术的普通用户，都能从中受益。gpt4free 提供了丰富的使用方式：既包含易于上手的 Python 和 JavaScript 客户端库，也支持部署本地图形界面（GUI），更提供了兼容 OpenAI 标准的 REST API，方便无缝替换现有应用后端。\n\n其技术亮点在于强大的多提供商支持架构，能够动态调度包括 Opus、Gemini、DeepSeek 等多种主流模型资源，并支持 Docker 一键部署及本地推理。项目秉持社区优先原则，在降低使用门槛的同时，也为贡献者提供了扩展新接口的便利框架，是探索和利用多样化 AI 资源的实用工具。",65970,"2026-04-04T01:02:03",[13,29,27],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":15},51,"gstack","garrytan\u002Fgstack","gstack 是 Y Combinator CEO Garry Tan 亲自开源的一套 AI 工程化配置，旨在将 Claude Code 升级为你的虚拟工程团队。面对单人开发难以兼顾产品战略、架构设计、代码审查及质量测试的挑战，gstack 提供了一套标准化解决方案，帮助开发者实现堪比二十人团队的高效产出。\n\n这套配置特别适合希望提升交付效率的创始人、技术负责人，以及初次尝试 Claude Code 的开发者。gstack 的核心亮点在于内置了 15 个具有明确职责的 AI 角色工具，涵盖 CEO、设计师、工程经理、QA 等职能。用户只需通过简单的斜杠命令（如 `\u002Freview` 进行代码审查、`\u002Fqa` 执行测试、`\u002Fplan-ceo-review` 规划功能），即可自动化处理从需求分析到部署上线的全链路任务。\n\n所有操作基于 Markdown 和斜杠命令，无需复杂配置，完全免费且遵循 MIT 协议。gstack 不仅是一套工具集，更是一种现代化的软件工厂实践，让单人开发者也能拥有严谨的工程流程。",64992,"2026-04-06T11:09:37",[27,13],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":15},193,"meilisearch","meilisearch\u002Fmeilisearch","Meilisearch 是一个开源的极速搜索服务，专为现代应用和网站打造，开箱即用。它能帮助开发者快速集成高质量的搜索功能，无需复杂的配置或额外的数据预处理。传统搜索方案往往需要大量调优才能实现准确结果，而 Meilisearch 内置了拼写容错、同义词识别、即时响应等实用特性，并支持 AI 驱动的混合搜索（结合关键词与语义理解），显著提升用户查找信息的体验。\n\nMeilisearch 特别适合 Web 开发者、产品团队或初创公司使用，尤其适用于需要快速上线搜索功能的场景，如电商网站、内容平台或 SaaS 应用。它提供简洁的 RESTful API 和多种语言 SDK，部署简单，资源占用低，本地开发或生产环境均可轻松运行。对于希望在不依赖大型云服务的前提下，为用户提供流畅、智能搜索体验的团队来说，Meilisearch 是一个高效且友好的选择。",56980,"2026-04-06T09:43:02",[24,27,25,14,13,28],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":37,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":112,"github_topics":68,"view_count":10,"oss_zip_url":68,"oss_zip_packed_at":68,"status":15,"created_at":113,"updated_at":114,"faqs":115,"releases":144},4627,"Vaibhavs10\u002Finsanely-fast-whisper","insanely-fast-whisper",null,"insanely-fast-whisper 是一款专为本地音频转录打造的高效命令行工具，基于 OpenAI 的 Whisper 模型构建。它致力于解决传统语音识别速度慢、耗时长的痛点，通过深度优化让大规模音频处理变得“快如闪电”。实测数据显示，在配备 NVIDIA A100 显卡的环境下，它能将 2.5 小时的音频转录时间从原本的 30 多分钟压缩至不到 2 分钟，效率提升显著。\n\n这款工具特别适合需要批量处理音频文件的开发者、研究人员以及关注数据隐私的技术用户。无论是整理会议记录、制作视频字幕，还是进行学术语料分析，都能从中获益。其核心优势在于集成了 Hugging Face Transformers、Optimum 以及 Flash Attention 2 等前沿技术，支持 fp16 精度计算、动态批处理和注意力机制加速。此外，它不仅完美适配 NVIDIA GPU，也支持 macOS 的 MPS 加速，并提供了便捷的 CLI 接口，允许用户通过简单命令直接调用 Whisper Large v3 或蒸馏版模型，甚至支持直接输入 URL 进行转录。作为一个由社区驱动的项目，insane","insanely-fast-whisper 是一款专为本地音频转录打造的高效命令行工具，基于 OpenAI 的 Whisper 模型构建。它致力于解决传统语音识别速度慢、耗时长的痛点，通过深度优化让大规模音频处理变得“快如闪电”。实测数据显示，在配备 NVIDIA A100 显卡的环境下，它能将 2.5 小时的音频转录时间从原本的 30 多分钟压缩至不到 2 分钟，效率提升显著。\n\n这款工具特别适合需要批量处理音频文件的开发者、研究人员以及关注数据隐私的技术用户。无论是整理会议记录、制作视频字幕，还是进行学术语料分析，都能从中获益。其核心优势在于集成了 Hugging Face Transformers、Optimum 以及 Flash Attention 2 等前沿技术，支持 fp16 精度计算、动态批处理和注意力机制加速。此外，它不仅完美适配 NVIDIA GPU，也支持 macOS 的 MPS 加速，并提供了便捷的 CLI 接口，允许用户通过简单命令直接调用 Whisper Large v3 或蒸馏版模型，甚至支持直接输入 URL 进行转录。作为一个由社区驱动的项目，insanely-fast-whisper 在保持轻量级的同时，持续响应用户需求，是让顶级语音识别模型真正落地实用的得力助手。","# Insanely Fast Whisper\n\nAn opinionated CLI to transcribe Audio files w\u002F Whisper on-device! Powered by 🤗 *Transformers*, *Optimum* & *flash-attn*\n\n**TL;DR** - Transcribe **150** minutes (2.5 hours) of audio in less than **98** seconds - with [OpenAI's Whisper Large v3](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fwhisper-large-v3). Blazingly fast transcription is now a reality!⚡️\n\n```\npipx install insanely-fast-whisper==0.0.15 --force\n```\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVaibhavs10_insanely-fast-whisper_readme_5430e27f0216.png\" width=\"615\" height=\"308\">\n\u003C\u002Fp>\n\nNot convinced? Here are some benchmarks we ran on a Nvidia A100 - 80GB 👇\n\n| Optimisation type    | Time to Transcribe (150 mins of Audio) |\n|------------------|------------------|\n| large-v3 (Transformers) (`fp32`)             | ~31 (*31 min 1 sec*)             |\n| large-v3 (Transformers) (`fp16` + `batching [24]` + `bettertransformer`) | ~5 (*5 min 2 sec*)            |\n| **large-v3 (Transformers) (`fp16` + `batching [24]` + `Flash Attention 2`)** | **~2 (*1 min 38 sec*)**            |\n| distil-large-v2 (Transformers) (`fp16` + `batching [24]` + `bettertransformer`) | ~3 (*3 min 16 sec*)            |\n| **distil-large-v2 (Transformers) (`fp16` + `batching [24]` + `Flash Attention 2`)** | **~1 (*1 min 18 sec*)**           |\n| large-v2 (Faster Whisper) (`fp16` + `beam_size [1]`) | ~9.23 (*9 min 23 sec*)            |\n| large-v2 (Faster Whisper) (`8-bit` + `beam_size [1]`) | ~8 (*8 min 15 sec*)            |\n\nP.S. We also ran the benchmarks on a [Google Colab T4 GPU](\u002Fnotebooks\u002F) instance too!\n\nP.P.S. This project originally started as a way to showcase benchmarks for Transformers, but has since evolved into a lightweight CLI for people to use. This is purely community driven. We add whatever community seems to have a strong demand for! \n\n## 🆕 Blazingly fast transcriptions via your terminal! ⚡️\n\nWe've added a CLI to enable fast transcriptions. Here's how you can use it:\n\nInstall `insanely-fast-whisper` with `pipx` (`pip install pipx` or `brew install pipx`):\n\n```bash\npipx install insanely-fast-whisper\n```\n\n⚠️ If you have python 3.11.XX installed, `pipx` may parse the version incorrectly and install a very old version of `insanely-fast-whisper` without telling you (version `0.0.8`, which won't work anymore with the current `BetterTransformers`). In that case, you can install the latest version by passing `--ignore-requires-python` to `pip`:\n\n```bash\npipx install insanely-fast-whisper --force --pip-args=\"--ignore-requires-python\"\n```\n\nIf you're installing with `pip`, you can pass the argument directly: `pip install insanely-fast-whisper --ignore-requires-python`.\n\n\nRun inference from any path on your computer:\n\n```bash\ninsanely-fast-whisper --file-name \u003Cfilename or URL>\n```\n*Note: if you are running on macOS, you also need to add `--device-id mps` flag.*\n\n🔥 You can run [Whisper-large-v3](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fwhisper-large-v3) w\u002F [Flash Attention 2](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention) from this CLI too:\n\n```bash\ninsanely-fast-whisper --file-name \u003Cfilename or URL> --flash True \n```\n\n🌟 You can run [distil-whisper](https:\u002F\u002Fhuggingface.co\u002Fdistil-whisper) directly from this CLI too:\n\n```bash\ninsanely-fast-whisper --model-name distil-whisper\u002Flarge-v2 --file-name \u003Cfilename or URL> \n```\n\nDon't want to install `insanely-fast-whisper`? Just use `pipx run`:\n\n```bash\npipx run insanely-fast-whisper --file-name \u003Cfilename or URL>\n```\n\n> [!NOTE]\n> The CLI is highly opinionated and only works on NVIDIA GPUs & Mac. Make sure to check out the defaults and the list of options you can play around with to maximise your transcription throughput. Run `insanely-fast-whisper --help` or `pipx run insanely-fast-whisper --help` to get all the CLI arguments along with their defaults. \n\n\n## CLI Options\n\nThe `insanely-fast-whisper` repo provides an all round support for running Whisper in various settings. Note that as of today 26th Nov, `insanely-fast-whisper` works on both CUDA and mps (mac) enabled devices.\n```\n  -h, --help            show this help message and exit\n  --file-name FILE_NAME\n                        Path or URL to the audio file to be transcribed.\n  --device-id DEVICE_ID\n                        Device ID for your GPU. Just pass the device number when using CUDA, or \"mps\" for Macs with Apple Silicon. (default: \"0\")\n  --transcript-path TRANSCRIPT_PATH\n                        Path to save the transcription output. (default: output.json)\n  --model-name MODEL_NAME\n                        Name of the pretrained model\u002F checkpoint to perform ASR. (default: openai\u002Fwhisper-large-v3)\n  --task {transcribe,translate}\n                        Task to perform: transcribe or translate to another language. (default: transcribe)\n  --language LANGUAGE   \n                        Language of the input audio. (default: \"None\" (Whisper auto-detects the language))\n  --batch-size BATCH_SIZE\n                        Number of parallel batches you want to compute. Reduce if you face OOMs. (default: 24)\n  --flash FLASH         \n                        Use Flash Attention 2. Read the FAQs to see how to install FA2 correctly. (default: False)\n  --timestamp {chunk,word}\n                        Whisper supports both chunked as well as word level timestamps. (default: chunk)\n  --hf-token HF_TOKEN\n                        Provide a hf.co\u002Fsettings\u002Ftoken for Pyannote.audio to diarise the audio clips\n  --diarization_model DIARIZATION_MODEL\n                        Name of the pretrained model\u002F checkpoint to perform diarization. (default: pyannote\u002Fspeaker-diarization)\n  --num-speakers NUM_SPEAKERS\n                        Specifies the exact number of speakers present in the audio file. Useful when the exact number of participants in the conversation is known. Must be at least 1. Cannot be used together with --min-speakers or --max-speakers. (default: None)\n  --min-speakers MIN_SPEAKERS\n                        Sets the minimum number of speakers that the system should consider during diarization. Must be at least 1. Cannot be used together with --num-speakers. Must be less than or equal to --max-speakers if both are specified. (default: None)\n  --max-speakers MAX_SPEAKERS\n                        Defines the maximum number of speakers that the system should consider in diarization. Must be at least 1. Cannot be used together with --num-speakers. Must be greater than or equal to --min-speakers if both are specified. (default: None)\n```\n\n## Frequently Asked Questions\n\n**How to correctly install flash-attn to make it work with `insanely-fast-whisper`?**\n\nMake sure to install it via `pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation`. Massive kudos to @li-yifei for helping with this.\n\n**How to solve an `AssertionError: Torch not compiled with CUDA enabled` error on Windows?**\n\nThe root cause of this problem is still unknown, however, you can resolve this by manually installing torch in the virtualenv like `python -m pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121`. Thanks to @pto2k for all tdebugging this.\n\n**How to avoid Out-Of-Memory (OOM) exceptions on Mac?**\n\nThe *mps* backend isn't as optimised as CUDA, hence is way more memory hungry. Typically you can run with `--batch-size 4` without any issues (should use roughly 12GB GPU VRAM). Don't forget to set `--device-id mps`.\n\n## How to use Whisper without a CLI?\n\n\u003Cdetails>\n\u003Csummary>All you need to run is the below snippet:\u003C\u002Fsummary>\n\n```\npip install --upgrade transformers optimum accelerate\n```\n\n```python\nimport torch\nfrom transformers import pipeline\nfrom transformers.utils import is_flash_attn_2_available\n\npipe = pipeline(\n    \"automatic-speech-recognition\",\n    model=\"openai\u002Fwhisper-large-v3\", # select checkpoint from https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fwhisper-large-v3#model-details\n    torch_dtype=torch.float16,\n    device=\"cuda:0\", # or mps for Mac devices\n    model_kwargs={\"attn_implementation\": \"flash_attention_2\"} if is_flash_attn_2_available() else {\"attn_implementation\": \"sdpa\"},\n)\n\noutputs = pipe(\n    \"\u003CFILE_NAME>\",\n    chunk_length_s=30,\n    batch_size=24,\n    return_timestamps=True,\n)\n\noutputs\n```\n\u003C\u002Fdetails>\n\n## Acknowledgements\n\n1. [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) team for open sourcing such a brilliant check point.\n2. Hugging Face Transformers team, specifically [Arthur](https:\u002F\u002Fgithub.com\u002FArthurZucker), [Patrick](https:\u002F\u002Fgithub.com\u002Fpatrickvonplaten), [Sanchit](https:\u002F\u002Fgithub.com\u002Fsanchit-gandhi) & [Yoach](https:\u002F\u002Fgithub.com\u002Fylacombe)  (alphabetical order) for continuing to maintain Whisper in Transformers.\n3. Hugging Face [Optimum](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Foptimum) team for making the BetterTransformer API so easily accessible.\n4. [Patrick Arminio](https:\u002F\u002Fgithub.com\u002Fpatrick91) for helping me tremendously to put together this CLI.\n\n## Community showcase\n\n1. @ochen1 created a brilliant MVP for a CLI here: https:\u002F\u002Fgithub.com\u002Fochen1\u002Finsanely-fast-whisper-cli (Try it out now!)\n2. @arihanv created an app (Shush) using NextJS (Frontend) & Modal (Backend): https:\u002F\u002Fgithub.com\u002Farihanv\u002FShush (Check it outtt!)\n3. @kadirnar created a python package on top of the transformers with optimisations: https:\u002F\u002Fgithub.com\u002Fkadirnar\u002Fwhisper-plus (Go go go!!!)\n","# 疯狂快速的 Whisper\n\n一款自带偏好的命令行工具，用于在设备上使用 Whisper 对音频文件进行转录！由 🤗 *Transformers*、*Optimum* 和 *flash-attn* 提供支持。\n\n**简而言之** - 在不到 **98** 秒内转录 **150** 分钟（2.5 小时）的音频——使用 [OpenAI 的 Whisper Large v3](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fwhisper-large-v3)。极速转录如今已成为现实！⚡️\n\n```\npipx install insanely-fast-whisper==0.0.15 --force\n```\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVaibhavs10_insanely-fast-whisper_readme_5430e27f0216.png\" width=\"615\" height=\"308\">\n\u003C\u002Fp>\n\n不信？以下是我们使用 Nvidia A100 - 80GB 进行的一些基准测试 👇\n\n| 优化类型    | 转录音频所需时间（150 分钟） |\n|------------------|------------------|\n| large-v3 (Transformers) (`fp32`)             | ~31 (*31 分 1 秒*)             |\n| large-v3 (Transformers) (`fp16` + `batching [24]` + `bettertransformer`) | ~5 (*5 分 2 秒*)            |\n| **large-v3 (Transformers) (`fp16` + `batching [24]` + `Flash Attention 2`)** | **~2 (*1 分 38 秒*)**            |\n| distil-large-v2 (Transformers) (`fp16` + `batching [24]` + `bettertransformer`) | ~3 (*3 分 16 秒*)            |\n| **distil-large-v2 (Transformers) (`fp16` + `batching [24]` + `Flash Attention 2`)** | **~1 (*1 分 18 秒*)**           |\n| large-v2 (Faster Whisper) (`fp16` + `beam_size [1]`) | ~9.23 (*9 分 23 秒*)            |\n| large-v2 (Faster Whisper) (`8-bit` + `beam_size [1]`) | ~8 (*8 分 15 秒*)            |\n\nP.S. 我们还在 [Google Colab T4 GPU](\u002Fnotebooks\u002F) 实例上运行了这些基准测试！\n\nP.P.S. 该项目最初是为了展示 Transformers 的基准测试而启动的，但后来演变成一个供人们使用的轻量级命令行工具。这完全是由社区驱动的。我们会根据社区的强烈需求添加功能！\n\n## 🆕 通过终端实现极速转录！⚡️\n\n我们新增了一个命令行工具来实现快速转录。以下是使用方法：\n\n使用 `pipx` 安装 `insanely-fast-whisper`（`pip install pipx` 或 `brew install pipx`）：\n\n```bash\npipx install insanely-fast-whisper\n```\n\n⚠️ 如果您安装了 Python 3.11.XX 版本，`pipx` 可能会错误地解析版本号，并在未告知您的情况下安装非常旧的 `insanely-fast-whisper` 版本（版本为 `0.0.8`，该版本已无法与当前的 `BetterTransformers` 兼容）。在这种情况下，您可以传递 `--ignore-requires-python` 参数给 `pip` 来安装最新版本：\n\n```bash\npipx install insanely-fast-whisper --force --pip-args=\"--ignore-requires-python\"\n```\n\n如果您使用 `pip` 安装，可以直接传递该参数：`pip install insanely-fast-whisper --ignore-requires-python`。\n\n从您计算机上的任意路径运行推理：\n\n```bash\ninsanely-fast-whisper --file-name \u003C文件名或 URL>\n```\n*注意：如果您在 macOS 上运行，还需要添加 `--device-id mps` 标志。*\n\n🔥 您也可以通过此命令行工具运行带有 [Flash Attention 2](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention) 的 [Whisper-large-v3](https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fwhisper-large-v3)：\n\n```bash\ninsanely-fast-whisper --file-name \u003C文件名或 URL> --flash True \n```\n\n🌟 您还可以直接通过此命令行工具运行 [distil-whisper](https:\u002F\u002Fhuggingface.co\u002Fdistil-whisper)：\n\n```bash\ninsanely-fast-whisper --model-name distil-whisper\u002Flarge-v2 --file-name \u003C文件名或 URL> \n```\n\n不想安装 `insanely-fast-whisper`？只需使用 `pipx run`：\n\n```bash\npipx run insanely-fast-whisper --file-name \u003C文件名或 URL>\n```\n\n> [!NOTE]\n> 该命令行工具具有很强的主观性，仅适用于 NVIDIA 显卡和 Mac 设备。请务必查看默认设置以及可调整的选项列表，以最大化您的转录吞吐量。运行 `insanely-fast-whisper --help` 或 `pipx run insanely-fast-whisper --help` 以获取所有命令行参数及其默认值。\n\n\n## 命令行选项\n\n`insanely-fast-whisper` 仓库提供了对 Whisper 在各种场景下运行的全面支持。请注意，截至今天 11 月 26 日，`insanely-fast-whisper` 同时支持 CUDA 和 mps（Mac）启用的设备。\n```\n  -h, --help            显示帮助信息并退出\n  --file-name FILE_NAME\n                        要转录的音频文件的路径或 URL。\n  --device-id DEVICE_ID\n                        您显卡的设备 ID。使用 CUDA 时只需传递设备编号，对于搭载 Apple Silicon 的 Mac 则使用 \"mps\"。（默认值： \"0\"）\n  --transcript-path TRANSCRIPT_PATH\n                        保存转录输出的路径。（默认值： output.json）\n  --model-name MODEL_NAME\n                        用于执行 ASR 的预训练模型或检查点名称。（默认值： openai\u002Fwhisper-large-v3）\n  --task {transcribe,translate}\n                        要执行的任务：转录或翻译成另一种语言。（默认值： 转录）\n  --language LANGUAGE   \n                        输入音频的语言。（默认值： \"None\"（Whisper 自动检测语言））\n  --batch-size BATCH_SIZE\n                        您希望并行计算的批次数量。如果遇到 OOM 错误，请减少该值。（默认值： 24）\n  --flash FLASH         \n                        使用 Flash Attention 2。请阅读常见问题解答，了解如何正确安装 FA2。（默认值： False）\n  --timestamp {chunk,word}\n                        Whisper 支持分块级别和单词级别的时间戳。（默认值： 分块）\n  --hf-token HF_TOKEN\n                        提供 hf.co\u002Fsettings\u002Ftoken，以便 Pyannote.audio 对音频片段进行说话人分离\n  --diarization_model DIARIZATION_MODEL\n                        用于执行说话人分离的预训练模型或检查点名称。（默认值： pyannote\u002Fspeaker-diarization）\n  --num-speakers NUM_SPEAKERS\n                        指定音频文件中确切的说话人数。当对话参与者的具体人数已知时非常有用。必须至少为 1。不能与 --min-speakers 或 --max-speakers 同时使用。（默认值： None）\n  --min-speakers MIN_SPEAKERS\n                        设置系统在说话人分离过程中应考虑的最小说话人数。必须至少为 1。不能与 --num-speakers 同时使用。如果同时指定了 --max-speakers，则其值必须大于或等于 --min-speakers。（默认值： None）\n  --max-speakers MAX_SPEAKERS\n                        定义系统在说话人分离过程中应考虑的最大说话人数。必须至少为 1。不能与 --num-speakers 同时使用。如果同时指定了 --min-speakers，则其值必须大于或等于 --min-speakers。（默认值： None）\n```\n\n## 常见问题解答\n\n**如何正确安装 flash-attn，使其与 `insanely-fast-whisper` 兼容？**\n\n请确保通过以下命令安装：`pipx runpip insanely-fast-whisper install flash-attn --no-build-isolation`。非常感谢 @li-yifei 在这方面提供的帮助。\n\n**在 Windows 上如何解决 `AssertionError: Torch not compiled with CUDA enabled` 错误？**\n\n这个问题的根本原因目前尚不清楚，不过您可以通过在虚拟环境中手动安装 PyTorch 来解决，例如：`python -m pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121`。感谢 @pto2k 对此问题的深入调试。\n\n**如何避免在 Mac 上出现内存不足（OOM）异常？**\n\n*MPS* 后端的优化程度不如 CUDA，因此对内存的需求更高。通常情况下，使用 `--batch-size 4` 运行不会出现问题（大约会占用 12GB 的 GPU 显存）。别忘了设置 `--device-id mps`。\n\n## 如何在不使用命令行界面的情况下使用 Whisper？\n\n\u003Cdetails>\n\u003Csummary>您只需运行以下代码片段即可：\u003C\u002Fsummary>\n\n```\npip install --upgrade transformers optimum accelerate\n```\n\n```python\nimport torch\nfrom transformers import pipeline\nfrom transformers.utils import is_flash_attn_2_available\n\npipe = pipeline(\n    \"automatic-speech-recognition\",\n    model=\"openai\u002Fwhisper-large-v3\", # 从 https:\u002F\u002Fhuggingface.co\u002Fopenai\u002Fwhisper-large-v3#model-details 中选择检查点\n    torch_dtype=torch.float16,\n    device=\"cuda:0\", # 或者对于 Mac 设备使用 mps\n    model_kwargs={\"attn_implementation\": \"flash_attention_2\"} if is_flash_attn_2_available() else {\"attn_implementation\": \"sdpa\"},\n)\n\noutputs = pipe(\n    \"\u003CFILE_NAME>\",\n    chunk_length_s=30,\n    batch_size=24,\n    return_timestamps=True,\n)\n\noutputs\n```\n\u003C\u002Fdetails>\n\n## 致谢\n\n1. [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) 团队，感谢他们开源了如此出色的模型。\n2. Hugging Face Transformers 团队，特别是 [Arthur](https:\u002F\u002Fgithub.com\u002FArthurZucker)、[Patrick](https:\u002F\u002Fgithub.com\u002Fpatrickvonplaten)、[Sanchit](https:\u002F\u002Fgithub.com\u002Fsanchit-gandhi) 和 [Yoach](https:\u002F\u002Fgithub.com\u002Fylacombe)（按字母顺序排列），感谢他们持续维护 Transformers 中的 Whisper 模型。\n3. Hugging Face [Optimum](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Foptimum) 团队，感谢他们使 BetterTransformer API 如此易于使用。\n4. [Patrick Arminio](https:\u002F\u002Fgithub.com\u002Fpatrick91)，感谢他在构建这个命令行工具方面给予的巨大帮助。\n\n## 社区展示\n\n1. @ochen1 创建了一个优秀的 CLI MVP：https:\u002F\u002Fgithub.com\u002Fochen1\u002Finsanely-fast-whisper-cli（现在就试试吧！）\n2. @arihanv 使用 NextJS（前端）和 Modal（后端）开发了一款应用（Shush）：https:\u002F\u002Fgithub.com\u002Farihanv\u002FShush（快去看看吧！）\n3. @kadirnar 基于 Transformers 构建了一个带有优化功能的 Python 包：https:\u002F\u002Fgithub.com\u002Fkadirnar\u002Fwhisper-plus（冲啊！！！）","# insanely-fast-whisper 快速上手指南\n\n`insanely-fast-whisper` 是一个基于 OpenAI Whisper 的高性能命令行工具，利用 🤗 Transformers、Optimum 和 Flash Attention 2 技术，实现本地极速音频转录。在 NVIDIA A100 上，它能在约 98 秒内完成 2.5 小时的音频转录。\n\n## 环境准备\n\n*   **操作系统**：Linux, macOS, Windows\n*   **硬件要求**：\n    *   **NVIDIA GPU**：推荐用于最佳性能（需支持 CUDA）。\n    *   **Apple Silicon Mac**：支持 MPS 后端（M1\u002FM2\u002FM3 系列芯片）。\n*   **软件依赖**：\n    *   Python 3.8+\n    *   `pipx`（推荐安装方式，可隔离环境）\n    *   NVIDIA 用户需确保已安装正确的 CUDA 驱动及 PyTorch CUDA 版本。\n\n## 安装步骤\n\n推荐使用 `pipx` 进行安装，以避免依赖冲突。\n\n### 1. 安装 pipx (如未安装)\n```bash\n# Linux\u002FmacOS\npython -m pip install --user pipx\npython -m pipx ensurepath\n\n# macOS (使用 Homebrew)\nbrew install pipx\npipx ensurepath\n```\n\n### 2. 安装 insanely-fast-whisper\n执行以下命令安装最新稳定版：\n```bash\npipx install insanely-fast-whisper\n```\n\n> **注意**：如果您使用的是 Python 3.11+，`pipx` 可能会错误地解析版本限制。若遇到安装旧版本问题，请使用以下强制命令：\n> ```bash\n> pipx install insanely-fast-whisper --force --pip-args=\"--ignore-requires-python\"\n> ```\n\n### 3. (可选) 启用 Flash Attention 2 加速\n若需极致速度（仅限 NVIDIA GPU），需在工具环境中额外安装 `flash-attn`：\n```bash\npipx runpip insanely-fast-whisper install flash-attn --no-build-isolation\n```\n\n## 基本使用\n\n### 1. 基础转录\n对本地音频文件或网络 URL 进行转录（默认使用 `whisper-large-v3` 模型）：\n\n```bash\ninsanely-fast-whisper --file-name \u003Cfilename or URL>\n```\n*转录结果将默认保存为 `output.json`。*\n\n### 2. macOS 用户专用\n如果您使用的是 Mac (Apple Silicon)，必须指定设备 ID 为 `mps`：\n\n```bash\ninsanely-fast-whisper --file-name \u003Cfilename or URL> --device-id mps\n```\n*提示：Mac 用户若遇到显存不足 (OOM)，建议添加 `--batch-size 4` 参数。*\n\n### 3. 启用 Flash Attention 2 (NVIDIA GPU)\n开启闪存注意力机制以获得最快推理速度：\n\n```bash\ninsanely-fast-whisper --file-name \u003Cfilename or URL> --flash True\n```\n\n### 4. 使用蒸馏模型 (更快\u002F更轻量)\n使用 `distil-whisper` 模型进行加速：\n\n```bash\ninsanely-fast-whisper --model-name distil-whisper\u002Flarge-v2 --file-name \u003Cfilename or URL>\n```\n\n### 5. 免安装运行\n如果不希望全局安装，可直接通过 `pipx run` 临时运行：\n\n```bash\npipx run insanely-fast-whisper --file-name \u003Cfilename or URL>\n```\n\n### 常用参数说明\n*   `--file-name`: 音频文件路径或 URL。\n*   `--device-id`: GPU 设备号 (CUDA 默认为 \"0\", Mac 设为 \"mps\")。\n*   `--model-name`: 指定模型 (默认 `openai\u002Fwhisper-large-v3`)。\n*   `--language`: 输入音频语言 (默认自动检测)。\n*   `--batch-size`: 并行批处理大小 (显存不足时请减小此值)。\n*   `--transcript-path`: 输出文件保存路径。\n\n查看完整帮助信息：\n```bash\ninsanely-fast-whisper --help\n```","某媒体内容团队每天需处理数小时的高清访谈录音，以便快速生成字幕和文字稿供编辑审核。\n\n### 没有 insanely-fast-whisper 时\n- **等待时间过长**：使用标准 Whisper 模型转录 2.5 小时音频需耗时约 31 分钟，严重拖慢内容上线节奏。\n- **硬件资源浪费**：即使启用基础优化，在高性能 GPU 上仍需数分钟才能完成单文件处理，无法充分利用算力。\n- **工作流断裂**：漫长的转录过程迫使团队成员频繁切换任务，难以维持“录制 - 转写 - 编辑”的流畅闭环。\n- **成本高昂**：若依赖云端 API 加速，海量音频数据的调用费用将急剧增加，压缩项目利润空间。\n\n### 使用 insanely-fast-whisper 后\n- **秒级极速响应**：借助 Flash Attention 2 和批量处理技术，同样的 2.5 小时音频仅需约 98 秒即可完成转录，效率提升近 20 倍。\n- **算力极致释放**：在本地 NVIDIA GPU 上即可跑满性能，无需额外配置复杂环境，让昂贵硬件真正物尽其用。\n- **工作流无缝衔接**：命令行一键启动，转录几乎瞬间完成，编辑人员可立即介入校对，实现真正的实时生产。\n- **零成本本地部署**：完全离线运行且开源免费，彻底消除云端 API 调用费用，大幅降低运营成本。\n\ninsanely-fast-whisper 通过极致的推理优化，将原本耗时的音频转写任务压缩至秒级，让本地大规模语音处理变得像复制文件一样简单高效。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVaibhavs10_insanely-fast-whisper_1809692e.png","Vaibhavs10","vb","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FVaibhavs10_1f0a0c37.jpg","gpu poor, cuda\u002F metal","@openai","nvidia-smi","vaibhavs10@gmail.com","reach_vb","https:\u002F\u002Fvaibhavs10.github.io","https:\u002F\u002Fgithub.com\u002FVaibhavs10",[87,91],{"name":88,"color":89,"percentage":90},"Jupyter Notebook","#DA5B0B",98.4,{"name":92,"color":93,"percentage":94},"Python","#3572A5",1.6,12395,913,"2026-04-06T16:42:23","Apache-2.0","Linux, macOS, Windows","必需。支持 NVIDIA GPU (需 CUDA) 或 macOS Apple Silicon (MPS)。 benchmarks 基于 A100 (80GB)，Mac 用户建议至少 12GB 显存以避免 OOM。","未说明 (建议根据模型大小和 batch size 配置，Mac 上运行需约 12GB VRAM)",{"notes":103,"python":104,"dependencies":105},"1. 该工具主要针对 NVIDIA GPU 和 Mac 优化，Windows 用户若遇到 'Torch not compiled with CUDA' 错误需手动安装特定版本的 torch。2. 若要启用 Flash Attention 2 加速，需额外执行命令安装 flash-attn 且禁止构建隔离。3. Mac 用户运行时必须添加 '--device-id mps' 参数，且建议将 batch-size 降至 4 以防内存溢出。4. 支持说话人日记功能，需配置 Hugging Face Token。","3.8+ (README 特别提到 Python 3.11.x 在使用 pipx 时可能存在版本解析问题)",[106,107,108,109,110,111],"transformers","optimum","accelerate","flash-attn","torch","torchaudio",[30,13],"2026-03-27T02:49:30.150509","2026-04-07T06:27:50.949779",[116,121,126,131,136,140],{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},21038,"运行时报错 'AssertionError: Torch not compiled with CUDA enabled' 如何解决？","这通常是因为安装的 PyTorch 版本不支持 CUDA。如果您使用 pipx 安装，需要确保在虚拟环境中安装了正确的带有 CUDA 支持的 PyTorch 版本。您可以尝试重新安装支持 CUDA 的 torch：\n\npip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n或者根据您的 CUDA 版本选择对应的索引地址。安装完成后，工具即可正常调用 GPU 加速。","https:\u002F\u002Fgithub.com\u002FVaibhavs10\u002Finsanely-fast-whisper\u002Fissues\u002F54",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},21039,"如何在没有 GPU 的情况下快速进行转录（CPU 支持）？","虽然本项目主要优化 GPU 性能，但社区提供了一个专为纯 CPU 用户设计的仓库：Transcribe-and-Translate-Subtitles (https:\u002F\u002Fgithub.com\u002FDakeQQ\u002FTranscribe-and-Translate-Subtitles)。\n\n在该配置下（例如 Intel i3-12300 CPU，4 线程），使用 Whisper-Large-V3 模型转录 2 小时的电影仅需约 20 分钟，使用 SenseVoiceSmall 模型仅需 10 分钟。该方案还包含多种降噪器和 VAD（语音活动检测）以提升字幕质量。","https:\u002F\u002Fgithub.com\u002FVaibhavs10\u002Finsanely-fast-whisper\u002Fissues\u002F46",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},21040,"使用说话人日记功能（diarize）时出现 'ValueError: attempt to get argmin of an empty sequence' 错误怎么办？","这是一个已知问题，通常发生在音频被截断或 Whisper 未预测到结束时间戳时，导致后续处理空序列出错。\n\n临时解决方案是单独运行 pyannote-audio 进行说话人分离，然后手动合并结果。有用户反馈直接通过 pyannote-audio 处理同一文件可以正常获得结果。建议检查音频文件完整性，或等待项目后续修复该集成问题。","https:\u002F\u002Fgithub.com\u002FVaibhavs10\u002Finsanely-fast-whisper\u002Fissues\u002F76",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},21041,"不同 Whisper 实现（如 faster-whisper, whisper.cpp）之间的性能对比是否准确？","基准测试因变量众多而难以完全公平对比。为了获得“苹果对苹果”的比较，需注意以下几点：\n1. 确保所有测试使用相同的模型版本（如 large-v2 或 large-v3）。\n2. 确认束搜索大小（beam size）一致（例如都为 1）。\n3. 注意批处理（batching）功能会显著增加显存（VRAM）使用，这是速度提升的主要来源之一，而非仅仅是算法优化。\n4. 建议使用开源脚本集合自行评估，因为官方 README 中的测试条件可能未完全披露所有参数（如批处理大小）。","https:\u002F\u002Fgithub.com\u002FVaibhavs10\u002Finsanely-fast-whisper\u002Fissues\u002F82",{"id":137,"question_zh":138,"answer_zh":139,"source_url":120},21042,"如何将工具输出的 JSON 结果转换为 SRT 字幕格式？","您可以使用以下 Python 脚本将输出的 JSON 文件转换为标准的 SRT 格式：\n\n```python\nimport json\n\ndef read_json_from_file(file_path):\n    with open(file_path, 'r') as file:\n        data = json.load(file)\n        return data.get(\"chunks\", [])\n\ndef convert_to_srt_time(timestamp):\n    if timestamp is None:\n        timestamp = 24 * 3600\n    hours = int(timestamp \u002F\u002F 3600)\n    minutes = int((timestamp % 3600) \u002F\u002F 60)\n    seconds = int(timestamp % 60)\n    milliseconds = int((timestamp - int(timestamp)) * 1000)\n    return f\"{hours:02}:{minutes:02}:{seconds:02},{milliseconds:03}\"\n\ndef convert_json_to_srt(json_data, output_path):\n    with open(output_path, 'w', encoding='utf-8') as f:\n        for i, chunk in enumerate(json_data, 1):\n            start = convert_to_srt_time(chunk['timestamp'][0])\n            end = convert_to_srt_time(chunk['timestamp'][1])\n            text = chunk['text'].strip()\n            f.write(f\"{i}\\n{start} --> {end}\\n{text}\\n\\n\")\n```\n\n该脚本读取 JSON 中的 chunks 数组，提取时间戳和文本，并格式化为 SRT 标准。",{"id":141,"question_zh":142,"answer_zh":143,"source_url":135},21043,"在使用长音频片段进行转录时，如何避免数据丢失或时间戳错误？","在处理长音频时，切片长度（chunk size）的选择至关重要。有用户发现，使用 60 秒的切片会导致时间戳错误和数据丢失，而使用 25 秒的切片则能产生正确的输出结果。\n\n建议在运行转录时，如果遇到问题，尝试减小音频切片的时长（例如从 60 秒调整为 25 秒），以确保 Whisper 能正确预测结束时间戳并避免分段处理时的对齐错误。",[]]