[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-collabora--WhisperLive":3,"tool-collabora--WhisperLive":64},[4,17,25,39,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":10,"last_commit_at":23,"category_tags":24,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":26,"name":27,"github_repo":28,"description_zh":29,"stars":30,"difficulty_score":10,"last_commit_at":31,"category_tags":32,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[33,34,35,36,14,37,15,13,38],"图像","数据工具","视频","插件","其他","音频",{"id":40,"name":41,"github_repo":42,"description_zh":43,"stars":44,"difficulty_score":45,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[14,33,13,15,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":45,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[15,33,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":45,"last_commit_at":62,"category_tags":63,"status":16},2181,"OpenHands","OpenHands\u002FOpenHands","OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。\n\n无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。\n\n其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。",70612,"2026-04-05T11:12:22",[15,14,13,36],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":108,"forks":109,"last_commit_at":110,"license":111,"difficulty_score":45,"env_os":112,"env_gpu":113,"env_ram":114,"env_deps":115,"category_tags":124,"github_topics":125,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":137,"updated_at":138,"faqs":139,"releases":173},3625,"collabora\u002FWhisperLive","WhisperLive","A nearly-live implementation of OpenAI's Whisper.","WhisperLive 是一款基于 OpenAI Whisper 模型打造的实时语音转文字应用，旨在实现“近乎实时”的转录体验。它有效解决了传统语音识别在直播、会议记录等场景中延迟过高或无法处理流式音频的痛点，支持直接采集麦克风输入或处理预录制文件，将语音即时转化为文本。\n\n这款工具特别适合开发者、研究人员以及需要构建实时字幕系统或语音交互原型的技术团队使用。通过简单的命令行操作，用户即可快速部署服务，并灵活选择三种高性能后端：易于上手的 Faster Whisper、专为 NVIDIA 显卡优化的 TensorRT，以及适合 Intel 硬件的 OpenVINO，从而在不同硬件环境下获得最佳的推理速度与资源利用率。此外，WhisperLive 还提供了 Docker 部署方案、浏览器扩展支持以及兼容 OpenAI 格式的 REST 接口，极大地降低了集成门槛，让高质量的实时语音识别能力能够轻松融入各类工作流中。","# WhisperLive\n\n\u003Ch2 align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=0PHWCApIcCI\">\u003Cimg\nsrc=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcollabora_WhisperLive_readme_87fac739ed75.jpg\" style=\"background-color:rgba(0,0,0,0);\" height=300 alt=\"WhisperLive\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=0f5oiG4oPWQ\">\u003Cimg\n  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcollabora_WhisperLive_readme_25bc4aebe0f5.jpg\" style=\"background-color:rgba(0,0,0,0);\" height=300 alt=\"WhisperLive\">\u003C\u002Fa>\n  \u003Cbr>\u003Cbr>A nearly-live implementation of OpenAI's Whisper.\n\u003Cbr>\u003Cbr>\n\u003C\u002Fh2>\n\nThis project is a real-time transcription application that uses the OpenAI Whisper model\nto convert speech input into text output. It can be used to transcribe both live audio\ninput from microphone and pre-recorded audio files.\n\n- [Installation](#installation)\n- [Getting Started](#getting-started)\n- [Running the Server](#running-the-server)\n- [Running the Client](#running-the-client)\n- [Browser Extensions](#browser-extensions)\n- [Whisper Live Server in Docker](#whisper-live-server-in-docker)\n- [Future Work](#future-work)\n- [Blog Posts](#blog-posts)\n- [Contact](#contact)\n- [Citations](#citations)\n\n## Installation\n- Install PortAudio\n```bash\n bash scripts\u002Fsetup.sh\n```\n\n- Install whisper-live from pip\n```bash\n pip install whisper-live\n```\n\n\n- Install 3.12 venv on Fedora\n\n```bash\nsudo dnf install -y python3.12 python3.12-pip\npython3.12 -m venv whisper_env\nsource whisper_env\u002Fbin\u002Factivate\n```\n\n\n### OpenAI REST interface\n\n#### Server\n\n```bash\npython3 run_server.py --port 9090 --backend faster_whisper --max_clients 4 --max_connection_time 600 --enable_rest --cors-origins=\"http:\u002F\u002Flocalhost:8080,http:\u002F\u002F127.0.0.1:8080\"\n```\n\n#### Client\n\n```bash\npython3 client_openai.py $AUDIO_FILE\n```\n\n\n\n### Setting up NVIDIA\u002FTensorRT-LLM for TensorRT backend\n- Please follow [TensorRT_whisper readme](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md) for setup of [NVIDIA\u002FTensorRT-LLM](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM) and for building Whisper-TensorRT engine.\n\n## Getting Started\nThe server supports 3 backends `faster_whisper`, `tensorrt` and `openvino`. If running `tensorrt` backend follow [TensorRT_whisper readme](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md)\n\n### Running the Server\n- [Faster Whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper) backend\n```bash\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n  \n# running with custom model and cache_dir to save auto-converted ctranslate2 models\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --max_clients 4 \\\n                      --max_connection_time 600 \\\n                      -fw \"\u002Fpath\u002Fto\u002Fcustom\u002Ffaster\u002Fwhisper\u002Fmodel\" \\\n                      -c ~\u002F.cache\u002Fwhisper-live\u002F\n```\n\n- TensorRT backend. Currently, we recommend to only use the docker setup for TensorRT. Follow [TensorRT_whisper readme](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md) which works as expected. Make sure to build your TensorRT Engines before running the server with TensorRT backend.\n```bash\n# Run English only model\npython3 run_server.py -p 9090 \\\n                      -b tensorrt \\\n                      -trt \u002Fhome\u002FTensorRT-LLM\u002Fexamples\u002Fwhisper\u002Fwhisper_small_en \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n\n# Run Multilingual model\npython3 run_server.py -p 9090 \\\n                      -b tensorrt \\\n                      -trt \u002Fhome\u002FTensorRT-LLM\u002Fexamples\u002Fwhisper\u002Fwhisper_small \\\n                      -m \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n```\n- Use `--max_clients` option to restrict the number of clients the server should allow. Defaults to 4.\n- Use `--max_connection_time` options to limit connection time for a client in seconds. Defaults to 600.\n- WhisperLive now supports the [OpenVINO](https:\u002F\u002Fgithub.com\u002Fopenvinotoolkit\u002Fopenvino) backend for efficient inference on Intel CPUs, iGPU and dGPUs. Currently, we tested the models uploaded to [huggingface by OpenVINO](https:\u002F\u002Fhuggingface.co\u002FOpenVINO?search_models=whisper).\n  - > **Docker Recommended:** Running WhisperLive with OpenVINO inside Docker automatically enables GPU support (iGPU\u002FdGPU) without requiring additional host setup.\n  - > **Native (non-Docker) Use:** If you prefer running outside Docker, ensure the Intel drivers and OpenVINO runtime are installed and properly configured on your system. Refer to the documentation for [installing OpenVINO](https:\u002F\u002Fdocs.openvino.ai\u002F2025\u002Fget-started\u002Finstall-openvino.html?PACKAGE=OPENVINO_BASE&VERSION=v_2025_0_0&OP_SYSTEM=LINUX&DISTRIBUTION=PIP#).\n\n```\npython3 run_server.py -p 9090 -b openvino\n```\n\n\n#### Controlling OpenMP Threads\nTo control the number of threads used by OpenMP, you can set the `OMP_NUM_THREADS` environment variable. This is useful for managing CPU resources and ensuring consistent performance. If not specified, `OMP_NUM_THREADS` is set to `1` by default. You can change this by using the `--omp_num_threads` argument:\n```bash\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --omp_num_threads 4\n```\n\n#### Single model mode\nBy default, when running the server without specifying a model, the server will instantiate a new whisper model for every client connection. This has the advantage, that the server can use different model sizes, based on the client's requested model size. On the other hand, it also means you have to wait for the model to be loaded upon client connection and you will have increased (V)RAM usage.\n\nWhen serving a custom TensorRT model using the `-trt` or a custom faster_whisper model using the `-fw` option, the server will instead only instantiate the custom model once and then reuse it for all client connections.\n\nIf you don't want this, set `--no_single_model`.\n\n\n### Running the Client\n\nUse the below command to run the client:\n```bash\npython3 run_client.py --files \u003Caudio-file-name>\n```\nThis will connect to the localhost server running on port 9090 by default. Use flags `--server` and `--port` to use different configurations. The above command will transcribe audio file provided with `--files` flag.\n\n\nHere are the details of client instance implemented in `run_client.py` script:\n  - `lang`: Language of the input audio, applicable only if using a multilingual model.\n  - `translate`: If set to `True` then translate from any language to `en`.\n  - `model`: Whisper model size.\n  - `use_vad`: Whether to use `Voice Activity Detection` on the server.\n  - `save_output_recording`: Set to True to save the microphone input as a `.wav` file during live transcription. This option is helpful for recording sessions for later playback or analysis. Defaults to `False`. \n  - `output_recording_filename`: Specifies the `.wav` file path where the microphone input will be saved if `save_output_recording` is set to `True`.\n  - `mute_audio_playback`: Whether to mute audio playback when transcribing an audio file. Defaults to False.\n  - `enable_translation`: Start translation thread on the server (from any to any).\n  - `target_language`: Server translation thread's target translation language.\n\n```python\nfrom whisper_live.client import TranscriptionClient\nclient = TranscriptionClient(\n  \"localhost\",\n  9090,\n  lang=\"en\",\n  translate=False,\n  model=\"small\",                                      # also support hf_model => `Systran\u002Ffaster-whisper-small`\n  use_vad=False,\n  save_output_recording=True,                         # Only used for microphone input, False by Default\n  output_recording_filename=\".\u002Foutput_recording.wav\", # Only used for microphone input\n  mute_audio_playback=False,                          # Only used for file input, False by Default\n  enable_translation=True,\n  target_language=\"hi\",\n)\n```\nIt connects to the server running on localhost at port 9090. Using a multilingual model, language for the transcription will be automatically detected. You can also use the language option to specify the target language for the transcription, in this case, English (\"en\"). The translate option should be set to `True` if we want to translate from the source language to English and `False` if we want to transcribe in the source language.\n\n- Transcribe an audio file:\n```python\nclient(\"tests\u002Fjfk.wav\")\n```\n\n- To transcribe from microphone:\n```python\nclient()\n```\n\n- To transcribe from a RTSP stream:\n```python\nclient(rtsp_url=\"rtsp:\u002F\u002Fadmin:admin@192.168.0.1\u002Frtsp\")\n```\n\n- To transcribe from a HLS stream:\n```python\nclient(hls_url=\"http:\u002F\u002Fas-hls-ww-live.akamaized.net\u002Fpool_904\u002Flive\u002Fww\u002Fbbc_1xtra\u002Fbbc_1xtra.isml\u002Fbbc_1xtra-audio%3d96000.norewind.m3u8\")\n```\n\n## Browser Extensions\n- Run the server with your desired backend as shown [here](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive?tab=readme-ov-file#running-the-server).\n- Transcribe audio directly from your browser using our Chrome or Firefox extensions. Refer to [Audio-Transcription-Chrome](https:\u002F\u002Fgithub.com\u002Fcollabora\u002Fwhisper-live\u002Ftree\u002Fmain\u002FAudio-Transcription-Chrome#readme) and https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md\n\n## iOS Client\n\nUse WhisperLive on iOS with our native iOS client.  \nRefer to [`ios-client`](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Ftree\u002Fmain\u002FAudio-Transcription-iOS) and [`ios-client\u002FREADME.md`](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FAudio-Transcription-iOS\u002FREADME.md) for setup and usage instructions.\n\n\n## Whisper Live Server in Docker\n- GPU\n  - Faster-Whisper\n  ```bash\n  docker run -it --gpus all -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-gpu:latest\n  ```\n\n  - TensorRT. Refer to [TensorRT_whisper readme](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md) for setup and more tensorrt backend configurations.\n  ```bash\n  docker build . -f docker\u002FDockerfile.tensorrt -t whisperlive-tensorrt\n  docker run -p 9090:9090 --runtime=nvidia --entrypoint \u002Fbin\u002Fbash -it whisperlive-tensorrt\n\n  # Build small.en engine\n  bash build_whisper_tensorrt.sh \u002Fapp\u002FTensorRT-LLM-examples small.en        # float16\n  bash build_whisper_tensorrt.sh \u002Fapp\u002FTensorRT-LLM-examples small.en int8   # int8 weight only quantization\n  bash build_whisper_tensorrt.sh \u002Fapp\u002FTensorRT-LLM-examples small.en int4   # int4 weight only quantization\n\n  # Run server with small.en\n  python3 run_server.py --port 9090 \\\n                        --backend tensorrt \\\n                        --trt_model_path \"\u002Fapp\u002FTensorRT-LLM-examples\u002Fwhisper\u002Fwhisper_small_en_float16\"\n                        --trt_model_path \"\u002Fapp\u002FTensorRT-LLM-examples\u002Fwhisper\u002Fwhisper_small_en_int8\"\n                        --trt_model_path \"\u002Fapp\u002FTensorRT-LLM-examples\u002Fwhisper\u002Fwhisper_small_en_int4\"\n  ```\n\n  - OpenVINO\n  ```\n  docker run -it --device=\u002Fdev\u002Fdri -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-openvino\n  ```\n\n- CPU\n  - Faster-whisper\n  ```bash\n  docker run -it -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-cpu:latest\n  ```\n\n## Future Work\n- [x] Add translation to other languages on top of transcription.\n\n## Blog Posts\n- [Transforming speech technology with WhisperLive](https:\u002F\u002Fwww.collabora.com\u002Fnews-and-blog\u002Fblog\u002F2024\u002F05\u002F28\u002Ftransforming-speech-technology-with-whisperlive\u002F)\n- [WhisperFusion: Ultra-low latency conversations with an AI chatbot](https:\u002F\u002Fwww.collabora.com\u002Fnews-and-blog\u002Fnews-and-events\u002Fwhisperfusion-ultra-low-latency-conversations-with-an-ai-chatbot.html) powered by WhisperLive\n- [Breaking language barriers 2.0: Moving closer towards fully reliable, production-ready Hindi ASR](https:\u002F\u002Fwww.collabora.com\u002Fnews-and-blog\u002Fnews-and-events\u002Fbreaking-language-barriers-20-moving-closer-production-ready-hindi-asr.html) which is used in WhisperLive for hindi.\n\n## Contact\n\nWe are available to help you with both Open Source and proprietary AI projects. You can reach us via the Collabora website or [vineet.suryan@collabora.com](mailto:vineet.suryan@collabora.com) and [marcus.edel@collabora.com](mailto:marcus.edel@collabora.com).\n\n\n## Citations\n```bibtex\n@article{Whisper\n  title = {Robust Speech Recognition via Large-Scale Weak Supervision},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04356},\n  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},\n  publisher = {arXiv},\n  year = {2022},\n}\n```\n\n```bibtex\n@misc{Silero VAD,\n  author = {Silero Team},\n  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},\n  year = {2021},\n  publisher = {GitHub},\n  journal = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad}},\n  email = {hello@silero.ai}\n}\n","# WhisperLive\n\n\u003Ch2 align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=0PHWCApIcCI\">\u003Cimg\nsrc=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcollabora_WhisperLive_readme_87fac739ed75.jpg\" style=\"background-color:rgba(0,0,0,0);\" height=300 alt=\"WhisperLive\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=0f5oiG4oPWQ\">\u003Cimg\n  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcollabora_WhisperLive_readme_25bc4aebe0f5.jpg\" style=\"background-color:rgba(0,0,0,0);\" height=300 alt=\"WhisperLive\">\u003C\u002Fa>\n  \u003Cbr>\u003Cbr>OpenAI Whisper 的近实时实现。\n\u003Cbr>\u003Cbr>\n\u003C\u002Fh2>\n\n该项目是一个实时转录应用，使用 OpenAI Whisper 模型将语音输入转换为文本输出。它可以用于转录音频输入（无论是来自麦克风的实时音频，还是预先录制的音频文件）。\n\n- [安装](#installation)\n- [快速入门](#getting-started)\n- [运行服务器](#running-the-server)\n- [运行客户端](#running-the-client)\n- [浏览器扩展](#browser-extensions)\n- [Docker 中的 Whisper Live 服务器](#whisper-live-server-in-docker)\n- [未来工作](#future-work)\n- [博客文章](#blog-posts)\n- [联系方式](#contact)\n- [引用](#citations)\n\n## 安装\n- 安装 PortAudio\n```bash\n bash scripts\u002Fsetup.sh\n```\n\n- 通过 pip 安装 whisper-live\n```bash\n pip install whisper-live\n```\n\n\n- 在 Fedora 上安装 Python 3.12 虚拟环境\n\n```bash\nsudo dnf install -y python3.12 python3.12-pip\npython3.12 -m venv whisper_env\nsource whisper_env\u002Fbin\u002Factivate\n```\n\n\n### OpenAI REST 接口\n\n#### 服务器\n\n```bash\npython3 run_server.py --port 9090 --backend faster_whisper --max_clients 4 --max_connection_time 600 --enable_rest --cors-origins=\"http:\u002F\u002Flocalhost:8080,http:\u002F\u002F127.0.0.1:8080\"\n```\n\n#### 客户端\n\n```bash\npython3 client_openai.py $AUDIO_FILE\n```\n\n\n\n### 为 TensorRT 后端设置 NVIDIA\u002FTensorRT-LLM\n- 请按照 [TensorRT_whisper 自述文件](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md) 设置 [NVIDIA\u002FTensorRT-LLM](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM)，并构建 Whisper-TensorRT 引擎。\n\n## 快速入门\n服务器支持三种后端：`faster_whisper`、`tensorrt` 和 `openvino`。如果运行 `tensorrt` 后端，请遵循 [TensorRT_whisper 自述文件](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md)。\n\n### 运行服务器\n- `Faster Whisper` 后端\n```bash\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n  \n# 使用自定义模型和 cache_dir 来保存自动转换的 ctranslate2 模型\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --max_clients 4 \\\n                      --max_connection_time 600 \\\n                      -fw \"\u002Fpath\u002Fto\u002Fcustom\u002Ffaster\u002Fwhisper\u002Fmodel\" \\\n                      -c ~\u002F.cache\u002Fwhisper-live\u002F\n```\n\n- TensorRT 后端。目前，我们建议仅使用 Docker 设置来运行 TensorRT。请遵循 [TensorRT_whisper 自述文件](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md)，该设置可正常工作。在使用 TensorRT 后端运行服务器之前，请务必先构建您的 TensorRT 引擎。\n```bash\n# 运行仅支持英语的模型\npython3 run_server.py -p 9090 \\\n                      -b tensorrt \\\n                      -trt \u002Fhome\u002FTensorRT-LLM\u002Fexamples\u002Fwhisper\u002Fwhisper_small_en \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n\n# 运行多语言模型\npython3 run_server.py -p 9090 \\\n                      -b tensorrt \\\n                      -trt \u002Fhome\u002FTensorRT-LLM\u002Fexamples\u002Fwhisper\u002Fwhisper_small \\\n                      -m \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n```\n- 使用 `--max_clients` 选项限制服务器允许的最大客户端数量。默认值为 4。\n- 使用 `--max_connection_time` 选项限制每个客户端的连接时间（以秒为单位）。默认值为 600 秒。\n- WhisperLive 现在支持 [OpenVINO](https:\u002F\u002Fgithub.com\u002Fopenvinotoolkit\u002Fopenvino) 后端，可在 Intel CPU、iGPU 和 dGPU 上实现高效推理。目前，我们测试了由 OpenVINO 在 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FOpenVINO?search_models=whisper) 上上传的模型。\n  - > **推荐使用 Docker：** 在 Docker 内运行 WhisperLive 时，OpenVINO 会自动启用 GPU 支持（iGPU\u002FdGPU），无需额外的主机设置。\n  - > **非 Docker 方式：** 如果您希望在 Docker 外运行，请确保已在系统上正确安装并配置好 Intel 驱动程序和 OpenVINO 运行时环境。请参阅 [安装 OpenVINO](https:\u002F\u002Fdocs.openvino.ai\u002F2025\u002Fget-started\u002Finstall-openvino.html?PACKAGE=OPENVINO_BASE&VERSION=v_2025_0_0&OP_SYSTEM=LINUX&DISTRIBUTION=PIP#) 的相关文档。\n\n```\npython3 run_server.py -p 9090 -b openvino\n```\n\n\n#### 控制 OpenMP 线程\n要控制 OpenMP 使用的线程数，可以设置 `OMP_NUM_THREADS` 环境变量。这对于管理 CPU 资源和确保性能一致性非常有用。如果未指定，`OMP_NUM_THREADS` 默认值为 1。您可以通过 `--omp_num_threads` 参数进行更改：\n```bash\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --omp_num_threads 4\n```\n\n#### 单模型模式\n默认情况下，当不指定模型运行服务器时，服务器会为每个客户端连接实例化一个新的 Whisper 模型。这样做的优点是，服务器可以根据客户端请求的模型大小使用不同尺寸的模型。但另一方面，这也意味着您需要等待模型在客户端连接时加载，并且会增加 (V)RAM 的使用量。\n\n如果您使用 `-trt` 选项提供自定义 TensorRT 模型，或使用 `-fw` 选项提供自定义 faster_whisper 模型，则服务器只会实例化一次自定义模型，并将其重复用于所有客户端连接。\n\n如果您不希望如此，请设置 `--no_single_model`。\n\n### 运行客户端\n\n使用以下命令运行客户端：\n```bash\npython3 run_client.py --files \u003C音频文件名>\n```\n这将默认连接到在端口 9090 上运行的本地主机服务器。可以使用 `--server` 和 `--port` 标志来指定不同的配置。上述命令会转录音频文件，该文件通过 `--files` 标志提供。\n\n以下是 `run_client.py` 脚本中实现的客户端实例的详细信息：\n  - `lang`：输入音频的语言，仅适用于多语言模型。\n  - `translate`：如果设置为 `True`，则会将任何语言翻译成英语 (`en`)。\n  - `model`：Whisper 模型大小。\n  - `use_vad`：是否在服务器上使用语音活动检测 (`Voice Activity Detection`)。\n  - `save_output_recording`：设置为 `True` 可以在实时转录过程中将麦克风输入保存为 `.wav` 文件。此选项有助于记录会话，以便后续回放或分析。默认值为 `False`。\n  - `output_recording_filename`：当 `save_output_recording` 设置为 `True` 时，指定麦克风输入将被保存的 `.wav` 文件路径。\n  - `mute_audio_playback`：在转录音频文件时是否静音音频播放。默认为 `False`。\n  - `enable_translation`：在服务器上启动翻译线程（从任意语言翻译到任意语言）。\n  - `target_language`：服务器翻译线程的目标翻译语言。\n\n```python\nfrom whisper_live.client import TranscriptionClient\nclient = TranscriptionClient(\n  \"localhost\",\n  9090,\n  lang=\"en\",\n  translate=False,\n  model=\"small\",                                      # 同时支持 hf_model => `Systran\u002Ffaster-whisper-small`\n  use_vad=False,\n  save_output_recording=True,                         # 仅用于麦克风输入，默认为 False\n  output_recording_filename=\".\u002Foutput_recording.wav\", # 仅用于麦克风输入\n  mute_audio_playback=False,                          # 仅用于文件输入，默认为 False\n  enable_translation=True,\n  target_language=\"hi\",\n)\n```\n它连接到在本地主机端口 9090 上运行的服务器。使用多语言模型时，转录的语言将自动检测。您也可以使用 `lang` 选项指定转录的目标语言，在本例中为英语 (`en`)。如果希望将源语言翻译成英语，则应将 `translate` 选项设置为 `True`；如果希望以源语言进行转录，则设置为 `False`。\n\n- 转录音频文件：\n```python\nclient(\"tests\u002Fjfk.wav\")\n```\n\n- 从麦克风转录：\n```python\nclient()\n```\n\n- 从 RTSP 流转录：\n```python\nclient(rtsp_url=\"rtsp:\u002F\u002Fadmin:admin@192.168.0.1\u002Frtsp\")\n```\n\n- 从 HLS 流转录：\n```python\nclient(hls_url=\"http:\u002F\u002Fas-hls-ww-live.akamaized.net\u002Fpool_904\u002Flive\u002Fww\u002Fbbc_1xtra\u002Fbbc_1xtra.isml\u002Fbbc_1xtra-audio%3d96000.norewind.m3u8\")\n```\n\n## 浏览器扩展\n- 按照 [此处](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive?tab=readme-ov-file#running-the-server) 的说明运行带有您所需后端的服务器。\n- 使用我们的 Chrome 或 Firefox 扩展直接从浏览器转录音频。请参阅 [Audio-Transcription-Chrome](https:\u002F\u002Fgithub.com\u002Fcollabora\u002Fwhisper-live\u002Ftree\u002Fmain\u002FAudio-Transcription-Chrome#readme) 和 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md。\n\n## iOS 客户端\n\n在 iOS 上使用我们的原生 iOS 客户端运行 WhisperLive。请参阅 [`ios-client`](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Ftree\u002Fmain\u002FAudio-Transcription-iOS) 和 [`ios-client\u002FREADME.md`](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FAudio-Transcription-iOS\u002FREADME.md)，以获取设置和使用说明。\n\n\n## Docker 中的 Whisper Live 服务器\n- GPU\n  - Faster-Whisper\n  ```bash\n  docker run -it --gpus all -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-gpu:latest\n  ```\n\n  - TensorRT。请参阅 [TensorRT_whisper readme](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fblob\u002Fmain\u002FTensorRT_whisper.md)，以获取设置和其他 TensorRT 后端配置。\n  ```bash\n  docker build . -f docker\u002FDockerfile.tensorrt -t whisperlive-tensorrt\n  docker run -p 9090:9090 --runtime=nvidia --entrypoint \u002Fbin\u002Fbash -it whisperlive-tensorrt\n\n  # 构建 small.en 引擎\n  bash build_whisper_tensorrt.sh \u002Fapp\u002FTensorRT-LLM-examples small.en        # float16\n  bash build_whisper_tensorrt.sh \u002Fapp\u002FTensorRT-LLM-examples small.en int8   # 仅量化权重为 int8\n  bash build_whisper_tensorrt.sh \u002Fapp\u002FTensorRT-LLM-examples small.en int4   # 仅量化权重为 int4\n\n  # 使用 small.en 运行服务器\n  python3 run_server.py --port 9090 \\\n                        --backend tensorrt \\\n                        --trt_model_path \"\u002Fapp\u002FTensorRT-LLM-examples\u002Fwhisper\u002Fwhisper_small_en_float16\"\n                        --trt_model_path \"\u002Fapp\u002FTensorRT-LLM-examples\u002Fwhisper\u002Fwhisper_small_en_int8\"\n                        --trt_model_path \"\u002Fapp\u002FTensorRT-LLM-examples\u002Fwhisper\u002Fwhisper_small_en_int4\"\n  ```\n\n  - OpenVINO\n  ```\n  docker run -it --device=\u002Fdev\u002Fdri -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-openvino\n  ```\n\n- CPU\n  - Faster-whisper\n  ```bash\n  docker run -it -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-cpu:latest\n  ```\n\n## 未来工作\n- [x] 在转录的基础上增加对其他语言的翻译功能。\n\n## 博客文章\n- [用 WhisperLive 改变语音技术](https:\u002F\u002Fwww.collabora.com\u002Fnews-and-blog\u002Fblog\u002F2024\u002F05\u002F28\u002Ftransforming-speech-technology-with-whisperlive\u002F)\n- [WhisperFusion：与 AI 聊天机器人进行超低延迟对话](https:\u002F\u002Fwww.collabora.com\u002Fnews-and-blog\u002Fnews-and-events\u002Fwhisperfusion-ultra-low-latency-conversations-with-an-ai-chatbot.html)，由 WhisperLive 提供支持。\n- [打破语言障碍 2.0：更接近完全可靠、可投入生产的印地语 ASR](https:\u002F\u002Fwww.collabora.com\u002Fnews-and-blog\u002Fnews-and-events\u002Fbreaking-language-barriers-20-moving-closer-production-ready-hindi-asr.html)，该技术被用于 WhisperLive 中的印地语处理。\n\n## 联系方式\n\n我们随时准备帮助您开展开源和专有 AI 项目。您可以通过 Collabora 官网或通过以下邮箱联系我们：[vineet.suryan@collabora.com](mailto:vineet.suryan@collabora.com) 和 [marcus.edel@collabora.com](mailto:marcus.edel@collabora.com)。\n\n\n## 引用文献\n```bibtex\n@article{Whisper\n  title = {Robust Speech Recognition via Large-Scale Weak Supervision},\n  url = {https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.04356},\n  author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},\n  publisher = {arXiv},\n  year = {2022},\n}\n```\n\n```bibtex\n@misc{Silero VAD,\n  author = {Silero Team},\n  title = {Silero VAD：预训练的企业级语音活动检测器 (VAD)、数字检测器和语言分类器},\n  year = {2021},\n  publisher = {GitHub},\n  journal = {GitHub 仓库},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-vad}},\n  email = {hello@silero.ai}\n}","# WhisperLive 快速上手指南\n\nWhisperLive 是 OpenAI Whisper 模型的准实时（nearly-live）转录应用，支持麦克风实时输入、音频文件、RTSP\u002FHLS 流媒体的语音转文字。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐), macOS, Windows (需配置 PortAudio)\n- **Python**: 3.8+ (Fedora 等发行版推荐 Python 3.12)\n- **硬件加速 (可选)**:\n  - **NVIDIA GPU**: 需安装 CUDA 驱动 (用于 TensorRT 或 Faster-Whisper GPU 版)\n  - **Intel CPU\u002FiGPU\u002FdGPU**: 需安装 OpenVINO 运行时及驱动\n\n### 前置依赖\n在安装 Python 包之前，需先安装系统级音频库 **PortAudio**。\n\n**Ubuntu\u002FDebian:**\n```bash\nsudo apt-get update\nsudo apt-get install -y portaudio19-dev python3-pip\n```\n\n**Fedora (含 Python 3.12 环境配置):**\n```bash\nsudo dnf install -y python3.12 python3.12-pip portaudio-devel\npython3.12 -m venv whisper_env\nsource whisper_env\u002Fbin\u002Factivate\n```\n\n**macOS:**\n```bash\nbrew install portaudio\n```\n\n> **提示**: 国内用户可使用清华或阿里镜像源加速 pip 安装：\n> `pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple ...`\n\n## 安装步骤\n\n### 方法一：Pip 安装（推荐）\n最简单的方式是通过 pip 直接安装：\n\n```bash\npip install whisper-live\n```\n\n### 方法二：Docker 部署（生产环境推荐）\n无需配置本地环境，直接拉取预构建镜像。\n\n**CPU 版本 (Faster-Whisper):**\n```bash\ndocker run -it -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-cpu:latest\n```\n\n**GPU 版本 (Faster-Whisper):**\n```bash\ndocker run -it --gpus all -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-gpu:latest\n```\n\n**Intel OpenVINO 版本:**\n```bash\ndocker run -it --device=\u002Fdev\u002Fdri -p 9090:9090 ghcr.io\u002Fcollabora\u002Fwhisperlive-openvino\n```\n\n## 基本使用\n\nWhisperLive 采用 **服务端 (Server) + 客户端 (Client)** 架构。请先启动服务端，再运行客户端。\n\n### 1. 启动服务端\n默认使用 `faster_whisper` 后端，监听 9090 端口，允许最多 4 个客户端连接。\n\n```bash\npython3 run_server.py --port 9090 \\\n                      --backend faster_whisper \\\n                      --max_clients 4 \\\n                      --max_connection_time 600\n```\n\n*参数说明:*\n- `--backend`: 支持 `faster_whisper`, `tensorrt`, `openvino`。\n- `--omp_num_threads`: 控制 OpenMP 线程数（默认 1），可根据 CPU 核心数调整以提升性能。\n\n### 2. 运行客户端\n\n#### 场景 A：转录本地音频文件\n```bash\npython3 run_client.py --files tests\u002Fjfk.wav\n```\n\n#### 场景 B：实时麦克风转录\n运行后对着麦克风说话，终端将实时输出转录文本。\n```bash\npython3 run_client.py\n```\n\n#### 场景 C：在 Python 代码中集成\n你可以直接在 Python 脚本中调用客户端进行定制化开发：\n\n```python\nfrom whisper_live.client import TranscriptionClient\n\n# 初始化客户端\nclient = TranscriptionClient(\n  \"localhost\",\n  9090,\n  lang=\"en\",              # 语言代码，多语言模型可自动检测\n  translate=False,        # True 则翻译为英文，False 仅转录\n  model=\"small\",          # 模型大小：tiny, base, small, medium, large\n  use_vad=True,           # 启用语音活动检测\n  save_output_recording=False, # 是否保存录音文件\n)\n\n# 转录文件\nclient(\"tests\u002Fjfk.wav\")\n\n# 或使用麦克风实时转录\n# client()\n\n# 或转录网络流 (RTSP\u002FHLS)\n# client(rtsp_url=\"rtsp:\u002F\u002Fadmin:admin@192.168.0.1\u002Frtsp\")\n```\n\n### 3. 浏览器扩展使用\n若希望通过浏览器直接使用：\n1. 保持上述服务端运行状态。\n2. 安装 Chrome 或 Firefox 扩展程序（参考项目仓库中的 `Audio-Transcription-Chrome` 目录）。\n3. 在扩展设置中连接 `localhost:9090` 即可转录网页内的任何音频。","某跨国医疗团队正在进行远程多学科会诊，需要实时记录医生用中英混合口语发表的诊断意见并生成结构化病历草稿。\n\n### 没有 WhisperLive 时\n- 医生说完一段话后必须暂停，等待人工翻译或事后花费数小时整理录音，严重打断诊疗思路与节奏。\n- 传统离线转录工具无法处理实时音频流，导致会议结束几小时后才能拿到文字稿，延误了紧急治疗方案的制定。\n- 面对医生频繁的中英文术语切换（如\"CT 显示 mass 在 left lung\"），普通语音识别系统准确率极低，需人工逐字校对。\n- 多科室同时开会时，缺乏并发处理能力，无法为不同诊室提供独立的实时转写服务。\n\n### 使用 WhisperLive 后\n- 借助 faster_whisper 后端，WhisperLive 能以近乎零延迟的速度将医生的中英混合口语实时转为文字，医生可边说边看屏幕确认，思维流不被打断。\n- 实时流式传输特性让病历草稿在会诊进行中同步生成，会议结束即刻即可审核发送，大幅缩短从诊断到治疗的响应时间。\n- 依托 OpenAI Whisper 强大的多语言模型，WhisperLive 精准识别专业医学术语及中英文混排内容，初始准确率高达 95%，极大减少后期校对成本。\n- 通过配置 `--max_clients` 参数，单台服务器即可同时支持多个诊室的并发转写需求，满足医院高负荷运转场景。\n\nWhisperLive 将滞后的语音记录转变为实时的知识流，让医疗团队能专注于救死扶伤而非繁琐的文书工作。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fcollabora_WhisperLive_90afd7eb.png","collabora","Collabora","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fcollabora_13871d36.png","See https:\u002F\u002Fgitlab.collabora.com\u002F for more Collabora git repositories. We are hiring! https:\u002F\u002Fcol.la\u002Fcareers",null,"contact@collabora.com","https:\u002F\u002Fwww.collabora.com\u002F","https:\u002F\u002Fgithub.com\u002Fcollabora",[84,88,92,96,100,104],{"name":85,"color":86,"percentage":87},"Python","#3572A5",74,{"name":89,"color":90,"percentage":91},"JavaScript","#f1e05a",13.9,{"name":93,"color":94,"percentage":95},"Swift","#F05138",6.6,{"name":97,"color":98,"percentage":99},"HTML","#e34c26",3.3,{"name":101,"color":102,"percentage":103},"Shell","#89e051",1.5,{"name":105,"color":106,"percentage":107},"CSS","#663399",0.6,3936,541,"2026-04-04T13:05:00","MIT","Linux","可选。若使用 TensorRT 后端需 NVIDIA GPU（需构建 TensorRT 引擎）；若使用 OpenVINO 后端支持 Intel iGPU\u002FdGPU；Faster Whisper 支持 CPU 或 GPU。未明确具体显存和 CUDA 版本要求。","未说明",{"notes":116,"python":117,"dependencies":118},"1. 必须预先安装 PortAudio 系统库。2. 支持三种后端：faster_whisper（默认）、tensorrt（需额外构建引擎，推荐 Docker）、openvino（针对 Intel 硬件）。3. 提供多种 Docker 镜像以简化 GPU (NVIDIA) 或 Intel GPU (OpenVINO) 的部署。4. 服务器默认限制 4 个客户端连接，可通过参数调整。5. 客户端支持麦克风、音频文件、RTSP 流和 HLS 流输入。","3.12 (README 中明确演示了 Fedora 上安装 3.12 的步骤，暗示支持)",[119,120,121,122,123],"PortAudio","faster-whisper","openvino","NVIDIA\u002FTensorRT-LLM","whisper-live",[36,38,15],[126,127,128,129,130,131,132,133,134,135,121,136],"dictation","obs","openai","text-to-speech","translation","voice-recognition","whisper","tensorrt","tensorrt-llm","whisper-tensorrt","openvino-intel","2026-03-27T02:49:30.150509","2026-04-06T06:53:15.353235",[140,145,150,155,160,164,169],{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},16639,"如何在 Windows 上运行 WhisperLive？","Windows 用户可能会遇到兼容性问题。请参考 PR #53 中解决的类似问题。如果修改源代码后仍然报错，请尝试使用 `python setup.py install --force` 强制重新安装。注意：这种方法可能只会生成 egg 文件而未真正安装包，请检查虚拟环境中是否能看到该包。建议确保使用最新版本的代码库。","https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fissues\u002F12",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},16640,"服务器空闲时 CPU 占用率极高（如 1800%）怎么办？","这是一个已知问题，通常由音频处理循环未正确休眠导致。维护者已发布修复补丁（PR）。更新到包含该修复的最新版本后，空闲时的 CPU 占用率应降至单个核心的 100% 以下，转录时约为 500-600%。请务必拉取最新的主分支代码进行测试。","https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fissues\u002F137",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},16641,"如何使用 Python 脚本测试麦克风输入而不使用浏览器扩展？","虽然没有专门的测试脚本，但你可以直接使用提供的客户端和服务端代码进行设置。你可以编写一个 Python 脚本，通过 websocket 接口连接并流式传输系统麦克风数据。参考 Vosk 服务器的测试示例（`websocket\u002Ftest.py`），其逻辑类似：初始化 `TranscriptionClient` 并直接调用客户端实例即可启动麦克风监听。","https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fissues\u002F67",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},16642,"为什么连接 RTSP 或 HLS 流时一直显示“连接中”且没有转录结果？","首先确认你的 RTSP\u002FHLS 流在 VLC 或 Safari 中能正常播放。如果流正常但客户端无反应，可能是网络超时设置问题。默认超时限制较长（600 秒），但如果出现 20 秒后断开的情况，请检查网络连接或 SSH 隧道稳定性。建议使用 `save_output_recording=True` 参数保存录音，以排查是否是音频源本身的问题。确保使用的是 main 分支的最新代码。","https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fissues\u002F388",{"id":161,"question_zh":162,"answer_zh":163,"source_url":159},16643,"TranscriptionClient 中的 `translate` 参数是什么意思？支持将英语翻译成法语吗？","`translate` 参数用于控制是否将语音翻译为英语。当设置为 `True` 时，无论输入语言是什么，模型都会尝试将其翻译并转录为英语文本；设置为 `False` 则仅进行同语言转录。目前该功能主要支持翻译到英语，不支持直接翻译成法语等其他目标语言（即不支持 En->Fr，仅支持 X->En）。",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},16644,"启动服务器时出现大量 ONNX Runtime 警告（Removing initializer...）是否正常？","这些警告信息（如 `Removing initializer '628'`）通常是无害的，表示模型中存在未使用的初始值，ONNX Runtime 正在自动清理它们。这不会影响服务器的正常运行。如果遇到段错误（segmentation fault）或其他崩溃问题，请确保升级到最新版本并重试，因为旧版本可能存在特定的兼容性 Bug。","https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fissues\u002F39",{"id":170,"question_zh":171,"answer_zh":172,"source_url":159},16645,"客户端连接后没有收到任何转录文本，如何排查？","如果在客户端看不到返回的文本，建议启用 `save_output_recording` 参数。这将把接收到的音频保存为本地文件（如 `output_recording.wav`）。通过检查生成的音频文件，你可以确认麦克风源是否正常工作或是否有声音被成功传输到服务器。很多时候问题出在麦克风源配置错误或静音上。",[174,179,184,189,194,199,204,209,214,219,224,229,234,238,243,248,253,257,262],{"id":175,"version":176,"summary_zh":177,"released_at":178},98907,"v0.8.0","## 变更内容\n* @adamsz-lume 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F379 中使 setup.sh 能够在 macOS 上运行\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F381 中添加了高音转录视频，并新增博客文章板块\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F378 中实现了将 Hugging Face 自定义 Whisper 模型自动转换为 ct2（faster-whisper）格式\n* @ParkMazorika 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F382 中添加了 WhisperLive 的 iOS 客户端（Audio-Transcription-iOS）\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F385 中增加了浏览器扩展的 SRT 下载选项\n* @klonikar 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F384 中解决了 issue 371\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F387 中将 max_clients 和 max_connection_time 的设置从仅限服务器端改为全局配置\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F391 中集成了实时翻译功能\n* @locnnil 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F397 中修复了 run_server.py 中 max_connection_time 参数的帮助文本问题\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F412 中新增了对 faster_whisper_custom_model_path 使用 Hugging Face 模型 ID 的支持\n* @boxerab 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F414 中添加了与 OpenAI 转录 API 兼容的新 REST API 支持\n* @JenySadadia 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F415 中更新了 README.md，增加了客户端运行说明\n* @JenySadadia 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F418 中启用了转录文本的时间戳功能\n* @AlexStansfield 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F398 中更新代码以支持 faster whisper 1.2.0 版本\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F419 中将 openai-whisper 版本升级至 20250625\n* @ianwh02 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F422 中为 faster_whisper 后端添加了跨客户端 GPU 批量推理功能\n* @ianwh02 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F427 中修复了当 VAD 过滤掉所有音频时 _process_single 函数中出现的 NoneType 崩溃问题\n* @nightcityblade 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F425 中新增了在 Client\u002FTranscriptionClient 中可配置 display_segments 的功能\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F429 中将 __version__ 暴露到包根目录，并更新了 setup.py 中的依赖项\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F430 中修复了未提供 --files 参数时的崩溃问题，改为使用麦克风输入\n\n## 新贡献者\n* @adamsz-lume 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F379 中完成了首次贡献\n* @ParkMazorika 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F382 中完成了首次贡献\n* @klonikar 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F384 中完成了首次贡献\n* @locnnil 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F397 中完成了首次贡献\n* @boxerab 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F414 中完成了首次贡献\n* @JenySadadia 完成了首次…","2026-03-17T09:38:49",{"id":180,"version":181,"summary_zh":182,"released_at":183},98908,"v0.7.1","## 变更内容\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F348 中集成 OpenVINO\n* 由 @Perseus14 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F353 中修复 setup.py 中的拼写错误\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F354 中移除 faster_whisper 后端中的 clip_audio 功能\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F359 中移除空白片段功能\n* 由 @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F366 中解决线程相关方法的守护进程警告\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F368 中将 tensorrt_llm 升级至 v0.18.2\n* 由 @giubots 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F367 中增加更多参数配置的可能性\n* 由 @rover0811 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F373 中新增对安全 WebSocket (WSS) 连接的支持\n* 由 @xXLosKrachosXx 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F374 中为 Client 添加转录回调函数，用于处理转录结果\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F375 中更新 tensorrt_llm 的 Docker 部署配置\n* 由 @xXLosKrachosXx 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F376 中为 TranscriptionClient 添加转录回调参数 #361\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.6.3...v0.7.1","2025-05-15T04:56:04",{"id":185,"version":186,"summary_zh":187,"released_at":188},98909,"v0.6.3","## 变更内容\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F341 中修复了 setup.py 中的 onnxruntime 版本，以支持 Python 3.12 的 PyPI 安装。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.6.2...v0.6.3","2025-02-26T14:12:35",{"id":190,"version":191,"summary_zh":192,"released_at":193},98910,"v0.6.2","## 变更内容\n* 回退到 12.4.1 基础镜像，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F321 中完成\n* 使用 av 库替换 ffmpeg，用于重采样、RTSP 和 HLS 流，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F331 中完成\n* 添加对 Python 3.12 的支持，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F333 中完成\n* 为文件输入添加静音播放音频的选项，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F334 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.6.1...v0.6.2","2025-02-07T11:37:49",{"id":195,"version":196,"summary_zh":197,"released_at":198},98911,"v0.6.1","## 变更内容\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F318 中修复了跳过的音频片段问题\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F319 中升级了 silero vad v5\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F320 中修复了软件包名称问题\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.6.0...v0.6.1","2025-01-16T05:13:57",{"id":200,"version":201,"summary_zh":202,"released_at":203},98912,"v0.6.0","## 变更内容\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F276 中升级 tensorrt-llm==`0.10.0`\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F284 中公开客户端管理器参数\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F292 中修复 SRT 文件缺失片段的问题\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F296 中升级 faster-whisper 1.1.0rc0\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F298 中升级 faster_whisper==1.1.0 正式版\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F297 中支持加载 Hugging Face 模型\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F299 中修复针对 Python 3.8 的依赖和测试问题\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F301 中升级 tensorrt_llm==0.15.0\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F307 中将 Docker TensorRT 任务超时时间设置为 60 分钟\n* 由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F316 中为线程共享变量的更新和读取添加锁\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.5.1...v0.6.0","2025-01-07T12:40:44",{"id":205,"version":206,"summary_zh":207,"released_at":208},98913,"v0.5.1","## 变更内容\n* @t-nil 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F236 中修复了示例中缺失的反斜杠\n* @berkaybilik 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F243 中使 backend 参数更加安全\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F247 中将 silero VAD ONNX 模型版本固定为 v4.0\n* @sondt2709 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F257 中通过确保消费 stderr 来修复 FFmpeg 子进程中的死锁问题\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F262 中丢弃无语音段\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F272 中将 last_segment 初始化为 None\n* @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F274 中根据设备能力设置 compute_type\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.5.0...v0.5.1","2024-09-05T04:07:30",{"id":210,"version":211,"summary_zh":212,"released_at":213},98914,"v0.5.0","## 变更内容\n* 优化了 CPU 和 GPU 的 Dockerfile，生成的镜像体积大幅减小，由 @peldszus 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F206 中完成。\n* 添加选项：在转录的同时将网络流保存到本地文件，由 @fraic 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F192 中实现。\n* 修复：通过设置…来限制 VAD ONNX Runtime 推理会话的 CPU 使用率，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F215 中完成。\n* 添加对 RTSP 流的支持，由 @dshepelev15 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F212 中实现。\n* 将音频帧写入功能设为可选，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F216 中完成。\n* 向 Transcription 客户端公开 SRT 文件的存储位置，由 @chien-liu 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F224 中实现。\n* 将 TensorRT LLM 更新至 v0.9.0，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F227 中完成。\n* 单模型模式，由 @peldszus 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F223 中实现。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.4.1...v0.5.0","2024-06-07T05:57:56",{"id":215,"version":216,"summary_zh":217,"released_at":218},98915,"v0.4.1","## 变更内容\n* 不再在关闭时清除 server_error 标志。由 @jsichi 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F187 中完成。\n* 修复客户端关闭问题。由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F190 中完成。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.4.0...v0.4.1","2024-03-22T07:01:48",{"id":220,"version":221,"summary_zh":222,"released_at":223},98916,"v0.4.0","## 变更内容\n* 每当有新标签时构建并推送 Docker 镜像，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F161 中完成\n* 升级 faster-whisper 到版本 1.0.1，由 @makaveli10 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F163 中完成\n* 处理在没有麦克风的系统上的失败情况，由 @FlippFuzz 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F173 中完成\n* 修复 setup.py 中 faster-whisper 的版本问题，由 @FlippFuzz 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F175 中完成\n* 添加支持通过运行不同任务的多个客户端处理同一音频流，由 @jsichi 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F174 中完成\n\n## 新贡献者\n* @FlippFuzz 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F173 中完成了首次贡献\n* @jsichi 在 https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F174 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.3.0...v0.4.0","2024-03-20T06:35:49",{"id":225,"version":226,"summary_zh":227,"released_at":228},98917,"v0.3.0","## What's Changed\r\n* Fix docker image gpu by @makaveli10 in https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F156\r\n* fix: lanuguage, task prefix in decoder start ids by @makaveli10 in https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F157\r\n* fix: cpu usage issue by @makaveli10 in https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F158\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fcompare\u002Fv0.2.1...v0.3.0","2024-02-28T18:13:50",{"id":230,"version":231,"summary_zh":232,"released_at":233},98918,"v0.2.1","- Add unittests\r\n- update requirements to include `scipy`\r\n- code format\u002Fquality check according to flake8\r\n- `vad` is now an option that the client can set if they want to use it or not\r\n- docker image for both cpu and gpu are pushed to ghcr on new tag","2024-02-22T05:46:57",{"id":235,"version":236,"summary_zh":232,"released_at":237},98919,"v0.2.0","2024-02-22T05:34:22",{"id":239,"version":240,"summary_zh":241,"released_at":242},98920,"v0.1.0","**Major**\r\n-  [TensorRT Backend](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F104)\r\n- [Save Trasncript as `srt` file at the end of session](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F121)\r\n\r\n**Minor**\r\n- [Fix key error for `initial_prompt` and `vad_params`](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F96)\r\n- [Change model size param name](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F98)\r\n- [Custom model model usage controlled by server](https:\u002F\u002Fgithub.com\u002Fcollabora\u002FWhisperLive\u002Fpull\u002F102)\r\n","2024-02-05T17:14:04",{"id":244,"version":245,"summary_zh":246,"released_at":247},98921,"v0.0.11","- bug fixes","2024-01-12T09:56:22",{"id":249,"version":250,"summary_zh":251,"released_at":252},98922,"v0.0.10","- Support large-v3\r\n- bug fixes","2024-01-01T12:51:57",{"id":254,"version":255,"summary_zh":79,"released_at":256},98923,"v0.0.9","2024-01-01T11:04:15",{"id":258,"version":259,"summary_zh":260,"released_at":261},98924,"v0.0.8","- Update Faster Whisper, VAD part of faster whisper transcribe method, faster language detection","2023-11-20T17:06:46",{"id":263,"version":264,"summary_zh":79,"released_at":265},98925,"v0.0.7","2023-10-14T17:00:22"]