[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Const-me--Whisper":3,"tool-Const-me--Whisper":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":79,"owner_location":80,"owner_email":79,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":83,"stars":108,"forks":109,"last_commit_at":110,"license":111,"difficulty_score":23,"env_os":112,"env_gpu":113,"env_ram":114,"env_deps":115,"category_tags":122,"github_topics":79,"view_count":123,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":124,"updated_at":125,"faqs":126,"releases":160},2923,"Const-me\u002FWhisper","Whisper","High-performance GPGPU inference of OpenAI's Whisper automatic speech recognition (ASR) model","Whisper 是一款专为 Windows 系统打造的高性能语音识别工具，能够将音频文件实时转换为文字，甚至支持麦克风直播录音的即时转录与翻译。它源自 OpenAI 的 Whisper 模型，经过 C++ 重构与显卡加速优化，显著解决了原版在 Windows 上依赖庞大、运行速度慢的问题。\n\n相比官方实现，Whisper 无需安装复杂的 Python 环境或数 GB 的运行时库，仅需一个极小的动态库即可运行。其核心亮点在于利用 DirectCompute 技术调用显卡（GPGPU）进行并行计算，在普通 GeForce 显卡上即可实现比 CPU 快数倍的转录速度，同时大幅降低内存占用。此外，它还内置了语音活动检测功能，能自动过滤静音片段，并兼容绝大多数音视频格式。\n\n这款工具非常适合需要在 Windows 本地高效处理语音数据的普通用户、内容创作者及开发者。对于普通用户，提供的桌面版程序界面友好，下载即用；对于开发者，它提供了简洁的 API 和 PowerShell 脚本支持，便于集成到各类应用中。只要你的电脑配备支持 Direct3D 11 的独立显卡（2011 年后主流硬件均符合），","Whisper 是一款专为 Windows 系统打造的高性能语音识别工具，能够将音频文件实时转换为文字，甚至支持麦克风直播录音的即时转录与翻译。它源自 OpenAI 的 Whisper 模型，经过 C++ 重构与显卡加速优化，显著解决了原版在 Windows 上依赖庞大、运行速度慢的问题。\n\n相比官方实现，Whisper 无需安装复杂的 Python 环境或数 GB 的运行时库，仅需一个极小的动态库即可运行。其核心亮点在于利用 DirectCompute 技术调用显卡（GPGPU）进行并行计算，在普通 GeForce 显卡上即可实现比 CPU 快数倍的转录速度，同时大幅降低内存占用。此外，它还内置了语音活动检测功能，能自动过滤静音片段，并兼容绝大多数音视频格式。\n\n这款工具非常适合需要在 Windows 本地高效处理语音数据的普通用户、内容创作者及开发者。对于普通用户，提供的桌面版程序界面友好，下载即用；对于开发者，它提供了简洁的 API 和 PowerShell 脚本支持，便于集成到各类应用中。只要你的电脑配备支持 Direct3D 11 的独立显卡（2011 年后主流硬件均符合），就能轻松体验流畅的离线语音转写服务。","﻿This project is a Windows port of the [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) implementation.\u003Cbr\u002F>\nWhich in turn is a C++ port of [OpenAI's Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) automatic speech recognition (ASR) model.\n\n# Quick Start Guide\n\nDownload WhisperDesktop.zip from the “Releases” section of this repository, unpack the ZIP, and run WhisperDesktop.exe.\n\nOn the first screen it will ask you to download a model.\u003Cbr\u002F>\nI recommend `ggml-medium.bin` (1.42GB in size), because I’ve mostly tested the software with that model.\u003Cbr\u002F>\n![Load Model Screen](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_readme_7408f9211319.png)\n\nThe next screen allows to transcribe an audio file.\u003Cbr\u002F>\n![Transcribe Screen](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_readme_9553a7043b3b.png)\n\nThere’s another screen which allows to capture and transcribe or translate live audio from a microphone.\u003Cbr\u002F>\n![Capture Screen](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_readme_0419aba4d2c5.png)\n\n# Features\n\n* Vendor-agnostic GPGPU based on DirectCompute; another name for that technology is “compute shaders in Direct3D 11”\n\n* Plain C++ implementation, no runtime dependencies except essential OS components\n\n* Much faster than OpenAI’s implementation.\u003Cbr\u002F>\nOn my desktop computer with GeForce [1080Ti](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGeForce_10_series#GeForce_10_(10xx)_series_for_desktops) GPU,\nmedium model, [3:24 min speech](https:\u002F\u002Fupload.wikimedia.org\u002Fwikipedia\u002Fcommons\u002F1\u002F1f\u002FGeorge_W_Bush_Columbia_FINAL.ogg)\ntook 45 seconds to transcribe with PyTorch and CUDA, but only 19 seconds with my implementation and DirectCompute.\u003Cbr\u002F>\nFunfact: that’s 9.63 gigabytes runtime dependencies, versus 431 kilobytes `Whisper.dll`\n\n* Mixed F16 \u002F F32 precision: Windows \n[requires support](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fwindows\u002Fwin32\u002Fdirect3ddxgi\u002Fformat-support-for-direct3d-feature-level-10-0-hardware#dxgi_format_r16_floatfcs-54)\nof `R16_FLOAT` buffers since D3D version 10.0\n\n* Built-in performance profiler which measures execution time of individual compute shaders\n\n* Low memory usage\n\n* Media Foundation for audio handling, supports most audio and video formats (with the notable exception of Ogg Vorbis),\nand most audio capture devices which work on Windows (except some professional ones, which only implementing [ASIO](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FAudio_Stream_Input\u002FOutput) API).\n\n* Voice activity detection for audio capture.\u003Cbr\u002F>\nThe implementation is based on the [2009 article](https:\u002F\u002Fwww.researchgate.net\u002Fpublication\u002F255667085_A_simple_but_efficient_real-time_voice_activity_detection_algorithm)\n“A simple but efficient real-time voice activity detection algorithm” by Mohammad Moattar and Mahdi Homayoonpoor.\n\n* Easy to use COM-style API. Idiomatic C# wrapper [available on nuget](https:\u002F\u002Fwww.nuget.org\u002Fpackages\u002FWhisperNet\u002F).\u003Cbr\u002F>\nVersion 1.10 [introduced](https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Ftree\u002Fmaster\u002FWhisperPS)\nscripting support for PowerShell 5.1, that’s the older “Windows PowerShell” version which comes pre-installed on Windows.\n\n* Pre-built binaries available\n\nThe only supported platform is 64-bit Windows.\u003Cbr\u002F>\nShould work on Windows 8.1 or newer, but I have only tested on Windows 10.\u003Cbr\u002F>\nThe library requires a Direct3D 11.0 capable GPU, which in 2023 simply means “any hardware GPU”.\nThe most recent GPU without D3D 11.0 support was Intel [Sandy Bridge](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FSandy_Bridge) from 2011.\n\nOn the CPU side, the library requires [AVX1](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FAdvanced_Vector_Extensions) and [F16C](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FF16C) support.\n\n# Developer Guide\n\n## Build Instructions\n\n1. Clone this repository\n\n2. Open `WhisperCpp.sln` in Visual Studio 2022. I’m using the freeware community edition, version 17.4.4.\n\n3. Switch to `Release` configuration\n\n4. Build and run `CompressShaders` C# project, in the `Tools` subfolder of the solution.\nTo run that project, right click in visual studio, “Set as startup project”, then in the main menu of VS “Debug \u002F Start Without Debugging”.\nWhen completed successfully, you should see a console window with a line like that:\u003Cbr\u002F>\n`Compressed 46 compute shaders, 123.5 kb -> 18.0 kb`\n\n5. Build `Whisper` project to get the native DLL, or `WhisperNet` for the C# wrapper and nuget package, or the examples.\n\n## Other Notes\n\nIf you gonna consume the library in a software built with Visual C++ 2022 or newer, you probably redistribute Visual C++ runtime DLLs in the form of the `.msm` merge module,\nor [vc_redist.x64.exe](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fcpp\u002Fwindows\u002Flatest-supported-vc-redist?view=msvc-170) binary.\u003Cbr\u002F>\nIf you do that, right click on the `Whisper` project, Properties, C\u002FC++, Code Generation,\nswitch “Runtime Library” setting from `Multi-threaded (\u002FMT)` to `Multi-threaded DLL (\u002FMD)`,\nand rebuild: the binary will become smaller.\n\nThe library includes [RenderDoc](https:\u002F\u002Frenderdoc.org\u002F) GPU debugger integration.\u003Cbr\u002F>\nWhen launched your program from RenderDoc, hold F12 key to capture the compute calls.\u003Cbr\u002F>\nIf you gonna debug HLSL shaders, use the debug build of the DLL, it includes debug build of the shaders and you’ll get better UX in the debugger.\n\nThe repository includes a lot of code which was only used for development:\ncouple alternative model implementations, compatible FP64 versions of some compute shaders, debug tracing and the tool to compare the traces, etc.\u003Cbr\u002F>\nThat stuff is disabled by preprocessor macros or `constexpr` flags, I hope it’s fine to keep here.\n\n## Performance Notes\n\nI have a limited selection of GPUs in this house.\u003Cbr\u002F>\nSpecifically, I have optimized for nVidia 1080Ti, Radeon Vega 8 inside Ryzen 7 5700G, and Radeon Vega 7 inside Ryzen 5 5600U.\u003Cbr\u002F>\n[Here’s the summary](https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fblob\u002Fmaster\u002FSampleClips\u002Fsummary.tsv).\n\nThe nVidia delivers relative speed 5.8 for the large model, 10.6 for the medium model.\u003Cbr\u002F>\nThe AMD Ryzen 5 5600U APU delivers relative speed about 2.2 for the medium model. Not great, but still, much faster than realtime.\n\nI have also tested on [nVidia 1650](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGeForce_16_series#Desktop): slower than 1080Ti but pretty good, much faster than realtime.\u003Cbr\u002F>\nI have also tested on Intel HD Graphics 4000 inside Core i7-3612QM, the relative speed was 0.14 for medium model, 0.44 for small model.\nThat’s much slower than realtime, but I was happy to find my software works even on the integrated mobile GPU [launched](https:\u002F\u002Fark.intel.com\u002Fproducts\u002F64901) in 2012.\n\nI’m not sure the performance is ideal on discrete AMD GPUs, or integrated Intel GPUs, have not specifically optimized for them.\u003Cbr\u002F>\nIdeally, they might need slightly different builds of a couple of the most expensive compute shaders, `mulMatTiled.hlsl` and `mulMatByRowTiled.hlsl`\u003Cbr\u002F>\nAnd maybe other adjustments, like the `useReshapedMatMul()` value in `Whisper\u002FD3D\u002Fdevice.h` header file.\n\nI don’t know how to measure that, but I have a feeling the bottleneck is memory, not compute.\u003Cbr\u002F>\nSomeone on Hacker News [has tested](https:\u002F\u002Fnews.ycombinator.com\u002Fitem?id=34408429) on [3060Ti](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGeForce_30_series#Desktop),\nthe version with GDDR6 memory.\nCompared to 1080Ti, that GPU has 1.3x FP32 FLOPS, but 0.92x VRAM bandwidth.\nThe app was about 10% slower on the 3060Ti.\n\n## Further Optimisations\n\nI have only spent a few days optimizing performance of these shaders.\u003Cbr\u002F>\nIt might be possible to do much better, here’s a few ideas.\n\n* Newer GPUs like Radeon Vega or nVidia 1650 have higher FP16 performance compared to FP32, yet my compute shaders are only using FP32 data type.\u003Cbr\u002F>\n[Half The Precision, Twice The Fun](https:\u002F\u002Ftherealmjp.github.io\u002Fposts\u002Fshader-fp16\u002F)\n\n* In the current version, FP16 tensors are using shader resource views to upcast loaded values, and unordered access views to downcast stored ones.\u003Cbr\u002F>\nMight be a good idea to switch to [byte address buffers](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fwindows\u002Fwin32\u002Fdirect3d11\u002Fdirect3d-11-advanced-stages-cs-resources#byte-address-buffer),\nload\u002Fstore complete 4-bytes values, and upcast \u002F downcast in HLSL with `f16tof32` \u002F `f32tof16` intrinsics.\n\n* In the current version all shaders are compiled offline, and `Whisper.dll` includes DXBC byte codes.\u003Cbr\u002F>\nThe HLSL compiler `D3DCompiler_47.dll` is an OS component, and is pretty fast.\nFor the expensive compute shaders, it’s probably a good idea to ship HLSL instead of DXBC,\nand [compile](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fwindows\u002Fwin32\u002Fapi\u002Fd3dcompiler\u002Fnf-d3dcompiler-d3dcompile) on startup\nwith environment-specific [values](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fwindows\u002Fwin32\u002Fapi\u002Fd3dcommon\u002Fns-d3dcommon-d3d_shader_macro) for the macros.\n\n* It might be a good idea to upgrade the whole thing from D3D11 to D3D12.\u003Cbr\u002F>\nThe newer API is harder to use, but includes potentially useful features not exposed to D3D11:\n[wave intrinsics](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002FDirectXShaderCompiler\u002Fwiki\u002FWave-Intrinsics),\nand [explicit FP16](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDirectXShaderCompiler\u002Fwiki\u002F16-Bit-Scalar-Types).\n\n## Missing Features\n\nAutomatic language detection is not implemented.\n\nIn the current version there’s high latency for realtime audio capture.\u003Cbr\u002F>\nSpecifically, depending on voice detection the figure is about 5-10 seconds.\u003Cbr\u002F>\nAt least in my tests, the model wasn’t happy when I supplied too short pieces of the audio.\u003Cbr\u002F>\nI have increased the latency and called it a day, but ideally this needs a better fix for optimal UX.\n\n# Final Words\n\nFrom my perspective, this is an unpaid hobby project, which I completed over the 2022-23 winter holydays.\u003Cbr\u002F>\nThe code probably has bugs.\u003Cbr\u002F>\nThe software is provided “as is”, without warranty of any kind.\n\nThanks to [Georgi Gerganov](https:\u002F\u002Fgithub.com\u002Fggerganov) for [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) implementation,\nand the models in GGML binary format.\u003Cbr\u002F>\nI don’t program Python, and I don’t know anything about the ML ecosystem.\u003Cbr\u002F>\nI wouldn’t even start this project without a good C++ reference implementation, to test my version against.\n\nThat whisper.cpp project has an example which [uses](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Fblob\u002Fmaster\u002Fexamples\u002Ftalk\u002Fgpt-2.cpp)\nthe same GGML implementation to run another OpenAI’s model, [GPT-2](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGPT-2).\u003Cbr\u002F>\nIt shouldn’t be hard to support that ML model with the compute shaders and relevant infrastructure already implemented in this project.\n\nIf you find this useful, I’ll be very grateful if you consider a donation to [“Come Back Alive” foundation](https:\u002F\u002Fsavelife.in.ua\u002Fen\u002F).","该项目是 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 实现的 Windows 移植版。\u003Cbr\u002F>\n而 whisper.cpp 本身则是对 [OpenAI 的 Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) 自动语音识别（ASR）模型的 C++ 移植。\n\n# 快速入门指南\n\n从本仓库的“Releases”部分下载 WhisperDesktop.zip，解压 ZIP 文件后运行 WhisperDesktop.exe。\n\n在第一个界面上，程序会提示您下载一个模型。\u003Cbr\u002F>\n我推荐使用 `ggml-medium.bin`（大小为 1.42GB），因为我主要就是用这个模型测试过该软件。\u003Cbr\u002F>\n![加载模型界面](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_readme_7408f9211319.png)\n\n下一个界面允许您转录音频文件。\u003Cbr\u002F>\n![转录界面](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_readme_9553a7043b3b.png)\n\n还有一个界面可以捕获并实时转录或翻译来自麦克风的音频。\u003Cbr\u002F>\n![捕获界面](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_readme_0419aba4d2c5.png)\n\n# 功能特性\n\n* 基于 DirectCompute 的厂商无关 GPGPU；该技术也被称为“Direct3D 11 中的计算着色器”。\n\n* 纯 C++ 实现，除操作系统必备组件外无其他运行时依赖。\n\n* 比 OpenAI 的原生实现快得多。\u003Cbr\u002F>\n在我配备 GeForce [1080Ti](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGeForce_10_series#GeForce_10_(10xx)_series_for_desktops) 显卡的台式机上，\n使用 medium 模型处理一段 [3 分 24 秒的语音](https:\u002F\u002Fupload.wikimedia.org\u002Fwikipedia\u002Fcommons\u002F1\u002F1f\u002FGeorge_W_Bush_Columbia_FINAL.ogg)\n时，PyTorch 结合 CUDA 需要 45 秒，而我的实现结合 DirectCompute 仅需 19 秒。\u003Cbr\u002F>\n有趣的是：前者需要 9.63 GB 的运行时依赖，而后者仅需 431 KB 的 `Whisper.dll`。\n\n* 混合 F16\u002FF32 精度：Windows \u003Ca href=\"https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fwindows\u002Fwin32\u002Fdirect3ddxgi\u002Fformat-support-for-direct3d-feature-level-10-0-hardware#dxgi_format_r16_floatfcs-54\">要求支持\u003C\u002Fa> D3D 10.0 版本及更高版本中的 `R16_FLOAT` 缓冲区。\n\n* 内置性能剖析器，可测量各个计算着色器的执行时间。\n\n* 内存占用低。\n\n* 使用 Media Foundation 处理音频，支持大多数音频和视频格式（Ogg Vorbis 是少数例外），\n以及大多数可在 Windows 上使用的音频采集设备（某些专业设备除外，它们仅支持 [ASIO](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FAudio_Stream_Input\u002FOutput) API）。\n\n* 音频采集中的语音活动检测。\u003Cbr\u002F>\n该实现基于 Mohammad Moattar 和 Mahdi Homayoonpoor 于 2009 年发表的论文《一种简单但高效的实时语音活动检测算法》。\n\n* 易于使用的 COM 风格 API。C# 封装库已在 nuget 上发布：\u003Ca href=\"https:\u002F\u002Fwww.nuget.org\u002Fpackages\u002FWhisperNet\u002F\">WhisperNet\u003C\u002Fa>\u003Cbr\u002F>\n版本 1.10 引入了对 PowerShell 5.1 的脚本支持，即预装于 Windows 上的老版“Windows PowerShell”。\n\n* 提供预编译的二进制文件。\n\n目前仅支持 64 位 Windows 系统。\u003Cbr\u002F>\n理论上应在 Windows 8.1 或更高版本上运行，但我仅在 Windows 10 上进行了测试。\u003Cbr\u002F>\n该库需要支持 Direct3D 11.0 的显卡，而在 2023 年，这几乎等同于任何独立显卡。\n最后一款不支持 D3D 11.0 的显卡是 Intel [Sandy Bridge](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FSandy_Bridge) 系列，发布于 2011 年。\n\n在 CPU 方面，该库需要支持 [AVX1](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FAdvanced_Vector_Extensions) 和 [F16C](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FF16C) 指令集。\n\n# 开发者指南\n\n## 构建说明\n\n1. 克隆本仓库。\n\n2. 在 Visual Studio 2022 中打开 `WhisperCpp.sln`。我使用的是免费的社区版，版本号为 17.4.4。\n\n3. 切换到 `Release` 配置。\n\n4. 构建并运行解决方案中 `Tools` 子文件夹下的 `CompressShaders` C# 项目。\n要运行该项目，右键点击项目，在 Visual Studio 中选择“设为启动项目”，然后在主菜单中选择“调试\u002F开始执行（不调试）”。\n成功完成后，您将看到一个控制台窗口，显示类似以下内容：\u003Cbr\u002F>\n`压缩了 46 个计算着色器，从 123.5 KB 减少到 18.0 KB`\n\n5. 构建 `Whisper` 项目以生成原生 DLL，或构建 `WhisperNet` 以获取 C# 封装库和 nuget 包，亦或编译示例程序。\n\n## 其他说明\n\n如果您使用 Visual C++ 2022 或更高版本开发软件，并计划分发该库，则可能需要以 `.msm` 合并模块的形式重新分发 Visual C++ 运行时 DLL，\n或者使用 [vc_redist.x64.exe](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fcpp\u002Fwindows\u002Flatest-supported-vc-redist?view=msvc-170) 二进制文件。\u003Cbr\u002F>\n如果是这样，请右键单击 `Whisper` 项目，选择“属性”，进入“C\u002FC++”->“代码生成”，\n将“运行库”设置从 `多线程 (\u002FMT)` 更改为 `多线程 DLL (\u002FMD)`，\n然后重新构建：生成的二进制文件将会更小。\n\n该库集成了 GPU 调试工具 [RenderDoc](https:\u002F\u002Frenderdoc.org\u002F)。\u003Cbr\u002F>\n当您通过 RenderDoc 启动程序时，按住 F12 键即可捕获计算调用。\u003Cbr\u002F>\n如果需要调试 HLSL 着色器，建议使用调试版 DLL，其中包含调试版着色器，这样在调试器中可以获得更好的用户体验。\n\n本仓库还包含许多仅用于开发的代码：\n例如几种替代模型的实现、部分计算着色器的 FP64 兼容版本、调试跟踪功能以及用于比较跟踪日志的工具等。\u003Cbr\u002F>\n这些内容通常通过预处理器宏或 `constexpr` 标志进行禁用，我认为保留在这里并无问题。\n\n## 性能说明\n\n这台电脑上可用的显卡种类有限。\u003Cbr\u002F>\n具体来说，我已针对以下硬件进行了优化：nVidia 1080Ti、Ryzen 7 5700G 内置的 Radeon Vega 8，以及 Ryzen 5 5600U 内置的 Radeon Vega 7。\u003Cbr\u002F>\n[汇总信息请见此处](https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fblob\u002Fmaster\u002FSampleClips\u002Fsummary.tsv)。\n\n对于大型模型，nVidia 显卡的相对速度为 5.8；对于中型模型，则为 10.6。\u003Cbr\u002F>\n而 AMD Ryzen 5 5600U 的 APU 在处理中型模型时，相对速度约为 2.2。虽然不算出色，但仍然远超实时速度。\n\n我还测试了 [nVidia 1650](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGeForce_16_series#Desktop)：其速度虽不及 1080Ti，但仍相当不错，远超实时。\u003Cbr\u002F>\n此外，我也在 Core i7-3612QM 内置的 Intel HD Graphics 4000 上进行了测试，结果中型模型的相对速度为 0.14，小型模型为 0.44。\n这一速度远低于实时，不过我很高兴地发现，我的软件甚至能在 2012 年推出的集成移动显卡上运行。\n\n目前尚不确定独立 AMD 显卡或集成 Intel 显卡上的性能是否理想，因为我并未专门为此进行优化。\u003Cbr\u002F>\n理想情况下，可能需要对几款最耗时的计算着色器——`mulMatTiled.hlsl` 和 `mulMatByRowTiled.hlsl`——进行略微不同的编译。\u003Cbr\u002F>\n此外，或许还需要调整 `Whisper\u002FD3D\u002Fdevice.h` 头文件中的 `useReshapedMatMul()` 参数。\n\n我不太清楚如何准确衡量瓶颈所在，但直觉告诉我，问题主要在于内存带宽，而非计算能力。\u003Cbr\u002F>\nHacker News 上有人 [测试](https:\u002F\u002Fnews.ycombinator.com\u002Fitem?id=34408429) 了 [3060Ti](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGeForce_30_series#Desktop)，该版本配备了 GDDR6 显存。\n与 1080Ti 相比，这款显卡的 FP32 浮点运算能力提升了 1.3 倍，但显存带宽却下降至 0.92 倍。结果显示，应用程序在 3060Ti 上的运行速度慢了约 10%。\n\n## 进一步优化建议\n\n我仅用了几天时间来优化这些着色器的性能。\u003Cbr\u002F>\n实际上还有很大的提升空间，以下是一些可能的方向：\n\n* 较新的显卡，如 Radeon Vega 或 nVidia 1650，其 FP16 性能通常高于 FP32，而我的计算着色器目前仍只使用 FP32 数据类型。\u003Cbr\u002F>\n[精度减半，乐趣加倍](https:\u002F\u002Ftherealmjp.github.io\u002Fposts\u002Fshader-fp16\u002F)\n\n* 当前版本中，FP16 张量通过着色器资源视图将加载值上转换为 FP32，并通过无序访问视图将存储值下转换为 FP16。\u003Cbr\u002F>\n或许可以改用 [字节地址缓冲区](https:\u002F\u002Flearn.microsoft.com\u002Fen-us\u002Fwindows\u002Fwin32\u002Fdirect3d11\u002Fdirect3d-11-advanced-stages-cs-resources#byte-address-buffer)，\n直接加载和存储完整的 4 字节数据，然后在 HLSL 中利用 `f16tof32` 和 `f32tof16` 内建函数进行上下转换。\n\n* 目前所有着色器都是离线编译的，`Whisper.dll` 文件中包含的是 DXBC 字节码。\u003Cbr\u002F>\nHLSL 编译器 `D3DCompiler_47.dll` 是操作系统的一部分，且编译速度很快。\n对于那些计算密集型着色器，或许更适合分发 HLSL 源代码而不是 DXBC 字节码，并在启动时根据运行环境的特定参数（如 `D3D_SHADER_MACRO`）进行即时编译。\n\n* 将整个项目从 D3D11 升级到 D3D12 也是一个不错的方向。\u003Cbr\u002F>\n新 API 虽然使用起来更复杂，但提供了 D3D11 所不具备的一些潜在有用特性：\n[wave 内建函数](https:\u002F\u002Fgithub.com\u002FMicrosoft\u002FDirectXShaderCompiler\u002Fwiki\u002FWave-Intrinsics)\n以及 [显式 FP16 支持](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDirectXShaderCompiler\u002Fwiki\u002F16-Bit-Scalar-Types)。\n\n## 缺失功能\n\n尚未实现自动语言检测功能。\n\n当前版本在实时音频捕获方面存在较高的延迟。\u003Cbr\u002F>\n具体而言，根据语音检测的情况，延迟大约为 5 到 10 秒。\u003Cbr\u002F>\n至少在我的测试中，当输入的音频片段过短时，模型表现并不理想。\u003Cbr\u002F>\n为了改善用户体验，我暂时提高了延迟，但这并非最佳解决方案。\n\n# 结语\n\n在我看来，这是一个无偿的业余项目，我在 2022-23 年冬季假期期间完成了它。\u003Cbr\u002F>\n代码中可能存在一些错误。\u003Cbr\u002F>\n本软件按“原样”提供，不提供任何形式的担保。\n\n感谢 [Georgi Gerganov](https:\u002F\u002Fgithub.com\u002Fggerganov) 开发的 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 实现，以及其中以 GGML 二进制格式存储的模型。\u003Cbr\u002F>\n我并不擅长 Python 编程，也对机器学习生态系统知之甚少。\u003Cbr\u002F>\n如果没有一个优秀的 C++ 参考实现作为对照，我根本不会开始这个项目。\n\nwhisper.cpp 项目中有一个示例，[使用](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Fblob\u002Fmaster\u002Fexamples\u002Ftalk\u002Fgpt-2.cpp) 同样的 GGML 实现来运行另一款 OpenAI 的模型——[GPT-2](https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FGPT-2)。\u003Cbr\u002F>\n借助本项目中已实现的计算着色器及相关基础设施，支持该机器学习模型应该并不困难。\n\n如果您觉得这个项目有所帮助，恳请您考虑向 [“Come Back Alive” 基金会](https:\u002F\u002Fsavelife.in.ua\u002Fen\u002F) 捐款。","# Whisper (Windows 桌面版) 快速上手指南\n\n本项目是 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 的 Windows 移植版本，底层基于 OpenAI 的 Whisper 自动语音识别 (ASR) 模型。它利用 DirectCompute (Direct3D 11) 进行 GPU 加速，无需庞大的 Python 运行时依赖，在支持的硬件上比原版实现更快且内存占用更低。\n\n## 环境准备\n\n### 系统要求\n*   **操作系统**：64 位 Windows 8.1 或更高版本（推荐 Windows 10\u002F11）。\n*   **GPU 要求**：支持 Direct3D 11.0 的显卡（2011 年后的主流独立显卡及大部分核显均支持，如 NVIDIA GeForce 10 系列及以上、AMD Radeon Vega 系列等）。\n*   **CPU 要求**：处理器需支持 **AVX1** 和 **F16C** 指令集。\n\n### 前置依赖\n*   **无需安装额外运行时**：该工具为纯 C++ 实现，除操作系统核心组件外无其他运行时依赖（如不需要安装 Python、PyTorch 或 CUDA Toolkit）。\n*   **可选开发环境**：若仅需使用成品软件，无需安装 Visual Studio；若需二次开发或编译，需安装 Visual Studio 2022 (Community 版即可)。\n\n## 安装步骤\n\n本项目提供预编译的二进制文件，普通用户推荐直接使用发布包。\n\n1.  **下载发布包**\n    访问本仓库的 **\"Releases\"** 页面，下载最新的 `WhisperDesktop.zip` 文件。\n\n2.  **解压文件**\n    将下载的 ZIP 文件解压到任意本地目录（建议路径不包含中文字符或空格）。\n\n3.  **运行程序**\n    双击运行目录中的 `WhisperDesktop.exe` 启动图形界面。\n\n> **开发者注意**：如需自行编译，请克隆仓库并在 VS2022 中打开 `WhisperCpp.sln`，先构建并运行 `Tools\u002FCompressShaders` 项目，再构建 `Whisper` 或 `WhisperNet` 项目。\n\n## 基本使用\n\n启动 `WhisperDesktop.exe` 后，请按以下步骤操作：\n\n### 1. 下载模型\n首次启动时，程序会提示下载模型文件。\n*   **推荐模型**：选择 `ggml-medium.bin` (大小约 1.42GB)。作者在测试中主要使用该模型，能在速度和精度间取得良好平衡。\n*   等待下载完成后，模型将自动加载。\n\n### 2. 转录音频文件\n*   在主界面选择 **\"Transcribe\"** (转录) 选项卡。\n*   点击按钮选择本地的音频或视频文件（支持大多数 Media Foundation 兼容格式，如 MP3, WAV, MP4 等，*注：不支持 Ogg Vorbis*）。\n*   程序将调用 GPU 开始转录，完成后即可在界面查看文本结果。\n\n### 3. 实时麦克风录音与转录\u002F翻译\n*   切换到 **\"Capture\"** (捕获) 选项卡。\n*   选择可用的麦克风设备。\n*   程序内置了语音活动检测 (VAD)，会自动识别说话内容并实时转录或翻译成文本。\n    *   *注意：实时模式目前存在约 5-10 秒的延迟，这是为了确保模型能处理足够长的音频片段以保证准确率。*\n\n---\n*本工具由社区维护，作为“按原样”提供的开源项目。如有性能瓶颈，通常受限于显存带宽而非计算能力。*","一位自由职业字幕组译者需要在 Windows 电脑上快速处理大量采访视频，将其转换为带时间轴的中文字幕文件。\n\n### 没有 Whisper 时\n- **环境配置繁琐**：部署原版 OpenAI 模型需安装庞大的 Python 环境和 PyTorch 依赖包（约 9.6GB），极易出现版本冲突导致运行失败。\n- **转录速度缓慢**：在普通 GeForce 显卡上，一段 3 分钟的音频往往需要数分钟才能完成识别，严重拖慢交付进度。\n- **实时处理困难**：缺乏高效的本地实时语音捕获功能，无法在直播或会议进行中即时生成草稿字幕。\n- **硬件资源浪费**：难以充分利用 DirectCompute 技术，导致高性能 GPU 闲置，只能依赖低效的 CPU 运算。\n\n### 使用 Whisper 后\n- **开箱即用**：直接运行预编译的 WhisperDesktop.exe，仅需下载一个模型文件即可启动，无需任何复杂的运行时依赖。\n- **极速推理**：利用 DirectCompute 加速，同一段 3 分钟音频的转录时间从数分钟缩短至 19 秒，效率提升显著。\n- **实时语音捕获**：内置语音活动检测（VAD）功能，可直接通过麦克风录制并实时转写，支持直播字幕生成。\n- **轻量高效**：核心库仅 400 多 KB，内存占用极低，能在老旧硬件上流畅运行，充分释放显卡算力。\n\nWhisper 通过将复杂的 AI 模型转化为轻量级本地工具，让个人开发者也能在 Windows 上享受工业级的语音识别速度与便捷。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FConst-me_Whisper_0419aba4.png","Const-me","Konstantin","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FConst-me_e0ae4ac5.jpg",null,"Tivat, Montenegro","http:\u002F\u002Fconst.me","https:\u002F\u002Fgithub.com\u002FConst-me",[84,88,92,96,100,104],{"name":85,"color":86,"percentage":87},"C++","#f34b7d",68.3,{"name":89,"color":90,"percentage":91},"C","#555555",21.1,{"name":93,"color":94,"percentage":95},"C#","#178600",5.5,{"name":97,"color":98,"percentage":99},"HLSL","#aace60",4.9,{"name":101,"color":102,"percentage":103},"PowerShell","#012456",0.2,{"name":105,"color":106,"percentage":107},"Batchfile","#C1F12E",0.1,10284,925,"2026-04-03T13:41:10","MPL-2.0","Windows","必需。需要支持 Direct3D 11.0 的 GPU（2011 年后的硬件显卡均支持）。针对 NVIDIA 1080Ti、AMD Radeon Vega (集成\u002F独立) 进行了优化。不支持仅依赖 CUDA 的环境，而是使用 DirectCompute。","未说明（文中提到低内存占用，但未给出具体数值）",{"notes":116,"python":117,"dependencies":118},"1. 仅支持 64 位 Windows 系统（推荐 Windows 10，理论上支持 Windows 8.1+）。2. CPU 必须支持 AVX1 和 F16C 指令集。3. 无需安装 Python、PyTorch 或 CUDA 工具包，运行时依赖极小（核心 DLL 仅约 431KB）。4. 首次运行需下载 GGML 格式的模型文件（如 medium 模型约 1.42GB）。5. 音频处理依赖 Media Foundation，不支持 Ogg Vorbis 格式及部分专业 ASIO 设备。6. 实时录音模式存在 5-10 秒的延迟。","不需要 (这是一个纯 C++ 实现，无 Python 运行时依赖)",[119,120,121],"Visual C++ Redistributable (若动态链接)","Direct3D 11.0 驱动","Media Foundation (系统组件)",[55,13],7,"2026-03-27T02:49:30.150509","2026-04-06T05:36:35.941857",[127,132,137,142,147,152,156],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},13515,"为什么在旧 CPU（不支持 AVX）上运行时会崩溃或提示需要 SSE 4.1\u002FF16C？","这是因为默认编译版本使用了 AVX 指令集。对于不支持 AVX 的旧 CPU（OldSilicon），需要使用专门编译的 SSE2 版本。维护者已提供针对 SSE2 架构优化的版本（如 1.11 sse version），请尝试下载并运行该特定版本以解决兼容性问题。","https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fissues\u002F101",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},13516,"转录长视频时，为什么输出文本会从某一点开始无限重复？","这是一个已知问题，通常由提示词（prompt）中积累了过多重复内容导致模型陷入循环。解决方案包括：\n1. 使用命令行参数 `-mc 0`（max context 0），这通常能直接解决无限重复问题。\n2. 参考 faster-whisper 中的“压缩阈值”（compression threshold）概念，当检测到输出过于重复时清除提示历史。\n3. 开发者已在代码层面提供了补丁，通过检测重复文本并从提示符中移除来防止此问题。","https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fissues\u002F26",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},13517,"如何在 Windows 7 上运行此软件？","官方最低支持 Windows 10，因为 Windows 7 自带的音频处理栈（Audio Processing Stack）无法满足需求且难以修复。如果必须在 Win7 上运行，需要修改源代码：\n1. 移除原有的重采样逻辑，调用 `SetCurrentMediaType` 获取原生媒体类型。\n2. 集成第三方库如 [soxr](https:\u002F\u002Fsourceforge.net\u002Fp\u002Fsoxr\u002Fwiki\u002FHome\u002F) 来处理音频重采样。\n3. 编写代码或将音频通道下混音为单声道（Mono）。\n普通用户建议升级系统或使用 ffmpeg 预先将音频转换为 16kHz 单声道 WAV 文件再尝试。","https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fissues\u002F112",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},13518,"命令行窗口（CMD）输出中文时出现乱码怎么办？","这是编码显示问题。解决方法如下：\n1. 在运行程序前，先在 CMD 中执行命令 `chcp 65001` 将代码页设置为 UTF-8。\n2. 确保字体支持中文显示。\n3. 如果仍然乱码，可能是程序内部日志输出编码与控制台不匹配，需检查相关 PR（如 #122）中关于 ANSI 颜色化和字符编码的修复补丁。","https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fissues\u002F152",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},13519,"软件是否支持批量处理文件或实时字幕翻译？","是的，社区和用户提出了相关需求并已有部分实现：\n1. **批量处理**：可以通过编写批处理脚本（batch file tasks）调用 `main.exe` 来实现批量转录。\n2. **实时字幕**：低延迟的实时语音识别功能正在讨论和实现中，可用于桌面实时字幕（Desktop Captioning）。\n3. **路径记忆**：新版本（v2.2+）已支持记住模型路径和输出文件夹路径，无需每次重新选择。","https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Fissues\u002F43",{"id":153,"question_zh":154,"answer_zh":155,"source_url":136},13520,"下载的可执行文件被杀毒软件报毒，是否安全？","由于该软件用户基数较小且为个人编译版本，杀毒软件可能会误报或无法识别其签名，这并不一定代表文件有毒。\n如果您担心安全性，最可靠的方法是：\n1. 阅读并理解原始项目的完整源代码。\n2. 根据社区提供的补丁自行应用更改。\n3. 在本地环境中自行编译生成可执行文件。\n目前没有任何方法能百分之百保证第三方编译的 exe 文件绝对安全，除非自行编译。",{"id":157,"question_zh":158,"answer_zh":159,"source_url":151},13521,"指定了目标语言（如中文），为什么输出中仍夹杂英文或其他语言？","这可能是模型在转录初期尚未完全适应目标语言上下文导致的。虽然选择了特定语言（如 `-l de` 或中文），但在视频开头的几秒钟内，模型可能会输出源语言或英语。\n建议尝试：\n1. 确保使用的模型文件（如 `ggml-large.bin`）是完整且未损坏的。\n2. 检查音频文件本身是否包含多语言混合内容。\n3. 这是一个已知的行为特征，通常在几秒后会自动纠正为目标语言，如果持续出现，可能需要调整初始提示（initial prompt）或检查是否为特定版本的 Bug。",[161,166,171,176,181,186,191,196,201,206,211,216,221,226,231,236,241],{"id":162,"version":163,"summary_zh":164,"released_at":165},72345,"1.12.0","更新了文档和 GUI 中的模型源 URL  \n可靠性增强：麦克风采集更不容易进入“停滞”状态并丢弃音频。","2023-07-22T13:14:26",{"id":167,"version":168,"summary_zh":169,"released_at":170},72346,"1.11.0","在加载模型时，除了可以通过名称选择适配器外，还可以使用从0开始的索引来选择。\n新增了一个 API 方法，用于将初始提示解码为标记数组。","2023-04-03T09:39:42",{"id":172,"version":173,"summary_zh":174,"released_at":175},72347,"1.10.1","`Transcribe-File` PowerShell 命令 now supports human-readable language names\n当库无法解码输入音频文件时，提供更友好的错误信息","2023-03-20T11:47:54",{"id":177,"version":178,"summary_zh":179,"released_at":180},72348,"1.10.0","新增用于从内存缓冲区解码音频文件的 API 方法。\n现在，当加载多个模型时，该库应支持并发转写。\n添加了一个用于克隆模型的 API 方法，以及在 \u003Cc>eGpuModelFlags\u003C\u002Fc> 枚举中对应的标志。克隆后的模型使用相同的 GPU 和参数，与原模型的张量共享显存缓冲区，但拥有独立的 D3D 设备和上下文。\n\n桌面应用程序在转录文件时现提供“停止”按钮。\n创建了 PowerShell 5.1 封装器，详情请参阅相应文件夹中的[自述文件](https:\u002F\u002Fgithub.com\u002FConst-me\u002FWhisper\u002Ftree\u002Fmaster\u002FWhisperPS)。","2023-03-18T16:57:10",{"id":182,"version":183,"summary_zh":184,"released_at":185},72349,"1.9.0","已移除对 Windows 组件 `cabinet.dll` 的依赖。\n据报道，该库现已可在 Linux 上运行，使用 Wine 8.3。","2023-03-14T19:46:12",{"id":187,"version":188,"summary_zh":189,"released_at":190},72350,"1.8.2","为 C++ 控制台应用程序添加了新的命令行参数，用于选择在推理时使用的 GPU。","2023-03-11T17:09:11",{"id":192,"version":193,"summary_zh":194,"released_at":195},72351,"1.8.1","修复了进程关闭时的崩溃问题","2023-03-11T00:00:00",{"id":197,"version":198,"summary_zh":199,"released_at":200},72352,"1.8.0","* 修改了库的 API，以支持为推理选择 GPU。\n* 在高级 GPU 设置对话框中新增了一个组合框，用于手动选择 GPU。\n* 记录了对 F16C 指令集的要求，并相应地改进了错误处理。\n\n此外，还升级了编译器，本版本使用 Visual Studio 2022 17.5.1 版本进行构建。","2023-03-10T21:37:45",{"id":202,"version":203,"summary_zh":204,"released_at":205},72353,"1.7.0","错误修复，API 文档","2023-02-07T11:47:47",{"id":207,"version":208,"summary_zh":209,"released_at":210},72354,"1.6.1","桌面应用程序的细微改进，DLL 仍为 1.6.0 版本\n* 在配备双显卡的笔记本电脑上，C++ 示例的性能得到提升\n* 在文件浏览对话框中添加了 `*.m4a` 文件扩展名\n* 新增“带时间戳的文本”输出格式选项","2023-01-30T23:05:15",{"id":212,"version":213,"summary_zh":214,"released_at":215},72355,"1.6.0","Experimental “diarize” feature which detects speaker based on the difference between left\u002Fright channels.\r\nThe feature is not exposed in the desktop GUI app. Available programmatically, and in the command-line examples.","2023-01-29T15:36:35",{"id":217,"version":218,"summary_zh":219,"released_at":220},72356,"1.5.0","Performance improvements","2023-01-24T17:35:55",{"id":222,"version":223,"summary_zh":224,"released_at":225},72357,"1.4.0","Fixed a warning `isMp3Decoder` when transcribing `*.wav` files\r\nImplemented “Place output file to the input folder” checkbox in the desktop app","2023-01-20T20:00:43",{"id":227,"version":228,"summary_zh":229,"released_at":230},72358,"1.3.0","A workaround for the Microsoft’s bug in their MP3 decoder MFT","2023-01-19T16:26:02",{"id":232,"version":233,"summary_zh":234,"released_at":235},72359,"1.2.0","Implemented a flag to select between versions of the compute shaders.\r\nWin32 demo now has an “advanced…” button on the model loading screen to change the values.","2023-01-18T21:05:48",{"id":237,"version":238,"summary_zh":239,"released_at":240},72360,"1.1.0","Fixed a minor bug in the in-app performance profiler.","2023-01-16T20:21:41",{"id":242,"version":243,"summary_zh":244,"released_at":245},72361,"1.0.0","Initial published version","2023-01-16T15:34:24"]