[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-jianchang512--stt":3,"tool-jianchang512--stt":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},5908,"ChatTTS","2noise\u002FChatTTS","ChatTTS 是一款专为日常对话场景打造的生成式语音模型，特别适用于大语言模型助手等交互式应用。它主要解决了传统文本转语音（TTS）技术在对话中缺乏自然感、情感表达单一以及难以处理停顿、笑声等细微语气的问题，让机器生成的语音听起来更像真人在聊天。\n\n这款工具非常适合开发者、研究人员以及希望为应用增添自然语音交互功能的设计师使用。普通用户也可以通过社区开发的衍生产品体验其能力。ChatTTS 的核心亮点在于其对对话任务的深度优化：它不仅支持中英文双语，还能精准控制韵律细节，自动生成自然的 laughter（笑声）、pauses（停顿）和 interjections（插入语），从而实现多说话人的互动对话效果。在韵律表现上，ChatTTS 超越了大多数开源 TTS 模型。目前开源版本基于 4 万小时数据预训练而成，虽主要用于学术研究与教育目的，但已展现出强大的潜力，并支持流式音频生成与零样本推理，为后续的多情绪控制等进阶功能奠定了基础。",39042,"2026-04-09T11:54:03",[19,17,20,21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":78,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":29,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":110,"github_topics":111,"view_count":10,"oss_zip_url":78,"oss_zip_packed_at":78,"status":22,"created_at":115,"updated_at":116,"faqs":117,"releases":168},7315,"jianchang512\u002Fstt","stt","Voice Recognition to Text Tool \u002F 一个离线运行的本地音视频转字幕工具，输出json、srt字幕、纯文字格式","stt 是一款专为隐私保护和离线场景设计的本地语音识别工具。它能将视频或音频文件中的人声精准转换为文字，并支持导出为纯文本、带时间轴的 SRT 字幕以及结构化 JSON 格式。\n\n这款工具主要解决了用户在使用云端语音服务时面临的数据隐私泄露风险、网络依赖以及高昂接口费用等痛点。通过内置基于 fast-whisper 的开源模型，stt 实现了完全本地化运行，无需联网即可处理任务，其识别准确率可媲美 OpenAI 官方 API，同时支持中文、英语、日语等十余种语言。\n\nstt 非常适合注重数据安全的普通用户、需要批量制作字幕的视频创作者，以及希望私有化部署语音能力的开发者。对于开发者而言，它还提供了兼容 OpenAI 标准的 API 接口，可无缝替换现有代码中的云端调用；同时支持 NVIDIA GPU CUDA 加速，在具备独立显卡的设备上能显著提升转录速度。无论是简单的日常录音整理，还是复杂的影视字幕制作，stt 都能提供高效、自由且低成本的解决方案。","\u003Cdiv align=\"center\">\n\n**中文简体** | [English](.\u002Fdocs\u002Fen\u002FREADME_EN.md)\n\n\u003C\u002Fdiv>\n\n---\n\n\u003Cdiv align=\"center\">\n\n[👑 捐助本项目](https:\u002F\u002Fpyvideotrans.com\u002Fabout)\n\n\u003C\u002Fdiv>\n\n---\n\n\n# 语音识别转文字工具\n\n这是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频\u002F音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。\n\n\nfast-whisper 开源模型有 tiny\u002Fbase\u002Fsmall\u002Fmedium\u002Flarge-v3, 内置 tiny 模型，tiny->large-v3识别效果越来越好，但所需计算机资源也更多，根据需要可自行下载后解压到 models 目录下即可。\n\n\n\n# 视频演示\n\n\nhttps:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fassets\u002F3378335\u002Fd716acb6-c20c-4174-9620-f574a7ff095d\n\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_readme_2d913df06319.png)\n\n\n\n\n# 预编译Win版使用方法\u002FLinux和Mac源码部署\n\n1. [点击此处打开Releases页面下载](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases)预编译文件\n\n2. 下载后解压到某处，比如 E:\u002Fstt\n\n3. 双击 start.exe ，等待自动打开浏览器窗口即可\n\n4. 点击页面中的上传区域，在弹窗中找到想识别的音频或视频文件，或直接拖拽音频视频文件到上传区域，然后选择发生语言、文本输出格式、所用模型，点击“立即开始识别”，稍等片刻，底部文本框中会以所选格式显示识别结果\n\n5. 如果机器拥有英伟达GPU，并正确配置了CUDA环境，将自动使用CUDA加速\n\n\n# 源码部署(Linux\u002FMac\u002FWindow)\n\n0. 要求 python 3.9->3.11\n\n1. 创建空目录，比如 E:\u002Fstt, 在这个目录下打开 cmd 窗口，方法是地址栏中输入 `cmd`, 然后回车。\n\n\t使用git拉取源码到当前目录 ` git clone git@github.com:jianchang512\u002Fstt.git . `\n\n2. 创建虚拟环境 `python -m venv venv`\n\n3. 激活环境，win下命令 `%cd%\u002Fvenv\u002Fscripts\u002Factivate`，linux和Mac下命令 `source .\u002Fvenv\u002Fbin\u002Factivate`\n\n4. 安装依赖: `pip install -r requirements.txt`,如果报版本冲突错误，请执行 `pip install -r requirements.txt --no-deps` ,如果希望支持cuda加速，继续执行代码 `pip uninstall -y torch`, `pip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121`\n\n5. win下解压 ffmpeg.7z，将其中的`ffmpeg.exe`和`ffprobe.exe`放在项目目录下, linux和mac 自行搜索 如何安装ffmpeg\n\n6. [下载模型压缩包](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0)，根据需要下载模型，下载后将压缩包里的文件夹放到项目根目录的 models 文件夹内\n\n7. 执行  `python  start.py `，等待自动打开本地浏览器窗口。\n\n\n# Api接口\n\n接口地址: http:\u002F\u002F127.0.0.1:9977\u002Fapi\n\n请求方法: POST\n\n请求参数:\n\n    language: 语言代码:可选如下\n\n    >\n    > 中文：zh\n    > 英语：en\n    > 法语：fr\n    > 德语：de\n    > 日语：ja\n    > 韩语：ko\n    > 俄语：ru\n    > 西班牙语：es\n    > 泰国语：th\n    > 意大利语：it\n    > 葡萄牙语：pt\n    > 越南语：vi\n    > 阿拉伯语：ar\n    > 土耳其语：tr\n    >\n\n    model: 模型名称，可选如下\n    >\n    > base 对应于 models\u002Fmodels--Systran--faster-whisper-base\n    > small 对应于 models\u002Fmodels--Systran--faster-whisper-small\n    > medium 对应于 models\u002Fmodels--Systran--faster-whisper-medium\n    > large-v3 对应于 models\u002Fmodels--Systran--faster-whisper-large-v3\n    >\n\n    response_format: 返回的字幕格式，可选 text|json|srt\n\n    file: 音视频文件，二进制上传\n\nApi 请求示例\n\n```python\n    import requests\n    # 请求地址\n    url = \"http:\u002F\u002F127.0.0.1:9977\u002Fapi\"\n    # 请求参数  file:音视频文件，language：语言代码，model：模型，response_format:text|json|srt\n    # 返回 code==0 成功，其他失败，msg==成功为ok，其他失败原因，data=识别后返回文字\n    files = {\"file\": open(\"C:\u002FUsers\u002Fc1\u002FVideos\u002F2.wav\", \"rb\")}\n    data={\"language\":\"zh\",\"model\":\"base\",\"response_format\":\"json\"}\n    response = requests.request(\"POST\", url, timeout=600, data=data,files=files)\n    print(response.json())\n```\n\n# 兼容 openai 语音转文字接口\n\n示例代码\n```\n# openai兼容格式\nfrom openai import OpenAI\n\nclient = OpenAI(api_key='123',base_url='http:\u002F\u002F127.0.0.1:9977\u002Fv1')\naudio_file= open(\"\u002Fusers\u002Fc1\u002Fvideos\u002F60.wav\", \"rb\")\n\ntranscription = client.audio.transcriptions.create(\n    model=\"tiny\", \n    file=audio_file,\n    response_format=\"text\" # 支持 text 、srt 格式，json格式会返回srt字幕解析后的json数据\n)\n\nprint(transcription.text)\n\n```\n\n\n# CUDA 加速支持\n\n**安装CUDA工具** [详细安装方法](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7318704408727519270)\n\n如果你的电脑拥有 Nvidia 显卡，先升级显卡驱动到最新，然后去安装对应的 \n   [CUDA Toolkit](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)  和  [cudnn for CUDA11.X](https:\u002F\u002Fdeveloper.nvidia.com\u002Frdp\u002Fcudnn-archive)。\n   \n   安装完成成，按`Win + R`,输入 `cmd`然后回车，在弹出的窗口中输入`nvcc --version`,确认有版本信息显示，类似该图\n   ![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_readme_d03331589df1.png)\n\n   然后继续输入`nvidia-smi`,确认有输出信息，并且能看到cuda版本号，类似该图\n   ![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_readme_6b6ed63c9f74.png)\n\n    然后执行 `python testcuda.py`，如果提示成功，说明安装正确，否则请仔细检查重新安装\n    \n    默认使用 cpu 运算，如果确定使用英伟达显卡，并且配置好了cuda环境，请修改 set.ini 中 `devtype=cpu`为 `devtype=cuda`,并重新启动，可使用cuda加速\n\n# 注意事项\n\n0. 如果没有英伟达显卡或未配置好CUDA环境，不要使用 large\u002Flarge-v3 模型，可能导致内存耗尽死机\n1. 中文在某些情况下会输出繁体字\n2. 有时会遇到“cublasxx.dll不存在”的错误，此时需要下载 cuBLAS，然后将dll文件复制到系统目录下，[点击下载 cuBLAS](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002FcuBLAS_win.7z)，解压后将里面的dll文件复制到 C:\u002FWindows\u002FSystem32下\n3. 如果控制台出现\"[W:onnxruntime:Default, onnxruntime_pybind_state.cc:1983 onnxruntime::python::CreateInferencePybindStateModule] Init provider bridge failed.\", 可忽略，不影响使用\n4. 默认使用 cpu 运算，如果确定使用英伟达显卡，并且配置好了cuda环境，请修改 set.ini 中 `devtype=cpu`为 `devtype=cuda`,并重新启动，可使用cuda加速\n\n\n\n5. 尚未执行完毕就闪退\n\n如果启用了cuda并且电脑已安装好了cuda环境，但没有手动安装配置过cudnn，那么会出现该问题，去安装和cuda匹配的cudnn。比如你安装了cuda12.3，那么就需要下载cudnn for cuda12.x压缩包，然后解压后里面的3个文件夹复制到cuda安装目录下。具体教程参考 https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7318704408727519270\n\n如果cudnn按照教程安装好了仍闪退，那么极大概率是GPU显存不足，可以改为使用 medium模型，显存不足8G时，尽量避免使用largev-3模型，尤其是视频大于20M时，否则可能显存不足而崩溃\n\n# 相关联项目\n\n[视频翻译配音工具:翻译字幕并配音](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fpyvideotrans)\n\n[声音克隆工具:用任意音色合成语音](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fclone-voice)\n\n[人声背景乐分离:极简的人声和背景音乐分离工具，本地化网页操作](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fvocal-separate)\n\n# 致谢\n\n本项目主要依赖的其他项目\n\n1. https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\n2. https:\u002F\u002Fgithub.com\u002Fpallets\u002Fflask\n3. https:\u002F\u002Fffmpeg.org\u002F\n4. https:\u002F\u002Flayui.dev\n\n","\u003Cdiv align=\"center\">\n\n**中文简体** | [English](.\u002Fdocs\u002Fen\u002FREADME_EN.md)\n\n\u003C\u002Fdiv>\n\n---\n\n\u003Cdiv align=\"center\">\n\n[👑 捐助本项目](https:\u002F\u002Fpyvideotrans.com\u002Fabout)\n\n\u003C\u002Fdiv>\n\n---\n\n\n# 语音识别转文字工具\n\n这是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频\u002F音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。\n\n\nfast-whisper 开源模型有 tiny\u002Fbase\u002Fsmall\u002Fmedium\u002Flarge-v3, 内置 tiny 模型，tiny->large-v3识别效果越来越好，但所需计算机资源也更多，根据需要可自行下载后解压到 models 目录下即可。\n\n\n\n# 视频演示\n\n\nhttps:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fassets\u002F3378335\u002Fd716acb6-c20c-4174-9620-f574a7ff095d\n\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_readme_2d913df06319.png)\n\n\n\n\n# 预编译Win版使用方法\u002FLinux和Mac源码部署\n\n1. [点击此处打开Releases页面下载](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases)预编译文件\n\n2. 下载后解压到某处，比如 E:\u002Fstt\n\n3. 双击 start.exe ，等待自动打开浏览器窗口即可\n\n4. 点击页面中的上传区域，在弹窗中找到想识别的音频或视频文件，或直接拖拽音频视频文件到上传区域，然后选择发生语言、文本输出格式、所用模型，点击“立即开始识别”，稍等片刻，底部文本框中会以所选格式显示识别结果\n\n5. 如果机器拥有英伟达GPU，并正确配置了CUDA环境，将自动使用CUDA加速\n\n\n# 源码部署(Linux\u002FMac\u002FWindow)\n\n0. 要求 python 3.9->3.11\n\n1. 创建空目录，比如 E:\u002Fstt, 在这个目录下打开 cmd 窗口，方法是地址栏中输入 `cmd`, 然后回车。\n\n\t使用git拉取源码到当前目录 ` git clone git@github.com:jianchang512\u002Fstt.git . `\n\n2. 创建虚拟环境 `python -m venv venv`\n\n3. 激活环境，win下命令 `%cd%\u002Fvenv\u002Fscripts\u002Factivate`，linux和Mac下命令 `source .\u002Fvenv\u002Fbin\u002Factivate`\n\n4. 安装依赖: `pip install -r requirements.txt`,如果报版本冲突错误，请执行 `pip install -r requirements.txt --no-deps` ,如果希望支持cuda加速，继续执行代码 `pip uninstall -y torch`, `pip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121`\n\n5. win下解压 ffmpeg.7z，将其中的`ffmpeg.exe`和`ffprobe.exe`放在项目目录下, linux和mac 自行搜索 如何安装ffmpeg\n\n6. [下载模型压缩包](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0)，根据需要下载模型，下载后将压缩包里的文件夹放到项目根目录的 models 文件夹内\n\n7. 执行  `python  start.py `，等待自动打开本地浏览器窗口。\n\n\n# Api接口\n\n接口地址: http:\u002F\u002F127.0.0.1:9977\u002Fapi\n\n请求方法: POST\n\n请求参数:\n\n    language: 语言代码:可选如下\n\n    >\n    > 中文：zh\n    > 英语：en\n    > 法语：fr\n    > 德语：de\n    > 日语：ja\n    > 韩语：ko\n    > 俄语：ru\n    > 西班牙语：es\n    > 泰国语：th\n    > 意大利语：it\n    > 葡萄牙语：pt\n    > 越南语：vi\n    > 阿拉伯语：ar\n    > 土耳其语：tr\n    >\n\n    model: 模型名称，可选如下\n    >\n    > base 对应于 models\u002Fmodels--Systran--faster-whisper-base\n    > small 对应于 models\u002Fmodels--Systran--faster-whisper-small\n    > medium 对应于 models\u002Fmodels--Systran--faster-whisper-medium\n    > large-v3 对应于 models\u002Fmodels--Systran--faster-whisper-large-v3\n    >\n\n    response_format: 返回的字幕格式，可选 text|json|srt\n\n    file: 音视频文件，二进制上传\n\nApi 请求示例\n\n```python\n    import requests\n    # 请求地址\n    url = \"http:\u002F\u002F127.0.0.1:9977\u002Fapi\"\n    # 请求参数  file:音视频文件，language：语言代码，model：模型，response_format:text|json|srt\n    # 返回 code==0 成功，其他失败，msg==成功为ok，其他失败原因，data=识别后返回文字\n    files = {\"file\": open(\"C:\u002FUsers\u002Fc1\u002FVideos\u002F2.wav\", \"rb\")}\n    data={\"language\":\"zh\",\"model\":\"base\",\"response_format\":\"json\"}\n    response = requests.request(\"POST\", url, timeout=600, data=data,files=files)\n    print(response.json())\n```\n\n# 兼容 openai 语音转文字接口\n\n示例代码\n```\n# openai兼容格式\nfrom openai import OpenAI\n\nclient = OpenAI(api_key='123',base_url='http:\u002F\u002F127.0.0.1:9977\u002Fv1')\naudio_file= open(\"\u002Fusers\u002Fc1\u002Fvideos\u002F60.wav\", \"rb\")\n\ntranscription = client.audio.transcriptions.create(\n    model=\"tiny\", \n    file=audio_file,\n    response_format=\"text\" # 支持 text 、srt 格式，json格式会返回srt字幕解析后的json数据\n)\n\nprint(transcription.text)\n\n```\n\n\n# CUDA 加速支持\n\n**安装CUDA工具** [详细安装方法](https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7318704408727519270)\n\n如果你的电脑拥有 Nvidia 显卡，先升级显卡驱动到最新，然后去安装对应的 \n   [CUDA Toolkit](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)  和  [cudnn for CUDA11.X](https:\u002F\u002Fdeveloper.nvidia.com\u002Frdp\u002Fcudnn-archive)。\n   \n   安装完成成，按`Win + R`,输入 `cmd`然后回车，在弹出的窗口中输入`nvcc --version`,确认有版本信息显示，类似该图\n   ![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_readme_d03331589df1.png)\n\n   然后继续输入`nvidia-smi`,确认有输出信息，并且能看到cuda版本号，类似该图\n   ![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_readme_6b6ed63c9f74.png)\n\n    然后执行 `python testcuda.py`，如果提示成功，说明安装正确，否则请仔细检查重新安装\n    \n    默认使用 cpu 运算，如果确定使用英伟达显卡，并且配置好了cuda环境，请修改 set.ini 中 `devtype=cpu`为 `devtype=cuda`,并重新启动，可使用cuda加速\n\n# 注意事项\n\n0. 如果没有英伟达显卡或未配置好CUDA环境，不要使用 large\u002Flarge-v3 模型，可能导致内存耗尽死机\n1. 中文在某些情况下会输出繁体字\n2. 有时会遇到“cublasxx.dll不存在”的错误，此时需要下载 cuBLAS，然后将dll文件复制到系统目录下，[点击下载 cuBLAS](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002FcuBLAS_win.7z)，解压后将里面的dll文件复制到 C:\u002FWindows\u002FSystem32下\n3. 如果控制台出现\"[W:onnxruntime:Default, onnxruntime_pybind_state.cc:1983 onnxruntime::python::CreateInferencePybindStateModule] Init provider bridge failed.\", 可忽略，不影响使用\n4. 默认使用 cpu 运算，如果确定使用英伟达显卡，并且配置好了cuda环境，请修改 set.ini 中 `devtype=cpu`为 `devtype=cuda`,并重新启动，可使用cuda加速\n\n\n\n5. 尚未执行完毕就闪退\n\n如果启用了cuda并且电脑已安装好了cuda环境，但没有手动安装配置过cudnn，那么会出现该问题，去安装和cuda匹配的cudnn。比如你安装了cuda12.3，那么就需要下载cudnn for cuda12.x压缩包，然后解压后里面的3个文件夹复制到cuda安装目录下。具体教程参考 https:\u002F\u002Fjuejin.cn\u002Fpost\u002F7318704408727519270\n\n如果cudnn按照教程安装好了仍闪退，那么极大概率是GPU显存不足，可以改为使用 medium模型，显存不足8G时，尽量避免使用largev-3模型，尤其是视频大于20M时，否则可能显存不足而崩溃\n\n# 相关联项目\n\n[视频翻译配音工具:翻译字幕并配音](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fpyvideotrans)\n\n[声音克隆工具:用任意音色合成语音](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fclone-voice)\n\n[人声背景乐分离:极简的人声和背景音乐分离工具，本地化网页操作](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fvocal-separate)\n\n# 致谢\n\n本项目主要依赖的其他项目\n\n1. https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\n2. https:\u002F\u002Fgithub.com\u002Fpallets\u002Fflask\n3. https:\u002F\u002Fffmpeg.org\u002F\n4. https:\u002F\u002Flayui.dev","# stt 语音识别转文字工具快速上手指南\n\n## 环境准备\n\n*   **操作系统**：Windows \u002F Linux \u002F macOS\n*   **Python 版本**：3.9 - 3.11\n*   **核心依赖**：\n    *   `ffmpeg`：用于音视频处理（Windows 用户需手动放置 exe 文件，Linux\u002FMac 需通过包管理器安装）。\n    *   `Git`：用于拉取源码。\n*   **硬件加速（可选）**：若拥有 NVIDIA 显卡，建议安装 CUDA Toolkit 和 cuDNN 以启用 GPU 加速，显著提升大模型推理速度。\n\n## 安装步骤\n\n### 方法一：预编译版（推荐 Windows 用户）\n\n1.  前往 [Releases 页面](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases) 下载最新预编译压缩包。\n2.  解压至任意目录（例如 `E:\u002Fstt`）。\n3.  双击运行 `start.exe`，系统将自动打开浏览器界面。\n\n### 方法二：源码部署（通用）\n\n1.  **克隆项目**\n    创建空目录并进入，执行以下命令拉取代码：\n    ```bash\n    git clone git@github.com:jianchang512\u002Fstt.git .\n    ```\n\n2.  **创建并激活虚拟环境**\n    ```bash\n    python -m venv venv\n    # Windows\n    %cd%\u002Fvenv\u002Fscripts\u002Factivate\n    # Linux\u002FMac\n    source .\u002Fvenv\u002Fbin\u002Factivate\n    ```\n\n3.  **安装依赖**\n    ```bash\n    pip install -r requirements.txt\n    ```\n    *若遇版本冲突，可尝试：* `pip install -r requirements.txt --no-deps`\n\n    **启用 CUDA 加速（仅限 NVIDIA 显卡用户）：**\n    若需使用 GPU，请先卸载默认 torch 并安装 CUDA 版本：\n    ```bash\n    pip uninstall -y torch\n    pip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\n    ```\n\n4.  **配置 FFmpeg**\n    *   **Windows**：解压项目内的 `ffmpeg.7z`，将 `ffmpeg.exe` 和 `ffprobe.exe` 复制到项目根目录。\n    *   **Linux\u002FMac**：使用系统包管理器安装（如 `apt install ffmpeg` 或 `brew install ffmpeg`）。\n\n5.  **下载模型**\n    从 [模型发布页](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0) 下载所需模型压缩包（tiny\u002Fbase\u002Fsmall\u002Fmedium\u002Flarge-v3），解压后将文件夹放入项目根目录的 `models` 文件夹内。\n    *注：项目内置 tiny 模型，可直接使用。*\n\n6.  **启动服务**\n    ```bash\n    python start.py\n    ```\n    等待自动打开本地浏览器窗口即可使用。\n\n## 基本使用\n\n### 1. 网页界面操作\n启动服务后，在浏览器中进行以下操作：\n1.  **上传文件**：点击上传区域或直接将音频\u002F视频文件拖拽至该区域。\n2.  **参数设置**：\n    *   **语言**：选择源音频语言（如 `zh`, `en` 等）。\n    *   **输出格式**：选择 `text` (纯文本), `json`, 或 `srt` (带时间戳字幕)。\n    *   **模型**：根据机器性能选择模型（tiny 最快，large-v3 最准但耗资源）。\n3.  **开始识别**：点击“立即开始识别”，结果将显示在底部文本框中。\n\n### 2. API 调用示例\n服务默认运行在 `http:\u002F\u002F127.0.0.1:9977\u002Fapi`，支持 POST 请求。\n\n**Python 原生请求示例：**\n```python\nimport requests\n\nurl = \"http:\u002F\u002F127.0.0.1:9977\u002Fapi\"\nfiles = {\"file\": open(\"C:\u002FUsers\u002Fc1\u002FVideos\u002F2.wav\", \"rb\")}\ndata = {\n    \"language\": \"zh\",           # 语言代码\n    \"model\": \"base\",            # 模型名称\n    \"response_format\": \"json\"   # 输出格式：text|json|srt\n}\n\nresponse = requests.request(\"POST\", url, timeout=600, data=data, files=files)\nprint(response.json())\n```\n\n**OpenAI 兼容接口示例：**\n可直接替换 OpenAI SDK 的 `base_url` 使用：\n```python\nfrom openai import OpenAI\n\nclient = OpenAI(api_key='123', base_url='http:\u002F\u002F127.0.0.1:9977\u002Fv1')\naudio_file = open(\"\u002Fusers\u002Fc1\u002Fvideos\u002F60.wav\", \"rb\")\n\ntranscription = client.audio.transcriptions.create(\n    model=\"tiny\", \n    file=audio_file,\n    response_format=\"text\" \n)\n\nprint(transcription.text)\n```\n\n> **提示**：若使用 NVIDIA 显卡且已配置好 CUDA 环境，请修改项目根目录下的 `set.ini` 文件，将 `devtype=cpu` 改为 `devtype=cuda` 并重启服务以启用加速。","某独立纪录片创作者正在整理长达 10 小时的田野调查采访录音，需要将其转化为带时间轴的字幕文件以便后期剪辑和归档。\n\n### 没有 stt 时\n- **成本高昂且受限**：依赖 OpenAI 或百度等在线 API，处理大量音频需支付昂贵费用，且必须联网，一旦网络波动任务即中断。\n- **隐私泄露风险**：敏感的采访内容需上传至第三方服务器，存在数据外泄隐患，不符合保密项目要求。\n- **工作流割裂**：在线工具通常仅返回纯文本，缺乏精准的时间戳，后期手动对齐字幕到视频画面耗时耗力。\n- **硬件资源闲置**：本地高性能显卡（如 NVIDIA GPU）无法被利用，只能被动等待云端排队处理。\n\n### 使用 stt 后\n- **零成本离线运行**：stt 基于 fast-whisper 模型在本地离线运行，无需联网即可无限次处理音频，彻底免除 API 调用费用。\n- **数据绝对安全**：所有语音识别过程均在本地完成，原始录音不出本机，完美保障敏感素材的隐私安全。\n- **格式灵活高效**：stt 直接输出带精确时间戳的 SRT 字幕或结构化 JSON 数据，识别结果可无缝导入剪辑软件，大幅缩短后期周期。\n- **算力充分释放**：自动检测并调用本地 NVIDIA GPU 进行 CUDA 加速，将原本数小时的处理时间压缩至分钟级。\n\nstt 通过本地化部署与 GPU 加速，为创作者提供了一个免费、安全且高效的语音转文字解决方案，彻底摆脱了对云端服务的依赖。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianchang512_stt_2d913df0.png","jianchang512","okmyworld","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjianchang512_43821370.png",null,"jianchang512@gmail.com","https:\u002F\u002Fpyvideotrans.com","https:\u002F\u002Fgithub.com\u002Fjianchang512",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",54.9,{"name":88,"color":89,"percentage":90},"HTML","#e34c26",45,{"name":92,"color":93,"percentage":94},"Batchfile","#C1F12E",0.2,4408,473,"2026-04-13T14:43:56","GPL-3.0","Windows, Linux, macOS","非必需。若需加速需 NVIDIA 显卡并配置 CUDA 环境（支持 CUDA 12.1 等）。使用 large-v3 模型建议显存 8GB 以上，显存不足 8GB 时避免使用该模型以防崩溃。","未说明（但提示无 GPU 或使用大模型可能导致内存耗尽）",{"notes":103,"python":104,"dependencies":105},"1. 默认使用 CPU 运算，若使用 NVIDIA GPU 需手动修改 set.ini 中 devtype 为 cuda。2. 内置 tiny 模型，其他模型（base\u002Fsmall\u002Fmedium\u002Flarge-v3）需自行下载解压至 models 目录。3. Windows 源码部署需手动放置 ffmpeg.exe 和 ffprobe.exe。4. 若遇 cublasxx.dll 缺失错误，需下载 cuBLAS 并将 dll 复制到系统目录。5. 必须安装与 CUDA 版本匹配的 cuDNN，否则启用 CUDA 时可能闪退。6. 中文识别在某些情况下可能输出繁体字。","3.9 - 3.11",[106,107,108,109],"faster-whisper","torch","flask","ffmpeg",[21],[112,113,114,67],"speech","speech-recognition","speech-to-text","2026-03-27T02:49:30.150509","2026-04-14T12:30:11.204066",[118,123,128,133,138,143,148,153,158,163],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},32839,"大文件识别后没有结果或显存不足（Out of Memory）怎么办？","这是因为显存不足导致的。建议修改配置文件 set.ini，使用更节省显存的参数组合：\n1. 将 cuda_com_type 设置为 int8\n2. 将 beam_size 和 best_of 设置为 1\n3. 将 vad 设置为 false\n4. 将 temperature 设置为 0\n5. 将 condition_on_previous_text 设置为 false\n示例配置：\ndevtype=cuda\ncuda_com_type=int8\nbeam_size=1\nbest_of=1\nvad=false\ntemperature=0\ncondition_on_previous_text=false\n如果仍然报错，请确保显存足够（使用 large 模型至少需要 8G 显存），或者将长视频分割成小段（如 10 分钟一段）分别处理。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F12",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},32840,"Windows 预编译版启动报错：[WinError 2] 系统找不到指定的文件","这通常是因为缺少 ffmpeg 组件。解决方法如下：\n1. 下载 ffmpeg.exe 和 ffprobe.exe 文件：\n   - https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.93\u002Fffmpeg.exe\n   - https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.93\u002Fffprobe.exe\n2. 将这两个文件复制到 start.exe 所在的同一目录下。\n如果是从旧版本升级，只需下载补丁包覆盖即可；如果是全新安装或 0.93 版本缺失文件，必须手动补充这两个 exe 文件。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F64",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},32841,"如何启用 GPU (CUDA) 加速而不是使用 CPU？","要使用 GPU 加速，请执行以下步骤：\n1. 确保已安装正确的 NVIDIA 驱动和 CUDA 环境。\n2. 更新软件到最新版本（如 0.0.7 或更高）。\n3. 修改配置文件 set.ini，将 devtype=cpu 改为 devtype=cuda。\n4. 如果使用的是 Python 源码运行，可能需要安装特定库并设置环境变量：\n   pip install nvidia-cublas-cu11 nvidia-cudnn-cu11\n   export LD_LIBRARY_PATH=`python3 -c 'import os; import nvidia.cublas.lib; import nvidia.cudnn.lib; print(os.path.dirname(nvidia.cublas.lib.__file__) + \":\" + os.path.dirname(nvidia.cudnn.lib.__file__))'`\n5. 重启程序生效。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F8",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},32842,"API 调用或网页上传报错：tuple indices must be integers or slices, not str","此错误通常是由于请求格式不正确或缺少必要字段导致的。请检查以下几点：\n1. 确保 API 请求的 JSON 格式正确，字段名称拼写无误。\n2. 参考官方 README 中的“注意”事项，确认是否遗漏了必填参数。\n3. 如果是通过网页端上传失败但本地正常，尝试清除浏览器缓存或使用不同的文件名重新上传（避免文件名冲突导致系统记录错误状态）。\n4. 确保上传的文件格式受支持（如 mp3, wav, mp4 等），且文件未损坏。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F3",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},32843,"报错：Requested int8 compute type, but the target device or backend do not support efficient int8 computation","这表示当前环境不支持 int8 计算类型。解决方法：\n1. 尝试安装必要的 CUDA 库：\n   pip install nvidia-cublas-cu11 nvidia-cudnn-cu11\n2. 确保设置了正确的环境变量（Linux\u002FMac）：\n   export LD_LIBRARY_PATH=`python3 -c 'import os; import nvidia.cublas.lib; import nvidia.cudnn.lib; print(os.path.dirname(nvidia.cublas.lib.__file__) + \":\" + os.path.dirname(nvidia.cudnn.lib.__file__))'`\n3. 如果问题依旧，可以在配置文件 set.ini 中将 cuda_com_type 从 int8 改为 float32，虽然速度稍慢但兼容性更好。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F7",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},32844,"上传文件后显示大小为 0 或无法播放\u002F识别","这种情况通常由以下原因引起：\n1. 文件格式不被直接支持（如 .m4a）。请先使用转换工具将其转换为 mp3 或 wav 格式后再上传。\n2. 文件名冲突：如果之前上传过同名文件但失败了，系统可能缓存了错误状态。请尝试更改文件名（保持扩展名不变）后重新上传。\n3. 确保 ffmpeg.exe 和 ffprobe.exe 已放置在 start.exe 同级目录下，否则文件处理会失败。\n4. 检查文件本身是否能本地正常播放，排除文件损坏可能。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F72",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},32845,"语音识别完成后程序闪退","这是 faster-whisper 模型的一个已知问题。解决方法是修改配置文件 set.ini：\n找到 condition_on_previous_text=true，将其改为 condition_on_previous_text=false。\n保存后重新启动程序即可解决闪退问题。如果使用的是 large 模型且显存较小（如 6G），建议改用 medium 模型以避免显存不足导致的崩溃。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F23",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},32846,"处理结果返回 null 或空值","如果遇到处理结果为 null 的情况，请尝试以下操作：\n1. 升级软件到最新版本（如 0.0.93 或更高），旧版本存在相关 Bug。\n2. 如果是在网页端处理长视频出现 null，而短视频正常，可能是资源超时或内存限制导致。建议分割长视频后分段处理，或通过 API 接口调用（API 通常比网页端更稳定）。\n3. 检查日志文件（app.log 或 start.log）是否有具体的错误信息。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F29",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},32847,"如何处理超长时长的视频或音频文件？","理论上只要内存和显存足够，可以处理任意长度的文件。但在实际使用中，为避免资源耗尽，建议采取以下策略：\n1. 将长视频分割为多个小片段（例如每段 10 分钟）。\n2. 对每个片段单独进行语音识别。\n3. 将识别出的文字结果按顺序合并。\n注意：在切割点可能会有少量文字识别错误，可以在切割点前后多截取几秒（如 10 秒）进行重叠处理，然后人工校对缝合，以保证完整性。使用 large 模型时，建议显存至少在 8G 以上。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F19",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},32848,"如何自定义字幕字体样式和位置，或去除视频原声只保留背景音？","本工具主要专注于语音识别，高级视频编辑功能建议配合使用 [pyvideotrans](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fpyvideotrans) 项目：\n1. **自定义字幕字体和位置**：在 pyvideotrans 的配置文件 set.ini 中可以设置视频字幕的字体样式、大小和位置。详情参考：https:\u002F\u002Fpyvideotrans.com\u002Ffontset.html\n2. **去除原声保留背景音**：目前 stt 项目不直接支持此功能，请使用 pyvideotrans 或其他视频编辑工具进行音频分离和处理。","https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fissues\u002F57",[169,174,179,184,189,194,199],{"id":170,"version":171,"summary_zh":172,"released_at":173},247556,"20250805","## 变更\n\n修复：将多线程识别改为单线程排队，避免显存溢出  \n修复：在中文语言环境下使用 hf 镜像替代 huggingface，进行在线模型下载  \n修复：前端界面下载文本时，文件后缀更改为 `.txt`  \n特性：增加对 OpenAI 语音转文本接口的兼容性，地址为 http:\u002F\u002F127.0.0.1:9977\u002Fv1，支持返回 text\u002Fsrt\u002Fjson 格式\n\n## 完整安装包下载地址 1.6G\u002FDownload url: \n\n百度网盘: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1S5z3cSu2XGhQLk8trC_-Tw?pwd=2hvc\n\nGitHub地址:  https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F20250805\u002Fstt-20250805.7z\n\n\n\n----\n\n## 使用方法\n\n解压到英文目录下，双击 start.exe，在打开的页面中上传音频视频文件进行识别\n\n\n----\n\n","2025-08-05T05:09:16",{"id":175,"version":176,"summary_zh":177,"released_at":178},247557,"v0.94","## 变更\n\n\n0. 修复API无法获取上传文件的问题\n1. 移除VAD配置，使用默认设置\n2. 更新large-v3-turbo模型\n3. 添加语言自动识别功能\n4. 修复结束状态判断错误\n5. 修复API多个并发调用仅返回第一个结果的bug\n6. 修复distil模型提示不存在的问题\n7. 修复显示问题\n8. 增加自定义Hugging Face模型功能\n\n\n\n## 完整安装包下载地址（含基础模型）1.7GB\u002F下载链接： \n\n百度网盘：https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1KGX31_rurBl9UQiuwaiMqg?pwd=a48t\n\nGitHub地址：https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.94\u002Fwin-0.0.94.7z\n\n\n----\n\n## v0.1 升级补丁包地址\u002F96MB：\n\nGitHub：https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.94\u002Fwin-patchUpdate-0.1.7z\n\n\n----\n\n## 使用方法\n\n解压到英文目录下，双击start.exe，在打开的页面中上传音频或视频文件进行识别。\n解压到文件夹并双击start.exe，等待网页浏览器自动打开。\n\n----\n\n## ffmpeg.exe下载\n\n如果您的电脑上没有ffmpeg，请下载这两个exe文件，并将其与start.exe放在同一目录下。\n\nhttps:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Fffmpeg.exe\n\nhttps:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Fffprobe.exe\n\n\n## 全部模型下载地址\u002F下载模型 https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0","2024-09-23T18:42:00",{"id":180,"version":181,"summary_zh":182,"released_at":183},247558,"v0.93","## 变更\n\n1. 添加模型，本次从 tiny 迁移到 large-v3。\n2. 修复前端 JavaScript 超时问题 #29。\n\n\n## 完整包下载地址（含基础模型）1.7GB\u002F下载链接：\n\n百度网盘：https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1rAKW7pBMLx4od9391wjtYw?pwd=xg4s\n\nHugging Face：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmortimerme\u002Fs4\u002Fresolve\u002Fmain\u002Fwin-stt-0.0.93.7z?download=true\n\n----\n\n## 升级补丁包地址\u002F30MB：\n\n百度网盘：https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1Dqd1FNC0Cwe5KqD_5bNhqg?pwd=gj65\n\nHugging Face：https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmortimerme\u002Fs4\u002Fresolve\u002Fmain\u002Fwin-stt-patch-0.0.93.7z?download=true\n\n----\n\n## 使用方法\n\n解压到英文目录下，双击 start.exe，在打开的页面中上传音频或视频文件进行识别。\n解压到文件夹并双击 start.exe，等待网页浏览器自动打开。\n\n----\n\n## ffmpeg.exe 下载\n\n如果你的计算机上没有 ffmpeg，请下载以下两个 exe 文件，并将其与 start.exe 放在同一目录下：\n\nhttps:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.93\u002Fffmpeg.exe\n\nhttps:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.93\u002Fffprobe.exe\n\n----\n\n## 全部模型下载地址\u002FDownload models：https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0","2024-02-19T18:29:24",{"id":185,"version":186,"summary_zh":187,"released_at":188},247559,"v0.91","## 变更\r\n\r\n在 set.ini 文件中添加更多用于 Whisper 模型的参数。\r\n\r\n\r\n## 下载地址(内含base模型)\u002F下载链接：\r\n\r\n百度网盘: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1oAeBvVcNv3HP2QWa3uiilg?pwd=efvc\r\n\r\nGitHub:  https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.91\u002Fsttv-0.91.7z\r\n\r\n\r\n解压到英文目录下，双击 start.exe, 在打开的页面中上传音频视频文件识别\r\n解压到文件夹并双击 start.exe，等待直至网页浏览器打开。\r\n\r\n----\r\n\r\n## 模型下载地址\u002F模型下载链接  https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0","2024-01-26T15:54:45",{"id":190,"version":191,"summary_zh":192,"released_at":193},247560,"v0.0.6","## 变更\n\n1. 修复了 bug #7  \n2. 默认使用 CPU 运算。如果您确定要使用英伟达显卡，并且已正确配置 CUDA 环境，请将 `set.ini` 文件中的 `devtype=cpu` 修改为 `devtype=cuda`，然后重新启动程序，即可启用 CUDA 加速。  \n3. 进度条  \n\n## 下载地址（含基础模型）\u002FDownload url: \n\n百度网盘: https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1am6RNTwR9cfA3_EKwyTLxg?pwd=cvrd  \n\nGitHub:  https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002Fv0.0.6\u002Fsttv0.0.6.7z  \n\n\n解压到英文目录下，双击 start.exe，在打开的页面中上传音频或视频文件进行识别。  \n解压到文件夹并双击 start.exe，等待直至网页浏览器打开。  \n\n----  \n\n## 模型下载地址\u002FDownload models  https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Ftag\u002F0.0","2024-01-12T14:58:45",{"id":195,"version":196,"summary_zh":197,"released_at":198},247561,"v0.0.1","## cuBLASxx.dll 和 cuDNN 下载\n\n如果遇到“cublasxxx.dll 不存在”或启用 CUDA 加速后闪退的问题，请下载该文件，然后将里面的 DLL 文件复制到 C:\u002FWindows\u002FSystem32 目录下，或者软件的根目录（即 EXE 文件所在的目录）。\n\n在任意文件夹的地址栏输入 `cmd` 打开命令提示符窗口，输入命令 `nvcc -V` 查看当前的 CUDA 版本。\n\nCUDA 11.x 版本请点击此处下载：https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002FcuBLAS.and.cuDNN_CUDA11_win_v4.7z\n\nCUDA 12.x 版本请点击此处下载：https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002FcuBLAS.and.cuDNN_CUDA12_win_v1.7z\n\n","2023-12-28T17:51:25",{"id":200,"version":201,"summary_zh":202,"released_at":203},247562,"0.0","## faster-whisper 模型下载，适用于 stt 项目 和 “pyvideotrans视频翻译配音”项目的faster-whisper模式使用，openai-whisper模型请往下拉\r\n\r\n![image](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc0bf0c46-beb2-49f7-970f-dfb3947ae94e)\r\n\r\n[tiny 64MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-tiny.7z)\r\n[tiny.en 64MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-tiny.en.7z)\r\n\r\n\r\n\r\n[base  124MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-base.7z)\r\n[base.en  124MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-base.en.7z)\r\n\r\n[small  415MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-small.7z)\r\n[small 百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1ROjy-UOjz_2a7I_cyzUj2g?pwd=frth)\r\n[small.en 415MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-small.en.7z)\r\n\r\n[medium  1.27G](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-medium.7z)\r\n[medium.en  1.27G](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-medium.en.7z)\r\n\r\n\r\n[large-v1 百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1IS5y0Pyo1okPQOW2uNaLbw?pwd=428z)\r\n[large-v1 huggingface](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmortimerme\u002Fs4\u002Fresolve\u002Fmain\u002Ffaster-large-v1.7z?download=true)\r\n\r\n[large-v2 huggingface](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmortimerme\u002Fs4\u002Fresolve\u002Fmain\u002Flargev2-jieyao-dao-models.7z?download=true)\r\n[large-v2 百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1pQiexsXSCtdN5yBeFAtwLw?pwd=yjmg)\r\n\r\n[large-v3 huggingface](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmortimerme\u002Fs4\u002Fresolve\u002Fmain\u002Ffaster-largev3.7z?download=true)\r\n[large-v3 百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F11a5NYCdRSW6VBOlGmeZdhg?pwd=he2w)\r\n\r\n[large-v3-turbo 1.3G](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Ffaster-large-v3-turbo.7z)\r\n\r\n[distil-whisper-small.en  282MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Fdistil-whisper-small.en.7z)\r\n\r\n[distil-whisper-medium.en 671MB](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Fdistil-whisper-medium.en.7z)\r\n[distil-medium百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1fdA9nWNPLSjTKfdcPqHpoQ?pwd=1vwz)\r\n\r\n[distil-whisper-large-v2  1.27G](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Fdistil-whisper-large-v2.7z)\r\n[distil-large-v2 百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HXbf8lYBhlxkvX5ZTEtafA?pwd=443i)\r\n\r\n[distil-whisper-large-v3   1.3G](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Freleases\u002Fdownload\u002F0.0\u002Fdistil-whisper-large-v3.7z)\r\n[distil-whisper-large-v3百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1bEeZg584tOvEXlIOx5QQGg?pwd=958n)\r\n\r\n\r\n> **下载后解压，将压缩包内的\"models--Systran--faster-xx\"文件夹复制到models目录内，解压复制后 models 目录下文件夹列表如下**\r\n>   \r\n>   压缩包内容\r\n>   \r\n>   ![image](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fassets\u002F3378335\u002Fd9ffe31e-00f9-4c72-ae2d-ce791588cf73)\r\n>   \r\n>   正确放置后的 models 目录下的文件夹列表\r\n>   \r\n>   ![image](https:\u002F\u002Fgithub.com\u002Fjianchang512\u002Fstt\u002Fassets\u002F3378335\u002F5c972f7b-b0bf-4732-a6f1-253f42c45087)\r\n> \r\n\r\n----\r\n----\r\n----\r\n\r\n## openai-whisper模型下载，仅适用于“pyvideotrans视频翻译配音软件”的 openai-whisper模式模型 下载使用\r\n\r\n![image](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffc47a0c9-c1cf-486b-8a7f-7df4f","2023-12-28T16:34:08"]