[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-HiMeditator--auto-caption":3,"tool-HiMeditator--auto-caption":65},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":22},3788,"airi","moeru-ai\u002Fairi","airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。\n\nairi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。\n\n这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。",37086,1,"2026-04-05T10:54:25",[19,21,17],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":82,"owner_email":83,"owner_twitter":81,"owner_website":84,"owner_url":85,"languages":86,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":10,"env_os":115,"env_gpu":116,"env_ram":117,"env_deps":118,"category_tags":126,"github_topics":127,"view_count":10,"oss_zip_url":81,"oss_zip_packed_at":81,"status":22,"created_at":135,"updated_at":136,"faqs":137,"releases":178},2497,"HiMeditator\u002Fauto-caption","auto-caption","A cross-platform real-time subtitle display software. 一个跨平台的实时字幕显示软件。","auto-caption 是一款功能强大的跨平台实时字幕显示软件，旨在为 Windows、macOS 和 Linux 用户解决视频观看、在线会议或音频学习中的语言障碍问题。它能够实时捕获系统音频输出或麦克风输入，并迅速将其转化为可视化的字幕文本，让无声或有语言门槛的内容变得易于理解。\n\n这款工具特别适合普通用户、内容创作者以及需要频繁参与跨国会议的专业人士。无论是观看无字幕的外语视频，还是记录重要的语音备忘录，auto-caption 都能提供流畅的辅助体验。对于开发者和技术爱好者而言，其高度的可定制性和开源特性也极具吸引力，支持通过 Python 自行开发扩展模型引擎。\n\nauto-caption 的核心亮点在于其灵活多样的字幕引擎选择与翻译能力。用户既可以选择注重隐私和本地运行的 Vosk 或 SOSV 本地模型，也可以接入阿里云 Gummy、智谱 GLM-ASR 等高精度云端服务。此外，它还支持调用本地 Ollama 大模型或云端 OpenAI 兼容接口进行即时翻译，实现了“识别+翻译”的一站式处理。软件提供了丰富的界面自定义选项，包括字体、颜色及背景样式，并支持将字幕记录导出为","auto-caption 是一款功能强大的跨平台实时字幕显示软件，旨在为 Windows、macOS 和 Linux 用户解决视频观看、在线会议或音频学习中的语言障碍问题。它能够实时捕获系统音频输出或麦克风输入，并迅速将其转化为可视化的字幕文本，让无声或有语言门槛的内容变得易于理解。\n\n这款工具特别适合普通用户、内容创作者以及需要频繁参与跨国会议的专业人士。无论是观看无字幕的外语视频，还是记录重要的语音备忘录，auto-caption 都能提供流畅的辅助体验。对于开发者和技术爱好者而言，其高度的可定制性和开源特性也极具吸引力，支持通过 Python 自行开发扩展模型引擎。\n\nauto-caption 的核心亮点在于其灵活多样的字幕引擎选择与翻译能力。用户既可以选择注重隐私和本地运行的 Vosk 或 SOSV 本地模型，也可以接入阿里云 Gummy、智谱 GLM-ASR 等高精度云端服务。此外，它还支持调用本地 Ollama 大模型或云端 OpenAI 兼容接口进行即时翻译，实现了“识别+翻译”的一站式处理。软件提供了丰富的界面自定义选项，包括字体、颜色及背景样式，并支持将字幕记录导出为 .srt 或 .json 格式，方便后续整理与归档。尽管 macOS 和 Linux 用户在获取系统音频时可能需要少量额外配置，但其广泛的兼容性和免费开源的特性，使其成为一款值得尝试的实用效率工具。","\u003Cdiv align=\"center\" >\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_47b7ebc641ff.png\" width=\"100px\" height=\"100px\"\u002F>\n    \u003Ch1 align=\"center\">auto-caption\u003C\u002Fh1>\n    \u003Cp>Auto Caption 是一个跨平台的实时字幕显示软件。\u003C\u002Fp>\n    \u003Cp>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Frelease-1.1.1-blue\">\u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FHiMeditator\u002Fauto-caption?color=orange\">\u003C\u002Fa>\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flanguages\u002Ftop\u002FHiMeditator\u002Fauto-caption?color=royalblue\">\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frepo-size\u002FHiMeditator\u002Fauto-caption?color=green\">\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FHiMeditator\u002Fauto-caption?style=social\">\n    \u003C\u002Fp>\n    \u003Cp>\n        | \u003Cb>简体中文\u003C\u002Fb>\n        | \u003Ca href=\".\u002FREADME_en.md\">English\u003C\u002Fa>\n        | \u003Ca href=\".\u002FREADME_ja.md\">日本語\u003C\u002Fa> |\n    \u003C\u002Fp>\n    \u003Cp>\u003Ci>v1.1.1 版本已经发布，新增 GLM-ASR 云端字幕模型和 OpenAI 兼容模型翻译...\u003C\u002Fi>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_68bfd973e58d.png)\n\n## 📥 下载\n\n软件下载：[GitHub Releases](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases)\n\nVosk 模型下载：[Vosk Models](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels)\n\nSOSV 模型下载：[ Shepra-ONNX SenseVoice Model](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model)\n\n## 📚 相关文档\n\n[Auto Caption 用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md)\n\n[字幕引擎说明文档](.\u002Fdocs\u002Fengine-manual\u002Fzh.md)\n\n[更新日志](.\u002Fdocs\u002FCHANGELOG.md)\n\n## 👁️‍🗨️ 预览\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9c188d78-9520-4397-bacf-4c8fdcc54874\n\n## ✨ 特性\n\n- 生成音频输出或麦克风输入的字幕\n- 支持调用本地 Ollama 模型、云端 OpenAI 兼容模型、或云端 Google 翻译 API 进行翻译\n- 跨平台（Windows、macOS、Linux）、多界面语言（中文、英语、日语）支持\n- 丰富的字幕样式设置（字体、字体大小、字体粗细、字体颜色、背景颜色等）\n- 灵活的字幕引擎选择（阿里云 Gummy 云端模型、GLM-ASR 云端模型、本地 Vosk 模型、本地 SOSV 模型、还可以自己开发模型）\n- 多语言识别与翻译（见下文“⚙️ 自带字幕引擎说明”）\n- 字幕记录展示与导出（支持导出 `.srt` 和 `.json` 格式）\n\n## 📖 基本使用\n\n> ⚠️ 注意：目前只维护了 Windows 平台的软件的最新版本，其他平台的最后版本停留在 v1.0.0。\n\n软件已经适配了 Windows、macOS 和 Linux 平台。测试过的主流平台信息如下：\n\n| 操作系统版本        | 处理器架构 | 获取系统音频输入 | 获取系统音频输出 |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅               | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅ [需要额外配置](.\u002Fdocs\u002Fuser-manual\u002Fzh.md#macos-获取系统音频输出)     | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅               | ✅                |\n\nmacOS 平台和 Linux 平台获取系统音频输出需要进行额外设置，详见 [Auto Caption 用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md)。\n\n下载软件后，需要根据自己的需求选择对应的模型，然后配置模型。\n\n|                                                              | 准确率 | 实时性 | 部署类型          | 支持语言   | 翻译       | 备注                                                       |\n| ------------------------------------------------------------ | -------- | ------------- | ---------- | ---------- | ---------------------------------------------------------- | ---------------------------------------------------------- |\n| [Gummy](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fgummy-speech-recognition-translation) | 很好😊    | 很好😊 | 云端 \u002F 阿里云 | 10 种      | 自带翻译   | 收费，识别0.54CNY \u002F 小时，识别+翻译1.08CNY\u002F小时           |\n| [glm-asr-2512](https:\u002F\u002Fdocs.bigmodel.cn\u002Fcn\u002Fguide\u002Fmodels\u002Fsound-and-video\u002Fglm-asr-2512) | 很好😊 | 较差😞 | 云端 \u002F 智谱 AI | 4 种 | 需额外配置 | 收费，约 0.72CNY \u002F 小时 |\n| [Vosk](https:\u002F\u002Falphacephei.com\u002Fvosk)                         | 较差😞    | 很好😊 | 本地 \u002F CPU    | 超过 30 种 | 需额外配置 | 支持的语言非常多                                           |\n| [SOSV](https:\u002F\u002Fk2-fsa.github.io\u002Fsherpa\u002Fonnx\u002Fsense-voice\u002Findex.html) | 一般😐    | 一般😐 | 本地 \u002F CPU    | 5 种       | 需额外配置 | 仅有一个模型                                               |\n| 自己开发                                                     | 🤔        | 🤔      | 自定义        | 自定义     | 自定义     | 根据[文档](.\u002Fdocs\u002Fengine-manual\u002Fzh.md)使用 Python 自己开发 |\n\n如果你选择的不是 Gummy 模型，你还需要配置自己的翻译模型。\n\n### 配置翻译模型\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_86d27f313946.png)\n\n> 注意：翻译不是实时的，翻译模型只会在每句话识别完成后再调用。\n\n#### Ollama 本地模型\n\n> 注意：使用参数量过大的模型会导致资源消耗和翻译延迟较大。建议使用参数量小于 1B 的模型，比如： `qwen2.5:0.5b`, `qwen3:0.6b`。\n\n使用该模型之前你需要确定本机安装了 [Ollama](https:\u002F\u002Follama.com\u002F) 软件，并已经下载了需要的大语言模型。只需要将需要调用的大模型名称添加到设置中的 `模型名称` 字段中，并保证 `Base URL` 字段为空。\n\n#### OpenAI 兼容模型\n\n如果觉得本地 Ollama 模型的翻译效果不佳，或者不想在本地安装 Ollama 模型，那么可以使用云端的 OpenAI 兼容模型。\n\n以下是一些模型提供商的 `Base URL`：\n- OpenAI: https:\u002F\u002Fapi.openai.com\u002Fv1\n- DeepSeek：https:\u002F\u002Fapi.deepseek.com\n- 阿里云：https:\u002F\u002Fdashscope.aliyuncs.com\u002Fcompatible-mode\u002Fv1\n\nAPI Key 需要在对应的模型提供商处获取。\n\n#### Google 翻译 API\n\n> 注意：Google 翻译 API 在无法访问国际网络的地区无法使用。\n\n无需任何配置，联网即可使用。\n\n### 使用 Gummy 模型\n\n> 国际版的阿里云服务似乎并没有提供 Gummy 模型，因此目前非中国用户可能无法使用 Gummy 字幕引擎。\n\n如果要使用默认的 Gummy 字幕引擎（使用云端模型进行语音识别和翻译），首先需要获取阿里云百炼平台的 API KEY，然后将 API KEY 添加到软件设置中（在字幕引擎设置的更多设置中）或者配置到环境变量中（仅 Windows 平台支持读取环境变量中的 API KEY），这样才能正常使用该模型。相关教程：\n\n- [获取 API KEY](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fget-api-key)\n- [将 API Key 配置到环境变量](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fconfigure-api-key-through-environment-variables)\n\n### 使用 GLM-ASR 模型\n\n使用前需要获取智谱 AI 平台的 API KEY，并添加到软件设置中。\n\nAPI KEY 获取相关链接：[快速开始](https:\u002F\u002Fdocs.bigmodel.cn\u002Fcn\u002Fguide\u002Fstart\u002Fquick-start)。\n\n### 使用 Vosk 模型\n\n> Vosk 模型的识别效果较差，请谨慎使用。\n\n如果要使用 Vosk 本地字幕引擎，首先需要在 [Vosk Models](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) 页面下载你需要的模型，并将模型解压到本地，并将模型文件夹的路径添加到软件的设置中。\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_f1561f17ab7c.png)\n\n### 使用 SOSV 模型\n\n使用 SOSV 模型的方式和 Vosk 一样，下载地址如下：https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model\n\n## ⌨️ 在终端中使用\n\n软件采用模块化设计，可用分为软件主体和字幕引擎两部分，软件主体通过图形界面调用字幕引擎。核心的音频获取和音频识别功能都在字幕引擎中实现，而字幕引擎是可用脱离软件主体单独使用的。\n\n字幕引擎使用 Python 开发，通过 PyInstaller 打包为可执行文件。因此字幕引擎有两种使用方式：\n\n1. 使用项目字幕引擎部分的源代码，使用安装了对应库的 Python 环境进行运行\n2. 使用打包好的字幕引擎的可执行文件，通过终端运行\n\n运行参数和详细使用介绍请参考[用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md#单独使用字幕引擎)。\n\n```bash\npython main.py \\\n-e gummy \\\n-k sk-******************************** \\\n-a 0 \\\n-d 1 \\\n-s en \\\n-t zh\n```\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_33f70539e557.png)\n\n## ⚙️ 自带字幕引擎说明\n\n目前软件自带 4 个字幕引擎。它们的详细信息如下。\n\n### Gummy 字幕引擎（云端）\n\n基于通义实验室[Gummy语音翻译大模型](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fgummy-speech-recognition-translation\u002F)进行开发，基于[阿里云百炼](https:\u002F\u002Fbailian.console.aliyun.com)的 API 进行调用该云端模型。\n\n**模型详细参数：**\n\n- 音频采样率支持：16kHz及以上\n- 音频采样位数：16bit\n- 音频通道数支持：单通道\n- 可识别语言：中文、英文、日语、韩语、德语、法语、俄语、意大利语、西班牙语\n- 支持的翻译：\n  - 中文 → 英文、日语、韩语\n  - 英文 → 中文、日语、韩语\n  - 日语、韩语、德语、法语、俄语、意大利语、西班牙语 → 中文或英文\n\n**网络流量消耗：**\n\n字幕引擎使用原生采样率（假设为 48kHz）进行采样，样本位深为 16bit，上传音频为为单通道，因此上传速率约为：\n\n$$\n48000\\ \\text{samples\u002Fsecond} \\times 2\\ \\text{bytes\u002Fsample} \\times 1\\ \\text{channel}  = 93.75\\ \\text{KB\u002Fs}\n$$\n\n而且引擎只会获取到音频流的时候才会上传数据，因此实际上传速率可能更小。模型结果回传流量消耗较小，没有纳入考虑。\n\n### GLM-ASR 字幕引擎（云端）\n\nhttps:\u002F\u002Fdocs.bigmodel.cn\u002Fcn\u002Fguide\u002Fmodels\u002Fsound-and-video\u002Fglm-asr-2512\n\n### Vosk 字幕引擎（本地）\n\n基于 [vosk-api](https:\u002F\u002Fgithub.com\u002Falphacep\u002Fvosk-api) 开发。该字幕引擎的优点是可选的语言模型非常多（超过 30 种），缺点是识别效果比较差，且生成内容没有标点符号。\n\n\n### SOSV 字幕引擎（本地）\n\n[SOSV](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model) 是一个整合包，该整合包主要基于 [Shepra-ONNX SenseVoice](https:\u002F\u002Fk2-fsa.github.io\u002Fsherpa\u002Fonnx\u002Fsense-voice\u002Findex.html)，并添加了端点检测模型和标点恢复模型。该模型支持识别的语言有：英语、中文、日语、韩语、粤语。\n\n## 🚀 项目运行\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_c2924126a8c3.png)\n\n### 安装依赖\n\n```bash\nnpm install\n```\n\n### 构建字幕引擎\n\n首先进入 `engine` 文件夹，执行如下指令创建虚拟环境（需要使用大于等于 Python 3.10 的 Python 运行环境，建议使用 Python 3.12）：\n\n```bash\ncd .\u002Fengine\n# in .\u002Fengine folder\npython -m venv .venv\n# or\npython3 -m venv .venv\n```\n\n然后激活虚拟环境：\n\n```bash\n# Windows\n.venv\u002FScripts\u002Factivate\n# Linux or macOS\nsource .venv\u002Fbin\u002Factivate\n```\n\n然后安装依赖（这一步在 macOS 和 Linux 可能会报错，一般是因为构建失败，需要根据报错信息进行处理）：\n\n```bash\npip install -r requirements.txt\n```\n\n然后使用 `pyinstaller` 构建项目：\n\n```bash\npyinstaller .\u002Fmain.spec\n```\n\n注意 `main.spec` 文件中 `vosk` 库的路径可能不正确，需要根据实际状况配置（与 Python 环境的版本相关）。\n\n```\n# Windows\nvosk_path = str(Path('.\u002F.venv\u002FLib\u002Fsite-packages\u002Fvosk').resolve())\n# Linux or macOS\nvosk_path = str(Path('.\u002F.venv\u002Flib\u002Fpython3.x\u002Fsite-packages\u002Fvosk').resolve())\n```\n\n此时项目构建完成，进入 `engine\u002Fdist` 文件夹可见对应的可执行文件。即可进行后续操作。\n\n### 运行项目\n\n```bash\nnpm run dev\n```\n\n### 构建项目\n\n```bash\n# For windows\nnpm run build:win\n# For macOS\nnpm run build:mac\n# For Linux\nnpm run build:linux\n```\n","\u003Cdiv align=\"center\" >\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_47b7ebc641ff.png\" width=\"100px\" height=\"100px\"\u002F>\n    \u003Ch1 align=\"center\">auto-caption\u003C\u002Fh1>\n    \u003Cp>Auto Caption 是一个跨平台的实时字幕显示软件。\u003C\u002Fp>\n    \u003Cp>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Frelease-1.1.1-blue\">\u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FHiMeditator\u002Fauto-caption?color=orange\">\u003C\u002Fa>\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flanguages\u002Ftop\u002FHiMeditator\u002Fauto-caption?color=royalblue\">\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frepo-size\u002FHiMeditator\u002Fauto-caption?color=green\">\n      \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FHiMeditator\u002Fauto-caption?style=social\">\n    \u003C\u002Fp>\n    \u003Cp>\n        | \u003Cb>简体中文\u003C\u002Fb>\n        | \u003Ca href=\".\u002FREADME_en.md\">English\u003C\u002Fa>\n        | \u003Ca href=\".\u002FREADME_ja.md\">日本語\u003C\u002Fa> |\n    \u003C\u002Fp>\n    \u003Cp>\u003Ci>v1.1.1 版本已经发布，新增 GLM-ASR 云端字幕模型和 OpenAI 兼容模型翻译...\u003C\u002Fi>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_68bfd973e58d.png)\n\n## 📥 下载\n\n软件下载：[GitHub Releases](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases)\n\nVosk 模型下载：[Vosk Models](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels)\n\nSOSV 模型下载：[ Shepra-ONNX SenseVoice Model](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model)\n\n## 📚 相关文档\n\n[Auto Caption 用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md)\n\n[字幕引擎说明文档](.\u002Fdocs\u002Fengine-manual\u002Fzh.md)\n\n[更新日志](.\u002Fdocs\u002FCHANGELOG.md)\n\n## 👁️‍🗨️ 预览\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9c188d78-9520-4397-bacf-4c8fdcc54874\n\n## ✨ 特性\n\n- 生成音频输出或麦克风输入的字幕\n- 支持调用本地 Ollama 模型、云端 OpenAI 兼容模型、或云端 Google 翻译 API 进行翻译\n- 跨平台（Windows、macOS、Linux）、多界面语言（中文、英语、日语）支持\n- 丰富的字幕样式设置（字体、字体大小、字体粗细、字体颜色、背景颜色等）\n- 灵活的字幕引擎选择（阿里云 Gummy 云端模型、GLM-ASR 云端模型、本地 Vosk 模型、本地 SOSV 模型、还可以自己开发模型）\n- 多语言识别与翻译（见下文“⚙️ 自带字幕引擎说明”）\n- 字幕记录展示与导出（支持导出 `.srt` 和 `.json` 格式）\n\n## 📖 基本使用\n\n> ⚠️ 注意：目前只维护了 Windows 平台的软件的最新版本，其他平台的最后版本停留在 v1.0.0。\n\n软件已经适配了 Windows、macOS 和 Linux 平台。测试过的主流平台信息如下：\n\n| 操作系统版本        | 处理器架构 | 获取系统音频输入 | 获取系统音频输出 |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅               | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅ [需要额外配置](.\u002Fdocs\u002Fuser-manual\u002Fzh.md#macos-获取系统音频输出)     | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅               | ✅                |\n\nmacOS 平台和 Linux 平台获取系统音频输出需要进行额外设置，详见 [Auto Caption 用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md)。\n\n下载软件后，需要根据自己的需求选择对应的模型，然后配置模型。\n\n|                                                              | 准确率 | 实时性 | 部署类型          | 支持语言   | 翻译       | 备注                                                       |\n| ------------------------------------------------------------ | -------- | ------------- | ---------- | ---------- | ---------------------------------------------------------- | ---------------------------------------------------------- |\n| [Gummy](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fgummy-speech-recognition-translation) | 很好😊    | 很好😊 | 云端 \u002F 阿里云 | 10 种      | 自带翻译   | 收费，识别0.54CNY \u002F 小时，识别+翻译1.08CNY\u002F小时           |\n| [glm-asr-2512](https:\u002F\u002Fdocs.bigmodel.cn\u002Fcn\u002Fguide\u002Fmodels\u002Fsound-and-video\u002Fglm-asr-2512) | 很好😊 | 较差😞 | 云端 \u002F 智谱 AI | 4 种 | 需额外配置 | 收费，约 0.72CNY \u002F 小时 |\n| [Vosk](https:\u002F\u002Falphacephei.com\u002Fvosk)                         | 较差😞    | 很好😊 | 本地 \u002F CPU    | 超过 30 种 | 需额外配置 | 支持的语言非常多                                           |\n| [SOSV](https:\u002F\u002Fk2-fsa.github.io\u002Fsherpa\u002Fonnx\u002Fsense-voice\u002Findex.html) | 一般😐    | 一般😐 | 本地 \u002F CPU    | 5 种       | 需额外配置 | 仅有一个模型                                               |\n| 自己开发                                                     | 🤔        | 🤔      | 自定义        | 自定义     | 自定义     | 根据[文档](.\u002Fdocs\u002Fengine-manual\u002Fzh.md)使用 Python 自己开发 |\n\n如果你选择的不是 Gummy 模型，你还需要配置自己的翻译模型。\n\n### 配置翻译模型\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_86d27f313946.png)\n\n> 注意：翻译不是实时的，翻译模型只会在每句话识别完成后再调用。\n\n#### Ollama 本地模型\n\n> 注意：使用参数量过大的模型会导致资源消耗和翻译延迟较大。建议使用参数量小于 1B 的模型，比如： `qwen2.5:0.5b`, `qwen3:0.6b`.\n\n使用该模型之前你需要确定本机安装了 [Ollama](https:\u002F\u002Follama.com\u002F) 软件，并已经下载了需要的大语言模型。只需要将需要调用的大模型名称添加到设置中的 `模型名称` 字段中，并保证 `Base URL` 字段为空。\n\n#### OpenAI 兼容模型\n\n如果觉得本地 Ollama 模型的翻译效果不佳，或者不想在本地安装 Ollama 模型，那么可以使用云端的 OpenAI 兼容模型。\n\n以下是一些模型提供商的 `Base URL`：\n- OpenAI: https:\u002F\u002Fapi.openai.com\u002Fv1\n- DeepSeek：https:\u002F\u002Fapi.deepseek.com\n- 阿里云：https:\u002F\u002Fdashscope.aliyuncs.com\u002Fcompatible-mode\u002Fv1\n\nAPI Key 需要在对应的模型提供商处获取。\n\n#### Google 翻译 API\n\n> 注意：Google 翻译 API 在无法访问国际网络的地区无法使用。\n\n无需任何配置，联网即可使用。\n\n### 使用 Gummy 模型\n\n> 国际版的阿里云服务似乎并没有提供 Gummy 模型，因此目前非中国用户可能无法使用 Gummy 字幕引擎。\n\n如果要使用默认的 Gummy 字幕引擎（使用云端模型进行语音识别和翻译），首先需要获取阿里云百炼平台的 API KEY，然后将 API KEY 添加到软件设置中（在字幕引擎设置的更多设置中）或者配置到环境变量中（仅 Windows 平台支持读取环境变量中的 API KEY），这样才能正常使用该模型。相关教程：\n\n- [获取 API KEY](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fget-api-key)\n- [将 API Key 配置到环境变量](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fconfigure-api-key-through-environment-variables)\n\n### 使用 GLM-ASR 模型\n\n使用前需要获取智谱 AI 平台的 API KEY，并添加到软件设置中。\n\nAPI KEY 获取相关链接：[快速开始](https:\u002F\u002Fdocs.bigmodel.cn\u002Fcn\u002Fguide\u002Fstart\u002Fquick-start)。\n\n### 使用 Vosk 模型\n\n> Vosk 模型的识别效果较差，请谨慎使用。\n\n如果要使用 Vosk 本地字幕引擎，首先需要在 [Vosk Models](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) 页面下载你需要的模型，并将模型解压到本地，并将模型文件夹的路径添加到软件的设置中。\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_f1561f17ab7c.png)\n\n### 使用 SOSV 模型\n\n使用 SOSV 模型的方式和 Vosk 一样，下载地址如下：https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model\n\n## ⌨️ 在终端中使用\n\n软件采用模块化设计，可用分为软件主体和字幕引擎两部分，软件主体通过图形界面调用字幕引擎。核心的音频获取和音频识别功能都在字幕引擎中实现，而字幕引擎是可用脱离软件主体单独使用的。\n\n字幕引擎使用 Python 开发，通过 PyInstaller 打包为可执行文件。因此字幕引擎有两种使用方式：\n\n1. 使用项目字幕引擎部分的源代码，使用安装了对应库的 Python 环境进行运行\n2. 使用打包好的字幕引擎的可执行文件，通过终端运行\n\n运行参数和详细使用介绍请参考[用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md#单独使用字幕引擎)。\n\n```bash\npython main.py \\\n-e gummy \\\n-k sk-******************************** \\\n-a 0 \\\n-d 1 \\\n-s en \\\n-t zh\n```\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_33f70539e557.png)\n\n## ⚙️ 自带字幕引擎说明\n\n目前软件自带 4 个字幕引擎。它们的详细信息如下。\n\n### Gummy 字幕引擎（云端）\n\n基于通义实验室[Gummy语音翻译大模型](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fgummy-speech-recognition-translation\u002F)进行开发，基于[阿里云百炼](https:\u002F\u002Fbailian.console.aliyun.com)的 API 进行调用该云端模型。\n\n**模型详细参数：**\n\n- 音频采样率支持：16kHz及以上\n- 音频采样位数：16bit\n- 音频通道数支持：单通道\n- 可识别语言：中文、英文、日语、韩语、德语、法语、俄语、意大利语、西班牙语\n- 支持的翻译：\n  - 中文 → 英文、日语、韩语\n  - 英文 → 中文、日语、韩语\n  - 日语、韩语、德语、法语、俄语、意大利语、西班牙语 → 中文或英文\n\n**网络流量消耗：**\n\n字幕引擎使用原生采样率（假设为 48kHz）进行采样，样本位深为 16bit，上传音频为为单通道，因此上传速率约为：\n\n$$\n48000\\ \\text{samples\u002Fsecond} \\times 2\\ \\text{bytes\u002Fsample} \\times 1\\ \\text{channel}  = 93.75\\ \\text{KB\u002Fs}\n$$\n\n而且引擎只会获取到音频流的时候才会上传数据，因此实际上传速率可能更小。模型结果回传流量消耗较小，没有纳入考虑。\n\n### GLM-ASR 字幕引擎（云端）\n\nhttps:\u002F\u002Fdocs.bigmodel.cn\u002Fcn\u002Fguide\u002Fmodels\u002Fsound-and-video\u002Fglm-asr-2512\n\n### Vosk 字幕引擎（本地）\n\n基于 [vosk-api](https:\u002F\u002Fgithub.com\u002Falphacep\u002Fvosk-api) 开发。该字幕引擎的优点是可选的语言模型非常多（超过 30 种），缺点是识别效果比较差，且生成内容没有标点符号。\n\n\n### SOSV 字幕引擎（本地）\n\n[SOSV](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model) 是一个整合包，该整合包主要基于 [Shepra-ONNX SenseVoice](https:\u002F\u002Fk2-fsa.github.io\u002Fsherpa\u002Fonnx\u002Fsense-voice\u002Findex.html)，并添加了端点检测模型和标点恢复模型。该模型支持识别的语言有：英语、中文、日语、韩语、粤语。\n\n## 🚀 项目运行\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_readme_c2924126a8c3.png)\n\n### 安装依赖\n\n```bash\nnpm install\n```\n\n### 构建字幕引擎\n\n首先进入 `engine` 文件夹，执行如下指令创建虚拟环境（需要使用大于等于 Python 3.10 的 Python 运行环境，建议使用 Python 3.12）：\n\n```bash\ncd .\u002Fengine\n# in .\u002Fengine folder\npython -m venv .venv\n\n# 或者\npython3 -m venv .venv\n```\n\n然后激活虚拟环境：\n\n```bash\n# Windows\n.venv\u002FScripts\u002Factivate\n# Linux 或 macOS\nsource .venv\u002Fbin\u002Factivate\n```\n\n接着安装依赖（这一步在 macOS 和 Linux 上可能会报错，通常是因为构建失败，需要根据错误信息进行处理）：\n\n```bash\npip install -r requirements.txt\n```\n\n之后使用 `pyinstaller` 构建项目：\n\n```bash\npyinstaller .\u002Fmain.spec\n```\n\n注意 `main.spec` 文件中 `vosk` 库的路径可能不正确，需要根据实际情况进行配置（与 Python 环境的版本相关）。\n\n```\n# Windows\nvosk_path = str(Path('.\u002F.venv\u002FLib\u002Fsite-packages\u002Fvosk').resolve())\n# Linux 或 macOS\nvosk_path = str(Path('.\u002F.venv\u002Flib\u002Fpython3.x\u002Fsite-packages\u002Fvosk').resolve())\n```\n\n此时项目构建完成，进入 `engine\u002Fdist` 文件夹即可看到对应的可执行文件。接下来就可以进行后续操作。\n\n### 运行项目\n\n```bash\nnpm run dev\n```\n\n### 构建项目\n\n```bash\n# Windows 版本\nnpm run build:win\n# macOS 版本\nnpm run build:mac\n# Linux 版本\nnpm run build:linux\n```","# Auto Caption 快速上手指南\n\nAuto Caption 是一款跨平台的实时字幕显示软件，支持本地与云端多种语音识别引擎，并具备翻译、样式自定义及字幕导出功能。\n\n## 🛠️ 环境准备\n\n### 系统要求\n*   **Windows**: Windows 11 24H2 (x64) - *推荐，维护最及时*\n*   **macOS**: macOS Sequoia 15.5 (arm64) - *获取系统音频需额外配置*\n*   **Linux**: Ubuntu 24.04.2 (x64) - *获取系统音频需额外配置*\n\n> **注意**：目前仅 Windows 平台持续更新最新版本，其他平台最新稳定版为 v1.0.0。\n\n### 前置依赖\n若需从源码构建或开发，请确保安装以下环境：\n*   **Node.js**: 用于运行前端界面\n*   **Python**: 版本 >= 3.10（推荐 3.12），用于构建字幕引擎\n*   **Ollama** (可选): 若使用本地大模型进行翻译，需预先安装并下载模型（推荐参数量 \u003C 1B，如 `qwen2.5:0.5b`）\n\n## 📥 安装步骤\n\n### 方式一：直接使用成品软件（推荐）\n\n1.  **下载软件**\n    访问 [GitHub Releases](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases) 下载对应系统的安装包。\n\n2.  **选择并配置字幕引擎**\n    根据需求选择以下任一引擎，并在软件设置中配置：\n\n    *   **Gummy (云端\u002F阿里云)**:\n        *   特点：准确率高，自带翻译，收费。\n        *   配置：获取阿里云百炼 API Key，填入设置或配置环境变量。\n    *   **GLM-ASR (云端\u002F智谱AI)**:\n        *   特点：准确率好，需额外配置翻译，收费。\n        *   配置：获取智谱 AI API Key，填入设置。\n    *   **Vosk (本地\u002FCPU)**:\n        *   特点：免费，支持语言多，但准确率较低且无标点。\n        *   配置：从 [Vosk Models](https:\u002F\u002Falphacephei.com\u002Fvosk\u002Fmodels) 下载模型，解压后将路径填入软件设置。\n    *   **SOSV (本地\u002FCPU)**:\n        *   特点：免费，支持中英日韩粤，含标点恢复。\n        *   配置：从 [SOSV Model Release](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fsosv-model) 下载模型，解压后配置路径。\n\n3.  **配置翻译模型 (非 Gummy 引擎必需)**\n    *   **Ollama 本地**: 确保 Ollama 运行中，在设置中输入模型名称（如 `qwen2.5:0.5b`），Base URL 留空。\n    *   **OpenAI 兼容云端**: 填写提供商的 Base URL (如 DeepSeek: `https:\u002F\u002Fapi.deepseek.com`) 和 API Key。\n    *   **Google 翻译**: 无需配置，联网即可用（需能访问国际网络）。\n\n### 方式二：从源码构建（开发者）\n\n1.  **安装前端依赖**\n    ```bash\n    npm install\n    ```\n\n2.  **构建字幕引擎 (Python)**\n    ```bash\n    cd .\u002Fengine\n    # 创建虚拟环境\n    python -m venv .venv\n    \n    # 激活虚拟环境\n    # Windows:\n    .venv\u002FScripts\u002Factivate\n    # Linux\u002FmacOS:\n    source .venv\u002Fbin\u002Factivate\n    \n    # 安装 Python 依赖\n    pip install -r requirements.txt\n    \n    # 构建可执行文件\n    pyinstaller .\u002Fmain.spec\n    ```\n    > **注意**：若构建失败，请检查 `main.spec` 中 `vosk_path` 是否指向正确的 Python 站点包路径。\n\n3.  **运行或打包项目**\n    ```bash\n    # 开发模式运行\n    npm run dev\n    \n    # 打包发布版\n    npm run build:win   # Windows\n    npm run build:mac   # macOS\n    npm run build:linux # Linux\n    ```\n\n## 🚀 基本使用\n\n### 图形界面使用\n1.  启动 Auto Caption 软件。\n2.  在设置中选择已配置的**字幕引擎**（如 Gummy 或 Vosk）。\n3.  若使用非 Gummy 引擎，确保已配置**翻译模型**。\n4.  选择音频输入源（麦克风或系统音频）。\n5.  点击开始，字幕将实时显示在屏幕上。\n6.  可通过设置调整字体、颜色、背景等样式，或导出 `.srt`\u002F`.json` 字幕文件。\n\n### 终端单独使用字幕引擎\n字幕引擎可脱离 GUI 独立运行，适用于服务器或脚本调用。\n\n**示例命令：**\n```bash\npython main.py \\\n-e gummy \\\n-k sk-******************************** \\\n-a 0 \\\n-d 1 \\\n-s en \\\n-t zh\n```\n\n**参数说明：**\n*   `-e`: 引擎类型 (如 `gummy`, `vosk`, `sosv`)\n*   `-k`: API Key (云端引擎需要)\n*   `-a`: 音频设备索引\n*   `-d`: 目标语言代码\n*   `-s`: 源语言代码\n*   `-t`: 翻译目标语言代码\n\n更多详细参数请参考 [用户手册](.\u002Fdocs\u002Fuser-manual\u002Fzh.md#单独使用字幕引擎)。","资深前端工程师李明正在参加一场全英文的跨国技术架构评审会，会议通过 Zoom 进行，主讲人是语速较快且带有口音的海外专家。李明需要实时理解复杂的技术细节，并在会后整理会议纪要同步给国内团队。\n\n### 没有 auto-caption 时\n- **听力负担极重**：面对专业术语和快速语流，李明必须高度集中注意力猜测词义，极易因漏听关键参数而导致理解偏差，精神消耗巨大。\n- **记录效率低下**：为了不错过信息，他不得不频繁暂停回放或手忙脚乱地手动记笔记，导致无法紧跟演讲者的逻辑思路，错失上下文关联。\n- **会后整理繁琐**：会议结束后，李明需要花费数小时反复收听录音来补全笔记，人工转录不仅耗时，还容易因疲劳产生错别字，严重影响文档质量。\n- **协作存在壁垒**：未参会的同事只能依赖李明模糊的记忆复述，缺乏准确的文字依据，导致技术决策传达出现误差，增加沟通成本。\n\n### 使用 auto-caption 后\n- **实时双语辅助**：李明启用 auto-caption 的“系统音频捕获”功能，选择高精度的 GLM-ASR 云端模型并配置 Ollama 本地翻译。屏幕上实时滚动显示中英对照字幕，即使遇到生僻术语也能通过中文译文瞬间理解，听力压力大幅减轻。\n- **专注核心逻辑**：不再需要手忙脚乱地记录，李明可以将全部精力集中在评估架构方案的可行性上，随时在代码编辑器中备注关键疑点，思维连贯性显著提升。\n- **一键导出纪要**：会议结束，李明直接导出 `.srt` 和 `.json` 格式的字幕文件。原始识别文本准确率高，只需简单校对即可作为正式会议纪要，整理时间从几小时缩短至几分钟。\n- **信息无损共享**：他将清洗后的字幕文档分享给团队，未参会成员也能通过精确的文字记录复盘会议细节，确保技术决策透明、准确落地。\n\nauto-caption 通过实时语音转写与翻译，将听觉信息转化为可视化的精准文本，极大提升了跨语言技术沟通的效率与准确性。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FHiMeditator_auto-caption_68bfd973.png","HiMeditator","Chen Janai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FHiMeditator_e40f7c05.png","A graduate student majoring in software engineering with interests in software development and large language models.",null,"Beijing","hironin@foxmail.com","https:\u002F\u002Fhimeditator.github.io","https:\u002F\u002Fgithub.com\u002FHiMeditator",[87,91,95,99,103,107],{"name":88,"color":89,"percentage":90},"TypeScript","#3178c6",43.1,{"name":92,"color":93,"percentage":94},"Vue","#41b883",30.8,{"name":96,"color":97,"percentage":98},"Python","#3572A5",25.2,{"name":100,"color":101,"percentage":102},"JavaScript","#f1e05a",0.5,{"name":104,"color":105,"percentage":106},"CSS","#663399",0.3,{"name":108,"color":109,"percentage":110},"HTML","#e34c26",0.2,509,31,"2026-04-01T08:05:33","MIT","Windows, macOS, Linux","未说明（本地模型 Vosk\u002FSOSV 基于 CPU 运行；云端模型无本地 GPU 需求）","未说明",{"notes":119,"python":120,"dependencies":121},"1. 软件主体基于 Electron\u002FNode.js，字幕引擎基于 Python。2. macOS (arm64) 和 Linux 获取系统音频输出需额外配置。3. 若使用 Ollama 本地翻译，建议参数量小于 1B 的模型以降低延迟。4. 使用 Gummy 或 GLM-ASR 云端模型需配置对应的 API Key。5. 本地模型（Vosk\u002FSOSV）需单独下载模型文件并配置路径。6. Windows 平台维护最新，其他平台最新版本停留在 v1.0.0。",">=3.10 (建议 3.12)",[122,123,124,125],"vosk","sherpa-onnx","pyinstaller","npm (用于前端构建)",[21],[128,129,130,131,132,133,134],"audio2text","electron","python","captions","subtitles","asr","real-time","2026-03-27T02:49:30.150509","2026-04-06T06:51:53.604438",[138,143,148,153,158,163,168,173],{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},11519,"开启字幕引擎闲置一段时间后报错 \"TranslationRecognizerRealtime has stopped\" 怎么办？","该问题是由于 Gummy 模型在空置一段时间后会自动关闭，后续音频输入导致报错。维护者已在最新版本中修复，现在的机制是检测到该错误时自动重启 Gummy 模型。请确保更新至最新版本。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F2",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},11520,"配置了阿里云 API Key 但仍无法使用 Gummy 模型，如何解决？","可能原因及解决方法如下：\n1. 环境变量未生效：尝试直接将 API KEY 粘贴到软件设置中的 \"ALI API KEY\" 字段，点击“应用更改”后再试。\n2. 套餐不支持：检查购买的阿里云计划包是否包含 Gummy 模型（部分套餐可能不包含特定模型）。\n3. 系统环境问题：有用户反馈从 Win10 更换系统后问题解决，建议检查系统环境变量配置是否正确。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F27",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},11521,"软件运行时报错 \"Error: read ECONNRESET\" 或音频识别失败，如何排查？","这通常与音频设备选择有关。如果主机没有外放扬声器（例如仅连接耳机），选择“系统音频输入（麦克风）”可能会报错。请尝试在设置中将音频源更改为“系统音频输出（扬声器）”。若问题依旧，建议打开软件的日志记录功能以获取更详细的错误信息。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F22",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},11522,"对话间隔较短时，字幕窗口持续扩大影响观感，如何优化？","软件已添加“长字幕是否换行”选项。如果选择不换行，软件会隐藏长字幕前面的内容，防止窗口无限扩大。此外，未来版本可能会考虑增加智能淡出功能或完整\u002F精简模式切换。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F1",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},11523,"为什么不支持 Vosk 等本地模型的实时翻译？","目前暂不支持主要基于两点考虑：\n1. Vosk 等本地轻量级模型的识别效果相对较差，添加实时翻译意义不大。\n2. 使用本地大模型进行翻译无法做到低延迟，难以满足实时性要求。\n未来版本可能会考虑添加本地翻译支持，但效果可能不如云端模型。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F14",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},11524,"如何复制生成的字幕文本？","软件已在后续版本中添加了“复制字幕”功能。用户可以在界面中找到相关按钮，一键复制当前显示的字幕内容（可选是否包含时间戳），方便将视频内容转为文稿。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F3",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},11525,"字幕窗口置顶时，如何实现鼠标穿透以便操作下方窗口？","软件已添加“鼠标穿透”功能。在设置中开启该功能后，即使字幕窗口置顶，鼠标点击也会穿透字幕层作用于下方的应用程序，类似音乐软件歌词的效果。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F26",{"id":174,"question_zh":175,"answer_zh":176,"source_url":177},11526,"软件使用的翻译接口是否需要 API Key？国内网络能否直接使用？","软件默认使用的 googletrans 库是通过模拟浏览器请求谷歌翻译网页端（非官方 API），因此不需要 API Key。但其主要缺点是在国内网络环境下通常无法直接使用，可能需要配置网络代理。若需稳定服务，建议配置支持国内访问的云服务 API（如阿里云）。","https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fissues\u002F21",[179,184,189,194,199,204,209,214,219,224,229,234,239,244],{"id":180,"version":181,"summary_zh":182,"released_at":183},62029,"v.1.1.1","\u003Cdetails>\n\u003Csummary close> \u003Ch2>English\u003C\u002Fh2> \u003C\u002Fsummary>\n\n> ⚠️ Note: Currently, only the latest version of the software on Windows platform is maintained, while the last versions for other platforms remain at [v1.0.0](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fv1.0.0).\n\n### Optimized Experience\n\n- Removed the always-on-top option for the subtitle window; the subtitle window will now always stay on top.\n- Changed the always-on-top option for the subtitle window to a mouse penetration option. When the pin icon is solid, it indicates that mouse penetration is enabled. #26\n\u003C\u002Fdetails>\n\n\u003Chr>\n\n> ⚠️ 注意：目前只维护 Windows 平台的软件的最新版本，其他平台的最后版本停留在 [v1.0.0](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fv1.0.0)。\n\n### 优化体验\n\n- 取消字幕窗口的顶置选项，字幕窗口将始终处于顶置状态\n- 将字幕窗口顶置选项改为鼠标穿透选项，当图钉图标为实心时，表示启用鼠标穿透 #26 \n\n\u003Cimg width=\"1437\" height=\"341\" alt=\"图片\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F2baec7a1-816c-4352-af14-b43edd662587\" \u002F>\n\n","2026-01-31T06:00:33",{"id":185,"version":186,"summary_zh":187,"released_at":188},62030,"v1.1.0","\u003Cdetails>\n\u003Csummary close> \u003Ch2>English\u003C\u002Fh2> \u003C\u002Fsummary>\n\n> ⚠️ Note: Currently, only the latest version of the software on Windows platform is maintained, while the last versions for other platforms remain at [v1.0.0](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fv1.0.0).\n\n### New Features\n\n- Added a new caption engine based on GLM-ASR  #25 \n- Added OpenAI API-compatible model as new translation model #25 \n- Updated the prompt messages within the software\n\n\u003C\u002Fdetails>\n\n\u003Chr>\n\n> ⚠️ 注意：目前只维护了 Windows 平台的软件的最新版本，其他平台的最后版本停留在 [v1.0.0](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Freleases\u002Ftag\u002Fv1.0.0)。\n\n### 新增功能\n\n- 添加基于 GLM-ASR 的新字幕引擎 #25 \n- 添加 OpenAI API 兼容模型作为新的翻译模型 #25 \n- 更新软件内提示信息","2026-01-10T15:10:01",{"id":190,"version":191,"summary_zh":192,"released_at":193},62031,"engine","\u003Cimg width=\"1345\" height=\"691\" alt=\"图片\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F03d4aece-b811-4bb3-b14d-b1b972c81545\" \u002F>\r\n\r\n\r\n\u003Cdetails>\r\n\u003Csummary close> \u003Ch2>English\u003C\u002Fh2> \u003C\u002Fsummary>\r\n\r\n### Basic Introduction\r\n\r\nThe software adopts a modular design and can be divided into two parts: the main software and the caption engine. The main software calls the caption engine through a graphical interface. The core functions of audio acquisition and audio recognition are implemented in the caption engine, and the caption engine can be used independently of the main software.\r\n\r\nThe caption engine is developed using Python and packaged into an executable file via PyInstaller. What is released here is the executable file of the caption engine after being packaged by PyInstaller.\r\n\r\n### Usage Instructions\r\n\r\nFirst, download the executable file corresponding to your platform (currently, only the caption engine executable files for Windows and Linux platforms are provided).\r\n\r\nThen, open the terminal in the directory where the caption engine executable file is located and run the command to start the caption engine.\r\n\r\nFor example, on the Windows platform, to select the SOSV model, specify the audio type as microphone, automatically select the source language, and disable translation, the reference command is as follows:\r\n\r\n```bash\r\n.\\engine-win.exe -e sosv -sosv D:\\\\Projects\\\\auto-caption\\\\engine\\\\models\\\\sosv-int8 -a 1 -d 1 -s auto -t none\r\n```\r\n\r\nFor running parameters and detailed usage instructions, please refer to the [User Manual](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fdocs\u002Fuser-manual\u002Fen.md#using-caption-engine-standalone).\r\n\r\n\u003C\u002Fdetails>\r\n\r\n### 基本介绍\r\n\r\n软件采用模块化设计，可用分为软件主体和字幕引擎两部分，软件主体通过图形界面调用字幕引擎。核心的音频获取和音频识别功能都在字幕引擎中实现，而字幕引擎是可用脱离软件主体单独使用的。\r\n\r\n字幕引擎使用 Python 开发，通过 PyInstaller 打包为可执行文件。此处便是发布的字幕引擎通过 PyInstaller 打包后的可执行文件。\r\n\r\n### 使用方法\r\n\r\n数显下载对应平台的可执行文件（目前仅提供 Windows 和 Linux 平台的字幕引擎可执行文件）。\r\n\r\n然后在字幕引擎可执行文件所在目录打开终端，执行命令进行运行字幕引擎。\r\n\r\n比如在 Windows 平台，选择 SOSV 模型，指定音频类型为麦克风，自动选择源语言，不翻译，参考的执行的命令如下：\r\n\r\n```bash\r\n.\\engine-win.exe -e sosv -sosv D:\\\\Projects\\\\auto-caption\\\\engine\\\\models\\\\sosv-int8 -a 1 -d 1 -s auto -t none\r\n```\r\n\r\n运行参数和详细使用介绍请参考[用户手册](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fdocs\u002Fuser-manual\u002Fzh.md#%E5%8D%99%E7%8B%AC%E4%BD%BF%E7%94%A8%E5%AD%92%E5%B9%95%E5%BC%95%E6%93%8E)。","2025-11-02T13:28:46",{"id":195,"version":196,"summary_zh":197,"released_at":198},62032,"v1.0.0","\u003Cdetails>\n\u003Csummary close> \u003Ch2>English\u003C\u002Fh2> \u003C\u002Fsummary>\n\nThe following operating system versions have been tested and confirmed to work properly. The software cannot guarantee normal operation on untested OS versions.\n\n| OS Version         | Architecture | Audio Input Capture | Audio Output Capture |\n| ------------------ | ------------ | ------------------- | -------------------- |\n| Windows 11 24H2    | x64          | ✅                   | ✅                    |\n| macOS Sequoia 15.5 | arm64        | ✅ [Additional config required](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fdocs\u002Fuser-manual\u002Fen.md#capturing-system-audio-output-on-macos)  | ✅          |\n| Ubuntu 24.04.2     | x64          | ✅                   | ✅                    |\n| Kali Linux 2022.3  | x64          | ✅                   | ✅                    |\n\n### New Features\n\n- Subtitle engine timeout shutdown function: If the subtitle engine fails to start within the specified time, it will automatically shut down; during the subtitle engine startup process, users can choose to close the subtitle engine.\n- Non-real-time translation function: Supports calling Ollama local models for translation; supports calling Google Translate API for translation.\n- New translation model: Added SOSV model, supporting recognition of English, Chinese, Japanese, Korean, and Cantonese.\n- Recording function: Can save the audio recognized by the subtitle engine as a .wav file.\n- Multi-line subtitle function: Users can set the number of lines displayed in the subtitle window.\n\n### Experience Improvements\n\n- Optimized the display position of some prompt information.\n- Replaced the resampling model to improve audio resampling quality.\n- Labels with additional information now match the theme color.\n\n### Fix Bugs (2025\u002F09\u002F15)\n\n- Fixed the issue where some fonts were invisible in the dark theme (only the installation packages with `fix` in their names include this fix).\n\u003C\u002Fdetails>\n\n\u003Chr>\n\nTested operating systems that run normally are listed below. The software cannot guarantee normal operation on operating systems other than those listed.\n\n| Operating System Version        | Processor Architecture | Capture System Audio Input | Capture System Audio Output |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅                | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅ [requires additional configuration ](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fdocs\u002Fuser-manual\u002Fzh.md#macos-%E8%8E%B7%E5%8F%96%E7%B3%BB%E7%BB%9F%E9%9F%B3%E9%A2%91%E8%BE%93%E5%87%BA)   | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅    | ✅                |\n| Kali Linux 2022.3     | x64        | ✅    | ✅                |\n\n### New Features\n\n- Added a timeout shutdown feature to the subtitle engine: If the subtitle engine does not start successfully within the specified time, it will automatically shut down; users can also choose to close the subtitle engine during its startup process.\n- Added a non-real-time translation feature: Supports calling Ollama local models for translation; also supports using the Google Translate API for translation.\n- Added a new translation model: The SOSV model has been added, supporting recognition of English, Chinese, Japanese, Korean, and Cantonese.\n- Added a recording function: It can save the audio recognized by the subtitle engine as a .wav file.\n- Added a multi-line subtitle feature, allowing users to set the number of lines displayed in the subtitle window.\n\n### Experience Improvements\n\n- Optimized the display positions of certain prompt messages.\n- Replaced the resampling model to improve audio resampling quality.\n- Changed the colors of labels containing additional information to match the theme color.\n\n### Bug Fixes (2025\u002F09\u002F15)\n\n- Fixed the issue where some fonts were invisible in dark mode (the following installation packages only contain this fix if their names include `fix`).","2025-09-08T08:01:44",{"id":200,"version":201,"summary_zh":202,"released_at":203},62033,"sosv-model","\u003Cdetails>\n\u003Csummary close> \u003Ch2>英语\u003C\u002Fh2> \u003C\u002Fsummary>\n\n### 简介\n\nSOSV 是一个整合包，适用于开源实时音频识别软件 [Auto Caption](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption)。该整合包主要基于 [Shepra-ONNX SenseVoice](https:\u002F\u002Fk2-fsa.github.io\u002Fsherpa\u002Fonnx\u002Fsense-voice\u002Findex.html)，并添加了端点检测模型和标点恢复模型。模型压缩包有两个： `sosv.zip` 和 `sosv-int8.zip`。它们的区别如下，请根据设备性能和自身需求选择。\n\n#### `sosv.zip`\n\n 主要使用标准的 ONNX 格式模型，通常是 **FP32**（32位浮点数）精度。\n\n- 优点：精度高，识别效果最好。\n- 缺点：推理速度稍慢，占用内存较大。\n\n#### `sosv-int8.zip`\n\n 这是量化过的 **INT8**（8位整型）模型，模型文件的体积约为前者的四分之一。\n\n- 优点：体积小，推理速度更快，CPU 上尤其明显。\n- 缺点：识别精度可能会略微下降（一般差异不大）。\n\n### 使用方法\n\n> **注意**：使用 INT8 模型的话，需要保证文件夹名称最后为 `int8`，否则软件无法正确识别模型。\n\n选择需要的模型压缩包，下载后解压到本地，并将本地模型文件夹的路径填入软件即可。软件会自动载入需要的模型。\n\n### 相关链接\n\n该整合模型的内容来自以下资源：\n\n- https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx\u002Freleases\u002Fdownload\u002Fasr-models\u002Fsilero_vad.onnx\n- https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx\u002Freleases\u002Fdownload\u002Fasr-models\u002Fsherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.tar.bz2\n- https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx\u002Freleases\u002Fdownload\u002Fpunctuation-models\u002Fsherpa-onnx-punct-ct-transformer-zh-en-vocab272727-2024-04-12.tar.bz2\n- https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx\u002Freleases\u002Fdownload\u002Fpunctuation-models\u002Fsherpa-onnx-online-punct-en-2024-08-06.tar.bz2\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary close> \u003Ch2>简体中文\u003C\u002Fh2> \u003C\u002Fsummary>\n\n### 简介\n\nSOSV 是一个整合包，适用于开源实时音频识别软件 [Auto Caption](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption)。该整合包主要基于 [Shepra-ONNX SenseVoice](https:\u002F\u002Fk2-fsa.github.io\u002Fsherpa\u002Fonnx\u002Fsense-voice\u002Findex.html)，并添加了端点检测模型和标点恢复模型。模型压缩包有两个： `sosv.zip` 和 `sosv-int8.zip`。它们的区别如下，请根据设备性能和自身需求选择。\n\n#### `sosv.zip`\n\n 主要使用标准的 ONNX 格式模型，通常是 **FP32**（32位浮点数）精度。\n\n- 优点：精度高，识别效果最好。\n- 缺点：推理速度稍慢，占用内存较大。\n\n#### `sosv-int8.zip`\n\n 这是量化过的 **INT8**（8位整型）模型，模型文件的体积约为前者的四分之一。\n\n- 优点：体积小，推理速度更快，CPU 上尤其明显。\n- 缺点：识别精度可能会略微下降（一般差异不大）。\n\n### 使用方法\n\n> **注意**：使用 INT8 模型的话，需要保证文件夹名称最后为 `int8`，否则软件无法正确识别模型。\n\n选择需要的模型压缩包，下载后解压到本地，并将本地模型文件夹的路径填入软件即可。软件会自动载入需要的模型。\n\n### 相关链接\n\n该整合模型的内容来自以下资源：\n\n- https:\u002F\u002Fgit","2025-09-06T16:08:32",{"id":205,"version":206,"summary_zh":207,"released_at":208},62034,"v0.7.0","\u003Cdetails>\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\n\nThe following operating system versions have been tested and confirmed to work properly. The software cannot guarantee normal operation on untested OS versions.\n\n| OS Version         | Architecture | Audio Input Capture | Audio Output Capture |\n| ------------------ | ------------ | ------------------- | -------------------- |\n| Windows 11 24H2    | x64          | ✅                   | ✅                    |\n| macOS Sequoia 15.5 | arm64        | ✅ [Additional config required](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fdocs\u002Fuser-manual\u002Fen.md#capturing-system-audio-output-on-macos)  | ✅          |\n| Ubuntu 24.04.2     | x64          | ✅                   | ✅                    |\n| Kali Linux 2022.3  | x64          | ✅                   | ✅                    |\n\n### New Features\n\n- Added subtitle window width memory, maintaining the same width as the last session when reopened\n- Force close subtitle engine if it doesn't shut down within 4 seconds after attempting to close\n- Added option to copy latest subtitles, allowing users to copy only the 1-3 most recent subtitle entries (#13)\n- Added theme color settings, supporting six colors: blue, green, orange, purple, pink, dark\u002Flight\n- Added log record display: view log records output by the software's subtitle engine\n\n### Experience Improvements\n\n- Optimized some components of the software user interface\n- Clearer log output\n\n\u003C\u002Fdetails>\n\n\u003Chr>\n\nTested operating system information that can run normally is as follows. The software cannot guarantee normal operation on operating systems other than those listed below.\n\n| Operating System Version        | Processor Architecture | Capture System Audio Input | Capture System Audio Output |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅                | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅ [requires additional configuration ](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fdocs\u002Fuser-manual\u002Fzh.md#macos-%E8%8E%B7%E5%8F%96%E7%B3%BB%E7%BB%9F%E9%9F%B3%E9%A2%91%E8%BE%93%E5%87%BA)   | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅    | ✅                |\n| Kali Linux 2022.3     | x64        | ✅    | ✅                |\n\n### New Features\n\n- Added memory for subtitle window width, so that when reopened, the window width remains the same as the previous session.\n- If the subtitle engine still does not shut down after 4 seconds of attempting to close it, the subtitle engine will be forcibly closed.\n- Added an option to copy the latest subtitles, allowing users to choose to copy only the 1–3 most recent subtitle entries (#13).\n- Added theme color settings, supporting six colors: blue, green, orange, purple, pink, and dark\u002Flight modes.\n- Added a log record display: users can now view the log records output by the software’s subtitle engine.\n\n### Experience Improvements\n\n- Optimized some components of the software’s user interface.\n- More clearly formatted log output.","2025-08-19T17:43:35",{"id":210,"version":211,"summary_zh":212,"released_at":213},62035,"v0.6.0","\u003Cdetails>\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\n\nThe following operating system versions have been tested and confirmed to work properly. The software cannot guarantee normal operation on untested OS versions.\n\n| OS Version         | Architecture | Audio Input Capture | Audio Output Capture |\n| ------------------ | ------------ | ------------------- | -------------------- |\n| Windows 11 24H2    | x64          | ✅                   | ✅                    |\n| macOS Sequoia 15.5 | arm64        | ✅ Additional config required  | ✅          |\n| Ubuntu 24.04.2     | x64          | ✅                   | ✅                    |\n| Kali Linux 2022.3  | x64          | ✅                   | ✅                    |\n\n### New Features\n\n- Added subtitle record sorting, allowing users to choose to display subtitle records in ascending or descending order\n\n### Experience Optimization\n\n- Reduced the size of the software installation package\n- Fine-tuned the layout of the subtitle engine settings interface\n- Swapped the positions of the information pop-up and error pop-up in the window interface to prevent prompt information from blocking operations\n- Improved program robustness, completely avoiding the subtitle engine process becoming an orphan process\n- Modified the subtitle engine documentation, adding more detailed development instructions\n\n### Project Optimization\n\n- Refactored the subtitle engine to improve the scalability and readability of the subtitle engine code\n- Merged Gummy and Vosk engines into a single executable file\n- Added Socket communication between the subtitle engine and the main program\n\n\u003C\u002Fdetails>\n\n\u003Chr>\n\nTested operating systems that run normally are listed below. The software does not guarantee normal operation on operating systems other than those listed.\n\n| Operating System Version        | Processor Architecture | Capture System Audio Input | Capture System Audio Output |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅                | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅需要 additional configuration    | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅    | ✅                |\n| Kali Linux 2022.3     | x64        | ✅    | ✅                |\n\n### New Features\n\n- Added a function to sort subtitle records, allowing users to choose to display them in ascending or descending order\n\n### Experience Optimization\n\n- Reduced the size of the software installation package\n- Made minor adjustments to the layout of the subtitle engine settings interface\n- Switched the positions of the information pop-up and the error pop-up in the window interface to prevent prompt messages from obstructing operations\n- Enhanced program robustness, completely preventing the subtitle engine process from becoming an orphan process\n- Updated the subtitle engine documentation with more detailed development instructions\n\n### Project Optimization\n\n- Refactored the subtitle engine to improve its scalability and readability\n- Combined the Gummy and Vosk engines into a single executable file\n- Implemented Socket communication between the subtitle engine and the main program","2025-07-29T16:44:33",{"id":215,"version":216,"summary_zh":217,"released_at":218},62036,"v0.5.1","\u003Cdetails>\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\n\n\u003Cb>The only difference between this version and v0.5.0 is the bug fix for the custom subtitle engine. You don't need to update if you don't have related requirements.\u003C\u002Fb>\n\nThe following operating system versions have been tested and confirmed to work properly. The software cannot guarantee normal operation on untested OS versions.\n\n| OS Version         | Architecture | Audio Input Capture | Audio Output Capture |\n| ------------------ | ------------ | ------------------- | -------------------- |\n| Windows 11 24H2    | x64          | ✅                   | ✅                    |\n| macOS Sequoia 15.5 | arm64        | ✅ Additional config required  | ✅          |\n| Ubuntu 24.04.2     | x64          | ✅                   | ✅                    |\n| Kali Linux 2022.3  | x64          | ✅                   | ✅                    |\n| Kylin Server V10 SP3 | x64 | ✅ | ✅ |\n\nAdded more features to the software and adapted it for Linux.\n\n### (New) Bug Fixes\n\n- Fixed the bug where the custom subtitle engine could not be invoked  \n- Fixed the bug where parameters for the custom subtitle engine were not taking effect\n\n### New Features\n\n- Added Linux platform support  \n- New subtitle time adjustment functionality  \n- Support exporting subtitle records in SRT format  \n- Display subtitle engine status (PID, PPID, CPU usage, memory usage, runtime)  \n\n### Experience Improvements  \n\n- Rearranged subtitle window top-right icons to vertical layout  \n- Filtered incomplete subtitle outputs from Gummy engine\n\u003C\u002Fdetails>\n\n\u003Chr>\n\n\u003Cb>本版本和 v0.5.0 的唯一区别是修复了自定义字幕引擎的bug，如果没有相关需求可以不用更新。\u003C\u002Fb>\n\n测试过可正常运行的操作系统信息如下，软件不能保证在非下列版本的操作系统上正常运行。\n\n| 操作系统版本        | 处理器架构 | 获取系统音频输入 | 获取系统音频输出 |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅                | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅需要额外配置    | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅    | ✅                |\n| Kali Linux 2022.3     | x64        | ✅    | ✅                |\n| Kylin Server V10 SP3 | x64 | ✅ | ✅ |\n\n为软件本体添加了更多功能、适配了 Linux。\n\n麒麟 Linux 系统用户下载 `auto-caption-0.5.1-kylin_x64.tar.gz`，解压后通过在软件文件夹使用终端执行 `.\u002Fauto-caption` 来启动软件。\n\n### （new）修复 bug \n\n- 修复无法调用自定义字幕引擎的 bug\n- 修复自定义字幕引擎的参数失效 bug\n\n### 新增功能\n\n- 适配了 Linux 平台\n- 新增修改字幕时间功能，可调整字幕时间\n- 支持导出 srt 格式的字幕记录\n- 支持显示字幕引擎状态（pid、ppid、CPU占用率、内存占用、运行时间）\n\n### 优化体验\n\n- 调整字幕窗口右上角图标为竖向排布\n- 过滤 Gummy 字幕引擎输出的不完整字幕","2025-07-17T13:33:22",{"id":220,"version":221,"summary_zh":222,"released_at":223},62037,"v0.5.0","\u003Cdetails>\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\n\nThe following operating system versions have been tested and confirmed to work properly. The software cannot guarantee normal operation on untested OS versions.\n\n| OS Version         | Architecture | Audio Input Capture | Audio Output Capture |\n| ------------------ | ------------ | ------------------- | -------------------- |\n| Windows 11 24H2    | x64          | ✅                   | ✅                    |\n| macOS Sequoia 15.5 | arm64        | ✅ Additional config required  | ✅          |\n| Ubuntu 24.04.2     | x64          | ✅                   | ✅                    |\n| Kali Linux 2022.3  | x64          | ✅                   | ✅                    |\n| Kylin Server V10 SP3 | x64 | ✅ | ✅ |\n\nAdded more features to the software and adapted it for Linux.\n\n### New Features\n\n- Added Linux platform support  \n- New subtitle time adjustment functionality  \n- Support exporting subtitle records in SRT format  \n- Display subtitle engine status (PID, PPID, CPU usage, memory usage, runtime)  \n\n### Experience Improvements  \n\n- Rearranged subtitle window top-right icons to vertical layout  \n- Filtered incomplete subtitle outputs from Gummy engine\n\u003C\u002Fdetails>\n\n\u003Chr>\n\nTested operating systems that can run normally are listed below. The software cannot guarantee normal operation on operating systems other than those listed.\n\n| Operating System Version        | Processor Architecture | Capture System Audio Input | Capture System Audio Output |\n| ------------------ | ---------- | ---------------- | ---------------- |\n| Windows 11 24H2    | x64        | ✅                | ✅                |\n| macOS Sequoia 15.5 | arm64      | ✅需要 additional configuration    | ✅                |\n| Ubuntu 24.04.2     | x64        | ✅    | ✅                |\n| Kali Linux 2022.3     | x64        | ✅    | ✅                |\n| Kylin Server V10 SP3 | x64 | ✅ | ✅ |\n\nMore features have been added to the software, and it has been adapted for Linux.\n\nUsers of the Kylin Linux system should download `auto-caption-0.5.0-kylin_x64.tar.gz`, extract it, and then start the software by running `.\u002Fauto-caption` in the terminal within the software folder.\n\n### New Features\n\n- Adapted for the Linux platform\n- Added a new function to adjust subtitle timing\n- Supported exporting subtitle records in SRT format\n- Supported displaying the subtitle engine status (PID, PPID, CPU usage, memory usage, and runtime)\n\n### Experience Improvements\n\n- Adjusted the icons in the upper-right corner of the subtitle window to a vertical layout\n- Filtered out incomplete subtitles generated by the Gummy subtitle engine","2025-07-15T10:43:14",{"id":225,"version":226,"summary_zh":227,"released_at":228},62038,"v0.4.0","\u003Cdetails>\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\n\n\u003Cb>The macOS installer is built under the Sequoia 15.5 system version; lower versions of macOS may not be compatible.\u003C\u002Fb>\n\nAdded Vosk local caption engine, updated project documentation, and continued to optimize user experience.\n\n### New Features\n\n- Added Vosk-based caption engine (**currently Vosk caption engine does not support translation**)\n- Updated user interface to include Vosk engine option and model path settings\n\n### Experience Improvements\n\n- Changed the color of the icon in the upper right corner of the caption window to match the original subtitle font color\n- Reduced the size of the installation package\n\u003C\u002Fdetails>\n\n\u003Chr>\n\n\u003Cb>macOS 安装包是在 Sequoia 15.5 系统版本下构建，低版本的 macOS 可能不适用。\u003C\u002Fb>\n\n添加了 Vosk 本地字幕引擎，更新了项目文档，继续优化使用体验。\n\n### 新增功能\n\n- 添加了基于 Vosk 的字幕引擎， **当前 Vosk 字幕引擎暂不支持翻译**\n- 更新用户界面，增加 Vosk 引擎选项和模型路径设置\n\n### 优化体验\n\n- 字幕窗口右上角图标的颜色改为和字幕原文字体颜色一致\n- 减小了安装包体积","2025-07-10T18:54:00",{"id":230,"version":231,"summary_zh":232,"released_at":233},62039,"v0.3.0","\u003Cdetails>\r\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\r\n\r\nThe caption engine code has been refactored, the software has been adapted for the macOS platform, and new features have been added.\r\n\r\n### New Features\r\n\r\n- Added functionality to set API KEY within the software\r\n- Added settings for caption font weight and text shadow\r\n- Added functionality to copy caption records to the clipboard (#3)\r\n\r\n### Experience Improvements\r\n\r\n- Subtitle timing records are now precise to the millisecond\r\n- More detailed documentation (added specifications for the caption engine, user documentation, and updates to the caption engine documentation) (#4)\r\n- Adapted for the macOS platform\r\n- The caption window now has a higher always-on-top priority\r\n- The preview window can display the latest caption content in real-time\r\n\r\n### Bug Fixes\r\n\r\n- Fixed an issue where dark system themes were loaded as light when using system themes\r\n\r\n\u003C\u002Fdetails>\r\n\r\n\u003Chr>\r\n\r\n对字幕引擎代码进行了重构，软件适配了 macOS 平台，添加了新功能。\r\n\r\n### 新增功能\r\n\r\n- 添加软件内设置 API KEY 的功能\r\n- 添加字幕字体粗细和文本阴影的设置\r\n- 添加复制字幕记录到剪贴板的功能 (#3)\r\n\r\n### 优化体验\r\n\r\n- 字幕时间记录精确到毫秒\r\n- 更详细的说明文档（添加字幕引擎规格说明、用户文档和字幕引擎文档更新） (#4)\r\n- 适配 macOS 平台\r\n- 字幕窗口有了更大的顶置优先级\r\n- 预览窗口可以实时显示最新的字幕内容\r\n\r\n### 修复bug\r\n\r\n- 修复使用系统主题时暗色系统载入为亮色的问题\r\n","2025-07-08T18:19:27",{"id":235,"version":236,"summary_zh":237,"released_at":238},62040,"v0.2.0","\u003Cdetails>\r\n\u003Csummary close> \u003Cb>English\u003C\u002Fb> \u003C\u002Fsummary>\r\n\r\n**This release is only available for the Windows platform.**\r\n\r\nThe project has been refactored, bugs have been fixed, and new features have been added. This version is the official release.\r\n\r\n### New Features\r\n\r\n- Added long subtitle content hiding feature #1\r\n- Added multi-language support (Chinese, English, Japanese)\r\n- Added dark theme\r\n\r\n### Improved Experience\r\n\r\n- Optimized interface layout\r\n- Added more configuration options that can be saved and loaded\r\n- Added stricter state restrictions for the subtitle engine to prevent zombie processes\r\n\r\n### Bug Fixes\r\n\r\n- Fixed the issue where the subtitle engine reports an error after being idle for a long time #2\r\n\r\n### New Documentation\r\n\r\n- Added Japanese documentation\r\n- Added English and Japanese documentation for the subtitle engine and user manual\r\n- Added Electron IPC API documentation\r\n\u003C\u002Fdetails>\r\n\r\n\u003Chr>\r\n\r\n**该发布版本仅适用于 Windows 平台。**\r\n\r\n对项目进行了重构，修复了 bug，添加了新功能。本版本为正式版。\r\n\r\n### 新增功能\r\n\r\n- 添加长字幕内容隐藏功能 #1\r\n- 添加多界面语言支持（中文、英语、日语）\r\n- 添加暗色主题\r\n\r\n### 提升体验\r\n\r\n- 优化界面布局\r\n- 添加更多可保存和载入的配置项\r\n- 为字幕引擎添加更严格的状态限制，防止出现僵尸进程\r\n\r\n### 修复bug\r\n\r\n- 添加字幕引擎长时间空置后报错的问题 #2\r\n\r\n### 新增文档\r\n\r\n- 新增日语说明文档\r\n- 新增英语、日语字幕引擎说明文档和用户手册\r\n- 新增 electron ipc api 文档","2025-07-05T09:14:54",{"id":240,"version":241,"summary_zh":242,"released_at":243},62041,"v0.1.0","该发布版本仅适用于 Windows 平台。\r\n\r\n## 新增功能\r\n\r\n- 添加错误通知\r\n- 添加默认引擎的环境变量检查\r\n- 添加配置数据文件保存和载入\r\n- 添加字幕样式恢复默认的选项\r\n- 添加项目关于信息\r\n\r\n## 新增文档\r\n\r\n- 添加[用户说明文档](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fassets\u002Fuser-manual_zh.md)\r\n- 添加[字幕引擎说明文档](https:\u002F\u002Fgithub.com\u002FHiMeditator\u002Fauto-caption\u002Fblob\u002Fmain\u002Fassets\u002Fengine-manual_zh.md)","2025-06-26T15:09:37",{"id":245,"version":246,"summary_zh":247,"released_at":248},62042,"v0.0.1","## v0.0.1\r\n\r\n该发布版本仅适用于 Windows 平台。\r\n\r\n### 使用前准备\r\n\r\n目前仅提供 Windows 平台的可安装版本。如果使用默认的 Gummy 字幕引擎，需要获取阿里云百炼平台的 API KEY 并配置到环境变量中才能正常使用该模型。相关教程：[获取API KEY](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fget-api-key)、[将API Key配置到环境变量](https:\u002F\u002Fhelp.aliyun.com\u002Fzh\u002Fmodel-studio\u002Fconfigure-api-key-through-environment-variables)。\r\n\r\n对于开发者，可以自己创建新的字幕引擎。具体通信规范请参考源代码。\r\n\r\n### 特性\r\n\r\n- 丰富的字幕样式设置\r\n- 灵活的字幕引擎选择\r\n- 多语言识别与翻译\r\n- 字幕记录展示与导出\r\n- 生成音频输出和麦克风输入的字幕\r\n","2025-06-21T18:58:39"]