[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-kizuna-ai-lab--sokuji":3,"tool-kizuna-ai-lab--sokuji":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",152630,2,"2026-04-12T23:33:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":107,"forks":108,"last_commit_at":109,"license":110,"difficulty_score":102,"env_os":111,"env_gpu":112,"env_ram":113,"env_deps":114,"category_tags":125,"github_topics":126,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":138,"updated_at":139,"faqs":140,"releases":168},7084,"kizuna-ai-lab\u002Fsokuji","sokuji","Live speech translation powered by on-device AI and cloud providers — OpenAI, Google Gemini, Palabra.ai, Kizuna AI, Volcengine, and more","Sokuji 是一款跨平台的实时语音翻译应用，支持桌面端与浏览器插件两种形态。它致力于打破语言隔阂，让用户在 Zoom、Teams、Discord 等各类会议或社交场景中，实现无障碍的跨国界沟通。无论是需要完全离线保护隐私的用户，还是追求云端高精度的团队，都能通过 Sokuji 获得流畅的“听 - 译 - 说”体验。\n\n该工具的核心亮点在于其灵活的部署模式：既支持连接 OpenAI、Google Gemini 等主流云服务商，更独创了基于 WASM 和 WebGPU 的本地推理能力。这意味着用户无需配置昂贵的显卡或联网，即可在设备上直接运行语音识别、翻译及语音合成模型，确保数据 100% 留存本地，彻底解决隐私泄露顾虑。目前，Sokuji 已支持 99 种语言的语音识别和 55 种以上的互译组合。\n\nSokuji 非常适合对隐私敏感的商务人士、频繁参与国际会议的职场用户，以及希望低成本体验本地 AI 能力的技术爱好者。普通用户可直接下载即用，无需复杂的 API 配置；开发者也能从中参考如何在浏览器端高效部署大型语言模型。作为一款由 Kizuna AI Lab 打造的开源项目，Sokuj","Sokuji 是一款跨平台的实时语音翻译应用，支持桌面端与浏览器插件两种形态。它致力于打破语言隔阂，让用户在 Zoom、Teams、Discord 等各类会议或社交场景中，实现无障碍的跨国界沟通。无论是需要完全离线保护隐私的用户，还是追求云端高精度的团队，都能通过 Sokuji 获得流畅的“听 - 译 - 说”体验。\n\n该工具的核心亮点在于其灵活的部署模式：既支持连接 OpenAI、Google Gemini 等主流云服务商，更独创了基于 WASM 和 WebGPU 的本地推理能力。这意味着用户无需配置昂贵的显卡或联网，即可在设备上直接运行语音识别、翻译及语音合成模型，确保数据 100% 留存本地，彻底解决隐私泄露顾虑。目前，Sokuji 已支持 99 种语言的语音识别和 55 种以上的互译组合。\n\nSokuji 非常适合对隐私敏感的商务人士、频繁参与国际会议的职场用户，以及希望低成本体验本地 AI 能力的技术爱好者。普通用户可直接下载即用，无需复杂的 API 配置；开发者也能从中参考如何在浏览器端高效部署大型语言模型。作为一款由 Kizuna AI Lab 打造的开源项目，Sokuji 以“即时”为名，让真实的人际连接不再受语言束缚。","\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_readme_d52f542e5db8.png\" alt=\"Sokuji Logo\">\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">Real-time speech translation — cloud or fully offline on your device\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"LICENSE\" target=\"_blank\">\n    \u003Cimg alt=\"AGPL-3.0 License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-AGPL--3.0-blue.svg?style=flat-square\" \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Factions\u002Fworkflows\u002Fbuild.yml\" target=\"_blank\">\n    \u003Cimg alt=\"Build and Release\" src=\"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Factions\u002Fworkflows\u002Fbuild.yml\u002Fbadge.svg\" \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases\" target=\"_blank\">\n    \u003Cimg alt=\"Latest Release\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fkizuna-ai-lab\u002Fsokuji?color=green&label=release&style=flat-square\" \u002F>\n  \u003C\u002Fa>\n  \u003Cimg alt=\"Platforms\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWindows%20%7C%20macOS%20%7C%20Linux%20%7C%20Chrome%20%7C%20Edge-grey?style=flat-square\" \u002F>\n  \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Fkizuna-ai-lab\u002Fsokuji\" target=\"_blank\">\n    \u003Cimg alt=\"Ask DeepWiki\" src=\"https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg\" \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  English | \u003Ca href=\"docs\u002FREADME.ja.md\">日本語\u003C\u002Fa> | \u003Ca href=\"docs\u002FREADME.zh.md\">中文\u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n\n## Why Sokuji?\n\nBuilt by [Kizuna AI Lab](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab) — we use AI to break language and accessibility barriers, creating genuine human connections. \"Kizuna\" (絆) means \"bond\" in Japanese, and Sokuji (即時) is our flagship tool to make real-time communication possible across any language.\n\nSokuji is a cross-platform live speech translation app for desktop and browser. It supports **Local Inference** — on-device ASR, translation, and TTS powered by WASM and WebGPU, with no API key required, no expensive GPU needed, fully offline, and completely private. It also integrates with cloud providers including OpenAI, Google Gemini, Palabra.ai, Kizuna AI, Doubao AST 2.0, and OpenAI-compatible APIs.\n\n---\n\n## How It Works\n\n```mermaid\ngraph LR\n    A[\"🗣️ You speak\u003Cbr\u002F>(any language)\"] --> B[\"🎙️ Sokuji\"]\n    B --> C{\"Choose one\"}\n    C -->|\"☁️ Cloud\"| D[\"OpenAI · Gemini\u003Cbr\u002F>Palabra · Doubao...\"]\n    C -->|\"🖥️ Local\"| E[\"On-device AI\u003Cbr\u002F>ASR → Translate → TTS\u003Cbr\u002F>(fully offline, no GPU)\"]\n    D --> F[\"🔊 Translated voice\"]\n    E --> F\n    F --> G[\"💻 Zoom · Teams · Meet\u003Cbr\u002F>Discord · Any app\"]\n\n    style A fill:#4a9eff,stroke:#357abd,color:#fff\n    style B fill:#10a37f,stroke:#0d8a6a,color:#fff\n    style C fill:#ff9f43,stroke:#e88a2e,color:#fff\n    style D fill:#6c5ce7,stroke:#5a4bd1,color:#fff\n    style E fill:#00b894,stroke:#009d7e,color:#fff\n    style F fill:#fd79a8,stroke:#e56b96,color:#fff\n    style G fill:#636e72,stroke:#525c60,color:#fff\n```\n\n| | |\n|---|---|\n| **Providers** | 7 — OpenAI, Gemini, Palabra.ai, Kizuna AI, Doubao AST 2.0, OpenAI Compatible, Local Inference |\n| **Local Models** | 48 ASR models, 55+ translation pairs, 136 TTS voices |\n| **Languages** | 99+ (speech recognition) · 55+ (translation) · 53 (text-to-speech) |\n| **Platforms** | Linux · Windows · macOS · Chrome · Edge |\n| **Privacy** | Local Inference = 100% on-device, no API key, no internet |\n\n---\n\n## Demo\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F1eaaa333-a7ce-4412-a295-16b7eb2310de\n\n---\n\n## Install\n\nSokuji is available as a **Desktop App** and a **Browser Extension** — same features, different reach.\n\n| | Desktop App | Browser Extension |\n|---|---|---|\n| **Features** | All features identical | All features identical |\n| **Use with** | Any app with mic input — Zoom, Teams, Discord, Slack, games, OBS, and more | Web-based meeting platforms — Google Meet, Teams, Zoom, Discord, Slack, Gather.town, Whereby |\n| **Install** | Download & install | Zero install — add from store |\n| **Platforms** | Windows · macOS · Linux | Chrome · Edge · Brave (coming soon) |\n\n### Desktop App\n\nDownload from the [Releases page](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases):\n\n| Platform | Package |\n|----------|---------|\n| Windows | `Sokuji-x.y.z.Setup.exe` |\n| macOS (Apple Silicon) | `Sokuji-x.y.z-arm64.pkg` |\n| macOS (Intel) | `Sokuji-x.y.z-x64.pkg` |\n| Linux (Debian\u002FUbuntu x64) | `sokuji_x.y.z_amd64.deb` |\n| Linux (Debian\u002FUbuntu ARM64) | `sokuji_x.y.z_arm64.deb` |\n\n### Browser Extension\n\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fchromewebstore.google.com\u002Fdetail\u002Fppmihnhelgfpjomhjhpecobloelicnak?utm_source=item-share-cb\" target=\"_blank\">\n    \u003Cimg alt=\"Available on Chrome Web Store\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_readme_57d05103e4e9.png\" style=\"height: 60px;\" \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmicrosoftedge.microsoft.com\u002Faddons\u002Fdetail\u002Fsokuji-aipowered-live-\u002Fdcmmcdkeibkalgdjlahlembodjhijhkm\" target=\"_blank\">\n    \u003Cimg alt=\"Available on Microsoft Edge Add-ons\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_readme_5340cd56973b.png\" style=\"height: 60px;\" \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdetails>\n\u003Csummary>Install extension in Developer Mode\u003C\u002Fsummary>\n\n1. Download `sokuji-extension.zip` from the [Releases page](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases)\n2. Extract the zip file\n3. Go to `chrome:\u002F\u002Fextensions\u002F` and enable \"Developer mode\"\n4. Click \"Load unpacked\" and select the extracted folder\n\n\u003C\u002Fdetails>\n\n### Build from Source\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji.git\ncd sokuji && npm install\nnpm run electron:dev        # Development\nnpm run electron:build      # Production\n```\n\n---\n\n## Features\n\n### Local Inference (Edge AI)\n\nRun everything on your device — no API keys, no internet, no expensive GPU, complete privacy. Powered by WASM and WebGPU, Sokuji runs efficiently on any modern browser using your existing CPU and integrated graphics.\n\n- **50 ASR models** (32 offline + 10 streaming + 8 WebGPU including Whisper, Cohere Transcribe, Voxtral Mini 4B) covering 99+ languages\n- **55+ translation pairs** via Opus-MT + 5 multilingual LLMs (Qwen 2.5 \u002F 3 \u002F 3.5, GemmaTranslate) with WebGPU\n- **136 TTS voices** across 53 languages (Piper, Piper-Plus, Coqui, Mimic3, Matcha engines)\n- One-click model download with IndexedDB caching\n\n### Cloud Providers\n\n| Provider | Key Feature |\n|----------|-------------|\n| **OpenAI** | `gpt-realtime-mini` \u002F `gpt-realtime-1.5` · 10 voices · configurable turn detection (Normal \u002F Semantic \u002F Disabled) · noise reduction · 60+ languages |\n| **Google Gemini** | Dynamic model selection (audio\u002Flive models) · 30 voices · built-in turn detection · 34 language variants |\n| **Palabra.ai** | WebRTC low-latency · voice cloning · auto sentence segmentation · partial transcription translation · 60+ source \u002F 40+ target languages |\n| **Kizuna AI** | Sign in and go — API key managed by backend · same OpenAI models with optimized defaults |\n| **Doubao AST 2.0** | Speech-to-speech with speaker voice cloning · bidirectional Chinese↔English · Ogg Opus audio output |\n| **OpenAI Compatible** | Bring your own endpoint — any OpenAI Realtime API-compatible service (Electron only) |\n| **Local Inference** | Fully offline · ASR → Translation → TTS on-device · no API key · no GPU required |\n\n### Audio\n\n- **Translate your voice** — speak in your language, others hear the translation as if you spoke it natively\n- **Translate others' voice** — capture meeting audio (extension) or any system audio (desktop) and get real-time translated subtitles\n- **Virtual Microphone** — route translated audio to Zoom, Meet, Teams, or any app\n- **Real-time Passthrough** — monitor your own voice while recording\n- **AI Noise Suppression** — removes background noise, keyboard sounds, and other distractions\n- **Echo Cancellation** — built-in with modern Web Audio API\n\n### Interface\n\n- **30 languages** — fully localized UI\n- **Simple Mode** — streamlined setup for non-technical users\n- **Advanced Mode** — waveform display and detailed controls\n\n---\n\n## Privacy\n\n**Your audio stays on your device — if you choose Local Inference, nothing ever leaves.**\n\n- Cloud mode connects **directly** to provider APIs — no intermediary servers\n- API keys stored **locally only**, never transmitted to us\n- Local Inference processes everything **on-device** with zero network requests\n- Anonymous usage analytics via PostHog\n\n---\n\n## Tech Stack\n\n- **Desktop**: [Electron](https:\u002F\u002Fwww.electronjs.org) (Windows, macOS, Linux)\n- **Extension**: Chrome\u002FEdge Manifest V3\n- **UI**: [React](https:\u002F\u002Freact.dev) + TypeScript + [Zustand](https:\u002F\u002Fzustand-demo.pmnd.rs\u002F)\n- **Local AI**: [sherpa-onnx](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx) (WASM) · [Transformers.js](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.js) · WebGPU\n- **Audio**: Web Audio API · AudioWorklet · WebRTC\n- **i18n**: [i18next](https:\u002F\u002Fwww.i18next.com\u002F) (30 languages)\n\n---\n\n## Contributing\n\nWe welcome contributions! Please read our [Contributing Guidelines](.github\u002FCONTRIBUTING.md) before getting started.\n\n---\n\n## License\n\n[AGPL-3.0](LICENSE)\n\n## Support\n\n- [Issues](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fissues) — Bug reports\n- [Discussions](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fdiscussions) — Questions & ideas\n\n## Acknowledgments\n\n- **Cloud APIs**: [OpenAI](https:\u002F\u002Fopenai.com), [Google Gemini](https:\u002F\u002Fai.google.dev), [Volcengine](https:\u002F\u002Fwww.volcengine.com)\n- **ASR**: [sherpa-onnx](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx), [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper), [SenseVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice), [Moonshine](https:\u002F\u002Fgithub.com\u002Fusefulsensors\u002Fmoonshine), [Cohere Transcribe](https:\u002F\u002Fcohere.com), [Voxtral Mini 4B](https:\u002F\u002Fgithub.com\u002Fmistralai)\n- **TTS**: [Piper](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper), [Piper-Plus](https:\u002F\u002Fgithub.com\u002Fayutaz\u002Fpiper-plus), [Matcha-TTS](https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS), [Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS), [Mimic 3](https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic3)\n- **Translation**: [Opus-MT](https:\u002F\u002Fgithub.com\u002FHelsinki-NLP\u002FOpus-MT), [Qwen](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen), [GemmaTranslate](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ftranslate-gemma)\n- **Infra**: [Transformers.js](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.js), [ONNX Runtime](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fonnxruntime), [Electron](https:\u002F\u002Fwww.electronjs.org), [React](https:\u002F\u002Freact.dev)\n\nFor detailed model licenses, see [THIRD_PARTY_NOTICES.md](THIRD_PARTY_NOTICES.md).\n","\u003Cp align=\"center\">\n  \u003Cimg width=\"200\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_readme_d52f542e5db8.png\" alt=\"速译 Logo\">\n\u003C\u002Fp>\n\n\u003Ch3 align=\"center\">实时语音翻译——云端或完全离线运行于您的设备\u003C\u002Fh3>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"LICENSE\" target=\"_blank\">\n    \u003Cimg alt=\"AGPL-3.0 许可证\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-AGPL--3.0-blue.svg?style=flat-square\" \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Factions\u002Fworkflows\u002Fbuild.yml\" target=\"_blank\">\n    \u003Cimg alt=\"构建与发布\" src=\"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Factions\u002Fworkflows\u002Fbuild.yml\u002Fbadge.svg\" \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases\" target=\"_blank\">\n    \u003Cimg alt=\"最新版本\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Fkizuna-ai-lab\u002Fsokuji?color=green&label=release&style=flat-square\" \u002F>\n  \u003C\u002Fa>\n  \u003Cimg alt=\"支持平台\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWindows%20%7C%20macOS%20%7C%20Linux%20%7C%20Chrome%20%7C%20Edge-grey?style=flat-square\" \u002F>\n  \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Fkizuna-ai-lab\u002Fsokuji\" target=\"_blank\">\n    \u003Cimg alt=\"向 DeepWiki 提问\" src=\"https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg\" \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  英文 | \u003Ca href=\"docs\u002FREADME.ja.md\">日语\u003C\u002Fa> | \u003Ca href=\"docs\u002FREADME.zh.md\">中文\u003C\u002Fa>\n\u003C\u002Fp>\n\n---\n\n## 为什么选择 Sokuji？\n\n由 [Kizuna AI Lab](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab) 打造——我们利用人工智能打破语言和无障碍沟通的壁垒，建立真诚的人际连接。“Kizuna”（絆）在日语中意为“纽带”，而 Sokuji（即時）则是我们的旗舰工具，旨在实现跨语言的实时交流。\n\nSokuji 是一款适用于桌面和浏览器的跨平台实时语音翻译应用。它支持**本地推理**——通过 WASM 和 WebGPU 在设备端进行 ASR、翻译和 TTS 处理，无需 API 密钥、无需昂贵的 GPU，完全离线且绝对隐私。同时，它还集成了包括 OpenAI、Google Gemini、Palabra.ai、Kizuna AI、Doubao AST 2.0 以及兼容 OpenAI 的 API 等多家云服务提供商。\n\n---\n\n## 工作原理\n\n```mermaid\ngraph LR\n    A[\"🗣️ 您说话\u003Cbr\u002F>(任意语言)\"] --> B[\"🎙️ Sokuji\"]\n    B --> C{\"选择一项\"}\n    C -->|\"☁️ 云端\"| D[\"OpenAI · Gemini\u003Cbr\u002F>Palabra · Doubao...\"]\n    C -->|\"🖥️ 本地\"| E[\"设备端 AI\u003Cbr\u002F>ASR → 翻译 → TTS\u003Cbr\u002F>(完全离线，无需 GPU)\"]\n    D --> F[\"🔊 翻译后的语音\"]\n    E --> F\n    F --> G[\"💻 Zoom · Teams · Meet\u003Cbr\u002F>Discord · 任何应用\"]\n\n    style A fill:#4a9eff,stroke:#357abd,color:#fff\n    style B fill:#10a37f,stroke:#0d8a6a,color:#fff\n    style C fill:#ff9f43,stroke:#e88a2e,color:#fff\n    style D fill:#6c5ce7,stroke:#5a4bd1,color:#fff\n    style E fill:#00b894,stroke:#009d7e,color:#fff\n    style F fill:#fd79a8,stroke:#e56b96,color:#fff\n    style G fill:#636e72,stroke:#525c60,color:#fff\n```\n\n| | |\n|---|---|\n| **服务提供商** | 7 家——OpenAI、Gemini、Palabra.ai、Kizuna AI、Doubao AST 2.0、兼容 OpenAI 的 API、本地推理 |\n| **本地模型** | 48 种 ASR 模型、55+ 种翻译语对、136 种 TTS 音色 |\n| **语言支持** | 99+ 种（语音识别）· 55+ 种（翻译）· 53 种（文本转语音）|\n| **支持平台** | Linux · Windows · macOS · Chrome · Edge |\n| **隐私性** | 本地推理 = 100% 设备端处理，无需 API 密钥，无需联网 |\n\n---\n\n## 演示\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F1eaaa333-a7ce-4412-a295-16b7eb2310de\n\n---\n\n## 安装\n\nSokuji 提供**桌面应用**和**浏览器扩展**两种形式——功能相同，适用场景不同。\n\n| | 桌面应用 | 浏览器扩展 |\n|---|---|---|\n| **功能** | 功能完全一致 | 功能完全一致 |\n| **适用场景** | 任何支持麦克风输入的应用——Zoom、Teams、Discord、Slack、游戏、OBS 等 | 基于网页的会议平台——Google Meet、Teams、Zoom、Discord、Slack、Gather.town、Whereby |\n| **安装方式** | 下载并安装 | 无需安装——直接从商店添加 |\n| **支持平台** | Windows · macOS · Linux | Chrome · Edge · Brave（即将上线）|\n\n### 桌面应用\n\n请从[发布页面](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases)下载：\n\n| 平台 | 安装包 |\n|----------|---------|\n| Windows | `Sokuji-x.y.z.Setup.exe` |\n| macOS（Apple Silicon）| `Sokuji-x.y.z-arm64.pkg` |\n| macOS（Intel）| `Sokuji-x.y.z-x64.pkg` |\n| Linux（Debian\u002FUbuntu x64）| `sokuji_x.y.z_amd64.deb` |\n| Linux（Debian\u002FUbuntu ARM64）| `sokuji_x.y.z_arm64.deb` |\n\n### 浏览器扩展\n\n\u003Cp>\n  \u003Ca href=\"https:\u002F\u002Fchromewebstore.google.com\u002Fdetail\u002Fppmihnhelgfpjomhjhpecobloelicnak?utm_source=item-share-cb\" target=\"_blank\">\n    \u003Cimg alt=\"可在 Chrome 网上应用店获取\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_readme_57d05103e4e9.png\" style=\"height: 60px;\" \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fmicrosoftedge.microsoft.com\u002Faddons\u002Fdetail\u002Fsokuji-aipowered-live-\u002Fdcmmcdkeibkalgdjlahlembodjhijhkm\" target=\"_blank\">\n    \u003Cimg alt=\"可在 Microsoft Edge 插件商店获取\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_readme_5340cd56973b.png\" style=\"height: 60px;\" \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdetails>\n\u003Csummary>以开发者模式安装扩展\u003C\u002Fsummary>\n\n1. 从[发布页面](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases)下载 `sokuji-extension.zip`\n2. 解压文件\n3. 打开 `chrome:\u002F\u002Fextensions\u002F` 并启用“开发者模式”\n4. 点击“加载已解压的扩展程序”，然后选择解压后的文件夹\n\n\u003C\u002Fdetails>\n\n### 从源码构建\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji.git\ncd sokuji && npm install\nnpm run electron:dev        # 开发环境\nnpm run electron:build      # 生产环境\n```\n\n---\n\n## 功能特性\n\n### 本地推理（边缘 AI）\n\n一切都在您的设备上运行——无需 API 密钥、无需联网、无需昂贵的 GPU，完全保护您的隐私。借助 WASM 和 WebGPU 技术，Sokuji 可以在任何现代浏览器中高效运行，充分利用您现有的 CPU 和集成显卡。\n- **50 种 ASR 模型**（32 种离线 + 10 种流式 + 8 种基于 WebGPU 的模型，包括 Whisper、Cohere Transcribe、Voxtral Mini 4B），覆盖 99+ 种语言\n- **55+ 种翻译语对**，通过 Opus-MT 结合 5 种多语言 LLM（Qwen 2.5 \u002F 3 \u002F 3.5、GemmaTranslate）实现，并采用 WebGPU 加速\n- **136 种 TTS 音色**，覆盖 53 种语言（Piper、Piper-Plus、Coqui、Mimic3、Matcha 引擎）\n- 一键下载模型，并使用 IndexedDB 进行缓存\n\n### 云服务提供商\n\n| 供应商 | 主要特性 |\n|----------|-------------|\n| **OpenAI** | `gpt-realtime-mini` \u002F `gpt-realtime-1.5` · 10种语音 · 可配置的轮次检测（正常 \u002F 语义 \u002F 禁用）· 降噪 · 支持60多种语言 |\n| **Google Gemini** | 动态模型选择（音频\u002F实时模型）· 30种语音 · 内置轮次检测 · 34种语言变体 |\n| **Palabra.ai** | WebRTC低延迟 · 语音克隆 · 自动句子分割 · 部分转录翻译 · 支持60多种源语言和40多种目标语言 |\n| **Kizuna AI** | 登录即可使用 — API密钥由后端管理 · 使用与OpenAI相同的模型，但已优化默认设置 |\n| **Doubao AST 2.0** | 带说话人语音克隆的语音到语音转换 · 中文↔英语双向 · Ogg Opus音频输出 |\n| **兼容OpenAI** | 使用您自己的端点 — 任何兼容OpenAI Realtime API的服务（仅限Electron） |\n| **本地推理** | 完全离线 · 在设备上完成ASR → 翻译 → TTS · 无需API密钥 · 不需要GPU |\n\n### 音频\n\n- **翻译您的声音** — 用您的母语说话，其他人会听到仿佛您用母语说出的翻译内容\n- **翻译他人的声音** — 捕捉会议音频（扩展程序）或任何系统音频（桌面），并获得实时翻译字幕\n- **虚拟麦克风** — 将翻译后的音频路由到Zoom、Meet、Teams或其他应用\n- **实时直通** — 录音时可监控您自己的声音\n- **AI降噪** — 去除背景噪音、键盘声及其他干扰\n- **回声消除** — 内置于现代Web Audio API中\n\n### 界面\n\n- **30种语言** — 完全本地化的用户界面\n- **简易模式** — 针对非技术人员的简化设置\n- **高级模式** — 波形显示及详细控制选项\n\n---\n\n## 隐私\n\n**您的音频始终保留在您的设备上——如果您选择本地推理，数据将永远不会离开设备。**\n\n- 云端模式直接连接到各服务提供商的API——无中间服务器\n- API密钥仅存储在本地，绝不会传输给我们\n- 本地推理在设备上完成所有处理，无需任何网络请求\n- 通过PostHog进行匿名使用数据分析\n\n---\n\n## 技术栈\n\n- **桌面版**: [Electron](https:\u002F\u002Fwww.electronjs.org)（Windows、macOS、Linux）\n- **浏览器扩展**: Chrome\u002FEdge Manifest V3\n- **UI**: [React](https:\u002F\u002Freact.dev) + TypeScript + [Zustand](https:\u002F\u002Fzustand-demo.pmnd.rs\u002F)\n- **本地AI**: [sherpa-onnx](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx)（WASM）· [Transformers.js](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.js) · WebGPU\n- **音频**: Web Audio API · AudioWorklet · WebRTC\n- **国际化**: [i18next](https:\u002F\u002Fwww.i18next.com\u002F)（30种语言）\n\n---\n\n## 贡献\n\n我们欢迎各位贡献！请在开始之前阅读我们的[贡献指南](.github\u002FCONTRIBUTING.md)。\n\n---\n\n## 许可证\n\n[AGPL-3.0](LICENSE)\n\n## 支持\n\n- [问题](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fissues) — Bug报告\n- [讨论](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fdiscussions) — 问答与建议\n\n## 致谢\n\n- **云API**: [OpenAI](https:\u002F\u002Fopenai.com), [Google Gemini](https:\u002F\u002Fai.google.dev), [Volcengine](https:\u002F\u002Fwww.volcengine.com)\n- **ASR**: [sherpa-onnx](https:\u002F\u002Fgithub.com\u002Fk2-fsa\u002Fsherpa-onnx), [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper), [SenseVoice](https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FSenseVoice), [Moonshine](https:\u002F\u002Fgithub.com\u002Fusefulsensors\u002Fmoonshine), [Cohere Transcribe](https:\u002F\u002Fcohere.com), [Voxtral Mini 4B](https:\u002F\u002Fgithub.com\u002Fmistralai)\n- **TTS**: [Piper](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper), [Piper-Plus](https:\u002F\u002Fgithub.com\u002Fayutaz\u002Fpiper-plus), [Matcha-TTS](https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS), [Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS), [Mimic 3](https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic3)\n- **翻译**: [Opus-MT](https:\u002F\u002Fgithub.com\u002FHelsinki-NLP\u002FOpus-MT), [Qwen](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen), [GemmaTranslate](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ftranslate-gemma)\n- **基础设施**: [Transformers.js](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.js), [ONNX Runtime](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fonnxruntime), [Electron](https:\u002F\u002Fwww.electronjs.org), [React](https:\u002F\u002Freact.dev)\n\n有关详细模型许可信息，请参阅[THIRD_PARTY_NOTICES.md](THIRD_PARTY_NOTICES.md)。","# Sokuji 快速上手指南\n\nSokuji 是一款跨平台的实时语音翻译工具，支持云端 API 与完全离线的本地推理（Local Inference）。它利用 WASM 和 WebGPU 技术，无需昂贵显卡即可在设备上实现“语音识别 → 翻译 → 语音合成”的全流程，保护隐私且零延迟。\n\n## 环境准备\n\n### 系统要求\nSokuji 支持以下平台：\n- **桌面端**：Windows、macOS (Intel\u002FApple Silicon)、Linux (Debian\u002FUbuntu x64 & ARM64)\n- **浏览器扩展**：Chrome、Edge、Brave（即将支持）\n\n### 硬件建议\n- **云端模式**：无特殊硬件要求，需稳定网络连接。\n- **本地推理模式**：\n  - 现代 CPU 或集成显卡即可运行。\n  - 推荐使用支持 **WebGPU** 的浏览器或显卡以获得最佳性能。\n  - 无需独立高端 GPU，无需 API Key。\n\n### 前置依赖（源码构建）\n若选择从源码构建，需安装：\n- [Node.js](https:\u002F\u002Fnodejs.org\u002F) (推荐 LTS 版本)\n- Git\n- npm (随 Node.js 自动安装)\n\n> **国内加速提示**：安装 Node 模块时，建议使用淘宝镜像源加速下载：\n> ```bash\n> npm config set registry https:\u002F\u002Fregistry.npmmirror.com\n> ```\n\n---\n\n## 安装步骤\n\n您可以选择直接下载预编译包或使用浏览器扩展，也可从源码构建。\n\n### 方式一：桌面应用（推荐）\n访问 [Releases 页面](https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Freleases) 下载对应系统的安装包：\n\n| 平台 | 安装包文件名示例 |\n| :--- | :--- |\n| Windows | `Sokuji-x.y.z.Setup.exe` |\n| macOS (M1\u002FM2\u002FM3) | `Sokuji-x.y.z-arm64.pkg` |\n| macOS (Intel) | `Sokuji-x.y.z-x64.pkg` |\n| Linux (Deb) | `sokuji_x.y.z_amd64.deb` 或 `arm64.deb` |\n\n下载后直接运行安装程序即可。\n\n### 方式二：浏览器扩展\n无需安装软件，直接添加至浏览器：\n- **Chrome**: [Chrome Web Store](https:\u002F\u002Fchromewebstore.google.com\u002Fdetail\u002Fppmihnhelgfpjomhjhpecobloelicnak)\n- **Edge**: [Microsoft Edge Add-ons](https:\u002F\u002Fmicrosoftedge.microsoft.com\u002Faddons\u002Fdetail\u002Fsokuji-aipowered-live-\u002Fdcmmcdkeibkalgdjlahlembodjhijhkm)\n\n*开发者模式安装*：\n1. 从 Releases 页面下载 `sokuji-extension.zip` 并解压。\n2. 在浏览器地址栏输入 `chrome:\u002F\u002Fextensions\u002F` 并开启“开发者模式”。\n3. 点击“加载已解压的扩展程序”，选择解压后的文件夹。\n\n### 方式三：从源码构建\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji.git\ncd sokuji\n\n# 安装依赖 (建议使用国内镜像源)\nnpm install\n\n# 开发模式运行\nnpm run electron:dev\n\n# 构建生产版本\nnpm run electron:build\n```\n\n---\n\n## 基本使用\n\nSokuji 的核心功能是将您的语音实时翻译并播放，或翻译会议中他人的语音。\n\n### 1. 启动与模式选择\n打开应用后，您需要在设置中选择推理模式：\n- **Local Inference (本地推理)**：完全离线，隐私安全。首次使用需一键下载模型（ASR、翻译、TTS），后续无需联网。\n- **Cloud Providers (云端)**：配置 OpenAI、Gemini、Doubao 等 API Key，利用云端大模型能力。\n\n### 2. 场景 A：翻译您的发言 (虚拟麦克风)\n此模式适用于您在 Zoom、Teams、Discord 或游戏中发言，让对方听到翻译后的声音。\n\n1. **输入设置**：选择您的物理麦克风。\n2. **输出设置**：选择 **Sokuji Virtual Microphone** (虚拟麦克风)。\n3. **目标应用设置**：在 Zoom\u002FTeams 等软件的音频设置中，将**麦克风输入**改为 `Sokuji Virtual Microphone`。\n4. **开始说话**：您对麦克风说话，Sokuji 会实时识别、翻译并合成目标语言语音，通过虚拟麦克风发送给对方。\n\n### 3. 场景 B：翻译他人的发言 (字幕\u002F监听)\n此模式适用于听取外语会议或视频内容。\n\n1. **输入设置**：\n   - **浏览器扩展**：自动捕获网页标签页音频。\n   - **桌面应用**：选择系统音频输出或特定应用音频。\n2. **功能开启**：启用“实时字幕”或“语音监听”。\n3. **效果**：屏幕上将显示实时翻译字幕，您也可以通过耳机听到翻译后的语音（Passthrough 模式）。\n\n### 4. 简易模式 vs 高级模式\n- **Simple Mode**：适合非技术用户，界面简洁，一键切换语言。\n- **Advanced Mode**：显示声波图，可精细调整降噪、回声消除及模型参数。\n\n> **提示**：本地模式下，首次运行会自动下载约几百 MB 的模型文件至 IndexedDB 缓存，请确保初次使用时网络通畅。","一位在中国的技术负责人需要紧急主持一场包含日本、德国和巴西开发者的跨国线上架构评审会，会议中涉及大量专业术语的实时讨论。\n\n### 没有 sokuji 时\n- **沟通效率极低**：参会者必须依赖人工轮流翻译或等待字幕生成，导致技术讨论频繁中断，原本 1 小时的会议被迫延长至 3 小时。\n- **隐私与成本顾虑**：使用云端翻译服务需上传敏感架构代码录音，存在数据泄露风险；若购买企业级同声传译服务，单次会议成本高达数千元。\n- **环境部署繁琐**：部分开发者在公司受限网络环境下无法连接外部 API，或因本地显卡性能不足而无法运行传统离线翻译模型，导致关键人员“失声”。\n\n### 使用 sokuji 后\n- **无缝实时互译**：利用 sokuji 的本地推理功能（Local Inference），日、德、葡语发言被即时转为中文语音输出，技术术语准确传达，会议节奏流畅如单语言环境。\n- **完全离线且免费**：通过 WebGPU 技术在本地设备完成语音识别、翻译和合成，无需联网即可保护会议隐私，同时省去了昂贵的 API 调用费用。\n- **跨平台零门槛接入**：无论是使用 Zoom 桌面端还是浏览器版 Google Meet，团队成员只需安装 sokuji 插件或客户端即可立即加入，无需配置复杂的环境或高端显卡。\n\nsokuji 通过“本地 + 云端”的双模架构，彻底打破了跨国技术协作中的语言壁垒与隐私边界，让全球开发者实现真正的无障碍即时连接。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkizuna-ai-lab_sokuji_d52f542e.png","kizuna-ai-lab","kizuna AI Labs","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkizuna-ai-lab_a19ee332.png","",null,"https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab",[80,84,88,92,96,99,103],{"name":81,"color":82,"percentage":83},"TypeScript","#3178c6",50.3,{"name":85,"color":86,"percentage":87},"JavaScript","#f1e05a",27.2,{"name":89,"color":90,"percentage":91},"HTML","#e34c26",14.3,{"name":93,"color":94,"percentage":95},"SCSS","#c6538c",4,{"name":97,"color":98,"percentage":10},"Python","#3572A5",{"name":100,"color":101,"percentage":102},"Shell","#89e051",1,{"name":104,"color":105,"percentage":106},"CSS","#663399",0.1,816,91,"2026-04-12T16:21:14","AGPL-3.0","Windows, macOS, Linux","本地推理模式不需要独立 GPU，利用 WebGPU 技术可在现代浏览器的集成显卡或 CPU 上运行；云端模式无硬件要求。","未说明",{"notes":115,"python":116,"dependencies":117},"该工具提供桌面端应用和浏览器扩展两种形式。本地推理模式完全离线，无需 API 密钥，通过 WASM 和 WebGPU 技术在设备端运行 ASR、翻译和 TTS 模型，支持 99+ 种语言的语音识别。云端模式支持 OpenAI、Google Gemini 等多个提供商。首次使用本地模式需下载模型文件（包含 50 个 ASR 模型、55+ 翻译对、136 个 TTS 语音），模型缓存于 IndexedDB。","未说明 (基于 Electron\u002FNode.js 环境，非纯 Python 应用)",[118,119,81,120,121,122,123,124],"Electron","React","sherpa-onnx (WASM)","Transformers.js","ONNX Runtime","WebGPU","Web Audio API",[52,15,13,35,14],[127,128,129,130,131,132,133,134,135,136,137],"ai","meeting","translation","chrome-extension","llm","translator","electron","linux-app","openai","react","typescript","2026-03-27T02:49:30.150509","2026-04-13T17:46:08.407365",[141,146,150,155,160,164],{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},31847,"配置 Doubao AST 2.0 API 时遇到 \"HTTP 403 Forbidden\" 错误怎么办？","该问题通常由以下原因导致，请按顺序排查：\n1. **凭证来源错误**：确保 App ID 和 Access Token 是从火山引擎语音控制台（服务 ID 10030）复制的，而非其他服务。\n2. **服务状态未激活**：在控制台中确认该服务处于“已启用\u002F活跃”状态。\n3. **多余空格**：检查粘贴的凭证前后是否有空格。\n4. **版本过旧（根本原因）**：早期版本使用了错误的资源 ID（用于流式 ASR 而非 AST 2.0）。请升级到 **v0.15.19** 或更高版本，该版本已将资源 ID 修正为 `volc.service_type.10053`。\n注意：配置时仅需 App ID 和 Access Token，不需要 Secret Key。","https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fissues\u002F149",{"id":147,"question_zh":148,"answer_zh":149,"source_url":145},31848,"Doubao AST 2.0 配置是否需要提供 Secret Key？","不需要。配置 Doubao AST 2.0 提供商时，仅需填写 **App ID** 和 **Access Token** 即可正常工作，无需输入 Secret Key。如果连接失败，请检查凭证是否来自正确的控制台页面（服务 10030）以及服务是否已启用。",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},31849,"WebGPU 推理相比 WASM 有什么优缺点？首次运行延迟高正常吗？","**优点**：WebGPU 利用 GPU 加速，在处理大模型或连续流式任务时性能更优，能分摊首次推理成本。\n**缺点**：存在明显的“着色器编译开销”（Shader Compilation Overhead），导致首次推理延迟较高（类似 JIT 预热），而 WASM\u002FCPU 方案没有此问题。\n**建议**：如果您的应用场景对短语句的即时响应要求极高且模型较小，WASM 可能是更简单稳定的选择；若需运行较大模型（如 Granite Speech 1B+）或长时流式处理，WebGPU 更具优势。首次运行的延迟是 WebGPU 的正常现象。","https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fissues\u002F120",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},31850,"如何集成火山引擎（Volcengine\u002FDoubao）作为 AI 提供商？","项目已支持火山引擎的机器翻译和实时语音翻译功能。集成方式如下：\n1. **环境变量启用**：设置 `VITE_ENABLE_VOLCENGINE_ST` 或 `VITE_ENABLE_VOLCENGINE_AST2` 来切换功能。\n2. **API 端点**：使用 `https:\u002F\u002Fark.cn-beijing.volces.com\u002Fapi\u002Fv3\u002Fchat\u002Fcompletions`。\n3. **模型选择**：支持 `doubao-1.5-pro`（通用）、`doubao-seed-translation`（翻译专用）等模型。\n4. **兼容性**：由于其 API 兼容 OpenAI 格式，可复用现有的 OpenAI 客户端架构，只需更换 endpoint 和 model 参数即可。相关功能已在 v0.13.0 版本中发布。","https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fissues\u002F98",{"id":161,"question_zh":162,"answer_zh":163,"source_url":154},31851,"IBM Granite Speech 模型在浏览器中本地运行的可行性如何？","可行，但需注意架构差异和硬件要求：\n1. **模型选择**：全量 8B 模型过大，建议使用量化后的 WebGPU\u002FONNX 优化版本（如 `granite-4.0-1b-speech`）。\n2. **浏览器要求**：必须使用支持 WebGPU 的浏览器（Chrome 113+ 或 Edge 113+），否则需要降级策略。\n3. **架构差异**：Granite Speech 采用“音频→转录→LLM 处理”的两阶段设计，不同于传统的单阶段 ASR。\n4. **集成方式**：通过 `@huggingface\u002Ftransformers` 库并指定 `device: 'webgpu'` 进行管道集成，可实现无服务器的本地 GPU 加速推理。",{"id":165,"question_zh":166,"answer_zh":167,"source_url":159},31852,"火山引擎实时语音翻译服务的延迟表现如何？","根据测试数据，火山引擎（Doubao）的实时语音能力表现优异：\n- **实时语音 API**：端到端延迟约为 700ms，支持打断功能。\n- **实时同传 (Seed-LiveInterpret 2.0)**：中英互译的端到端延迟约为 2.5 秒。\n- **文本翻译**：支持 28 种语言，BLEU 分数达 42.5，优于 GPT-4o。\n此外，其价格极具竞争力，输入成本约为 GPT-4o 的 1\u002F3 到 1\u002F18，适合大规模应用。",[169,174,179,184,189,194,199,204,209,214,219,224,229,234,239,244,249,254,259,264],{"id":170,"version":171,"summary_zh":172,"released_at":173},239049,"v0.17.1","## 新增功能\n\n### 新功能 — Microsoft Edge TTS（免费、高质量的在线文本转语音）\n\n- **Edge TTS 现已上线**，位于更名为 **Free** 的提供商中（原名 Local\u002FOffline）。提供 100 多种语言的 400 多种神经网络语音，直接从 Bing 的 TTS 服务实时流式传输——完全免费，无需 API 密钥。(#195)\n\n- 设置中的 **语音选择器** 允许您为目标语言选择所有可用的语音（Ava、Keita、Nanami、Denise 等众多选项）。每当您切换目标语言时，系统会自动选择当前语言下首个可用的语音。\n\n- **平台支持**：\n  - **桌面版 (Electron)**：音频通过主进程并携带所需头信息进行代理传输，因此 Edge TTS 可开箱即用。\n  - **浏览器扩展**：使用 Chrome 的 `declarativeNetRequest` 在 WebSocket 握手时注入所需头信息——适用于 Chrome\u002FEdge 116 及以上版本。\n\n- **流式 MP3 解码** 通过 Web Worker 中的 mpg123-decoder WASM 实现，可保持较低的播放延迟——音频在生成后仅需几百毫秒即可开始播放。\n\n### 错误修复\n\n- **Meet\u002FTeams\u002FZoom 上的标签页音频捕获现已恢复正常**（v0.17.1 热修复）——v0.17.0 版本存在回归问题，导致在支持的视频会议网站上启动参与者会话时会提示“扩展未对当前页面调用”。这是因为侧边栏是通过绕过 Chrome `activeTab` 权限授予的隐式点击路径打开的。现在，扩展程序会明确地从 `chrome.action.onClicked` 处理程序中打开侧边栏，保留用户手势，从而确保标签页音频捕获能够顺利进行。(#196)\n\n- **扩展程序会在支持的视频会议网站上自动打开侧边栏** (#193)——在 Google Meet、Teams、Zoom 或 Slack 上点击 Sokuji 图标，侧边栏将立即打开，准备开始会话。而在其他网站上，则仍按旧方式显示弹出窗口。当您切换到非支持的标签页时，侧边栏会自动关闭。\n\n- **多项 Edge TTS 稳定性修复** 已合并至 v0.17.0\u002Fv0.17.1 版本中：\n  - 语音自动选择现在会在目标语言变更时于任何界面运行，确保界面上显示的语音与实际用于合成的语音一致。\n  - 某些 MP3 数据块上的音频损坏问题（由 IPC 间缓冲区视图别名引起）已修复——音频现在始终清晰。\n  - 如果解码器未能在句子之间重置，TTS 流程将不再卡死；先前生成的过时 IPC 事件也不会再干扰当前的生成过程。\n  - 在流式传输下一句之前，会正确等待 MP3 解码器完成重置，从而避免卡顿或重复播放。\n  - 每次发生 `local.tts.start` 事件时，都会记录 Edge TTS 的语音和语速，便于调试。\n\n### 内部改进\n\n- 提供商显示名称：**Local (Offline)** → **Free**，覆盖所有 31 种本地化语言。\n- 对于 Edge TTS，流式卡拉 OK 元数据现已在流式传输过程中发布，与非流式路径的时间行为保持一致。\n- 软件包新增了 `mpg123-decoder`，用于基于 WASM 的 MP3 流式解码。\n\n### 兼容性\n\n- Chrome \u002F Edge 11","2026-04-11T18:29:19",{"id":175,"version":176,"summary_zh":177,"released_at":178},239050,"v0.16.2","## 新增内容\n\n### Bug 修复\n\n- **修复日志导出过大问题** — “复制日志”功能不再包含原始音频数据。此前会生成约900KB剪贴板内容的 Gemini 会话，现在已缩减至约44KB。音频负载现被替换为人类可读的大小占位符，如 `\u003Caudio:45.0KB>`，以便于调试。(#189, #190)\n\n- **修复音频切换时卡拉 OK 重新开始的问题** — 音频播放器在下一音频项目开始时不再重新启动卡拉 OK 播放，从而避免在连续翻译过程中出现意外中断。(#175, #188)","2026-04-09T18:38:49",{"id":180,"version":181,"summary_zh":182,"released_at":183},239051,"v0.16.1","## Bug 修复\n\n这是一个补丁版本，包含两项 bug 修复。无新增功能。\n\n### 浏览器扩展中恢复了参会者音频翻译功能 (#184)\n\n自 **v0.15.30** 版本以来，浏览器扩展中的参会者音频客户端——用于通过捕获会议标签页的音频来翻译其他参会者的语音——一直处于静默失效状态。点击“开始参会者音频客户端”时看似有反应，但实际上并未捕获音频，也未进行翻译，且不会显示任何错误信息。此版本已将其修复。\n\n如果您在 Google Meet、Microsoft Teams、Zoom、Discord 等平台上使用 Sokuji 的浏览器扩展来翻译其他参会者的发言，请及时更新。\n\n- **受影响版本：** v0.15.30、v0.15.31、v0.16.0\n- **影响范围：** 仅限浏览器扩展——Electron 桌面应用不受影响。\n\n### 桌面应用中恢复了增强降噪功能\n\n在 v0.16.0 版本中新增的“增强降噪”模式，在打包后的 Electron 应用程序中缺少模型文件，因此启用该模式时会在运行时因“文件未找到”错误而失败。此版本已修复打包问题。\n\n- **受影响版本：** v0.16.0\n- **影响范围：** 仅限打包后的 Electron 桌面应用。标准降噪模式及浏览器扩展中的降噪功能均不受影响。\n\n## 备注\n\n- 未对 AI 服务提供商、音频播放或其他任何功能进行更改。这两项修复均为针对早期版本引入的回归问题的纯 bug 修复。\n- 参会者音频客户端的故障一直处于静默状态（未显示任何错误信息）。我们正在通过 #187 单独解决这一问题，以便未来任何类型的故障都能向用户提示，而不是被悄然吞没。","2026-04-07T15:53:24",{"id":185,"version":186,"summary_zh":187,"released_at":188},239052,"v0.16.0","## 新功能\n\n### Gemini 自动重连与会话恢复 (#180)\n\nGemini Live API 会话现在在服务器因会话超时（约 10-15 分钟）而断开连接时，会**自动重新连接**。此前，用户必须手动点击连接按钮才能重启；如今，重连过程完全透明，对话上下文得以保留。\n\n**工作原理：**\n- 会话恢复 API 会在整个会话过程中存储检查点令牌。\n- 当服务器发送 `goAway` 信号或意外断开连接时，Sokuji 会使用保存的令牌自动重新连接。\n- 启用上下文窗口压缩功能，使会话能够**无限期运行**，而不会达到 128K 令牌限制。\n- 在 1-2 秒的重连期间，会显示一个简短的“正在重连…”提示。\n- 如果尝试 3 次后仍无法重连，会话将正常断开。\n\n### 错误修复\n\n- **修复了说话时翻译被中断的问题** — v0.15.28 中引入的回归问题导致每当检测到用户音频时，AI 就会停止翻译。现已修复。\n- **改进的日志导出** — 所有状态事件（错误、警告、重连状态）现在都会出现在导出的日志中。\n\n## 注意事项\n\n- 重连需要至少完成一次 AI 响应，才会生成恢复令牌。\n- 恢复令牌在断开连接后有效 2 小时。\n- 其他服务提供商（OpenAI、Palabra、Kizuna AI）不受这些更改影响。","2026-04-06T10:37:03",{"id":190,"version":191,"summary_zh":192,"released_at":193},239053,"v0.15.31","## 新增功能\n\n### 音频播放全面重构\n- 将基于分块的 `HTMLAudioElement` 播放替换为 **SharedArrayBuffer 循环缓冲区** 架构，实现无间隙、低延迟的音频输出 (#174)\n\n### 问题修复\n- **修复打包后的 Electron 应用中本地推理 Worker 无法加载的问题** — ASAR 文件内的 Worker 受到 COEP 头部的限制而被阻止；现已改用 `SharedArrayBuffer` 命令行标志来替代，彻底避免该问题。\n- **修复浏览器扩展中的 AudioWorklet CSP 违规问题** — 播放环形处理器 Worklet 曾被 Vite 内联为 `data:` URL，从而违反了扩展的 Content Security Policy；现改为通过 `chrome.runtime.getURL()` 加载，与其他 Worklet 保持一致。\n- **将 WASM 运行时文件纳入打包应用** — sherpa-onnx ASR\u002FTTS 运行时、ONNX Runtime Web、VAD 模型以及 Piper Plus 运行时现已打包进 ASAR 文件，以便本地推理 Worker 能够正确加载。\n- 为本地资源添加了 `Cross-Origin-Resource-Policy` 头部。\n\n**完整更新日志**：https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.29...v0.15.31","2026-04-05T11:03:50",{"id":195,"version":196,"summary_zh":197,"released_at":198},239054,"v0.15.29","### 错误修复\n- 修复了 Gemini 按住说话功能在未说话的情况下松开 PTT 按钮时会生成空转录和空回复的问题 — 现在会正确忽略静音按压\n\n**完整更新日志**: https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.28...v0.15.29","2026-04-04T09:48:59",{"id":200,"version":201,"summary_zh":202,"released_at":203},239055,"v0.15.28","## 新增功能\n\n### Gemini 语音活动检测 (VAD) 配置\n- 为 Gemini 提供商新增 VAD 设置面板，支持可配置参数：\n  - **语音开始\u002F结束灵敏度**（高\u002F低）\n  - **静音时长**（50 毫秒 – 3000 毫秒）\n  - **前缀填充**（0 毫秒 – 2000 毫秒）\n- 为 Gemini 新增 **按住说话** 模式——可通过空格键或麦克风按钮手动控制发言边界。\n- 将默认的 `activityHandling` 从 `NO_INTERRUPTION` 更改为 `START_OF_ACTIVITY_INTERRUPTS`，以更好地分割发言轮次。\n- 参与者音频客户端始终使用自动模式（无 PTT）。\n\n### Microsoft Teams 支持\n- 在浏览器扩展中新增对新域名 `teams.cloud.microsoft` 的支持。\n\n### 翻译\n- 为所有 30 种支持的语言添加了 Gemini VAD 设置的翻译。\n\n### 已知问题\n- `silenceDurationMs` 参数对 `gemini-3.1-flash-live-preview` 无效——但在 `gemini-2.5-flash` 模型上可以正常工作。[详情及复现方法](https:\u002F\u002Fgithub.com\u002Fjiangzhuo\u002Fgemini-live-silence-duration-bug)\n\n**完整更新日志**：https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.27...v0.15.28","2026-04-04T05:31:24",{"id":205,"version":206,"summary_zh":207,"released_at":208},239056,"v0.15.27","## 新增功能\n\n### Cohere Transcribe VAD 修复\n\nCohere Transcribe 曾被错误地归类为流式模型，导致在使用时 **VAD（语音活动检测）设置完全无效**。语音阈值、最小静音时长和最小语音时长滑块均被隐藏，其值也被忽略。\n\n- Cohere Transcribe 现在能够正确地通过离线 ASR 流程运行，并全面支持 VAD 配置。\n- 令牌级别的部分结果（即推理过程中逐字显示文本）仍可正常工作。\n\n### Voxtral 的 VAD 设置\n\nVoxtral Mini 4B 同样使用 VAD 进行语音检测，但其 VAD 设置此前是硬编码的，设置滑块也被隐藏。现在，选择 Voxtral 时，VAD 设置已可见并可配置。\n\n### 统一的 VAD 配置\n\n所有基于浏览器的、使用语音活动检测的 ASR 模型（Whisper、Cohere Transcribe、Granite Speech、Voxtral）现在共享一致的配置界面。此前，部分模型会读取用户设置，而另一些则使用硬编码的默认值；如今，所有模型都会尊重设置中的相同 VAD 滑块。\n\n---\n\n**安装**：[Chrome 网上应用店](https:\u002F\u002Fchromewebstore.google.com\u002Fdetail\u002Fsokuji\u002Feiodakodalhadpjkmndhfcjpjbafokga) · [官网](https:\u002F\u002Fsokuji.kizuna.ai)","2026-04-03T08:45:10",{"id":210,"version":211,"summary_zh":212,"released_at":213},239057,"v0.15.26","## 新增功能\n\n### 更简洁的设置界面\n\n- **统一服务商选择方式** — 无论是基础模式还是高级模式，现在都采用相同的可展开卡片布局，配有服务商图标和描述，取代了高级模式中的旧下拉菜单。\n- **移除模式切换按钮** — 现在模式会在引导流程中自动设定（新手用户默认为基础模式，有经验用户默认为高级模式），从而减少页眉区域的杂乱。\n- 选择服务商后，卡片会自动收起；当仅有一个可用服务商时，展开按钮也会隐藏。\n\n### 优化标签与术语\n\n- **“简单”→“快速”** — 所有30种语言的设置模式标签均已更新。\n- **“服务商”→“AI 服务提供商”** — 小节标题更加清晰。\n- **“本地（离线）”→“本地 AI（离线）”** — 更新了服务商名称。\n- **ASR\u002FTTS 全称化** — 所有相关条目现均使用完整术语：“语音识别 (ASR)”和“语音合成 (TTS)”，不再仅使用缩写。\n- 重新编写了模型下载提示，使其更清晰易懂。\n\n### 一目了然的模型状态\n\n- 模型芯片现在会显示**绿色**，表示模型已下载；若缺失则显示**警告色**，让用户立即知道需要下载哪些内容。\n- 参与者模型布局重新调整：标签和提示信息放在一行，模型芯片放在下一行。\n\n### 新增引导步骤：参与者音频\n\n在设置向导中新增了一个关于**参与者音频**采集的步骤：\n- 在**浏览器扩展程序**中：可捕获当前标签页的音频，用于翻译 Google Meet、Teams、Zoom 等会议中的其他参会者。\n- 在**桌面应用**中：可捕获电脑播放的任何音频——例如 YouTube、Twitch、Netflix 或其他音源。\n- 解释了参与者音频仅为文本形式（不包含语音合成），并说明其如何与麦克风配合，实现完整的双向翻译功能。\n\n### 多语言本地化\n\n- 在所有30种语言中补充了缺失的翻译内容，包括参与者模型提示、模型推荐标签以及本地模型必选提示。\n- 统一了所有翻译文件中的 ASR\u002FTTS 术语表述。\n\n---\n\n**安装**：[Chrome 网上应用店](https:\u002F\u002Fchromewebstore.google.com\u002Fdetail\u002Fsokuji\u002Feiodakodalhadpjkmndhfcjpjbafokga) · [官网](https:\u002F\u002Fsokuji.kizuna.ai)","2026-04-03T03:01:29",{"id":215,"version":216,"summary_zh":217,"released_at":218},239058,"v0.15.25","## 新增功能\n\n### IBM Granite Speech — 本地 ASR + 直接语音翻译（WebGPU）\n\nIBM 的 Granite Speech 模型（10亿参数）现已作为支持 WebGPU 加速的本地 ASR 引擎提供。\n\n- **6 种语言**可用于转录：英语、法语、德语、西班牙语、葡萄牙语、日语\n- **8 种语言**可用于直接语音翻译（AST）：新增意大利语和中文\n- **AST 模式**：在支持的情况下，Granite 可以直接翻译语音，无需单独的翻译模型——减少下载量，降低延迟\n- 需要支持 WebGPU 的浏览器\n\n### 本地推理的参会者模式\n\n本地推理现支持**参会者音频**——可翻译会议中其他人的发言，而不仅限于您自己的声音。\n\n- 自动选择反向 ASR 和翻译模型\n- 当翻译模型不可用时，会回退到仅转录模式\n- 在支持的平台上可与系统音频采集配合使用\n\n### 按语言对的模型偏好设置\n\nSokuji 现在会**记住您为每种语言对选择的模型**。当您切换语言对时，您首选的 ASR、翻译和 TTS 模型会自动恢复。\n\n### 设置界面全面升级\n\n- 供应商部分重新设计，采用紧凑的模型信息卡片\n- 模型标签可点击——直接跳转到模型选择页面\n- 新增帮助部分，包含支持邮箱和 GitHub Discussions 链接\n- 所有 30 种语言中的“API 密钥”部分已更名为“供应商”\n\n### 错误修复\n\n- 修复了关闭教程后因解析 localStorage 而导致的崩溃问题\n- 修复了多种使用支持 AST 的模型时的自动选择边缘情况\n\n---\n\n**安装**：[Chrome 网上应用店](https:\u002F\u002Fchromewebstore.google.com\u002Fdetail\u002Fsokuji\u002Feiodakodalhadpjkmndhfcjpjbafokga) · [官网](https:\u002F\u002Fsokuji.kizuna.ai)","2026-04-02T11:51:28",{"id":220,"version":221,"summary_zh":222,"released_at":223},239059,"v0.15.24","## What's New in v0.15.24\n\n### Font Size Controls\n\nYou can now adjust the conversation text size directly from the toolbar — increase or decrease font size to your liking.\n\n### AI Noise Suppression Enabled by Default\n\nNew installations now have AI-powered noise suppression turned on out of the box, for cleaner audio input and better translation accuracy. Existing users' preferences are not affected.\n\n### Local Inference Improvements\n\n- **Better translation prompts for small LLMs**: Improved prompt engineering for Qwen-based local translation models to produce more accurate results and avoid common failure modes.\n- **Fixed Opus-MT model loading issue**: Worked around an ONNX Runtime 1.25 graph optimization bug that caused some Opus-MT translation models (e.g. en→zh) to fail to load.","2026-04-01T08:16:42",{"id":225,"version":226,"summary_zh":227,"released_at":228},239060,"v0.15.23","## What's New in v0.15.23\n\n### Transformers.js v4 Stable\n\nUpgraded from the preview release (`4.0.0-next.10`) to the official stable release of [Transformers.js v4](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Ftransformersjs-v4). This brings improved stability for local AI inference in the browser, along with updated ONNX Runtime Web binaries.","2026-03-30T16:05:34",{"id":230,"version":231,"summary_zh":232,"released_at":233},239061,"v0.15.22","## What's New in v0.15.22\n\n### Recommended Models Highlighted\n\nThe model selection list now groups compatible models into **Recommended** and **Others**, making it easier to pick the best model for each language pair. Recommended models appear at the top with a visual label and are sorted by quality.\n\n### Aggregated Update Notes\n\nWhen you skip multiple versions, the update dialog now shows release notes for **every intermediate version** — not just the latest one. No more wondering what you missed.\n\n### Smarter Model Download Guidance\n\nWhen required models are missing, the warning now shows per-type download links (e.g., \"Download ASR\", \"Download Translation\") that navigate directly to the corresponding section in Advanced Settings.\n\n### Other Changes\n- Updated ONNX Runtime Web WASM to v1.25.0-dev.20260323\n- Added missing translations for advanced settings tab labels and model warnings across all 29 languages","2026-03-30T06:58:52",{"id":235,"version":236,"summary_zh":237,"released_at":238},239062,"v0.15.21","## What's New in v0.15.21\r\n\r\n### Two New State-of-the-Art ASR Engines\r\n\r\nThis release adds two powerful new WebGPU-based speech recognition engines — the most accurate and fastest local ASR options available in Sokuji.\r\n\r\n**Cohere Transcribe (2B)** — Currently #1 on the [Open ASR Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fhf-audio\u002Fopen_asr_leaderboard) with 5.42% average WER. Supports 14 languages including English, Chinese, Japanese, Korean, and major European languages. Real-time streaming output with token-level partial results. (~1.5 GB download)\r\n\r\n**Voxtral Mini 4B Realtime** — Mistral's streaming speech recognition model with hybrid endpoint detection: VAD for speech boundaries + punctuation-based sentence splitting for lower translation latency. Supports 13 languages. Auto-selects optimal quantization based on GPU capabilities. (~2.5 GB download)\r\n\r\nBoth engines require WebGPU support (Chrome\u002FEdge 113+).\r\n\r\n### Other Changes\r\n- Fix: Log resolved model IDs instead of 'auto' in analytics\r\n- Refactor: Improved type safety in session config analytics","2026-03-28T16:49:12",{"id":240,"version":241,"summary_zh":242,"released_at":243},239063,"v0.15.20","## What's Changed\n\n### Fixes\n- **Gemini 3.x Live API support**: Fixed immediate disconnection when using Gemini 3.x models (e.g., Gemini 2.5 Flash) by switching from the deprecated `media` field to the new `audio` field in `sendRealtimeInput`. Upgraded `@google\u002Fgenai` to v1.46.0. (#150)\n- **CJK transcription spacing**: Gemini 3.x models insert unnecessary spaces between CJK (Chinese\u002FJapanese\u002FKorean) characters in input transcriptions. These are now automatically stripped for cleaner display. (#150)\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.19...v0.15.20","2026-03-27T15:07:23",{"id":245,"version":246,"summary_zh":247,"released_at":248},239064,"v0.15.19","## What's Changed\n\n### Fixes\n- **Volcengine AST 2.0 connection fix**: Fixed HTTP 403 error when connecting to Doubao AST 2.0 with apps that only have the simultaneous translation service enabled. The incorrect resource ID (`volc.bigasr.sauc.duration`, which belongs to the streaming ASR service) has been replaced with the correct one (`volc.service_type.10053`) per the official AST 2.0 API documentation. (#149)\n- Upgrade dependencies to resolve security vulnerabilities\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.18...v0.15.19","2026-03-27T11:24:30",{"id":250,"version":251,"summary_zh":252,"released_at":253},239065,"untagged-9cf00e3fc55522d38746","## What's New in v0.15.18\r\n\r\n### Text-Only Mode\r\nYou can now enable **Text Only** mode to receive translation as text without audio playback. Great for quiet environments or when you only need to read the translation. This option is available for OpenAI, Gemini, Kizuna AI, Volcengine AST2, and Local Inference providers.\r\n\r\n### Swap Languages\r\nA new **swap button** lets you quickly switch your source and target languages with one click — no more manually changing both dropdowns.\r\n\r\n### Clear Conversation\r\nA **clear button** now appears in the conversation panel, allowing you to reset the interpretation field and start fresh.\r\n\r\n### Error Tracking\r\nImproved error reporting helps us identify and fix issues faster. All error reports automatically redact API keys and sensitive information before being sent.\r\n\r\n### Other Changes\r\n- Reorganized the Acknowledgments section in documentation\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.17...v0.15.18","2026-03-26T02:49:49",{"id":255,"version":256,"summary_zh":257,"released_at":258},239066,"v0.15.17","## What's Changed\n\n### Features\n- **Piper-Plus TTS engine**: Add [piper-plus](https:\u002F\u002Fgithub.com\u002Fayutaz\u002Fpiper-plus) as a new local TTS engine, running entirely in-browser via ONNX Runtime Web WASM\n- **Japanese phonemization**: Integrate OpenJTalk WASM for accurate Japanese kanji reading, pitch accent, and prosody\n- **Multilingual VITS model**: CSS10-JA model supporting 6 languages (ja, en, zh, es, fr, pt), ~145MB total download from HuggingFace\n- **TTS language routing**: Wire target language through the TTS pipeline, enabling language-aware synthesis for multilingual models\n\n### Improvements\n- **Worker naming clarity**: Rename `tts.worker.js` \u002F `asr.worker.js` to `sherpa-onnx-tts.worker.js` \u002F `sherpa-onnx-asr.worker.js` to distinguish engine runtimes\n- **ORT UMD build**: Add `ort.wasm.min.js` to copy script for classic worker compatibility\n\n### Fixes\n- Fix OpenJTalk ES module `import.meta.url` patching for classic worker context\n- Fix missing `lid` and `prosody_features` tensors causing ONNX inference failures\n- Fix phonemization output to match the multilingual demo format\n- Add piper-plus WASM assets to extension build via `viteStaticCopy`\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.16...v0.15.17","2026-03-24T13:57:03",{"id":260,"version":261,"summary_zh":262,"released_at":263},239067,"v0.15.16","- fix(onboarding): dynamically filter steps by provider capabilities and add provider step to basic mode\r\n- chore(release): v0.15.16\r\n- docs: move zenn articles to docs\u002Fblog directory\r\n- refactor(local-inference): use per-engine init events with timing info\r\n- fix: upgrade sherpa-onnx WASM runtime from 1.12.25 to 1.12.31\r\n- fix(onboarding): update flow for current app state and fix navigation\r\n","2026-03-22T13:40:30",{"id":265,"version":266,"summary_zh":267,"released_at":268},239068,"v0.15.15","## What's Changed\n\n### Features\n- **TranslateGemma 4B support**: Add TranslateGemma 4B translation model with WebGPU acceleration, supporting 51 languages\n- **17 new languages**: Add Arabic, Bengali, Catalan, Estonian, Gujarati, Hebrew, Icelandic, Kannada, Latvian, Lithuanian, Malayalam, Marathi, Panjabi, Swahili, Tamil, Telugu, Zulu to language options\n- **Auto-select models on language change**: Automatically select appropriate models when source\u002Ftarget language changes\n\n### Fixes\n- **Centralize session readiness**: Move session readiness logic into `validateApiKey` to prevent stale state\n- **Always validate API key on credential change**: Ensure `validateApiKey` is called whenever credentials change\n- **Refresh start button on language change**: Fix start button not updating state when language is changed\n- **Strip emoji from TTS text**: Remove emoji characters before TTS synthesis to avoid errors\n- **Respect language lists for multilingual models**: Bounded multilingual models now correctly filter by their supported languages\n- **Auto-update 404 and changelog rendering**: Fix update check failures and changelog display issues\n\n### Other\n- Remove TranslateGemma q4f16 variant from manifest (shader-f16 not widely supported)\n\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fkizuna-ai-lab\u002Fsokuji\u002Fcompare\u002Fv0.15.13...v0.15.15","2026-03-21T10:06:19"]