[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-krillinai--KrillinAI":3,"tool-krillinai--KrillinAI":64},[4,17,27,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159267,2,"2026-04-17T11:29:14",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,26,14,35],"视频",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":10,"last_commit_at":42,"category_tags":43,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,60,35,61,14,62,15,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":67,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":67,"owner_website":82,"owner_url":83,"languages":84,"stars":97,"forks":98,"last_commit_at":99,"license":100,"difficulty_score":10,"env_os":101,"env_gpu":102,"env_ram":103,"env_deps":104,"category_tags":113,"github_topics":114,"view_count":10,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":120,"updated_at":121,"faqs":122,"releases":123},8531,"krillinai\u002FKrillinAI","KrillinAI","Video translation and dubbing tool powered by LLMs. The video translator offers 100 language translations and one-click full-process deployment. The video translation output is optimized for platforms like YouTube，TikTok.   AI视频翻译配音工具，100种语言双向翻译，一键部署全流程，可以生抖音，小红书，哔哩哔哩，视频号，TikTok，Youtube等形态的内容成适配","KrillinAI 是一款极简且强大的 AI 视频翻译与配音工具，旨在帮助用户轻松实现音视频内容的全球化本地化。它解决了跨语言视频制作中流程繁琐、字幕对齐困难以及配音不自然等痛点，让用户只需一键操作，即可将原始素材转化为适配 YouTube、TikTok、抖音、小红书、哔哩哔哩等主流平台的高质量多语言内容。\n\n无论是希望拓展海外市场的创作者、需要处理多语言素材的媒体从业者，还是对技术部署有顾虑的普通用户，KrillinAI 都能提供友好的使用体验。它无需复杂的环境配置，支持 Windows、macOS 和 Linux 系统，并提供桌面版与服务器版，真正实现了“开箱即用”。\n\n在技术亮点方面，KrillinAI 深度融合了大语言模型（LLM）与 Whisper 语音识别技术。不仅能高精度识别语音，还能利用 LLM 进行智能断句、上下文感知的专业翻译及术语替换，确保译文自然流畅。此外，工具集成了 CosyVoice 声音克隆功能，可保留原声特色或定制专属音色，并自动完成横竖屏视频的合成与字幕布局。从视频下载、识别、翻译到最终成片，KrillinAI 以端到端的全自动化流程，让跨国内容创作变","KrillinAI 是一款极简且强大的 AI 视频翻译与配音工具，旨在帮助用户轻松实现音视频内容的全球化本地化。它解决了跨语言视频制作中流程繁琐、字幕对齐困难以及配音不自然等痛点，让用户只需一键操作，即可将原始素材转化为适配 YouTube、TikTok、抖音、小红书、哔哩哔哩等主流平台的高质量多语言内容。\n\n无论是希望拓展海外市场的创作者、需要处理多语言素材的媒体从业者，还是对技术部署有顾虑的普通用户，KrillinAI 都能提供友好的使用体验。它无需复杂的环境配置，支持 Windows、macOS 和 Linux 系统，并提供桌面版与服务器版，真正实现了“开箱即用”。\n\n在技术亮点方面，KrillinAI 深度融合了大语言模型（LLM）与 Whisper 语音识别技术。不仅能高精度识别语音，还能利用 LLM 进行智能断句、上下文感知的专业翻译及术语替换，确保译文自然流畅。此外，工具集成了 CosyVoice 声音克隆功能，可保留原声特色或定制专属音色，并自动完成横竖屏视频的合成与字幕布局。从视频下载、识别、翻译到最终成片，KrillinAI 以端到端的全自动化流程，让跨国内容创作变得简单高效。","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_f60da17c99e9.jpg\" alt=\"KrillinAI\" height=\"90\">\n\n# Minimalist AI Video Translation and Dubbing Tool\n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F13360\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_4a68feb902da.png\" alt=\"KrillinAI%2FKrillinAI | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\n**[English](\u002FREADME.md)｜[简体中文](\u002Fdocs\u002Fzh\u002FREADME.md)｜[日本語](\u002Fdocs\u002Fjp\u002FREADME.md)｜[한국어](\u002Fdocs\u002Fkr\u002FREADME.md)｜[Tiếng Việt](\u002Fdocs\u002Fvi\u002FREADME.md)｜[Français](\u002Fdocs\u002Ffr\u002FREADME.md)｜[Deutsch](\u002Fdocs\u002Fde\u002FREADME.md)｜[Español](\u002Fdocs\u002Fes\u002FREADME.md)｜[Português](\u002Fdocs\u002Fpt\u002FREADME.md)｜[Русский](\u002Fdocs\u002Frus\u002FREADME.md)｜[اللغة العربية](\u002Fdocs\u002Far\u002FREADME.md)**\n\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-KrillinAI-orange?logo=twitter)](https:\u002F\u002Fx.com\u002FKrillinAI)\n[![QQ 群](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FQQ%20群-754069680-green?logo=tencent-qq)](https:\u002F\u002Fjq.qq.com\u002F?_wv=1027&k=754069680)\n[![Bilibili](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdynamic\u002Fjson?label=Bilibili&query=%24.data.follower&suffix=粉丝&url=https%3A%2F%2Fapi.bilibili.com%2Fx%2Frelation%2Fstat%3Fvmid%3D242124650&logo=bilibili&color=00A1D6&labelColor=FE7398&logoColor=FFFFFF)](https:\u002F\u002Fspace.bilibili.com\u002F242124650)\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Fkrillinai\u002FKrillinAI)\n\n\u003C\u002Fdiv>\n\n## Project Introduction  ([Try the online version now!](https:\u002F\u002Fwww.klic.studio\u002F))\n[**Quick Start**](#-quick-start)\n\nKrillinAI is a versatile audio and video localization and enhancement solution developed by Krillin AI. This minimalist yet powerful tool integrates video translation, dubbing, and voice cloning, supporting both landscape and portrait formats to ensure perfect presentation on all major platforms (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok, etc.). With an end-to-end workflow, you can transform raw materials into beautifully ready-to-use cross-platform content with just a few clicks.\n\n## Key Features and Functions:\n\n🎯 **One-click Start**: No complex environment configuration required, automatic dependency installation, ready to use immediately, with a new desktop version for easier access!\n\n📥 **Video Acquisition**: Supports yt-dlp downloads or local file uploads\n\n📜 **Accurate Recognition**: High-accuracy speech recognition based on Whisper\n\n🧠 **Intelligent Segmentation**: Subtitle segmentation and alignment using LLM\n\n🔄 **Terminology Replacement**: One-click replacement of professional vocabulary\n\n🌍 **Professional Translation**: LLM translation with context to maintain natural semantics\n\n🎙️ **Voice Cloning**: Offers selected voice tones from CosyVoice or custom voice cloning\n\n🎬 **Video Composition**: Automatically processes landscape and portrait videos and subtitle layout\n\n💻 **Cross-Platform**: Supports Windows, Linux, macOS, providing both desktop and server versions\n\n## Effect Demonstration\n\nThe image below shows the effect of the subtitle file generated after importing a 46-minute local video and executing it with one click, without any manual adjustments. There are no omissions or overlaps, the segmentation is natural, and the translation quality is very high.\n![Alignment Effect](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_ce1f30b76480.png)\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd width=\"33%\">\n\n### Subtitle Translation\n\n---\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fbba1ac0a-fe6b-4947-b58d-ba99306d0339\n\n\u003C\u002Ftd>\n\u003Ctd width=\"33%\">\n\n### Dubbing\n\n---\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F0b32fad3-c3ad-4b6a-abf0-0865f0dd2385\n\n\u003C\u002Ftd>\n\n\u003Ctd width=\"33%\">\n\n### Portrait Mode\n\n---\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc2c7b528-0ef8-4ba9-b8ac-f9f92f6d4e71\n\n\u003C\u002Ftd>\n\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 🔍 Supported Speech Recognition Services\n\n_**All local models in the table below support automatic installation of executable files + model files; you just need to choose, and Klic will prepare everything for you.**_\n\n| Service Source          | Supported Platforms | Model Options                             | Local\u002FCloud | Remarks                     |\n|------------------------|---------------------|------------------------------------------|-------------|-----------------------------|\n| **OpenAI Whisper**     | All Platforms        | -                                        | Cloud       | Fast speed and good effect  |\n| **FasterWhisper**      | Windows\u002FLinux       | `tiny`\u002F`medium`\u002F`large-v2` (recommended medium+) | Local       | Faster speed, no cloud service cost |\n| **WhisperKit**         | macOS (M-series only) | `large-v2`                              | Local       | Native optimization for Apple chips |\n| **WhisperCpp**         | All Platforms        | `large-v2`                              | Local       | Supports all platforms       |\n| **Alibaba Cloud ASR**  | All Platforms        | -                                        | Cloud       | Avoids network issues in mainland China |\n\n## 🚀 Large Language Model Support\n\n✅ Compatible with all cloud\u002Flocal large language model services that comply with **OpenAI API specifications**, including but not limited to:\n\n- OpenAI\n- Gemini\n- DeepSeek\n- Tongyi Qianwen\n- Locally deployed open-source models\n- Other API services compatible with OpenAI format\n\n## 🎤 TTS Text-to-Speech Support\n\n- Alibaba Cloud Voice Service\n- OpenAI TTS\n\n## Language Support\n\nInput languages supported: Chinese, English, Japanese, German, Turkish, Korean, Russian, Malay (continuously increasing)\n\nTranslation languages supported: English, Chinese, Russian, Spanish, French, and 101 other languages\n\n## Interface Preview\n\n![Interface Preview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_d5b5ab4b9981.png)\n![Interface Preview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_3214cc5c4b2a.png)\n\n## 🚀 Quick Start\n\nYou can ask questions on the [Deepwiki of KrillinAI](https:\u002F\u002Fdeepwiki.com\u002Fkrillinai\u002FKrillinAI). It indexes the files in the repository, so you can find answers quickly.\n\n### Basic Steps\n\nFirst, download the executable file that matches your device system from the [Release](https:\u002F\u002Fgithub.com\u002FKrillinAI\u002FKrillinAI\u002Freleases), then follow the tutorial below to choose between the desktop version or non-desktop version. Place the software download in an empty folder, as running it will generate some directories, and keeping it in an empty folder will make management easier.\n\n【If it is the desktop version, i.e., the release file with \"desktop,\" see here】\n_The desktop version is newly released to address the issues of new users struggling to edit configuration files correctly, and there are some bugs that are continuously being updated._\n\n1. Double-click the file to start using it (the desktop version also requires configuration within the software)\n\n【If it is the non-desktop version, i.e., the release file without \"desktop,\" see here】\n_The non-desktop version is the initial version, which has a more complex configuration but is stable in functionality and suitable for server deployment, as it provides a UI in a web format._\n\n1. Create a `config` folder within the folder, then create a `config.toml` file in the `config` folder. Copy the contents of the `config-example.toml` file from the source code's `config` directory into `config.toml`, and fill in your configuration information according to the comments.\n2. Double-click or execute the executable file in the terminal to start the service\n3. Open your browser and enter `http:\u002F\u002F127.0.0.1:8888` to start using it (replace 8888 with the port you specified in the configuration file)\n\n### To: macOS Users\n\n【If it is the desktop version, i.e., the release file with \"desktop,\" see here】\nDue to signing issues, the desktop version currently cannot be double-clicked to run or installed via dmg; you need to manually trust the application. The method is as follows:\n\n1. Open the terminal in the directory where the executable file (assuming the file name is KrillinAI_1.0.0_desktop_macOS_arm64) is located\n2. Execute the following commands in order:\n\n```\nsudo xattr -cr .\u002FKrillinAI_1.0.0_desktop_macOS_arm64\nsudo chmod +x .\u002FKrillinAI_1.0.0_desktop_macOS_arm64 \n.\u002FKrillinAI_1.0.0_desktop_macOS_arm64\n```\n\n【If it is the non-desktop version, i.e., the release file without \"desktop,\" see here】\nThis software is not signed, so when running on macOS, after completing the file configuration in the \"Basic Steps,\" you also need to manually trust the application. The method is as follows:\n\n1. Open the terminal in the directory where the executable file (assuming the file name is KrillinAI_1.0.0_macOS_arm64) is located\n2. Execute the following commands in order:\n   ```\n   sudo xattr -rd com.apple.quarantine .\u002FKrillinAI_1.0.0_macOS_arm64\n    sudo chmod +x .\u002FKrillinAI_1.0.0_macOS_arm64\n    .\u002FKrillinAI_1.0.0_macOS_arm64\n   ```\n   \n   This will start the service\n\n### Docker Deployment\n\nThis project supports Docker deployment; please refer to the [Docker Deployment Instructions](.\u002Fdocker.md)\n\nBased on the provided configuration file, here is the updated \"Configuration Help (Must Read)\" section for your README file:\n\n### Configuration Help (Must Read)\n\nThe configuration file is divided into several sections: `[app]`, `[server]`, `[llm]`, `[transcribe]`, and `[tts]`. A task is composed of speech recognition (`transcribe`) + large model translation (`llm`) + optional voice services (`tts`). Understanding this will help you better grasp the configuration file.\n\n**Easiest and Quickest Configuration:**\n\n**For Subtitle Translation Only:**\n   * In the `[transcribe]` section, set `provider.name` to `openai`.\n   * You will then only need to fill in your OpenAI API key in the `[llm]` block to start performing subtitle translations. The `app.proxy`, `model`, and `openai.base_url` can be filled in as needed.\n\n**Balanced Cost, Speed, and Quality (Using Local Speech Recognition):**\n\n* In the `[transcribe]` section, set `provider.name` to `fasterwhisper`.\n* Set `transcribe.fasterwhisper.model` to `large-v2`.\n* Fill in your large language model configuration in the `[llm]` block.\n* The required local model will be automatically downloaded and installed.\n\n**Text-to-Speech (TTS) Configuration (Optional):**\n\n* TTS configuration is optional.\n* First, set the `provider.name` under the `[tts]` section (e.g., `aliyun` or `openai`).\n* Then, fill in the corresponding configuration block for the selected provider. For example, if you choose `aliyun`, you must fill in the `[tts.aliyun]` section.\n* Voice codes in the user interface should be chosen based on the selected provider's documentation.\n* **Note:** If you plan to use the voice cloning feature, you must select `aliyun` as the TTS provider.\n\n**Alibaba Cloud Configuration:**\n\n* For details on obtaining the necessary `AccessKey`, `Bucket`, and `AppKey` for Alibaba Cloud services, please refer to the [Alibaba Cloud Configuration Instructions](https:\u002F\u002Fwww.google.com\u002Fsearch?q=.\u002Faliyun.md). The repeated fields for AccessKey, etc., are designed to maintain a clear configuration structure.\n\n## Frequently Asked Questions\n\nPlease visit [Frequently Asked Questions](.\u002Ffaq.md)\n\n## Contribution Guidelines\n\n1. Do not submit useless files, such as .vscode, .idea, etc.; please use .gitignore to filter them out.\n2. Do not submit config.toml; instead, submit config-example.toml.\n\n## Contact Us\n\n1. Join our QQ group for questions: 754069680\n2. Follow our social media accounts, [Bilibili](https:\u002F\u002Fspace.bilibili.com\u002F242124650), where we share quality content in the AI technology field every day.\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_c97c259ab293.png)](https:\u002F\u002Fstar-history.com\u002F#KrillinAI\u002FKrillinAI&Date)\n\n","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_f60da17c99e9.jpg\" alt=\"KrillinAI\" height=\"90\">\n\n# 极简AI视频翻译与配音工具\n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F13360\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_4a68feb902da.png\" alt=\"KrillinAI%2FKrillinAI | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\n**[English](\u002FREADME.md)｜[简体中文](\u002Fdocs\u002Fzh\u002FREADME.md)｜[日本語](\u002Fdocs\u002Fjp\u002FREADME.md)｜[한국어](\u002Fdocs\u002Fkr\u002FREADME.md)｜[Tiếng Việt](\u002Fdocs\u002Fvi\u002FREADME.md)｜[Français](\u002Fdocs\u002Ffr\u002FREADME.md)｜[Deutsch](\u002Fdocs\u002Fde\u002FREADME.md)｜[Español](\u002Fdocs\u002Fes\u002FREADME.md)｜[Português](\u002Fdocs\u002Fpt\u002FREADME.md)｜[Русский](\u002Fdocs\u002Frus\u002FREADME.md)｜[اللغة العربية](\u002Fdocs\u002Far\u002FREADME.md)**\n\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-KrillinAI-orange?logo=twitter)](https:\u002F\u002Fx.com\u002FKrillinAI)\n[![QQ 群](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FQQ%20群-754069680-green?logo=tencent-qq)](https:\u002F\u002Fjq.qq.com\u002F?_wv=1027&k=754069680)\n[![Bilibili](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdynamic\u002Fjson?label=Bilibili&query=%24.data.follower&suffix=粉丝&url=https%3A%2F%2Fapi.bilibili.com%2Fx%2Frelation%2Fstat%3Fvmid%3D242124650&logo=bilibili&color=00A1D6&labelColor=FE7398&logoColor=FFFFFF)](https:\u002F\u002Fspace.bilibili.com\u002F242124650)\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Fkrillinai\u002FKrillinAI)\n\n\u003C\u002Fdiv>\n\n## 项目介绍  ([立即体验在线版！](https:\u002F\u002Fwww.klic.studio\u002F))\n[**快速开始**](#-quick-start)\n\nKrillinAI是由Krillin AI开发的一款多功能音视频本地化与增强解决方案。这款极简而强大的工具集成了视频翻译、配音和语音克隆功能，支持横屏和竖屏两种格式，确保在各大主流平台上都能完美呈现（哔哩哔哩、小红书、抖音、微信视频号、快手、YouTube、TikTok等）。通过端到端的工作流，您只需点击几下，就能将原始素材转化为精美且可直接使用的跨平台内容。\n\n## 核心特性与功能：\n\n🎯 **一键启动**：无需复杂环境配置，自动安装依赖，即开即用，并推出全新桌面版，使用更便捷！\n\n📥 **视频获取**：支持yt-dlp下载或本地文件上传\n\n📜 **精准识别**：基于Whisper的高精度语音识别\n\n🧠 **智能分段**：利用LLM进行字幕分段与对齐\n\n🔄 **术语替换**：一键替换专业词汇\n\n🌍 **专业翻译**：结合上下文的LLM翻译，保持自然语义\n\n🎙️ **语音克隆**：提供CosyVoice精选音色或自定义语音克隆\n\n🎬 **视频合成**：自动处理横屏、竖屏视频及字幕布局\n\n💻 **跨平台**：支持Windows、Linux、macOS，提供桌面版和服务器版\n\n## 效果展示\n\n下图展示了导入一段46分钟的本地视频并一键执行后生成的字幕文件效果，全程无需任何手动调整。字幕无遗漏、无重叠，分段自然，翻译质量极高。\n![对齐效果](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_ce1f30b76480.png)\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd width=\"33%\">\n\n### 字幕翻译\n\n---\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fbba1ac0a-fe6b-4947-b58d-ba99306d0339\n\n\u003C\u002Ftd>\n\u003Ctd width=\"33%\">\n\n### 配音\n\n---\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F0b32fad3-c3ad-4b6a-abf0-0865f0dd2385\n\n\u003C\u002Ftd>\n\n\u003Ctd width=\"33%\">\n\n### 竖屏模式\n\n---\n\nhttps:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fc2c7b528-0ef8-4ba9-b8ac-f9f92f6d4e71\n\n\u003C\u002Ftd>\n\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 🔍 支持的语音识别服务\n\n_**下表中的所有本地模型均支持可执行文件+模型文件的自动安装；您只需选择，Klic便会为您准备好一切。**_\n\n| 服务来源          | 支持平台 | 模型选项                             | 本地\u002F云端 | 备注                     |\n|------------------------|---------------------|------------------------------------------|-------------|-----------------------------|\n| **OpenAI Whisper**     | 所有平台        | -                                        | 云端       | 速度快，效果好  |\n| **FasterWhisper**      | Windows\u002FLinux       | `tiny`\u002F`medium`\u002F`large-v2`（推荐使用medium及以上） | 本地       | 速度更快，无需支付云服务费用 |\n| **WhisperKit**         | macOS（仅M系列） | `large-v2`                              | 本地       | 苹果芯片原生优化 |\n| **WhisperCpp**         | 所有平台        | `large-v2`                              | 本地       | 支持所有平台       |\n| **阿里云ASR**  | 所有平台        | -                                        | 云端       | 可避免中国大陆地区的网络问题 |\n\n## 🚀 大语言模型支持\n\n✅ 兼容所有符合**OpenAI API规范**的云服务或本地大语言模型服务，包括但不限于：\n\n- OpenAI\n- Gemini\n- DeepSeek\n- 通义千问\n- 本地部署的开源模型\n- 其他兼容OpenAI格式的API服务\n\n## 🎤 TTS 文本转语音支持\n\n- 阿里云语音服务\n- OpenAI TTS\n\n## 语言支持\n\n输入语言支持：中文、英语、日语、德语、土耳其语、韩语、俄语、马来语（持续增加中）\n\n翻译语言支持：英语、中文、俄语、西班牙语、法语以及其他101种语言\n\n## 界面预览\n\n![界面预览](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_d5b5ab4b9981.png)\n![界面预览](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_3214cc5c4b2a.png)\n\n## 🚀 快速开始\n\n您可以在[KrillinAI的Deepwiki](https:\u002F\u002Fdeepwiki.com\u002Fkrillinai\u002FKrillinAI)上提问。该平台索引了仓库中的文件，因此您可以快速找到答案。\n\n### 基本步骤\n\n首先，请从 [Release](https:\u002F\u002Fgithub.com\u002FKrillinAI\u002FKrillinAI\u002Freleases) 下载与您设备系统匹配的可执行文件，然后按照以下教程选择桌面版或非桌面版。请将软件下载放置在一个空文件夹中，因为运行时会生成一些目录，放在空文件夹里便于管理。\n\n【如果是桌面版，即带有“desktop”字样的发布文件，请参阅此处】\n_桌面版是新推出的版本，旨在解决新用户难以正确编辑配置文件的问题，并且目前仍存在一些正在持续修复的 bug。_\n\n1. 双击该文件即可开始使用（桌面版同样需要在软件内部进行配置）\n\n【如果是非桌面版，即不带“desktop”字样的发布文件，请参阅此处】\n_非桌面版是初始版本，配置较为复杂，但功能稳定，适合服务器部署，因为它提供了基于网页的用户界面。_\n\n1. 在软件所在文件夹内创建一个 `config` 文件夹，然后在 `config` 文件夹中创建一个 `config.toml` 文件。将源代码 `config` 目录下的 `config-example.toml` 文件内容复制到 `config.toml` 中，并根据注释填写您的配置信息。\n2. 双击可执行文件，或在终端中运行该文件以启动服务。\n3. 打开浏览器并输入 `http:\u002F\u002F127.0.0.1:8888` 即可开始使用（请将 8888 替换为您在配置文件中指定的端口）。\n\n### 致 macOS 用户\n\n【如果是桌面版，即带有“desktop”字样的发布文件，请参阅此处】\n由于签名问题，桌面版目前无法通过双击运行或通过 dmg 安装；您需要手动信任该应用程序。具体方法如下：\n\n1. 打开终端，进入可执行文件所在的目录（假设文件名为 KrillinAI_1.0.0_desktop_macOS_arm64）。\n2. 按照顺序执行以下命令：\n\n```\nsudo xattr -cr .\u002FKrillinAI_1.0.0_desktop_macOS_arm64\nsudo chmod +x .\u002FKrillinAI_1.0.0_desktop_macOS_arm64 \n.\u002FKrillinAI_1.0.0_desktop_macOS_arm64\n```\n\n【如果是非桌面版，即不带“desktop”字样的发布文件，请参阅此处】\n该软件未经过签名，因此在 macOS 上运行时，在完成“基本步骤”中的文件配置后，您还需要手动信任该应用程序。具体方法如下：\n\n1. 打开终端，进入可执行文件所在的目录（假设文件名为 KrillinAI_1.0.0_macOS_arm64）。\n2. 按照顺序执行以下命令：\n   ```\n   sudo xattr -rd com.apple.quarantine .\u002FKrillinAI_1.0.0_macOS_arm64\n    sudo chmod +x .\u002FKrillinAI_1.0.0_macOS_arm64\n    .\u002FKrillinAI_1.0.0_macOS_arm64\n   ```\n   \n   这样即可启动服务。\n\n### Docker 部署\n\n本项目支持 Docker 部署，请参考 [Docker 部署说明](.\u002Fdocker.md)。\n\n基于提供的配置文件，以下是更新后的 README 文件中“配置帮助（必读）”部分：\n\n### 配置帮助（必读）\n\n配置文件分为几个部分：`[app]`、`[server]`、`[llm]`、`[transcribe]` 和 `[tts]`。一项任务由语音识别 (`transcribe`) + 大模型翻译 (`llm`) + 可选的语音服务 (`tts`) 组成。理解这一点将有助于您更好地掌握配置文件。\n\n**最简单快捷的配置：**\n\n**仅用于字幕翻译：**\n   * 在 `[transcribe]` 部分，将 `provider.name` 设置为 `openai`。\n   * 然后只需在 `[llm]` 模块中填写您的 OpenAI API 密钥，即可开始进行字幕翻译。`app.proxy`、`model` 和 `openai.base_url` 可根据需要填写。\n\n**成本、速度和质量的平衡配置（使用本地语音识别）：**\n\n* 在 `[transcribe]` 部分，将 `provider.name` 设置为 `fasterwhisper`。\n* 将 `transcribe.fasterwhisper.model` 设置为 `large-v2`。\n* 在 `[llm]` 模块中填写您的大语言模型配置。\n* 所需的本地模型将自动下载并安装。\n\n**文本转语音 (TTS) 配置（可选）：**\n\n* TTS 配置是可选的。\n* 首先，在 `[tts]` 部分设置 `provider.name`（例如 `aliyun` 或 `openai`）。\n* 然后，填写所选提供商对应的配置模块。例如，如果您选择 `aliyun`，则必须填写 `[tts.aliyun]` 部分。\n* 用户界面上的语音代码应根据所选提供商的文档进行选择。\n* **注意：** 如果您计划使用语音克隆功能，则必须选择 `aliyun` 作为 TTS 提供商。\n\n**阿里云配置：**\n\n* 关于如何获取阿里云服务所需的 `AccessKey`、`Bucket` 和 `AppKey` 的详细信息，请参阅 [阿里云配置说明](https:\u002F\u002Fwww.google.com\u002Fsearch?q=.\u002Faliyun.md)。重复的 AccessKey 等字段设计是为了保持清晰的配置结构。\n\n## 常见问题解答\n\n请访问 [常见问题解答](.\u002Ffaq.md)。\n\n## 贡献指南\n\n1. 请勿提交无用文件，如 `.vscode`、`.idea` 等；请使用 `.gitignore` 进行过滤。\n2. 请勿提交 `config.toml`，而是提交 `config-example.toml`。\n\n## 联系我们\n\n1. 如有任何问题，请加入我们的 QQ 群：754069680。\n2. 关注我们的社交媒体账号，[Bilibili](https:\u002F\u002Fspace.bilibili.com\u002F242124650)，我们每天都会分享人工智能领域的优质内容。\n\n## 星标历史\n\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_readme_c97c259ab293.png)](https:\u002F\u002Fstar-history.com\u002F#KrillinAI\u002FKrillinAI&Date)","# KrillinAI 快速上手指南\n\nKrillinAI 是一款极简的 AI 视频翻译与配音工具，支持一键完成视频下载、语音识别（Whisper）、字幕智能分段、大模型翻译及语音克隆配音。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**：Windows、Linux、macOS (Intel\u002FM-series)\n- **硬件建议**：\n  - 若使用本地语音识别模型（如 FasterWhisper），建议配备 NVIDIA GPU 以获得更佳速度；CPU 亦可运行但速度较慢。\n  - macOS M 系列芯片用户推荐使用原生优化的 WhisperKit。\n- **网络环境**：需能访问 GitHub Release 页面下载文件；若使用云端大模型或 TTS 服务，需确保网络通畅（国内用户建议使用阿里云 ASR 避免网络问题）。\n\n### 前置依赖\n- **桌面版**：无需安装任何依赖，下载即用。\n- **非桌面版\u002F源码部署**：需安装 Python 3.8+ 及 FFmpeg（用于视频处理）。\n\n## 2. 安装步骤\n\n请前往 [Releases 页面](https:\u002F\u002Fgithub.com\u002FKrillinAI\u002FKrillinAI\u002Freleases) 下载对应系统的最新版本。\n\n### 方案 A：桌面版（推荐新手）\n下载文件名包含 `desktop` 的安装包（如 `KrillinAI_x.x.x_desktop_...`）。\n1. 将下载的文件放入一个**空文件夹**中。\n2. 直接双击运行即可启动图形界面。\n\n> **macOS 用户特别注意**：\n> 由于签名问题，桌面版无法直接双击运行，需在终端执行以下命令授权：\n> ```bash\n> # 进入文件所在目录\n> cd \u002Fpath\u002Fto\u002Fyour\u002Ffolder\n> # 移除隔离属性并赋予执行权限 (假设文件名为 KrillinAI_1.0.0_desktop_macOS_arm64)\n> sudo xattr -cr .\u002FKrillinAI_1.0.0_desktop_macOS_arm64\n> sudo chmod +x .\u002FKrillinAI_1.0.0_desktop_macOS_arm64\n> # 运行\n> .\u002FKrillinAI_1.0.0_desktop_macOS_arm64\n> ```\n\n### 方案 B：非桌面版（适合服务器\u002FWeb 部署）\n下载文件名**不包含** `desktop` 的版本。\n1. 将文件放入空文件夹。\n2. 创建配置目录和文件：\n   ```bash\n   mkdir config\n   # 将源码中的 config-example.toml 复制为 config\u002Fconfig.toml 并编辑\n   ```\n3. 编辑 `config\u002Fconfig.toml`，填入 API Key 等配置（参考下文“基本使用”）。\n4. 启动服务：\n   - **Windows**: 双击可执行文件或在终端运行。\n   - **Linux\u002FmacOS**:\n     ```bash\n     # macOS 同样需要先授权\n     sudo xattr -rd com.apple.quarantine .\u002FKrillinAI_x.x.x_macOS_arm64\n     sudo chmod +x .\u002FKrillinAI_x.x.x_macOS_arm64\n     .\u002FKrillinAI_x.x.x_macOS_arm64\n     ```\n5. 浏览器访问 `http:\u002F\u002F127.0.0.1:8888`（端口可在配置文件中修改）。\n\n## 3. 基本使用\n\n### 第一步：配置文件设置 (`config.toml`)\n若使用桌面版，可在软件界面内配置；若为非桌面版，需手动编辑 `config\u002Fconfig.toml`。\n\n#### 场景一：仅做字幕翻译（成本最低）\n只需配置大模型（LLM）和云端语音识别。\n```toml\n[transcribe]\nprovider.name = \"openai\"  # 使用 OpenAI Whisper 云端识别\n\n[llm]\n# 填写你的兼容 OpenAI 格式的 API 信息 (如 DeepSeek, Tongyi Qianwen 等)\nbase_url = \"https:\u002F\u002Fapi.deepseek.com\u002Fv1\"\napi_key = \"sk-your-api-key\"\nmodel = \"deepseek-chat\"\n```\n\n#### 场景二：本地识别 + 高质量翻译（平衡速度与成本）\n使用本地 FasterWhisper 进行识别，免费且速度快。\n```toml\n[transcribe]\nprovider.name = \"fasterwhisper\" # 本地运行\n[transcribe.fasterwhisper]\nmodel = \"large-v2\"              # 首次运行会自动下载模型\n\n[llm]\n# 填写大模型配置\nbase_url = \"...\"\napi_key = \"...\"\nmodel = \"...\"\n```\n\n#### 场景三：开启配音 (TTS)\n如需生成配音音频，需配置 TTS 模块。**注意：语音克隆功能目前仅支持阿里云 (`aliyun`)。**\n```toml\n[tts]\nprovider.name = \"aliyun\" # 或 openai\n\n[tts.aliyun]\n# 填写阿里云 AccessKey, Bucket, AppKey 等信息\naccess_key_id = \"...\"\naccess_key_secret = \"...\"\napp_key = \"...\"\n```\n\n### 第二步：开始任务\n1. **输入源**：在界面中输入 YouTube\u002FBilibili 视频链接（自动调用 yt-dlp 下载），或直接上传本地视频文件。\n2. **选择流程**：勾选需要的步骤（识别 -> 翻译 -> 配音）。\n3. **术语替换**：如有专业词汇，可在“术语替换”栏输入对照表（例如：`Transformer: 变压器`）。\n4. **执行**：点击开始，等待处理完成。\n5. **输出**：完成后即可下载带双语字幕的视频文件或独立的字幕\u002F音频文件。\n\n### 提示\n- **国内加速**：语音识别若遇网络问题，建议在 `[transcribe]` 中选择 `Alibaba Cloud ASR`。\n- **模型管理**：本地模型（FasterWhisper\u002FWhisperCpp）首次运行时会自动下载至程序目录，后续无需重复下载。\n- **格式支持**：自动适配横屏与竖屏视频，生成的字幕时间轴已自动对齐，无重叠或缺失。","一位专注于科技评测的自媒体博主，需要将长达 40 分钟的英文深度访谈视频快速转化为中文内容，以同步发布在 B 站和抖音上。\n\n### 没有 KrillinAI 时\n- **流程割裂且耗时**：需要分别使用不同软件进行语音转写、人工翻译字幕、寻找配音员录制，最后再导入剪辑软件对齐音画，整个流程耗时数天。\n- **专业术语翻译生硬**：通用翻译工具无法识别特定的芯片型号或算法名称，导致字幕中出现大量错误译名，需人工逐句校对修正。\n- **口型与节奏不匹配**：传统配音难以还原原说话人的语气和情感，且中文字幕时间轴往往与语速不符，出现字幕重叠或遗漏，观看体验极差。\n- **多平台适配困难**：为适应抖音（竖屏）和 B 站（横屏）的不同比例，需要手动重新调整字幕位置和画面构图，重复劳动量大。\n\n### 使用 KrillinAI 后\n- **一键全流程自动化**：只需上传原始视频文件，KrillinAI 自动完成从语音识别、LLM 智能翻译到 CosyVoice 配音合成的全过程，数小时内即可交付成品。\n- **语境化精准翻译**：基于大模型的上下文理解能力，KrillinAI 能准确处理科技专有词汇，并通过术语替换功能确保专业度，译文自然流畅无需大幅修改。\n- **高保真语音克隆**：利用语音克隆技术，KrillinAI 生成的中文配音不仅音色接近原讲者，还能通过智能分段完美对齐口型和停顿，消除机械感。\n- **智能多端布局**：针对横竖屏需求，KrillinAI 自动调整视频构图与字幕排版，一次性生成适配 YouTube、TikTok 及国内各大平台的多种格式版本。\n\nKrillinAI 将原本繁琐的跨国视频本地化工程缩减为“一键式”操作，让创作者能以最低成本实现全球内容的即时分发。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fkrillinai_KrillinAI_ce1f30b7.png","krillinai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fkrillinai_42d63d01.png","AI-Powered Content Creation Service, Audio and video localization and dubbing into 101 languages for users worldwide","Krillin AI","Wuhan, China",null,"https:\u002F\u002Fwww.klic.studio\u002F","https:\u002F\u002Fgithub.com\u002Fkrillinai",[85,89,93],{"name":86,"color":87,"percentage":88},"Go","#00ADD8",81.1,{"name":90,"color":91,"percentage":92},"HTML","#e34c26",18.6,{"name":94,"color":95,"percentage":96},"Dockerfile","#384d54",0.3,9859,878,"2026-04-17T05:15:31","GPL-3.0","Windows, Linux, macOS","未说明（支持纯本地模型如 FasterWhisper\u002FWhisperCpp，也支持云端 API；macOS M 系列芯片有原生优化）","未说明",{"notes":105,"python":106,"dependencies":107},"1. 提供桌面版（双击运行）和非桌面版（Web UI）两种模式，推荐新手使用桌面版。2. macOS 用户需手动执行命令移除隔离属性并添加执行权限才能运行。3. 本地语音识别模型（如 FasterWhisper large-v2）会在首次运行时自动下载。4. 语音克隆功能必须选择阿里云作为 TTS 服务商。5. 支持 Docker 部署。","未说明（提供预编译可执行文件，无需手动配置 Python 环境）",[108,109,110,111,112],"yt-dlp","Whisper (OpenAI\u002FFasterWhisper\u002FWhisperKit\u002FWhisperCpp)","LLM (兼容 OpenAI API 格式)","CosyVoice (可选)","Alibaba Cloud SDK (可选)",[35,15,63],[115,116,117,118,119],"video-transcription","video-translation","dubbing","localization","tts","2026-03-27T02:49:30.150509","2026-04-18T00:45:31.577900",[],[124,129,134,139,144,149,154,159,164,169,174,179,184,189,194,199,204,209,214,219],{"id":125,"version":126,"summary_zh":127,"released_at":128},306353,"v1.4.0","## 优化（Optimization）\n* 更好的时间戳匹配算法  \n  * 更优的时间戳匹配算法\n* 更新部分界面文本和布局，修改导航项及按钮标签  \n  * 更新部分界面文本和布局，调整导航项及按钮标签\n\n## 修复 (Fix)\n* 修复原本在 Windows 下 edge-tts 的下载错误  \n  * 修复 Windows 系统下 edge-tts 的下载错误\n\n\n**完整更新日志**: https:\u002F\u002Fgithub.com\u002Fkrillinai\u002FKlicStudio\u002Fcompare\u002Fv1.3.1...v1.4.0","2025-08-12T07:23:24",{"id":130,"version":131,"summary_zh":132,"released_at":133},306354,"v1.3.1","## 新增功能（New Features）\n* 配音新增EdgeTTS支持\n* 添加了EdgeTTS对配音的支持。\n* 桌面版添加了黑夜模式，server修改ui和桌面版保持一致，server版也添加了配置页\n* 桌面版本现在包含暗黑模式。服务器端的用户界面已更新，与桌面版本保持一致。服务器版本现在也增加了配置页面。\n* 添加FasterWhisper 的GPU加速选项（50系必须开启此选项才能正常使用FasterWhisper ）\n* 为FasterWhisper 添加了GPU加速选项（50系列显卡必须启用此选项才能正常使用FasterWhisper）。\n\n## 优化（Optimization）\n* 优化翻译上下文，翻译更准确\n* 优化了翻译上下文，使翻译更加准确。","2025-07-27T02:03:24",{"id":135,"version":136,"summary_zh":137,"released_at":138},306355,"v1.3.0","## 新增功能（New Features）\n* 全新切分&翻译逻辑，任务失败率以及对LLM能力要求都大幅降低\n* 完全重构的切分与翻译逻辑，显著降低任务失败率，并减少对大语言模型能力的要求\n* 对亚洲语言翻译结果中的符号进行处理，观看更美观\n* 改进了亚洲语言翻译结果中符号的处理方式，使显示效果更加美观\n* 二次切分过长字幕，实现影视级单行字幕\n* 针对过长字幕进行二次切分，生成电影级别的单行字幕\n\n## 修复（Fixes）\n* 部分情况下Windows文件路径导致任务失败\n* 修复了在某些场景下由Windows文件路径引起的任务失败问题\n\n此版本配置文件有变化（新增`app.max_sentence_length`），请对照最新的`config\u002Fconfig-example.toml`.\n本版本配置文件有所更新（新增`app.max_sentence_length`），请参照最新的`config\u002Fconfig-example.toml`。","2025-07-06T14:14:52",{"id":140,"version":141,"summary_zh":142,"released_at":143},306356,"v1.2.2","## 新增功能（New Features）\n* 为大模型新增JSON开关，若模型支持JSON格式，开启后可提高输出内容的准确度。\nAdded JSON toggle for LLM. If the model supports JSON format, enabling this can improve output accuracy.\n\n## 修复（Fixes）\n* 字幕过长的问题（二次分割）\n* Fixed issue with overly long subtitles (secondary segmentation)\n* 使用本地视频时合成视频失败\n* Fixed failure in video synthesis when using local videos\n* 某些特殊的文件名导致ffmpeg报错\n* Fixed FFmpeg errors caused by certain special filenames\n\n## 优化（Optimization）\n* 优化分段处理音频分割逻辑\n* Improved audio segmentation logic in chunk processing\n* 时间戳生成算法\n* Enhanced timestamp generation algorithm\n* 生成更多任务中间结构的本地文件便于排查问题\n* Generated more intermediate task structure files locally for easier issue troubleshooting\n\n此版本配置文件有变化（LLM配置增加json项），可见桌面版配置页面或`config-example.toml`。\nNote: This version includes configuration changes (added JSON option in LLM config). Refer to the desktop version configuration page or config-example.toml. \n\n原项目名`KrillinAI`更改为`KlicStudio`，方便记忆与传播，谢谢支持~\nThe original project name KrillinAI has been changed to KlicStudio for better memorability and dissemination. Thank you for your support~","2025-06-19T01:54:33",{"id":145,"version":146,"summary_zh":147,"released_at":148},306357,"v1.2.1-hotfix-2","## 热修复\n* 修复新版task id在输入源为youtube链接时出错的问题\n* 解决了当输入源为YouTube链接时，新版本task ID会出错的问题\n* 修复新版阿里云语音识别句子处理错误的问题\n* 修复了阿里云语音识别新版本中句子处理错误的问题\n\n`v1.2.1`版本用户请直接切换到此版本，`v1.2.1`版本的具体更新内容请见上一个release。\nv1.2.1版本的用户可以直接切换到本版本。v1.2.1版本的具体更新内容，请参阅上一个发布记录。","2025-05-27T15:03:10",{"id":150,"version":151,"summary_zh":152,"released_at":153},306358,"v1.2.1","## 新增（New Features）\n* 语音合成支持OpenAI TTS\n* 添加了OpenAI TTS对语音合成的支持\n* 桌面端任务失败后，增加失败信息提示并停止状态查询\n* 桌面应用现在会在任务失败时显示失败信息，并停止状态轮询\n* 桌面端配置页移除保存按钮，切换tab和关闭软件时会自动保存\n* 移除了桌面应用设置中的“保存”按钮；现在切换标签页或关闭应用时会自动保存更改\n* 桌面端配置变化后，在启动任务前会自动重启服务端确保配置都生效\n* 桌面应用现在会在执行任务前自动重启后台服务，以确保配置更改生效\n* 勾选合成视频后，生成的语音现在会合入最终的视频\n* 当启用“合成视频”功能时，生成的语音轨道现在会合并到最终视频中\n\n## 优化（Optimization）\n* 重新组织配置文件结构，更便于理解\n* 重新整理了配置文件结构，使其更易于阅读\n* 任务id及任务文件夹名现在会基于上传的文件生成，增加可识别性\n* 任务ID和文件夹名称现在根据上传的文件生成，以便更好地识别\n* 重写阿里云语音合成，提高任务稳定性\n* 重写了阿里云语音合成模块，以提高任务的稳定性\n* 优化纯音乐音频片段的处理\n* 改进了纯音乐音频片段的处理方式\n* 调整默认的并发配置值\n* 调整了默认的并发配置值\n* 优化配置项文案\n* 改进了配置项的描述文字\n\n## 修复（Fixes）\n* 音频克隆源文件上传失败\n* 修复了音频克隆源文件上传失败的问题\n* 桌面端代理配置不生效\n* 修复了桌面应用代理配置未生效的问题\n* 没有开启双语字幕时配音失败\n* 修复了在未启用双语字幕时配音失败的问题\n\n此版本配置文件结构有较大调整，请参照最新的`config-example.toml`，更新前最好备份一下原来的配置文件。\n注意：本版本对配置文件结构进行了重大调整。请参考最新的`config-example.toml`文件。建议在更新前备份原有配置文件。\n\n","2025-05-26T12:31:40",{"id":155,"version":156,"summary_zh":157,"released_at":158},306359,"v1.1.5","### 新增功能（New Features）\n* Web端和桌面版支持选择多个本地文件，依次处理\n* 多文件支持：Web端和桌面版现支持选择多个本地文件进行顺序处理。\n* 支持分别配置转录和翻译的并发数，提高任务处理效率\n* 并发配置：支持为转录和翻译分别设置并发数，以提升任务处理效率。\n* 支持配置转录和翻译的最大重试次数\n* 重试配置：支持配置转录和翻译的最大重试次数。\n\n### 修复（Fixes）\n* 某些情况下勾选合成字幕嵌入视频后，出现ytdlp相关报错\n* 字幕嵌入问题：修复了在某些情况下勾选将合成字幕嵌入视频时出现的ytdlp相关错误。\n\n此版本配置文件有变化，web版请参考最新的`config-example.toml`，桌面版请关注配置页面转录和翻译相关配置项（有默认值）。\n本版本配置文件已更新。Web端请参考最新的`config-example.toml`文件。桌面端请留意配置页面中与转录和翻译相关的设置项（已提供默认值）。","2025-05-06T15:18:52",{"id":160,"version":161,"summary_zh":162,"released_at":163},306360,"v1.1.4","### 修复（Fixes）\n* 字幕嵌入横竖屏选项在桌面端不生效\n* 字幕方向（横屏\u002F竖屏）选项在桌面端无效\n* 配音连接阿里云服务超时\n* 配音服务与阿里云连接超时\n* 某些情况下输出的文本文件是空\n* 在某些情况下，输出的文本文件为空\n\n### 其它（Others）\n* 日志打印移除配置内容，防止密钥不小心泄露\n* 从日志中移除了配置信息，以防止密钥意外泄露\n* 大模型输出内容和原文不匹配的时候不再中断流程，改为输出warn日志\n* 当大模型输出内容与原文不一致时，不再中断流程，而是输出警告日志","2025-04-23T14:59:41",{"id":165,"version":166,"summary_zh":167,"released_at":168},306361,"v1.1.3","### 新增\n* 文本转录本地模型支持 whispercpp（当前只支持 Windows 系统，后续再补充）\n* 源语言支持马来语\n* 目标语言扩充至 101 种\n\n### 修复\n* 桌面端黑暗主题下无法看到语言选择项\n\n### 其它\n* 桌面端源语言默认选项调整为英文\n* 更新了视频下载器的安装源，之前版本过旧了（如果视频下载失败，可以尝试将 bin 目录下的 ytdlp 文件删除，然后重启软件以安装新版）\n* 修复了 Docker 部署问题\n\n","2025-04-19T14:35:03",{"id":170,"version":171,"summary_zh":172,"released_at":173},306362,"v1.1.2","* 修复 桌面端遗漏server配置项\n* 修复了桌面版中缺失的服务器配置项问题。\n* 修复 桌面端下载语音文件失败\n* 修复了桌面版无法下载音频文件的问题。\n* 修复 桌面端切换左侧tab时任务进度丢失\n* 修复了桌面版在切换左侧标签页时任务进度丢失的问题。\n* 修复 桌面端可能出现api路径错误的问题\n* 修复了桌面版可能出现的API路径错误问题。","2025-04-13T16:30:41",{"id":175,"version":176,"summary_zh":177,"released_at":178},306363,"v1.1.1","* Added English language support for desktop version\r\n* 新增 桌面端英文\r\n* Fixed intermittent subtitle file write failures\r\n* 修复 字幕文件几率写入失败\r\n","2025-04-11T14:30:16",{"id":180,"version":181,"summary_zh":182,"released_at":183},306364,"v1.1.0","* 新增 桌面端[下方文件名含desktop的版本，测试中，欢迎反馈问题，mac版的桌面版无法直接双击打开，要稍微用一下命令，详见文档]\r\n* 优化 错误处理\r\n* 优化 增加字幕结果检测机制，如果模型遗漏内容较多会重新执行\r\n* 优化 任务存储机制\r\n* 优化 字幕时间戳对齐算法","2025-03-30T14:44:10",{"id":185,"version":186,"summary_zh":187,"released_at":188},306365,"v1.0.0","## Changelog\r\n* 新增 在`openai`配置下补充了whisper的单独配置，可实现分别自定义llm与whisper服务地址\r\n* 新增 支持M芯片MacOS使用本地whisper（基于whisperkit）\r\n* 新增 俄语作为输入语言\r\n* 修复 fasterwhisper某些情况下报错的问题（为fasterwhisper官方[bug](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper\u002Fissues\u002F71)，采用绕过逻辑处理）\r\n* 优化 流式接收大模型消息\r\n\r\n此版本配置文件有变化，请参考最新的`config-example.toml`。\r\n\r\n","2025-03-06T15:11:37",{"id":190,"version":191,"summary_zh":192,"released_at":193},306366,"v1.0.0-beta.7","* 新增 链接作为源的任务也支持合成字幕到视频\r\n* 新增 韩语输入语言\r\n* 修复 合成竖屏视频中文字幕错乱\r\n* 修复 空音频分段导致任务出错\r\n* 修复 使用单语字幕时任务启动失败\r\n* 修复 字母语言位于字幕上方时格式出错\r\n* 优化 字幕时间戳对齐算法\r\n* 优化 翻译效果\r\n* 优化 合成字幕亚洲地区语言字幕溢出屏幕\r\n* 优化 任务错误信息提示\r\n* 优化 UI界面样式优化、增加动效\r\n* 优化 音视频下载使用网络代理\r\n* 其它 支持docker部署、ci\r\n\r\n修复若干重要问题，建议所有用户更新。此版本配合deepseek v3模型食用更佳。","2025-01-22T12:05:54",{"id":195,"version":196,"summary_zh":197,"released_at":198},306367,"v1.0.0-beta.6","* 新增 支持输出嵌入字幕的视频（横屏\u002F竖屏）\r\n* 新增 支持自定义OpenAI模型名，配合base url可以使用任何兼容OpenAI请求格式的大模型，具体效果请自行测试\r\n* 新增 任务完成后会输出源语言和目标语言的文字稿\r\n* 修复 配音可能出现的中英文混杂的问题\r\n\r\n此版本配置文件有变化，请参考最新的`config-example.toml`。","2025-01-14T14:07:01",{"id":200,"version":201,"summary_zh":202,"released_at":203},306368,"v1.0.0-beta.5","* 新增 支持德语和土耳其语作为输入语言\r\n* 修复 连字符导致的字幕时间轴错误\r\n* 修复 源语言为日语时转录出错\r\n* 修复 使用阿里云转录和生成语音时有概率失败\r\n* 优化 字幕时间戳对齐算法\r\n* 优化 并发任务执行时的中断逻辑，节省token消耗\r\n","2025-01-08T11:05:20",{"id":205,"version":206,"summary_zh":207,"released_at":208},306369,"v1.0.0-beta.4","* 新增 基于Faster Whisper的本地语音识别模型支持 （支持Windows与Linux，**macOS暂不支持**）\r\n* 新增 下载依赖时的进度与速度显示\r\n* 新增 OpenAI接口支持自定义`base url`\r\n* 优化 任务失败时的前端界面错误提示\r\n* 优化 日志显示\r\n\r\n此版本配置文件有变化，请参考最新的`config-example.toml`。","2025-01-03T15:02:23",{"id":210,"version":211,"summary_zh":212,"released_at":213},306370,"v1.0.0-beta.3","* 新增 上传本地音频样本进行音色克隆，作为配音音色，或选择默认的男声\u002F女声\r\n* 新增 支持上传本地视频处理\r\n* 新增 Intel macOS版本 \r\n* 修复 配音完成后的音频文件无法下载\r\n* 修复 不配置代理时使用报错 （#16）\r\n* 修复 依赖重复下载\r\n* 优化 依赖下载源切换到中国大陆\r\n\r\n此版本配置文件有变化，请参考最新的`config-example.toml`。","2024-12-30T14:06:14",{"id":215,"version":216,"summary_zh":217,"released_at":218},306371,"v1.0.0-beta.2","* 新增 更多源语言和目标语言支持\r\n* 新增 双语\u002F单语字幕选择和字幕上下位置选择\r\n* 新增 语气词过滤\r\n* 新增 自定义替换词\r\n* 新增 阿里云语音识别与大模型翻译支持\r\n\r\n此版本配置文件有变化，请参考最新的`config-example.toml`。","2024-12-26T12:48:43",{"id":220,"version":221,"summary_zh":222,"released_at":223},306372,"v1.0.0-beta","* 新增 Linux系统支持\r\n* 新增 本地日志文件`app.log`，便于排查问题\r\n* 修复 翻译后字幕结果下载错误\r\n* 优化 减少依赖文件，软件瘦身","2024-12-24T07:50:26"]