[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-R3gm--SoniTranslate":3,"tool-R3gm--SoniTranslate":65},[4,17,27,36,44,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,26,14,35],"视频",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":10,"last_commit_at":42,"category_tags":43,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,52,35,53,14,54,15,13,55],"数据工具","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,52,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":94,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":110,"github_topics":111,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":127,"updated_at":128,"faqs":129,"releases":158},6365,"R3gm\u002FSoniTranslate","SoniTranslate","Synchronized Translation for Videos. Video dubbing","SoniTranslate 是一款功能强大的开源视频翻译与配音工具，旨在为用户提供同步音频的视频本地化解决方案。它能够有效解决跨语言视频内容创作中的痛点：传统翻译往往导致口型与声音不同步，或需要昂贵的人工配音服务。SoniTranslate 通过自动化流程，将视频中的原始语音提取、翻译并重新合成，生成目标语言的自然配音，同时努力保持声音特质与画面节奏的协调。\n\n这款工具特别适合内容创作者、教育工作者、自媒体运营者以及需要处理多语言视频素材的研究人员使用。即便没有深厚的编程背景，普通用户也能通过其基于 Gradio 构建的友好网页界面轻松上手；开发者则可以利用提供的 Colab 笔记本和代码仓库进行深度定制或集成到自己的工作流中。\n\nSoniTranslate 的技术亮点在于其广泛的语言支持能力，涵盖英语、中文、日语、西班牙语等超过 60 种语言，并能灵活适配多种开源语音识别与合成模型。它不仅支持在线演示体验，还允许用户在本地或云端环境中免费部署，让高质量的视频“同声传译”变得触手可及，极大地降低了全球内容传播的门槛。","# Recall.ai - API for meeting transcription\n\nIf you’re looking for a meeting transcription API, consider checking out [Recall.ai](https:\u002F\u002Fwww.recall.ai\u002Fproduct\u002Fmeeting-transcription-api?utm_source=github&utm_medium=sponsorship&utm_campaign=r3gm-sonitranslate), an API that records Zoom, Google Meet, Microsoft Teams, in-person meetings, and more.\n\n\u003Ch1 align=\"center\">🎥 SoniTranslate 🈷️\u003C\u002Fh1>\n\n## 🎬 Video Translation with Synchronized Audio 🌐\n\nSonyTranslate is a powerful and user-friendly web application that allows you to easily translate videos into different languages. This repository hosts the code for the SonyTranslate web UI, which is built with the Gradio library to provide a seamless and interactive user experience.\n\n\n| Description | Link |\n| ----------- | ---- |\n| 📙 Colab Notebook | [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FR3gm\u002FSoniTranslate\u002Fblob\u002Fmain\u002FSoniTranslate_Colab.ipynb) |\n| 🎉 Repository | [![GitHub Repository](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Repository-black?style=flat-square&logo=github)](https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002F) |\n| 🚀 Online DEMO | [![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fr3gm\u002Fvideo_dubbing_sonitr_demo) |\n\n## SonyTranslate's web UI, which features a browser interface built on the Gradio library.\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FR3gm_SoniTranslate_readme_596101aab344.png)\n\n## Using the project: A video guide\n\nFor a comprehensive understanding of the project, we highly recommend watching this video tutorial by [DEV-MalletteS](https:\u002F\u002Fgithub.com\u002FDEV-MalletteS). You can watch it on YouTube by clicking the thumbnail below:\n\n[![Watch the video](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FR3gm_SoniTranslate_readme_0488177d2271.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=SmGkFaSzq_Q)\n\n\n## Supported languages for translation \n\n| Language Code | Language   |\n|---------------|------------|\n| en            | English    |\n| fr            | French     |\n| de            | German     |\n| es            | Spanish    |\n| it            | Italian    |\n| ja            | Japanese   |\n| nl            | Dutch      |\n| uk            | Ukrainian  |\n| pt            | Portuguese |\n| ar            | Arabic     |\n| zh            | Chinese - Simplified      |\n| zh-TW         | Chinese - Traditional     |\n| cs            | Czech      |\n| da            | Danish     |\n| fi            | Finnish    |\n| el            | Greek      |\n| he            | Hebrew     |\n| hu            | Hungarian  |\n| ko            | Korean     |\n| fa            | Persian    |\n| pl            | Polish     |\n| ru            | Russian    |\n| tr            | Turkish    |\n| ur            | Urdu       |\n| hi            | Hindi      |\n| vi            | Vietnamese |\n| id            | Indonesian |\n| bn            | Bengali    |\n| te            | Telugu     |\n| mr            | Marathi    |\n| ta            | Tamil      |\n| jw (or jv)    | Javanese   |\n| ca            | Catalan    |\n| ne            | Nepali     |\n| th            | Thai       |\n| sv            | Swedish    |\n| am            | Amharic    |\n| cy            | Welsh      |\n| hr            | Croatian   |\n| is            | Icelandic  |\n| ka            | Georgian   |\n| km            | Khmer      |\n| sk            | Slovak     |\n| sq            | Albanian   |\n| sr            | Serbian    |\n| az            | Azerbaijani|\n| bg            | Bulgarian  |\n| gl            | Galician   |\n| gu            | Gujarati   |\n| kk            | Kazakh     |\n| kn            | Kannada    |\n| lt            | Lithuanian |\n| lv            | Latvian    |\n| ml            | Malayalam  |\n| ro            | Romanian   |\n| si            | Sinhala    |\n| su            | Sundanese  |\n| et            | Estonian                  |\n| mk            | Macedonian                |\n| sw            | Swahili                   |\n| af            | Afrikaans                 |\n| bs            | Bosnian                   |\n| la            | Latin                     |\n| my            | Myanmar Burmese           |\n| no            | Norwegian                 |\n| as            | Assamese                  |\n| eu            | Basque                    |\n| ha            | Hausa                     |\n| ht            | Haitian Creole            |\n| hy            | Armenian                  |\n| lo            | Lao                       |\n| mg            | Malagasy                  |\n| mn            | Mongolian                 |\n| mt            | Maltese                   |\n| pa            | Punjabi                   |\n| ps            | Pashto                    |\n| sl            | Slovenian                 |\n| sn            | Shona                     |\n| so            | Somali                    |\n| tg            | Tajik                     |\n| tk            | Turkmen                   |\n| tt            | Tatar                     |\n| uz            | Uzbek                     |\n| yo            | Yoruba                    |\n\n### Non-transcription\n\n| Language Code | Language   |\n|---------------|------------|\n| ay | Aymara |\n| bm | Bambara |\n| ceb | Cebuano |\n| ny | Chichewa |\n| dv | Divehi |\n| doi | Dogri |\n| ee | Ewe |\n| gn | Guarani |\n| ilo | Iloko |\n| rw | Kinyarwanda|\n| kri | Krio |\n| ku | Kurdish |\n| ky | Kirghiz |\n| lg | Ganda |\n| mai | Maithili |\n| or | Oriya |\n| om | Oromo |\n| qu | Quechua |\n| sm | Samoan |\n| ti | Tigrinya |\n| ts | Tsonga |\n| ak | Akan |\n| ug | Uighur |\n\n## Example:\n\n### Original audio\n\nhttps:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fassets\u002F114810545\u002Fdb9e78c0-b228-4e81-9704-e62d5cc407a3\n\n\n\n### Translated audio\n\nhttps:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fassets\u002F114810545\u002F6a8ddc65-a46f-4653-9726-6df2615f0ef9\n\n\n## Colab Runtime\n\nTo run SoniTranslate using Colab Runtime: [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FR3gm\u002FSoniTranslate\u002Fblob\u002Fmain\u002FSoniTranslate_Colab.ipynb)\n\n## Install Locally (Installation tested in Linux)\n\n### Before You Start\n\nBefore you start installing and using SoniTranslate, there are a few things you need to do:\n\n1. Install the NVIDIA drivers for CUDA 11.8.0, NVIDIA CUDA is a parallel computing platform and programming model that enables developers to use the power of NVIDIA graphics processing units (GPUs) to speed up compute-intensive tasks. You can find the drivers [here](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit-archive). Follow the instructions on the website to download and install the drivers.\n2. Accept the license agreement for using Pyannote. You need to have an account on Hugging Face and `accept the license to use the models`: https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fspeaker-diarization and https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fsegmentation\n3. Create a [huggingface token](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens). Hugging Face is a natural language processing platform that provides access to state-of-the-art models and tools. You will need to create a token in order to use some of the automatic model download features in SoniTranslate. Follow the instructions on the Hugging Face website to create a token. When you are creating the new Access Token in Hugging Face, make sure to tick \"Read access to contents of all public gated repos you can access\".\n4. Install [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002F) or [Miniconda](https:\u002F\u002Fdocs.anaconda.com\u002Ffree\u002Fminiconda\u002Fminiconda-install\u002F). Anaconda is a free and open-source distribution of Python and R. It includes a package manager called conda that makes it easy to install and manage Python environments and packages. Follow the instructions on the Anaconda website to download and install Anaconda on your system.\n5. Install Git for your system. Git is a version control system that helps you track changes to your code and collaborate with other developers. You can install Git with Anaconda by running `conda install -c anaconda git -y` in your terminal (Do this after step 1 in the following section.). If you have trouble installing Git via Anaconda, you can use the following link instead:\n   - [Git for Linux](https:\u002F\u002Fgit-scm.com\u002Fdownload\u002Flinux)\n\nOnce you have completed these steps, you will be ready to install SoniTranslate.\n\n### Getting Started\n\nTo install SoniTranslate, follow these steps:\n\n1. Create a suitable anaconda environment for SoniTranslate and activate it:\n\n```\nconda create -n sonitr python=3.10 -y\nconda activate sonitr\npython -m pip install pip==23.1.2 Setuptools==80.6.0\nconda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia\n```\n\n2. Clone this github repository and navigate to it:\n```\ngit clone https:\u002F\u002Fgithub.com\u002Fr3gm\u002FSoniTranslate.git\ncd SoniTranslate\n```\n\n3. Install required packages:\n\n```\npip install -r requirements_base.txt -v\npip install -r requirements_extra.txt -v\npip install onnxruntime-gpu\n```\n\n4. Install [ffmpeg](https:\u002F\u002Fffmpeg.org\u002Fdownload.html). FFmpeg is a free software project that produces libraries and programs for handling multimedia data. You will need it to process audio and video files. You can install ffmpeg with Anaconda by running `conda install -y ffmpeg` in your terminal (recommended). If you have trouble installing ffmpeg via Anaconda, you can use the following link instead: (https:\u002F\u002Fffmpeg.org\u002Fffmpeg.html). Once it is installed, make sure it is in your PATH by running `ffmpeg -h` in your terminal. If you don't get an error message, you're good to go.\n\n5. Optional install:\n\nAfter installing FFmpeg, you can install these optional packages.\n\n\n[Piper TTS](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper) is a fast, local neural text to speech system that sounds great and is optimized for the Raspberry Pi 4. Piper is used in a variety of projects. Voices are trained with VITS and exported to the onnxruntime.\n\n```\npip install -q piper-tts==1.2.0\n```\n\n[Coqui XTTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS) is a text-to-speech (TTS) model that lets you generate realistic voices in different languages. It can clone voices with just a short audio clip, even speak in a different language! It's like having a personal voice mimic for any text you need spoken.\n\n```\npip install -q -r requirements_xtts.txt\npip install -q TTS==0.21.1  --no-deps\n```\n\n\n### Running SoniTranslate\n\nTo run SoniTranslate locally, make sure the `sonitr` conda environment is active:\n\n```\nconda activate sonitr\n```\n\nSetting your Hugging Face token as an environment variable in Linux:\n\n```\nexport YOUR_HF_TOKEN=\"YOUR_HUGGING_FACE_TOKEN\"\n```\n\nThen navigate to the `SoniTranslate` folder and run either the `app_rvc.py`\n\n```\npython app_rvc.py\n```\nWhen the `local URL` `http:\u002F\u002F127.0.0.1:7860` is displayed in the terminal, simply open this URL in your web browser to access the SoniTranslate interface.\n\n### Stop and close SoniTranslate.\n\nIn most environments, you can stop the execution by pressing Ctrl+C in the terminal where you launched the script `app_rvc.py`. This will interrupt the program and stop the Gradio app.\nTo deactivate the Conda environment, you can use the following command:\n\n```\nconda deactivate\n```\n\nThis will deactivate the currently active Conda environment sonitr, and you'll return to the base environment or the global Python environment.\n\n### Starting Over\n\nIf you need to start over from scratch, you can delete the `SoniTranslate` folder and remove the `sonitr` conda environment with the following set of commands:\n\n```\nconda deactivate\nconda env remove -n sonitr\n```\n\nWith the `sonitr` environment removed, you can start over with a fresh installation.\n\n### Notes\n\n- Alternatively, you can set your Hugging Face token as a permanent environment variable with:\n\n```\nconda activate sonitr\nconda env config vars set YOUR_HF_TOKEN=\"YOUR_HUGGING_FACE_TOKEN_HERE\"\nconda deactivate\n```\n\n-  To use OpenAI's GPT API for translation, tts or transcription, set up your OpenAI API key as an environment variable in quotes:\n\n```\nconda activate sonitr\nconda env config vars set OPENAI_API_KEY=\"your-api-key-here\"\nconda deactivate\n```\n\n## Command line arguments\n\nThe app_rvc.py script supports command-line arguments to customize its behavior. Here's a brief guide on how to use them:\n\n| Argument command | Default | Value | Description |\n|------------------|---------|-------|-------------|\n| --theme          | Taithrah\u002FMinimal | String | Sets the theme for the interface. Themes can be found in the [Theme Gallery](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fgradio\u002Ftheme-gallery). |\n| --language       | english | String | Selects the interface language. Available options: afrikaans, arabic, azerbaijani, chinese_zh_cn, english, french, german, hindi, indonesian, italian, japanese, korean, marathi, persian, polish, portuguese, russian, spanish, swedish, turkish, ukrainian, vietnamese. |\n| --verbosity_level| info    | String | Sets the verbosity level of the logger: debug, info, warning, error, or critical. |\n| --public_url     |    | Boolean | Enables a public link. |\n| --cpu_mode     |    | Boolean | Enable CPU mode to run the program without utilizing GPU acceleration. |\n| --logs_in_gui    |    | Boolean | Shows the operations performed in Logs (obsolete). |\n\nExample usage:\n```\npython app_rvc.py --theme aliabid94\u002Fnew-theme --language french\n```\nThis command sets the theme to a custom theme and selects French as the interface language.\nFeel free to customize these arguments according to your preferences and requirements.\n\n## 📖 News\n\n🔥 2024\u002F18\u002F05: New Update Details\n   - Added option Overlap Reduction\n   - OpenAI API Key Integration for Transcription, translation, and TTS\n   - More output types: subtitles by speaker, separate audio sound, and video only with subtitles\n   - Access to a better-performing version of Whisper for transcribing speech on the [Hugging Face Whisper page](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=automatic-speech-recognition&sort=trending&search=whisper). Copy the repository ID and paste it into the 'Whisper ASR model' section in 'Advanced Settings'; e.g., `kotoba-tech\u002Fkotoba-whisper-v1.1` for Japanese transcription [available here](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.1)\n   - Support for ASS subtitles and batch processing with subtitles\n   - Vocal enhancement before transcription\n   - Added CPU mode with `app_rvc.py --cpu_mode`\n   - TTS now supports up to 12 speakers\n   - OpenVoiceV2 integration for voice imitation\n   - PDF to videobook (displays images from the PDF)\n   - GUI language translation in Persian and Afrikaans\n   - **New Language Support**:\n     - **Complete support**: Estonian, Macedonian, Malay, Swahili, Afrikaans, Bosnian, Latin, Myanmar Burmese, Norwegian, Traditional Chinese, Assamese, Basque, Hausa, Haitian Creole, Armenian, Lao, Malagasy, Mongolian, Maltese, Punjabi, Pashto, Slovenian, Shona, Somali, Tajik, Turkmen, Tatar, Uzbek, and Yoruba\n     - **Non-transcription**: Aymara, Bambara, Cebuano, Chichewa, Divehi, Dogri, Ewe, Guarani, Iloko, Kinyarwanda, Krio, Kurdish, Kirghiz, Ganda, Maithili, Oriya, Oromo, Quechua, Samoan, Tigrinya, Tsonga, Akan, and Uighur\n\n🔥 2024\u002F03\u002F02: Preserve file names in output. Multiple archives can now be submitted simultaneously by specifying their paths, directories or URLs separated by commas. Processing of a full YouTube playlist. About [supported sites URL](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp\u002Fblob\u002Fmaster\u002Fsupportedsites.md), please be aware that not all sites may work optimally. Added option for disabling diarization. Implemented soft subtitles. Format output (MP3, MP4, MKV, WAV, and OGG), and resolved issues related to file reading and diarization.\n\n🔥 2024\u002F02\u002F22: Added freevc for voice imitation, fixed voiceless track, divide segments. New languages support (Swedish, Amharic, Welsh, Croatian, Icelandic, Georgian, Khmer, Slovak, Albanian, Serbian, Azerbaijani, Bulgarian, Galician, Gujarati, Kazakh, Kannada, Lithuanian, Latvian, Malayalam, Romanian, Sinhala and Sundanese). New translations of the GUI (Spanish, French, German, Italian, Japanese, Chinese Simplified, Ukrainian, Arabic, Russian, Turkish, Indonesian, Portuguese, Hindi, Vietnamese, Polish, Swedish, Korean, Marathi and Azerbaijani). With subtitle file, no align and the media file is not needed to process the SRT file. Burn subtitles to video. Queue can accept multiple tasks simultaneously. Sound alert notification. Continue process from last checkpoint. Acceleration rate regulation.\n\n🔥 2024\u002F01\u002F16: Expanded language support (Thai, Nepali, Catalan, Javanese, Tamil, Marathi, Telugu, Bengali and Indonesian), the introduction of whisper large v3, configurable GUI options, integration of BARK, Facebook-mms, Coqui XTTS, and Piper-TTS. Additional features included audio separation utilities, XTTS WAV creation, use an SRT file as a base for translation, document translation, manual speaker editing, and flexible output options (video, audio, subtitles).\n\n🔥 2023\u002F10\u002F29: Edit the translated subtitle, download it, adjust volume and speed options.\n\n🔥 2023\u002F08\u002F03: Changed default options and added directory view of downloads.\n\n🔥 2023\u002F08\u002F02: Added support for Arabic, Czech, Danish, Finnish, Greek, Hebrew, Hungarian, Korean, Persian, Polish, Russian, Turkish, Urdu, Hindi, and Vietnamese languages. 🌐\n\n🔥 2023\u002F08\u002F01: Add options for use RVC models.\n\n🔥 2023\u002F07\u002F27: Fix some bug processing the video and audio.\n\n🔥 2023\u002F07\u002F26: New UI and add mix options.\n\n\n## Contributing\n\nWelcome to contributions from the community! If you have any ideas, bug reports, or feature requests, please open an issue or submit a pull request. For more information, please refer to the contribution guidelines.\n\n## Credits\n\nThis project leverages a number of open-source projects. We would like to acknowledge and thank the contributors of the following repositories:\n\n- [PyTorch](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch)\n- [yt-dlp](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp)\n- [Gradio](https:\u002F\u002Fgithub.com\u002Fgradio-app\u002Fgradio)\n- [edge-tts](https:\u002F\u002Fgithub.com\u002Frany2\u002Fedge-tts)\n- [deep-translator](https:\u002F\u002Fgithub.com\u002Fnidhaloff\u002Fdeep-translator)\n- [pyannote-audio](https:\u002F\u002Fgithub.com\u002Fpyannote\u002Fpyannote-audio)\n- [WhisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)\n- [faster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper)\n- [CTranslate2](https:\u002F\u002Fgithub.com\u002FOpenNMT\u002FCTranslate2)\n- [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [FFmpeg](https:\u002F\u002Fgithub.com\u002FFFmpeg\u002FFFmpeg)\n- [Piper](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper)\n- [Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS)\n- [pypdf](https:\u002F\u002Fgithub.com\u002Fpy-pdf\u002Fpypdf)\n- [OpenVoice](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice)\n\n## License\nAlthough the code is licensed under Apache 2, the models or weights may have commercial restrictions, as seen with pyannote diarization.\n","# Recall.ai - 会议转录 API\n\n如果您正在寻找会议转录 API，不妨看看 [Recall.ai](https:\u002F\u002Fwww.recall.ai\u002Fproduct\u002Fmeeting-transcription-api?utm_source=github&utm_medium=sponsorship&utm_campaign=r3gm-sonitranslate)，这是一款能够录制 Zoom、Google Meet、Microsoft Teams 以及线下会议等多种形式会议的 API。\n\n\u003Ch1 align=\"center\">🎥 SoniTranslate 🈷️\u003C\u002Fh1>\n\n## 🎬 带同步音频的视频翻译 🌐\n\nSonyTranslate 是一款功能强大且易于使用的 Web 应用程序，可让您轻松地将视频翻译成不同语言。本仓库托管的是 SonyTranslate 的 Web UI 代码，该界面基于 Gradio 库构建，旨在提供流畅且交互式的用户体验。\n\n\n| 描述 | 链接 |\n| ----------- | ---- |\n| 📙 Colab 笔记本 | [![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FR3gm\u002FSoniTranslate\u002Fblob\u002Fmain\u002FSoniTranslate_Colab.ipynb) |\n| 🎉 仓库 | [![GitHub 仓库](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FGitHub-Repository-black?style=flat-square&logo=github)](https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002F) |\n| 🚀 在线演示 | [![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fr3gm\u002Fvideo_dubbing_sonitr_demo) |\n\n## SonyTranslate 的 Web UI，采用 Gradio 库构建的浏览器界面。\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FR3gm_SoniTranslate_readme_596101aab344.png)\n\n## 项目使用说明：视频指南\n\n为了全面了解该项目，我们强烈建议您观看由 [DEV-MalletteS](https:\u002F\u002Fgithub.com\u002FDEV-MalletteS) 制作的视频教程。您可以通过点击下方缩略图在 YouTube 上观看：\n\n[![观看视频](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FR3gm_SoniTranslate_readme_0488177d2271.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=SmGkFaSzq_Q)\n\n\n## 支持的翻译语言 \n\n| 语言代码 | 语言   |\n|---------------|------------|\n| en            | 英语    |\n| fr            | 法语     |\n| de            | 德语     |\n| es            | 西班牙语 |\n| it            | 意大利语 |\n| ja            | 日语     |\n| nl            | 荷兰语   |\n| uk            | 乌克兰语 |\n| pt            | 葡萄牙语 |\n| ar            | 阿拉伯语 |\n| zh            | 中文（简体）      |\n| zh-TW         | 中文（繁体）     |\n| cs            | 捷克语      |\n| da            | 丹麦语     |\n| fi            | 芬兰语    |\n| el            | 希腊语      |\n| he            | 希伯来语     |\n| hu            | 匈牙利语  |\n| ko            | 韩语       |\n| fa            | 波斯语     |\n| pl            | 波兰语     |\n| ru            | 俄语       |\n| tr            | 土耳其语   |\n| ur            | 乌尔都语   |\n| hi            | 印地语     |\n| vi            | 越南语     |\n| id            | 印度尼西亚语 |\n| bn            | 孟加拉语    |\n| te            | 泰卢固语   |\n| mr            | 马拉地语   |\n| ta            | 泰米尔语   |\n| jw (或 jv)    | 爪哇语     |\n| ca            | 加泰罗尼亚语 |\n| ne            | 尼泊尔语   |\n| th            | 泰语       |\n| sv            | 瑞典语     |\n| am            | 阿姆哈拉语 |\n| cy            | 威尔士语   |\n| hr            | 克罗地亚语 |\n| is            | 冰岛语     |\n| ka            | 格鲁吉亚语 |\n| km            | 高棉语     |\n| sk            | 斯洛伐克语 |\n| sq            | 阿尔巴尼亚语 |\n| sr            | 塞尔维亚语 |\n| az            | 阿塞拜疆语|\n| bg            | 保加利亚语  |\n| gl            | 加利西亚语  |\n| gu            | 古吉拉特语  |\n| kk            | 哈萨克语     |\n| kn            | 卡纳达语    |\n| lt            | 立陶宛语     |\n| lv            | 拉脱维亚语   |\n| ml            | 马拉雅拉姆语 |\n| ro            | 罗马尼亚语   |\n| si            | 僧伽罗语    |\n| su            | 巽他语      |\n| et            | 爱沙尼亚语                  |\n| mk            | 马其顿语                |\n| sw            | 斯瓦希里语                   |\n| af            | 非洲语                     |\n| bs            | 波斯尼亚语                 |\n| la            | 拉丁语                     |\n| my            | 缅甸语 Burmese           |\n| no            | 挪威语                     |\n| as            | 阿萨姆语                  |\n| eu            | 巴斯克语                    |\n| ha            | 豪萨语                     |\n| ht            | 海地克里奥尔语            |\n| hy            | 亚美尼亚语                  |\n| lo            | 老挝语                       |\n| mg            | 马达加斯加语                 |\n| mn            | 蒙古语                       |\n| mt            | 马耳他语                     |\n| pa            | 旁遮普语                     |\n| ps            | 普什图语                     |\n| sl            | 斯洛文尼亚语                 |\n| sn            | 绍纳语                       |\n| so            | 索马里语                     |\n| tg            | 塔吉克语                     |\n| tk            | 土库曼语                     |\n| tt            | 鞑靼语                     |\n| uz            | 乌兹别克语                     |\n| yo            | 约鲁巴语                     |\n\n### 非转录语言\n\n| 语言代码 | 语言   |\n|---------------|------------|\n| ay | 阿伊马拉语 |\n| bm | 巴姆巴拉语 |\n| ceb | 宿务语 |\n| ny | 奇切瓦语 |\n| dv | 迪维希语 |\n| doi | 多格里语 |\n| ee | 埃韦语 |\n| gn | 瓜拉尼语 |\n| ilo | 伊洛科语 |\n| rw | 基尼亚尔万达语|\n| kri | 克里奥语 |\n| ku | 库尔德语 |\n| ky | 吉尔吉斯语 |\n| lg | 甘达语 |\n| mai | 迈蒂利语 |\n| or | 奥里亚语 |\n| om | 奥罗莫语 |\n| qu | 克丘亚语 |\n| sm | 萨摩亚语 |\n| ti | 提格里尼亚语 |\n| ts | 松加语 |\n| ak | 阿坎语 |\n| ug | 维吾尔语 |\n\n## 示例：\n\n### 原始音频\n\nhttps:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fassets\u002F114810545\u002Fdb9e78c0-b228-4e81-9704-e62d5cc407a3\n\n\n\n### 翻译后的音频\n\nhttps:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fassets\u002F114810545\u002F6a8ddc65-a46f-4653-9726-6df2615f0ef9\n\n\n## Colab 运行环境\n\n要使用 Colab 运行环境运行 SoniTranslate：[![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FR3gm\u002FSoniTranslate\u002Fblob\u002Fmain\u002FSoniTranslate_Colab.ipynb)\n\n## 本地安装（已在 Linux 系统上测试过）\n\n### 开始之前\n\n在开始安装和使用 SoniTranslate 之前，您需要完成以下几项准备工作：\n\n1. 安装适用于 CUDA 11.8.0 的 NVIDIA 驱动程序。NVIDIA CUDA 是一个并行计算平台和编程模型，使开发者能够利用 NVIDIA 图形处理单元（GPU）的强大性能来加速计算密集型任务。您可以从 [这里](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit-archive) 获取驱动程序，并按照网站上的说明下载和安装。\n   \n2. 接受 Pyannote 的使用许可协议。您需要在 Hugging Face 上拥有账户，并“接受使用这些模型的许可”：[https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fspeaker-diarization](https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fspeaker-diarization) 和 [https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fsegmentation](https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fsegmentation)。\n\n3. 创建一个 [Hugging Face 令牌](https:\u002F\u002Fhuggingface.co\u002Fsettings\u002Ftokens)。Hugging Face 是一个自然语言处理平台，提供最先进的模型和工具。为了使用 SoniTranslate 中的一些自动模型下载功能，您需要创建一个令牌。请按照 Hugging Face 官网上的说明创建令牌。在 Hugging Face 中创建新的访问令牌时，请确保勾选“对您可访问的所有公共 gated repo 内容的读取权限”。\n\n4. 安装 [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002F) 或 [Miniconda](https:\u002F\u002Fdocs.anaconda.com\u002Ffree\u002Fminiconda\u002Fminiconda-install\u002F)。Anaconda 是一个免费且开源的 Python 和 R 发行版。它包含一个名为 conda 的包管理器，可以轻松安装和管理 Python 环境及软件包。请按照 Anaconda 官网上的说明下载并安装 Anaconda。\n\n5. 为您的系统安装 Git。Git 是一个版本控制系统，可以帮助您跟踪代码变更并与他人协作。您可以通过 Anaconda 在终端中运行 `conda install -c anaconda git -y` 来安装 Git（请在下文第 1 步之后执行）。如果您通过 Anaconda 安装 Git 时遇到问题，可以使用以下链接：\n   - [Linux 版 Git](https:\u002F\u002Fgit-scm.com\u002Fdownload\u002Flinux)\n\n完成以上步骤后，您就可以准备安装 SoniTranslate 了。\n\n### 开始使用\n\n要安装 SoniTranslate，请按照以下步骤操作：\n\n1. 为 SoniTranslate 创建一个合适的 Anaconda 环境并激活它：\n\n```\nconda create -n sonitr python=3.10 -y\nconda activate sonitr\npython -m pip install pip==23.1.2 Setuptools==80.6.0\nconda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia\n```\n\n2. 克隆此 GitHub 仓库并进入该目录：\n```\ngit clone https:\u002F\u002Fgithub.com\u002Fr3gm\u002FSoniTranslate.git\ncd SoniTranslate\n```\n\n3. 安装所需依赖包：\n```\npip install -r requirements_base.txt -v\npip install -r requirements_extra.txt -v\npip install onnxruntime-gpu\n```\n\n4. 安装 [FFmpeg](https:\u002F\u002Fffmpeg.org\u002Fdownload.html)。FFmpeg 是一个免费的软件项目，提供用于处理多媒体数据的库和程序。您将需要它来处理音频和视频文件。您可以通过 Anaconda 在终端中运行 `conda install -y ffmpeg` 来安装 FFmpeg（推荐）。如果通过 Anaconda 安装 FFmpeg 有困难，可以使用以下链接：[https:\u002F\u002Fffmpeg.org\u002Fffmpeg.html]。安装完成后，请确保它已添加到您的 PATH 中，方法是在终端中运行 `ffmpeg -h`。如果没有出现错误信息，则表示安装成功。\n\n5. 可选安装：\n\n在安装 FFmpeg 后，您可以安装以下可选包。\n\n[Piper TTS](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper) 是一种快速、本地化的神经网络文本转语音系统，音质出色，并针对 Raspberry Pi 4 进行了优化。Piper 被广泛应用于各种项目中。其语音模型基于 VITS 训练，并导出为 ONNX 格式。\n\n```\npip install -q piper-tts==1.2.0\n```\n\n[Coqui XTTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS) 是一种文本转语音（TTS）模型，可以让您生成多种语言的逼真语音。只需一段简短的音频片段，即可克隆声音，甚至用不同语言进行朗读！它就像为您需要朗读的任何文本配备了一个私人语音模仿者。\n\n```\npip install -q -r requirements_xtts.txt\npip install -q TTS==0.21.1 --no-deps\n```\n\n### 运行 SoniTranslate\n\n要在本地运行 SoniTranslate，请确保 `sonitr` Conda 环境已激活：\n\n```\nconda activate sonitr\n```\n\n在 Linux 系统中，将您的 Hugging Face 令牌设置为环境变量：\n\n```\nexport YOUR_HF_TOKEN=\"YOUR_HUGGING_FACE_TOKEN\"\n```\n\n然后进入 `SoniTranslate` 文件夹，运行 `app_rvc.py`：\n\n```\npython app_rvc.py\n```\n\n当终端显示本地 URL `http:\u002F\u002F127.0.0.1:7860` 时，只需在浏览器中打开该网址即可访问 SoniTranslate 界面。\n\n### 停止并关闭 SoniTranslate\n\n在大多数环境中，您可以通过在运行 `app_rvc.py` 脚本的终端中按下 Ctrl+C 来停止程序。这将中断程序并关闭 Gradio 应用程序。\n\n要退出 Conda 环境，可以使用以下命令：\n\n```\nconda deactivate\n```\n\n这将停用当前活动的 Conda 环境 `sonitr`，您将返回到基础环境或全局 Python 环境。\n\n### 重新开始\n\n如果您需要从头开始，可以删除 `SoniTranslate` 文件夹，并使用以下命令移除 `sonitr` Conda 环境：\n\n```\nconda deactivate\nconda env remove -n sonitr\n```\n\n移除 `sonitr` 环境后，您可以重新开始全新的安装过程。\n\n### 备注\n\n- 您也可以将 Hugging Face 令牌设置为永久环境变量，方法如下：\n```\nconda activate sonitr\nconda env config vars set YOUR_HF_TOKEN=\"YOUR_HUGGING_FACE_TOKEN_HERE\"\nconda deactivate\n```\n\n- 若要使用 OpenAI 的 GPT API 进行翻译、TTS 或转录，请将您的 OpenAI API 密钥以引号形式设置为环境变量：\n```\nconda activate sonitr\nconda env config vars set OPENAI_API_KEY=\"your-api-key-here\"\nconda deactivate\n```\n\n## 命令行参数\n\napp_rvc.py 脚本支持命令行参数来自定义其行为。以下是使用这些参数的简要指南：\n\n| 参数命令       | 默认值         | 类型   | 描述                                                         |\n|----------------|----------------|--------|--------------------------------------------------------------|\n| --theme        | Taithrah\u002FMinimal | 字符串 | 设置界面的主题。主题可在 [Theme Gallery](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fgradio\u002Ftheme-gallery) 中找到。 |\n| --language     | english        | 字符串 | 选择界面语言。可用选项：南非语、阿拉伯语、阿塞拜疆语、中文（简体）、英语、法语、德语、印地语、印尼语、意大利语、日语、韩语、马拉地语、波斯语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语。 |\n| --verbosity_level| info           | 字符串 | 设置日志记录器的详细程度：debug、info、warning、error 或 critical。 |\n| --public_url   |                | 布尔值 | 启用公开链接。                                               |\n| --cpu_mode     |                | 布尔值 | 启用 CPU 模式，以不使用 GPU 加速运行程序。                   |\n| --logs_in_gui  |                | 布尔值 | 在日志中显示执行的操作（已弃用）。                           |\n\n示例用法：\n```\npython app_rvc.py --theme aliabid94\u002Fnew-theme --language french\n```\n此命令将主题设置为自定义主题，并选择法语作为界面语言。\n请根据您的偏好和需求自定义这些参数。\n\n## 📖 新闻\n\n🔥 2024年5月18日：新更新详情\n   - 添加了重叠减少选项\n   - 集成 OpenAI API 密钥用于转录、翻译和 TTS\n   - 更多输出类型：按说话人划分的字幕、单独的音频音轨，以及仅含字幕的视频\n   - 可在 [Hugging Face Whisper 页面](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=automatic-speech-recognition&sort=trending&search=whisper) 上访问性能更优的 Whisper 版本进行语音转录。复制仓库 ID 并将其粘贴到“高级设置”中的“Whisper ASR 模型”部分；例如，`kotoba-tech\u002Fkotoba-whisper-v1.1` 用于日语转录 [可在此处获取](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.1)\n   - 支持 ASS 字幕和带字幕的批量处理\n   - 转录前的人声增强\n   - 添加了 CPU 模式，可通过 `app_rvc.py --cpu_mode` 启用\n   - TTS 现在最多支持 12 位说话人\n   - 集成 OpenVoiceV2 进行语音模仿\n   - PDF 转视频书（显示 PDF 中的图片）\n   - GUI 语言翻译新增波斯语和南非语\n   - **新增语言支持**：\n     - **完全支持**：爱沙尼亚语、马其顿语、马来语、斯瓦希里语、南非语、波斯尼亚语、拉丁语、缅甸语、挪威语、繁体中文、阿萨姆语、巴斯克语、豪萨语、海地克里奥尔语、亚美尼亚语、老挝语、马达加斯加语、蒙古语、马耳他语、旁遮普语、普什图语、斯洛文尼亚语、绍纳语、索马里语、塔吉克语、土库曼语、鞑靼语、乌兹别克语和约鲁巴语\n     - **非转录类**：艾马拉语、班巴拉语、宿务语、奇切瓦语、迪维希语、多格里语、埃韦语、瓜拉尼语、伊洛卡诺语、基尼亚卢旺达语、克里奥尔语、库尔德语、吉尔吉斯语、干达语、迈蒂利语、奥里亚语、奥罗莫语、克丘亚语、萨摩亚语、提格雷语、松加语、阿坎语和维吾尔语\n\n🔥 2024年3月2日：保留输出文件名。现在可以通过逗号分隔的路径、目录或 URL 同时提交多个压缩包。支持处理完整的 YouTube 播放列表。关于 [支持的网站 URL](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp\u002Fblob\u002Fmaster\u002Fsupportedsites.md)，请注意并非所有网站都能最佳运行。新增了禁用说话人分离的选项。实现了软字幕功能。支持多种输出格式（MP3、MP4、MKV、WAV 和 OGG），并解决了文件读取和说话人分离相关的问题。\n\n🔥 2024年2月22日：新增 freevc 用于语音模仿，修复了无声轨道问题，并可分割片段。新增语言支持（瑞典语、阿姆哈拉语、威尔士语、克罗地亚语、冰岛语、格鲁吉亚语、高棉语、斯洛伐克语、阿尔巴尼亚语、塞尔维亚语、阿塞拜疆语、保加利亚语、加利西亚语、古吉拉特语、哈萨克语、坎纳达语、立陶宛语、拉脱维亚语、马拉雅拉姆语、罗马尼亚语、僧伽罗语和巽他语）。GUI 新增翻译版本（西班牙语、法语、德语、意大利语、日语、简体中文、乌克兰语、阿拉伯语、俄语、土耳其语、印尼语、葡萄牙语、印地语、越南语、波兰语、瑞典语、韩语、马拉地语和阿塞拜疆语）。使用字幕文件时无需对齐，且处理 SRT 文件也不需要媒体文件。可将字幕刻录到视频中。队列可同时接受多项任务。提供声音警报通知。可从上次检查点继续处理。支持加速速率调节。\n\n🔥 2024年1月16日：扩展语言支持（泰语、尼泊尔语、加泰罗尼亚语、爪哇语、泰米尔语、马拉地语、泰卢固语、孟加拉语和印尼语），引入 whisper large v3，可配置的 GUI 选项，集成 BARK、Facebook-mms、Coqui XTTS 和 Piper-TTS。新增音频分离工具、XTTS WAV 创建功能，允许以 SRT 文件为基础进行翻译，支持文档翻译、手动编辑说话人信息，以及灵活的输出选项（视频、音频、字幕）。\n\n🔥 2023年10月29日：可编辑翻译后的字幕，下载字幕，并调整音量和速度选项。\n\n🔥 2023年8月3日：更改了默认选项，并增加了下载目录视图。\n\n🔥 2023年8月2日：新增对阿拉伯语、捷克语、丹麦语、芬兰语、希腊语、希伯来语、匈牙利语、韩语、波斯语、波兰语、俄语、土耳其语、乌尔都语、印地语和越南语的支持。🌐\n\n🔥 2023年8月1日：新增使用 RVC 模型的选项。\n\n🔥 2023年7月27日：修复了视频和音频处理中的一些 bug。\n\n🔥 2023年7月26日：全新 UI 并增加混合选项。\n\n## 贡献\n\n欢迎社区贡献！如果您有任何想法、错误报告或功能请求，请提交问题或拉取请求。更多信息请参阅贡献指南。\n\n## 致谢\n\n本项目利用了多个开源项目。我们谨向以下仓库的贡献者表示感谢：\n\n- [PyTorch](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch)\n- [yt-dlp](https:\u002F\u002Fgithub.com\u002Fyt-dlp\u002Fyt-dlp)\n- [Gradio](https:\u002F\u002Fgithub.com\u002Fgradio-app\u002Fgradio)\n- [edge-tts](https:\u002F\u002Fgithub.com\u002Frany2\u002Fedge-tts)\n- [deep-translator](https:\u002F\u002Fgithub.com\u002Fnidhaloff\u002Fdeep-translator)\n- [pyannote-audio](https:\u002F\u002Fgithub.com\u002Fpyannote\u002Fpyannote-audio)\n- [WhisperX](https:\u002F\u002Fgithub.com\u002Fm-bain\u002FwhisperX)\n- [faster-whisper](https:\u002F\u002Fgithub.com\u002FSYSTRAN\u002Ffaster-whisper)\n- [CTranslate2](https:\u002F\u002Fgithub.com\u002FOpenNMT\u002FCTranslate2)\n- [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [FFmpeg](https:\u002F\u002Fgithub.com\u002FFFmpeg\u002FFFmpeg)\n- [Piper](https:\u002F\u002Fgithub.com\u002Frhasspy\u002Fpiper)\n- [Coqui TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS)\n- [pypdf](https:\u002F\u002Fgithub.com\u002Fpy-pdf\u002Fpypdf)\n- [OpenVoice](https:\u002F\u002Fgithub.com\u002Fmyshell-ai\u002FOpenVoice)\n\n## 许可证\n尽管代码采用 Apache 2 许可证，但模型或权重可能存在商业限制，例如 pyannote 的说话人分离功能。","# SoniTranslate 快速上手指南\n\nSoniTranslate 是一个强大的视频翻译工具，支持将视频中的语音翻译成多种语言，并生成同步的口型与音频。本指南帮助中国开发者快速在本地部署并使用该工具。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**：推荐 Linux（安装已在 Linux 上测试通过）\n- **GPU**：NVIDIA 显卡，需支持 CUDA 11.8.0\n- **Python 版本**：3.10\n\n### 前置依赖\n1. **安装 NVIDIA 驱动与 CUDA 11.8**\n   访问 [NVIDIA CUDA Toolkit Archive](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit-archive) 下载并安装对应驱动。\n\n2. **获取 Hugging Face Token**\n   - 注册\u002F登录 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002F)\n   - 接受以下模型的许可协议：\n     - https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fspeaker-diarization\n     - https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fsegmentation\n   - 创建 Access Token，勾选 **\"Read access to contents of all public gated repos you can access\"**。\n\n3. **安装 Conda 与 Git**\n   推荐安装 [Miniconda](https:\u002F\u002Fdocs.anaconda.com\u002Ffree\u002Fminiconda\u002Fminiconda-install\u002F) 或 Anaconda。\n   Git 可通过 Conda 安装：\n   ```bash\n   conda install -c anaconda git -y\n   ```\n\n4. **安装 FFmpeg**\n   推荐使用 Conda 安装：\n   ```bash\n   conda install -y ffmpeg\n   ```\n   验证安装：`ffmpeg -h`（无报错即成功）。\n\n---\n\n## 安装步骤\n\n### 1. 创建并激活 Conda 环境\n```bash\nconda create -n sonitr python=3.10 -y\nconda activate sonitr\npython -m pip install pip==23.1.2 Setuptools==80.6.0\nconda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia\n```\n> **国内加速建议**：若下载 PyTorch 缓慢，可尝试使用清华镜像源：\n> ```bash\n> conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia --override-channels -c https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fcloud\u002Fpytorch\u002F\n> ```\n\n### 2. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fr3gm\u002FSoniTranslate.git\ncd SoniTranslate\n```\n> **国内加速建议**：若 GitHub 克隆失败，可使用镜像：\n> ```bash\n> git clone https:\u002F\u002Fghp.ci\u002Fhttps:\u002F\u002Fgithub.com\u002Fr3gm\u002FSoniTranslate.git\n> cd SoniTranslate\n> ```\n\n### 3. 安装依赖包\n```bash\npip install -r requirements_base.txt -v\npip install -r requirements_extra.txt -v\npip install onnxruntime-gpu\n```\n> **国内加速建议**：使用清华或阿里镜像加速 pip 安装：\n> ```bash\n> pip install -r requirements_base.txt -v -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> pip install -r requirements_extra.txt -v -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> pip install onnxruntime-gpu -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n### 4. （可选）安装增强语音模型\n如需使用更高质量的语音合成（如声音克隆），可安装以下组件：\n\n**Piper TTS**（轻量快速）：\n```bash\npip install -q piper-tts==1.2.0 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n**Coqui XTTS**（支持多语言声音克隆）：\n```bash\npip install -q -r requirements_xtts.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install -q TTS==0.21.1 --no-deps -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n---\n\n## 基本使用\n\n### 1. 配置环境变量\n设置你的 Hugging Face Token（替换 `YOUR_HUGGING_FACE_TOKEN`）：\n```bash\nexport YOUR_HF_TOKEN=\"YOUR_HUGGING_FACE_TOKEN\"\n```\n> 若需永久配置，可执行：\n> ```bash\n> conda env config vars set YOUR_HF_TOKEN=\"YOUR_HUGGING_FACE_TOKEN\"\n> ```\n\n如需使用 OpenAI 接口（翻译\u002F转录），同样配置 API Key：\n```bash\nconda env config vars set OPENAI_API_KEY=\"your-api-key-here\"\n```\n\n### 2. 启动应用\n确保在 `sonitr` 环境中，进入项目目录并运行：\n```bash\nconda activate sonitr\ncd SoniTranslate\npython app_rvc.py\n```\n\n### 3. 访问界面\n终端显示 `local URL http:\u002F\u002F127.0.0.1:7860` 后，在浏览器打开该地址即可使用图形界面上传视频、选择目标语言并进行翻译。\n\n### 4. 停止服务\n- 终止运行：在终端按 `Ctrl+C`\n- 退出环境：\n  ```bash\n  conda deactivate\n  ```\n\n---\n\n✅ 现在你已成功部署 SoniTranslate，可开始体验视频自动翻译与配音功能！","一家专注于教育科技的初创团队需要将一套高质量的英语编程教程快速本地化，以拓展西班牙语和中文市场。\n\n### 没有 SoniTranslate 时\n- **流程割裂且耗时**：团队需分别使用不同工具进行语音识别、文本翻译和音频合成，最后再手动对齐视频口型，整个流程耗时数天。\n- **音画不同步严重**：人工合成的配音往往无法精准匹配原视频说话人的语速和停顿，导致观众观看时产生强烈的违和感。\n- **高昂的外包成本**：若追求高质量的多语种配音，必须聘请专业配音演员和后期制作团队，单集视频成本高达数百美元。\n- **技术门槛高**：非技术背景的内容运营人员无法独立完成复杂的音频处理脚本，严重依赖开发资源。\n\n### 使用 SoniTranslate 后\n- **一站式自动化流程**：只需上传视频并选择目标语言（如西班牙语或简体中文），SoniTranslate 即可自动完成转录、翻译、配音及唇形同步，数分钟内输出成品。\n- **完美的音画同步体验**：利用其核心的同步技术，生成的配音在语速、情感停顿上与原视频高度契合，实现了自然的“视频 dubbing\"效果。\n- **极低的边际成本**：团队无需额外预算即可无限生成多语言版本，将单集视频的本地化成本降低至接近零。\n- **全员可上手操作**：基于 Gradio 构建的友好网页界面，让内容策划人员也能独立操作，无需编写代码或依赖技术人员。\n\nSoniTranslate 通过智能化的音视频同步翻译，将原本繁琐昂贵的视频本地化工程转变为点击即得的即时服务，极大加速了内容的全球化传播。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FR3gm_SoniTranslate_596101aa.png","R3gm","Roger Condori","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FR3gm_29c88f00.jpg",null,"https:\u002F\u002Fgithub.com\u002FR3gm",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",84,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",16,1345,325,"2026-04-09T10:29:40","Apache-2.0",4,"Linux","必需 NVIDIA GPU，需安装 CUDA 11.8.0 驱动","未说明",{"notes":99,"python":100,"dependencies":101},"1. 官方仅在 Linux 上测试过安装。2. 必须接受 Pyannote 模型的许可证协议（需在 Hugging Face 账户操作）。3. 必须创建 Hugging Face Token 并设置环境变量 YOUR_HF_TOKEN，且需勾选读取受限仓库权限。4. 可选配置 OpenAI API Key 以使用相关功能。5. 建议使用 Conda 管理环境。","3.10",[102,103,104,105,106,107,108,109],"pytorch==2.5.1","torchvision==0.20.1","torchaudio==2.5.1","pytorch-cuda=11.8","onnxruntime-gpu","ffmpeg","piper-tts==1.2.0 (可选)","TTS==0.21.1 (可选)",[35,55,15],[112,113,114,115,116,117,118,119,120,121,122,123,124,125,126],"audio-processing","diarization","translation","translate-audio","translate-video","video-dubbing","asr","automatic-dubbing","document-translator","dubbing","speech-to-text","stt","subtitle-to-speech","text-to-speech","tts","2026-03-27T02:49:30.150509","2026-04-11T03:24:34.532861",[130,135,140,145,150,154],{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},28805,"在 Windows 上上传本地文件时出现\"[WinError 2] 系统找不到指定的文件”错误怎么办？","该问题通常与路径处理或 preprocessor.py 文件的兼容性有关。用户反馈应用维护者对 `preprocessor.py` 文件的修正后，本地文件上传和 YouTube 链接均可正常工作。请确保您使用的是最新版本的代码，或者手动检查并应用针对 Windows 路径处理的修复补丁。","https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fissues\u002F18",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},28806,"遇到 Pydantic Schema Generation Error (Unable to generate pydantic-core schema for starlette.requests.Request) 如何解决？","这是一个已知的兼容性问题，通常发生在 FastAPI 与特定版本的 Pydantic 配合使用时。根据社区反馈，维护者已经修复了此 Bug。如果您仍遇到此错误，请拉取最新的代码更新或重新部署环境（包括 Colab 和本地版本），问题即可解决。","https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fissues\u002F86",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},28807,"运行时出现 AttributeError: 'list' object has no attribute 'endswith' 或 FileNotFoundError 错误怎么办？","此错误通常与模型授权或未正确配置 Hugging Face Token 有关。解决方案如下：\n1. 访问 https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fspeaker-diarization 和 https:\u002F\u002Fhuggingface.co\u002Fpyannote\u002Fsegmentation。\n2. 登录您的 Hugging Face 账户并接受这两个模型的使用许可协议。\n3. 在 SoniTranslate 的配置中输入您的个人 Access Token。\n完成上述步骤后，脚本在 Windows 本地和 Colab 上均能正常运行。","https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fissues\u002F11",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},28808,"在 Google Colab 上安装或运行时遇到依赖问题或 P0 错误如何处理？","如果在 Colab 上遇到安装错误或运行时问题，首先尝试使用官方提供的最新 Colab 笔记本链接。许多安装问题（如 git-lfs 初始化或包版本冲突）已通过后续的代码更新修复。如果问题依旧，请检查是否使用了过时的分支，建议切换到主分支（main）或查看维护者发布的最新修复补丁。","https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fissues\u002F182",{"id":151,"question_zh":152,"answer_zh":153,"source_url":144},28809,"如何在 Windows 本地启用 NVIDIA GPU 加速而不是默认使用 CPU？","在 Windows 上默认可能会回退到 CPU。要启用 GPU，请确保：\n1. 已正确安装与您的 CUDA 版本匹配的 PyTorch GPU 版本。\n2. 脚本中涉及文件操作的部分已从 Unix 命令修改为兼容 Windows 的命令（部分用户反馈需手动修改几行代码以适配 Windows 路径）。\n3. 确认环境变量中已正确配置 CUDA 路径。如果不确定，建议在 Colab 环境中运行以获得最佳的 GPU 支持体验。",{"id":155,"question_zh":156,"answer_zh":157,"source_url":139},28810,"SoniTranslate 支持哪些语言？是否包含他加禄语（Tagalog）或世界语（Esperanto）？","项目持续更新支持的语言列表。根据社区讨论，他加禄语（Tagalog）已经被添加支持。对于世界语（Esperanto）或其他小众语言，用户可以关注 Hugging Face 上的空间更新或向维护者提交请求，项目会根据社区需求逐步扩展语言支持。",[159,164],{"id":160,"version":161,"summary_zh":162,"released_at":163},197660,"0.5.0","## 变更内容\n# v0.5.0 由 @R3gm 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F45 中贡献\n\n\n- 新增重叠减少选项\n- 集成 OpenAI API 密钥，用于转写、翻译和 TTS\n- 更多输出格式：按说话人划分的字幕、单独音频文件以及仅含字幕的视频\n- 可使用性能更优的 Whisper 版本进行语音转写，具体请访问 [Hugging Face Whisper 页面](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=automatic-speech-recognition&sort=trending&search=whisper)。复制模型仓库 ID，并将其粘贴到“高级设置”中的“Whisper ASR 模型”栏中；例如，日语转写的 `kotoba-tech\u002Fkotoba-whisper-v1.1` [可在此获取](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.1)\n- 支持 ASS 字幕格式及带字幕的批量处理\n- 转写前增加人声增强功能\n- 新增 CPU 模式，可通过 `app_rvc.py --cpu_mode` 启用\n- TTS 现在最多支持 12 位说话人\n- 集成 OpenVoiceV2 实现声音模仿\n- PDF 转录音书（显示 PDF 中的图片）\n- GUI 界面新增波斯语和南非语翻译\n- **新增语言支持**：\n  - **完全支持**：爱沙尼亚语、马其顿语、马来语、斯瓦希里语、南非语、波斯尼亚语、拉丁语、缅甸语、挪威语、繁体中文、阿萨姆语、巴斯克语、豪萨语、海地克里奥尔语、亚美尼亚语、老挝语、马达加斯加语、蒙古语、马耳他语、旁遮普语、普什图语、斯洛文尼亚语、绍纳语、索马里语、塔吉克语、土库曼语、鞑靼语、乌兹别克语和约鲁巴语\n  - **不支持转写**：艾马拉语、班巴拉语、宿务语、奇切瓦语、迪维希语、多格里语、埃韦语、瓜拉尼语、伊洛卡诺语、卢旺达语、克里奥语、库尔德语、吉尔吉斯语、干达语、迈蒂利语、奥里亚语、奥罗莫语、克丘亚语、萨摩亚语、提格雷语、松加语、阿坎语和维吾尔语\n\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fcompare\u002F0.4.0...0.5.0","2024-05-18T13:56:03",{"id":165,"version":166,"summary_zh":167,"released_at":168},197661,"0.4.0","## 变更内容\n* @R3gm 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F1 中添加了新更新，支持 RVC 和新增语言。\n* @R3gm 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F9 中实现了编辑翻译后的字幕、下载字幕以及调整音量和速度选项的功能。\n* @R3gm 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F15 中更新至 v0.2.0。\n* @R3gm 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F20 中更新至 0.3.0。\n* @R3gm 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F24 中更新至 0.4.0。\n* @b4zz4 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F32 中更新了 README.md。\n\n## 新贡献者\n* @b4zz4 在 https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fpull\u002F32 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FR3gm\u002FSoniTranslate\u002Fcommits\u002F0.4.0","2024-05-18T13:49:34"]