[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ardha27--AI-Waifu-Vtuber":3,"tool-ardha27--AI-Waifu-Vtuber":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,2,"2026-04-18T11:00:28",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},8436,"Real-Time-Voice-Cloning","CorentinJ\u002FReal-Time-Voice-Cloning","Real-Time-Voice-Cloning 是一款开源的实时语音克隆工具，旨在通过短短 5 秒的音频样本，快速复刻说话人的声音特征，并即时生成任意文本的语音内容。它有效解决了传统语音合成需要大量训练数据且无法实时响应的痛点，让个性化语音生成变得轻量且高效。\n\n该项目的核心技术基于 SV2TTS（从说话人验证到多说话人文本转语音的迁移学习）深度学习框架。其工作流程分为三个阶段：首先从少量音频中提取说话人的数字声纹表示，随后将其作为参考，结合 Tacotron 合成器与 WaveRNN 声码器，高质量地生成目标语音。这种架构不仅实现了端到端的语音合成，还保证了在普通硬件上的实时运行能力。\n\nReal-Time-Voice-Cloning 非常适合开发者、人工智能研究人员以及对语音技术感兴趣的技术爱好者使用。开发者可以将其集成到互动应用中，研究人员可借此探索语音迁移学习的前沿进展，而具备一定动手能力的普通用户也能通过提供的图形界面工具箱，轻松体验“声音复制”的乐趣。尽管目前已有商业服务在音质上表现更佳，但作为一款免费开源项目，它依然是理解和学习实时语音合成技术的绝佳入门资源。",59627,3,"2026-04-16T23:06:58",[21,20],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,"2026-04-05T22:15:46",[21],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":79,"difficulty_score":94,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":108,"github_topics":109,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":22,"created_at":121,"updated_at":122,"faqs":123,"releases":154},10219,"ardha27\u002FAI-Waifu-Vtuber","AI-Waifu-Vtuber","AI Vtuber for Streaming on Youtube\u002FTwitch","AI-Waifu-Vtuber 是一款专为 YouTube 和 Twitch 主播打造的开源虚拟助手工具，能帮助用户轻松创建拥有独立人格的\"AI 女友”式虚拟主播。它解决了传统直播中互动单一、多语言支持不足以及实时响应滞后等痛点，让虚拟形象不仅能实时听懂观众留言，还能用自然流畅的多国语言进行语音回复，大幅提升直播间的互动趣味性与沉浸感。\n\n该项目非常适合具备一定编程基础的开发者、技术爱好者或希望尝试自动化直播内容的创作者使用。用户只需简单配置 API 密钥和角色设定文件，即可快速部署属于自己的虚拟主播。其核心技术亮点在于灵活集成了多种先进模型：利用 OpenAI Whisper 实现高精度的实时语音转文字，通过 DeepL 完成跨语言翻译，并支持 VoiceVox（日语）与 Silero TTS（英、俄、法、西、德等多语种）两种语音合成引擎，让用户可根据需求自由切换。此外，它还完美兼容 VTubeStudio 进行面部驱动，并针对 Twitch 平台做了专门的聊天机器人适配，是构建个性化多语言虚拟直播间的理想选择。","# Support\n\n[![ko-fi](https:\u002F\u002Fko-fi.com\u002Fimg\u002Fgithubbutton_sm.svg)](https:\u002F\u002Fko-fi.com\u002FR6R7AH1FA)\n\n## Update\n\nv3.5 Now it also supports for Twitch Streamer\n\nv3.0 Now not only supports Japanese TTS using VoiceVox. But also supports TTS for RU (Russian), EN (English), DE (German), ES (Spanish), FR (French), TT (Tatar), UA (Ukrainian), UZ (Uzbek), XAL (Kalmyk), Indic (Hindi), using Seliro TTS. Change `voicevox_tts` on `run.py` to `seliro_tts`, for detailed information of how to use [Seliro TTS](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models#text-to-speech)\n\n## AI Waifu Vtuber & Assistant\n\nThis project is inspired by shioridotdev and utilizes various technologies such as VoiceVox Engine, DeepL, Whisper OpenAI, Seliro TTS and VtubeStudio to create an AI waifu virtual YouTuber.\n\n![My Remote Image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fardha27_AI-Waifu-Vtuber_readme_23ea94f04512.png)\n\n## Demo\n - [Demo](https:\u002F\u002Fwww.youtube.com\u002Fshorts\u002F_mKVr3ZaM9Q)\n - [Live Test](https:\u002F\u002Fyoutu.be\u002Fh6UEgJxH1-E?t=1616)\n - [Code Explain](https:\u002F\u002Fyoutu.be\u002FqpNG9qrcmrQ)\n - [Clip](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qTkESIBd5Qk)\n\n## Technologies Used\n\n - [VoiceVox Docker](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fvoicevox\u002Fvoicevox_engine) or [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FSociallyIneptWeeb\u002FLanguageLeapAI\u002Fblob\u002Fmain\u002Fsrc\u002Frun_voicevox_colab.ipynb)\n - [DeepL](https:\u002F\u002Fwww.deepl.com\u002Ffr\u002Faccount\u002Fsummary)\n - [Deeplx](https:\u002F\u002Fgithub.com\u002FOwO-Network\u002FDeepLX)\n - [Whisper OpenAI](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys)\n - [Seliro TTS](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models#text-to-speech)\n - [VB-Cable](https:\u002F\u002Fvb-audio.com\u002FCable\u002F)\n - VtubeStudio\n\n\n## Installation\n\n1. Install the dependencies\n\n```\npip install -r requirements.txt\n```\n\n2. Create config.py and store your Openai API key\n\n```\napi_key = 'yourapikey'\n```\n\n3. Change the owner name\n\n```\nowner_name = \"Ardha\"\n```\n\nif you want to use it for livestream, create a list of users that you want to blacklist on `run.py`\n\n```\nblacklist = [\"Nightbot\", \"streamelements\"]\n```\n\n4. Change the lore or identity of your assistant. Change the txt file at `characterConfig\\Pina\\identity.txt`\n\n5. If you want to stream on Twitch you need to change the config file at `utils\u002Ftwitch_config.py`. Get your token from [Here](https:\u002F\u002Ftwitchapps.com\u002Ftmi\u002F). Your token should look something like oauth:43rip6j6fgio8n5xly1oum1lph8ikl1 (fake for this tutorial). After you change the config file, you can start the program using Mode - 3\n```\nserver = 'irc.chat.twitch.tv'\nport = 6667\nnickname = 'testing' # You don't need to change this\ntoken = 'oauth:43rip6j6fgio8n5xly1oum1lph8ikl1' # get it from https:\u002F\u002Ftwitchapps.com\u002Ftmi\u002F.\nuser = 'ardha27' # Your Twitch username\nchannel = '#aikohound' # The channel you want to retrieve messages from\n```\n\n6. Choose which TTS you want to use, `VoiceVox` or `Silero`. Uncomment and Comment to switch between them\n\n```\n# Choose between the available TTS engines\n# Japanese TTS\nvoicevox_tts(tts)\n\n# Silero TTS, Silero TTS can generate English, Russian, French, Hindi, Spanish, German, etc. Uncomment the line below. Make sure the input is in that language\n# silero_tts(tts_en, \"en\", \"v3_en\", \"en_21\")\n```\n\nIf you want to use VoiceVox, you need to run VoiceVox Engine first. You can run them on local using [VoiceVox Docker](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fvoicevox\u002Fvoicevox_engine) or on Google Colab using [VoiceVox Colab](https:\u002F\u002Fgithub.com\u002FSociallyIneptWeeb\u002FLanguageLeapAI\u002Fblob\u002Fmain\u002Fsrc\u002Frun_voicevox_colab.ipynb). If you use the Colab one, change `voicevox_url` on `utils\\TTS.py` using the link you get from Colab.\n\n```\nvoicevox_url = 'http:\u002F\u002Flocalhost:50021'\n```\n\nif you want to see the voice list of VoiceVox you can check this [VoiceVox](https:\u002F\u002Fvoicevox.hiroshiba.jp) and see the speaker id on `speaker.json` then change it on `utils\u002FTTS.py`. For Seliro Voice sample you can check this [Seliro Samples](https:\u002F\u002Foobabooga.github.io\u002Fsilero-samples\u002Findex.html)\n\n7. Choose which translator you want to use depends on your use case (optional if you need translation for the answers). Choose between google translate or deeplx. You need to convert the answer to Japanese if you want to use `VoiceVox`, because VoiceVox only accepts input in Japanese. The language answer from OpenAI will depens on your assistant lore language `characterConfig\\Pina\\identity.txt` and the input language\n\n```\ntts = translate_deeplx(text, f\"{detect}\", \"JA\")\ntts = translate_google(text, f\"{detect}\", \"JA\")\n```\n\n`DeepLx` is free version of `DeepL` (No API Key Required). You can run [Deeplx](https:\u002F\u002Fgithub.com\u002FOwO-Network\u002FDeepLX) on docker, or if you want to use the normal version of deepl, you can make the function on `utils\\translate.py`. I use `DeepLx` because i can't register on `DeepL` from my country. The translate result from `DeepL` is more accurate and casual than Google Translate. But if you want the simple way, just use Google Translate.\n\n8. If you want to use the audio output from the program as an input for your `Vtubestudio`. You will need to capture your desktop audio using `Virtual Cable` and use it as input on VtubeStudio microphone.\n\n9. If you planning to use this program for live streaming Use `chat.txt` and `output.txt` as an input on OBS Text for Realtime Caption\u002FSubtitles\n\n## FAQ\n\n1. Error Transcribing Audio\n\n```\ndef transcribe_audio(file):\n    global chat_now\n    try:\n        audio_file= open(file, \"rb\")\n        # Translating the audio to English\n        # transcript = openai.Audio.translate(\"whisper-1\", audio_file)\n        # Transcribe the audio to detected language\n        transcript = openai.Audio.transcribe(\"whisper-1\", audio_file)\n        chat_now = transcript.text\n        print (\"Question: \" + chat_now)\n    except:\n        print(\"Error transcribing audio\")\n        return\n\n    result = owner_name + \" said \" + chat_now\n    conversation.append({'role': 'user', 'content': result})\n    openai_answer()\n```\n\nChange this Line of Code to this. This will help you to get more information about the error\n\n```\ndef transcribe_audio(file):\n    global chat_now\n    audio_file= open(file, \"rb\")\n    # Translating the audio to English\n    # transcript = openai.Audio.translate(\"whisper-1\", audio_file)\n    # Transcribe the audio to detected language\n    transcript = openai.Audio.transcribe(\"whisper-1\", audio_file)\n    chat_now = transcript.text\n    print (\"Question: \" + chat_now)\n\n\n    result = owner_name + \" said \" + chat_now\n    conversation.append({'role': 'user', 'content': result})\n    openai_answer()\n```\n\nAnother option to solve this problem, you can upgrade the OpenAI library to the latest version. Make sure the program capture your voice\u002Fsentence, try to hear the `input.wav`\n\n2. Mecab Error\n\nthis library is a little bit tricky to install. If you facing this problem, you can just delete and don't use the `katakana_converter` on `utils\u002FTTS.py`. That function is optional, you can run the program without it. Delete this two line on `utils\u002FTTS.py`  \n\n```\nfrom utils.katakana import *\nkatakana_text = katakana_converter(tts)\n```\n\nand just pass the `tts` to next line of the code\n\n```\nparams_encoded = urllib.parse.urlencode({'text': tts, 'speaker': 46})\n```\n\n## Credits\n\nThis project is inspired by the work of shioridotdev. Special thanks to the creators of the technologies used in this project including VoiceVox Engine, DeepL, Whisper OpenAI, and VtubeStudio.\n\n","# 支持\n\n[![ko-fi](https:\u002F\u002Fko-fi.com\u002Fimg\u002Fgithubbutton_sm.svg)](https:\u002F\u002Fko-fi.com\u002FR6R7AH1FA)\n\n## 更新\n\nv3.5 现在也支持Twitch主播。\n\nv3.0 现在不仅支持使用VoiceVox的日语TTS，还支持使用Seliro TTS的俄语（RU）、英语（EN）、德语（DE）、西班牙语（ES）、法语（FR）、鞑靼语（TT）、乌克兰语（UA）、乌兹别克语（UZ）、卡尔梅克语（XAL）以及印地语等印度语言的TTS。只需将`run.py`中的`voicevox_tts`改为`seliro_tts`即可。有关如何使用[Seliro TTS](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models#text-to-speech)的详细信息，请参阅相关文档。\n\n## AI女友虚拟主播与助手\n\n该项目受到shioridotdev的启发，利用VoiceVox引擎、DeepL、Whisper OpenAI、Seliro TTS和VtubeStudio等多种技术，打造了一位AI女友虚拟主播。\n\n![我的远程图片](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fardha27_AI-Waifu-Vtuber_readme_23ea94f04512.png)\n\n## 演示\n - [演示](https:\u002F\u002Fwww.youtube.com\u002Fshorts\u002F_mKVr3ZaM9Q)\n - [直播测试](https:\u002F\u002Fyoutu.be\u002Fh6UEgJxH1-E?t=1616)\n - [代码讲解](https:\u002F\u002Fyoutu.be\u002FqpNG9qrcmrQ)\n - [片段](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=qTkESIBd5Qk)\n\n## 使用的技术\n - [VoiceVox Docker](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fvoicevox\u002Fvoicevox_engine) 或 [![在Colab中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002FSociallyIneptWeeb\u002FLanguageLeapAI\u002Fblob\u002Fmain\u002Fsrc\u002Frun_voicevox_colab.ipynb)\n - [DeepL](https:\u002F\u002Fwww.deepl.com\u002Ffr\u002Faccount\u002Fsummary)\n - [Deeplx](https:\u002F\u002Fgithub.com\u002FOwO-Network\u002FDeepLX)\n - [Whisper OpenAI](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys)\n - [Seliro TTS](https:\u002F\u002Fgithub.com\u002Fsnakers4\u002Fsilero-models#text-to-speech)\n - [VB-Cable](https:\u002F\u002Fvb-audio.com\u002FCable\u002F)\n - VtubeStudio\n\n\n## 安装\n1. 安装依赖项\n\n```\npip install -r requirements.txt\n```\n\n2. 创建`config.py`文件，并存储你的OpenAI API密钥\n\n```\napi_key = 'yourapikey'\n```\n\n3. 更改主人名称\n\n```\nowner_name = \"Ardha\"\n```\n\n如果你想用于直播，在`run.py`中创建一个你想要加入黑名单的用户列表：\n\n```\nblacklist = [\"Nightbot\", \"streamelements\"]\n```\n\n4. 修改你的助手的背景故事或身份。编辑`characterConfig\\Pina\\identity.txt`文件中的文本。\n\n5. 如果你想在Twitch上直播，需要修改`utils\u002Ftwitch_config.py`中的配置文件。从[这里](https:\u002F\u002Ftwitchapps.com\u002Ftmi\u002F)获取你的令牌。你的令牌看起来应该像这样：oauth:43rip6j6fgio8n5xly1oum1lph8ikl1（本教程中为假数据）。修改完配置文件后，你可以使用模式3启动程序：\n\n```\nserver = 'irc.chat.twitch.tv'\nport = 6667\nnickname = 'testing' # 无需更改\ntoken = 'oauth:43rip6j6fgio8n5xly1oum1lph8ikl1' # 从https:\u002F\u002Ftwitchapps.com\u002Ftmi\u002F获取。\nuser = 'ardha27' # 你的Twitch用户名\nchannel = '#aikohound' # 你想要接收消息的频道\n```\n\n6. 选择你要使用的TTS，是`VoiceVox`还是`Silero`。通过取消注释或注释来切换它们：\n\n```\n# 在可用的TTS引擎之间选择\n# 日语TTS\nvoicevox_tts(tts)\n\n# Silero TTS，Silero TTS可以生成英语、俄语、法语、印地语、西班牙语、德语等语言。取消下面一行的注释。确保输入是相应语言。\n# silero_tts(tts_en, \"en\", \"v3_en\", \"en_21\")\n```\n\n如果你想使用VoiceVox，你需要先运行VoiceVox引擎。你可以在本地使用[VoiceVox Docker](https:\u002F\u002Fhub.docker.com\u002Fr\u002Fvoicevox\u002Fvoicevox_engine)运行，或者在Google Colab上使用[VoiceVox Colab](https:\u002F\u002Fgithub.com\u002FSociallyIneptWeeb\u002FLanguageLeapAI\u002Fblob\u002Fmain\u002Fsrc\u002Frun_voicevox_colab.ipynb)运行。如果你使用Colab版本，需将`utils\\TTS.py`中的`voicevox_url`替换为你从Colab获得的链接。\n\n```\nvoicevox_url = 'http:\u002F\u002Flocalhost:50021'\n```\n\n如果你想查看VoiceVox的语音列表，可以访问[VoiceVox](https:\u002F\u002Fvoicevox.hiroshiba.jp)，并在`speaker.json`中找到说话人ID，然后在`utils\u002FTTS.py`中进行更改。关于Seliro的语音样本，可以参考[Seliro Samples](https:\u002F\u002Foobabooga.github.io\u002Fsilero-samples\u002Findex.html)。\n\n7. 根据你的使用场景选择要使用的翻译工具（如果回答需要翻译的话，此步骤可选）。可以选择谷歌翻译或Deeplx。如果你想使用VoiceVox，需要将回答翻译成日语，因为VoiceVox只接受日语输入。OpenAI返回的语言将取决于你的助手背景语言`characterConfig\\Pina\\identity.txt`以及输入语言：\n\n```\ntts = translate_deeplx(text, f\"{detect}\", \"JA\")\ntts = translate_google(text, f\"{detect}\", \"JA\")\n```\n\n`DeepLx`是`DeepL`的免费版本（无需API密钥）。你可以使用Docker运行[Deeplx](https:\u002F\u002Fgithub.com\u002FOwO-Network\u002FDeepLX)，或者如果你想使用正常的DeepL版本，可以在`utils\\translate.py`中实现该功能。我使用`DeepLx`是因为我无法从本国注册`DeepL`。`DeepL`的翻译结果比谷歌翻译更准确、更自然。但如果你想要简单的方法，直接使用谷歌翻译即可。\n\n8. 如果你想将程序输出的音频作为`Vtubestudio`的输入，你需要使用`Virtual Cable`捕获桌面音频，并将其用作VtubeStudio麦克风的输入。\n\n9. 如果你计划将此程序用于直播，可以将`chat.txt`和`output.txt`作为OBS文本源，以实现实时字幕。\n\n## 常见问题解答\n\n1. 音频转录错误\n\n```\ndef transcribe_audio(file):\n    global chat_now\n    try:\n        audio_file= open(file, \"rb\")\n        # 将音频翻译成英语\n        # transcript = openai.Audio.translate(\"whisper-1\", audio_file)\n        # 将音频转录为检测到的语言\n        transcript = openai.Audio.transcribe(\"whisper-1\", audio_file)\n        chat_now = transcript.text\n        print (\"Question: \" + chat_now)\n    except:\n        print(\"Error transcribing audio\")\n        return\n\n    result = owner_name + \" said \" + chat_now\n    conversation.append({'role': 'user', 'content': result})\n    openai_answer()\n```\n\n将这一行代码改为如下所示。这将有助于您获取更多关于错误的信息：\n\n```\ndef transcribe_audio(file):\n    global chat_now\n    audio_file= open(file, \"rb\")\n    # 将音频翻译成英语\n    # transcript = openai.Audio.translate(\"whisper-1\", audio_file)\n    # 将音频转录为检测到的语言\n    transcript = openai.Audio.transcribe(\"whisper-1\", audio_file)\n    chat_now = transcript.text\n    print (\"Question: \" + chat_now)\n\n\n    result = owner_name + \" said \" + chat_now\n    conversation.append({'role': 'user', 'content': result})\n    openai_answer()\n```\n\n解决此问题的另一个方法是将 OpenAI 库升级到最新版本。请确保程序能够正确捕捉您的语音\u002F句子，尝试播放 `input.wav` 文件以确认。\n\n2. Mecab 错误\n\n该库的安装稍显复杂。如果您遇到此问题，可以直接删除 `utils\u002FTTS.py` 中的 `katakana_converter` 函数并暂时不使用它。该函数为可选功能，您可以在不使用它的前提下运行程序。请在 `utils\u002FTTS.py` 中删除以下两行代码：\n\n```\nfrom utils.katakana import *\nkatakana_text = katakana_converter(tts)\n```\n\n然后直接将 `tts` 传递给下一行代码：\n\n```\nparams_encoded = urllib.parse.urlencode({'text': tts, 'speaker': 46})\n```\n\n## 致谢\n\n本项目灵感来源于 shioridotdev 的工作。特别感谢本项目中所使用技术的开发者，包括 VoiceVox 引擎、DeepL、Whisper OpenAI 和 VtubeStudio。","# AI-Waifu-Vtuber 快速上手指南\n\n本项目旨在利用 VoiceVox、DeepL、OpenAI Whisper 和 VTubeStudio 等技术，打造一个具备多语言支持的 AI 虚拟主播（VTuber）助手。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Windows \u002F Linux \u002F macOS\n- **Python**: 建议 Python 3.8 或更高版本\n- **网络**: 需能访问 OpenAI API、HuggingFace 模型库及 Docker Hub（如使用 Docker 部署 VoiceVox）\n\n### 前置依赖与工具\n在开始之前，请确保已安装或配置以下组件：\n1. **Python 依赖包**: 通过 `requirements.txt` 安装。\n2. **TTS 引擎 (二选一)**:\n   - **VoiceVox**: 仅支持日语。需本地运行 Docker 或在 Google Colab 运行。\n   - **Silero TTS**: 支持英、俄、德、西、法等多种语言。\n3. **翻译服务**:\n   - **DeepLX** (推荐): 免费无需 Key，需部署 Docker 或本地运行。\n   - **Google Translate**: 简单直接，无需额外部署。\n4. **音频路由**: 安装 [VB-Cable](https:\u002F\u002Fvb-audio.com\u002FCable\u002F) 用于将程序音频输出映射到 VTubeStudio 麦克风输入。\n5. **Live2D 模型软件**: 安装并运行 **VTubeStudio**。\n6. **API Key**: 拥有有效的 [OpenAI API Key](https:\u002F\u002Fplatform.openai.com\u002Faccount\u002Fapi-keys)。\n\n> **国内开发者提示**: \n> - 若无法直接访问 Docker Hub 拉取 `voicevox\u002Fvoicevox_engine`，建议使用阿里云或腾讯云容器镜像服务加速。\n> - 若无法访问 HuggingFace 下载 Silero 模型，可配置 `HF_ENDPOINT` 环境变量指向国内镜像（如 `https:\u002F\u002Fhf-mirror.com`）。\n\n## 安装步骤\n\n### 1. 克隆项目与安装依赖\n打开终端，进入项目目录并安装 Python 依赖：\n\n```bash\npip install -r requirements.txt\n```\n\n### 2. 配置 API 密钥与用户信息\n在项目根目录创建 `config.py` 文件，填入你的 OpenAI API Key 并设置所有者名称：\n\n```python\napi_key = 'yourapikey'\nowner_name = \"YourName\"\n```\n\n若计划进行直播推流，需在 `run.py` 中配置黑名单用户（过滤机器人消息）：\n\n```python\nblacklist = [\"Nightbot\", \"streamelements\"]\n```\n\n### 3. 设定角色人设\n编辑 `characterConfig\\Pina\\identity.txt` 文件，修改其中的内容以定义你的 AI 助手的性格、背景故事（Lore）及回答风格。\n\n### 4. 配置 TTS 与翻译引擎\n打开 `run.py` 或相关配置文件，根据需求选择引擎：\n\n**选择 TTS 引擎:**\n注释或取消注释对应行来切换。\n- **VoiceVox (日语)**: 需先启动 VoiceVox Engine。\n- **Silero (多语言)**: 支持英语等，需确保输入文本语言匹配。\n\n```python\n# Choose between the available TTS engines\n# Japanese TTS\nvoicevox_tts(tts)\n\n# Silero TTS (Uncomment for English, Russian, etc.)\n# silero_tts(tts_en, \"en\", \"v3_en\", \"en_21\")\n```\n\n**选择翻译引擎:**\n若使用 VoiceVox，必须将回答翻译为日语。在代码中选择 `translate_deeplx` 或 `translate_google`：\n\n```python\n# 推荐 DeepLX (更自然，免费)\ntts = translate_deeplx(text, f\"{detect}\", \"JA\")\n\n# 或使用 Google Translate\n# tts = translate_google(text, f\"{detect}\", \"JA\")\n```\n\n### 5. 配置 VoiceVox (如选用)\n若使用 VoiceVox，需确保引擎正在运行：\n- **本地运行**: 使用 Docker 启动 `voicevox\u002Fvoicevox_engine`。\n- **Colab 运行**: 在 Google Colab 运行相关 Notebook 获取 URL。\n\n修改 `utils\\TTS.py` 中的连接地址：\n```python\nvoicevox_url = 'http:\u002F\u002Flocalhost:50021' \n# 若使用 Colab，请将 localhost 替换为 Colab 提供的公网链接\n```\n*注：可在 `speaker.json` 中查看并修改 VoiceVox 的说话人 ID。*\n\n### 6. 配置 Twitch 直播 (可选)\n若需在 Twitch 上使用，编辑 `utils\u002Ftwitch_config.py`。从 [Twitch Apps](https:\u002F\u002Ftwitchapps.com\u002Ftmi\u002F) 获取 OAuth Token 并填入：\n\n```python\nserver = 'irc.chat.twitch.tv'\nport = 6667\nnickname = 'testing' \ntoken = 'oauth:43rip6j6fgio8n5xly1oum1lph8ikl1' # 替换为你的真实 Token\nuser = 'your_twitch_username' \nchannel = '#your_channel_name' \n```\n配置完成后，运行程序时选择 **Mode - 3**。\n\n## 基本使用\n\n### 1. 启动程序\n在终端运行主程序：\n```bash\npython run.py\n```\n根据提示选择运行模式（普通对话或直播模式）。\n\n### 2. 音频路由设置\n为了让 VTubeStudio 捕捉到 AI 的声音：\n1. 打开 **VB-Cable** 控制面板。\n2. 在本程序中，确保音频输出设备设置为 **CABLE Input**。\n3. 打开 **VTubeStudio**，进入麦克风设置，将输入设备设置为 **CABLE Output**。\n\n### 3. 直播字幕 (可选)\n若用于 OBS 直播推流：\n- 将 OBS 中的文本源分别指向 `chat.txt` (显示观众弹幕) 和 `output.txt` (显示 AI 回复)，即可实现实时字幕效果。\n\n### 4. 开始互动\n对着麦克风说话，程序将通过 Whisper 识别语音，经 OpenAI 处理后，由选定的 TTS 引擎生成语音并通过虚拟线缆播放，同时驱动 VTubeStudio 中的模型动作。","一位独立游戏开发者希望在 Twitch 上进行多语言直播，向全球观众展示新作，但受限于语言能力无法实时与英语、俄语及西班牙语观众互动。\n\n### 没有 AI-Waifu-Vtuber 时\n- 主播只能依靠有限的英语能力回应弹幕，面对俄语或西班牙语提问时往往选择忽略，导致大量海外观众流失。\n- 为了维持直播氛围，必须全程高度集中精神阅读并回复评论，无法专注于游戏操作或剧情讲解，直播效果大打折扣。\n- 若想实现多语言支持，需雇佣多名人工翻译或使用割裂的翻译软件，不仅成本高昂且延迟严重，互动体验支离破碎。\n- 虚拟形象（Live2D）缺乏自动驱动，主播需手动调整表情和口型，难以在激烈游戏过程中保持生动的“皮套”表现力。\n\n### 使用 AI-Waifu-Vtuber 后\n- 集成 Seliro TTS 与 Whisper 模型后，工具能自动识别英、俄、西等多国语言弹幕，并用对应语言的拟人化语音实时回复，打破语言壁垒。\n- AI 助手自动接管弹幕读取、翻译及回复流程，主播可全神贯注于游戏演示，同时由虚拟角色以自然语调与观众闲聊，提升直播观赏性。\n- 无需额外人力成本，通过配置 DeepLX 和本地 TTS 引擎，即可零延迟实现全自动多语言互译，让单人主播拥有国际化团队般的响应能力。\n- 联动 VTubeStudio 实现语音驱动口型与表情，当 AI 回答观众问题时，虚拟形象会同步做出自然的口型和神态变化，极大增强沉浸感。\n\nAI-Waifu-Vtuber 将单一语言的个人直播瞬间升级为具备多语言实时交互能力的全球化虚拟演播室，让创作者真正专注于内容本身。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fardha27_AI-Waifu-Vtuber_23ea94f0.png","ardha27","Ardha","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fardha27_3cc50c8b.png","interest in Technology and Content Creator fields, particularly in the areas of Internet of Things, Web , Android Development, and Artificial Intelligence",null,"Indonesia","https:\u002F\u002Fgithub.com\u002Fardha27",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",99.9,{"name":88,"color":89,"percentage":90},"Batchfile","#C1F12E",0.1,1067,171,"2026-04-20T06:56:46",4,"Windows, Linux, macOS","未说明 (主要依赖外部服务如 VoiceVox Docker\u002FColab 和 OpenAI API，本地 Silero TTS 通常仅需 CPU)","未说明",{"notes":99,"python":100,"dependencies":101},"1. 核心功能依赖外部服务：语音合成需自行部署 VoiceVox (推荐 Docker) 或使用 Google Colab，或使用 Silero TTS；翻译可使用免费的 DeepLX (需自行部署) 或 Google Translate；语音识别使用 OpenAI Whisper API。2. 虚拟主播动效需配合 VTubeStudio 软件使用。3. 直播推流需配置 Twitch OAuth Token。4. 音频路由需安装 VB-Cable 虚拟声卡将程序输出映射到 VTubeStudio 输入。5. 若遇到 Mecab 错误，可删除代码中的片假名转换功能以跳过该依赖。","未说明 (需支持 pip 安装 requirements.txt)",[102,103,104,105,106,107],"openai (Whisper\u002FAPI)","requests (用于 DeepLX\u002FTTS 调用)","pyaudio 或类似音频库 (隐含，用于录音)","VoiceVox Engine (外部依赖，可通过 Docker 运行)","Silero Models (通过代码调用)","VB-Cable (虚拟音频线软件)",[21],[110,111,112,113,114,115,116,117,118,119,120],"deepl","openai","speech-recognition","speech-synthesis","speech-to-text","tts","vtuber","whisper","ai-vtuber","ai-waifu","voicevox","2026-03-27T02:49:30.150509","2026-04-20T22:36:56.279907",[124,129,134,139,144,149],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},45855,"Twitch 直播模式下提示 'Error receiving chat' 无法接收消息怎么办？","检查 Twitch 配置代码中的 CHANNEL 变量，确保频道名称前加了 '#' 符号（例如 '#GrigorZero'）。此外，确保 NICKNAME、TOKEN 和 CHANNEL 填写正确。如果仍然报错，可以尝试直接在 run.py 中修改 twitch_chats 函数的相关逻辑，而不是仅在配置文件中修改。","https:\u002F\u002Fgithub.com\u002Fardha27\u002FAI-Waifu-Vtuber\u002Fissues\u002F23",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},45853,"运行程序时出现 'Error transcribing audio' 错误怎么办？","这通常是因为 Voicevox 未能成功生成或合成音频，导致播放的仍是旧的 output.wav 文件。解决方法是检查 utils\u002FTTS.py 文件，尝试直接调用其中的 voicevox 函数进行测试。如果使用的是 Colab Vox，请确保在 TTS.py 中将 voicevox 的 URL 链接更改为你从 Colab 获取的最新链接。","https:\u002F\u002Fgithub.com\u002Fardha27\u002FAI-Waifu-Vtuber\u002Fissues\u002F5",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},45854,"安装依赖时 PYAudio 失败或提示找不到 'keyboard' 模块如何解决？","首先确保使用的 googletrans 版本与 requirements.txt 中指定的版本一致。对于 PYAudio 安装失败的问题，可能需要手动安装预编译的二进制文件或安装构建工具。如果遇到 'No module named keyboard'，请确认是否已正确执行 pip install -r requirements.txt 且所有依赖均安装成功。","https:\u002F\u002Fgithub.com\u002Fardha27\u002FAI-Waifu-Vtuber\u002Fissues\u002F27",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},45856,"运行时报错 'UnboundLocalError: cannot access local variable transcript' 如何修复？","该错误通常发生在处理聊天消息的逻辑中。尝试找到代码中包含 'if c.author.isChatOwner or c.author.name == 'Nightbot':' 的行，删除其中的 'c.author.isChatOwner' 部分。这行代码原本用于忽略房主或 Nightbot 的消息，但可能导致变量未赋值。","https:\u002F\u002Fgithub.com\u002Fardha27\u002FAI-Waifu-Vtuber\u002Fissues\u002F1",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},45857,"如何在不使用 OpenAI API 的情况下免费获得 AI 回答？","可以集成 text-generation-webui 或使用 gpt4all 等本地模型来替代 OpenAI API。用户可以通过文本输入获取回答，并将生成的文本传递给语音合成函数。此外，可以通过 VB-Audio Virtual Cable 将生成的音频连接到虚拟扬声器，从而驱动 VTuber 模型口型，实现完全免费的本地化运行。","https:\u002F\u002Fgithub.com\u002Fardha27\u002FAI-Waifu-Vtuber\u002Fissues\u002F13",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},45858,"更新最新版本后运行出现奇怪错误或 MeCab 相关错误怎么办？","如果是更新后出现的问题，可能是 MeCab（日语分词工具）配置错误或缺失。请检查系统是否正确安装了 MeCab 及其相关字典。如果是 Windows 用户，可能需要重新安装支持日语的 MeCab 包，或者回退到之前的稳定版本直到问题被修复。","https:\u002F\u002Fgithub.com\u002Fardha27\u002FAI-Waifu-Vtuber\u002Fissues\u002F28",[]]