[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MycroftAI--mimic-recording-studio":3,"tool-MycroftAI--mimic-recording-studio":64},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},8436,"Real-Time-Voice-Cloning","CorentinJ\u002FReal-Time-Voice-Cloning","Real-Time-Voice-Cloning 是一款开源的实时语音克隆工具，旨在通过短短 5 秒的音频样本，快速复刻说话人的声音特征，并即时生成任意文本的语音内容。它有效解决了传统语音合成需要大量训练数据且无法实时响应的痛点，让个性化语音生成变得轻量且高效。\n\n该项目的核心技术基于 SV2TTS（从说话人验证到多说话人文本转语音的迁移学习）深度学习框架。其工作流程分为三个阶段：首先从少量音频中提取说话人的数字声纹表示，随后将其作为参考，结合 Tacotron 合成器与 WaveRNN 声码器，高质量地生成目标语音。这种架构不仅实现了端到端的语音合成，还保证了在普通硬件上的实时运行能力。\n\nReal-Time-Voice-Cloning 非常适合开发者、人工智能研究人员以及对语音技术感兴趣的技术爱好者使用。开发者可以将其集成到互动应用中，研究人员可借此探索语音迁移学习的前沿进展，而具备一定动手能力的普通用户也能通过提供的图形界面工具箱，轻松体验“声音复制”的乐趣。尽管目前已有商业服务在音质上表现更佳，但作为一款免费开源项目，它依然是理解和学习实时语音合成技术的绝佳入门资源。",59627,3,"2026-04-16T23:06:58",[21,20],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,"2026-04-05T22:15:46",[21],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":29,"last_commit_at":62,"category_tags":63,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":80,"owner_website":82,"owner_url":83,"languages":84,"stars":113,"forks":114,"last_commit_at":115,"license":116,"difficulty_score":29,"env_os":117,"env_gpu":118,"env_ram":118,"env_deps":119,"category_tags":133,"github_topics":134,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":146,"updated_at":147,"faqs":148,"releases":183},8613,"MycroftAI\u002Fmimic-recording-studio","mimic-recording-studio","Mimic Recording Studio is a Docker-based application you can install to record voice samples, which can then be trained into a TTS voice with Mimic2","Mimic Recording Studio 是一款基于 Docker 部署的开源应用，旨在帮助用户轻松录制语音样本，并将其训练成专属的 Mimic 2 文本转语音（TTS）模型。作为 Mycroft AI 生态的一部分，它解决了传统语音数据采集流程复杂、门槛高的问题，将原本繁琐的录音整理工作简化为直观的网页操作界面。\n\n通过该工具，用户可以系统地录制特定语料库中的句子，系统会自动将音频保存为标准的 WAV 格式并生成对应的元数据文件，确保数据质量符合机器学习训练要求。其核心技术亮点在于跨平台的一致性体验：利用 Docker 容器化技术，无论是在 Windows、Linux 还是 macOS 上，用户只需几条命令即可完成环境搭建与运行，避免了复杂的依赖配置困扰。此外，它还支持前后端分离的手动部署模式，为深度定制提供了灵活性。\n\n这款软件非常适合希望创建个性化语音助手的开发者、从事语音合成研究的研究人员，以及想要为开源社区贡献独特语音数据的普通用户。对于不熟悉底层技术的用户，其“一键启动”特性极大地降低了参与门槛；而对于专业人员，透明的数据结构和管理后台则便于后续的数据分析与模型微调。未","Mimic Recording Studio 是一款基于 Docker 部署的开源应用，旨在帮助用户轻松录制语音样本，并将其训练成专属的 Mimic 2 文本转语音（TTS）模型。作为 Mycroft AI 生态的一部分，它解决了传统语音数据采集流程复杂、门槛高的问题，将原本繁琐的录音整理工作简化为直观的网页操作界面。\n\n通过该工具，用户可以系统地录制特定语料库中的句子，系统会自动将音频保存为标准的 WAV 格式并生成对应的元数据文件，确保数据质量符合机器学习训练要求。其核心技术亮点在于跨平台的一致性体验：利用 Docker 容器化技术，无论是在 Windows、Linux 还是 macOS 上，用户只需几条命令即可完成环境搭建与运行，避免了复杂的依赖配置困扰。此外，它还支持前后端分离的手动部署模式，为深度定制提供了灵活性。\n\n这款软件非常适合希望创建个性化语音助手的开发者、从事语音合成研究的研究人员，以及想要为开源社区贡献独特语音数据的普通用户。对于不熟悉底层技术的用户，其“一键启动”特性极大地降低了参与门槛；而对于专业人员，透明的数据结构和管理后台则便于后续的数据分析与模型微调。未来，该项目还计划推出无需本地部署的在线托管版本，让语音模型的创建变得更加触手可及。","# Mimic Recording Studio\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_fe4d0c77873f.gif)\n\n- [Mimic Recording Studio](#mimic-recording-studio)\n  * [Software Quick Start](#software-quick-start)\n    + [Windows self-hosted Quick Start](#windows-self-hosted-quick-start)\n    + [Linux\u002FMac self-hosted Quick Start](#linuxmac-self-hosted-quick-start)\n      - [Install Dependencies](#install-dependencies)\n      - [Build and Run](#build-and-run)\n    + [Manual Install, Build and Start](#manual-install--build-and-start)\n      - [Backend](#backend)\n        * [Dependencies](#dependencies)\n        * [Build & Run](#build---run)\n      - [Frontend](#frontend)\n        * [Dependencies](#dependencies-1)\n        * [Build & Run](#build---run-1)\n    + [Coming soon!](#coming-soon-)\n  * [Data](#data)\n    + [Audio Recordings](#audio-recordings)\n      - [WAV files](#wav-files)\n      - [{uuid}-metadata.txt](#-uuid--metadatatxt)\n    + [Corpus](#corpus)\n      - [Corpora in other languages](#corpora-in-other-languages)\n  * [Technologies](#technologies)\n    + [Frontend](#frontend-1)\n      - [Functions](#functions)\n    + [Backend](#backend-1)\n      - [Functions](#functions-1)\n    + [Docker](#docker)\n- [Recording Tips](#recording-tips)\n- [Advanced](#advanced)\n  * [Query database structure](#query-database-structure)\n    * [Table \"audiomodel\"](#table-\"audiomodel\")\n    * [Table \"usermodel\"](#table-\"usermodel\")\n  * [Modify recorder uuid](#modify-recorder-uuid)\n- [Providing your recording to Mycroft for training](#providing-your-recording-to-mycroft-for-training)\n- [Contributions](#contributions)\n- [Where to get support and assistance](#where-to-get-support-and-assistance)\n\nThe [Mycroft](https:\u002F\u002Fmycroft.ai) open source Mimic technologies are\nText-to-Speech engines which take a piece of written text and convert it into\nspoken audio. The latest generation of this technology,\n[Mimic 2](https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic2), uses machine learning techniques\nto create a model which can speak a specific language, sounding like the voice\non which it was trained.\n\nThe Mimic Recording Studio simplifies the collection of training data from\nindividuals, each of which can be used to produce a distinct voice for Mimic.\n\n\n\n## Software Quick Start\n\n### Windows self-hosted Quick Start\n\n* `git clone https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio.git`\n* `cd mimic-recording-studio`\n* `start-windows.bat`\n\n\n### Linux\u002FMac self-hosted Quick Start\n\n#### Install Dependencies\n* [Docker](https:\u002F\u002Fdocs.docker.com\u002F) (community edition is fine)\n* [Docker Compose](https:\u002F\u002Fdocs.docker.com\u002Fcompose\u002Finstall\u002F)\n\nWhy docker? To make this super easy to set up and run cross platforms.\n\n#### Build and Run\n\n* `git clone https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio.git`\n* `cd mimic-recording-studio`\n* `docker-compose up` to build and run (_Note: You may need to use `sudo docker-compose up` depending on your distribution_)\n\n  Alternatively, you can build and run separately. `docker-compose build` then `docker-compose up`\n* In your browser, go to `http:\u002F\u002Flocalhost:3000`\n\n**Note:**\nThe first execution of `docker-compose up` will take a while as this command will also build the docker containers. Subsequent executions of `docker-compose up` should be quicker to boot.\n\n### Manual Install, Build and Start\n\n#### Backend\n\n##### Dependencies\n\n* python 3.5 +\n* [ffmpeg](https:\u002F\u002Fwww.ffmpeg.org\u002F)\n\n##### Build & Run\n\n* `cd backend\u002F`\n* `pip install -r requirements.txt`\n* `python run.py`\n\n#### Frontend\n\n##### Dependencies\n\n* [node & npm](https:\u002F\u002Fnodejs.org\u002Fen\u002F)\n* [create-react-app](https:\u002F\u002Fgithub.com\u002Ffacebook\u002Fcreate-react-app)\n* [yarn](https:\u002F\u002Fyarnpkg.com\u002Fen\u002F) - optional for faster build, install, and start\n\n##### Build & Run\n\n* `cd frontend\u002F`\n* `npm install`, alternatively `yarn install`\n* `npm start`, alternatively `yarn start`\n\n### Coming soon!\nOnline, http:\u002F\u002Fmimic.mycroft.ai hosted version requiring zero setup.\n\n\n## Data\n\n### Audio Recordings\n\n#### WAV files\n\nAudio is saved as WAV files to the `backend\u002Faudio_file\u002F{uuid}\u002F` directory. The\nbackend automatically trims the beginning and ending silence for all WAV files\nusing [ffmpeg](https:\u002F\u002Fwww.ffmpeg.org\u002F).\n\n#### {uuid}-metadata.txt\n\nMetadata is also saved to `backend\u002Faudio_file\u002F{uuid}\u002F`. This file maps the WAV\nfile name to the phrase spoken. This along with the WAV files are what you\nneeded to get started on training [Mimic 2](https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic2).\n\n### Corpus\n\nFor now, we have an English corpus, `english_corpus.csv` made available which\ncan be found in `backend\u002Fprompt\u002F`. To use your own corpus follow these steps.\n\n1. Create a csv file in the same format as `english_corpus.csv` using tabs\n   (`\\t`) as the delimiter.\n2. Make sure there are no empty lines in the corpus\n3. Add your corpus to the `backend\u002Fprompt` directory.\n4. Change the `CORPUS` environment variable in `docker-compose.yml` to your\n   corpus name.\n   \n#### Corpora in other languages\n\nIf you wish to develop a corpus in a language other than English, then Mimic Recording Studio can be used to produce voice recordings for TTS voices in additional languages. If you are building a corpus in a language other than English, we encourage you to choose phrases which: \n\n* occur in natural, everyday speech in the target language\n* have a variety of string lengths\n* cover a wide variety of _phonemes_ (basic sounds)\n\n**IMPORTANT:**\nFor now, you must reset the `sqlite` database to use a new corpus. If you've\nrecorded on another corpus and would like to save that data, you can simply\nrename your `sqlite` db found in `backend\u002Fdb\u002F` to another name. The backend will\ndetect that `mimicstudio.db` is not there and create a new one for you. You may\ncontinue recording data for your new corpus.\n\n## Technologies\n\n### Frontend\n\nThe web UI is built using Javascript and [React](https:\u002F\u002Freactjs.org\u002F) and\n[create-react-app](https:\u002F\u002Fgithub.com\u002Ffacebook\u002Fcreate-react-app) as a\nscaffolding tool. Refer to [CRA.md](\u002Ffrontend\u002FCRA.md) to find out more on how to\nuse create-react-app.\n\n#### Functions\n\n* Record and play audio\n* Generate audio visualization\n* Calculate and display metrics\n\n### Backend\n\nThe web service is built using Python, [Flask](http:\u002F\u002Fflask.pocoo.org\u002F) as the\nbackend framework, [gunicorn](https:\u002F\u002Fgunicorn.org\u002F) as a http webserver, and\n[sqlite](https:\u002F\u002Fwww.sqlite.org\u002Findex.html) as the database.\n\n#### Functions\n\n* Process audio\n* Serves corpus and metrics data\n* Record info in database\n* Record data to the file system\n\n### Docker\n\nDocker is used to containerize both applications. By default, the frontend uses\nnetwork port `3000` while the backend uses networking port `5000`. You can\nconfigure these in the `docker-compose.yml` file.\n\n_NOTE: If you are running `docker-registry`, this runs by default on port `5000`, so you will need to change which port you use._\n\n# Recording Tips\n\nCreating a voice requires an achievable, but significant effort. An individual will need to record 15,000 - 20,000 phrases.  In order to get the best possible Mimic voice, the recordings need to be clean and consistent. To  that end, follow these recommendations:\n\n* Record in a quiet environment with noise-dampening material.\n  If your ears can hear outside noise, so can the microphone. For best results,\n  even the sound of air conditioning blowing through a vent should be avoided.\n  Bare walls create subtle echoes and reverberation.  A sound dampening booth\n  is ideal, but you can also create a homemade recording studio using soft\n  materials such as acoustic foam in a closet.  Comforters and mattresses can\n  also be used effectively!\n* Speak at a consistent volume and speed.  Rushing through the phrases will only\n  result in a lower quality voice.\n* Use a quality microphone.\n  To obtain consistent results, we recommend a headset microphone so your mouth\n  is always the same distance from the mic.\n* Avoid vocal fatigue.\n  Record a maximum of 4 hours a day, taking a break every half hour.\n* Backup your Mimic-Recording-Studio directory on a regular basis to avoid data loss.\n\n# Advanced\n\n## Query database structure\nMimic-Recording-Studio writes all recordings in a sqlite database file located under \u002Fbackend\u002Fdb\u002F. This can be opened with database tools like DBeaver.\n\nThe database includes two tables.\n\n![database_table_overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_765b44367237.png)\n\n### Table \"audiomodel\"\nAll recordings are persisted in this table with \n* recording timestamp (created_date)\n* uuid of speaker (matches the filesystem path under \u002Fbackend\u002Faudio_files\u002Fid)\n* wav filename in filesystem (audio_id)\n* text of recorded phrase (phrase)\n\nThe database can be used to query your recordings.\n\nHere are some example queries:\n\n```sql\n-- List all recordings\nSELECT * FROM audiomodel;\n\n-- Lists recordings from january 2020 order by phrase\nSELECT * FROM audiomodel WHERE created_date BETWEEN '2020-01-01' AND '2020-01-31' ORDER BY prompt;\n\n-- Lists number of recordings per day\nSELECT DATE(created_date), COUNT(*) AS RecordingsPerDay\nFROM audiomodel\nGROUP BY DATE(created_date )\nORDER BY DATE(created_date)\n\n-- Shows average text length of recordings\nSELECT AVG(LENGTH(prompt)) AS avgLength FROM audiomodel\n```\n\nThere are many ways that querying the sqlite database might be useful. For example, looking for recordings in a specific time range might help to remove recordings made in a bad environment.\n\n### Table \"usermodel\"\nMimic-Recording-Studio can be used by more than one speaker using the same sqlite database file.\n\nThis tables provides following informations per speaker:\n* Unique identifier of speaker (uuid)\n* Name of speaker (user_name)\n* Newest recorded line number of corpus (prompt_num)\n* Total recording time (total_time_spoken)\n* How many chars have been recorded (len_char_spoken)\n\nThese values are used to calculate metrics. For example, the speaking pace may show if the recorded phrase is too fast or slow compared to previous recordings.\n\nQuery table \"usermodel\" to get a list of speakers including uuid and some recording statistics on them.\n\n```sql\nSELECT user_name AS [name], uuid FROM usermodel;\n```\n\n![database_table_usermodel](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_578aafdc5097.png)\n\n\n## Modify recorder uuid\nThe browser used to record your phrases persists the users `uuid` and `name` in it's localStorage to keep it synchronous with sqlite and filesystem.\n\nIf a problem occurs and your browser looses\u002Fchanges uuid mapping for Mimic-Recording-Studio you could have difficulties to continue a previous recording session.\nThen update the following two attributes in localStorage of your browser:\n\n* uuid ([Query table \"usermodel\"](#table-\"usermodel\") or check filesystem path under \u002Fbackend\u002Faudio_files\u002F)\n* name ([Query table \"usermodel\"](#table-\"usermodel\"))\n\n\nOpen Mimic-Recording-Studio in your browser, jump to web-developer options, localStorage and set name and uuid to the original values.\n\n![browser_local_storage](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_41308f714210.png)\n\nAfter that you should be able to continue your previous recording session without further problems.\n\n# Providing your recording to Mycroft for training\n\nWe welcome your voice donations to Mycroft for use in Text-to-Speech applications. If you would like to provide your voice recordings, you _must_ license them to us under the Creative Commons [CC0 Public Domain license](https:\u002F\u002Fcreativecommons.org\u002Fshare-your-work\u002Fpublic-domain\u002Fcc0\u002F) so that we can utilise them in TTS voices - which are derivative works. If you're ready to donate your voice recordings, email us at hello@mycroft.ai. \n\n# Contributions\n\nPR's are gladly accepted!\n\n# Where to get support and assistance\n\nYou can get help and support with Mimic Recording Studio at; \n\n* The [Mycroft Forum](https:\u002F\u002Fcommunity.mycroft.ai)\n* In [Mycroft Chat](https:\u002F\u002Fchat.mycroft.ai)\n","# 模仿录音工作室\n\n![demo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_fe4d0c77873f.gif)\n\n- [模仿录音工作室](#mimic-recording-studio)\n  * [软件快速入门](#software-quick-start)\n    + [Windows 自托管快速入门](#windows-self-hosted-quick-start)\n    + [Linux\u002FMac 自托管快速入门](#linuxmac-self-hosted-quick-start)\n      - [安装依赖](#install-dependencies)\n      - [构建并运行](#build-and-run)\n    + [手动安装、构建和启动](#manual-install--build-and-start)\n      - [后端](#backend)\n        * [依赖](#dependencies)\n        * [构建与运行](#build---run)\n      - [前端](#frontend)\n        * [依赖](#dependencies-1)\n        * [构建与运行](#build---run-1)\n    + [即将推出！](#coming-soon-)\n  * [数据](#data)\n    + [音频录制](#audio-recordings)\n      - [WAV 文件](#wav-files)\n      - [{uuid}-metadata.txt](#-uuid--metadatatxt)\n    + [语料库](#corpus)\n      - [其他语言的语料库](#corpora-in-other-languages)\n  * [技术](#technologies)\n    + [前端](#frontend-1)\n      - [功能](#functions)\n    + [后端](#backend-1)\n      - [功能](#functions-1)\n    + [Docker](#docker)\n- [录音技巧](#recording-tips)\n- [高级功能](#advanced)\n  * [查询数据库结构](#query-database-structure)\n    * [表 \"audiomodel\"](#table-\"audiomodel\")\n    * [表 \"usermodel\"](#table-\"usermodel\")\n  * [修改录音者 UUID](#modify-recorder-uuid)\n- [将您的录音提供给 Mycroft 用于训练](#providing-your-recording-to-mycroft-for-training)\n- [贡献](#contributions)\n- [获取支持与帮助的途径](#where-to-get-support-and-assistance)\n\nMycroft（https:\u002F\u002Fmycroft.ai）开源的 Mimic 技术是一种文本转语音引擎，它能够将一段书面文本转换成语音。最新一代的技术——Mimic 2（https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic2）——使用机器学习技术来创建一个可以以特定语言发声的模型，其声音听起来就像被用来训练它的那个人的声音。\n\n模仿录音工作室简化了从个人那里收集训练数据的过程，而每一份数据都可以用来为 Mimic 制作独特的语音。\n\n\n\n## 软件快速入门\n\n### Windows 自托管快速入门\n\n* `git clone https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio.git`\n* `cd mimic-recording-studio`\n* `start-windows.bat`\n\n\n### Linux\u002FMac 自托管快速入门\n\n#### 安装依赖\n* [Docker](https:\u002F\u002Fdocs.docker.com\u002F)（社区版即可）\n* [Docker Compose](https:\u002F\u002Fdocs.docker.com\u002Fcompose\u002Finstall\u002F)\n\n为什么要用 Docker？因为它可以让跨平台的设置和运行变得非常简单。\n\n#### 构建并运行\n\n* `git clone https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio.git`\n* `cd mimic-recording-studio`\n* `docker-compose up` 来构建并运行（注意：根据你的发行版，你可能需要使用 `sudo docker-compose up`）\n\n或者，你可以分别构建和运行。先执行 `docker-compose build`，再执行 `docker-compose up`。\n\n* 在浏览器中，访问 `http:\u002F\u002Flocalhost:3000`\n\n**注意：**\n首次执行 `docker-compose up` 会花费一些时间，因为该命令也会构建 Docker 容器。之后再次执行 `docker-compose up` 时，启动速度应该会更快。\n\n### 手动安装、构建和启动\n\n#### 后端\n\n##### 依赖\n\n* Python 3.5+\n* [ffmpeg](https:\u002F\u002Fwww.ffmpeg.org\u002F)\n\n##### 构建与运行\n\n* `cd backend\u002F`\n* `pip install -r requirements.txt`\n* `python run.py`\n\n#### 端\n\n##### 依赖\n\n* [node 和 npm](https:\u002F\u002Fnodejs.org\u002Fen\u002F)\n* [create-react-app](https:\u002F\u002Fgithub.com\u002Ffacebook\u002Fcreate-react-app)\n* [yarn](https:\u002F\u002Fyarnpkg.com\u002Fen\u002F)——可选，用于更快地构建、安装和启动\n\n##### 构建与运行\n\n* `cd frontend\u002F`\n* `npm install`，或者使用 `yarn install`\n* `npm start`，或者使用 `yarn start`\n\n### 即将推出！\n在线版本 http:\u002F\u002Fmimic.mycroft.ai，无需任何设置即可使用。\n\n\n## 数据\n\n### 音频录制\n\n#### WAV 文件\n\n音频以 WAV 文件的形式保存在 `backend\u002Faudio_file\u002F{uuid}\u002F` 目录下。后端会自动使用 [ffmpeg](https:\u002F\u002Fwww.ffmpeg.org\u002F) 剪掉所有 WAV 文件开头和结尾的静音部分。\n\n#### {uuid}-metadata.txt\n\n元数据也被保存到 `backend\u002Faudio_file\u002F{uuid}\u002F` 目录中。这个文件将 WAV 文件名与所录制的句子对应起来。这些 WAV 文件以及元数据就是你开始训练 [Mimic 2](https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic2) 所需的一切。\n\n### 语料库\n\n目前我们提供了一个英语语料库 `english_corpus.csv`，位于 `backend\u002Fprompt\u002F` 目录中。如果你想使用自己的语料库，请按照以下步骤操作：\n\n1. 创建一个格式与 `english_corpus.csv` 相同的 CSV 文件，使用制表符 (`\\t`) 作为分隔符。\n2. 确保语料库中没有空行。\n3. 将你的语料库添加到 `backend\u002Fprompt` 目录中。\n4. 修改 `docker-compose.yml` 文件中的 `CORPUS` 环境变量，将其设置为你使用的语料库名称。\n   \n#### 其他语言的语料库\n\n如果你希望开发除英语之外的语言的语料库，那么模仿录音工作室可以用来为 TTS 语音生成额外语言的语音录音。如果你正在构建非英语语料库，我们建议你选择以下类型的短语：\n\n* 在目标语言的日常自然对话中经常出现\n* 具有多种不同的长度\n* 覆盖广泛的 _音素_（基本发音）\n\n**重要提示：**\n目前，你需要重置 `sqlite` 数据库才能使用新的语料库。如果你之前已经录制过其他语料库的数据，并且想保留这些数据，只需将 `backend\u002Fdb\u002F` 目录下的 `mimicstudio.db` 数据库文件重命名为其他名称即可。后端会检测到 `mimicstudio.db` 文件不存在，然后为你创建一个新的数据库。你可以继续为新的语料库录制数据。\n\n## 技术\n\n### 端\n\nWeb 界面是使用 JavaScript 和 [React](https:\u002F\u002Freactjs.org\u002F) 构建的，同时以 [create-react-app](https:\u002F\u002Fgithub.com\u002Ffacebook\u002Fcreate-react-app) 作为脚手架工具。更多关于如何使用 create-react-app 的信息，请参阅 [CRA.md](\u002Ffrontend\u002FCRA.md)。\n\n#### 功能\n\n* 录制和播放音频\n* 生成音频可视化效果\n* 计算并显示各项指标\n\n### 后端\n\nWeb 服务是使用 Python 构建的，后端框架为 [Flask](http:\u002F\u002Fflask.pocoo.org\u002F)、HTTP 服务器为 [gunicorn](https:\u002F\u002Fgunicorn.org\u002F)，数据库则使用 [sqlite](https:\u002F\u002Fwww.sqlite.org\u002Findex.html)。\n\n#### 功能\n\n* 处理音频\n* 提供语料库和指标数据\n* 将信息记录到数据库中\n* 将数据保存到文件系统中\n\n### Docker\n\nDocker 用于对两个应用程序进行容器化。默认情况下，前端使用网络端口 `3000`，而后端使用网络端口 `5000`。你可以在 `docker-compose.yml` 文件中配置这些端口。\n\n**注意：** 如果你正在运行 `docker-registry`，它默认使用端口 `5000`，因此你需要更改使用的端口。\n\n# 录音技巧\n\n创建一个人声需要付出切实可行但相当大的努力。个人需要录制15,000至20,000个句子。为了获得最佳的Mimic语音效果，录音必须干净且一致。为此，请遵循以下建议：\n\n* 在安静的环境中使用吸音材料进行录音。\n  如果你的耳朵能听到外界噪音，麦克风同样会捕捉到。为达到最佳效果，\n  即使是空调通过通风口吹出的声音也应尽量避免。光秃秃的墙壁会产生细微的回声和混响。理想的录音环境是隔音棚，但你也可以用柔软材料（如隔音泡沫）在衣柜里搭建一个简易录音室。被子和床垫也能有效发挥作用！\n* 以稳定的音量和语速说话。如果匆匆忙忙地念完所有句子，只会导致语音质量下降。\n* 使用高质量的麦克风。\n  为了确保录音的一致性，我们建议使用头戴式麦克风，这样你的嘴巴与麦克风的距离始终保持不变。\n* 避免声音疲劳。\n  每天最多录音4小时，每半小时休息一次。\n* 定期备份Mimic-Recording-Studio目录，以防数据丢失。\n\n# 进阶\n\n## 查询数据库结构\nMimic-Recording-Studio会将所有录音保存在一个位于\u002Fbackend\u002Fdb\u002F目录下的SQLite数据库文件中。可以使用DBeaver等数据库工具打开该文件。\n\n数据库包含两张表。\n\n![database_table_overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_765b44367237.png)\n\n### 表“audiomodel”\n所有录音都存储在这张表中，包括：\n* 录音时间戳（created_date）\n* 发言者的UUID（与\u002Fbackend\u002Faudio_files\u002Fid目录下的文件路径匹配）\n* 文件系统中的WAV文件名（audio_id）\n* 录制的句子文本（phrase）\n\n可以通过数据库查询你的录音内容。\n\n以下是一些示例查询：\n\n```sql\n-- 列出所有录音\nSELECT * FROM audiomodel;\n\n-- 按句子顺序列出2020年1月的所有录音\nSELECT * FROM audiomodel WHERE created_date BETWEEN '2020-01-01' AND '2020-01-31' ORDER BY prompt;\n\n-- 统计每天的录音数量\nSELECT DATE(created_date), COUNT(*) AS RecordingsPerDay\nFROM audiomodel\nGROUP BY DATE(created_date )\nORDER BY DATE(created_date);\n\n-- 显示录音的平均文本长度\nSELECT AVG(LENGTH(prompt)) AS avgLength FROM audiomodel\n```\n\n查询SQLite数据库有许多用途。例如，查找特定时间段内的录音可以帮助你剔除那些在不良环境下录制的内容。\n\n### 表“usermodel”\nMimic-Recording-Studio允许多个发言者共享同一个SQLite数据库文件。\n\n这张表为每个发言者提供以下信息：\n* 发言者的唯一标识符（uuid）\n* 发言者姓名（user_name）\n* 最新录制的语料库行号（prompt_num）\n* 总录音时长（total_time_spoken）\n* 已录制的字符数（len_char_spoken）\n\n这些值用于计算各项指标。例如，语速可以帮助判断当前录制的句子是否比之前的录音过快或过慢。\n\n查询表“usermodel”可以获取发言者列表，包括他们的UUID及一些录音统计数据。\n\n```sql\nSELECT user_name AS [name], uuid FROM usermodel;\n```\n\n![database_table_usermodel](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_578aafdc5097.png)\n\n\n## 修改录音器UUID\n用于录制句子的浏览器会将其本地存储中保存用户的`uuid`和`name`，以便与SQLite数据库和文件系统保持同步。如果出现问题，导致浏览器丢失或更改了Mimic-Recording-Studio的UUID映射，你可能会难以继续之前的录音会话。此时，你需要更新浏览器本地存储中的以下两项属性：\n\n* uuid（可通过查询表“usermodel”获得，或查看\u002Fbackend\u002Faudio_files\u002F目录下的文件路径）\n* 姓名（可通过查询表“usermodel”获得）\n\n\n在浏览器中打开Mimic-Recording-Studio，进入开发者选项，找到本地存储，并将姓名和UUID设置回原始值。\n\n![browser_local_storage](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_readme_41308f714210.png)\n\n完成上述操作后，你应该能够顺利继续之前的录音会话，不再遇到问题。\n\n# 向Mycroft提供你的录音用于训练\n\n我们欢迎你向Mycroft捐赠自己的声音，用于文本转语音应用。如果你希望提供自己的录音，你必须按照知识共享协议[CC0公共领域许可](https:\u002F\u002Fcreativecommons.org\u002Fshare-your-work\u002Fpublic-domain\u002Fcc0\u002F)授权给我们，以便我们能够在TTS语音中使用这些录音——因为TTS语音属于衍生作品。如果你准备捐赠自己的录音，请发送邮件至hello@mycroft.ai。\n\n# 贡献\n\n我们非常欢迎Pull Request！\n\n# 获取支持与帮助的途径\n\n你可以在以下地方获得关于Mimic Recording Studio的帮助和支持：\n\n* [Mycroft论坛](https:\u002F\u002Fcommunity.mycroft.ai)\n* [Mycroft聊天](https:\u002F\u002Fchat.mycroft.ai)","# Mimic Recording Studio 快速上手指南\n\nMimic Recording Studio 是 Mycroft AI 推出的开源录音工具，旨在简化语音合成（TTS）训练数据的采集过程。通过该工具，用户可以录制大量语音短语，用于训练个性化的 Mimic 2 语音模型。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n### 系统要求\n- **操作系统**：Windows、Linux 或 macOS\n- **磁盘空间**：建议预留足够空间存储 WAV 音频文件和数据库（录音量较大时需求显著）\n\n### 前置依赖\n根据安装方式不同，需准备以下环境：\n\n**方案 A：Docker 推荐（跨平台最简单）**\n- [Docker](https:\u002F\u002Fdocs.docker.com\u002F) (社区版即可)\n- [Docker Compose](https:\u002F\u002Fdocs.docker.com\u002Fcompose\u002Finstall\u002F)\n\n**方案 B：手动安装（适合开发者调试）**\n- Python 3.5+\n- [ffmpeg](https:\u002F\u002Fwww.ffmpeg.org\u002F) (用于音频处理)\n- Node.js & npm\n- Yarn (可选，用于加速前端构建)\n\n> **国内加速提示**：\n> - Python 包安装建议使用清华源：`pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n> - Node\u002Fnpm 安装建议使用淘宝镜像：`npm config set registry https:\u002F\u002Fregistry.npmmirror.com`\n\n## 安装步骤\n\n### 方法一：Docker 快速启动（推荐）\n\n此方法自动配置前后端环境，无需手动安装依赖。\n\n1. **克隆项目代码**\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio.git\n   cd mimic-recording-studio\n   ```\n\n2. **构建并运行容器**\n   ```bash\n   docker-compose up\n   ```\n   *注：首次运行需要下载镜像并构建容器，耗时较长；后续启动将非常快。若遇权限问题，请在命令前加 `sudo`。*\n\n3. **访问界面**\n   打开浏览器访问：`http:\u002F\u002Flocalhost:3000`\n\n---\n\n### 方法二：手动安装与运行\n\n如果您需要自定义开发或调试，可分别启动前后端。\n\n#### 1. 后端设置\n```bash\ncd backend\u002F\n# 安装 Python 依赖 (国内用户建议添加 -i 参数使用镜像源)\npip install -r requirements.txt\n# 启动后端服务\npython run.py\n```\n*后端默认运行在端口 5000*\n\n#### 2. 前端设置\n```bash\ncd frontend\u002F\n# 安装前端依赖\nnpm install\n# 或者使用 yarn\n# yarn install\n\n# 启动前端开发服务器\nnpm start\n# 或者\n# yarn start\n```\n*前端默认运行在端口 3000*\n\n## 基本使用\n\n启动成功后，按照以下步骤开始录制您的专属语音数据：\n\n1. **进入录音界面**\n   在浏览器打开 `http:\u002F\u002Flocalhost:3000`。首次访问时，系统会提示您输入姓名以生成唯一的用户标识 (UUID)。\n\n2. **开始录制**\n   - 屏幕会显示需要朗读的英文短语（默认语料为 `english_corpus.csv`）。\n   - 点击录音按钮，清晰、匀速地朗读屏幕上的句子。\n   - 系统会自动去除首尾静音并保存为 WAV 文件。\n\n3. **数据查看与管理**\n   - **音频文件**：保存在 `backend\u002Faudio_file\u002F{uuid}\u002F` 目录下。\n   - **元数据**：每个录音对应一个 `{uuid}-metadata.txt` 文件，记录文件名与文本内容的映射。\n   - **数据库**：所有记录同步写入 `backend\u002Fdb\u002Fmimicstudio.db` (SQLite)，可使用 DBeaver 等工具查询统计。\n\n4. **持续录制建议**\n   - 训练一个高质量语音模型通常需要 **15,000 - 20,000** 条短语。\n   - 建议在安静无回声的环境中录制，佩戴头戴式麦克风以保持距离一致。\n   - 避免声带疲劳，建议每天录制不超过 4 小时，每半小时休息一次。\n\n完成录制后，您可以将 `backend\u002Faudio_file` 目录下的数据整理并提交给 Mycroft 社区，用于训练开源 TTS 模型。","某小型智能硬件团队希望为他们的方言版语音助手定制专属 TTS 音色，需要收集并处理大量本地人的语音样本以训练 Mimic2 模型。\n\n### 没有 mimic-recording-studio 时\n- 录音流程混乱：团队成员需用手机或不同录音软件分散录制，导致音频格式不统一（如 MP3、M4A 混杂），后期需人工逐一转换。\n- 元数据管理缺失：录音文件与对应的文本内容、说话人信息靠 Excel 表格手动关联，极易出现文件名错乱或数据丢失。\n- 数据清洗困难：缺乏自动化的静音检测和环境噪音过滤功能，大量含背景杂音的无效样本混入数据集，严重拖累模型训练效果。\n- 协作效率低下：多人参与录音时无法实时同步进度，难以监控谁录了多少句，重复录制或遗漏句子的情况频发。\n\n### 使用 mimic-recording-studio 后\n- 标准化录音体验：通过浏览器即可启动统一录音界面，自动将所有样本保存为标准 WAV 格式，彻底消除格式兼容性问题。\n- 自动化元数据绑定：系统自动生成唯一 UUID 并将录音内容与文本提示词精准绑定，无需人工干预即可构建结构化数据集。\n- 内置质量管控：后端自动检测录音电平与环境噪音，实时提示重录，确保入库样本均符合训练要求，大幅提升数据纯净度。\n- 可视化进度追踪：前端面板清晰展示每位贡献者的录音进度与完成度，团队可即时协调资源，快速集齐所需语料。\n\nmimic-recording-studio 将原本繁琐嘈杂的语音数据采集过程，转变为高效、标准且可协作的自动化流水线，让定制化语音模型的门槛大幅降低。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMycroftAI_mimic-recording-studio_0fae8715.png","MycroftAI","Mycroft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMycroftAI_7b9d0dc4.jpg","An Open Source Artificial Intelligence for Everyone",null,"devs@mycroft.ai","https:\u002F\u002Fmycroft.ai","https:\u002F\u002Fgithub.com\u002FMycroftAI",[85,89,93,97,101,105,109],{"name":86,"color":87,"percentage":88},"JavaScript","#f1e05a",48.2,{"name":90,"color":91,"percentage":92},"Python","#3572A5",30,{"name":94,"color":95,"percentage":96},"CSS","#663399",14,{"name":98,"color":99,"percentage":100},"Batchfile","#C1F12E",4.7,{"name":102,"color":103,"percentage":104},"HTML","#e34c26",2.6,{"name":106,"color":107,"percentage":108},"Dockerfile","#384d54",0.4,{"name":110,"color":111,"percentage":112},"Shell","#89e051",0.2,513,123,"2026-04-10T05:32:35","Apache-2.0","Windows, Linux, macOS","未说明",{"notes":120,"python":121,"dependencies":122},"该工具主要用于录音数据采集，而非模型训练或推理，因此对 GPU 和大内存无特殊要求。推荐使用 Docker 进行跨平台快速部署（前端默认端口 3000，后端默认端口 5000）。若手动安装，后端需 Python 3.5+ 和 ffmpeg，前端需 Node.js 环境。录音数据保存为 WAV 格式并自动去除静音，元数据存储在 SQLite 数据库中。若更换语料库，需重置或删除现有的 SQLite 数据库文件以重新初始化。","3.5+",[123,124,125,126,127,128,129,130,131,132],"ffmpeg","Flask","gunicorn","sqlite","node & npm","react","create-react-app","yarn (可选)","Docker","Docker Compose",[21],[135,136,137,138,139,140,141,142,143,144,145],"tts","tts-engine","mimic","tacotron","recording-studio","docker","microphone","voice","mycroft","mycroftai","hacktoberfest","2026-03-27T02:49:30.150509","2026-04-18T02:22:20.316390",[149,154,158,163,168,173,178],{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},38573,"在 Ubuntu 上运行项目时遇到 Docker 守护进程连接错误，或者构建后无法启动，该如何解决？","首先尝试使用 `sudo docker-compose build` 进行构建。注意：构建完成后不要再次运行 `docker-compose up`，否则可能会报错。如果仍然遇到端口或连接问题，可能需要修改 `docker-compose.yml` 中的端口映射（例如将 \"5001:5001\" 改为 \"5001:5000\"），并同步修改前端代码 `frontend\u002Fsrc\u002FApp\u002Fapi\u002Findex.js` 中的 API 地址，将 `const apiRoot = \"http:\u002F\u002Flocalhost:5000\u002F\";` 改为 `const apiRoot = \"http:\u002F\u002Flocalhost:5001\u002F\";` 以匹配后端端口。","https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio\u002Fissues\u002F4",{"id":155,"question_zh":156,"answer_zh":157,"source_url":153},38574,"如何访问本地运行的录音工作室界面？","项目启动成功后，请在浏览器中访问 `http:\u002F\u002Flocalhost:3000`。如果默认端口被占用或已修改配置，请检查 `docker-compose.yml` 中前端服务的端口映射设置。",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},38575,"在制作自定义语料库（custom corpus）时，CSV 文件中短语后面的数字代表什么？需要手动计算吗？","该数字代表短语中的字符总数，包括空格、标点符号以及句末的句号。您可以使用 Excel 宏或其他脚本工具来自动统计这些字符数，确保统计时包含所有可见及不可见字符（如空格）。","https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio\u002Fissues\u002F11",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},38576,"在 Windows 上运行时出现 'Unhandled Rejection (TypeError): Failed to fetch' 错误怎么办？","这个错误通常是因为后端服务未启动导致的。请确保同时启动了后端（backend）和前端（frontend）服务。仅打开前端页面而后台未运行会导致无法获取数据从而报错。","https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio\u002Fissues\u002F80",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},38577,"运行 Windows 启动脚本（start-windows.bat）时提示无法连接 ffmpeg 下载站点，如何解决？","原下载链接可能已失效。解决方法是升级到最新版本的项目代码，或者手动下载 ffmpeg。您可以访问 https:\u002F\u002Fffmpeg.org\u002Fdownload.html#releases 获取官方版本，或尝试下载特定版本（如 https:\u002F\u002Fgithub.com\u002FGyanD\u002Fcodexffmpeg\u002Freleases\u002Fdownload\u002F4.4\u002Fffmpeg-4.4-essentials_build.zip），解压后将文件放置在脚本预期的目录中。","https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio\u002Fissues\u002F63",{"id":174,"question_zh":175,"answer_zh":176,"source_url":177},38578,"回放录音时声音只从左声道输出，这是故障吗？","这通常是设计使然而非故障。如果您使用的是单输入声卡（如 Focusrite 单个输入接口），而系统录制为立体声格式，音频信号往往只会出现在左声道。这属于正常现象，后续可以通过批量处理工具将单声道音频转换为双声道立体声来修复。","https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio\u002Fissues\u002F107",{"id":179,"question_zh":180,"answer_zh":181,"source_url":182},38579,"录音静音修剪功能是否会误切掉句子末尾的声音（特别是辅音结尾）？","早期版本可能存在修剪过于激进的问题。目前的解决方案是在修剪计算两端增加填充时间（padding），默认值通常设置为 0.3 秒。经过测试，使用该默认值可以有效防止耳语或正常音量下的句子末尾被切断。如果遇到此类问题，请确保您使用的是包含此修复的最新版本。","https:\u002F\u002Fgithub.com\u002FMycroftAI\u002Fmimic-recording-studio\u002Fissues\u002F35",[184,189],{"id":185,"version":186,"summary_zh":187,"released_at":188},314479,"v0.1.1","一个小型的修复版本\n\n- 更新：不再安装 Yarn，因为 Node 的 Docker 镜像中已包含 Yarn\n- 更新英文语料库\n- 修复在未开始录制前就显示“查看评论”按钮的问题","2020-02-07T08:16:53",{"id":190,"version":191,"summary_zh":192,"released_at":193},314480,"v0.1","测试版发布！\n\n录制您自己的声音，用作 Mimic2 的训练数据。","2018-12-05T17:45:34"]