[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-shivammehta25--Matcha-TTS":3,"tool-shivammehta25--Matcha-TTS":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":104,"forks":105,"last_commit_at":106,"license":107,"difficulty_score":32,"env_os":108,"env_gpu":109,"env_ram":110,"env_deps":111,"category_tags":120,"github_topics":122,"view_count":32,"oss_zip_url":135,"oss_zip_packed_at":135,"status":17,"created_at":136,"updated_at":137,"faqs":138,"releases":162},7929,"shivammehta25\u002FMatcha-TTS","Matcha-TTS","[ICASSP 2024] 🍵 Matcha-TTS: A fast TTS architecture with conditional flow matching","Matcha-TTS 是一款基于“条件流匹配”（Conditional Flow Matching）技术的快速文本转语音（TTS）开源模型，由瑞典皇家理工学院团队研发并发表于 ICASSP 2024。它旨在解决传统神经 TTS 系统在生成速度与音质之间难以兼顾的痛点：既避免了自回归模型生成缓慢的问题，又克服了部分非自回归模型声音不够自然的缺陷。\n\n该工具的核心亮点在于利用概率性的流匹配算法加速基于常微分方程（ODE）的语音合成过程。这使得 Matcha-TTS 在保持极高自然度的同时，拥有紧凑的内存占用和极快的推理速度，用户甚至可以通过调整步数灵活平衡生成效率与效果。此外，它还支持通过命令行或网页界面轻松调节语速、采样温度等参数，提供了丰富的预训练模型。\n\nMatcha-TTS 非常适合多类人群使用：研究人员可将其作为探索高效生成式语音模型的前沿基准；开发者能便捷地将其集成到应用中，或利用其简洁的代码架构进行二次开发；普通用户也可通过 Hugging Face 空间或本地简易命令，快速体验高质量的语音合成服务。无论是需要批量处理音频的工程场景，还是追求极致听感的内容创作，Matcha-","Matcha-TTS 是一款基于“条件流匹配”（Conditional Flow Matching）技术的快速文本转语音（TTS）开源模型，由瑞典皇家理工学院团队研发并发表于 ICASSP 2024。它旨在解决传统神经 TTS 系统在生成速度与音质之间难以兼顾的痛点：既避免了自回归模型生成缓慢的问题，又克服了部分非自回归模型声音不够自然的缺陷。\n\n该工具的核心亮点在于利用概率性的流匹配算法加速基于常微分方程（ODE）的语音合成过程。这使得 Matcha-TTS 在保持极高自然度的同时，拥有紧凑的内存占用和极快的推理速度，用户甚至可以通过调整步数灵活平衡生成效率与效果。此外，它还支持通过命令行或网页界面轻松调节语速、采样温度等参数，提供了丰富的预训练模型。\n\nMatcha-TTS 非常适合多类人群使用：研究人员可将其作为探索高效生成式语音模型的前沿基准；开发者能便捷地将其集成到应用中，或利用其简洁的代码架构进行二次开发；普通用户也可通过 Hugging Face 空间或本地简易命令，快速体验高质量的语音合成服务。无论是需要批量处理音频的工程场景，还是追求极致听感的内容创作，Matcha-TTS 都提供了一个强大且易用的解决方案。","\u003Cdiv align=\"center\">\n\n# 🍵 Matcha-TTS: A fast TTS architecture with conditional flow matching\n\n### [Shivam Mehta](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fsmehta), [Ruibo Tu](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fruibo), [Jonas Beskow](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fbeskow), [Éva Székely](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fszekely), and [Gustav Eje Henter](https:\u002F\u002Fpeople.kth.se\u002F~ghe\u002F)\n\n[![python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Python_3.10-blue?logo=python&logoColor=white)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002Frelease\u002Fpython-3100\u002F)\n[![pytorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch_2.0+-ee4c2c?logo=pytorch&logoColor=white)](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n[![lightning](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Lightning_2.0+-792ee5?logo=pytorchlightning&logoColor=white)](https:\u002F\u002Fpytorchlightning.ai\u002F)\n[![hydra](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FConfig-Hydra_1.3-89b8cd)](https:\u002F\u002Fhydra.cc\u002F)\n[![black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode%20Style-Black-black.svg?labelColor=gray)](https:\u002F\u002Fblack.readthedocs.io\u002Fen\u002Fstable\u002F)\n[![isort](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%20imports-isort-%231674b1?style=flat&labelColor=ef8336)](https:\u002F\u002Fpycqa.github.io\u002Fisort\u002F)\n[![PyPI Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_readme_4208b9012f41.png)](https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fmatcha-tts)\n\u003Cp style=\"text-align: center;\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_readme_ef2bd8f0fda8.png\" height=\"128\"\u002F>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n> This is the official code implementation of 🍵 Matcha-TTS [ICASSP 2024].\n\nWe propose 🍵 Matcha-TTS, a new approach to non-autoregressive neural TTS, that uses [conditional flow matching](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02747) (similar to [rectified flows](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.03003)) to speed up ODE-based speech synthesis. Our method:\n\n- Is probabilistic\n- Has compact memory footprint\n- Sounds highly natural\n- Is very fast to synthesise from\n\nCheck out our [demo page](https:\u002F\u002Fshivammehta25.github.io\u002FMatcha-TTS) and read [our ICASSP 2024 paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03199) for more details.\n\n[Pre-trained models](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F17C_gYgEHOxI5ZypcfE_k1piKCtyR0isJ?usp=sharing) will be automatically downloaded with the CLI or gradio interface.\n\nYou can also [try 🍵 Matcha-TTS in your browser on HuggingFace 🤗 spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fshivammehta25\u002FMatcha-TTS).\n\n## Teaser video\n\n[![Watch the video](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_readme_449a5f457d96.jpg)](https:\u002F\u002Fyoutu.be\u002FxmvJkz3bqw0)\n\n## Installation\n\n1. Create an environment (suggested but optional)\n\n```\nconda create -n matcha-tts python=3.10 -y\nconda activate matcha-tts\n```\n\n2. Install Matcha TTS using pip or from source\n\n```bash\npip install matcha-tts\n```\n\nfrom source\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS.git\ncd Matcha-TTS\npip install -e .\n```\n\n3. Run CLI \u002F gradio app \u002F jupyter notebook\n\n```bash\n# This will download the required models\nmatcha-tts --text \"\u003CINPUT TEXT>\"\n```\n\nor\n\n```bash\nmatcha-tts-app\n```\n\nor open `synthesis.ipynb` on jupyter notebook\n\n### CLI Arguments\n\n- To synthesise from given text, run:\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\"\n```\n\n- To synthesise from a file, run:\n\n```bash\nmatcha-tts --file \u003CPATH TO FILE>\n```\n\n- To batch synthesise from a file, run:\n\n```bash\nmatcha-tts --file \u003CPATH TO FILE> --batched\n```\n\nAdditional arguments\n\n- Speaking rate\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --speaking_rate 1.0\n```\n\n- Sampling temperature\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --temperature 0.667\n```\n\n- Euler ODE solver steps\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --steps 10\n```\n\n## Train with your own dataset\n\nLet's assume we are training with LJ Speech\n\n1. Download the dataset from [here](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F), extract it to `data\u002FLJSpeech-1.1`, and prepare the file lists to point to the extracted data like for [item 5 in the setup of the NVIDIA Tacotron 2 repo](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2#setup).\n\n2. Clone and enter the Matcha-TTS repository\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS.git\ncd Matcha-TTS\n```\n\n3. Install the package from source\n\n```bash\npip install -e .\n```\n\n4. Go to `configs\u002Fdata\u002Fljspeech.yaml` and change\n\n```yaml\ntrain_filelist_path: data\u002Ffilelists\u002Fljs_audio_text_train_filelist.txt\nvalid_filelist_path: data\u002Ffilelists\u002Fljs_audio_text_val_filelist.txt\n```\n\n5. Generate normalisation statistics with the yaml file of dataset configuration\n\n```bash\nmatcha-data-stats -i ljspeech.yaml\n# Output:\n#{'mel_mean': -5.53662231756592, 'mel_std': 2.1161014277038574}\n```\n\nUpdate these values in `configs\u002Fdata\u002Fljspeech.yaml` under `data_statistics` key.\n\n```bash\ndata_statistics:  # Computed for ljspeech dataset\n  mel_mean: -5.536622\n  mel_std: 2.116101\n```\n\nto the paths of your train and validation filelists.\n\n6. Run the training script\n\n```bash\nmake train-ljspeech\n```\n\nor\n\n```bash\npython matcha\u002Ftrain.py experiment=ljspeech\n```\n\n- for a minimum memory run\n\n```bash\npython matcha\u002Ftrain.py experiment=ljspeech_min_memory\n```\n\n- for multi-gpu training, run\n\n```bash\npython matcha\u002Ftrain.py experiment=ljspeech trainer.devices=[0,1]\n```\n\n7. Synthesise from the custom trained model\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --checkpoint_path \u003CPATH TO CHECKPOINT>\n```\n\n## ONNX support\n\n> Special thanks to [@mush42](https:\u002F\u002Fgithub.com\u002Fmush42) for implementing ONNX export and inference support.\n\nIt is possible to export Matcha checkpoints to [ONNX](https:\u002F\u002Fonnx.ai\u002F), and run inference on the exported ONNX graph.\n\n### ONNX export\n\nTo export a checkpoint to ONNX, first install ONNX with\n\n```bash\npip install onnx\n```\n\nthen run the following:\n\n```bash\npython3 -m matcha.onnx.export matcha.ckpt model.onnx --n-timesteps 5\n```\n\nOptionally, the ONNX exporter accepts **vocoder-name** and **vocoder-checkpoint** arguments. This enables you to embed the vocoder in the exported graph and generate waveforms in a single run (similar to end-to-end TTS systems).\n\n**Note** that `n_timesteps` is treated as a hyper-parameter rather than a model input. This means you should specify it during export (not during inference). If not specified, `n_timesteps` is set to **5**.\n\n**Important**: for now, torch>=2.1.0 is needed for export since the `scaled_product_attention` operator is not exportable in older versions. Until the final version is released, those who want to export their models must install torch>=2.1.0 manually as a pre-release.\n\n### ONNX Inference\n\nTo run inference on the exported model, first install `onnxruntime` using\n\n```bash\npip install onnxruntime\npip install onnxruntime-gpu  # for GPU inference\n```\n\nthen use the following:\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs\n```\n\nYou can also control synthesis parameters:\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs --temperature 0.4 --speaking_rate 0.9 --spk 0\n```\n\nTo run inference on **GPU**, make sure to install **onnxruntime-gpu** package, and then pass `--gpu` to the inference command:\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs --gpu\n```\n\nIf you exported only Matcha to ONNX, this will write mel-spectrogram as graphs and `numpy` arrays to the output directory.\nIf you embedded the vocoder in the exported graph, this will write `.wav` audio files to the output directory.\n\nIf you exported only Matcha to ONNX, and you want to run a full TTS pipeline, you can pass a path to a vocoder model in `ONNX` format:\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs --vocoder hifigan.small.onnx\n```\n\nThis will write `.wav` audio files to the output directory.\n\n## Extract phoneme alignments from Matcha-TTS\n\nIf the dataset is structured as\n\n```bash\ndata\u002F\n└── LJSpeech-1.1\n    ├── metadata.csv\n    ├── README\n    ├── test.txt\n    ├── train.txt\n    ├── val.txt\n    └── wavs\n```\nThen you can extract the phoneme level alignments from a Trained Matcha-TTS model using:\n```bash\npython  matcha\u002Futils\u002Fget_durations_from_trained_model.py -i dataset_yaml -c \u003Ccheckpoint>\n```\nExample:\n```bash\npython  matcha\u002Futils\u002Fget_durations_from_trained_model.py -i ljspeech.yaml -c matcha_ljspeech.ckpt\n```\nor simply:\n```bash\nmatcha-tts-get-durations -i ljspeech.yaml -c matcha_ljspeech.ckpt\n```\n---\n## Train using extracted alignments\n\nIn the datasetconfig turn on load duration.\nExample: `ljspeech.yaml`\n```\nload_durations: True\n```\nor see an examples in configs\u002Fexperiment\u002Fljspeech_from_durations.yaml\n\n\n## Citation information\n\nIf you use our code or otherwise find this work useful, please cite our paper:\n\n```text\n@inproceedings{mehta2024matcha,\n  title={Matcha-{TTS}: A fast {TTS} architecture with conditional flow matching},\n  author={Mehta, Shivam and Tu, Ruibo and Beskow, Jonas and Sz{\\'e}kely, {\\'E}va and Henter, Gustav Eje},\n  booktitle={Proc. ICASSP},\n  year={2024}\n}\n```\n\n## Acknowledgements\n\nSince this code uses [Lightning-Hydra-Template](https:\u002F\u002Fgithub.com\u002Fashleve\u002Flightning-hydra-template), you have all the powers that come with it.\n\nOther source code we would like to acknowledge:\n\n- [Coqui-TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS\u002Ftree\u002Fdev): For helping me figure out how to make cython binaries pip installable and encouragement\n- [Hugging Face Diffusers](https:\u002F\u002Fhuggingface.co\u002F): For their awesome diffusers library and its components\n- [Grad-TTS](https:\u002F\u002Fgithub.com\u002Fhuawei-noah\u002FSpeech-Backbones\u002Ftree\u002Fmain\u002FGrad-TTS): For the monotonic alignment search source code\n- [torchdyn](https:\u002F\u002Fgithub.com\u002FDiffEqML\u002Ftorchdyn): Useful for trying other ODE solvers during research and development\n- [labml.ai](https:\u002F\u002Fnn.labml.ai\u002Ftransformers\u002Frope\u002Findex.html): For the RoPE implementation\n","\u003Cdiv align=\"center\">\n\n# 🍵 Matcha-TTS：基于条件流匹配的快速TTS架构\n\n### [Shivam Mehta](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fsmehta)、[Ruibo Tu](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fruibo)、[Jonas Beskow](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fbeskow)、[Éva Székely](https:\u002F\u002Fwww.kth.se\u002Fprofile\u002Fszekely)以及[Gustav Eje Henter](https:\u002F\u002Fpeople.kth.se\u002F~ghe\u002F)\n\n[![python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Python_3.10-blue?logo=python&logoColor=white)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002Frelease\u002Fpython-3100\u002F)\n[![pytorch](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch_2.0+-ee4c2c?logo=pytorch&logoColor=white)](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F)\n[![lightning](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F-Lightning_2.0+-792ee5?logo=pytorchlightning&logoColor=white)](https:\u002F\u002Fpytorchlightning.ai\u002F)\n[![hydra](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FConfig-Hydra_1.3-89b8cd)](https:\u002F\u002Fhydra.cc\u002F)\n[![black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCode%20Style-Black-black.svg?labelColor=gray)](https:\u002F\u002Fblack.readthedocs.io\u002Fen\u002Fstable\u002F)\n[![isort](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%20imports-isort-%231674b1?style=flat&labelColor=ef8336)](https:\u002F\u002Fpycqa.github.io\u002Fisort\u002F)\n[![PyPI Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_readme_4208b9012f41.png)](https:\u002F\u002Fpepy.tech\u002Fprojects\u002Fmatcha-tts)\n\u003Cp style=\"text-align: center;\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_readme_ef2bd8f0fda8.png\" height=\"128\"\u002F>\n\u003C\u002Fp>\n\n\u003C\u002Fdiv>\n\n> 这是🍵 Matcha-TTS的官方代码实现，发表于ICASSP 2024。\n\n我们提出了🍵 Matcha-TTS，这是一种新的非自回归神经网络TTS方法，它使用[条件流匹配](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02747)（类似于[修正流](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.03003)）来加速基于ODE的语音合成。我们的方法：\n\n- 具有概率性\n- 内存占用小\n- 发音非常自然\n- 合成速度极快\n\n请访问我们的[演示页面](https:\u002F\u002Fshivammehta25.github.io\u002FMatcha-TTS)并阅读[我们的ICASSP 2024论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.03199)，以获取更多详细信息。\n\n预训练模型将通过CLI或Gradio界面自动下载。\n\n您也可以在[HuggingFace 🤗 spaces](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fshivammehta25\u002FMatcha-TTS)上，在浏览器中试用🍵 Matcha-TTS。\n\n## 预告视频\n\n[![观看视频](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_readme_449a5f457d96.jpg)](https:\u002F\u002Fyoutu.be\u002FxmvJkz3bqw0)\n\n## 安装\n\n1. 创建环境（建议但非必需）\n\n```\nconda create -n matcha-tts python=3.10 -y\nconda activate matcha-tts\n```\n\n2. 使用pip或从源码安装Matcha TTS\n\n```bash\npip install matcha-tts\n```\n\n从源码安装\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS.git\ncd Matcha-TTS\npip install -e .\n```\n\n3. 运行CLI \u002F Gradio应用 \u002F Jupyter Notebook\n\n```bash\n# 这将下载所需的模型\nmatcha-tts --text \"\u003CINPUT TEXT>\"\n```\n\n或者\n\n```bash\nmatcha-tts-app\n```\n\n或者打开Jupyter Notebook中的`synthesis.ipynb`\n\n### CLI参数\n\n- 要根据给定文本进行合成，运行：\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\"\n```\n\n- 要从文件中合成，运行：\n\n```bash\nmatcha-tts --file \u003CPATH TO FILE>\n```\n\n- 要批量从文件中合成，运行：\n\n```bash\nmatcha-tts --file \u003CPATH TO FILE> --batched\n```\n\n其他参数\n\n- 语速\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --speaking_rate 1.0\n```\n\n- 采样温度\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --temperature 0.667\n```\n\n- 欧拉ODE求解器步数\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --steps 10\n```\n\n## 使用您自己的数据集进行训练\n\n假设我们正在使用LJ Speech数据集进行训练\n\n1. 从[这里](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F)下载数据集，将其解压到`data\u002FLJSpeech-1.1`，并准备文件列表，使其指向解压后的数据，就像[NVIDIA Tacotron 2仓库设置中的第5项](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2#setup)一样。\n\n2. 克隆并进入Matcha-TTS仓库\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS.git\ncd Matcha-TTS\n```\n\n3. 从源码安装软件包\n\n```bash\npip install -e .\n```\n\n4. 打开`configs\u002Fdata\u002Fljspeech.yaml`并修改如下：\n\n```yaml\ntrain_filelist_path: data\u002Ffilelists\u002Fljs_audio_text_train_filelist.txt\nvalid_filelist_path: data\u002Ffilelists\u002Fljs_audio_text_val_filelist.txt\n```\n\n5. 使用数据集配置的yaml文件生成归一化统计信息\n\n```bash\nmatcha-data-stats -i ljspeech.yaml\n# 输出：\n#{'mel_mean': -5.53662231756592, 'mel_std': 2.1161014277038574}\n```\n\n将这些值更新到`configs\u002Fdata\u002Fljspeech.yaml`中的`data_statistics`键下。\n\n```bash\ndata_statistics:  # 为ljspeech数据集计算\n  mel_mean: -5.536622\n  mel_std: 2.116101\n```\n\n然后指定您的训练和验证文件列表路径。\n\n6. 运行训练脚本\n\n```bash\nmake train-ljspeech\n```\n\n或者\n\n```bash\npython matcha\u002Ftrain.py experiment=ljspeech\n```\n\n- 对于最小内存运行：\n\n```bash\npython matcha\u002Ftrain.py experiment=ljspeech_min_memory\n```\n\n- 对于多GPU训练，运行：\n\n```bash\npython matcha\u002Ftrain.py experiment=ljspeech trainer.devices=[0,1]\n```\n\n7. 使用自定义训练的模型进行合成\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\" --checkpoint_path \u003CPATH TO CHECKPOINT>\n```\n\n## ONNX支持\n\n> 特别感谢[@mush42](https:\u002F\u002Fgithub.com\u002Fmush42)实现了ONNX导出与推理支持。\n\n可以将Matcha检查点导出为[ONNX](https:\u002F\u002Fonnx.ai\u002F)格式，并在导出的ONNX图上进行推理。\n\n### ONNX导出\n\n要将检查点导出为ONNX，首先安装ONNX：\n\n```bash\npip install onnx\n```\n\n然后运行以下命令：\n\n```bash\npython3 -m matcha.onnx.export matcha.ckpt model.onnx --n-timesteps 5\n```\n\n可选地，ONNX导出工具接受`vocoder-name`和`vocoder-checkpoint`参数。这使您可以将声码器嵌入到导出的图中，并在一次运行中生成波形（类似于端到端TTS系统）。\n\n**注意**：`n_timesteps`被视为超参数，而非模型输入。这意味着您应在导出时指定它（而不是在推理时）。如果未指定，`n_timesteps`将被设置为**5**。\n\n**重要提示**：目前需要torch>=2.1.0才能进行导出，因为在较旧的版本中，`scaled_product_attention`算子无法导出。在最终版本发布之前，想要导出模型的人必须手动安装预发布版的torch>=2.1.0。\n\n### ONNX 推理\n\n要对导出的模型进行推理，首先使用以下命令安装 `onnxruntime`：\n\n```bash\npip install onnxruntime\npip install onnxruntime-gpu  # 用于 GPU 推理\n```\n\n然后使用以下命令：\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs\n```\n\n你还可以控制合成参数：\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs --temperature 0.4 --speaking_rate 0.9 --spk 0\n```\n\n要在 **GPU** 上运行推理，请确保已安装 **onnxruntime-gpu** 包，然后在推理命令中添加 `--gpu` 参数：\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs --gpu\n```\n\n如果你只将 Matcha 导出为 ONNX 格式，输出目录中会生成梅尔谱图的图表和 `numpy` 数组。如果在导出的图中嵌入了声码器，则会在输出目录中生成 `.wav` 音频文件。\n\n如果你只将 Matcha 导出为 ONNX 格式，并希望运行完整的 TTS 流程，可以传递一个 ONNX 格式的声码器模型路径：\n\n```bash\npython3 -m matcha.onnx.infer model.onnx --text \"hey\" --output-dir .\u002Foutputs --vocoder hifigan.small.onnx\n```\n\n这将会在输出目录中生成 `.wav` 音频文件。\n\n## 从 Matcha-TTS 中提取音素对齐信息\n\n如果数据集的结构如下：\n\n```bash\ndata\u002F\n└── LJSpeech-1.1\n    ├── metadata.csv\n    ├── README\n    ├── test.txt\n    ├── train.txt\n    ├── val.txt\n    └── wavs\n```\n那么你可以使用以下命令从训练好的 Matcha-TTS 模型中提取音素级别的对齐信息：\n```bash\npython  matcha\u002Futils\u002Fget_durations_from_trained_model.py -i dataset_yaml -c \u003Ccheckpoint>\n```\n例如：\n```bash\npython  matcha\u002Futils\u002Fget_durations_from_trained_model.py -i ljspeech.yaml -c matcha_ljspeech.ckpt\n```\n或者更简单地：\n```bash\nmatcha-tts-get-durations -i ljspeech.yaml -c matcha_ljspeech.ckpt\n```\n---\n## 使用提取的对齐信息进行训练\n\n在数据集配置文件中启用加载持续时间功能。例如：`ljspeech.yaml`\n```\nload_durations: True\n```\n或者参考配置文件中的示例：configs\u002Fexperiment\u002Fljspeech_from_durations.yaml\n\n## 引用信息\n\n如果你使用了我们的代码，或者以其他方式认为这项工作对你有所帮助，请引用我们的论文：\n\n```text\n@inproceedings{mehta2024matcha,\n  title={Matcha-{TTS}: A fast {TTS} architecture with conditional flow matching},\n  author={Mehta, Shivam and Tu, Ruibo and Beskow, Jonas and Sz{\\'e}kely, {\\'E}va and Henter, Gustav Eje},\n  booktitle={Proc. ICASSP},\n  year={2024}\n}\n```\n\n## 致谢\n\n由于本代码使用了 [Lightning-Hydra-Template](https:\u002F\u002Fgithub.com\u002Fashleve\u002Flightning-hydra-template)，因此你将拥有该模板提供的所有功能。\n\n我们还想感谢以下开源项目：\n\n- [Coqui-TTS](https:\u002F\u002Fgithub.com\u002Fcoqui-ai\u002FTTS\u002Ftree\u002Fdev)：帮助我解决了如何使 Cython 二进制文件可以通过 pip 安装的问题，并给予了鼓励。\n- [Hugging Face Diffusers](https:\u002F\u002Fhuggingface.co\u002F)：感谢他们出色的 diffusers 库及其组件。\n- [Grad-TTS](https:\u002F\u002Fgithub.com\u002Fhuawei-noah\u002FSpeech-Backbones\u002Ftree\u002Fmain\u002FGrad-TTS)：提供了单调对齐搜索的源代码。\n- [torchdyn](https:\u002F\u002Fgithub.com\u002FDiffEqML\u002Ftorchdyn)：在研发过程中尝试其他 ODE 求解器时非常有用。\n- [labml.ai](https:\u002F\u002Fnn.labml.ai\u002Ftransformers\u002Frope\u002Findex.html)：提供了 RoPE 的实现。","# Matcha-TTS 快速上手指南\n\nMatcha-TTS 是一种基于条件流匹配（Conditional Flow Matching）的快速非自回归神经语音合成架构。它具有概率性、内存占用小、声音自然且合成速度极快的特点。\n\n## 1. 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows\n*   **Python**: 3.10 (推荐)\n*   **PyTorch**: 2.0+\n*   **硬件**: 推荐使用 NVIDIA GPU 以获得最佳推理速度（CPU 亦可运行）\n\n> **国内开发者提示**：建议配置国内镜像源以加速依赖下载。\n> *   PyPI 镜像：`pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage>`\n> *   Conda 镜像：在 `.condarc` 中配置清华或中科大源。\n\n## 2. 安装步骤\n\n您可以选择使用 Conda 创建独立环境（推荐），然后直接通过 pip 安装。\n\n### 第一步：创建并激活环境\n\n```bash\nconda create -n matcha-tts python=3.10 -y\nconda activate matcha-tts\n```\n\n### 第二步：安装 Matcha-TTS\n\n**方式 A：通过 PyPI 安装（推荐）**\n\n```bash\npip install matcha-tts\n```\n*(国内用户可添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n**方式 B：从源码安装（适合需要修改代码或最新特性）**\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS.git\ncd Matcha-TTS\npip install -e .\n```\n\n安装完成后，预训练模型将在首次运行时自动下载。\n\n## 3. 基本使用\n\n安装完成后，您可以通过命令行接口 (CLI) 立即开始合成语音。\n\n### 最简单的文本转语音\n\n运行以下命令，将 `\u003CINPUT TEXT>` 替换为您想要合成的文本内容：\n\n```bash\nmatcha-tts --text \"\u003CINPUT TEXT>\"\n```\n\n程序会自动下载所需的预训练模型，生成音频文件并保存。\n\n### 常用参数示例\n\n您还可以通过参数调整语速、温度和采样步数：\n\n```bash\n# 调整语速 (默认 1.0), 温度 (默认 0.667), 和 ODE 求解步数 (默认 10)\nmatcha-tts --text \"你好，这是 Matcha-TTS 的测试声音。\" --speaking_rate 1.0 --temperature 0.667 --steps 10\n```\n\n### 从文件批量合成\n\n如果您有一个包含多行文本的文件：\n\n```bash\nmatcha-tts --file \u003CPATH TO FILE> --batched\n```\n\n### 启动 Web 界面 (Gradio)\n\n如果您更喜欢图形化界面，可以运行：\n\n```bash\nmatcha-tts-app\n```\n然后在浏览器中打开显示的本地地址即可使用。","某在线教育平台的技术团队需要为每日更新的数千道习题解析快速生成高质量语音，以支持视障学生及通勤场景下的音频学习。\n\n### 没有 Matcha-TTS 时\n- **合成速度缓慢**：传统自回归模型生成语音耗时过长，难以满足每日海量内容的实时转译需求，导致音频更新严重滞后。\n- **资源消耗巨大**：现有方案显存占用高，迫使团队必须租用昂贵的多卡 GPU 服务器，大幅推高了运营成本。\n- **音质与效率难兼得**：为了追求生成速度而减少采样步数时，语音会出现明显的机械感和失真，严重影响学习体验。\n- **部署调优复杂**：模型推理过程对硬件环境敏感，工程化落地时需要编写大量复杂的加速代码和参数微调脚本。\n\n### 使用 Matcha-TTS 后\n- **实时高效生成**：利用条件流匹配（Conditional Flow Matching）技术，Matcha-TTS 将非自回归合成速度提升数倍，轻松实现千级文本的分钟级批量转写。\n- **轻量低耗运行**：凭借紧凑的内存足迹，该模型可在单张消费级显卡甚至边缘设备上流畅运行，显著降低了基础设施成本。\n- **自然音质保持**：即使在极少的 ODE 求解步数下，Matcha-TTS 仍能输出高度自然、富有情感的语音，完美平衡了速度与听感。\n- **开箱即用便捷**：通过简单的 CLI 命令或 Gradio 界面即可调用预训练模型，无需繁琐的工程配置，极大缩短了从开发到上线的周期。\n\nMatcha-TTS 通过革新性的流匹配架构，彻底打破了语音合成在速度、成本与音质之间的不可能三角，让大规模实时音频内容生产变得触手可及。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fshivammehta25_Matcha-TTS_ef2bd8f0.png","shivammehta25","Shivam Mehta","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fshivammehta25_fa858f64.jpg","PhD Student at KTH Royal Institute of Technology","@KTH","Los Gatos, California","shivam.mehta25@gmail.com","shivammehta007","http:\u002F\u002Fwww.shivammehta.me","https:\u002F\u002Fgithub.com\u002Fshivammehta25",[84,88,92,96,100],{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",74.8,{"name":89,"color":90,"percentage":91},"Python","#3572A5",24.9,{"name":93,"color":94,"percentage":95},"Cython","#fedf5b",0.2,{"name":97,"color":98,"percentage":99},"Makefile","#427819",0.1,{"name":101,"color":102,"percentage":103},"Shell","#89e051",0,1284,192,"2026-04-15T18:27:07","MIT","Linux, macOS, Windows","非必需（支持 CPU 推理）。若需 GPU 加速或 ONNX GPU 推理，需 NVIDIA GPU 并安装对应 CUDA 版本的 PyTorch 及 onnxruntime-gpu。ONNX 导出功能强制要求 torch>=2.1.0。","未说明（提供最小显存\u002F内存训练模式 'ljspeech_min_memory'）",{"notes":112,"python":113,"dependencies":114},"1. 推荐使用 conda 创建 Python 3.10 环境进行安装。\n2. 预训练模型会在首次运行 CLI 或 Gradio 界面时自动下载。\n3. 若需使用 ONNX 导出功能，必须手动安装 torch>=2.1.0（因旧版本不支持导出 scaled_product_attention 算子）。\n4. 支持多 GPU 训练。","3.10",[115,116,117,118,119],"torch>=2.0","pytorch-lightning>=2.0","hydra-core>=1.3","onnx (可选，用于导出)","onnxruntime \u002F onnxruntime-gpu (可选，用于 ONNX 推理)",[14,121,52,15],"音频",[123,124,125,126,127,128,129,130,131,132,133,134],"deep-learning","flow-matching","machine-learning","non-autoregressive","probabilistic","probabilistic-machine-learning","text-to-speech","tts","tts-api","tts-engines","diffusion-model","diffusion-models",null,"2026-03-27T02:49:30.150509","2026-04-16T08:15:24.234911",[139,144,148,153,157],{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},35494,"如何在推理时控制特定音素的时长延长（例如用于歌唱合成）？","可以通过在语音合成（vocoding）之前手动操作嵌入（embeddings）来控制音素的延长，因为这些嵌入代表了时间切片。目前的局限性是尚不支持分数级控制。如果希望实现更精细的控制，可以尝试让速率参数随时间变化并与音素同步。此外，也可以尝试训练一个纯 F0（基频）模型，或者将 F0 特征拼接到现有的嵌入特征上（例如从 256 维增加到 257 维）作为额外的条件信号进行实验。","https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fissues\u002F39",{"id":145,"question_zh":146,"answer_zh":147,"source_url":143},35495,"运行数据统计脚本（matcha-data-stats）计算均值和标准差耗时过长怎么办？","如果计算统计数据耗时过长，可以跳过归一化部分，直接使用默认值。具体操作是在 `matcha\u002Futils\u002Fgenerate_data_statistics.py` 第 92 行附近将相关值设置为 `None`。当数据加载器（dataloaders）接收到 `None` 时，会自动将其重置为均值 0 和标准差 1。这通常能正常工作甚至效果更好。",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},35496,"如何处理文本中包含符号列表中未定义字符导致的错误？","当遇到文本中包含未定义字符报错时，有两种解决方案：一是将这些额外的字符添加到符号列表（symbol list\u002Fvocab characters）中；二是像某些用户所做的那样，修改代码逻辑以忽略或处理这些未知字符。确保所有输入文本中的字符都在 `_symbol_to_id` 映射中。","https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fissues\u002F20",{"id":154,"question_zh":155,"answer_zh":156,"source_url":152},35497,"为什么恢复训练或重新运行时数据加载顺序看起来是一样的？","这是因为数据加载器使用了固定的随机种子（seed），导致每次运行时都以确定性的伪随机顺序加载相同的数据序列。这是为了保证实验的可复现性。如果需要不同的数据顺序，需要更改随机种子设置。",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},35498,"启动训练后程序卡住无响应且 TensorBoard 无数据显示是什么原因？","这种情况通常是因为 PyTorch 仅安装了 CPU 版本而非 GPU (CUDA) 版本，导致计算极其缓慢甚至看似卡死。解决方法是卸载当前的 PyTorch，重新安装支持 CUDA 的最新版 PyTorch，然后重新运行 `pip install -e .`。即使安装正确，由于流模型（ODE diffusion model）的计算复杂度较高，首次运行或大模型训练可能需要等待很长时间（甚至数小时到一天）才能看到进度更新，请耐心等待。","https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fissues\u002F131",[163,168,173,178,183,188],{"id":164,"version":165,"summary_zh":166,"released_at":167},280649,"v0.0.7","移除扩散器的固定依赖关系，最近一直导致问题。\n\n**完整更新日志**: https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fcompare\u002Fv0.0.6...v0.0.7","2024-08-09T16:34:46",{"id":169,"version":170,"summary_zh":171,"released_at":172},280650,"v0.0.6","## 变更内容\n* @jimregan 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F60 中将 Gradio 锁定至 3.43.2 版本\n* @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F74 中添加了音素对齐提取功能，并支持基于这些提取出的对齐信息进行训练\n* @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F75 中将对齐信息添加到 README 文件中\n\n## 新贡献者\n* @jimregan 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F60 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fcompare\u002Fv0.0.5...v0.0.6","2024-05-27T12:02:13",{"id":174,"version":175,"summary_zh":176,"released_at":177},280651,"v0.0.5","## 变更内容\n* [pre-commit.ci] 由 @pre-commit-ci 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F16 中自动更新 pre-commit 配置\n* Piper 分音素处理功能，由 @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F34 中实现\n* 更新 README.md 文件，加入 ICASSP 接收通知，由 @ghenter 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F40 中完成\n* 将 diffusers 从 0.21.3 升级至 0.25.0，由 @dependabot 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F37 中执行\n* [pre-commit.ci] 由 @pre-commit-ci 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F19 中再次自动更新 pre-commit 配置\n* 合并 dev 分支，新增数据集、Piper 分音素工具并进行重构，由 @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F42 中完成\n* 移除用于下载 HifiGAN 检查点的 gdown 工具，由 @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F43 中实施\n\n## 新贡献者\n* @pre-commit-ci 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F16 中完成了首次贡献\n* @ghenter 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F40 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fcompare\u002F0.0.4...v0.0.5","2024-01-12T11:44:45",{"id":179,"version":180,"summary_zh":181,"released_at":182},280652,"0.0.4","## 变更内容\n* @mush42 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F8 中实现了 ONNX 导出和推理功能\n* @dependabot 将 diffusers 从 0.21.2 升级到 0.21.3，提交于 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F12\n* @shivammehta25 将 dev 分支合并到 main 分支，并添加了 ONNX 支持，提交于 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F13\n\n## 新贡献者\n* @mush42 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F8 中完成了首次贡献\n* @dependabot 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F12 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fcompare\u002F0.0.3...0.0.4","2023-09-29T14:59:48",{"id":184,"version":185,"summary_zh":186,"released_at":187},280653,"0.0.3","使用 `pip install -U matcha-tts` 进行更新。\n注意：它会下载 VCTK 检查点和 HiFiGan Universal v1 检查点。\n另外还有一个我制作的趣味预告视频。\n我在视频中使用的一些说话人 ID：63、10、84、14、105、0。\n\n## 变更内容\n* 添加多说话人支持 🍵 由 @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F3 中实现\n* 再次版本升级，因为我刚开始接触 Twine —— 由 @shivammehta25 在 https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fpull\u002F4 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fcompare\u002Fv0.0.1.dev4...0.0.2\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fshivammehta25\u002FMatcha-TTS\u002Fcompare\u002F0.0.2...0.0.3","2023-09-21T13:30:10",{"id":189,"version":190,"summary_zh":191,"released_at":192},280654,"v0.0.1.dev4","开发4：因为这是我第一次尝试使用 Twine 和 PyPI。经过几次尝试后，最终成功了，我感到很高兴。","2023-09-17T15:56:52"]