[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-metavoiceio--metavoice-src":3,"tool-metavoiceio--metavoice-src":62},[4,18,28,36,45,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":24,"last_commit_at":42,"category_tags":43,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,44],"语言模型",{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":51,"last_commit_at":52,"category_tags":53,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,27],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":24,"last_commit_at":60,"category_tags":61,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":78,"owner_twitter":73,"owner_website":79,"owner_url":80,"languages":81,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":10,"env_os":97,"env_gpu":98,"env_ram":99,"env_deps":100,"category_tags":109,"github_topics":111,"view_count":24,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":121,"updated_at":122,"faqs":123,"releases":154},9923,"metavoiceio\u002Fmetavoice-src","metavoice-src","Foundational model for human-like, expressive TTS","MetaVoice-1B 是一款拥有 12 亿参数的开源基础模型，专为生成极具表现力且类人自然的语音而设计。它在长达 10 万小时的语音数据上训练而成，核心优势在于能够精准捕捉英语说话时的情感节奏与语调变化，让合成声音不再机械生硬。\n\n该模型有效解决了传统文本转语音（TTS）技术中情感缺失和音色克隆门槛高的问题。用户仅需提供 30 秒的参考音频，即可实现零样本的美式或英式口音克隆；若需支持跨语言场景（如印地语），也仅需约 1 分钟的数据进行微调。此外，它还支持任意长度文本的合成，并基于 Apache 2.0 协议发布，允许无限制的商业与非商业用途。\n\nMetaVoice-1B 特别适合 AI 开发者、语音研究人员以及需要定制化语音解决方案的产品团队使用。其技术亮点包括支持本地部署、提供 Docker 快速启动方案，以及实验性的 int4 量化模式，可在保持可用音质的同时将推理速度提升约两倍。无论是构建交互式应用还是探索语音合成前沿，它都提供了一个强大且灵活的开源基座。","# MetaVoice-1B\n\n\n\n[![Playground](https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Try&message=Playground&color=fc4982&url=https:\u002F\u002Fttsdemo.themetavoice.xyz\u002F)](https:\u002F\u002Fttsdemo.themetavoice.xyz\u002F)\n\u003Ca target=\"_blank\" style=\"display: inline-block; vertical-align: middle\" href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmetavoiceio\u002Fmetavoice-src\u002Fblob\u002Fmain\u002Fcolab_demo.ipynb\">\n  \u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"Open In Colab\"\u002F>\n\u003C\u002Fa>\n[![](https:\u002F\u002Fdcbadge.vercel.app\u002Fapi\u002Fserver\u002FCpy6U3na8Z?style=flat&compact=True)](https:\u002F\u002Fdiscord.gg\u002FtbTbkGEgJM)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002FOnusFM.svg?style=social&label=@metavoiceio)](https:\u002F\u002Ftwitter.com\u002Fmetavoiceio)\n\n\n\nMetaVoice-1B is a 1.2B parameter base model trained on 100K hours of speech for TTS (text-to-speech). It has been built with the following priorities:\n* **Emotional speech rhythm and tone** in English.\n* **Zero-shot cloning for American & British voices**, with 30s reference audio.\n* Support for (cross-lingual) **voice cloning with finetuning**.\n  * We have had success with as little as 1 minute training data for Indian speakers.\n* Synthesis of **arbitrary length text**\n\nWe’re releasing MetaVoice-1B under the Apache 2.0 license, *it can be used without restrictions*.\n\n\n## Quickstart - tl;dr\n\nWeb UI\n```bash\ndocker-compose up -d ui && docker-compose ps && docker-compose logs -f\n```\n\nServer\n```bash\n# navigate to \u003CURL>\u002Fdocs for API definitions\ndocker-compose up -d server && docker-compose ps && docker-compose logs -f\n```\n\n## Installation\n\n**Pre-requisites:**\n- GPU VRAM >=12GB\n- Python >=3.10,\u003C3.12\n- pipx ([installation instructions](https:\u002F\u002Fpipx.pypa.io\u002Fstable\u002Finstallation\u002F))\n\n**Environment setup**\n```bash\n# install ffmpeg\nwget https:\u002F\u002Fjohnvansickle.com\u002Fffmpeg\u002Fbuilds\u002Fffmpeg-git-amd64-static.tar.xz\nwget https:\u002F\u002Fjohnvansickle.com\u002Fffmpeg\u002Fbuilds\u002Fffmpeg-git-amd64-static.tar.xz.md5\nmd5sum -c ffmpeg-git-amd64-static.tar.xz.md5\ntar xvf ffmpeg-git-amd64-static.tar.xz\nsudo mv ffmpeg-git-*-static\u002Fffprobe ffmpeg-git-*-static\u002Fffmpeg \u002Fusr\u002Flocal\u002Fbin\u002F\nrm -rf ffmpeg-git-*\n\n# install rust if not installed (ensure you've restarted your terminal after installation)\ncurl --proto '=https' --tlsv1.2 -sSf https:\u002F\u002Fsh.rustup.rs | sh\n```\n\n### Project dependencies installation\n1. [Using poetry](#using-poetry-recommended)\n2. [Using pip\u002Fconda](#using-pipconda)\n\n#### Using poetry (recommended)\n```bash\n# install poetry if not installed (ensure you've restarted your terminal after installation)\npipx install poetry\n\n# disable any conda envs that might interfere with poetry's venv\nconda deactivate\n\n# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.\nexport PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring\n\n# pip's dependency resolver will complain, this is temporary expected behaviour\n# full inference & finetuning functionality will still be available\npoetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1\n```\n\n#### Using pip\u002Fconda\nNOTE 1: When raising issues, we'll ask you to try with poetry first.\nNOTE 2: All commands in this README use `poetry` by default, so you can just remove any `poetry run`.\n\n```bash\npip install -r requirements.txt\npip install torch==2.2.1 torchaudio==2.2.1\npip install -e .\n```\n\n## Usage\n1. Download it and use it anywhere (including locally) with our [reference implementation](\u002Ffam\u002Fllm\u002Ffast_inference.py)\n```bash\n# You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.\n# Note: int8 is slower than bf16\u002Ffp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16\u002Ffp16.\npoetry run python -i fam\u002Fllm\u002Ffast_inference.py\n\n# Run e.g. of API usage within the interactive python session\ntts.synthesise(text=\"This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model.\", spk_ref_path=\"assets\u002Fbria.mp3\")\n```\n> Note: The script takes 30-90s to startup (depending on hardware). This is because we torch.compile the model for fast inference.\n\n> On Ampere, Ada-Lovelace, and Hopper architecture GPUs, once compiled, the synthesise() API runs faster than real-time, with a Real-Time Factor (RTF) \u003C 1.0.\n\n2. Deploy it on any cloud (AWS\u002FGCP\u002FAzure), using our [inference server](serving.py) or [web UI](app.py)\n```bash\n# You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.\n# Note: int8 is slower than bf16\u002Ffp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16\u002Ffp16.\n\n# navigate to \u003CURL>\u002Fdocs for API definitions\npoetry run python serving.py\n\npoetry run python app.py\n```\n\n3. Use it via [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmetavoiceio)\n4. [Google Colab Demo](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmetavoiceio\u002Fmetavoice-src\u002Fblob\u002Fmain\u002Fcolab_demo.ipynb)\n\n## Finetuning\nWe support finetuning the first stage LLM (see [Architecture section](#Architecture)).\n\nIn order to finetune, we expect a \"|\"-delimited CSV dataset of the following format:\n\n```csv\naudio_files|captions\n.\u002Fdata\u002Faudio.wav|.\u002Fdata\u002Fcaption.txt\n```\n\nNote that we don't perform any dataset overlap checks, so ensure that your train and val datasets are disjoint.\n\nTry it out using our sample datasets via:\n```bash\npoetry run finetune --train .\u002Fdatasets\u002Fsample_dataset.csv --val .\u002Fdatasets\u002Fsample_val_dataset.csv\n```\n\nOnce you've trained your model, you can use it for inference via:\n```bash\npoetry run python -i fam\u002Fllm\u002Ffast_inference.py --first_stage_path .\u002Fmy-finetuned_model.pt\n```\n\n### Configuration\n\nIn order to set hyperparameters such as learning rate, what to freeze, etc, you\ncan edit the [finetune_params.py](.\u002Ffam\u002Fllm\u002Fconfig\u002Ffinetune_params.py) file.\n\nWe've got a light & optional integration with W&B that can be enabled via setting\n`wandb_log = True` & by installing the appropriate dependencies.\n\n```bash\npoetry install -E observable\n```\n\n## Upcoming\n- [x] Faster inference ⚡\n- [x] Fine-tuning code 📐\n- [ ] Synthesis of arbitrary length text\n\n\n## Architecture\nWe predict EnCodec tokens from text, and speaker information. This is then diffused up to the waveform level, with post-processing applied to clean up the audio.\n\n* We use a causal GPT to predict the first two hierarchies of EnCodec tokens. Text and audio are part of the LLM context. Speaker information is passed via conditioning at the token embedding layer. This speaker conditioning is obtained from a separately trained speaker verification network.\n  - The two hierarchies are predicted in a \"flattened interleaved\" manner, we predict the first token of the first hierarchy, then the first token of the second hierarchy, then the second token of the first hierarchy, and so on.\n  - We use condition-free sampling to boost the cloning capability of the model.\n  - The text is tokenised using a custom trained BPE tokeniser with 512 tokens.\n  - Note that we've skipped predicting semantic tokens as done in other works, as we found that this isn't strictly necessary.\n* We use a non-causal (encoder-style) transformer to predict the rest of the 6 hierarchies from the first two hierarchies. This is a super small model (~10Mn parameters), and has extensive zero-shot generalisation to most speakers we've tried. Since it's non-causal, we're also able to predict all the timesteps in parallel.\n* We use multi-band diffusion to generate waveforms from the EnCodec tokens. We noticed that the speech is clearer than using the original RVQ decoder or VOCOS. However, the diffusion at waveform level leaves some background artifacts which are quite unpleasant to the ear. We clean this up in the next step.\n* We use DeepFilterNet to clear up the artifacts introduced by the multi-band diffusion.\n\n## Optimizations\nThe model supports:\n1. KV-caching via Flash Decoding\n2. Batching (including texts of different lengths)\n\n## Contribute\n- See all [active issues](https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues)!\n\n## Acknowledgements\nWe are grateful to Together.ai for their 24\u002F7 help in marshalling our cluster. We thank the teams of AWS, GCP & Hugging Face for support with their cloud platforms.\n\n- [A Défossez et. al.](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.13438) for Encodec.\n- [RS Roman et. al.](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02560) for Multiband Diffusion.\n- [@liusongxiang](https:\u002F\u002Fgithub.com\u002Fliusongxiang\u002Fppg-vc\u002Fblob\u002Fmain\u002Fspeaker_encoder\u002Finference.py) for speaker encoder implementation.\n- [@karpathy](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002FnanoGPT) for NanoGPT which our inference implementation is based on.\n- [@Rikorose](https:\u002F\u002Fgithub.com\u002FRikorose) for DeepFilterNet.\n\nApologies in advance if we've missed anyone out. Please let us know if we have.\n","# MetaVoice-1B\n\n\n\n[![Playground](https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=尝试&message=Playground&color=fc4982&url=https:\u002F\u002Fttsdemo.themetavoice.xyz\u002F)](https:\u002F\u002Fttsdemo.themetavoice.xyz\u002F)\n\u003Ca target=\"_blank\" style=\"display: inline-block; vertical-align: middle\" href=\"https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmetavoiceio\u002Fmetavoice-src\u002Fblob\u002Fmain\u002Fcolab_demo.ipynb\">\n  \u003Cimg src=\"https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg\" alt=\"在Colab中打开\"\u002F>\n\u003C\u002Fa>\n[![](https:\u002F\u002Fdcbadge.vercel.app\u002Fapi\u002Fserver\u002FCpy6U3na8Z?style=flat&compact=True)](https:\u002F\u002Fdiscord.gg\u002FtbTbkGEgJM)\n[![Twitter](https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Furl\u002Fhttps\u002Ftwitter.com\u002FOnusFM.svg?style=social&label=@metavoiceio)](https:\u002F\u002Ftwitter.com\u002Fmetavoiceio)\n\n\n\nMetaVoice-1B 是一个拥有 12 亿参数的基础模型，基于 10 万小时的语音数据进行训练，用于文本转语音（TTS）任务。该模型的设计优先考虑以下几点：\n* 英语中的 **情感丰富的语音节奏和语调**。\n* 支持仅需 30 秒参考音频的 **美式和英式语音的零样本克隆**。\n* 支持通过微调实现的 **跨语言语音克隆**。\n  * 我们已经成功使用仅 1 分钟的训练数据为印度语使用者进行语音克隆。\n* 能够合成 **任意长度的文本**。\n\n我们以 Apache 2.0 许可证发布 MetaVoice-1B，*您可以无限制地使用它*。\n\n\n## 快速入门 - tl;dr\n\nWeb UI\n```bash\ndocker-compose up -d ui && docker-compose ps && docker-compose logs -f\n```\n\n服务器\n```bash\n# 访问 \u003CURL>\u002Fdocs 查看 API 文档\ndocker-compose up -d server && docker-compose ps && docker-compose logs -f\n```\n\n## 安装\n\n**先决条件：**\n- GPU 显存 ≥12GB\n- Python ≥3.10,\u003C3.12\n- pipx（[安装说明](https:\u002F\u002Fpipx.pypa.io\u002Fstable\u002Finstallation\u002F)）\n\n**环境设置**\n```bash\n# 安装 ffmpeg\nwget https:\u002F\u002Fjohnvansickle.com\u002Fffmpeg\u002Fbuilds\u002Fffmpeg-git-amd64-static.tar.xz\nwget https:\u002F\u002Fjohnvansickle.com\u002Fffmpeg\u002Fbuilds\u002Fffmpeg-git-amd64-static.tar.xz.md5\nmd5sum -c ffmpeg-git-amd64-static.tar.xz.md5\ntar xvf ffmpeg-git-amd64-static.tar.xz\nsudo mv ffmpeg-git-*-static\u002Fffprobe ffmpeg-git-*-static\u002Fffmpeg \u002Fusr\u002Flocal\u002Fbin\u002F\nrm -rf ffmpeg-git-*\n\n# 如果尚未安装 Rust，请安装（确保安装后重启终端）\ncurl --proto '=https' --tlsv1.2 -sSf https:\u002F\u002Fsh.rustup.rs | sh\n```\n\n### 项目依赖安装\n1. [使用 Poetry（推荐）](#using-poetry-recommended)\n2. [使用 pip\u002Fconda](#using-pipconda)\n\n#### 使用 Poetry（推荐）\n```bash\n# 如果尚未安装 Poetry，请安装（确保安装后重启终端）\npipx install poetry\n\n# 关闭可能干扰 Poetry 虚拟环境的任何 conda 环境\nconda deactivate\n\n# 如果您在 Linux 上运行，keyring 后端可能会导致 `poetry install` 卡住。此命令可以避免这种情况。\nexport PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring\n\n# pip 的依赖解析器可能会报错，这是暂时的预期行为，不会影响完整的推理和微调功能。\npoetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1\n```\n\n#### 使用 pip\u002Fconda\n注意 1：当我们处理问题时，会要求您先尝试使用 Poetry。\n注意 2：本 README 中的所有命令默认使用 `poetry`，因此您可以直接去掉 `poetry run` 部分。\n\n```bash\npip install -r requirements.txt\npip install torch==2.2.1 torchaudio==2.2.1\npip install -e .\n```\n\n## 使用方法\n1. 下载并在任何地方使用（包括本地），配合我们的 [参考实现](\u002Ffam\u002Fllm\u002Ffast_inference.py)。\n```bash\n# 您可以使用 `--quantisation_mode int4` 或 `--quantisation_mode int8` 进行实验性的加速推理。这会降低音频质量。\n# 注意：由于未调试的原因，int8 比 bf16\u002Ffp16 更慢。如果您想要更快的速度，可以尝试 int4，其速度大约是 bf16\u002Ffp16 的两倍。\npoetry run python -i fam\u002Fllm\u002Ffast_inference.py\n\n# 在交互式 Python 会话中运行 API 示例\ntts.synthesise(text=\"这是 MetaVoice-1B 的文本转语音演示，MetaVoice-1B 是一个开源的基础音频模型。\", spk_ref_path=\"assets\u002Fbria.mp3\")\n```\n> 注意：脚本启动需要 30–90 秒（取决于硬件）。这是因为我们对模型进行了 Torch 编译以实现快速推理。\n\n> 在 Ampere、Ada-Lovelace 和 Hopper 架构的 GPU 上，一旦编译完成，synthesise() API 的运行速度将超过实时，实时因子（RTF）小于 1.0。\n\n2. 将其部署到任何云平台（AWS\u002FGCP\u002FAzure），使用我们的 [推理服务器](serving.py) 或 [Web UI](app.py)。\n```bash\n# 您可以使用 `--quantisation_mode int4` 或 `--quantisation_mode int8` 进行实验性的加速推理。这会降低音频质量。\n# 注意：由于未调试的原因，int8 比 bf16\u002Ffp16 更慢。如果您想要更快的速度，可以尝试 int4，其速度大约是 bf16\u002Ffp16 的两倍。\n\n# 访问 \u003CURL>\u002Fdocs 查看 API 文档\npoetry run python serving.py\n\npoetry run python app.py\n```\n\n3. 通过 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmetavoiceio) 使用。\n4. [Google Colab 演示](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fmetavoiceio\u002Fmetavoice-src\u002Fblob\u002Fmain\u002Fcolab_demo.ipynb)\n\n## 微调\n我们支持对第一阶段 LLM 进行微调（参见 [架构部分](#Architecture)）。\n\n为了进行微调，我们需要一个以竖线分隔的 CSV 数据集，格式如下：\n\n```csv\naudio_files|captions\n.\u002Fdata\u002Faudio.wav|.\u002Fdata\u002Fcaption.txt\n```\n\n请注意，我们不会检查数据集是否存在重叠，请确保您的训练集和验证集是互不重叠的。\n\n您可以使用我们的示例数据集进行尝试：\n```bash\npoetry run finetune --train .\u002Fdatasets\u002Fsample_dataset.csv --val .\u002Fdatasets\u002Fsample_val_dataset.csv\n```\n\n训练完成后，您可以使用以下命令进行推理：\n```bash\npoetry run python -i fam\u002Fllm\u002Ffast_inference.py --first_stage_path .\u002Fmy-finetuned_model.pt\n```\n\n### 配置\n\n要设置学习率、冻结层等超参数，您可以编辑 [finetune_params.py](.\u002Ffam\u002Fllm\u002Fconfig\u002Ffinetune_params.py) 文件。\n\n我们还提供与 W&B 的轻量级可选集成，可通过设置 `wandb_log = True` 并安装相应依赖来启用。\n\n```bash\npoetry install -E observable\n```\n\n## 即将推出\n- [x] 更快的推理 ⚡\n- [x] 微调代码 📐\n- [ ] 任意长度文本合成\n\n## 架构\n我们根据文本和说话人信息预测 EnCodec 令牌。随后，这些令牌被扩散生成波形，并通过后处理步骤进一步清理音频。\n\n* 我们使用因果 GPT 来预测 EnCodec 令牌的前两个层级。文本和音频都作为大语言模型上下文的一部分。说话人信息则通过令牌嵌入层的条件化机制传递。该说话人条件化信息来自一个单独训练的说话人验证网络。\n  - 这两个层级以“展平交错”的方式预测：先预测第一层级的第一个令牌，再预测第二层级的第一个令牌，接着预测第一层级的第二个令牌，依此类推。\n  - 我们采用无条件采样来提升模型的克隆能力。\n  - 文本使用一个自定义训练的、拥有 512 个令牌的 BPE 分词器进行分词。\n  - 需要注意的是，我们跳过了像其他工作那样预测语义令牌的步骤，因为我们发现这并非严格必要。\n* 我们使用非因果（编码器风格）的 Transformer，从前两个层级预测剩余的 6 个层级。这是一个非常小的模型（约 1000 万参数），并且对我们尝试过的大多数说话人都表现出强大的零样本泛化能力。由于它是非因果的，我们还可以并行预测所有时间步。\n* 我们使用多频带扩散技术，从 EnCodec 令牌生成波形。我们注意到，与使用原始 RVQ 解码器或 VOCOS 相比，生成的语音更加清晰。然而，在波形级别进行扩散会留下一些令人不悦的背景伪影。我们会在下一步中将其清除。\n* 我们使用 DeepFilterNet 来去除多频带扩散引入的伪影。\n\n## 优化\n该模型支持：\n1. 通过 Flash Decoding 实现 KV 缓存。\n2. 批量处理（包括不同长度的文本）。\n\n## 贡献\n- 查看所有 [活跃问题](https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues)！\n\n## 致谢\n我们感谢 Together.ai 全天候帮助我们调度集群。同时，我们也感谢 AWS、GCP 和 Hugging Face 团队在云平台方面的支持。\n\n- [A Défossez 等人](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.13438) 提供的 Encodec 技术。\n- [RS Roman 等人](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.02560) 提供的多频带扩散技术。\n- [@liusongxiang](https:\u002F\u002Fgithub.com\u002Fliusongxiang\u002Fppg-vc\u002Fblob\u002Fmain\u002Fspeaker_encoder\u002Finference.py) 提供的说话人编码器实现。\n- [@karpathy](https:\u002F\u002Fgithub.com\u002Fkarpathy\u002FnanoGPT) 的 NanoGPT，我们的推理实现正是基于此。\n- [@Rikorose](https:\u002F\u002Fgithub.com\u002FRikorose) 提供的 DeepFilterNet。\n\n若我们遗漏了任何贡献者，敬请谅解。如有疏漏，请随时告知我们。","# MetaVoice-1B 快速上手指南\n\nMetaVoice-1B 是一个拥有 12 亿参数的基础文本转语音（TTS）模型，专为英语情感语调、零样本声音克隆（支持美式和英式口音）以及跨语言微调而设计。该模型基于 Apache 2.0 协议开源，可无限制使用。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **硬件要求**：GPU 显存 >= 12GB\n*   **Python 版本**：3.10 \u003C= Python \u003C 3.12\n*   **工具依赖**：\n    *   `pipx` (用于管理命令行工具)\n    *   `ffmpeg` (用于音频处理)\n    *   `Rust` (部分依赖编译需要)\n\n### 前置依赖安装\n\n**1. 安装 ffmpeg**\n```bash\nwget https:\u002F\u002Fjohnvansickle.com\u002Fffmpeg\u002Fbuilds\u002Fffmpeg-git-amd64-static.tar.xz\nwget https:\u002F\u002Fjohnvansickle.com\u002Fffmpeg\u002Fbuilds\u002Fffmpeg-git-amd64-static.tar.xz.md5\nmd5sum -c ffmpeg-git-amd64-static.tar.xz.md5\ntar xvf ffmpeg-git-amd64-static.tar.xz\nsudo mv ffmpeg-git-*-static\u002Fffprobe ffmpeg-git-*-static\u002Fffmpeg \u002Fusr\u002Flocal\u002Fbin\u002F\nrm -rf ffmpeg-git-*\n```\n\n**2. 安装 Rust** (如果尚未安装，安装后请重启终端)\n```bash\ncurl --proto '=https' --tlsv1.2 -sSf https:\u002F\u002Fsh.rustup.rs | sh\n```\n\n**3. 安装 pipx**\n请参考官方文档安装：[pipx installation instructions](https:\u002F\u002Fpipx.pypa.io\u002Fstable\u002Finstallation\u002F)\n\n## 安装步骤\n\n推荐使用 **Poetry** 进行依赖管理。\n\n**1. 安装 Poetry 并配置环境**\n```bash\n# 安装 poetry\npipx install poetry\n\n# 停用可能干扰的 conda 环境\nconda deactivate\n\n# Linux 用户防止 keyring 后端挂起\nexport PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring\n```\n\n**2. 安装项目依赖**\n```bash\n# 安装依赖并固定 torch 版本以获得最佳兼容性\npoetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1\n```\n\n> **注意**：如果您更习惯使用 `pip` 或 `conda`，也可以运行：\n> ```bash\n> pip install -r requirements.txt\n> pip install torch==2.2.1 torchaudio==2.2.1\n> pip install -e .\n> ```\n> *但在提交问题时，官方建议优先使用 Poetry 环境复现。*\n\n## 基本使用\n\n### 方式一：本地交互式推理 (推荐)\n\n这是最简单的测试方式，可以直接在 Python 交互环境中调用 API。\n\n**1. 启动交互式会话**\n```bash\n# 可选：添加 --quantisation_mode int4 以加快推理速度（音质略有下降）\npoetry run python -i fam\u002Fllm\u002Ffast_inference.py\n```\n> **提示**：首次运行时脚本可能需要 30-90 秒启动，因为模型正在进行 `torch.compile` 编译优化。在 Ampere、Ada-Lovelace 和 Hopper 架构显卡上，编译后的推理速度将快于实时（RTF \u003C 1.0）。\n\n**2. 执行合成命令**\n在打开的 Python 交互界面中，运行以下代码：\n\n```python\ntts.synthesise(\n    text=\"This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model.\", \n    spk_ref_path=\"assets\u002Fbria.mp3\"\n)\n```\n*   `text`: 要合成的文本内容。\n*   `spk_ref_path`: 参考音频路径（用于声音克隆，仅需 30 秒音频即可实现零样本克隆）。\n\n### 方式二：快速部署 (Web UI 或 API 服务)\n\n如果您希望启动一个 Web 界面或 API 服务器，可以使用 Docker 快速部署。\n\n**启动 Web UI**\n```bash\ndocker-compose up -d ui && docker-compose ps && docker-compose logs -f\n```\n\n**启动 API 服务器**\n```bash\n# 启动后可访问 \u003CURL>\u002Fdocs 查看 API 定义\ndocker-compose up -d server && docker-compose ps && docker-compose logs -f\n```\n\n或者直接使用 Python 启动服务：\n```bash\n# 启动 API 服务\npoetry run python serving.py\n\n# 启动 Web UI\npoetry run python app.py\n```","一家专注于制作英语有声书的初创团队，正试图将经典文学作品快速转化为具有情感张力的音频内容，以拓展全球市场。\n\n### 没有 metavoice-src 时\n- **声音机械生硬**：传统 TTS 生成的语音缺乏抑扬顿挫，无法还原原著中愤怒、悲伤或喜悦等细腻的情感节奏，听众极易出戏。\n- **克隆门槛极高**：若想模仿特定英式或美式配音演员的声音，通常需要录制数小时的高质量素材进行长时间训练，成本高昂且周期长。\n- **长文合成断裂**：在处理章节较长的文本时，现有模型容易出现语调不一致或中途断气的情况，后期需要人工大量剪辑拼接。\n- **多语种支持受限**：针对印度裔作者的作品，难以找到能自然融合当地口音与英语韵律的合成方案，导致受众群体受限。\n\n### 使用 metavoice-src 后\n- **情感表达逼真**：metavoice-src 凭借 10 万小时数据训练的基座能力，能精准捕捉文本中的情绪起伏，生成的英语语音拥有媲美真人的呼吸感和语调变化。\n- **极速零样本克隆**：仅需提供 30 秒参考音频，即可立即克隆出地道的英美嗓音，无需重新训练模型，大幅缩短了角色声音的定制时间。\n- **无限长度流畅合成**：支持任意长度文本的一次性合成，确保整章故事语调统一、连贯自然，彻底消除了人工拼接音轨的繁琐工序。\n- **灵活跨语种微调**：针对特殊口音需求，仅用 1 分钟数据进行微调即可实现高质量的跨语言声音克隆，轻松覆盖更多元化的听众群体。\n\nmetavoice-src 通过其卓越的情感表现力和低资源克隆能力，将有声书制作效率提升了数倍，同时显著降低了获得专业级配音的成本。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmetavoiceio_metavoice-src_2d121e2b.png","metavoiceio","MetaVoice","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmetavoiceio_94a7312d.png","AI voice conversations that feel human",null,"hello@metavoice.io","https:\u002F\u002Fmetavoice.io","https:\u002F\u002Fgithub.com\u002Fmetavoiceio",[82,86,89],{"name":83,"color":84,"percentage":85},"Python","#3572A5",97.2,{"name":87,"color":88,"percentage":24},"Jupyter Notebook","#DA5B0B",{"name":90,"color":91,"percentage":92},"Dockerfile","#384d54",0.9,4197,690,"2026-04-19T18:42:01","Apache-2.0","Linux","必需，NVIDIA GPU (支持 Ampere, Ada-Lovelace, Hopper 架构以获得最佳性能)，显存 >= 12GB","未说明",{"notes":101,"python":102,"dependencies":103},"1. 官方推荐使用 Poetry 管理依赖，若使用 Linux 需设置 PYTHON_KEYRING_BACKEND 环境变量防止安装挂起。2. 必须预先安装 ffmpeg 和 Rust。3. 首次运行推理脚本需要 30-90 秒进行模型编译 (torch.compile)，编译后在支持的 GPU 上可实现实时率 (RTF) \u003C 1.0。4. 支持 int4 量化以加速推理（约快 2 倍），但会降低音质；int8 目前比 bf16\u002Ffp16 慢。5. Windows 和 macOS 未在预置条件中明确列出，且 ffmpeg 安装指令针对 Linux，故主要支持 Linux。",">=3.10, \u003C3.12",[104,105,106,107,108],"torch==2.2.1","torchaudio==2.2.1","ffmpeg","rust","poetry",[110,14,15,13],"音频",[112,113,114,115,116,117,118,119,120],"text-to-speech","ai","deep-learning","pytorch","speech","speech-synthesis","tts","voice-clone","zero-shot-tts","2026-03-27T02:49:30.150509","2026-04-20T10:23:55.930018",[124,129,134,139,144,149],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},44546,"安装时遇到 flash-attn 包构建失败，报错缺少 'wheel' 模块怎么办？","这是缺少构建依赖导致的。请先运行 `pip install wheel` 安装 wheel 模块，然后再重新执行依赖安装命令 `pip install -r requirements.txt`。这通常能解决 `ModuleNotFoundError: No module named 'wheel'` 的错误。","https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues\u002F7",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},44547,"使用 KV cache 优化推理时，报错 'kv_cache only supported for flash attention 2' 如何解决？","该错误表明当前模型配置使用的是 `torch_attn`，但启用 KV cache 必须依赖 `flash attention 2`。请确保您的环境中已正确安装 `flash-attn` 库，并且模型初始化时成功加载了 flash attention 后端，而不是回退到标准的 torch attention。","https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues\u002F19",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},44548,"运行时报错 'AttributeError: torch._inductor.config.fx_graph_cache does not exist' 是什么原因？","这是由于 PyTorch 版本不兼容导致的。项目依赖的 `audiocraft` 强制要求较低版本的 PyTorch（如 2.1.0），而较新的 PyTorch 版本移除了该配置项。目前官方尚未完全解决此冲突，建议尝试按照项目指定的 Poetry 脚本安装特定版本的依赖，或关注后续更新以获取兼容性修复。","https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues\u002F73",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},44549,"在 Ubuntu 上使用 Docker Compose 启动时，报错 'unknown or invalid runtime name: nvidia' 怎么处理？","此错误表示 Docker 未配置 NVIDIA 容器运行时支持。您需要确保系统已安装 NVIDIA Container Toolkit，并在 Docker 守护进程配置（通常是 `\u002Fetc\u002Fdocker\u002Fdaemon.json`）中正确设置了 `\"default-runtime\": \"nvidia\"` 或在 `docker-compose.yml` 中正确指定了 runtime。此外，还需注意依赖包版本冲突问题，例如 `audiocraft` 可能需要特定版本的 torch（如 2.1.0），与默认安装的最新版不兼容。","https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues\u002F101",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},44550,"Metavoice 模型原生支持英语以外的语言吗？如何支持中文或其他语言？","目前训练数据主要以英语为主，原生对其他语言（如中文、法语）的支持有限，可能无法完美捕捉其他语言的韵律。未来的多语言支持计划通过微调（Fine-tuning）或 LoRA 技术来实现。社区用户已表达对中文和法语 LoRA 的兴趣，相关多语言适配工作正在讨论和推进中。","https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues\u002F6",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},44551,"如何在 Mac (M1\u002FM2\u002FM3) 上使用 Docker 运行该项目？","在 Mac Apple Silicon (Metal\u002FMPS) 上使用 Docker 存在已知限制，主要是 Docker 难以直接透传 GPU 给容器，这可能导致运行错误（如退出代码 139）。此外，Mac 环境下可能缺乏 `flash_attn` 包的预编译支持。目前的 Docker 实现主要针对 CUDA GPU 加速系统设计。如果在 Mac 上本地运行，可能会遇到缺少 flash_attn 包的问题，建议关注官方针对 MPS 后端的进一步优化或直接在本机环境（非 Docker）尝试配置。","https:\u002F\u002Fgithub.com\u002Fmetavoiceio\u002Fmetavoice-src\u002Fissues\u002F48",[]]