[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Text-to-Audio--AudioLCM":3,"tool-Text-to-Audio--AudioLCM":65},[4,23,32,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,2,"2026-04-08T11:03:08",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},4128,"GPT-SoVITS","RVC-Boss\u002FGPT-SoVITS","GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。\n\n该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。\n\n在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。",56375,3,"2026-04-05T22:15:46",[21],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},2863,"TTS","coqui-ai\u002FTTS","🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。\n\n无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。\n\n在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。",44971,"2026-04-03T14:47:02",[21,20,13],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":29,"last_commit_at":46,"category_tags":47,"status":22},2375,"LocalAI","mudler\u002FLocalAI","LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。\n\n对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。\n\nLocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获",44782,"2026-04-02T22:14:26",[13,21,19,17,20,14,16],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":29,"last_commit_at":54,"category_tags":55,"status":22},3108,"bark","suno-ai\u002Fbark","Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。\n\n它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。\n\n技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。",39067,"2026-04-04T03:33:35",[21],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":22},3788,"airi","moeru-ai\u002Fairi","airi 是一款开源的本地化 AI 伴侣项目，旨在将虚拟角色（如“二次元老婆”或赛博生命）带入用户的现实世界。它的核心目标是复刻并超越知名 AI 主播 Neuro-sama 的能力，让用户能够拥有完全自主掌控、可私有化部署的智能伙伴。\n\nairi 主要解决了用户对高度定制化、具备情感交互能力且数据隐私安全的 AI 角色的需求。不同于依赖云端服务的通用助手，airi 允许用户在本地运行，不仅保护了对话隐私，还赋予了用户定义角色性格与灵魂的自由。它支持实时语音聊天，甚至能直接参与《我的世界》（Minecraft）和《异星工厂》（Factorio）等游戏，实现了从单纯对话到共同娱乐的跨越。\n\n这款工具非常适合喜爱虚拟角色的普通用户、希望搭建个性化 AI 陪伴的技术爱好者，以及研究多模态交互的开发者。其独特的技术亮点在于跨平台支持（涵盖 Web、macOS 和 Windows）以及强大的游戏交互能力，让 AI 不仅能“说”，还能“玩”。通过容器化的灵魂设计，airi 为每个人创造专属数字生命提供了可能，让虚拟陪伴变得更加真实且触手可及。",37086,1,"2026-04-05T10:54:25",[19,21,17],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":79,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":77,"difficulty_score":29,"env_os":88,"env_gpu":89,"env_ram":90,"env_deps":91,"category_tags":99,"github_topics":77,"view_count":10,"oss_zip_url":77,"oss_zip_packed_at":77,"status":22,"created_at":100,"updated_at":101,"faqs":102,"releases":143},5542,"Text-to-Audio\u002FAudioLCM","AudioLCM","PyTorch Implementation of AudioLCM (ACM-MM'24): a efficient and high-quality text-to-audio generation with latent consistency model.","AudioLCM 是一款基于潜空间一致性模型（Latent Consistency Model）的高效文本生成音频开源工具，由 ACM-MM 2024 收录。它能够将用户输入的文字描述快速转化为高保真度的声音片段，无论是机械震动、火箭爆炸还是人群欢笑，都能生动还原。\n\n传统文本生成音频模型往往需要在生成质量和推理速度之间做出权衡，而 AudioLCM 通过引入先进的潜空间一致性技术，成功打破了这一瓶颈。它不仅显著减少了生成所需的时间步数，实现了极速推理，同时保持了卓越的音频细节与真实感，解决了以往模型生成慢或音质不佳的痛点。\n\n这款工具非常适合多类人群使用：研究人员可借此探索高效的生成式音频算法；开发者能轻松将其集成到多媒体应用或游戏开发中；设计师则可用它快速为视频内容配乐或制作音效原型。得益于提供的 PyTorch 实现、预训练模型以及简洁的 Python 调用接口，即使没有深厚算法背景的用户，也能在配备 NVIDIA GPU 的环境中快速上手体验。此外，项目还开源了包括 BigVGAN 声码器在内的完整依赖链路，确保了从实验到部署的流畅性。","# [ACM-MM 2024]AudioLCM: Text-to-Audio Generation with Latent Consistency Models\n\n#### Huadai Liu, Rongjie Huang, Yang Liu, Hengyuan Cao, Jialei Wang, Xize Cheng, Siqi Zheng, Zhou Zhao\n\nPyTorch Implementation of **[AudioLCM (ACM-MM'24)]**: an efficient and high-quality text-to-audio generation with latent consistency model.\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)\n[![Hugging Face](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIGC-Audio\u002FAudioLCM)\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FText-to-Audio\u002FAudioLCM?style=social)](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM)\n\nWe provide our implementation and pretrained models as open-source in this repository.\n\nVisit our [demo page](https:\u002F\u002Faudiolcm.github.io\u002F) for audio samples.\n\n[AudioLCM HuggingFace Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIGC-Audio\u002FAudioLCM) \n\n## News\n- July, 2025: 🔥 **[ThinkSound](https:\u002F\u002Fgithub.com\u002Fliuhuadai\u002FThinkSound)** released for **Any2Audio Generation**.\n- May, 2025: 🔥 **[OmniAudio](https:\u002F\u002Fgithub.com\u002Fliuhuadai\u002FOmniAudio)** released and accepted by ICML 2025.\n- May, 2025: **[FlashAudio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12266)** has been accepted by ACL 2025 Main Conference.\n- Oct, 2024: **[FlashAudio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12266)** released.\n- Sept, 2024: **[Make-An-Audio 3 (Lumina-Next)](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio-3)** accepted by NeurIPS'24.\n- July, 2024: **[AudioLCM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)** accepted by ACM-MM'24.\n- June, 2024: **[Make-An-Audio 3 (Lumina-Next)](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio-3)** released in Github and HuggingFace.\n- May, 2024: **[AudioLCM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)** released in Github and HuggingFace.\n\n## Quick Started\nWe provide an example of how you can generate high-fidelity samples quickly using AudioLCM.\n\nDownload the **AudioLCM** model and generate audio from a text prompt:\n\n```python\nfrom pythonscripts.InferAPI import AudioLCMInfer\n\nprompt=\"Constant rattling noise and sharp vibrations\"\nconfig_path=\".\u002Faudiolcm.yaml\"\nmodel_path=\".\u002Faudiolcm.ckpt\"\nvocoder_path=\".\u002Fmodel\u002Fvocoder\"\naudio_path = AudioLCMInfer(prompt, config_path=config_path, model_path=model_path, vocoder_path=vocoder_path)\n\n```\n\nUse the `AudioLCMBatchInfer` function to generate multiple audio samples for a batch of text prompts:\n\n```python\nfrom pythonscripts.InferAPI import AudioLCMBatchInfer\n\nprompts=[\n    \"Constant rattling noise and sharp vibrations\",\n    \"A rocket flies by followed by a loud explosion and fire crackling as a truck engine runs idle\",\n    \"Humming and vibrating with a man and children speaking and laughing\"\n        ]\nconfig_path=\".\u002Faudiolcm.yaml\"\nmodel_path=\".\u002Faudiolcm.ckpt\"\nvocoder_path=\".\u002Fmodel\u002Fvocoder\"\naudio_path = AudioLCMBatchInfer(prompts, config_path=config_path, model_path=model_path, vocoder_path=vocoder_path)\n```\nTo try on your own dataset, simply clone this repo in your local machine provided with NVIDIA GPU + CUDA cuDNN and follow the below instructions.\n\n\n### Pretrained Models\n\nSimply download the weights from [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fliuhuadai\u002FAudioLCM).\n\u003C!-- Download bert-base-uncased weights from [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fgoogle-bert\u002Fbert-base-uncased). Down load t5-v1_1-large weights from [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Ft5-v1_1-large). Download CLAP weights from [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002Fmsclap\u002Fblob\u002Fmain\u002FCLAP_weights_2022.pth).  -->\n\n```\nDownload:\n    audiolcm.ckpt and put it into .\u002Fckpts  \n    BigVGAN vocoder and put it into .\u002Fvocoder\u002Flogs\u002Fbigvnat16k93.5w  \n    t5-v1_1-large and put it into .\u002Fldm\u002Fmodules\u002Fencoders\u002FCLAP\n    bert-base-uncased and put it into .\u002Fldm\u002Fmodules\u002Fencoders\u002FCLAP\n    CLAP_weights_2022.pth and put it into .\u002Fwav_evaluation\u002Fuseful_ckpts\u002FCLAP\n```\n\u003C!-- The directory structure should be:\n```\nuseful_ckpts\u002F\n├── bigvgan\n│   ├── args.yml\n│   └── best_netG.pt\n├── CLAP\n│   ├── config.yml\n│   └── CLAP_weights_2022.pth\n└── maa1_full.ckpt\n``` -->\n\n\n### Dependencies\nSee requirements in `requirement.txt`:\n\n## Inference with a pre-trained model\n```bash\npython scripts\u002Ftxt2audio_for_lcm.py  --ddim_steps 2 -b configs\u002Faudiolcm.yaml --sample_rate 16000 --vocoder-ckpt  vocoder\u002Flogs\u002Fbigvnat16k93.5w --outdir results --test-dataset audiocaps  -r ckpt\u002Faudiolcm.ckpt\n```\n\n## Dataset preparation\n- We can't provide the dataset download link for copyright issues. We provide the process code to generate melspec.  \n- Before training, we need to construct the dataset information into a tsv file, which includes the name (id for each audio), dataset (which dataset the audio belongs to), audio_path (the path of .wav file),caption (the caption of the audio) ,mel_path (the processed melspec file path of each audio). \n- We provide a tsv file of the audiocaps test set: .\u002Faudiocaps_test_16000_struct.tsv as a sample.\n### Generate the melspec file of audio\nAssume you have already got a tsv file to link each caption to its audio_path, which means the tsv_file has \"name\",\"audio_path\",\"dataset\" and \"caption\" columns in it.\nTo get the melspec of audio, run the following command, which will save mels in .\u002Fprocessed\n```bash\npython ldm\u002Fdata\u002Fpreprocess\u002Fmel_spec.py --tsv_path tmp.tsv\n```\nAdd the duration into the tsv file\n```bash\npython ldm\u002Fdata\u002Fpreprocess\u002Fadd_duration.py\n```\n## Train variational autoencoder\nAssume we have processed several datasets, and save the .tsv files in data\u002F*.tsv . Replace **data.params.spec_dir_path** with the **data**(the directory that contain tsvs) in the config file. Then we can train VAE with the following command. If you don't have 8 gpus in your machine, you can replace --gpus 0,1,...,gpu_nums\n```bash\npython main.py --base configs\u002Ftrain\u002Fvae.yaml -t --gpus 0,1,2,3,4,5,6,7\n```\nThe training result will be saved in .\u002Flogs\u002F\n## Train latent diffsuion\nAfter Training VAE, replace model.params.first_stage_config.params.ckpt_path with your trained VAE checkpoint path in the config file.\nRun the following command to train the Diffusion model\n```bash\npython main.py --base configs\u002Fautoencoder1d.yaml -t  --gpus 0,1,2,3,4,5,6,7\n```\nThe training result will be saved in .\u002Flogs\u002F\n## Evaluation\nPlease refer to [Make-An-Audio](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio?tab=readme-ov-file#evaluation)\n\n## Acknowledgements\nThis implementation uses parts of the code from the following Github repos:\n[Make-An-Audio](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio)\n[CLAP](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FCLAP),\n[Stable Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Fstable-diffusion),\nas described in our code.\n\n## Citations ##\nIf you find this code useful in your research, please consider citing:\n```bibtex\n@inproceedings{10.1145\u002F3664647.3681072,\nauthor = {Liu, Huadai and Huang, Rongjie and Liu, Yang and Cao, Hengyuan and Wang, Jialei and Cheng, Xize and Zheng, Siqi and Zhao, Zhou},\ntitle = {AudioLCM: Efficient and High-Quality Text-to-Audio Generation with Minimal Inference Steps},\nyear = {2024},\nisbn = {9798400706868},\npublisher = {Association for Computing Machinery},\naddress = {New York, NY, USA},\nurl = {https:\u002F\u002Fdoi.org\u002F10.1145\u002F3664647.3681072},\ndoi = {10.1145\u002F3664647.3681072},\npages = {7008–7017},\nnumpages = {10},\nkeywords = {consistency model, latent diffusion model, text-to-audio generation},\nlocation = {Melbourne VIC, Australia},\nseries = {MM '24}\n}\n```\n\n# Disclaimer ##\nAny organization or individual is prohibited from using any technology mentioned in this paper to generate someone's speech without his\u002Fher consent, including but not limited to government leaders, political figures, and celebrities. If you do not comply with this item, you could be in violation of copyright laws.\n","# [ACM-MM 2024]AudioLCM：基于潜在一致性模型的文本到音频生成\n\n#### 刘华代、黄荣杰、刘洋、曹恒远、王佳乐、程熙泽、郑思琪、赵周\n\n**[AudioLCM (ACM-MM'24)]** 的 PyTorch 实现：一种高效且高质量的基于潜在一致性模型的文本到音频生成方法。\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-Paper-\u003CCOLOR>.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)\n[![Hugging Face](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-blue)](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIGC-Audio\u002FAudioLCM)\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FText-to-Audio\u002FAudioLCM?style=social)](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM)\n\n我们在本仓库中开源了我们的实现代码和预训练模型。\n\n请访问我们的 [demo 页面](https:\u002F\u002Faudiolcm.github.io\u002F) 查看音频样本。\n\n[AudioLCM HuggingFace Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIGC-Audio\u002FAudioLCM) \n\n## 新闻\n- 2025年7月：🔥 **[ThinkSound](https:\u002F\u002Fgithub.com\u002Fliuhuadai\u002FThinkSound)** 发布，用于 **Any2Audio Generation**。\n- 2025年5月：🔥 **[OmniAudio](https:\u002F\u002Fgithub.com\u002Fliuhuadai\u002FOmniAudio)** 发布，并被 ICML 2025 接受。\n- 2025年5月：**[FlashAudio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12266)** 已被 ACL 2025 主会接受。\n- 2024年10月：**[FlashAudio](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.12266)** 发布。\n- 2024年9月：**[Make-An-Audio 3 (Lumina-Next)](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio-3)** 被 NeurIPS'24 接受。\n- 2024年7月：**[AudioLCM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)** 被 ACM-MM'24 接受。\n- 2024年6月：**[Make-An-Audio 3 (Lumina-Next)](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio-3)** 在 Github 和 HuggingFace 上发布。\n- 2024年5月：**[AudioLCM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.00356v1)** 在 Github 和 HuggingFace 上发布。\n\n## 快速入门\n我们提供了一个示例，展示如何使用 AudioLCM 快速生成高保真音频样本。\n\n下载 **AudioLCM** 模型并根据文本提示生成音频：\n\n```python\nfrom pythonscripts.InferAPI import AudioLCMInfer\n\nprompt=\"持续的嘎吱声和剧烈的震动\"\nconfig_path=\".\u002Faudiolcm.yaml\"\nmodel_path=\".\u002Faudiolcm.ckpt\"\nvocoder_path=\".\u002Fmodel\u002Fvocoder\"\naudio_path = AudioLCMInfer(prompt, config_path=config_path, model_path=model_path, vocoder_path=vocoder_path)\n\n```\n\n使用 `AudioLCMBatchInfer` 函数为一批文本提示生成多个音频样本：\n\n```python\nfrom pythonscripts.InferAPI import AudioLCMBatchInfer\n\nprompts=[\n    \"持续的嘎吱声和剧烈的震动\",\n    \"火箭飞过，随后是巨大的爆炸声，卡车发动机怠速运转时发出噼啪的火焰声\",\n    \"嗡嗡作响并伴有振动，同时有男人和孩子们在说话和大笑\"\n        ]\nconfig_path=\".\u002Faudiolcm.yaml\"\nmodel_path=\".\u002Faudiolcm.ckpt\"\nvocoder_path=\".\u002Fmodel\u002Fvocoder\"\naudio_path = AudioLCMBatchInfer(prompts, config_path=config_path, model_path=model_path, vocoder_path=vocoder_path)\n```\n要尝试您自己的数据集，只需在配备 NVIDIA GPU + CUDA cuDNN 的本地机器上克隆此仓库，并按照以下说明操作。\n\n\n### 预训练模型\n\n只需从 [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fliuhuadai\u002FAudioLCM) 下载权重。\n\u003C!-- 从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fgoogle-bert\u002Fbert-base-uncased) 下载 bert-base-uncased 权重。从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Ft5-v1_1-large) 下载 t5-v1_1-large 权重。从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002Fmsclap\u002Fblob\u002Fmain\u002FCLAP_weights_2022.pth) 下载 CLAP 权重。  -->\n\n```\n下载：\n    audiolcm.ckpt 并将其放入 .\u002Fckpts  \n    BigVGAN 编码器并将其放入 .\u002Fvocoder\u002Flogs\u002Fbigvnat16k93.5w  \n    t5-v1_1-large 并将其放入 .\u002Fldm\u002Fmodules\u002Fencoders\u002FCLAP\n    bert-base-uncased 并将其放入 .\u002Fldm\u002Fmodules\u002Fencoders\u002FCLAP\n    CLAP_weights_2022.pth 并将其放入 .\u002Fwav_evaluation\u002Fuseful_ckpts\u002FCLAP\n```\n\u003C!-- 目录结构应如下所示：\n```\nuseful_ckpts\u002F\n├── bigvgan\n│   ├── args.yml\n│   └── best_netG.pt\n├── CLAP\n│   ├── config.yml\n│   └── CLAP_weights_2022.pth\n└── maa1_full.ckpt\n``` -->\n\n\n### 依赖项\n请参阅 `requirement.txt` 中的要求：\n\n## 使用预训练模型进行推理\n```bash\npython scripts\u002Ftxt2audio_for_lcm.py  --ddim_steps 2 -b configs\u002Faudiolcm.yaml --sample_rate 16000 --vocoder-ckpt  vocoder\u002Flogs\u002Fbigvnat16k93.5w --outdir results --test-dataset audiocaps  -r ckpt\u002Faudiolcm.ckpt\n```\n\n## 数据集准备\n- 由于版权问题，我们无法提供数据集下载链接。我们提供了生成梅尔谱的代码流程。  \n- 在训练之前，我们需要将数据集信息构建成一个 tsv 文件，其中包含名称（每个音频的 ID）、数据集（音频所属的数据集）、音频路径（.wav 文件的路径）、字幕（音频的描述）以及梅尔谱路径（每个音频处理后的梅尔谱文件路径）。 \n- 我们提供了一个 audiocaps 测试集的 tsv 文件：.\u002Faudiocaps_test_16000_struct.tsv 作为示例。\n### 生成音频的梅尔谱文件\n假设您已经有一个 tsv 文件，将每个字幕与其音频路径关联起来，这意味着该 tsv 文件包含“name”、“audio_path”、“dataset”和“caption”列。\n要获取音频的梅尔谱，请运行以下命令，这将在 .\u002Fprocessed 中保存梅尔谱：\n```bash\npython ldm\u002Fdata\u002Fpreprocess\u002Fmel_spec.py --tsv_path tmp.tsv\n```\n将持续时间添加到 tsv 文件中：\n```bash\npython ldm\u002Fdata\u002Fpreprocess\u002Fadd_duration.py\n```\n## 训练变分自编码器\n假设我们已经处理了几组数据，并将 .tsv 文件保存在 data\u002F*.tsv 中。将配置文件中的 **data.params.spec_dir_path** 替换为 **data**（包含 tsv 文件的目录）。然后我们可以使用以下命令训练 VAE。如果您机器上没有 8 个 GPU，可以将 --gpus 0,1,...,gpu_nums 替换为实际使用的 GPU 数量。\n```bash\npython main.py --base configs\u002Ftrain\u002Fvae.yaml -t --gpus 0,1,2,3,4,5,6,7\n```\n训练结果将保存在 .\u002Flogs\u002F 中。\n## 训练潜在扩散模型\n在训练完 VAE 后，在配置文件中将 model.params.first_stage_config.params.ckpt_path 替换为您训练好的 VAE 检查点路径。\n运行以下命令来训练扩散模型：\n```bash\npython main.py --base configs\u002Fautoencoder1d.yaml -t  --gpus 0,1,2,3,4,5,6,7\n```\n训练结果将保存在 .\u002Flogs\u002F 中。\n## 评估\n请参考 [Make-An-Audio](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio?tab=readme-ov-file#evaluation)\n\n## 致谢\n本实现使用了以下 Github 仓库的部分代码：\n[Make-An-Audio](https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FMake-An-Audio)\n[CLAP](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FCLAP),\n[Stable Diffusion](https:\u002F\u002Fgithub.com\u002FCompVis\u002Fstable-diffusion),\n如我们的代码中所述。\n\n## 引用 ##\n如果您在研究中使用了此代码，请考虑引用以下文献：\n```bibtex\n@inproceedings{10.1145\u002F3664647.3681072,\nauthor = {刘华岱和黄荣杰和刘洋和曹恒源和王佳磊和程希泽和郑思琪和赵周},\ntitle = {AudioLCM：以最少推理步骤实现高效高质量的文本转音频生成},\nyear = {2024},\nisbn = {9798400706868},\npublisher = {计算机协会},\naddress = {纽约，纽约州，美国},\nurl = {https:\u002F\u002Fdoi.org\u002F10.1145\u002F3664647.3681072},\ndoi = {10.1145\u002F3664647.3681072},\npages = {7008–7017},\nnumpages = {10},\nkeywords = {一致性模型，潜扩散模型，文本转音频生成},\nlocation = {墨尔本，维多利亚州，澳大利亚},\nseries = {MM '24}\n}\n```\n\n# 免责声明 ##\n严禁任何组织或个人在未经本人同意的情况下，利用本文所述技术生成他人的语音，包括但不限于政府领导人、政治人物和名人。如您不遵守此项规定，可能会触犯版权法。","# AudioLCM 快速上手指南\n\nAudioLCM 是一个基于潜在一致性模型（Latent Consistency Models）的高效文本生成音频工具，能够在极少的推理步数下生成高保真度的音频样本。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **硬件**: NVIDIA GPU (支持 CUDA) + cuDNN\n*   **软件依赖**:\n    *   Python 3.8+\n    *   PyTorch (需匹配您的 CUDA 版本)\n    *   Git\n\n**安装基础依赖：**\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM.git\ncd AudioLCM\npip install -r requirements.txt\n```\n\n> **提示**：国内用户建议使用清华或阿里镜像源加速安装：\n> `pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 2. 模型下载与目录配置\n\n您需要从 Hugging Face 下载预训练权重，并按照指定目录结构放置文件。\n\n**下载地址**: [Hugging Face - liuhuadai\u002FAudioLCM](https:\u002F\u002Fhuggingface.co\u002Fliuhuadai\u002FAudioLCM)\n\n**文件放置规则**：\n\n1.  **主模型**: 下载 `audiolcm.ckpt` 放入 `.\u002Fckpts` 目录。\n2.  **声码器 (Vocoder)**: 下载 BigVGAN 相关文件放入 `.\u002Fvocoder\u002Flogs\u002Fbigvnat16k93.5w`。\n3.  **文本编码器**:\n    *   `t5-v1_1-large` 放入 `.\u002Fldm\u002Fmodules\u002Fencoders\u002FCLAP`\n    *   `bert-base-uncased` 放入 `.\u002Fldm\u002Fmodules\u002Fencoders\u002FCLAP`\n4.  **CLAP 权重**: 下载 `CLAP_weights_2022.pth` 放入 `.\u002Fwav_evaluation\u002Fuseful_ckpts\u002FCLAP`\n\n最终目录结构参考：\n```text\nAudioLCM\u002F\n├── ckpts\u002F\n│   └── audiolcm.ckpt\n├── vocoder\u002F\n│   └── logs\u002F\n│       └── bigvnat16k93.5w\u002F  (包含声码器权重)\n├── ldm\u002F\n│   └── modules\u002F\n│       └── encoders\u002F\n│           └── CLAP\u002F (包含 t5 和 bert 模型)\n└── wav_evaluation\u002F\n    └── useful_ckpts\u002F\n        └── CLAP\u002F\n            └── CLAP_weights_2022.pth\n```\n\n## 3. 基本使用\n\n### 方法一：使用 Python API (推荐)\n\n这是最快捷的生成方式，支持单条或多条文本批量生成。\n\n**单条文本生成：**\n\n```python\nfrom pythonscripts.InferAPI import AudioLCMInfer\n\nprompt = \"Constant rattling noise and sharp vibrations\"\nconfig_path = \".\u002Faudiolcm.yaml\"\nmodel_path = \".\u002Fckpts\u002Faudiolcm.ckpt\"  # 请根据实际下载路径调整\nvocoder_path = \".\u002Fvocoder\u002Flogs\u002Fbigvnat16k93.5w\"\n\naudio_path = AudioLCMInfer(\n    prompt, \n    config_path=config_path, \n    model_path=model_path, \n    vocoder_path=vocoder_path\n)\nprint(f\"Audio saved to: {audio_path}\")\n```\n\n**批量文本生成：**\n\n```python\nfrom pythonscripts.InferAPI import AudioLCMBatchInfer\n\nprompts = [\n    \"Constant rattling noise and sharp vibrations\",\n    \"A rocket flies by followed by a loud explosion and fire crackling as a truck engine runs idle\",\n    \"Humming and vibrating with a man and children speaking and laughing\"\n]\nconfig_path = \".\u002Faudiolcm.yaml\"\nmodel_path = \".\u002Fckpts\u002Faudiolcm.ckpt\"\nvocoder_path = \".\u002Fvocoder\u002Flogs\u002Fbigvnat16k93.5w\"\n\naudio_paths = AudioLCMBatchInfer(\n    prompts, \n    config_path=config_path, \n    model_path=model_path, \n    vocoder_path=vocoder_path\n)\n```\n\n### 方法二：使用命令行脚本\n\n如果您更喜欢通过终端运行，可以使用提供的脚本进行推理。以下示例展示了如何以 2 步推理生成音频（体现 LCM 的高效性）：\n\n```bash\npython scripts\u002Ftxt2audio_for_lcm.py \\\n  --ddim_steps 2 \\\n  -b configs\u002Faudiolcm.yaml \\\n  --sample_rate 16000 \\\n  --vocoder-ckpt vocoder\u002Flogs\u002Fbigvnat16k93.5w \\\n  --outdir results \\\n  --test-dataset audiocaps \\\n  -r ckpt\u002Faudiolcm.ckpt\n```\n\n生成的音频将保存在 `results` 目录中。","某独立游戏开发者正在为一款科幻生存游戏快速原型阶段制作环境音效，需要在极短时间内生成大量符合特定描述的逼真背景声。\n\n### 没有 AudioLCM 时\n- **等待时间过长**：传统文本生成音频模型推理速度慢，生成一段几秒的音效可能需要数分钟，严重拖慢迭代节奏。\n- **硬件成本高昂**：为了获得可接受的生成速度，不得不租用昂贵的云端高性能 GPU 集群，增加了开发预算。\n- **音质与效率难兼得**：为了提速而牺牲采样步数，导致生成的“火箭爆炸”或“机械震动”声充满伪影，听感粗糙不自然。\n- **批量生产困难**：难以一次性生成多种变体供策划挑选，每次只能单条生成，沟通与修改成本极高。\n\n### 使用 AudioLCM 后\n- **秒级实时生成**：得益于潜在一致性模型（Latent Consistency Model），AudioLCM 将推理步数大幅减少，输入提示词后几乎瞬间即可听到“持续的嘎嘎噪声和尖锐震动”效果。\n- **本地部署轻松**：在单张消费级 NVIDIA 显卡上即可流畅运行，开发者无需依赖云端算力，直接在本地工作站完成制作。\n- **高保真细节还原**：即使在不增加计算负担的情况下，AudioLCM 仍能生成高保真音频，清晰呈现“卡车引擎怠速”与“火焰噼啪声”的复杂层次。\n- **高效批量产出**：利用 `AudioLCMBatchInfer` 接口，可一次性输入多条描述（如人声欢笑混合机械轰鸣），瞬间输出多个高质量候选文件供团队筛选。\n\nAudioLCM 通过突破性的加速算法，让高质量音效创作从“昂贵且缓慢的资源消耗”转变为“即时且低成本的创意流动”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FText-to-Audio_AudioLCM_41a35533.png","Text-to-Audio",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FText-to-Audio_4152811b.png","https:\u002F\u002Fgithub.com\u002FText-to-Audio",[81],{"name":82,"color":83,"percentage":84},"Python","#3572A5",100,1158,158,"2026-04-08T08:46:28","Linux","必需 NVIDIA GPU，支持 CUDA 和 cuDNN。训练示例命令显示支持多卡（最多 8 张），具体显存需求未说明，但运行 BigVGAN 声码器和扩散模型通常建议 16GB+ 显存。","未说明",{"notes":92,"python":90,"dependencies":93},"1. 官方文档明确指出本地运行需提供 'NVIDIA GPU + CUDA cuDNN' 环境，通常意味着主要支持 Linux 系统。\n2. 需要手动下载多个预训练模型文件（AudioLCM 检查点、BigVGAN 声码器、T5、BERT、CLAP），并按特定目录结构存放。\n3. 训练变分自编码器 (VAE) 和潜在扩散模型时，默认配置示例使用了 8 张 GPU，若显卡数量不足需修改启动命令中的 --gpus 参数。\n4. 数据集因版权问题不提供下载链接，用户需自备音频数据并按照提供的脚本生成梅尔频谱图 (melspec) 和 TSV 索引文件。",[94,95,96,97,98],"torch","transformers (用于 T5, BERT)","librosa (隐含于 mel_spec.py)","numpy","yaml",[21],"2026-03-27T02:49:30.150509","2026-04-08T22:49:14.574680",[103,108,113,118,123,128,133,138],{"id":104,"question_zh":105,"answer_zh":106,"source_url":107},25159,"如何生成更长的音频？当前生成的音频只有 9 秒。","目前模型仅支持生成固定长度的音频，时长不超过 10 秒。暂不支持生成长音频。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F14",{"id":109,"question_zh":110,"answer_zh":111,"source_url":112},25160,"运行推理脚本时遇到 FileNotFoundError: 'audiocaps_mels\u002Ftest\u002F...npy' 或 '.\u002Fmusiccap.tsv' 缺失怎么办？","这些测试数据文件（如 mel 谱和 tsv 文件）最初未完全开源，但维护者已上传相关目录和参考文件（如 musiccap.tsv）到仓库中供参考。请确保拉取最新代码或检查仓库中的数据文件夹。如果是自定义数据集，需按照 Dataset preparation 步骤自行生成 mel 谱，并确保 tsv 文件格式正确。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F11",{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},25161,"执行 mel_spec.py 预处理脚本时，--tsv_path 参数不生效，始终默认使用 '.\u002Fmusiccap.tsv' 怎么办？","这是一个已知问题，维护者已更新 mel_spec.py 文件，添加了 argparse 来正确解析 --tsv_path 参数。请拉取最新代码即可解决。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F12",{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},25162,"训练 VAE 时找不到 configs\u002Ftrain\u002Fvae.yaml 配置文件怎么办？","该文件路径可能有误，请改用 configs\u002Fautoencoder1d.yaml 配置文件进行训练。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F13",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},25163,"遇到 OSError: Incorrect path_or_model_id: '...bert-base-uncased' 错误如何解决？","所需的 CLAP 编码器检查点（如 bert-base-uncased）已在 Hugging Face 上提供。请直接从 Hugging Face 下载对应的模型权重，而不是依赖本地相对路径，或者确保本地路径配置正确指向已下载的模型文件夹。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F6",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},25164,"BigVGAN 声码器（vocoder）的文件在哪里？是 HuggingFace 上的 best_netG.pt 吗？","是的，BigVGAN 声码器对应的是 HuggingFace 仓库 vocoder 目录下的 best_netG.pt 文件。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F5",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},25165,"运行预处理命令时报错 TypeError: mel() takes 0 positional arguments but 5 were given，即使更新了 librosa 版本也无效怎么办？","这通常是由于 librosa 版本不兼容导致的。虽然官方建议更新到 librosa==0.10.2.post1，但如果问题依旧，请尝试安装其他版本的 librosa 进行测试，直到找到与当前代码兼容的版本。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F9",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},25166,"AudioLCM 与 ConsistencyTTA 有什么主要区别和联系？","相似点：两者都使用了潜在空间一致性模型、单阶段蒸馏推理过程、引导蒸馏技术，并都能实现数百倍的加速。不同点：ConsistencyTTA 提出通过直接优化 CLAP 分数来微调模型；而 AudioLCM 额外考虑了文本到音乐（text-to-music）的生成任务。此外，两者的 DDIM 求解器在具体步长参数（num_ddim_timesteps）和实现细节上存在差异。","https:\u002F\u002Fgithub.com\u002FText-to-Audio\u002FAudioLCM\u002Fissues\u002F10",[]]