[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-jik876--hifi-gan":3,"tool-jik876--hifi-gan":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":10,"env_os":90,"env_gpu":91,"env_ram":90,"env_deps":92,"category_tags":98,"github_topics":99,"view_count":107,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":108,"updated_at":109,"faqs":110,"releases":140},666,"jik876\u002Fhifi-gan","hifi-gan","HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis","HiFi-GAN 是一个基于生成对抗网络的开源语音合成模型，致力于实现高效且高保真的语音波形生成。过去，许多基于 GAN 的方法虽然提升了采样效率，但在音质上难以匹敌自回归模型。HiFi-GAN 成功解决了这一痛点，在保证速度的同时达到了接近人耳听感的高质量。\n\nHiFi-GAN 非常适合语音技术领域的开发者、AI 研究人员以及希望集成高质量语音功能的产品团队。其核心亮点在于能够精准建模音频中的周期性信号模式，从而大幅提升合成效果。实测数据显示，在单张 V100 GPU 上，HiFi-GAN 生成 22.05 kHz 高保真音频的速度可达实时的 167.9 倍；即便在普通 CPU 上，也能实现 13.4 倍于实时的处理速度，且音质不输复杂的自回归模型。此外，项目还提供了多种预训练模型及通用版本，支持微调与迁移学习，极大地降低了使用门槛，是构建现代语音合成系统的优秀选择。","# HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis\n\n### Jungil Kong, Jaehyeon Kim, Jaekyoung Bae\n\nIn our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.05646), \nwe proposed HiFi-GAN: a GAN-based model capable of generating high fidelity speech efficiently.\u003Cbr\u002F>\nWe provide our implementation and pretrained models as open source in this repository.\n\n**Abstract :**\nSeveral recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. \nAlthough such methods improve the sampling efficiency and memory usage, \ntheir sample quality has not yet reached that of autoregressive and flow-based generative models. \nIn this work, we propose HiFi-GAN, which achieves both efficient and high-fidelity speech synthesis. \nAs speech audio consists of sinusoidal signals with various periods, \nwe demonstrate that modeling periodic patterns of an audio is crucial for enhancing sample quality. \nA subjective human evaluation (mean opinion score, MOS) of a single speaker dataset indicates that our proposed method \ndemonstrates similarity to human quality while generating 22.05 kHz high-fidelity audio 167.9 times faster than \nreal-time on a single V100 GPU. We further show the generality of HiFi-GAN to the mel-spectrogram inversion of unseen \nspeakers and end-to-end speech synthesis. Finally, a small footprint version of HiFi-GAN generates samples 13.4 times \nfaster than real-time on CPU with comparable quality to an autoregressive counterpart.\n\nVisit our [demo website](https:\u002F\u002Fjik876.github.io\u002Fhifi-gan-demo\u002F) for audio samples.\n\n\n## Pre-requisites\n1. Python >= 3.6\n2. Clone this repository.\n3. Install python requirements. Please refer [requirements.txt](requirements.txt)\n4. Download and extract the [LJ Speech dataset](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F).\nAnd move all wav files to `LJSpeech-1.1\u002Fwavs`\n\n\n## Training\n```\npython train.py --config config_v1.json\n```\nTo train V2 or V3 Generator, replace `config_v1.json` with `config_v2.json` or `config_v3.json`.\u003Cbr>\nCheckpoints and copy of the configuration file are saved in `cp_hifigan` directory by default.\u003Cbr>\nYou can change the path by adding `--checkpoint_path` option.\n\nValidation loss during training with V1 generator.\u003Cbr>\n![validation loss](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjik876_hifi-gan_readme_8b7ab0e1d925.png)\n\n## Pretrained Model\nYou can also use pretrained models we provide.\u003Cbr\u002F>\n[Download pretrained models](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1-eEYTB5Av9jNql0WGBlRoi-WH2J7bp5Y?usp=sharing)\u003Cbr\u002F> \nDetails of each folder are as in follows:\n\n|Folder Name|Generator|Dataset|Fine-Tuned|\n|------|---|---|---|\n|LJ_V1|V1|LJSpeech|No|\n|LJ_V2|V2|LJSpeech|No|\n|LJ_V3|V3|LJSpeech|No|\n|LJ_FT_T2_V1|V1|LJSpeech|Yes ([Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2))|\n|LJ_FT_T2_V2|V2|LJSpeech|Yes ([Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2))|\n|LJ_FT_T2_V3|V3|LJSpeech|Yes ([Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2))|\n|VCTK_V1|V1|VCTK|No|\n|VCTK_V2|V2|VCTK|No|\n|VCTK_V3|V3|VCTK|No|\n|UNIVERSAL_V1|V1|Universal|No|\n\nWe provide the universal model with discriminator weights that can be used as a base for transfer learning to other datasets.\n\n## Fine-Tuning\n1. Generate mel-spectrograms in numpy format using [Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2) with teacher-forcing.\u003Cbr\u002F>\nThe file name of the generated mel-spectrogram should match the audio file and the extension should be `.npy`.\u003Cbr\u002F>\nExample:\n    ```\n    Audio File : LJ001-0001.wav\n    Mel-Spectrogram File : LJ001-0001.npy\n    ```\n2. Create `ft_dataset` folder and copy the generated mel-spectrogram files into it.\u003Cbr\u002F>\n3. Run the following command.\n    ```\n    python train.py --fine_tuning True --config config_v1.json\n    ```\n    For other command line options, please refer to the training section.\n\n\n## Inference from wav file\n1. Make `test_files` directory and copy wav files into the directory.\n2. Run the following command.\n    ```\n    python inference.py --checkpoint_file [generator checkpoint file path]\n    ```\nGenerated wav files are saved in `generated_files` by default.\u003Cbr>\nYou can change the path by adding `--output_dir` option.\n\n\n## Inference for end-to-end speech synthesis\n1. Make `test_mel_files` directory and copy generated mel-spectrogram files into the directory.\u003Cbr>\nYou can generate mel-spectrograms using [Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2), \n[Glow-TTS](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fglow-tts) and so forth.\n2. Run the following command.\n    ```\n    python inference_e2e.py --checkpoint_file [generator checkpoint file path]\n    ```\nGenerated wav files are saved in `generated_files_from_mel` by default.\u003Cbr>\nYou can change the path by adding `--output_dir` option.\n\n\n## Acknowledgements\nWe referred to [WaveGlow](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fwaveglow), [MelGAN](https:\u002F\u002Fgithub.com\u002Fdescriptinc\u002Fmelgan-neurips) \nand [Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2) to implement this.\n\n","# HiFi-GAN：用于高效高保真语音合成的生成对抗网络\n\n### Jungil Kong, Jaehyeon Kim, Jaekyoung Bae\n\n在我们的 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.05646) 中，我们提出了 HiFi-GAN：一种基于 GAN（生成对抗网络）的模型，能够高效地生成高保真语音。\u003Cbr\u002F>\n我们在该仓库中开源了我们的实现和预训练模型。\n\n**摘要：**\n近期几项语音合成工作采用了生成对抗网络（GANs）来生成原始波形。\n尽管此类方法提高了采样效率和内存占用，但其样本质量尚未达到自回归（autoregressive）和基于流（flow-based）生成模型的水平。\n在这项工作中，我们提出了 HiFi-GAN，实现了高效且高保真的语音合成。\n由于语音音频由具有不同周期的正弦信号组成，我们证明了建模音频的周期模式对于提高样本质量至关重要。\n对单说话人数据集的主观人类评估（平均意见得分，MOS）表明，我们的方法在生成 22.05 kHz 高保真音频时，在单个 V100 GPU 上比实时快 167.9 倍，同时表现出接近人类质量的水平。\n我们还展示了 HiFi-GAN 在未见过说话人的梅尔频谱图（mel-spectrogram）反演以及端到端（end-to-end）语音合成方面的通用性。\n最后，一个轻量级版本的 HiFi-GAN 在 CPU 上生成样本的速度比实时快 13.4 倍，且具有与自回归对应模型相当的质量。\n\n访问我们的 [演示网站](https:\u002F\u002Fjik876.github.io\u002Fhifi-gan-demo\u002F) 以获取音频样本。\n\n\n## 前置要求\n1. Python >= 3.6\n2. 克隆此仓库。\n3. 安装 Python 依赖。请参考 [requirements.txt](requirements.txt)。\n4. 下载并解压 [LJ Speech 数据集](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F)。\n并将所有 wav 文件移动到 `LJSpeech-1.1\u002Fwavs`\n\n\n## 训练\n```\npython train.py --config config_v1.json\n```\n要训练 V2 或 V3 生成器（Generator），请将 `config_v1.json` 替换为 `config_v2.json` 或 `config_v3.json`。\u003Cbr>\n默认情况下，检查点（Checkpoints）和配置文件副本保存在 `cp_hifigan` 目录中。\u003Cbr>\n您可以通过添加 `--checkpoint_path` 选项来更改路径。\n\n使用 V1 生成器训练期间的验证损失。\u003Cbr>\n![validation loss](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjik876_hifi-gan_readme_8b7ab0e1d925.png)\n\n## 预训练模型\n您也可以使用我们要提供的预训练模型。\u003Cbr\u002F>\n[下载预训练模型](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1-eEYTB5Av9jNql0WGBlRoi-WH2J7bp5Y?usp=sharing)\u003Cbr\u002F> \n每个文件夹的详情如下所示：\n\n|文件夹名称 | 生成器 | 数据集 | 微调 |\n|------|---|---|---|\n|LJ_V1|V1|LJSpeech|否|\n|LJ_V2|V2|LJSpeech|否|\n|LJ_V3|V3|LJSpeech|否|\n|LJ_FT_T2_V1|V1|LJSpeech|是 ([Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2))|\n|LJ_FT_T2_V2|V2|LJSpeech|是 ([Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2))|\n|LJ_FT_T2_V3|V3|LJSpeech|是 ([Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2))|\n|VCTK_V1|V1|VCTK|否|\n|VCTK_V2|V2|VCTK|否|\n|VCTK_V3|V3|VCTK|否|\n|UNIVERSAL_V1|V1|Universal|否|\n\n我们提供了带有判别器（discriminator）权重的通用模型，可作为迁移学习（transfer learning）到其他数据集的基础。\n\n## 微调\n1. 使用 [Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2) 配合教师强制（teacher-forcing）生成 numpy 格式的梅尔频谱图（mel-spectrogram）。\u003Cbr\u002F>\n生成的梅尔频谱图的文件名应与音频文件匹配，且扩展名应为 `.npy`。\u003Cbr\u002F>\n示例：\n    ```\n    Audio File : LJ001-0001.wav\n    Mel-Spectrogram File : LJ001-0001.npy\n    ```\n2. 创建 `ft_dataset` 文件夹并将生成的梅尔频谱图文件复制进去。\u003Cbr\u002F>\n3. 运行以下命令。\n    ```\n    python train.py --fine_tuning True --config config_v1.json\n    ```\n    关于其他命令行选项，请参阅训练部分。\n\n\n## 从 wav 文件进行推理\n1. 创建 `test_files` 目录并将 wav 文件复制到该目录中。\n2. 运行以下命令。\n    ```\n    python inference.py --checkpoint_file [generator checkpoint file path]\n    ```\n生成的 wav 文件默认保存在 `generated_files` 中。\u003Cbr>\n您可以通过添加 `--output_dir` 选项来更改路径。\n\n\n## 用于端到端语音合成的推理\n1. 创建 `test_mel_files` 目录并将生成的梅尔频谱图文件复制到该目录中。\u003Cbr>\n您可以使用 [Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2)、[Glow-TTS](https:\u002F\u002Fgithub.com\u002Fjaywalnut310\u002Fglow-tts) 等生成梅尔频谱图。\n2. 运行以下命令。\n    ```\n    python inference_e2e.py --checkpoint_file [generator checkpoint file path]\n    ```\n生成的 wav 文件默认保存在 `generated_files_from_mel` 中。\u003Cbr>\n您可以通过添加 `--output_dir` 选项来更改路径。\n\n\n## 致谢\n我们参考了 [WaveGlow](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fwaveglow)、[MelGAN](https:\u002F\u002Fgithub.com\u002Fdescriptinc\u002Fmelgan-neurips) \n和 [Tacotron2](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Ftacotron2) 来实现此项目。","# HiFi-GAN 快速上手指南\n\nHiFi-GAN 是一种基于生成对抗网络（GAN）的高效高保真语音合成模型。它能够在保证音质的同时显著提升生成速度，支持从梅尔频谱图反演波形以及端到端语音合成。\n\n## 1. 环境准备\n\n*   **操作系统**: Linux \u002F Windows \u002F macOS\n*   **Python 版本**: >= 3.6\n*   **硬件要求**: \n    *   推荐 NVIDIA GPU（如 V100）以获得最佳推理速度。\n    *   支持 CPU 运行（速度较慢）。\n*   **依赖库**: PyTorch 及相关音频处理库（详见 `requirements.txt`）。\n\n## 2. 安装步骤\n\n### 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan.git\ncd hifi-gan\n```\n\n### 安装依赖\n```bash\npip install -r requirements.txt\n```\n\n### 数据集准备（仅训练需要）\n如需从头训练模型，请下载并解压 [LJ Speech 数据集](https:\u002F\u002Fkeithito.com\u002FLJ-Speech-Dataset\u002F)，并将所有 `.wav` 文件移动至 `LJSpeech-1.1\u002Fwavs` 目录。\n> 注：若仅使用预训练模型进行推理，此步骤可跳过。\n\n## 3. 基本使用\n\n### 获取预训练模型\n官方提供了多个版本的预训练模型（包括 LJ Speech、VCTK 及通用模型），可通过以下链接下载：\n[Google Drive 下载链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1-eEYTB5Av9jNql0WGBlRoi-WH2J7bp5Y?usp=sharing)\n*(国内用户如遇下载缓慢，建议使用云盘工具或寻找镜像源)*\n\n### 推理示例 1：从 WAV 文件生成\n1. 创建测试目录并放入待合成的音频文件：\n   ```bash\n   mkdir test_files\n   cp your_audio.wav test_files\u002F\n   ```\n2. 运行推理命令（替换为实际检查点路径）：\n   ```bash\n   python inference.py --checkpoint_file [generator checkpoint file path]\n   ```\n3. 生成的音频将默认保存在 `generated_files` 目录中。\n\n### 推理示例 2：端到端语音合成（从梅尔频谱图）\n如果你已有其他 TTS 模型（如 Tacotron2, Glow-TTS）生成的梅尔频谱图：\n1. 创建目录并放入 `.npy` 格式的梅尔频谱图文件：\n   ```bash\n   mkdir test_mel_files\n   ```\n2. 运行推理命令：\n   ```bash\n   python inference_e2e.py --checkpoint_file [generator checkpoint file path]\n   ```\n3. 生成的音频将默认保存在 `generated_files_from_mel` 目录中。\n\n### 训练模型（可选）\n如需自定义训练，可使用以下命令：\n```bash\npython train.py --config config_v1.json\n```\n> 注意：训练前需确保已准备好数据集。检查点默认保存于 `cp_hifigan` 目录。","某内容创业团队正在开发一款智能有声书应用，核心需求是将海量文本库快速转换为逼真的人声朗读，同时保证移动端播放流畅不卡顿。\n\n### 没有 HiFi-GAN 时\n- 早期使用的 Griffin-Lim 算法生成的音频频谱模糊，存在明显的电子杂音，严重影响听众沉浸感。\n- 尝试引入 WaveNet 等自回归模型后，虽然音质提升，但推理耗时过长，无法支撑千万级用户的并发请求。\n- 服务器成本居高不下，为了维持低延迟不得不限制并发数，导致高峰期用户排队等待。\n- 更换主播音色时需要重新训练整个声学模型，迭代周期长达数周，无法灵活响应市场变化。\n\n### 使用 HiFi-GAN 后\n- 采用 HiFi-GAN 作为 vocoder 层，直接输出高保真波形，主观评分接近真人录音，彻底消除机械感。\n- 推理速度达到实时性的 167 倍，即使在普通 GPU 上也能轻松处理高并发流式播报任务。\n- 轻量化版本可在 CPU 上以 13 倍实时速度运行，大幅降低云端算力成本并支持离线端侧部署。\n- 利用预训练权重进行微调，新音色适配时间从数周缩短至数小时，极大提升了产品迭代效率。\n\nHiFi-GAN 通过平衡生成速度与音质，帮助团队在有限预算下实现了商业级的语音合成效果。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjik876_hifi-gan_cea20fe1.png","jik876","Jungil Kong","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjik876_ef6c5746.png",null,"SK Telecom","https:\u002F\u002Fgithub.com\u002Fjik876",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,2338,555,"2026-04-02T11:59:20","MIT","未说明","非强制，支持 CPU 推理；V100 GPU 下性能最佳",{"notes":93,"python":94,"dependencies":95},"需手动下载 LJ Speech 数据集及预训练模型；端到端合成需配合 Tacotron2 或 Glow-TTS 生成 Mel 语谱图；小体积版本支持 CPU 运行。","3.6+",[96,97],"numpy","未说明其他依赖（见 requirements.txt）",[13,14,55],[100,101,102,103,104,67,105,106],"speech-synthesis","gan","text-to-speech","tts","deep-learning","pytorch","vocoder",5,"2026-03-27T02:49:30.150509","2026-04-06T07:14:55.139650",[111,116,120,125,130,135],{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},2761,"在 16kHz 数据上应用 HiFi-GAN 时遇到张量尺寸不匹配错误（RuntimeError: The size of tensor a ... must match the size of tensor b）如何解决？","检查 FFT 配置。FFT 要求输入长度为 $2^n$。例如使用 `win_size=800` 时，`n_fft` 应设为 1024。请确认 `upsample_rates`、`hop_size` 和 `win_size` 的配置是否符合数学约束，避免 padding 问题。","https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan\u002Fissues\u002F12",{"id":117,"question_zh":118,"answer_zh":119,"source_url":115},2762,"能否直接修改采样率参数来使用预训练模型（如将 22.05kHz 改为 16kHz）？","不可以。直接更改采样率参数是无效的。正确做法是使用预训练模型生成 22.05kHz 的音频，然后通过重采样（resample）将其转换为 16kHz。",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},2763,"微调时遇到 \"Input type (torch.cuda.HalfTensor) and weight type (torch.cuda.FloatTensor) should be the same\" 错误怎么办？","确保输入张量和模型权重的数据类型一致（均为 Float 或 Half）。如果是从 Tacotron2 导出 mel-spectrogram，注意保存时可能需要转置（使用 `.T`），并确保加载后的数据类型与模型权重匹配。","https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan\u002Fissues\u002F44",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},2764,"生成的音频存在高频伪影（high frequency artifact）如何优化？","可以尝试增加训练步数（training steps）来缓解该问题。此外，调整生成器的参数（如 MRF 的隐藏维度或核大小）以及增加训练周期（periods）的数量也可能有助于提高音质并减少伪影。","https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan\u002Fissues\u002F11",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},2765,"集成 Tacotron2 和 HiFi-GAN 时，输出音频出现嗡嗡声（buzzing sound）是什么原因？","这通常是由于 Tacotron2 输出与 HiFi-GAN 之间的不兼容导致的。建议尝试重新训练模型以解决兼容性问题，或检查是否有针对端到端集成的特定配置参考。","https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan\u002Fissues\u002F41",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},2766,"频谱图出现断点（break point）或在特定频率出现噪声怎么处理？","建议首先添加一个周期为 2 的判别器（discriminator with period 2）。单纯扩大感受野（receptive field）可能无法解决问题，需结合判别器结构进行调整。","https:\u002F\u002Fgithub.com\u002Fjik876\u002Fhifi-gan\u002Fissues\u002F26",[]]