[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-santi-pdp--segan":3,"tool-santi-pdp--segan":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":76,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":93,"env_os":94,"env_gpu":95,"env_ram":96,"env_deps":97,"category_tags":102,"github_topics":104,"view_count":24,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":112,"updated_at":113,"faqs":114,"releases":143},10074,"santi-pdp\u002Fsegan","segan","Speech Enhancement Generative Adversarial Network in TensorFlow","SEGAN 是一个基于 TensorFlow 开发的开源语音增强工具，核心功能是利用生成对抗网络（GAN）技术，从含有噪音的语音信号中去除干扰，还原清晰的人声。它主要解决了传统方法在复杂噪音环境下处理效果不佳、难以兼顾不同说话人特征的难题。\n\n该工具的独特之处在于采用了全卷积架构，直接对原始语音波形进行建模。无需预先识别说话人身份，SEGAN 就能在训练过程中自动学习多种噪音条件和不同说话人的特征，从而具备极强的泛化能力，能够适应多样化的真实场景。项目提供了完整的数据准备、模型训练及推理脚本，并支持多 GPU 加速，方便用户复现论文结果或进行二次开发。\n\nSEGAN 非常适合人工智能研究人员、音频算法工程师以及希望深入探索生成式模型在语音处理领域应用的开发者使用。由于项目依赖特定版本的 Python 和 TensorFlow，且涉及模型训练与命令行操作，它更适合具备一定深度学习基础和编程能力的技术人群，而非普通终端用户。通过 SEGAN，用户可以高效地构建高质量的语音去噪系统，为语音识别、通信优化等下游任务提供纯净的音频输入。","## SEGAN: Speech Enhancement Generative Adversarial Network\n\n### Introduction\n\nThis is the repository of the SEGAN project. Our original paper can be found [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.09452), and test samples are available [here](http:\u002F\u002Fveu.talp.cat\u002Fsegan\u002F).\n\nIn this work a Generative Adversarial approach has been taken to do speech enhancement (i.e. removing noise from corrupted speech signals) with a fully convolutional architecture schematized as follows:\n\n![SEGAN_G](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_readme_251261cc00e3.png)\n\nThis model deals with raw speech waveforms on many noise conditions at different SNRs (40 at training time and 20 during test). It also models the speech characteristics from many speakers mixed within the same structure (without any supervision of identities), which makes the generative structure generalizable in the noise and speaker dimensions.\n\n**All the project is developed with TensorFlow**. There are two repositories that were good references on how GANs are defined and deployed:\n\n* [improved-gan](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fimproved-gan): implementing improvements to train GANs in a more stable way\n*  [DCGAN-tensorflow](https:\u002F\u002Fgithub.com\u002Fcarpedm20\u002FDCGAN-tensorflow): implementation of the DCGAN in tensorflow\n\n### Dependencies\n\n* Python 2.7\n* TensorFlow 0.12\n\nYou can install the requirements either to your virtualenv or the system via pip with:\n\n```\npip install -r requirements.txt\n```\n\n### Data\n\nThe speech enhancement dataset used in this work [(Valentini et al. 2016)](http:\u002F\u002Fssw9.net\u002Fpapers\u002Fssw9_PS2-4_Valentini-Botinhao.pdf) can be found in [Edinburgh DataShare](http:\u002F\u002Fdatashare.is.ed.ac.uk\u002Fhandle\u002F10283\u002F1942). However, **the following script downloads and prepares the data for TensorFlow format**:\n\n```\n.\u002Fprepare_data.sh\n```\n\nOr alternatively download the dataset, convert the wav files to 16kHz sampling and set the `noisy` and `clean` training files paths in the config file `e2e_maker.cfg` in `cfg\u002F`. Then run the script:\n\n```\npython make_tfrecords.py --force-gen --cfg cfg\u002Fe2e_maker.cfg\n```\n\n### Training\n\nOnce you have the TFRecords file created in `data\u002Fsegan.tfrecords` you can simply run the training process with:\n\n```\n.\u002Ftrain_segan.sh\n```\n\nBy default this will take all the available GPUs in your system, if any. Otherwise it will just take the CPU.\n\n**NOTE:** If you want to specify a subset of GPUs to work on, you can do so with the `CUDA_VISIBLE_DEVICES=\"0, 1, \u003Cetc>\"` flag in the python execution within the training script. In the case of having two GPUs they'll be identified as 0 and 1, so we could just take the first GPU with: `CUDA_VISIBLE_DEVICES=\"0\"`.\n\nA sample of G losses is interesting to see as stated in the paper, where L1 follows a minimization with a `100` factor and the adversarial loss gets to be equilibrated with low variance:\n\n**L1 loss (smoothing 0.5)**\n\n![G_L1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_readme_e4a29f29d3e0.png)\n\n**Adversarial loss (smoothing 0.5)**\n\n![G_ADV](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_readme_988c85ae0d0d.png)\n\n### Loading model and prediction\n\nFirst, the trained weights will have to be downloaded from [here](http:\u002F\u002Fveu.talp.cat\u002Fsegan\u002Frelease_weights\u002Fsegan_v1.1.tar.gz) and uncompressed.\n\nThen the `main.py` script has the option to process a wav file through the G network (inference mode), where the user MUST specify the trained weights file and the configuration of the trained network. In the case of the v1 SEGAN presented in the paper, the options would be:\n\n```\nCUDA_VISIBLE_DEVICES=\"\" python main.py --init_noise_std 0. --save_path segan_v1.1 \\\n                                       --batch_size 100 --g_nl prelu --weights SEGAN_full \\\n                                       --test_wav \u003Cwav_filename> --clean_save_path \u003Cclean_save_dirpath>\n```\n\nTo make things easy, there is a bash script called `clean_wav.sh` that accepts as input argument the test filename and\nthe save path.\n\n### Authors\n\n* **Santiago Pascual** (TALP-UPC, BarcelonaTech)\n* **Antonio Bonafonte** (TALP-UPC, BarcelonaTech)\n* **Joan Serrà** (Telefónica Research, Barcelona)\n\n### Reference\n\n```\n@article{pascual2017segan,\n  title={SEGAN: Speech Enhancement Generative Adversarial Network},\n  author={Pascual, Santiago and Bonafonte, Antonio and Serr{\\`a}, Joan},\n  journal={arXiv preprint arXiv:1703.09452},\n  year={2017}\n}\n```\n\n### Contact\n\ne-mail: santi.pascual@upc.edu\n\n### Notes\n\n* If using this code, parts of it, or developments from it, please cite the above reference.\n* We do not provide any support or assistance for the supplied code nor we offer any other compilation\u002Fvariant of it.\n* We assume no responsibility regarding the provided code.\n","## SEGAN：语音增强生成对抗网络\n\n### 简介\n\n这是 SEGAN 项目的代码仓库。我们的原始论文可以在这里找到 [链接](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.09452)，测试样本则可在此处获取 [链接](http:\u002F\u002Fveu.talp.cat\u002Fsegan\u002F)。\n\n在本工作中，我们采用了一种生成对抗方法来实现语音增强（即从受损的语音信号中去除噪声），并使用了一个全卷积架构，其结构如下所示：\n\n![SEGAN_G](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_readme_251261cc00e3.png)\n\n该模型能够处理多种噪声条件下的原始语音波形，且信噪比范围广泛（训练时为 40 种，测试时为 20 种）。此外，它还能在同一架构内对来自不同说话人的语音特征进行建模（无需身份标注信息），从而使生成器在噪声和说话人维度上具有良好的泛化能力。\n\n**整个项目均基于 TensorFlow 开发**。在定义和部署 GAN 时，以下两个仓库为我们提供了很好的参考：\n\n* [improved-gan](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fimproved-gan)：实现了多项改进，以更稳定的方式训练 GAN；\n* [DCGAN-tensorflow](https:\u002F\u002Fgithub.com\u002Fcarpedm20\u002FDCGAN-tensorflow)：在 TensorFlow 中实现了 DCGAN。\n\n### 依赖项\n\n* Python 2.7\n* TensorFlow 0.12\n\n您可以通过 pip 将所需依赖安装到虚拟环境或系统中，命令如下：\n\n```\npip install -r requirements.txt\n```\n\n### 数据\n\n本研究中使用的语音增强数据集 [(Valentini et al. 2016)](http:\u002F\u002Fssw9.net\u002Fpapers\u002Fssw9_PS2-4_Valentini-Botinhao.pdf) 可在 [Edinburgh DataShare](http:\u002F\u002Fdatashare.is.ed.ac.uk\u002Fhandle\u002F10283\u002F1942) 上找到。不过，**以下脚本会自动下载并准备数据，使其符合 TensorFlow 格式**：\n\n```\n.\u002Fprepare_data.sh\n```\n\n或者，您也可以先手动下载数据集，将 WAV 文件转换为 16kHz 采样率，并在 `cfg\u002F` 目录下的配置文件 `e2e_maker.cfg` 中指定噪声和干净语音训练文件的路径，然后运行以下脚本：\n\n```\npython make_tfrecords.py --force-gen --cfg cfg\u002Fe2e_maker.cfg\n```\n\n### 训练\n\n当 `data\u002Fsegan.tfrecords` 文件生成后，您只需运行以下命令即可开始训练：\n\n```\n.\u002Ftrain_segan.sh\n```\n\n默认情况下，该脚本会使用系统中所有可用的 GPU；如果没有 GPU，则会使用 CPU。\n\n**注意**：如果您希望指定特定的 GPU 进行计算，可以在训练脚本中的 Python 执行命令中添加 `CUDA_VISIBLE_DEVICES=\"0, 1, \u003Cetc>\"` 参数。例如，如果有两块 GPU，它们会被识别为 0 和 1，那么您可以仅使用第一块 GPU，设置为 `CUDA_VISIBLE_DEVICES=\"0\"`。\n\n根据论文描述，观察生成器损失的变化很有意义：L1 损失以 100 倍的权重进行最小化，而对抗损失则趋于平衡且方差较小。\n\n**L1 损失（平滑因子 0.5）**\n\n![G_L1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_readme_e4a29f29d3e0.png)\n\n**对抗损失（平滑因子 0.5）**\n\n![G_ADV](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_readme_988c85ae0d0d.png)\n\n### 加载模型与预测\n\n首先，您需要从 [这里](http:\u002F\u002Fveu.talp.cat\u002Fsegan\u002Frelease_weights\u002Fsegan_v1.1.tar.gz) 下载训练好的权重文件并解压。\n\n随后，`main.py` 脚本提供了一个通过生成器网络处理单个 WAV 文件的功能（推理模式），用户必须指定训练好的权重文件以及训练网络的配置。对于论文中提出的 v1 版本的 SEGAN，相关参数如下：\n\n```\nCUDA_VISIBLE_DEVICES=\"\" python main.py --init_noise_std 0. --save_path segan_v1.1 \\\n                                       --batch_size 100 --g_nl prelu --weights SEGAN_full \\\n                                       --test_wav \u003Cwav_filename> --clean_save_path \u003Cclean_save_dirpath>\n```\n\n为了方便起见，我们还提供了一个名为 `clean_wav.sh` 的 Bash 脚本，它接受测试文件名和保存路径作为输入参数。\n\n### 作者\n\n* **Santiago Pascual**（TALP-UPC，巴塞罗那理工大学）\n* **Antonio Bonafonte**（TALP-UPC，巴塞罗那理工大学）\n* **Joan Serrà**（Telefónica Research，巴塞罗那）\n\n### 引用\n\n```\n@article{pascual2017segan,\n  title={SEGAN: Speech Enhancement Generative Adversarial Network},\n  author={Pascual, Santiago and Bonafonte, Antonio and Serr{\\`a}, Joan},\n  journal={arXiv preprint arXiv:1703.09452},\n  year={2017}\n}\n```\n\n### 联系方式\n\n邮箱：santi.pascual@upc.edu\n\n### 备注\n\n* 如果您使用了本代码、其中的部分内容，或基于此代码所做的任何开发，请务必引用上述文献。\n* 我们不为提供的代码提供任何支持或协助，也不提供任何其他版本或修改后的代码。\n* 对于所提供的代码，我们不承担任何责任。","# SEGAN 快速上手指南\n\nSEGAN (Speech Enhancement Generative Adversarial Network) 是一个基于生成对抗网络（GAN）的语音增强工具，旨在从含噪语音信号中去除噪声。该项目完全基于 TensorFlow 构建，采用全卷积架构处理原始语音波形。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求。注意：本项目基于较早期的 TensorFlow 版本开发。\n\n*   **操作系统**: Linux \u002F macOS (Windows 需配置相应环境)\n*   **Python 版本**: Python 2.7\n*   **深度学习框架**: TensorFlow 0.12\n*   **硬件建议**: 支持 CUDA 的 NVIDIA GPU（可选，用于加速训练），或仅使用 CPU。\n\n> **提示**：由于项目依赖 Python 2.7 和旧版 TensorFlow，强烈建议在虚拟环境（virtualenv 或 conda）中运行以避免冲突。国内用户可使用清华源或阿里源加速 pip 包安装。\n\n## 安装步骤\n\n### 1. 克隆项目\n首先获取源代码：\n```bash\ngit clone \u003Crepository_url>\ncd segan\n```\n*(注：请将 `\u003Crepository_url>` 替换为实际的 GitHub 仓库地址)*\n\n### 2. 安装依赖\n使用 pip 安装所需库：\n```bash\npip install -r requirements.txt\n```\n*国内加速方案*：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 数据准备\n项目提供了脚本自动下载并预处理数据集（Valentini et al. 2016），将其转换为 TensorFlow 所需的 TFRecords 格式。\n\n运行以下脚本自动完成下载和转换：\n```bash\n.\u002Fprepare_data.sh\n```\n\n**备选方案（手动配置）**：\n如果自动脚本无法运行，您可以手动下载数据集，将 wav 文件转换为 16kHz 采样率，修改 `cfg\u002Fe2e_maker.cfg` 中的 `noisy` 和 `clean` 路径，然后运行：\n```bash\npython make_tfrecords.py --force-gen --cfg cfg\u002Fe2e_maker.cfg\n```\n执行成功后，将在 `data\u002F` 目录下生成 `segan.tfrecords` 文件。\n\n## 基本使用\n\n### 训练模型\n数据准备就绪后，即可启动训练。默认情况下，脚本会自动检测并使用系统中所有可用的 GPU；若无 GPU，则使用 CPU 运行。\n\n```bash\n.\u002Ftrain_segan.sh\n```\n\n**指定 GPU 运行**：\n若需指定特定 GPU（例如仅使用第一块 GPU），可在命令前添加环境变量：\n```bash\nCUDA_VISIBLE_DEVICES=\"0\" .\u002Ftrain_segan.sh\n```\n\n### 语音增强（推理\u002F去噪）\n要使用预训练模型对含噪语音进行去噪，首先需要下载并解压预训练权重：\n```bash\n# 下载权重 (示例链接，具体请参考官方 release 页面)\nwget http:\u002F\u002Fveu.talp.cat\u002Fsegan\u002Frelease_weights\u002Fsegan_v1.1.tar.gz\ntar -xzvf segan_v1.1.tar.gz\n```\n\n使用 `main.py` 进行处理。以下是最简单的单文件去噪示例：\n\n```bash\nCUDA_VISIBLE_DEVICES=\"\" python main.py --init_noise_std 0. --save_path segan_v1.1 \\\n                                       --batch_size 100 --g_nl prelu --weights SEGAN_full \\\n                                       --test_wav input_noisy.wav --clean_save_path .\u002Foutput_clean\n```\n\n**参数说明**：\n*   `--test_wav`: 输入的含噪 wav 文件路径。\n*   `--clean_save_path`: 去噪后文件的保存目录。\n*   `--save_path`: 预训练权重所在的文件夹。\n\n**便捷脚本**：\n项目还提供了一个封装好的 bash 脚本 `clean_wav.sh`，用法更简单：\n```bash\n.\u002Fclean_wav.sh input_noisy.wav .\u002Foutput_clean\n```\n\n---\n*引用参考：若在项目中使用此代码，请引用原文献 \"SEGAN: Speech Enhancement Generative Adversarial Network\" (arXiv:1703.09452)。*","某智能客服团队正在处理大量来自嘈杂环境（如地铁站、繁忙街道）的用户语音录音，急需提升语音清晰度以优化自动语音识别（ASR）的准确率。\n\n### 没有 segan 时\n- 原始录音中背景噪音严重干扰人声，导致 ASR 引擎频繁误识关键词，意图判断错误率高达 30%。\n- 传统滤波算法在去除噪音的同时会过度平滑语音，造成声音机械感强、细节丢失，严重影响后续人工质检体验。\n- 面对不同说话人和多变的噪音类型，需要针对每种场景单独调整参数，维护成本极高且难以泛化。\n- 缺乏端到端的生成式处理能力，无法从波形层面真正“重建”干净语音，仅能做简单的信号衰减。\n\n### 使用 segan 后\n- segan 利用生成对抗网络直接从含噪波形中重建纯净语音，显著降低背景噪音，使 ASR 识别准确率提升至 95% 以上。\n- 基于全卷积架构，segan 在去噪过程中完美保留了说话人的音色特征和语调细节，输出语音自然流畅，无机械失真。\n- 模型在训练时混合了多种说话人和信噪比条件，无需额外微调即可适应各种复杂噪音场景，实现了真正的通用化部署。\n- 通过端到端的推理脚本，开发人员可一键批量处理海量 WAV 文件，大幅缩短了数据预处理流水线的时间。\n\nsegan 通过生成式深度学习技术，将嘈杂混乱的原始音频转化为高保真清晰语音，从根本上解决了非受控环境下的语音增强难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanti-pdp_segan_0f35d028.png","santi-pdp","Santi DSP","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsanti-pdp_11a0cfe3.jpg","Telecom engineer and deep learner. PhD from UPC-Barcelona. I do learn for fun.",null,"Barcelona","https:\u002F\u002Fmedium.com\u002F@santi.pdp","https:\u002F\u002Fgithub.com\u002Fsanti-pdp",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",95.7,{"name":86,"color":87,"percentage":88},"Shell","#89e051",4.3,860,281,"2026-04-10T15:09:03","MIT",5,"Linux","可选（支持多 GPU 并行训练），需 NVIDIA GPU 及 CUDA 环境，具体型号和显存未说明","未说明",{"notes":98,"python":99,"dependencies":100},"该项目基于较旧的 TensorFlow 0.12 和 Python 2.7 开发，现代环境可能需要配置兼容的虚拟环境。数据预处理需运行 shell 脚本下载并转换数据集为 TFRecords 格式。推理时可指定 CUDA_VISIBLE_DEVICES 为空以强制使用 CPU。","2.7",[101],"tensorflow==0.12",[14,103,15],"音频",[105,106,107,108,109,110,111],"speech","gan","tensorflow","deep-learning","deep-neural-networks","generative-model","generative-adversarial-networks","2026-03-27T02:49:30.150509","2026-04-20T19:33:11.211781",[115,120,125,130,135,139],{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},45254,"训练 SEGAN 需要多少显存和时间？为什么我的 GPU 利用率很低或训练速度极慢？","如果您发现训练速度极慢（例如每批次耗时数分钟）且 GPU 利用率极低（0%-2%），通常是因为代码未能正确识别 GPU，导致任务在 CPU 上运行。一个常见原因是 TensorFlow 版本差异导致的设备名称大小写问题。在较新版本的 TensorFlow 中，设备名称为大写（如 'CPU'），而旧代码可能使用小写（'cpu'）进行判断。请检查 `main.py` 文件中关于设备检测的代码（通常在第 66 行左右），确保其能正确匹配当前 TensorFlow 版本的设备命名格式。如果脚本未检测到 CPU 或其他设备，可能会错误地将它们加入设备列表，导致 GPU 内存被分配但实际计算由 CPU 完成。修正设备名称判断逻辑后，GPU 负载应恢复正常，训练速度也会显著提升。","https:\u002F\u002Fgithub.com\u002Fsanti-pdp\u002Fsegan\u002Fissues\u002F36",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},45255,"遇到 'Variable ... does not exist or was not created with tf.get_variable' 错误如何解决？","该错误通常是由于 TensorFlow 版本不兼容引起的。此代码库最初是为旧版 TensorFlow（如 0.12 版本）编写的。如果您使用的是较新版本（如 1.3.0 或更高），变量作用域（Variable Scope）和复用机制的行为可能已发生变化，导致无法找到变量。解决方法是将 TensorFlow 降级至代码兼容的版本（建议尝试 0.12 版本），或者根据新版 TensorFlow 的 API 修改代码中的变量创建和作用域管理逻辑（例如设置 `reuse=tf.AUTO_REUSE` 或调整 `tf.get_variable` 的调用方式）。最快速的验证方法是安装 requirements.txt 中指定的旧版 TensorFlow。","https:\u002F\u002Fgithub.com\u002Fsanti-pdp\u002Fsegan\u002Fissues\u002F27",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},45256,"运行 train_segan.sh 时程序卡在 'Sampling some wavs to store sample references...' 步骤不动怎么办？","如果程序在执行 `model.py` 中的 `self.sess.run([...])` 采样步骤时卡住且无响应（甚至 Ctrl+C 无法终止），这通常与数据队列线程（Queue Runners）未正确启动或死锁有关。您可以尝试在代码中添加调试打印来确认线程状态：在 `tf.train.start_queue_runners` 之后打印线程对象列表，确认线程是否已启动。此外，请确保您已严格按照步骤先运行 `.\u002Fprepare_data.sh` 生成数据，并且使用的 TensorFlow 版本与代码要求一致（通常是 0.12 版本）。如果是多 GPU 环境或特定配置，还可能是线程协调器（Coordinator）配置问题，建议检查是否有其他进程占用了数据文件或端口。","https:\u002F\u002Fgithub.com\u002Fsanti-pdp\u002Fsegan\u002Fissues\u002F22",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},45257,"运行训练脚本时出现 'tf.concat' 参数类型错误或维度错误如何解决？","在较新版本的 TensorFlow 中，`tf.concat` 函数的参数顺序发生了变化。旧版代码（如针对 TF 0.12 编写的）通常使用 `tf.concat(concat_dim, values)` 的形式，其中第一个参数是轴（int），第二个是值列表。而在 TensorFlow 1.0+ 的某些版本及 2.x 中，参数顺序变为 `tf.concat(values, axis)`。如果遇到类似 `TypeError` 或维度不匹配的错误，请检查 `generator.py` 或其他模型文件中的 `tf.concat` 调用。如果是参数顺序问题，请将代码修改为新格式，例如将 `tf.concat(2, [z, h_i])` 改为 `tf.concat([z, h_i], axis=2)`。确保所有 `concat` 调用都符合当前安装的 TensorFlow 版本的 API 规范。","https:\u002F\u002Fgithub.com\u002Fsanti-pdp\u002Fsegan\u002Fissues\u002F4",{"id":136,"question_zh":137,"answer_zh":138,"source_url":119},45258,"如何确认 SEGAN 是否真的在使用 GPU 进行训练？","您可以通过以下方式验证 GPU 使用情况：1. 使用 `nvidia-smi` 命令（Linux）或 GPU-Z（Windows）实时监控显存占用和 GPU 利用率。如果显存被占用但 GPU-Util（利用率）长期为 0% 或仅在瞬间有峰值，说明计算主要在 CPU 上进行。2. 在代码中打印设备信息，确认 TensorFlow 识别到的设备列表中包含正确的 GPU 名称（如 '\u002Fdevice:GPU:0'）。3. 检查训练日志中的每批次耗时（mtime\u002Fbatch），如果在高性能 GPU 上该数值依然很高（如超过 10 秒），则极有可能未使用 GPU 加速。如果发现未使用 GPU，请参照前述问题检查 TensorFlow 版本兼容性及设备名称的大小写匹配问题。",{"id":140,"question_zh":141,"answer_zh":142,"source_url":134},45259,"运行 prepare_data.sh 后训练仍报错，常见的数据准备问题有哪些？","确保数据准备脚本 `.\u002Fprepare_data.sh` 已成功执行完毕，并生成了预期数量的波形文件（例如日志中显示的 2*92578 个 16kHz wav 文件）。如果训练脚本报错指出找不到文件或路径错误，请检查生成的数据目录路径是否与 `train_segan.sh` 或配置文件中的路径一致。此外，数据格式必须符合要求（如 16kHz 采样率、特定的文件结构）。如果之前更改过数据路径，请清理缓存或重新运行数据准备脚本。对于某些用户遇到的卡死问题，也可能是因为数据读取队列阻塞，此时重新生成数据并确保文件系统权限正确往往能解决问题。",[]]