[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-KinWaiCheuk--nnAudio":3,"tool-KinWaiCheuk--nnAudio":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",154349,2,"2026-04-13T23:32:16",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":73,"owner_location":73,"owner_email":73,"owner_twitter":73,"owner_website":73,"owner_url":76,"languages":77,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":90,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":101,"github_topics":103,"view_count":32,"oss_zip_url":73,"oss_zip_packed_at":73,"status":17,"created_at":114,"updated_at":115,"faqs":116,"releases":145},7358,"KinWaiCheuk\u002FnnAudio","nnAudio","Audio processing by using pytorch 1D convolution network","nnAudio 是一款基于 PyTorch 构建的音频处理工具箱，它创新性地利用一维卷积神经网络作为后端引擎，能够实时将音频信号转换为频谱图。与传统音频库不同，nnAudio 的核心优势在于其“可训练性”：它的傅里叶核（如 CQT 核）可以作为神经网络的一部分参与梯度反向传播并进行优化，而不仅仅是固定的数学变换。\n\n这一特性有效解决了现有工具（如 torchaudio 或 librosa）中频谱提取参数固定、无法融入端到端深度学习模型进行联合训练的痛点。同时，由于完全依赖 PyTorch 原生操作，nnAudio 避免了传统工具对系统底层库（如 sox）的复杂依赖，在 Windows 等不同操作系统上拥有更出色的兼容性和便捷的 GPU 加速能力。\n\nnnAudio 特别适合从事音频深度学习的研究人员和开发者使用，尤其是那些需要自定义频谱特征、探索新型时频表示（如 Gammatone、CFP 等）或进行多音高估计任务的团队。它不仅支持标准的 STFT、Mel 频谱和 MFCC 提取，还提供了丰富的可微分音频特征接口，让算法实验更加灵活高效。目前项目正在招募维护者，欢迎社区共同参与建设。","> 🚨 **Maintainers wanted**\n> \n> This project has grown beyond what one person can maintain.\n> \n> Due to time constraints, the original author is no longer able to do regular code review.\n> We are looking for contributors who can help with:\n> - Code review\n> - Issue triage\n> - Ongoing maintenance\n> \n> If you're interested, please comment on\n> [this issue](#140) to introduce yourself.\n\n# nnAudio\nnnAudio is an audio processing toolbox using PyTorch convolutional neural network as its backend. By doing so, spectrograms can be generated from audio on-the-fly during neural network training and the Fourier kernels (e.g. or CQT kernels) can be trained. Full details of nnAudio can be found in [our paper](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9174990). You can use nnAudio for free, however, if you use this library, please cite the paper as per the reference provided below. \n\n\n[Kapre](https:\u002F\u002Fgithub.com\u002Fkeunwoochoi\u002Fkapre) has a similar concept in which they also use 1D convolutional neural network to extract spectrograms based on [Keras](https:\u002F\u002Fkeras.io). Other GPU audio processing tools are [torchaudio](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Faudio) and [tf.signal](https:\u002F\u002Fwww.tensorflow.org\u002Fapi_docs\u002Fpython\u002Ftf\u002Fsignal). But they are not using a neural network approach, and hence the Fourier basis can not be trained. As of PyTorch 1.6.0, torchaudio is still very difficult to install under the Windows environment due to `sox`. nnAudio is a more compatible audio processing tool across different operating systems since it relies mostly on PyTorch convolutional neural network. The name of nnAudio comes from `torch.nn`\n\n## Installation\n`pip install git+https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio.git#subdirectory=Installation`\n\nor\n\n`pip install nnaudio==0.3.4`\n\n## Documentation\nhttps:\u002F\u002Fkinwaicheuk.github.io\u002FnnAudio\u002Findex.html\n\n## Comparison with other libraries\n| Feature | [nnAudio](https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio) | [torch.stft](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch\u002Fblob\u002Fmaster\u002Faten\u002Fsrc\u002FATen\u002Fnative\u002FSpectralOps.cpp) | [kapre](https:\u002F\u002Fgithub.com\u002Fkeunwoochoi\u002Fkapre) | [torchaudio](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Faudio) | [tf.signal](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Ftensorflow\u002Ftree\u002Fmaster\u002Ftensorflow\u002Fpython\u002Fops\u002Fsignal) | [torch-stft](https:\u002F\u002Fgithub.com\u002Fpseeth\u002Ftorch-stft) | [librosa](https:\u002F\u002Fgithub.com\u002Flibrosa\u002Flibrosa) |\n| ------- | ------- | ---------- | ----- | ---------- | ---------------------------- | ---------- | ------- |\n| Trainable | ✅ | ❌| ✅ | ❌ | ❌ | ✅ | ❌ |\n| Differentiable | ✅  | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |\n| Linear frequency STFT| ✅  | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |\n| Logarithmic frequency STFT| ✅  | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |\n| Inverse STFT| ✅  | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |\n| Griffin-Lim| ✅  | ❌ | ❌ | ✅ | ✅ | ❌ | ✅ |\n| Mel | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ |\n| MFCC | ✅  | ❌ | ❌ | ✅| ✅ | ❌ | ✅ |\n| CQT | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |\n| VQT | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |\n| Gammatone | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |\n| CFP\u003Csup>1\u003C\u002Fsup> | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |\n| GPU support | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |\n\n✅: Fully support    ☑️: Developing (only available in dev version)    ❌: Not support\n\n\u003Csup>1\u003C\u002Fsup> [Combining Spectral and Temporal Representations for Multipitch Estimation of Polyphonic Music](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F7118691)\n\n## News & Changelog\nTo view the full changelog, please go to [CHANGELOG.md](CHANGELOG.md)\n\n**version 0.3.1** (24 Dec 2021):\n1. Added VQT feature [#113](\u002F..\u002F..\u002Fpull\u002F113)\n\n**version 0.3.0** (19 Nov 2021):\n1. Changed module naming. `nnAudio.Spectrogram` will be replaced by `nnAudio.features` in the future releases. Currently, various spectrogram types are accessible via both methods.\n\n\n## Please cite nnAudio paper if you use it\nThe paper describing the release of nnAudio is available on [IEEE Access](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9174990)\n\nK. W. Cheuk, H. Anderson, K. Agres and D. Herremans, \"nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks,\" in IEEE Access, vol. 8, pp. 161981-162003, 2020, doi: 10.1109\u002FACCESS.2020.3019084.\n\n### BibTex\n```\n@ARTICLE{9174990,\n  author={K. W. {Cheuk} and H. {Anderson} and K. {Agres} and D. {Herremans}},\n  journal={IEEE Access}, \n  title={nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks}, \n  year={2020},\n  volume={8},\n  number={},\n  pages={161981-162003},\n  doi={10.1109\u002FACCESS.2020.3019084}}\n```\n\n## Call for Contributions\nnnAudio is a fast-growing package. With the increasing number of feature requests, we welcome anyone who is familiar with digital signal processing and neural network to contribute to nnAudio. The current list of pending features includes:\n1. Invertible Constant Q Transform (CQT)\n\n\n(Quick tips for unit test: `cd` inside Installation folder, then type `pytest`. You need at least 1931 MiB GPU memory to pass all the unit tests)\n\nAlternatively, you may also contribute by:\n   1. Making a better demonstration code or tutorial\n\n\n\n\n## Dependencies\nNumpy >= 1.14.5\n\nScipy >= 1.2.0\n\nPyTorch >= 1.6.0 (Griffin-Lim only available after 1.6.0)\n\nPython >= 3.6\n\nlibrosa = 0.7.0 (Theoretically nnAudio depends on librosa. But we only need to use a single function `mel` from `librosa.filters`. To save users troubles from installing librosa for this single function, I just copy the chunk of functions corresponding to `mel` in my code so that nnAudio runs without the need to install librosa)\n\n\n\n## Other similar libraries\n[Kapre](https:\u002F\u002Fwww.semanticscholar.org\u002Fpaper\u002FKapre%3A-On-GPU-Audio-Preprocessing-Layers-for-a-of-Choi-Joo\u002Fb1ad5643e5dd66fac27067b00e5c814f177483ca?citingPapersSort=is-influential#citing-papers)\n\n[torch-stft](https:\u002F\u002Fgithub.com\u002Fpseeth\u002Ftorch-stft)\n\n\n","> 🚨 **诚招维护者**\n> \n> 该项目已经发展到超出一个人能够维护的规模。\n> \n> 由于时间限制，原作者已无法继续进行定期的代码审查。\n> 我们正在寻找能够协助以下工作的贡献者：\n> - 代码审查\n> - 问题分类与处理\n> - 持续维护\n> \n> 如果您感兴趣，请在[此议题](#140)下留言自我介绍。\n\n# nnAudio\nnnAudio 是一个基于 PyTorch 卷积神经网络的音频处理工具箱。通过这种方式，可以在神经网络训练过程中实时生成频谱图，并且可以对傅里叶核（例如 CQT 核）进行训练。nnAudio 的详细信息请参阅[我们的论文](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9174990)。您可以免费使用 nnAudio，但如果您使用该库，请按照下方提供的参考文献引用该论文。\n\n\n[Kapre](https:\u002F\u002Fgithub.com\u002Fkeunwoochoi\u002Fkapre) 具有类似的概念，它也使用一维卷积神经网络来提取基于 [Keras](https:\u002F\u002Fkeras.io) 的频谱图。其他 GPU 音频处理工具包括 [torchaudio](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Faudio) 和 [tf.signal](https:\u002F\u002Fwww.tensorflow.org\u002Fapi_docs\u002Fpython\u002Ftf\u002Fsignal)。然而，这些工具并未采用神经网络方法，因此无法训练傅里叶基。截至 PyTorch 1.6.0 版本，由于 `sox` 的原因，torchaudio 在 Windows 环境下的安装仍然非常困难。相比之下，nnAudio 更加兼容不同操作系统，因为它主要依赖于 PyTorch 卷积神经网络。nnAudio 这个名字来源于 `torch.nn`。\n\n## 安装\n`pip install git+https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio.git#subdirectory=Installation`\n\n或者\n\n`pip install nnaudio==0.3.4`\n\n## 文档\nhttps:\u002F\u002Fkinwaicheuk.github.io\u002FnnAudio\u002Findex.html\n\n## 与其他库的比较\n| 特性 | [nnAudio](https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio) | [torch.stft](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch\u002Fblob\u002Fmaster\u002Faten\u002Fsrc\u002FATen\u002Fnative\u002FSpectralOps.cpp) | [kapre](https:\u002F\u002Fgithub.com\u002Fkeunwoochoi\u002Fkapre) | [torchaudio](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Faudio) | [tf.signal](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Ftensorflow\u002Ftree\u002Fmaster\u002Ftensorflow\u002Fpython\u002Fops\u002Fsignal) | [torch-stft](https:\u002F\u002Fgithub.com\u002Fpseeth\u002Ftorch-stft) | [librosa](https:\u002F\u002Fgithub.com\u002Flibrosa\u002Flibrosa) |\n| ------- | ------- | ---------- | ----- | ---------- | ---------------------------- | ---------- | ------- |\n| 可训练 | ✅ | ❌| ✅ | ❌ | ❌ | ✅ | ❌ |\n| 可微分 | ✅  | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |\n| 线性频率 STFT| ✅  | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |\n| 对数频率 STFT| ✅  | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |\n| 逆 STFT| ✅  | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |\n| Griffin-Lim| ✅  | ❌ | ❌ | ✅ | ✅ | ❌ | ✅ |\n| Mel | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ |\n| MFCC | ✅  | ❌ | ❌ | ✅| ✅ | ❌ | ✅ |\n| CQT | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |\n| VQT | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |\n| Gammatone | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |\n| CFP\u003Csup>1\u003C\u002Fsup> | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |\n| GPU 支持 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |\n\n✅: 完全支持    ☑️: 正在开发中（仅在开发版本中可用）    ❌: 不支持\n\n\u003Csup>1\u003C\u002Fsup> [结合频谱与时域表示用于多音音乐的多音高估计](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F7118691)\n\n## 新闻与变更日志\n要查看完整的变更日志，请访问 [CHANGELOG.md](CHANGELOG.md)\n\n**版本 0.3.1** (2021年12月24日):\n1. 添加了 VQT 功能 [#113](\u002F..\u002F..\u002Fpull\u002F113)\n\n**版本 0.3.0** (2021年11月19日):\n1. 更改了模块命名。未来版本中，`nnAudio.Spectrogram` 将被 `nnAudio.features` 取代。目前，各种频谱图类型仍可通过两种方式访问。\n\n\n## 如果您使用 nnAudio，请务必引用其论文\n描述 nnAudio 发布的论文可在 [IEEE Access](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9174990) 上找到。\n\nK. W. Cheuk, H. Anderson, K. Agres 和 D. Herremans, “nnAudio：一个利用一维卷积神经网络实现 GPU 实时音频到频谱图转换的工具箱”，载于 IEEE Access，第 8 卷，第 161981–162003 页，2020 年，doi: 10.1109\u002FACCESS.2020.3019084。\n\n### BibTex\n```\n@ARTICLE{9174990,\n  author={K. W. {Cheuk} and H. {Anderson} and K. {Agres} and D. {Herremans}},\n  journal={IEEE Access}, \n  title={nnAudio：一个利用一维卷积神经网络实现 GPU 实时音频到频谱图转换的工具箱}, \n  year={2020},\n  volume={8},\n  number={},\n  pages={161981-162003},\n  doi={10.1109\u002FACCESS.2020.3019084}}\n```\n\n## 欢迎贡献\nnnAudio 是一个快速发展的软件包。随着功能请求的不断增加，我们欢迎任何熟悉数字信号处理和神经网络的人士为 nnAudio 做出贡献。当前待办的功能列表包括：\n1. 可逆常数 Q 变换 (CQT)\n\n\n（单元测试小提示：进入 Installation 文件夹后，输入 `pytest`。要通过所有单元测试，至少需要 1931 MiB 的 GPU 内存）\n\n此外，您也可以通过以下方式做出贡献：\n   1. 编写更好的演示代码或教程\n\n\n\n\n## 依赖项\nNumpy >= 1.14.5\n\nScipy >= 1.2.0\n\nPyTorch >= 1.6.0（Griffin-Lim 仅在 1.6.0 及以上版本中可用）\n\nPython >= 3.6\n\nlibrosa = 0.7.0（理论上 nnAudio 依赖于 librosa。但我们只需要使用 librosa.filters 中的单个函数 `mel`。为了省去用户为这个单一函数安装 librosa 的麻烦，我直接将对应 `mel` 的函数片段复制到我的代码中，这样 nnAudio 就无需安装 librosa 也能运行）\n\n\n\n## 其他类似库\n[Kapre](https:\u002F\u002Fwww.semanticscholar.org\u002Fpaper\u002FKapre%3A-On-GPU-Audio-Preprocessing-Layers-for-a-of-Choi-Joo\u002Fb1ad5643e5dd66fac27067b00e5c814f177483ca?citingPapersSort=is-influential#citing-papers)\n\n[torch-stft](https:\u002F\u002Fgithub.com\u002Fpseeth\u002Ftorch-stft)","# nnAudio 快速上手指南\n\nnnAudio 是一个基于 PyTorch 卷积神经网络（CNN）的音频处理工具箱。它支持在 GPU 上实时将音频转换为频谱图，且其傅里叶核（如 STFT、CQT 等）是可训练的。相比 `torchaudio` 或 `librosa`，nnAudio 具有更好的跨平台兼容性（尤其在 Windows 上无需安装 `sox`），并支持更多可微分的音频特征提取功能。\n\n## 环境准备\n\n在使用 nnAudio 之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Windows, Linux, macOS (跨平台兼容性好)\n*   **Python 版本**：>= 3.6\n*   **核心依赖**：\n    *   PyTorch >= 1.6.0 (若需使用 Griffin-Lim 功能)\n    *   Numpy >= 1.14.5\n    *   Scipy >= 1.2.0\n*   **硬件要求**：\n    *   支持 CUDA 的 GPU（推荐，用于加速计算）\n    *   运行完整单元测试至少需要 1931 MiB 显存\n\n> **注意**：nnAudio 内部复用了 `librosa` 的部分旋律过滤函数，因此**无需单独安装 librosa** 即可直接使用。\n\n## 安装步骤\n\n您可以通过 PyPI 直接安装稳定版，或通过 GitHub 安装最新版。\n\n### 方式一：通过 PyPI 安装（推荐）\n\n```bash\npip install nnaudio==0.3.4\n```\n\n### 方式二：通过 GitHub 安装（获取最新代码）\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio.git#subdirectory=Installation\n```\n\n> **国内加速提示**：如果下载速度较慢，建议使用国内镜像源（如清华源）：\n> ```bash\n> pip install nnaudio==0.3.4 -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 基本使用\n\nnnAudio 的使用方式与 PyTorch 原生层非常相似。以下是一个最简单的示例，展示如何使用 `STFT` 层将音频波形转换为频谱图。\n\n### 示例：提取线性频率 STFT 频谱图\n\n```python\nimport torch\nfrom nnAudio import features\n\n# 1. 初始化 STFT 层\n# 参数可根据需求调整，此处使用默认配置\nstft_layer = features.STFT(n_fft=2048, hop_length=512, win_length=2048)\n\n# 2. 准备输入音频数据\n# 假设 audio_waveform 形状为 [Batch_Size, Channels, Time_Steps]\n# 这里创建一个随机张量作为示例：[1, 1, 16000] (1秒，16kHz)\naudio_waveform = torch.randn(1, 1, 16000)\n\n# 3. 将数据移至 GPU (可选，但推荐)\nif torch.cuda.is_available():\n    stft_layer = stft_layer.cuda()\n    audio_waveform = audio_waveform.cuda()\n\n# 4. 执行前向传播，生成频谱图\n# 输出形状通常为 [Batch, Channels, Freq_Bins, Time_Frames]\nspectrogram = stft_layer(audio_waveform)\n\nprint(f\"输入形状：{audio_waveform.shape}\")\nprint(f\"输出频谱图形状：{spectrogram.shape}\")\n```\n\n### 其他可用特征\n除了 `STFT`，nnAudio 还支持多种可训练的特征提取层，只需替换类名即可：\n*   `features.MelSpectrogram`：梅尔频谱图\n*   `features.CQT`：常数 Q 变换\n*   `features.MFCC`：梅尔频率倒谱系数\n*   `features.Gammatone`：伽马通滤波器组\n*   `features.VQT`：可变 Q 变换\n\n所有层均支持 `.cuda()` 加速，并且由于基于神经网络构建，这些操作都是**可微分**的，可以直接嵌入端到端的深度学习模型中进行反向传播训练。","某音频算法团队正在开发一个基于深度学习的鸟鸣识别系统，需要在训练过程中动态调整频谱特征以优化模型对特定频率的敏感度。\n\n### 没有 nnAudio 时\n- **预处理流程割裂**：必须使用 Librosa 等 CPU 库离线生成梅尔频谱图并保存为文件，导致数据加载流水线复杂且占用大量磁盘空间。\n- **特征固定无法优化**：传统的傅里叶变换核是固定的数学公式，无法作为神经网络参数参与反向传播，限制了模型自适应学习最佳频域表示的能力。\n- **跨平台部署困难**：在 Windows 环境下配置 torchaudio 常因依赖 `sox` 库而报错，环境搭建耗时耗力，阻碍了团队内部的协作效率。\n- **GPU 利用率低**：音频特征提取过程主要在 CPU 上运行，成为训练瓶颈，导致昂贵的 GPU 资源经常处于等待数据的空闲状态。\n\n### 使用 nnAudio 后\n- **端到端实时转换**：直接将 nnAudio 的频谱层嵌入 PyTorch 模型中，实现从原始波形到频谱图的“即时”GPU 计算，彻底省去了离线预处理步骤。\n- **可训练的频谱核**：利用其可微分特性，将 CQT 或梅尔滤波器组的参数纳入训练过程，让模型自动学会提取区分不同鸟鸣的关键频率特征。\n- **无缝跨平台兼容**：仅依赖 PyTorch 原生卷积操作，无需安装额外的系统级音频库，在 Windows、Linux 和 macOS 上均能一键运行。\n- **全链路 GPU 加速**：特征提取与模型训练完全在同一设备上并行执行，消除了 CPU 与 GPU 间的数据传输延迟，显著缩短了实验迭代周期。\n\nnnAudio 通过将音频信号处理转化为可训练的神经网络层，实现了真正高效的端到端音频深度学习工作流。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FKinWaiCheuk_nnAudio_2ea557a0.png","KinWaiCheuk",null,"https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FKinWaiCheuk_d21455a6.png"," ","https:\u002F\u002Fgithub.com\u002FKinWaiCheuk",[78,82],{"name":79,"color":80,"percentage":81},"Python","#3572A5",99.7,{"name":83,"color":84,"percentage":85},"Makefile","#427819",0.3,1121,97,"2026-03-23T20:36:21","MIT",1,"Linux, macOS, Windows","支持 GPU 加速（非强制必需，但为设计核心），单元测试需至少 1931 MiB 显存，具体 CUDA 版本取决于 PyTorch 安装","未说明",{"notes":95,"python":96,"dependencies":97},"该工具基于 PyTorch 卷积神经网络构建，旨在实现跨操作系统兼容（特别是解决了 torchaudio 在 Windows 上因 sox 导致的安装困难）。虽然理论上依赖 librosa，但作者已将所需函数嵌入代码，因此无需单独安装 librosa。若运行完整单元测试，显卡显存至少需要 1931 MiB。Griffin-Lim 功能仅在 PyTorch 1.6.0 及以上版本可用。",">=3.6",[98,99,100],"numpy>=1.14.5","scipy>=1.2.0","torch>=1.6.0",[102,14,16],"音频",[104,105,106,107,108,109,110,111,112,113],"spectrogram-conversion-toolbox","pytorch","audio-processing","preprocessing","stft","melspectrogram","spectrogram","cqt-spectrogram","neural-network","1d-convolution","2026-03-27T02:49:30.150509","2026-04-14T12:28:05.219312",[117,122,127,132,136,141],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},33040,"为什么 Spectrogram.iSTFT 的反向传播有时非常慢？","这通常与使用 `torch.cuda.amp.autocast()` 混合精度训练有关。当启用该功能时，GPU 利用率可能达到 100% 导致反向传播极慢（例如从 0.1 秒变慢至 184 秒），而禁用后速度恢复正常。建议检查是否在模型中使用了自动混合精度上下文管理器，并尝试在不使用该上下文时对比性能。","https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio\u002Fissues\u002F88",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},33041,"如何在使用 CQT2010v2 时禁用每次前向传播产生的多余打印信息？","多余的打印信息（如 \"downsample_factor = 4\"）通常与内部的下采样逻辑有关。虽然默认参数下无法直接通过参数关闭，但用户可以检查是否设置了 `earlydownsample=False`。如果问题持续，建议查看库的源代码或更新到最新版本，因为维护者通常会在新版本中优化日志输出。目前暂无直接的 API 参数来完全静默这些打印，但在训练循环中重定向标准输出是一种临时解决方案。","https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio\u002Fissues\u002F9",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},33042,"nnAudio 的 STFT 与 torch.stft 相比有什么优势？何时应该使用 nnAudio？","nnAudio 的主要优势在于其基于神经网络的方法，允许傅里叶基底（Fourier basis）成为可训练的参数。如果你需要端到端的训练，让频谱分析的参数（如窗口函数或滤波器）随任务一起优化，应使用 nnAudio。如果只需要固定的时频变换且不需要反向传播更新频谱参数，`torch.stft` 即可满足需求。此外，nnAudio 旨在与 librosa 完全兼容，支持更灵活的参数配置（如独立的 `win_length`）。","https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio\u002Fissues\u002F4",{"id":133,"question_zh":134,"answer_zh":135,"source_url":131},33043,"如何在 nnAudio 中设置与 librosa 一致的 win_length 和 n_fft（例如语音处理中的常见配置）？","在语音处理中，常使用 `n_fft=512` 但 `win_length=400`（不足部分补零）。nnAudio 已在版本 `0.1.2.dev3` 及以后加入了 `win_length` 参数以支持此配置。你可以通过运行 `pip install nnAudio --pre -U` 安装预发布版本来使用该功能。设置后，其行为将与 librosa 保持一致：对 400 个样本应用汉宁窗，然后补零至 512 进行 FFT。",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},33044,"CQT2010v2 是否支持 float16 半精度训练以减少显存占用？","是的，支持。即使代码中某些部分强制使用了 float32，用户仍然可以直接对模型实例调用 `.half()` 方法将其转换为半精度，例如：`Spectrogram.CQT2010v2.half()`。这可以与 PyTorch Lightning 的 16 位精度训练配合使用。如果遇到类型错误，请确保没有自定义修改破坏了对不同数据类型的支持，或者检查是否使用了过时的代码版本。","https:\u002F\u002Fgithub.com\u002FKinWaiCheuk\u002FnnAudio\u002Fissues\u002F85",{"id":142,"question_zh":143,"answer_zh":144,"source_url":140},33045,"遇到 scipy.fft 导入错误或不兼容问题时如何解决？","不同版本的 SciPy 包结构有所变化。如果在较新版本的 SciPy（如 1.6.2+）中遇到导入问题，可以尝试将导入语句从 `from scipy.fftpack import fft` 更改为 `from scipy.fft import fft`。然而，为了兼容非常旧的 SciPy 版本（如 1.2.0），维护者建议使用 `from scipy.fftpack import fft`，因为它在旧版本中更稳定。如果遇到兼容性问题，请检查你的 SciPy 版本并相应调整导入路径，或等待库更新以自动处理这些差异。",[146,151],{"id":147,"version":148,"summary_zh":149,"released_at":150},247798,"v0.2.0","重构了大部分代码，使其现在能够像其他 PyTorch 模块一样支持 `stft_layer.to(device)`，其中 `stft_layer = nnAudio.Spectrogram.STFT()` 或 nnAudio 中提供的任何其他谱图类。\n\n由于此版本不再使用 `device` 参数，因此与旧版本不兼容。若要将代码从旧版本升级到 `0.2.0`，需要进行相应调整。\n\n例如，旧版本中的 `nnAudio.Spectrogram.STFT(device=device)` 在 `0.2.0` 中应改写为 `nnAudio.Spectogram.STFT().to(device)`。\n\n如果您在 PyTorch 模型中使用 nnAudio，则只需调用 `model.to(device)`，即可将 nnAudio 的各层迁移到您指定的设备上。","2020-11-08T10:18:26",{"id":152,"version":153,"summary_zh":154,"released_at":155},247799,"v0.1.5","这是首次使用 `sphinx-versioning` 扩展为 `Sphinx` 文档发布的稳定版本。\n为了使 `sphinx-versioning` 能为 nnAudio 的历史版本创建单独的页面，打标签是必要的。","2020-11-06T08:49:23"]