[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-CPJKU--madmom":3,"tool-CPJKU--madmom":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":23,"env_os":95,"env_gpu":96,"env_ram":96,"env_deps":97,"category_tags":109,"github_topics":110,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":116,"updated_at":117,"faqs":118,"releases":148},4204,"CPJKU\u002Fmadmom","madmom","Python audio and music signal processing library","madmom 是一个专为音乐信息检索（MIR）打造的 Python 音频信号处理库。它致力于解决从数字化音频中自动提取音乐特征的核心难题，如节拍追踪、音符起始点检测及和弦识别等，为音乐分析提供可靠的算法支持。\n\n这款工具特别适合音乐科技领域的研究人员、音频算法开发者以及高校师生使用。作为奥地利林茨约翰内斯开普勒大学计算感知系与奥地利人工智能研究所的内部核心组件，madmom 不仅提供了多种经典 MIR 算法的参考实现，还内置了经过训练的高质量模型，让用户能快速复现学术成果或构建自己的音乐分析应用。\n\n其技术亮点在于将复杂的信号处理流程封装为易用的 Python 模块，同时兼顾学术严谨性与工程实用性。项目采用双重许可模式：源代码基于宽松的 BSD 协议开放，而预训练模型和数据文件则遵循知识共享非商业许可，既促进了学术交流，也规范了商业使用场景。无论是需要快速验证想法的研究者，还是希望集成音频分析功能的开发者，madmom 都能通过简洁的接口和详尽的文档，帮助用户高效处理音频数据，探索音乐背后的数字规律。","======\nmadmom\n======\n\nMadmom is an audio signal processing library written in Python with a strong\nfocus on music information retrieval (MIR) tasks.\n\nThe library is internally used by the Department of Computational Perception,\nJohannes Kepler University, Linz, Austria (http:\u002F\u002Fwww.cp.jku.at) and the\nAustrian Research Institute for Artificial Intelligence (OFAI), Vienna, Austria\n(http:\u002F\u002Fwww.ofai.at).\n\nPossible acronyms are:\n\n- Madmom Analyzes Digitized Music Of Musicians\n- Mostly Audio \u002F Dominantly Music Oriented Modules\n\nIt includes reference implementations for some music information retrieval\nalgorithms, please see the `References`_ section.\n\n\nDocumentation\n=============\n\nDocumentation of the package can be found online http:\u002F\u002Fmadmom.readthedocs.org\n\n\nLicense\n=======\n\nThe package has two licenses, one for source code and one for model\u002Fdata files.\n\nSource code\n-----------\n\nUnless indicated otherwise, all source code files are published under the BSD\nlicense. For details, please see the `LICENSE \u003CLICENSE>`_ file.\n\nModel and data files\n--------------------\n\nUnless indicated otherwise, all model and data files are distributed under the\n`Creative Commons Attribution-NonCommercial-ShareAlike 4.0\n\u003Chttp:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002Flegalcode>`_ license.\n\nIf you want to include any of these files (or a variation or modification\nthereof) or technology which utilises them in a commercial product, please\ncontact `Gerhard Widmer \u003Chttp:\u002F\u002Fwww.cp.jku.at\u002Fpeople\u002Fwidmer\u002F>`_.\n\n\nInstallation\n============\n\nPlease do not try to install from the .zip files provided by GitHub. Rather\ninstall it from package (if you just want to use it) or source (if you plan to\nuse it for development) by following the instructions below. Whichever variant\nyou choose, please make sure that all prerequisites are installed.\n\nPrerequisites\n-------------\n\nTo install the ``madmom`` package, you must have either Python 2.7 or Python\n3.5 or newer and the following packages installed:\n\n- `numpy \u003Chttp:\u002F\u002Fwww.numpy.org>`_\n- `scipy \u003Chttp:\u002F\u002Fwww.scipy.org>`_\n- `cython \u003Chttp:\u002F\u002Fwww.cython.org>`_\n- `mido \u003Chttps:\u002F\u002Fgithub.com\u002Folemb\u002Fmido>`_\n\nIn order to test your installation, process live audio input, or have improved\nFFT performance, additionally install these packages:\n\n- `pytest \u003Chttps:\u002F\u002Fwww.pytest.org\u002F>`_\n- `pyaudio \u003Chttp:\u002F\u002Fpeople.csail.mit.edu\u002Fhubert\u002Fpyaudio\u002F>`_\n- `pyfftw \u003Chttps:\u002F\u002Fgithub.com\u002FpyFFTW\u002FpyFFTW\u002F>`_\n\nIf you need support for audio files other than ``.wav`` with a sample rate of\n44.1kHz and 16 bit depth, you need ``ffmpeg`` (``avconv`` on Ubuntu Linux has\nsome decoding bugs, so we advise not to use it!).\n\nPlease refer to the `requirements.txt \u003Crequirements.txt>`_ file for the minimum\nrequired versions and make sure that these modules are up to date, otherwise it\ncan result in unexpected errors or false computations!\n\nInstall from package\n--------------------\n\nThe instructions given here should be used if you just want to install the\npackage, e.g. to run the bundled programs or use some functionality for your\nown project. If you intend to change anything within the `madmom` package,\nplease follow the steps in the next section.\n\nThe easiest way to install the package is via ``pip`` from the `PyPI (Python\nPackage Index) \u003Chttps:\u002F\u002Fpypi.python.org\u002Fpypi>`_::\n\n    pip install madmom\n\nThis includes the latest code and trained models and will install all\ndependencies automatically.\n\nYou might need higher privileges (use su or sudo) to install the package, model\nfiles and scripts globally. Alternatively you can install the package locally\n(i.e. only for you) by adding the ``--user`` argument::\n\n    pip install --user madmom\n\nThis will also install the executable programs to a common place (e.g.\n``\u002Fusr\u002Flocal\u002Fbin``), which should be in your ``$PATH`` already. If you\ninstalled the package locally, the programs will be copied to a folder which\nmight not be included in your ``$PATH`` (e.g. ``~\u002FLibrary\u002FPython\u002F2.7\u002Fbin``\non Mac OS X or ``~\u002F.local\u002Fbin`` on Ubuntu Linux, ``pip`` will tell you). Thus\nthe programs need to be called explicitely or you can add their install path\nto your ``$PATH`` environment variable::\n\n    export PATH='path\u002Fto\u002Fscripts':$PATH\n\nInstall from source\n-------------------\n\nIf you plan to use the package as a developer, clone the Git repository::\n\n    git clone --recursive https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom.git\n\nSince the pre-trained model\u002Fdata files are not included in this repository but\nrather added as a Git submodule, you either have to clone the repo recursively.\nThis is equivalent to these steps::\n\n    git clone https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom.git\n    cd madmom\n    git submodule update --init --remote\n\nThen you can simply install the package in development mode::\n\n    python setup.py develop --user\n\nTo run the included tests::\n\n    python setup.py pytest\n\nUpgrade of existing installations\n---------------------------------\n\nTo upgrade the package, please use the same mechanism (pip vs. source) as you\ndid for installation. If you want to change from package to source, please\nuninstall the package first.\n\nUpgrade a package\n~~~~~~~~~~~~~~~~~\n\nSimply upgrade the package via pip::\n\n    pip install --upgrade madmom [--user]\n\nIf some of the provided programs or models changed (please refer to the\nCHANGELOG) you should first uninstall the package and then reinstall::\n\n    pip uninstall madmom\n    pip install madmom [--user]\n\nUpgrade from source\n~~~~~~~~~~~~~~~~~~~\n\nSimply pull the latest sources::\n\n    git pull\n\nTo update the models contained in the submodule::\n\n    git submodule update\n\nIf any of the ``.pyx`` or ``.pxd`` files changed, you have to recompile the\nmodules with Cython::\n\n    python setup.py build_ext --inplace\n\nPackage structure\n-----------------\n\nThe package has a very simple structure, divided into the following folders:\n\n`\u002Fbin \u003Cbin>`_\n  this folder includes example programs (i.e. executable algorithms)\n`\u002Fdocs \u003Cdocs>`_\n  package documentation\n`\u002Fmadmom \u003Cmadmom>`_\n  the actual Python package\n`\u002Fmadmom\u002Faudio \u003Cmadmom\u002Faudio>`_\n  low level features (e.g. audio file handling, STFT)\n`\u002Fmadmom\u002Fevaluation \u003Cmadmom\u002Fevaluation>`_\n  evaluation code\n`\u002Fmadmom\u002Ffeatures \u003Cmadmom\u002Ffeatures>`_\n  higher level features (e.g. onsets, beats)\n`\u002Fmadmom\u002Fml \u003Cmadmom\u002Fml>`_\n  machine learning stuff (e.g. RNNs, HMMs)\n`\u002Fmadmom\u002Fmodels \u003C..\u002F..\u002F..\u002Fmadmom_models>`_\n  pre-trained model\u002Fdata files (see the License section)\n`\u002Fmadmom\u002Futils \u003Cmadmom\u002Futils>`_\n  misc stuff (e.g. MIDI and general file handling)\n`\u002Ftests \u003Ctests>`_\n  tests\n\nExecutable programs\n-------------------\n\nThe package includes executable programs in the `\u002Fbin \u003Cbin>`_ folder.\nIf you installed the package, they were copied to a common place.\n\nAll scripts can be run in different modes: in ``single`` file mode to process\na single audio file and write the output to STDOUT or the given output file::\n\n    DBNBeatTracker single [-o OUTFILE] INFILE\n\nIf multiple audio files should be processed, the scripts can also be run in\n``batch`` mode to write the outputs to files with the given suffix::\n\n    DBNBeatTracker batch [-o OUTPUT_DIR] [-s OUTPUT_SUFFIX] FILES\n\nIf no output directory is given, the program writes the output files to the\nsame location as the audio files.\n\nSome programs can also be run in ``online`` mode, i.e. operate on live audio\nsignals. This requires `pyaudio \u003Chttp:\u002F\u002Fpeople.csail.mit.edu\u002Fhubert\u002Fpyaudio\u002F>`_\nto be installed::\n\n    DBNBeatTracker online [-o OUTFILE] [INFILE]\n\nThe ``pickle`` mode can be used to store the used parameters to be able to\nexactly reproduce experiments.\n\nPlease note that the program itself as well as the modes have help messages::\n\n    DBNBeatTracker -h\n\n    DBNBeatTracker single -h\n\n    DBNBeatTracker batch -h\n\n    DBNBeatTracker online -h\n\n    DBNBeatTracker pickle -h\n\nwill give different help messages.\n\n\nAdditional resources\n====================\n\nMailing list\n------------\n\nThe `mailing list \u003Chttps:\u002F\u002Fgroups.google.com\u002Fd\u002Fforum\u002Fmadmom-users>`_ should be\nused to get in touch with the developers and other users.\n\nWiki\n----\n\nThe wiki can be found here: https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fwiki\n\nFAQ\n---\n\nFrequently asked questions can be found here:\nhttps:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fwiki\u002FFAQ\n\nCitation\n========\n\nIf you use madmom in your work, please consider citing it:\n\n.. code-block:: latex\n\n   @inproceedings{madmom,\n      Title = {{madmom: a new Python Audio and Music Signal Processing Library}},\n      Author = {B{\\\"o}ck, Sebastian and Korzeniowski, Filip and Schl{\\\"u}ter, Jan and Krebs, Florian and Widmer, Gerhard},\n      Booktitle = {Proceedings of the 24th ACM International Conference on\n      Multimedia},\n      Month = {10},\n      Year = {2016},\n      Pages = {1174--1178},\n      Address = {Amsterdam, The Netherlands},\n      Doi = {10.1145\u002F2964284.2973795}\n   }\n\nReferences\n==========\n\n.. [1] Florian Eyben, Sebastian Böck, Björn Schuller and Alex Graves,\n    *Universal Onset Detection with bidirectional Long Short-Term Memory\n    Neural Networks*,\n    Proceedings of the 11th International Society for Music Information\n    Retrieval Conference (ISMIR), 2010.\n.. [2] Sebastian Böck and Markus Schedl,\n    *Enhanced Beat Tracking with Context-Aware Neural Networks*,\n    Proceedings of the 14th International Conference on Digital Audio Effects\n    (DAFx), 2011.\n.. [3] Sebastian Böck and Markus Schedl,\n    *Polyphonic Piano Note Transcription with Recurrent Neural Networks*,\n    Proceedings of the 37th International Conference on Acoustics, Speech and\n    Signal Processing (ICASSP), 2012.\n.. [4] Sebastian Böck, Andreas Arzt, Florian Krebs and Markus Schedl,\n    *Online Real-time Onset Detection with Recurrent Neural Networks*,\n    Proceedings of the 15th International Conference on Digital Audio Effects\n    (DAFx), 2012.\n.. [5] Sebastian Böck, Florian Krebs and Markus Schedl,\n    *Evaluating the Online Capabilities of Onset Detection Methods*,\n    Proceedings of the 13th International Society for Music Information\n    Retrieval Conference (ISMIR), 2012.\n.. [6] Sebastian Böck and Gerhard Widmer,\n    *Maximum Filter Vibrato Suppression for Onset Detection*,\n    Proceedings of the 16th International Conference on Digital Audio Effects\n    (DAFx), 2013.\n.. [7] Sebastian Böck and Gerhard Widmer,\n    *Local Group Delay based Vibrato and Tremolo Suppression for Onset\n    Detection*,\n    Proceedings of the 13th International Society for Music Information\n    Retrieval Conference (ISMIR), 2013.\n.. [8] Florian Krebs, Sebastian Böck and Gerhard Widmer,\n    *Rhythmic Pattern Modelling for Beat and Downbeat Tracking in Musical\n    Audio*,\n    Proceedings of the 14th International Society for Music Information\n    Retrieval Conference (ISMIR), 2013.\n.. [9] Sebastian Böck, Jan Schlüter and Gerhard Widmer,\n    *Enhanced Peak Picking for Onset Detection with Recurrent Neural Networks*,\n    Proceedings of the 6th International Workshop on Machine Learning and\n    Music (MML), 2013.\n.. [10] Sebastian Böck, Florian Krebs and Gerhard Widmer,\n    *A Multi-Model Approach to Beat Tracking Considering Heterogeneous Music\n    Styles*,\n    Proceedings of the 15th International Society for Music Information\n    Retrieval Conference (ISMIR), 2014.\n.. [11] Filip Korzeniowski, Sebastian Böck and Gerhard Widmer,\n    *Probabilistic Extraction of Beat Positions from a Beat Activation\n    Function*,\n    Proceedings of the 15th International Society for Music Information\n    Retrieval Conference (ISMIR), 2014.\n.. [12] Sebastian Böck, Florian Krebs and Gerhard Widmer,\n    *Accurate Tempo Estimation based on Recurrent Neural Networks and\n    Resonating Comb Filters*,\n    Proceedings of the 16th International Society for Music Information\n    Retrieval Conference (ISMIR), 2015.\n.. [13] Florian Krebs, Sebastian Böck and Gerhard Widmer,\n    *An Efficient State Space Model for Joint Tempo and Meter Tracking*,\n    Proceedings of the 16th International Society for Music Information\n    Retrieval Conference (ISMIR), 2015.\n.. [14] Sebastian Böck, Florian Krebs and Gerhard Widmer,\n    *Joint Beat and Downbeat Tracking with Recurrent Neural Networks*,\n    Proceedings of the 17th International Society for Music Information\n    Retrieval Conference (ISMIR), 2016.\n.. [15] Filip Korzeniowski and Gerhard Widmer,\n    *Feature Learning for Chord Recognition: The Deep Chroma Extractor*,\n    Proceedings of the 17th International Society for Music Information\n    Retrieval Conference (ISMIR), 2016.\n.. [16] Florian Krebs, Sebastian Böck, Matthias Dorfer and Gerhard Widmer,\n    *Downbeat Tracking Using Beat-Synchronous Features and Recurrent Networks*,\n    Proceedings of the 17th International Society for Music Information\n    Retrieval Conference (ISMIR), 2016.\n.. [17] Filip Korzeniowski and Gerhard Widmer,\n    *A Fully Convolutional Deep Auditory Model for Musical Chord Recognition*,\n    Proceedings of IEEE International Workshop on Machine Learning for Signal\n    Processing (MLSP), 2016.\n.. [18] Filip Korzeniowski and Gerhard Widmer,\n    *Genre-Agnostic Key Classification with Convolutional Neural Networks*,\n    Proceedings of the 19th International Society for Music Information\n    Retrieval Conference (ISMIR), 2018.\n.. [19] Rainer Kelz, Sebastian Böck and Gerhard Widmer,\n    *Deep Polyphonic ADSR Piano Note Transcription*,\n    Proceedings of the 44th International Conference on Acoustics, Speech and\n    Signal Processing (ICASSP), 2019.\n\nAcknowledgements\n================\n\nSupported by the European Commission through the `GiantSteps project\n\u003Chttp:\u002F\u002Fwww.giantsteps-project.eu>`_ (FP7 grant agreement no. 610591) and the\n`Phenicx project \u003Chttp:\u002F\u002Fphenicx.upf.edu>`_ (FP7 grant agreement no. 601166)\nas well as the `Austrian Science Fund (FWF) \u003Chttps:\u002F\u002Fwww.fwf.ac.at>`_ project\nZ159.\n","======\nmadmom\n======\n\nMadmom 是一个用 Python 编写的音频信号处理库，主要专注于音乐信息检索（MIR）任务。\n\n该库由奥地利林茨约翰内斯·开普勒大学计算感知系（http:\u002F\u002Fwww.cp.jku.at）和维也纳奥地利人工智能研究所（OFAI，http:\u002F\u002Fwww.ofai.at）内部使用。\n\n可能的缩写包括：\n\n- Madmom 分析音乐家的数字化音乐\n- 主要面向音频\u002F以音乐为主的模块\n\n它包含一些音乐信息检索算法的参考实现，请参阅 `References`_ 部分。\n\n\n文档\n=============\n\n该软件包的文档可以在在线找到 http:\u002F\u002Fmadmom.readthedocs.org\n\n\n许可证\n=======\n\n该软件包有两种许可证，一种用于源代码，另一种用于模型\u002F数据文件。\n\n源代码\n-----------\n\n除非另有说明，所有源代码文件均采用 BSD 许可证发布。详情请参阅 `LICENSE \u003CLICENSE>`_ 文件。\n\n模型和数据文件\n--------------------\n\n除非另有说明，所有模型和数据文件均采用 `知识共享署名-非商业性使用-相同方式共享 4.0 \u003Chttp:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002Flegalcode>`_ 许可证进行分发。\n\n如果您希望在商业产品中包含这些文件（或其变体、修改版）或利用它们的技术，请联系 `Gerhard Widmer \u003Chttp:\u002F\u002Fwww.cp.jku.at\u002Fpeople\u002Fwidmer\u002F>`_。\n\n\n安装\n============\n\n请勿尝试从 GitHub 提供的 .zip 文件进行安装。建议您按照以下说明，通过软件包（仅需使用时）或源代码（计划开发时）进行安装。无论选择哪种方式，请确保已安装所有先决条件。\n\n先决条件\n-------------\n\n要安装 ``madmom`` 软件包，您必须拥有 Python 2.7 或 Python 3.5 及以上版本，并安装以下软件包：\n\n- `numpy \u003Chttp:\u002F\u002Fwww.numpy.org>`_\n- `scipy \u003Chttp:\u002F\u002Fwww.scipy.org>`_\n- `cython \u003Chttp:\u002F\u002Fwww.cython.org>`_\n- `mido \u003Chttps:\u002F\u002Fgithub.com\u002Folemb\u002Fmido>`_\n\n为了测试您的安装、处理实时音频输入或提升 FFT 性能，还需额外安装以下软件包：\n\n- `pytest \u003Chttps:\u002F\u002Fwww.pytest.org\u002F>`_\n- `pyaudio \u003Chttp:\u002F\u002Fpeople.csail.mit.edu\u002Fhubert\u002Fpyaudio\u002F>`_\n- `pyfftw \u003Chttps:\u002F\u002Fgithub.com\u002FpyFFTW\u002FpyFFTW\u002F>`_\n\n如果您需要支持除 ``.wav`` 格式之外的其他音频文件，且采样率为 44.1kHz、位深度为 16 位，则需要 ``ffmpeg``（Ubuntu Linux 上的 ``avconv`` 存在一些解码错误，因此不建议使用！）。\n\n请参阅 `requirements.txt \u003Crequirements.txt>`_ 文件，了解所需的最低版本，并确保这些模块均为最新版本，否则可能导致意外错误或计算结果不准确！\n\n\n通过软件包安装\n--------------------\n\n此处提供的说明适用于仅需安装软件包的情况，例如运行附带的程序或将部分功能用于自己的项目。如果您打算对 `madmom` 软件包进行任何更改，请遵循下一节中的步骤。\n\n最简单的安装方式是通过 `PyPI (Python 包索引) \u003Chttps:\u002F\u002Fpypi.python.org\u002Fpypi>`_ 使用 ``pip`` 命令进行安装：\n\n    pip install madmom\n\n这将包含最新的代码和训练好的模型，并自动安装所有依赖项。\n\n您可能需要更高的权限（使用 su 或 sudo）才能将软件包、模型文件和脚本全局安装。或者，您也可以通过添加 ``--user`` 参数将其本地安装（即仅供您使用）：\n\n    pip install --user madmom\n\n这也会将可执行程序安装到一个公共位置（如 ``\u002Fusr\u002Flocal\u002Fbin``），通常该路径已经包含在您的 ``$PATH`` 中。如果您是本地安装，程序可能会被复制到一个未包含在 ``$PATH`` 中的文件夹（例如，在 Mac OS X 上可能是 ``~\u002FLibrary\u002FPython\u002F2.7\u002Fbin``，而在 Ubuntu Linux 上则是 ``~\u002F.local\u002Fbin``，``pip`` 会提示您）。因此，您需要显式调用这些程序，或者将它们的安装路径添加到您的 ``$PATH`` 环境变量中：\n\n    export PATH='path\u002Fto\u002Fscripts':$PATH\n\n通过源代码安装\n-------------------\n\n如果您计划以开发者身份使用该软件包，请克隆 Git 仓库：\n\n    git clone --recursive https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom.git\n\n由于预训练的模型\u002F数据文件并未包含在该仓库中，而是作为 Git 子模块添加，因此您必须递归地克隆仓库。这等同于以下步骤：\n\n    git clone https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom.git\n    cd madmom\n    git submodule update --init --remote\n\n然后您可以直接以开发模式安装软件包：\n\n    python setup.py develop --user\n\n要运行附带的测试：\n\n    python setup.py pytest\n\n现有安装的升级\n---------------------------------\n\n要升级软件包，请使用与安装时相同的机制（pip 或源代码）。如果您想从软件包切换到源代码，请先卸载软件包。\n\n升级软件包\n~~~~~~~~~~~~~~~~~\n\n只需通过 pip 升级软件包即可：\n\n    pip install --upgrade madmom [--user]\n\n如果其中一些提供的程序或模型发生了变化（请参阅 CHANGELOG），您应该先卸载软件包，再重新安装：\n\n    pip uninstall madmom\n    pip install madmom [--user]\n\n从源代码升级\n~~~~~~~~~~~~~~~~~~~\n\n只需拉取最新的源代码：\n\n    git pull\n\n要更新子模块中包含的模型：\n\n    git submodule update\n\n如果任何 ``.pyx`` 或 ``.pxd`` 文件发生了变化，您需要使用 Cython 重新编译这些模块：\n\n    python setup.py build_ext --inplace\n\n软件包结构\n-----------------\n\n该软件包结构非常简单，分为以下几个文件夹：\n\n`\u002Fbin \u003Cbin>`_\n  该文件夹包含示例程序（即可执行算法）\n`\u002Fdocs \u003Cdocs>`_\n  软件包文档\n`\u002Fmadmom \u003Cmadmom>`_\n  实际的 Python 软件包\n`\u002Fmadmom\u002Faudio \u003Cmadmom\u002Faudio>`_\n  低级特征（例如音频文件处理、STFT）\n`\u002Fmadmom\u002Fevaluation \u003Cmadmom\u002Fevaluation>`_\n  评估代码\n`\u002Fmadmom\u002Ffeatures \u003Cmadmom\u002Ffeatures>`_\n  高级特征（例如起始点、节拍）\n`\u002Fmadmom\u002Fml \u003Cmadmom\u002Fml>`_\n  机器学习相关内容（例如 RNN、HMM）\n`\u002Fmadmom\u002Fmodels \u003C..\u002F..\u002F..\u002Fmadmom_models>`_\n  预训练的模型\u002F数据文件（详见许可证部分）\n`\u002Fmadmom\u002Futils \u003Cmadmom\u002Futils>`_\n  其他工具（例如 MIDI 和通用文件处理）\n`\u002Ftests \u003Ctests>`_\n  测试\n\n可执行程序\n-------------------\n\n该软件包在 `\u002Fbin \u003Cbin>`_ 文件夹中包含可执行程序。如果您已安装软件包，这些程序已被复制到一个公共位置。\n\n所有脚本均可在不同模式下运行：在 ``single`` 文件模式下，可处理单个音频文件并将输出写入 STDOUT 或指定的输出文件：\n\n    DBNBeatTracker single [-o OUTFILE] INFILE\n\n如果需要处理多个音频文件，也可以以``batch``模式运行脚本，将输出写入带有指定后缀的文件中：\n\n    DBNBeatTracker batch [-o OUTPUT_DIR] [-s OUTPUT_SUFFIX] FILES\n\n如果没有指定输出目录，程序会将输出文件保存到与音频文件相同的目录中。\n\n某些程序还可以在``online``模式下运行，即对实时音频信号进行处理。这需要安装`pyaudio \u003Chttp:\u002F\u002Fpeople.csail.mit.edu\u002Fhubert\u002Fpyaudio\u002F>`_：\n\n    DBNBeatTracker online [-o OUTFILE] [INFILE]\n\n使用``pickle``模式可以保存所使用的参数，以便精确地重现实验。\n\n请注意，程序本身以及各个模式都提供了帮助信息：\n\n    DBNBeatTracker -h\n\n    DBNBeatTracker single -h\n\n    DBNBeatTracker batch -h\n\n    DBNBeatTracker online -h\n\n    DBNBeatTracker pickle -h\n\n这些命令会分别显示不同的帮助信息。\n\n\n附加资源\n====================\n\n邮件列表\n------------\n\n请使用`邮件列表 \u003Chttps:\u002F\u002Fgroups.google.com\u002Fd\u002Fforum\u002Fmadmom-users>`_ 与开发者及其他用户取得联系。\n\n维基\n----\n\n维基页面地址为：https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fwiki\n\n常见问题解答\n---\n\n常见问题解答请参见：https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fwiki\u002FFAQ\n\n引用\n========\n\n如果您在工作中使用了madmom，请考虑对其进行引用：\n\n.. code-block:: latex\n\n   @inproceedings{madmom,\n      Title = {{madmom: 一个全新的 Python 音频与音乐信号处理库}},\n      Author = {B{\\\"o}ck, Sebastian 和 Korzeniowski, Filip 和 Schl{\\\"u}ter, Jan 和 Krebs, Florian 和 Widmer, Gerhard},\n      Booktitle = {第24届 ACM 国际多媒体大会论文集},\n      Month = {10},\n      Year = {2016},\n      Pages = {1174--1178},\n      Address = {阿姆斯特丹，荷兰},\n      Doi = {10.1145\u002F2964284.2973795}\n   }\n\n参考文献\n==========\n\n.. [1] Florian Eyben、Sebastian Böck、Björn Schuller 和 Alex Graves，\n    *基于双向长短时记忆神经网络的通用节拍检测*，\n    第11届国际音乐信息检索会议（ISMIR）论文集，2010年。\n.. [2] Sebastian Böck 和 Markus Schedl，\n    *利用上下文感知神经网络增强节拍跟踪*，\n    第14届数字音频效果会议（DAFx）论文集，2011年。\n.. [3] Sebastian Böck 和 Markus Schedl，\n    *利用循环神经网络进行复音钢琴音符转录*，\n    第37届国际声学、语音与信号处理会议（ICASSP）论文集，2012年。\n.. [4] Sebastian Böck、Andreas Arzt、Florian Krebs 和 Markus Schedl，\n    *利用循环神经网络实现在线实时节拍检测*，\n    第15届数字音频效果会议（DAFx）论文集，2012年。\n.. [5] Sebastian Böck、Florian Krebs 和 Markus Schedl，\n    *评估节拍检测方法的在线能力*，\n    第13届国际音乐信息检索会议（ISMIR）论文集，2012年。\n.. [6] Sebastian Böck 和 Gerhard Widmer，\n    *用于节拍检测的最大值滤波器颤音抑制*，\n    第16届数字音频效果会议（DAFx）论文集，2013年。\n.. [7] Sebastian Böck 和 Gerhard Widmer，\n    *基于局部群延迟的颤音和震音抑制用于节拍检测*，\n    第13届国际音乐信息检索会议（ISMIR）论文集，2013年。\n.. [8] Florian Krebs、Sebastian Böck 和 Gerhard Widmer，\n    *用于音乐音频中节拍和强拍跟踪的节奏模式建模*，\n    第14届国际音乐信息检索会议（ISMIR）论文集，2013年。\n.. [9] Sebastian Böck、Jan Schlüter 和 Gerhard Widmer，\n    *利用循环神经网络改进节拍检测中的峰值提取*，\n    第6届机器学习与音乐国际研讨会（MML）论文集，2013年。\n.. [10] Sebastian Böck、Florian Krebs 和 Gerhard Widmer，\n    *一种考虑异质音乐风格的多模型节拍跟踪方法*，\n    第15届国际音乐信息检索会议（ISMIR）论文集，2014年。\n.. [11] Filip Korzeniowski、Sebastian Böck 和 Gerhard Widmer，\n    *从节拍激活函数中概率性提取节拍位置*，\n    第15届国际音乐信息检索会议（ISMIR）论文集，2014年。\n.. [12] Sebastian Böck、Florian Krebs 和 Gerhard Widmer，\n    *基于循环神经网络和共振梳状滤波器的准确节拍速度估计*，\n    第16届国际音乐信息检索会议（ISMIR）论文集，2015年。\n.. [13] Florian Krebs、Sebastian Böck 和 Gerhard Widmer，\n    *用于联合节拍和拍号跟踪的有效状态空间模型*，\n    第16届国际音乐信息检索会议（ISMIR）论文集，2015年。\n.. [14] Sebastian Böck、Florian Krebs 和 Gerhard Widmer，\n    *利用循环神经网络进行联合节拍和强拍跟踪*，\n    第17届国际音乐信息检索会议（ISMIR）论文集，2016年。\n.. [15] Filip Korzeniowski 和 Gerhard Widmer，\n    *用于和弦识别的特征学习：深度色度提取器*，\n    第17届国际音乐信息检索会议（ISMIR）论文集，2016年。\n.. [16] Florian Krebs、Sebastian Böck、Matthias Dorfer 和 Gerhard Widmer，\n    *利用节拍同步特征和循环网络进行强拍跟踪*，\n    第17届国际音乐信息检索会议（ISMIR）论文集，2016年。\n.. [17] Filip Korzeniowski 和 Gerhard Widmer，\n    *用于音乐和弦识别的全卷积深度听觉模型*，\n    IEEE 国际信号处理机器学习研讨会（MLSP）论文集，2016年。\n.. [18] Filip Korzeniowski 和 Gerhard Widmer，\n    *不分流派的调性分类，基于卷积神经网络*，\n    第19届国际音乐信息检索会议（ISMIR）论文集，2018年。\n.. [19] Rainer Kelz、Sebastian Böck 和 Gerhard Widmer，\n    *深度复音 ADSR 钢琴音符转录*，\n    第44届国际声学、语音与信号处理会议（ICASSP）论文集，2019年。\n\n致谢\n================\n\n本项目得到了欧盟委员会通过`GiantSteps 项目 \u003Chttp:\u002F\u002Fwww.giantsteps-project.eu>`_（FP7 资助协议编号 610591）和`Phenicx 项目 \u003Chttp:\u002F\u002Fphenicx.upf.edu>`_（FP7 资助协议编号 601166）的支持，以及奥地利科学基金会（FWF）项目 Z159 的资助。","# madmom 快速上手指南\n\nmadmom 是一个专注于音乐信息检索（MIR）任务的 Python 音频信号处理库，由奥地利约翰内斯·开普勒大学计算感知系开发。它提供了节拍跟踪、起始点检测、节奏分析等算法的参考实现。\n\n## 环境准备\n\n在开始安装之前，请确保您的系统满足以下要求：\n\n### 系统要求\n- **Python 版本**：Python 2.7 或 Python 3.5 及以上版本\n- **操作系统**：支持 Linux, macOS, Windows\n\n### 前置依赖\n必须安装以下核心依赖包：\n- `numpy`\n- `scipy`\n- `cython`\n- `mido`\n\n可选依赖（用于测试、实时音频输入或提升性能）：\n- `pytest` (运行测试)\n- `pyaudio` (处理实时音频流)\n- `pyfftw` (提升 FFT 计算性能)\n- `ffmpeg` (支持除 .wav 以外的更多音频格式，**注意**：Ubuntu 用户请勿使用 `avconv`，因其存在解码 bug)\n\n> **提示**：国内用户建议使用清华源或阿里源加速 pip 安装，例如在命令后添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`。\n\n## 安装步骤\n\n推荐通过 `pip` 进行安装，这将自动获取最新代码、预训练模型及所有依赖。\n\n### 方法一：全局安装（需要管理员权限）\n```bash\npip install madmom\n```\n\n### 方法二：用户本地安装（推荐，无需 sudo）\n如果您没有 root 权限，或希望仅在当前用户环境下安装：\n```bash\npip install --user madmom\n```\n*注意：本地安装后，可执行脚本可能位于 `~\u002F.local\u002Fbin` (Linux) 或 `~\u002FLibrary\u002FPython\u002Fx.x\u002Fbin` (macOS)。如果提示命令未找到，请将上述路径添加到您的 `$PATH` 环境变量中。*\n\n### 方法三：源码安装（开发者模式）\n如果您计划修改源码或参与开发：\n```bash\ngit clone --recursive https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom.git\ncd madmom\npython setup.py develop --user\n```\n*注：`--recursive` 参数至关重要，因为预训练模型是通过 Git 子模块管理的。*\n\n## 基本使用\n\n安装完成后，您可以直接使用内置的可执行程序。madmom 支持三种主要运行模式：\n\n### 1. 单文件处理模式 (single)\n处理单个音频文件并将结果输出到终端或指定文件。以下示例展示如何使用深度信念网络（DBN）进行节拍追踪：\n\n```bash\nDBNBeatTracker single audio_file.wav\n```\n\n将结果保存到新文件：\n```bash\nDBNBeatTracker single -o beats.txt audio_file.wav\n```\n\n### 2. 批量处理模式 (batch)\n一次性处理多个音频文件，结果将保存为同名但带有特定后缀的文件：\n\n```bash\nDBNBeatTracker batch *.wav\n```\n\n指定输出目录和后缀：\n```bash\nDBNBeatTracker batch -o .\u002Fresults -s .beats *.wav\n```\n\n### 3. 实时在线模式 (online)\n对实时音频信号进行处理（需预先安装 `pyaudio`）：\n\n```bash\nDBNBeatTracker online\n```\n*按 Ctrl+C 停止处理。*\n\n### 查看帮助\n任何命令均可通过 `-h` 参数查看详细用法和可用选项：\n```bash\nDBNBeatTracker -h\nDBNBeatTracker single -h\n```\n\n---\n*如需在商业产品中使用 madmom 的模型或数据文件，请联系作者获取授权。学术引用请参考项目文档中的 Citation 部分。*","一位音乐科技公司的算法工程师正在开发一款自动扒谱应用，需要从大量现场录音中精准提取鼓点节奏和音符起始时间。\n\n### 没有 madmom 时\n- 工程师必须手动复现复杂的音乐信息检索（MIR）学术论文算法，耗时数周且极易出错。\n- 传统的通用信号处理库缺乏针对音乐特性的预训练模型，导致在嘈杂环境下节拍检测准确率极低。\n- 每次调整参数都需要重新编写底层音频特征提取代码，开发迭代周期漫长，难以快速验证想法。\n- 缺乏统一的框架整合不同算法，导致代码库臃肿且难以维护，团队协作成本高昂。\n\n### 使用 madmom 后\n- 直接调用 madmom 内置的参考实现和预训练模型，几分钟内即可部署高精度的节拍与音符起始点检测功能。\n- 利用其专为音乐优化的深层神经网络，即使在背景噪音较大的现场录音中也能稳定输出可靠的节奏分析结果。\n- 通过简洁的 Python API 快速调整处理流程，将原本数天的特征工程缩短为几行代码，大幅提升实验效率。\n- 依托其模块化的架构轻松组合不同 MIR 任务，代码结构清晰规范，显著降低了后续维护和扩展的难度。\n\nmadmom 将晦涩的音乐声学研究成果转化为开箱即用的生产力，让开发者能专注于应用创新而非重复造轮子。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCPJKU_madmom_ec74d820.png","CPJKU","Institute of Computational Perception","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FCPJKU_81c01100.png","Johannes Kepler University",null,"http:\u002F\u002Fwww.cp.jku.at","https:\u002F\u002Fgithub.com\u002FCPJKU",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",97.2,{"name":88,"color":89,"percentage":90},"Cython","#fedf5b",2.8,1614,271,"2026-04-03T21:20:56","NOASSERTION","Linux, macOS","未说明",{"notes":98,"python":99,"dependencies":100},"若需处理非 44.1kHz\u002F16bit 的 WAV 音频文件，必须安装 ffmpeg（不建议在 Ubuntu 上使用 avconv，因其存在解码错误）。预训练模型和数据文件采用 CC BY-NC-SA 4.0 许可，商业使用需联系作者。安装时建议使用 pip 或从源码递归克隆以获取子模块中的模型文件。","2.7 或 3.5+",[101,102,103,104,105,106,107,108],"numpy","scipy","cython","mido","pytest","pyaudio","pyfftw","ffmpeg",[13,62,63],[111,112,113,114,115,101,102,103],"audio-analysis","signal-processing","machine-learning","music-information-retrieval","python","2026-03-27T02:49:30.150509","2026-04-06T14:05:17.298129",[119,124,129,134,139,143],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},19149,"如何在基于 TensorFlow 的 Docker 容器（Ubuntu）中成功安装 madmom？","在 Dockerfile 中，除了常规的安装步骤外，需要显式安装区域设置（locales）和 FFTW 开发库。具体步骤如下：\n1. 安装 locales 并生成 en_US.UTF-8。\n2. 设置环境变量 LANG, LANGUAGE, LC_ALL。\n3. 安装 libfftw3-dev。\n\n完整的 Dockerfile 参考片段：\nRUN apt-get update && \\\n    apt-get -y upgrade && \\\n    apt-get install -y locales && \\\n    locale-gen en_US.UTF-8 && \\\n    apt-get install -y git && \\\n    apt-get install -y -qq libfftw3-dev && \\\n    git clone --recursive https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom.git && \\\n    cd madmom && pip install -r requirements.txt && \\\n    python setup.py develop --user\n\n环境变量设置：\nENV LANG='en_US.UTF-8' LANGUAGE='en_US:en' LC_ALL='en_US.UTF-8'","https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fissues\u002F390",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},19150,"Windows 用户如何安装 madmom？","直接使用 `pip install madmom` 在 Windows 上可能会因编译器错误（如 'INFINITY' 未定义）而失败。建议访问项目的 Wiki 页面 \"Install on Windows\" 获取详细的设置指南。维护者指出，直到 v0.14 或更高版本发布后，才会正式支持通过 pip 直接在 Windows 上安装。在此之前，请按照 Wiki 中的步骤手动配置编译环境。","https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fissues\u002F145",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},19151,"如何向 RNNDownBeatProcessor 传递音频数据而不是文件名？","如果需要在传入处理器之前对音频进行修剪或处理，可以通过加载音频文件时指定参数来实现。例如，在使用相关加载函数时添加 `num_channels=1` 参数可以解决多通道音频导致的问题，从而允许将处理后的数据传递给处理器。此外，项目更新（如 PR #368 合并后）可能已支持更直接的数据传递方式，建议尝试使用最新的 master 分支代码。","https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fissues\u002F357",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},19152,"为什么 RNNBeatTracker 使用 LogarithmicFilterBank 而不是 MelFilterBank？功率谱为何只取绝对值而不平方？","这是基于特定论文和实验效果的选择。LogarithmicFilterBank 在该任务的节拍追踪表现上优于 MelFilterBank。关于功率谱，计算时仅取短时傅里叶变换（STFT）的绝对值而非平方，也是遵循原论文的设计，这种特征表示在训练该特定 RNN 模型时被证明是有效的。","https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fissues\u002F263",{"id":140,"question_zh":141,"answer_zh":142,"source_url":138},19153,"训练 LSTM 节拍追踪模型时有哪些推荐的超参数（如批量大小、正则化等）？","根据维护者的经验，训练此类 LSTM 模型时：\n1. 优化器使用 SGD（随机梯度下降）。\n2. 批量大小（batch size）设为 1。\n3. 不使用任何正则化项（regularisers）或 Dropout。\n4. 学习率需要根据具体情况进行测试调整（具体数值参考相关论文）。\n注意：LSTM 通常难以训练，这套“配方”可能在某些数据集上有效，但不保证通用性。",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},19154,"如何使用 madmom 可视化隐藏层特征或绘制最终的节拍结果？","是的，可以使用 Keras 提供的工具来可视化层表示（layer representations）。对于最终输出的节拍，可以从节拍激活函数（beat activation function）的结果中提取并绘制。具体实现可参考 Keras 官方文档中关于可视化中间层输出的方法。","https:\u002F\u002Fgithub.com\u002FCPJKU\u002Fmadmom\u002Fissues\u002F426",[149,154,159,164,169,174,179,184,189,194],{"id":150,"version":151,"summary_zh":152,"released_at":153},117157,"v0.16.1","发布说明\r\n=============\r\n\r\n版本 0.16.1（发布日期：2017-11-14）\r\n-----------------------------------------\r\n\r\n这是一个维护版本。\r\n\r\n* 在源码分发中包含 .pyx 文件","2018-11-14T14:57:41",{"id":155,"version":156,"summary_zh":157,"released_at":158},117158,"v0.16","发布说明\r\n=============\r\n\r\n版本 0.16（发布日期：2017-11-13）\r\n---------------------------------------\r\n\r\n新功能：\r\n\r\n* `TempoDetector` 可以处理实时音频信号  (#292)\r\n* 添加了和弦评估功能 (#309)\r\n* 小节跟踪功能 (#316)\r\n* 添加了 `quantize_notes` 函数 (#327)\r\n* 添加了全局调性评估功能 (#336)\r\n* 添加了调性识别功能及程序 (#345, #381)\r\n\r\n错误修复：\r\n\r\n* 修复了当最后一个状态不可达时 `TransitionModel` 的状态数量问题 (#287)\r\n* 修复了 `BeatTrackingProcessor` 中的重复节拍检测问题 (#298)\r\n* 修复了 ffmpeg 对 Unicode 文件名的处理问题 (#305)\r\n* 修复了 STFT 的零填充问题 (#319)\r\n* 修复了访问信号帧时的内存泄漏问题 (#322)\r\n* 事件量化不会改变事件本身 (#327)\r\n\r\nAPI 相关变更：\r\n\r\n* `BufferProcessor` 使用 `data` 而不是 `buffer` 来存储数据 (#292)\r\n* `DBNBeatTrackingProcessor` 期望输入为 1D 数据 (#299)\r\n* 将强拍和模式跟踪功能移至 `features.downbeats` 模块 (#316)\r\n* 写入\u002F读取函数已移至 `io` 模块 (#346)\r\n* 写入函数不再返回任何数据 (#346)\r\n* 评估类期望传入标注或检测结果，无法直接处理文件 (#346)\r\n* 新的 MIDI 模块 (io.midi) 替代了基于 mido 的 (utils.midi) 模块 (#46)\r\n\r\n其他变更：\r\n\r\n* 如果未找到有效路径，`HMM` 的维特比解码会发出警告 (#279)\r\n* 添加了在 `STFT` 中包含奈奎斯特频率的选项 (#280)\r\n* 使用 `pyfftw` 计算 FFT (#363)\r\n* 支持 Python 3.7 (#374)\r\n* 使用 pytest 替代 nose 运行测试 (#385)\r\n* 移除了过时代码 (#385)","2018-11-13T15:41:32",{"id":160,"version":161,"summary_zh":162,"released_at":163},117159,"v0.15.1","发布说明\n=============\n\n版本 0.15.1（发布日期：2017-07-07）\n-----------------------------------------\n\n这是一个维护版本。\n\n* 修复 NumPy 布尔值减法问题 (#296)","2017-07-07T10:24:08",{"id":165,"version":166,"summary_zh":167,"released_at":168},117160,"v0.15","发布说明\n=============\n\n版本 0.15（发布日期：2017-04-25）\n---------------------------------------\n\n新特性：\n\n* 流式模式支持对实时音频输入进行逐帧处理 (#185)\n* 指数线性单元（ELU）激活函数 (#232)\n* `DBNBeatTracker` 可以处理实时音频信号 (#238)\n* `OnsetDetectorLL` 可以处理实时音频信号 (#256)\n\n错误修复：\n\n* 修复单个标注\u002F检测时的节拍评估失败问题 (#216)\n* 修复多轨 MIDI 文件的速度处理问题 (#219)\n* 修复加载 Unicode 文件名时的错误 (#223)\n* 修复 FFmpeg 对 Unicode 文件名的处理问题 (#236)\n* 修复 `peak_picking` 的平滑处理问题 (#247)\n* 修复起音点与音符的合并问题 (#255)\n\nAPI 相关变更：\n\n* `NeuralNetwork` 现在期望接收二维输入；激活函数可以分步计算 (#244)\n* 重新排列 `GRUCell` 的参数顺序，使其与其他层保持一致 (#243)\n* 重命名 `GRULayer` 的参数名称，使其与其他层保持一致 (#243)\n\n其他变更：\n\n* SPL 和 RMS 可以在 `Signal` 和 `FramedSignal` 上计算 (#208)\n* 在单线程模式下，`num_threads` 参数会传递给 `ParallelProcessor` (#217)\n* 在 `setup.py` 中使用 `install_requires` 来指定依赖项 (#226)\n* 使用新的 Cython 构建系统来构建扩展模块 (#227)\n* 允许在 RNN 中初始化前一状态\u002F隐藏状态 (#243)\n* `HMM` 的前向路径可以分步计算 (#244)","2017-04-25T08:59:14",{"id":170,"version":171,"summary_zh":172,"released_at":173},117161,"v0.14.1","# 发行说明\n\n## 版本 0.14.1（发布日期：2016-08-01）\n\n这是一个维护版本。\n- `RNNDownBeatProcessor` 现在仅返回节拍和强拍激活值 (#197)\n- 更新程序以反映 MIREX 2016 的提交内容 (#198)","2016-08-01T17:01:43",{"id":175,"version":176,"summary_zh":177,"released_at":178},117162,"v0.14","# 发行说明\n\n## 版本 0.14（发布日期：2016-07-28）\n\n新特性：\n- 基于循环神经网络（RNN）和动态贝叶斯网络（DBN）的节拍跟踪 (#130)\n- 卷积神经网络（CNN）及 CNN 起音检测 (#133)\n- 线性链条件随机场（CRF）实现 (#144)\n- 基于深度神经网络（DNN）的色度向量提取 (#148)\n- 使用 DNN 色度向量进行 CRF 和弦识别 (#148)\n- 使用 CRF 解码进行 CNN 和弦识别 (#152)\n- 初步支持 Windows 系统（仅限 Python 2.7，暂无 pip 包）(#157)\n- 门控循环单元（GRU）网络层 (#167)\n\n错误修复：\n- 修复节拍输出错误 (#128)\n- 修复 MIDI 文件创建错误 (#166)\n\nAPI 相关变更：\n- 将 `ml.rnn` 重构为 `ml.nn`，并将模型转换为 pickle 格式 (#110)\n- 重新排列 comb_filters 的维度顺序为时间、频率、tau (#135)\n- `write_notes` 使用 `delimiter` 而不是 `sep` 来分隔列 (#155)\n- `LSTMLayer` 接受 `Gate` 对象作为参数，所有层均可调用 (#161)\n- 将 `FramedSignalProcessor` 的 `online` 参数替换为 `origin` (#169)\n\n其他变更：\n- 在 `features.*` 中添加了使用 RNN 进行起音\u002F音符\u002F节拍检测的类 (#118)\n- 为类的文档字符串添加示例 (#119)\n- 将 `madmom.modules` 转换为 Python 包 (#125)\n- `match_files` 可处理不完全匹配的情况 (#137)\n- 将节拍跟踪模型更新为 MIREX 2015 版本 (#146)\n- 创建的 MIDI 文件可设置速度和拍号 (#166)","2016-07-28T11:44:14",{"id":180,"version":181,"summary_zh":182,"released_at":183},117163,"v0.13.2","# 发行说明\n\n## 版本 0.13.2（发布日期：2016-06-09）\n\n这是一个错误修复版本。\n- 修复 FilteredSpectrogram 中的自定义滤波器组 (#142)\n","2016-06-09T07:41:02",{"id":185,"version":186,"summary_zh":187,"released_at":188},117164,"v0.13.1","# 发布说明\n\n## 版本 0.13.1（发布日期：2016-03-14）\n\n这是一个错误修复版本。\n- 修复节拍评估参数解析问题 (#116)\n","2016-03-14T09:39:16",{"id":190,"version":191,"summary_zh":192,"released_at":193},117165,"v0.13","# 发行说明\n\n## 版本 0.13（发布日期：2016-03-07）\n\n主要特性：\n- 支持 Python 3（3.3 及以上版本）(#15)\n- 在 http:\u002F\u002Fmadmom.readthedocs.org 上提供在线文档 (#60)\n\n错误修复：\n- 修复了一个严重的无符号索引错误 (#88)\n- 如果多次调用 `note_ticks_to_beats()`，MIDI 音符的时间戳可能会损坏 (#90)\n\nAPI 相关变更：\n- 将 `DownBeatTracker` 及所有相关类重命名为 `PatternTracker` (#25)\n- 对 `features.beats_hmm` 模块进行了全面重构 (#52)\n- 统一了 `FramedSignal` 的负索引行为 (#72)\n- 移除了数据类的序列化功能，因为该功能未经过充分测试 (#81)\n- 重新实现了频谱图差值的堆叠方式 (#82)\n- 将 `MultiBandSpectrogram` 的 `norm_bands` 参数重命名为 `norm_filters` (#83)\n\n其他变更：\n- 添加了对齐评估功能 (#12)\n- 添加了持续集成测试 (#16)\n- 为 `single` 和 `batch` 处理模式都增加了 `-o` 选项，以避免在单文件模式下意外覆盖文件 (#18)\n- 从 `FilteredSpectrogram` 中移除了 `block_size` 参数 (#22)\n- 采样率现在始终为整数 (#23)\n- 将所有文档字符串转换为 numpydoc 格式 (#48)\n- 批量处理在遇到非音频文件时会继续进行 (#53)\n- 添加了代码质量检查 (#61)\n- 添加了覆盖率测量功能 (#74)\n- 增加了 `--down` 选项，用于仅评估强拍 (#76)\n- 移除了观测值归一化的选项 (#95)\n- 将滤波器组相关的参数解析逻辑迁移到 `FilterbankProcessor` 类中 (#96)","2016-03-07T12:25:34",{"id":195,"version":196,"summary_zh":197,"released_at":198},117166,"v0.12.1","此版本为 setup.py 添加了 Python 3 兼容性；这是使交互式 Binder 正常工作所必需的。\n","2016-01-22T10:32:53"]