[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-marl--openl3":3,"tool-marl--openl3":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":23,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":106,"github_topics":107,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":115,"updated_at":116,"faqs":117,"releases":152},2494,"marl\u002Fopenl3","openl3","OpenL3: Open-source deep audio and image embeddings","OpenL3 是一个开源的 Python 库，专为计算深度音频和图像嵌入（Embeddings）而设计。简单来说，它能将复杂的声音信号和视觉图像转化为计算机易于理解和处理的数值向量。这些向量保留了原始数据的核心语义信息，使得机器能够更高效地进行内容分析、相似度匹配或分类任务。\n\n在人工智能领域，直接从原始音频或图片中提取高质量特征往往具有较高门槛。OpenL3 基于著名的“Look, Listen and Learn”方法，通过深度学习模型自动捕捉音视频中的关键特征，解决了传统手工特征提取效率低、泛化能力弱的问题。尽管其训练代码曾存在时间对齐上的小瑕疵，但生成的嵌入向量依然被证明能有效捕捉有用的语义信息，具有很高的实用价值。\n\nOpenL3 特别适合开发者、数据科学家以及多媒体领域的研究人员使用。如果你正在构建音乐推荐系统、视频内容检索工具，或者需要进行跨模态（音频与图像）的机器学习研究，OpenL3 能为你提供强大的底层支持。此外，它也适用于希望快速集成音频\u002F图像特征提取功能的软件工程师。\n\n技术层面，OpenL3 的一大亮点是已全面支持 TensorFlow 2，这意味着用户可以更","OpenL3 是一个开源的 Python 库，专为计算深度音频和图像嵌入（Embeddings）而设计。简单来说，它能将复杂的声音信号和视觉图像转化为计算机易于理解和处理的数值向量。这些向量保留了原始数据的核心语义信息，使得机器能够更高效地进行内容分析、相似度匹配或分类任务。\n\n在人工智能领域，直接从原始音频或图片中提取高质量特征往往具有较高门槛。OpenL3 基于著名的“Look, Listen and Learn”方法，通过深度学习模型自动捕捉音视频中的关键特征，解决了传统手工特征提取效率低、泛化能力弱的问题。尽管其训练代码曾存在时间对齐上的小瑕疵，但生成的嵌入向量依然被证明能有效捕捉有用的语义信息，具有很高的实用价值。\n\nOpenL3 特别适合开发者、数据科学家以及多媒体领域的研究人员使用。如果你正在构建音乐推荐系统、视频内容检索工具，或者需要进行跨模态（音频与图像）的机器学习研究，OpenL3 能为你提供强大的底层支持。此外，它也适用于希望快速集成音频\u002F图像特征提取功能的软件工程师。\n\n技术层面，OpenL3 的一大亮点是已全面支持 TensorFlow 2，这意味着用户可以更轻松地利用 GPU 加速计算，享受更现代化的开发体验。同时，它保持了良好的兼容性，仍支持需要 TensorFlow 1.x 的旧版环境。安装过程简便，通过 pip 即可快速部署，仅在 Linux 环境下需手动配置少量系统依赖。总体而言，OpenL3 是一个成熟、稳定且易于集成的工具，为处理多模态数据提供了坚实的基石。","# OpenL3\n\nOpenL3 is an open-source Python library for computing deep audio and image embeddings.\n\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.6%2C%203.7%2C%203.8-blue.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Fopenl3)\n[![MIT license](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-blue.svg)](https:\u002F\u002Fchoosealicense.com\u002Flicenses\u002Fmit\u002F)\n[![Build Status](https:\u002F\u002Ftravis-ci.com\u002Fmarl\u002Fopenl3.svg?branch=main)](https:\u002F\u002Ftravis-ci.com\u002Fmarl\u002Fopenl3)\n[![Coverage Status](https:\u002F\u002Fcoveralls.io\u002Frepos\u002Fgithub\u002Fmarl\u002Fopenl3\u002Fbadge.svg?branch=main)](https:\u002F\u002Fcoveralls.io\u002Fgithub\u002Fmarl\u002Fopenl3?branch=main)\n[![Documentation Status](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmarl_openl3_readme_13d664e1afd7.png)](http:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmarl_openl3_readme_45fa46430675.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fopenl3)\n\nPlease refer to the [documentation](https:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002F) for detailed instructions and examples.\n\n> **UPDATE:** Openl3 now has Tensorflow 2 support!\n\n> **NOTE:** Whoops! A bug was reported in the [training code](https:\u002F\u002Fgithub.com\u002Fmarl\u002Fl3embedding), with the effect that positive audio-image pairs that come from the same video do not necessarily overlap in time. Nonetheless, the embedding still seems to capture useful semantic information.\n\nThe audio and image embedding models provided here are published as part of [1], and are based on the Look, Listen and Learn approach [2]. For details about the embedding models and how they were trained, please see:\n\n[Look, Listen and Learn More: Design Choices for Deep Audio Embeddings](http:\u002F\u002Fwww.justinsalamon.com\u002Fuploads\u002F4\u002F3\u002F9\u002F4\u002F4394963\u002Fcramer_looklistenlearnmore_icassp_2019.pdf)\u003Cbr\u002F>\nAurora Cramer, Ho-Hsiang Wu, Justin Salamon, and Juan Pablo Bello.\u003Cbr\u002F>\nIEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pages 3852–3856, Brighton, UK, May 2019.\n\n\n# Installing OpenL3\n\nDependencies\n------------\n\n#### libsndfile\nOpenL3 depends on the `pysoundfile` module to load audio files, which depends on the non-Python library\n``libsndfile``. On Windows and macOS, these will be installed via ``pip`` and you can therefore skip this step.\nHowever, on Linux this must be installed manually via your platform's package manager.\nFor Debian-based distributions (such as Ubuntu), this can be done by simply running\n\n    apt-get install libsndfile1\n\nAlternatively, if you are using `conda`, you can install `libsndfile` simply by running\n\n    conda install -c conda-forge libsndfile\n\nFor more detailed information, please consult the\n[`pysoundfile` installation documentation](https:\u002F\u002Fpysoundfile.readthedocs.io\u002Fen\u002F0.9.0\u002F#installation>).\n\n\n#### Tensorflow\nStarting with `openl3>=0.4.0`, Openl3 has been upgraded to use Tensorflow 2. Because Tensorflow 2 and higher now includes GPU support, `tensorflow>=2.0.0` is included as a dependency and no longer needs to be installed separately. \n\nIf you are interested in using Tensorflow 1.x, please install using `pip install 'openl3\u003C=0.3.1'`.\n\n##### Tensorflow 1x & OpenL3 \u003C= v0.3.1\nBecause Tensorflow 1.x comes in CPU-only and GPU variants, we leave it up to the user to install the version that best fits\ntheir usecase.\n\nOn most platforms, either of the following commands should properly install Tensorflow:\n\n```bash\npip install \"tensorflow\u003C1.14\" # CPU-only version\npip install \"tensorflow-gpu\u003C1.14\" # GPU version\n```\n\nFor more detailed information, please consult the\n[Tensorflow installation documentation](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002F).\n\n\nInstalling OpenL3\n-----------------\nThe simplest way to install OpenL3 is by using ``pip``, which will also install the additional required dependencies\nif needed. To install OpenL3 using ``pip``, simply run\n\n    pip install openl3\n\nTo install the latest version of OpenL3 from source:\n\n1. Clone or pull the latest version, only retrieving the ``main`` branch to avoid downloading the branch where we store the model weight files (these will be properly downloaded during installation).\n\n        git clone git@github.com:marl\u002Fopenl3.git --branch main --single-branch\n\n2. Install using pip to handle python dependencies. The installation also downloads model files, **which requires a stable network connection**.\n\n        cd openl3\n        pip install -e .\n\n# Using OpenL3\n\nTo help you get started with OpenL3 please see the\n[tutorial](http:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002Ftutorial.html).\n\n\n# Acknowledging OpenL3\n\nPlease cite the following papers when using OpenL3 in your work:\n\n[1] [Look, Listen and Learn More: Design Choices for Deep Audio Embeddings](http:\u002F\u002Fwww.justinsalamon.com\u002Fuploads\u002F4\u002F3\u002F9\u002F4\u002F4394963\u002Fcramer\\_looklistenlearnmore\\_icassp\\_2019.pdf)\u003Cbr\u002F>\nAurora Cramer, Ho-Hsiang Wu, Justin Salamon, and Juan Pablo Bello.\u003Cbr\u002F>\nIEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pages 3852–3856, Brighton, UK, May 2019.\n\n[2] [Look, Listen and Learn](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\\_ICCV\\_2017\u002Fpapers\u002FArandjelovic\\_Look\\_Listen\\_and\\_ICCV\\_2017\\_paper.pdf)\u003Cbr\u002F>\nRelja Arandjelović and Andrew Zisserman\u003Cbr\u002F>\nIEEE International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 2017.\n\n# Model Weights License\nThe model weights are made available under a [Creative Commons Attribution 4.0 International (CC BY 4.0) License](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby\u002F4.0\u002F).\n","# OpenL3\n\nOpenL3 是一个用于计算深度音频和图像嵌入的开源 Python 库。\n\n[![PyPI](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.6%2C%203.7%2C%203.8-blue.svg)](https:\u002F\u002Fpypi.python.org\u002Fpypi\u002Fopenl3)\n[![MIT 证书](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-blue.svg)](https:\u002F\u002Fchoosealicense.com\u002Flicenses\u002Fmit\u002F)\n[![构建状态](https:\u002F\u002Ftravis-ci.com\u002Fmarl\u002Fopenl3.svg?branch=main)](https:\u002F\u002Ftravis-ci.com\u002Fmarl\u002Fopenl3)\n[![覆盖率](https:\u002F\u002Fcoveralls.io\u002Frepos\u002Fgithub\u002Fmarl\u002Fopenl3\u002Fbadge.svg?branch=main)](https:\u002F\u002Fcoveralls.io\u002Fgithub\u002Fmarl\u002Fopenl3?branch=main)\n[![文档状态](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmarl_openl3_readme_13d664e1afd7.png)](http:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002F?badge=latest)\n[![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmarl_openl3_readme_45fa46430675.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fopenl3)\n\n请参阅 [文档](https:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002F) 获取详细说明和示例。\n\n> **更新：** OpenL3 现已支持 TensorFlow 2！\n\n> **注意：** 不幸的是，有人报告了 [训练代码](https:\u002F\u002Fgithub.com\u002Fmarl\u002Fl3embedding) 中的一个错误，导致来自同一视频的正样本音频-图像对在时间上并不一定重叠。尽管如此，该嵌入仍然能够捕捉到有用的语义信息。\n\n此处提供的音频和图像嵌入模型作为 [1] 的一部分发布，并基于“看、听与学习”的方法 [2]。有关嵌入模型及其训练方式的详细信息，请参阅：\n\n[看、听与学习更多：深度音频嵌入的设计选择](http:\u002F\u002Fwww.justinsalamon.com\u002Fuploads\u002F4\u002F3\u002F9\u002F4\u002F4394963\u002Fcramer_looklistenlearnmore_icassp_2019.pdf)\u003Cbr\u002F>\n奥罗拉·克雷默、吴浩翔、贾斯汀·萨拉蒙和胡安·巴勃罗·贝洛。\u003Cbr\u002F>\nIEEE 国际声学、语音与信号处理会议（ICASSP），第 3852–3856 页，英国布莱顿，2019 年 5 月。\n\n\n# 安装 OpenL3\n\n依赖项\n------------\n\n#### libsndfile\nOpenL3 依赖于 `pysoundfile` 模块来加载音频文件，而该模块又依赖于非 Python 库 `libsndfile`。在 Windows 和 macOS 上，这些库会通过 `pip` 自动安装，因此您可以跳过此步骤。然而，在 Linux 上，您必须使用平台的包管理器手动安装它。对于基于 Debian 的发行版（如 Ubuntu），只需运行以下命令即可：\n\n    apt-get install libsndfile1\n\n或者，如果您使用的是 `conda`，可以通过以下命令安装 `libsndfile`：\n\n    conda install -c conda-forge libsndfile\n\n有关更详细的信息，请参阅 [`pysoundfile` 安装文档](https:\u002F\u002Fpysoundfile.readthedocs.io\u002Fen\u002F0.9.0\u002F#installation>)。\n\n\n#### TensorFlow\n自 `openl3>=0.4.0` 起，OpenL3 已升级为使用 TensorFlow 2。由于 TensorFlow 2 及更高版本现在包含 GPU 支持，因此 `tensorflow>=2.0.0` 已被纳入依赖项，不再需要单独安装。\n\n如果您希望使用 TensorFlow 1.x，请通过 `pip install 'openl3\u003C=0.3.1'` 进行安装。\n\n##### TensorFlow 1x 与 OpenL3 ≤ v0.3.1\n由于 TensorFlow 1.x 有仅 CPU 版本和 GPU 版本之分，我们建议用户根据自己的使用场景选择合适的版本进行安装。\n\n在大多数平台上，以下任一命令均可正确安装 TensorFlow：\n\n```bash\npip install \"tensorflow\u003C1.14\" # 仅 CPU 版本\npip install \"tensorflow-gpu\u003C1.14\" # GPU 版本\n```\n\n有关更详细的信息，请参阅 [TensorFlow 安装文档](https:\u002F\u002Fwww.tensorflow.org\u002Finstall\u002F)。\n\n\n安装 OpenL3\n-----------------\n安装 OpenL3 最简单的方式是使用 `pip`，它也会在必要时自动安装其他所需的依赖项。要使用 `pip` 安装 OpenL3，只需运行：\n\n    pip install openl3\n\n若要从源代码安装最新版本的 OpenL3：\n\n1. 克隆或拉取最新版本，仅获取 `main` 分支，以避免下载存储模型权重文件的分支（这些文件将在安装过程中自动下载）。\n\n        git clone git@github.com:marl\u002Fopenl3.git --branch main --single-branch\n\n2. 使用 `pip` 安装以处理 Python 依赖项。安装过程还会下载模型文件，**这需要稳定的网络连接**。\n\n        cd openl3\n        pip install -e .\n\n# 使用 OpenL3\n\n为了帮助您快速上手 OpenL3，请参阅 [教程](http:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002Ftutorial.html)。\n\n\n# 致谢 OpenL3\n\n在您的工作中使用 OpenL3 时，请引用以下论文：\n\n[1] [看、听与学习更多：深度音频嵌入的设计选择](http:\u002F\u002Fwww.justinsalamon.com\u002Fuploads\u002F4\u002F3\u002F9\u002F4\u002F4394963\u002Fcramer\\_looklistenlearnmore\\_icassp\\_2019.pdf)\u003Cbr\u002F>\n奥罗拉·克雷默、吴浩翔、贾斯汀·萨拉蒙和胡安·巴勃罗·贝洛。\u003Cbr\u002F>\nIEEE 国际声学、语音与信号处理会议（ICASSP），第 3852–3856 页，英国布莱顿，2019 年 5 月。\n\n[2] [看、听与学习](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\\_ICCV\\_2017\u002Fpapers\u002FArandjelovic\\_Look\\_Listen\\_and\\_ICCV\\_2017\\_paper.pdf)\u003Cbr\u002F>\n雷利亚·阿兰杰洛维奇和安德鲁·齐瑟曼\u003Cbr\u002F>\nIEEE 国际计算机视觉会议（ICCV），意大利威尼斯，2017 年 10 月。\n\n# 模型权重许可\n模型权重根据 [知识共享署名 4.0 国际许可协议 (CC BY 4.0)](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby\u002F4.0\u002F) 提供。","# OpenL3 快速上手指南\n\nOpenL3 是一个开源的 Python 库，用于计算深度音频和图像嵌入（Embeddings）。它基于“Look, Listen and Learn”方法，支持 TensorFlow 2。\n\n## 环境准备\n\n### 系统要求\n- **Python**: 3.6, 3.7, 或 3.8\n- **操作系统**: Windows, macOS, Linux\n\n### 前置依赖\nOpenL3 依赖 `pysoundfile` 加载音频文件，而 `pysoundfile` 依赖非 Python 库 `libsndfile`。\n\n**Linux 用户需手动安装 libsndfile：**\n对于 Debian\u002FUbuntu 系统：\n```bash\napt-get install libsndfile1\n```\n如果使用 Conda：\n```bash\nconda install -c conda-forge libsndfile\n```\n\n*注：Windows 和 macOS 用户通过 pip 安装时会自动处理此依赖，无需手动操作。*\n\n**TensorFlow 版本说明：**\n- **OpenL3 >= 0.4.0**：默认使用 **TensorFlow 2**（包含 GPU 支持），无需单独安装 TF。\n- **OpenL3 \u003C= 0.3.1**：仅支持 **TensorFlow 1.x**。如需使用旧版，请自行安装 `tensorflow\u003C1.14` (CPU) 或 `tensorflow-gpu\u003C1.14` (GPU)。\n\n## 安装步骤\n\n推荐使用 pip 进行安装，这将自动处理 Python 依赖并下载模型权重文件（请确保网络连接稳定）。\n\n### 方法一：通过 PyPI 安装（推荐）\n```bash\npip install openl3\n```\n\n### 方法二：从源码安装\n如果需要最新开发版本：\n\n1. 克隆仓库（仅获取 main 分支以避免下载大型权重文件历史）：\n```bash\ngit clone git@github.com:marl\u002Fopenl3.git --branch main --single-branch\n```\n\n2. 进入目录并安装：\n```bash\ncd openl3\npip install -e .\n```\n*注意：安装过程中会下载模型权重文件，请保持网络畅通。*\n\n## 基本使用\n\n以下是提取音频嵌入的最简示例。更多详细用法请参考[官方教程](http:\u002F\u002Fopenl3.readthedocs.io\u002Fen\u002Flatest\u002Ftutorial.html)。\n\n```python\nimport openl3\nimport soundfile as sf\n\n# 1. 加载音频文件\naudio, sr = sf.read('your_audio_file.wav')\n\n# 2. 获取音频嵌入\n# input_repr: 输入表示类型 (\"mel128\", \"mel256\", \"linear\")\n# content_type: 内容类型 (\"music\" 或 \"env\" 环境音)\nembedding, timestamps = openl3.get_audio_embedding(audio, sr, input_repr=\"mel256\", content_type=\"music\")\n\n# 3. 查看结果\nprint(embedding.shape)  # 输出嵌入向量的形状\nprint(timestamps)       # 输出对应的时间戳\n```\n\n*提示：若需处理图像嵌入，可使用 `openl3.get_image_embedding()` 函数，用法类似。*","某多媒体内容平台的技术团队正在构建一个智能视频检索系统，旨在让用户能通过输入一段环境音（如“雨声”或“街道嘈杂声”），快速找到具有相似氛围的视频片段。\n\n### 没有 openl3 时\n\n- **特征提取困难**：传统音频处理依赖手工设计的特征（如 MFCC），难以捕捉声音的高级语义信息，导致“雨声”和“瀑布声”在数学上可能被视为完全不同，检索准确率极低。\n- **跨模态对齐复杂**：若要实现音视频联合检索，需分别训练独立的音频和视觉模型，再通过复杂的后期工程强行对齐特征空间，开发周期长达数月。\n- **计算资源浪费**：为了获得较好的语义理解，往往需要部署庞大的专用模型，推理速度慢，难以满足海量视频库的实时索引需求。\n- **维护成本高**：自行训练的模型缺乏通用性，一旦新增视频类别（如从自然风景扩展到城市生活），需重新收集数据并微调模型，迭代极其繁琐。\n\n### 使用 openl3 后\n\n- **语义理解精准**：openl3 基于“Look, Listen and Learn”架构，能直接生成富含语义的深层嵌入向量，准确识别出不同场景中相似的听觉氛围，显著提升检索相关性。\n- **原生跨模态支持**：openl3 同时提供音频和图像嵌入模型，且两者处于同一语义空间，无需额外对齐步骤即可直接计算音视频相似度，开发效率提升数倍。\n- **开箱即用高效**：作为成熟的开源库，openl3 预置了经过大规模数据训练的权重，只需几行代码即可提取高质量特征，大幅降低算力门槛和推理延迟。\n- **泛化能力强**：得益于其通用的训练方式，openl3 对未见过的场景也有良好的表现，团队无需针对每个新类别重新训练，系统维护变得轻松简单。\n\nopenl3 通过提供高质量的预训练音视频嵌入，将复杂的跨模态语义检索任务简化为标准的向量计算问题，极大降低了开发门槛并提升了系统性能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmarl_openl3_d1278455.png","marl","Music and Audio Research Laboratory - NYU","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmarl_7b4ec5ba.png","",null,"http:\u002F\u002Fsteinhardt.nyu.edu\u002Fmarl\u002F","https:\u002F\u002Fgithub.com\u002Fmarl",[84,88],{"name":85,"color":86,"percentage":87},"Jupyter Notebook","#DA5B0B",90.2,{"name":89,"color":90,"percentage":91},"Python","#3572A5",9.8,584,64,"2026-04-02T17:58:05","MIT","Linux, macOS, Windows","未说明（TensorFlow 2+ 包含 GPU 支持，具体取决于 TensorFlow 的配置）","未说明",{"notes":100,"python":101,"dependencies":102},"在 Linux 系统上需手动安装 libsndfile1（如通过 apt-get 或 conda）；从源码安装时需稳定网络连接以下载模型权重文件；若需使用 TensorFlow 1.x，请安装 openl3\u003C=0.3.1 版本。","3.6, 3.7, 3.8",[103,104,105],"tensorflow>=2.0.0","pysoundfile","libsndfile",[13,14,55],[108,109,110,111,112,113,114],"audio","embedding","embedding-models","deep-learning","machine-listening","image-embeddings","image","2026-03-27T02:49:30.150509","2026-04-06T05:35:29.402692",[118,123,128,133,138,142,147],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},11500,"OpenL3 是否支持 TensorFlow 2.x 和 tf.keras？","是的，从 0.4.0 版本（通过 PR #62 合并）开始，OpenL3 已经支持 TensorFlow 2.x 和 tf.keras。此次更新解决了与新版 TF\u002FKeras 的兼容性问题，修复了安全漏洞，并简化了安装过程（因为 TF 2.x 同时包含 CPU 和 GPU 支持，可以直接作为项目依赖）。","https:\u002F\u002Fgithub.com\u002Fmarl\u002Fopenl3\u002Fissues\u002F46",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},11501,"是否有 PyTorch 版本的模型可用？不同前端（Kapre vs Librosa）的模型可以互换使用吗？","目前主要提供 Keras 模型。关于不同前端：更新的 OpenL3 版本允许在 Kapre 和 Librosa 前端之间选择，但它们不可互换。使用特定前端训练的模型在推理时必须使用相同的前端。虽然嵌入向量（embeddings）可能不完全匹配，但在下游分类任务（如 UrbanSound8K 数据集）中的性能表现一致或在误差范围内。如果未来引入 PyTorch 版本，情况也将类似：接近但不可与 TF 版本完全互换。","https:\u002F\u002Fgithub.com\u002Fmarl\u002Fopenl3\u002Fissues\u002F35",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},11502,"OpenL3 如何处理输出目录？如果指定的输出路径不存在会自动创建吗？","OpenL3 的设计逻辑是：创建直接的父目录，但假设其余路径已存在。例如，如果用户指定输出文件夹为 `\u002Fa\u002Fb\u002Fc`，程序会假设 `\u002Fa\u002Fb` 已存在（若不存在则报错），并自动创建 `c`。这种设计旨在防止用户因拼写错误等意外创建深层目录结构，同时保留创建新子目录的便利性。用户需确保上级目录已正确设置。","https:\u002F\u002Fgithub.com\u002Fmarl\u002Fopenl3\u002Fissues\u002F1",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},11503,"OpenL3 支持批量处理音频文件以提高 GPU 利用率吗？","是的，OpenL3 支持批量处理模式。为了更有效地利用 GPU，可以通过一次性预测多个文件来实现。API 设计上，建议区分单文件处理和批量处理函数（如 `get_audio_embedding_batch`），而不是让单个函数同时接受单个数组或列表，以保持 API 简洁和易于测试。目前实现中已支持列表输入以进行批量处理。","https:\u002F\u002Fgithub.com\u002Fmarl\u002Fopenl3\u002Fissues\u002F26",{"id":139,"question_zh":140,"answer_zh":141,"source_url":122},11504,"对于没有专业机器学习硬件或知识的用户，如何使用 OpenL3 进行音频分类？","OpenL3 的模型旨在“开箱即用”。对于非 ML 专家，建议直接使用 OpenL3 提取音频嵌入向量（embeddings），然后将这些向量输入到传统的机器学习分类器中（如随机森林 Random Forest）。这种方法允许用户专注于调整分类器参数，而无需处理复杂的神经网络模型训练，从而节省大量时间。",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},11505,"OpenL3 是否支持图像嵌入（Image Embedding）功能？","是的，OpenL3 已添加图像嵌入 API。该功能类似于现有的音频 API。在依赖项选择上，团队倾向于选择轻量级且长期维护良好的库，以保持仓库的轻量化，尽管这意味着用户可能需要安装额外的依赖项。","https:\u002F\u002Fgithub.com\u002Fmarl\u002Fopenl3\u002Fissues\u002F19",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},11506,"为什么 OpenL3 不默认将 TensorFlow 列为依赖项？","在早期版本中，由于 TensorFlow 分为 CPU 和 GPU 两个不同的安装包，团队让用户根据自己的用例自行安装合适的版本。但在 TensorFlow 2.1 及更高版本中，CPU 和 GPU 支持合并在同一个包中，因此后续版本（如 0.4.0+）已将 TensorFlow 直接包含在项目依赖中，简化了安装流程。","https:\u002F\u002Fgithub.com\u002Fmarl\u002Fopenl3\u002Fissues\u002F39",[153,158,163,168,172,177,182,187,192,197,202,207,212,217,222,227,232,237,242,247],{"id":154,"version":155,"summary_zh":156,"released_at":157},62009,"v0.4.2","发布 OpenL3 0.4.2 版本。\n\n* 修复 `load_image_embedding_model` 文档字符串中错误的 `embedding_size`\n* 在 `docs\u002Fconf.py` 中添加 `tensorflow.keras` 模拟模块，以修复文档构建问题\n* 移除对 `sphinx` 版本的固定依赖\n* 在 README 中添加关于训练缺陷的说明","2023-05-03T18:22:34",{"id":159,"version":160,"summary_zh":161,"released_at":162},62010,"v0.4.1","发布 OpenL3 0.4.1 版本。\n\n- 显式添加 librosa 作为依赖项\n- 移除对 scikit-image 依赖的版本上限限制\n- 修复 README 中的版本号拼写错误\n- 更新 README 中的 TensorFlow 相关信息","2021-08-06T20:34:44",{"id":164,"version":165,"summary_zh":166,"released_at":167},62011,"v0.4.0","发布 OpenL3 0.4.0 版本。\n\n- 升级至 `tensorflow>=2.0.0`。由于支持 CPU 和 GPU 双模式，TensorFlow 现已作为依赖项包含在内。\n- 升级至 `kapre>=0.3.5`。将幅度缩放方法回滚至与 `kapre\u003C=0.1.4` 一致，因为模型正是基于该版本训练的。\n- 移除对 Python 2 和 3.5 的支持，因为它们不再受 TensorFlow 2 支持（并新增对 3.7 和 3.8 的支持）。\n- 添加 librosa 前端，并允许在 `kapre` 和 `librosa` 之间配置前端：\n   - 在 `get_audio_embedding`、`process_audio_file` 和 `load_audio_embedding_model` 中添加了 `frontend='kapre'` 参数。\n   - 在 `process_video_file` 和 CLI 中添加了 `audio_frontend='kapre'` 参数。\n   - 在 `load_audio_embedding_model` 中增加了 `frontend='librosa'` 标志，以便与 librosa 或其他外部前端配合使用。\n   - 新增 `openl3.preprocess_audio` 函数，用于计算每种前端所需的输入特征。\n- 模型 .h5 文件中不再包含 Kapre 层，现均可通过 `tf.keras` 导入。\n- 将 `skimage` 和 `moviepy.video.io.VideoFileClip` 的导入改为惰性加载。\n- 为 Kapre 0.3.5 和 Librosa 分别新增了回归测试数据。\n- 对部分测试进行了参数化处理，以减少代码重复。\n- 添加了用于回归测试数据、权重打包和 .h5 文件操作的开发工具。","2021-08-06T20:25:59",{"id":169,"version":170,"summary_zh":170,"released_at":171},62012,"v0.4.0rc2","2021-05-30T02:19:20",{"id":173,"version":174,"summary_zh":175,"released_at":176},62013,"v0.4.0rc1","RC1，修复 soundfile 安装","2021-05-30T02:10:09",{"id":178,"version":179,"summary_zh":180,"released_at":181},62014,"v0.4.0rc0","v0.4.0 的 RC0 版本，新增了对 TensorFlow 2 的支持，并引入了 librosa 音频前端，作为 kapre 前端的 CPU 替代方案。","2021-05-30T01:25:57",{"id":183,"version":184,"summary_zh":185,"released_at":186},62015,"v0.3.1","发布 OpenL3 0.3.0 版本。\n\n* 在依赖项中要求 `keras>=2.0.9,\u003C2.3.0`，以避免在使用 pip 安装时强制安装 TensorFlow 2.x。\n* 更新 README 和安装文档，明确说明我们目前尚不支持 TensorFlow 2.x，并提供一个可行的依赖组合。\n* 在依赖项中要求 `kapre==0.1.4`，以避免安装会破坏回归测试的 `tensorflow>=1.14`。","2020-02-28T21:23:09",{"id":188,"version":189,"summary_zh":190,"released_at":191},62016,"v0.3.1rc0","0.3.1 版本的候选发布 0。\n\n* 在依赖项中要求 `keras>=2.0.9,\u003C2.3.0`，以避免在使用 pip 安装时强制安装 TensorFlow 2.x。\n* 更新 README 和安装文档，明确说明我们目前尚不支持 TensorFlow 2.x，并提供一个可用的依赖组合。\n* 在依赖项中要求 `kapre==0.1.4`，以避免安装会破坏回归测试的 `tensorflow>=1.14`。","2020-02-28T21:10:25",{"id":193,"version":194,"summary_zh":195,"released_at":196},62017,"v0.3.0","发布 OpenL3 0.3.0 版本。\n\n- 重命名音频相关嵌入函数，以表明它们专用于音频。\n- 在 API 和 CLI 中添加图像嵌入功能。\n- 在 API 和 CLI 中添加视频处理功能。\n- 在 API 和 CLI 中添加批处理功能，以更高效地处理多个输入。\n- 更新文档，加入新功能说明。\n- 解决因依赖库更新而产生的构建问题。","2020-01-23T20:53:22",{"id":198,"version":199,"summary_zh":200,"released_at":201},62018,"v0.3.0rc0","0.3.0 版本的候选发布 0。\n\n- 将与音频相关的嵌入函数重命名，以表明它们专用于音频。\n- 在 API 和 CLI 中添加图像嵌入功能。\n- 在 API 和 CLI 中添加视频处理功能。\n- 在 API 和 CLI 中添加批处理功能，以更高效地处理多个输入。\n- 更新文档，加入新功能说明。\n- 解决因依赖库更新而产生的构建问题。","2020-01-23T20:08:06",{"id":203,"version":204,"summary_zh":205,"released_at":206},62019,"v0.2.0","Release version 0.2.0 of OpenL3.\r\n\r\n* Update embedding models with ones that have been trained with the kapre bug fixed.\r\n* Allow loaded models to be passed in and used in process_file and get_embedding.\r\n* Rename get_embedding_model to load_embedding_model.\r\n\r\n","2019-04-18T21:38:17",{"id":208,"version":209,"summary_zh":210,"released_at":211},62020,"v0.2.0rc0","Release candidate 0 of version 0.2.0\r\n\r\n* Update embedding models with ones that have been trained with the kapre bug fixed.\r\n* Allow loaded models to be passed in and used in process_file and get_embedding.\r\n* Rename get_embedding_model to load_embedding_model.","2019-04-13T00:51:31",{"id":213,"version":214,"summary_zh":215,"released_at":216},62021,"v0.1.1","Release of v0.1.1 of OpenL3.\r\n\r\nUpdate kapre to fix issue with dynamic range normalization for decibel computation when computing spectrograms.","2019-03-07T00:13:01",{"id":218,"version":219,"summary_zh":220,"released_at":221},62022,"v0.1.1rc1","Release candidate 1 of version 0.1.1","2019-03-06T23:43:15",{"id":223,"version":224,"summary_zh":225,"released_at":226},62023,"v0.1.1rc0","Release candidate 0 of version 0.1.1\r\n\r\nUpdate kapre to fix issue with dynamic range normalization for decibel computation when computing spectrograms.","2019-02-21T03:46:05",{"id":228,"version":229,"summary_zh":230,"released_at":231},62024,"v0.1.0","First release of OpenL3.\r\n\r\nImplements audio embedding models, basic extraction and file processing API, and CLI.","2018-11-22T21:49:11",{"id":233,"version":234,"summary_zh":235,"released_at":236},62025,"v0.1.0rc6","Release candidate 6 of version 0.1.0\r\n\r\nUpdate docs with references and make spelling of \"OpenL3\" consistent.","2018-11-20T22:30:05",{"id":238,"version":239,"summary_zh":240,"released_at":241},62026,"v0.1.0rc5","Release candidate 5 of version 0.1.0","2018-11-20T05:18:26",{"id":243,"version":244,"summary_zh":245,"released_at":246},62027,"v0.1.0rc4","Release candidate 4 of version 0.1.0\r\n\r\nThis release also updates the PyPI keywords, and moves the model files directly into the module directory (instead of creating a subdirectory) to make the pip installation process easier when installing with PyPI.","2018-11-20T04:52:44",{"id":248,"version":249,"summary_zh":250,"released_at":251},62028,"v0.1.0rc3","Release candidate 3 of version 0.1.0","2018-11-20T02:03:33"]