[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-audeering--opensmile":3,"tool-audeering--opensmile":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150720,2,"2026-04-11T11:33:10",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":80,"stars":120,"forks":121,"last_commit_at":122,"license":123,"difficulty_score":124,"env_os":125,"env_gpu":126,"env_ram":126,"env_deps":127,"category_tags":134,"github_topics":136,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":140,"updated_at":141,"faqs":142,"releases":177},6681,"audeering\u002Fopensmile","opensmile","The Munich Open-Source Large-Scale Multimedia Feature Extractor","openSMILE 是一款功能强大的开源多媒体特征提取工具，专为音频分析与处理而生。它能够从语音和音乐中高效提取关键特征，广泛应用于自动语音识别、说话人身份确认、情感计算以及音乐节奏与和弦检测等场景。无论是学术研究还是工业落地，openSMILE 都能帮助用户快速将原始音频转化为机器可理解的数据，解决了音频信号处理中特征工程复杂、跨平台部署难的痛点。\n\n这款工具特别适合人工智能研究人员、音频算法工程师以及需要构建智能语音应用的开发者使用。其核心优势在于纯 C++ 编写的高性能架构，不仅运行速度快、资源占用低，还具备极佳的灵活性，能够轻松部署在 Linux、Windows、macOS 等桌面系统，以及 Android、iOS 和树莓派等移动与嵌入式设备上。此外，项目还提供了便捷的 Python 封装包，让习惯使用 Python 生态的用户也能无缝集成。作为源自慕尼黑工业大学并持续由 audEERING 维护的成熟项目，openSMILE 凭借双许可模式免费支持科研与教育用途，是音频机器学习领域值得信赖的基础设施。","\u003Cp align=\"center\">\u003Cimg width=\"50%\" src=\"doc\u002Fsphinx\u002F_static\u002Fimages\u002FopenSMILE-logoSlogan-color.svg\" \u002F>\u003C\u002Fp>\n\n[![Latest release](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Faudeering\u002Fopensmile)](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases\u002Flatest)\n[![Latest release date](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease-date\u002Faudeering\u002Fopensmile)](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases\u002Flatest)\n[![All releases](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Faudeering\u002Fopensmile\u002Ftotal)](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases)\n[![Documentation](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-3.0-informational)](https:\u002F\u002Faudeering.github.io\u002Fopensmile\u002F)\n\n**openSMILE** (**open**-source **S**peech and **M**usic **I**nterpretation by **L**arge-space **E**xtraction)\nis a complete and open-source toolkit for audio analysis, \nprocessing and classification especially targeted at speech and \nmusic applications, e.g. automatic speech recognition, speaker identification,\nemotion recognition, or beat tracking and chord detection.\n\nIt is written purely in C++, has a fast, efficient, and flexible architecture, \nand runs on desktop, mobile, and embedded platforms such as Linux, Windows, macOS, Android, iOS\nand Raspberry Pi.\n\nSee also the standalone\n[opensmile](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile-python) Python package\nfor an easy-to-use wrapper if you are working in Python.\n\nWhat's new\n----------\n\nPlease see our [blog post](https:\u002F\u002Fwww.audeering.com\u002Fintroducing-opensmile-3-0\u002F) on audeering.com for a summary of the new features in version 3.0.\n\nQuick start\n-----------\n\nPre-built x64 binaries for Windows, Linux, and macOS are provided on the [Releases](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases) page. Alternatively, you may follow the steps below to build openSMILE yourself, if desired.\n\nFor more details on how to customize builds, build for other platforms, and use\nopenSMILE, see Section [Get started](https:\u002F\u002Faudeering.github.io\u002Fopensmile\u002Fget-started.html)\nin the documentation.\n\n### Linux\u002FMacOS\n\nPrerequisites:\n- A version of gcc and g++ or Clang needs to be installed that supports C++11.\n- CMake 3.5.1 or later needs to be installed and in the PATH.\n\n1. In ``build_flags.sh``, set build flags and options as desired.\n2. Run ``bash build.sh``.\n\nBuild files will be generated in the ``.\u002Fbuild`` subdirectory.\nYou can find the main SMILExtract binary in ``.\u002Fbuild\u002Fprogsrc\u002Fsmilextract``.\n\n### Windows\n\nPrerequisites:\n- Visual Studio 2017 or higher with C++ components is required.\n- CMake 3.15 or later needs to be installed and in the PATH.\n\n1. In ``build_flags.ps1``, set build flags and options as desired.\n2. Run ``powershell -ExecutionPolicy Bypass -File build.ps1``.\n\nBuild files will be generated in the ``.\u002Fbuild`` subdirectory.\nYou can find the main SMILExtract.exe binary in ``.\u002Fbuild\u002Fprogsrc\u002Fsmilextract``.\n\nDocumentation\n-------------\n\nYou can find extensive documentation with step-by-step instructions on how to build \nopenSMILE and get started at https:\u002F\u002Faudeering.github.io\u002Fopensmile\u002F.\n\nHistory\n-------\n\nThe toolkit was first developed at the Institute for Human-Machine \nCommunication at the Technische Universität München in Munich, Germany.\nIt was started within the SEMAINE EU-FP7 research project.\nThe toolkit is now owned and maintained \nby [audEERING GmbH](https:\u002F\u002Faudeering.com), who provide intelligent\naudio analysis solutions, automatic speech emotion recognition,\nand paralinguistic speech analysis software packages as well as\nconsulting and development services on these topics.\n\nContributing and Support\n------------------------\n\nWe welcome contributions! For feedback and technical support, \nplease use the [issue tracker](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues).\n\nLicensing\n---------\n\nopenSMILE follows a dual-licensing model. Since the main goal of the project \nis widespread use of the software to facilitate research in the field of \nmachine learning from audio-visual signals, the source code, and binaries are \nfreely available for private, research, and educational use under an open-source license\n(see [LICENSE](LICENSE)).\nIt is not allowed to use the open-source version of openSMILE for any sort of commercial product.\nFundamental research in companies, for example, is permitted, but if a product is the result of \nthe research, we require you to buy a commercial development license. \nContact us at info@audeering.com (or visit us at https:\u002F\u002Fwww.audeering.com) for more information.\n\nOriginal authors: Florian Eyben, Felix Weninger, Martin Wöllmer, Björn Schuller  \nCopyright © 2008-2013, Institute for Human-Machine Communication, Technische Universität München, Germany  \nCopyright © 2013-2015, audEERING UG (haftungsbeschränkt)  \nCopyright © 2016-2023, audEERING GmbH\n\nCiting\n------\n\nPlease cite openSMILE in your publications by citing the following paper:\n\n> Florian Eyben, Martin Wöllmer, Björn Schuller: \"openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor\", Proc. ACM Multimedia (MM), ACM, Florence, Italy, ISBN 978-1-60558-933-6, pp. 1459-1462, 25.-29.10.2010.\n","\u003Cp align=\"center\">\u003Cimg width=\"50%\" src=\"doc\u002Fsphinx\u002F_static\u002Fimages\u002FopenSMILE-logoSlogan-color.svg\" \u002F>\u003C\u002Fp>\n\n[![最新版本](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002Faudeering\u002Fopensmile)](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases\u002Flatest)\n[![最新版本发布日期](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease-date\u002Faudeering\u002Fopensmile)](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases\u002Flatest)\n[![所有版本下载量](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdownloads\u002Faudeering\u002Fopensmile\u002Ftotal)](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases)\n[![文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-3.0-informational)](https:\u002F\u002Faudeering.github.io\u002Fopensmile\u002F)\n\n**openSMILE**（**open**-source **S**peech and **M**usic **I**nterpretation by **L**arge-space **E**xtraction）\n是一个功能完备且开源的音频分析、处理与分类工具包，尤其适用于语音和音乐相关应用，例如自动语音识别、说话人辨识、情感识别，以及节拍跟踪和和弦检测等。\n\n它完全由 C++ 编写，架构快速、高效且灵活，可在桌面、移动设备及嵌入式平台上运行，支持 Linux、Windows、macOS、Android、iOS 和 Raspberry Pi 等系统。\n\n如果您使用 Python 进行开发，还可以参考独立的\n[opensmile](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile-python) Python 包，它提供了一个易于使用的封装接口。\n\n新特性\n----------\n\n有关 3.0 版本的新特性概览，请参阅 audeering.com 上的 [博客文章](https:\u002F\u002Fwww.audeering.com\u002Fintroducing-opensmile-3-0\u002F)。\n\n快速入门\n-----------\n\n在 [Releases](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases) 页面上提供了适用于 Windows、Linux 和 macOS 的预编译 x64 二进制文件。此外，您也可以按照以下步骤自行构建 openSMILE。\n\n如需了解更多关于自定义构建、跨平台构建以及 openSMILE 使用方法的信息，请参阅文档中的 [开始使用](https:\u002F\u002Faudeering.github.io\u002Fopensmile\u002Fget-started.html) 部分。\n\n### Linux\u002FmacOS\n\n先决条件：\n- 已安装支持 C++11 的 gcc、g++ 或 Clang 版本。\n- 已安装并添加到 PATH 的 CMake 3.5.1 或更高版本。\n\n1. 在 `build_flags.sh` 中，根据需要设置构建标志和选项。\n2. 运行 `bash build.sh`。\n\n构建文件将生成在 `.\u002Fbuild` 子目录中。主 SMILExtract 二进制文件位于 `.\u002Fbuild\u002Fprogsrc\u002Fsmilextract`。\n\n### Windows\n\n先决条件：\n- 需要安装包含 C++ 组件的 Visual Studio 2017 或更高版本。\n- 已安装并添加到 PATH 的 CMake 3.15 或更高版本。\n\n1. 在 `build_flags.ps1` 中，根据需要设置构建标志和选项。\n2. 运行 `powershell -ExecutionPolicy Bypass -File build.ps1`。\n\n构建文件将生成在 `.\u002Fbuild` 子目录中。主 SMILExtract.exe 二进制文件位于 `.\u002Fbuild\u002Fprogsrc\u002Fsmilextract`。\n\n文档\n----\n\n您可以在 https:\u002F\u002Faudeering.github.io\u002Fopensmile\u002F 找到详尽的文档，其中包含逐步指导，介绍如何构建 openSMILE 并开始使用。\n\n历史\n----\n\n该工具包最初由德国慕尼黑工业大学人机通信研究所开发，起源于欧盟 FP7 研究项目 SEMAINE。目前，该工具包由 [audEERING GmbH](https:\u002F\u002Faudeering.com) 拥有并维护，该公司提供智能音频分析解决方案、自动语音情感识别以及副语言特征分析软件，并在此领域提供咨询和开发服务。\n\n贡献与支持\n------------\n\n我们欢迎您的贡献！如需反馈或技术支持，请使用 [问题追踪器](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues)。\n\n许可\n----\n\nopenSMILE 采用双重许可模式。鉴于该项目的主要目标是推动软件的广泛应用，以促进基于视听信号的机器学习研究，其源代码和二进制文件均以开源许可证免费提供给个人、科研和教育用途（详见 [LICENSE](LICENSE)）。然而，不允许将 openSMILE 的开源版本用于任何商业产品。例如，企业进行的基础研究是被允许的，但如果研究成果最终形成了商业产品，则需要购买商业开发许可。如需更多信息，请联系 info@audeering.com 或访问 https:\u002F\u002Fwww.audeering.com。\n\n原始作者：Florian Eyben、Felix Weninger、Martin Wöllmer、Björn Schuller  \n版权 © 2008–2013，德国慕尼黑工业大学人机通信研究所  \n版权 © 2013–2015，audEERING UG (haftungsbeschränkt)  \n版权 © 2016–2023，audEERING GmbH\n\n引用\n----\n\n请在您的出版物中引用 openSMILE，并注明以下论文：\n\n> Florian Eyben, Martin Wöllmer, Björn Schuller: \"openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor\", Proc. ACM Multimedia (MM), ACM, Florence, Italy, ISBN 978-1-60558-933-6, pp. 1459-1462, 25.-29.10.2010.","# openSMILE 快速上手指南\n\nopenSMILE 是一款功能强大且开源的音频分析工具包，专为语音和音乐应用设计（如情感识别、说话人识别、节拍跟踪等）。它基于 C++ 开发，具有高效、灵活的架构，支持 Linux、Windows、macOS 等多种平台。\n\n## 环境准备\n\n在开始构建之前，请确保您的系统满足以下前置依赖：\n\n### Linux \u002F macOS\n- **编译器**：安装支持 C++11 标准的 `gcc`\u002F`g++` 或 `Clang`。\n- **构建工具**：安装 `CMake` (版本 3.5.1 或更高)，并确保其已添加到系统 `PATH` 环境变量中。\n\n### Windows\n- **编译器**：安装 Visual Studio 2017 或更高版本，并勾选 \"C++ 开发组件\"。\n- **构建工具**：安装 `CMake` (版本 3.15 或更高)，并确保其已添加到系统 `PATH` 环境变量中。\n\n> **提示**：如果您主要使用 Python 进行开发，推荐直接使用独立的 [opensmile](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile-python) Python 包，无需手动编译 C++ 源码。\n\n## 安装步骤\n\n您可以从 [Releases](https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Freleases) 页面下载预编译的二进制文件直接使用。若需自定义构建或针对特定平台优化，请按以下步骤自行编译：\n\n### Linux \u002F macOS 编译步骤\n\n1. 配置构建选项：\n   编辑 `build_flags.sh` 文件，根据需求设置构建标志和选项。\n   \n2. 执行构建脚本：\n   ```bash\n   bash build.sh\n   ```\n\n构建完成后，文件将生成在 `.\u002Fbuild` 目录下。主程序二进制文件位于：\n`.\u002Fbuild\u002Fprogsrc\u002Fsmilextract`\n\n### Windows 编译步骤\n\n1. 配置构建选项：\n   编辑 `build_flags.ps1` 文件，根据需求设置构建标志和选项。\n\n2. 执行构建脚本（以管理员身份运行 PowerShell）：\n   ```powershell\n   powershell -ExecutionPolicy Bypass -File build.ps1\n   ```\n\n构建完成后，文件将生成在 `.\u002Fbuild` 目录下。主程序二进制文件位于：\n`.\u002Fbuild\u002Fprogsrc\u002Fsmilextract.exe`\n\n## 基本使用\n\n编译成功后，您可以通过命令行调用 `SMILExtract` (Linux\u002FmacOS) 或 `SMILExtract.exe` (Windows) 来提取音频特征。\n\n以下是一个最简单的使用示例，使用默认配置文件提取音频文件的特征并输出到 CSV：\n\n```bash\n.\u002Fbuild\u002Fprogsrc\u002Fsmilextract -I input.wav -O output.csv -configfile config\u002Fis09-13.conf\n```\n\n**参数说明：**\n- `-I`: 输入音频文件路径。\n- `-O`: 输出特征文件路径。\n- `-configfile`: 指定特征提取配置文件（例如 eGeMAPS, ComParE 等标准特征集通常位于 `config\u002F` 目录下）。\n\n> **注意**：具体可用的配置文件请参考 `config\u002F` 目录或官方文档。对于商业产品开发，请注意 openSMILE 采用双重许可模式，开源版本仅限私人、研究和教育用途，商业用途需联系 audEERING 获取商业许可证。","某智能客服团队正在构建一套能实时识别用户情绪（如愤怒、焦虑）的语音分析系统，以便在通话中及时预警并介入安抚。\n\n### 没有 opensmile 时\n- **特征提取困难**：开发人员需手动编写复杂的 C++ 或 Python 代码来计算梅尔频率倒谱系数（MFCC）、音高和能量等声学特征，极易出错且耗时。\n- **跨平台部署受阻**：自研算法难以同时适配云端服务器、移动端 App 以及嵌入式网关设备，导致多端数据标准不一致。\n- **实时性能瓶颈**：自定义脚本处理音频流延迟高，无法满足电话客服场景下毫秒级的实时情绪判断需求。\n- **模型泛化能力弱**：缺乏大规模预定义的特征集支持，导致训练出的情绪识别模型在嘈杂环境或不同口音下准确率大幅下降。\n\n### 使用 opensmile 后\n- **一键提取海量特征**：直接调用 opensmile 预置配置，瞬间从音频中提取出数千维专业声学特征，无需重复造轮子。\n- **全平台无缝运行**：利用 opensmile 高效的 C++ 架构，将同一套特征提取逻辑轻松部署到 Linux 服务器、Android 坐席端甚至树莓派硬件上。\n- **低延迟实时流处理**：借助其优化的流水线架构，实现了对语音流的实时在线分析，确保情绪预警零延迟。\n- **提升模型准确度**：基于学术界广泛验证的大规模特征集训练模型，显著提升了系统在复杂真实场景下的鲁棒性和识别精度。\n\nopensmile 通过提供高效、跨平台且专业的音频特征提取能力，将原本数月的算法研发周期缩短至数天，让团队能专注于核心业务逻辑而非底层信号处理。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Faudeering_opensmile_e799998a.png","audeering","audEERING","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Faudeering_6403c45b.jpg","Intelligent Audio Engineering",null,"info@audeering.com","https:\u002F\u002Faudeering.com","https:\u002F\u002Fgithub.com\u002Faudeering",[81,85,89,93,97,100,104,108,112,116],{"name":82,"color":83,"percentage":84},"C++","#f34b7d",85,{"name":86,"color":87,"percentage":88},"C","#555555",6.6,{"name":90,"color":91,"percentage":92},"BitBake","#00bce4",2.5,{"name":94,"color":95,"percentage":96},"CMake","#DA3434",1.2,{"name":98,"color":99,"percentage":96},"C#","#178600",{"name":101,"color":102,"percentage":103},"Perl","#0298c3",1.1,{"name":105,"color":106,"percentage":107},"Python","#3572A5",0.7,{"name":109,"color":110,"percentage":111},"Swift","#F05138",0.5,{"name":113,"color":114,"percentage":115},"Kotlin","#A97BFF",0.4,{"name":117,"color":118,"percentage":119},"Shell","#89e051",0.2,795,100,"2026-04-07T23:29:23","NOASSERTION",4,"Linux, macOS, Windows","未说明",{"notes":128,"python":129,"dependencies":130},"该工具核心由纯 C++ 编写，无需 GPU 即可运行。官方提供预编译的二进制文件（x64 架构）。若需自行编译，Linux\u002FmacOS 需安装支持 C++11 的编译器及 CMake 3.5.1+；Windows 需安装 Visual Studio 2017+ 及 CMake 3.15+。另有独立的 Python 包装器包可供使用。开源版本禁止用于任何商业产品，商业用途需购买商业开发许可证。","非必需（核心工具为纯 C++ 编写；如需 Python 支持，可单独安装 opensmile-python 包装器，具体版本要求未在本文档说明）",[131,132,133],"gcc\u002Fg++ 或 Clang (需支持 C++11, Linux\u002FmacOS)","CMake (>=3.5.1 for Linux\u002FmacOS, >=3.15 for Windows)","Visual Studio 2017+ (含 C++ 组件，仅 Windows)",[14,135],"音频",[137,138,139],"machine-learning","feature-extraction","audio","2026-03-27T02:49:30.150509","2026-04-12T02:16:47.499139",[143,148,153,158,163,168,173],{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},30172,"如何在命令行中正确指定配置文件和输入文件的路径？","运行 SMILExtract 时，必须使用绝对路径或相对于 bin 目录的正确相对路径。命令格式如下：\nSMILExtract -C \u003C配置文件完整路径> -I \u003C输入 WAV 文件路径> -O \u003C输出文件路径>\n例如：\nC:\\Users\\HP\\Desktop\\opensmile\\bin>SMILExtract -C config\\mfcc\\MFCC12_0_D_A.conf -I Desktop\\s.wav -O K.csv\n如果报错找不到配置文件，请检查路径是否正确，建议使用绝对路径。","https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues\u002F10",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},30173,"如何将 RTMP 流媒体链接作为输入传递给 openSMILE 进行特征提取？","可以通过在配置文件中将输入组件类型设置为 cFFmpegSource 来直接读取 RTMP 流。具体步骤如下：\n1. 修改配置文件，设置实例类型为 cFFmpegSource：\n[componentInstances:cComponentManager]\ninstance[waveIn].type=cFFmpegSource\n\n[waveIn:cFFmpegSource]\nwriter.dmLevel = wave\nblocksize_sec=1.0\nfilename=\\cm[inputfile(I){test.wav}:name of input file]\nmonoMixdown=1\noutFieldName = pcm\n\n2. 在命令行运行时，将 -I 参数后接 RTMP 链接：\nSMILExtract -C \u003C您的配置文件> -I rtmp:\u002F\u002F您的流地址 ...","https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues\u002F43",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},30174,"遇到 'libm.so.6: version GLIBC_2.27 not found' 错误如何解决？","该错误通常发生在服务器环境的 GLIBC 版本过低（低于 2.27）时。如果您没有权限升级系统库，可以采用以下变通方法：\n下载兼容的 libm.so.6 文件，并将其路径导出到环境变量中，使系统优先加载该文件而不是旧的库文件。\nexport LD_LIBRARY_PATH=\u002Fpath\u002Fto\u002Fnew\u002Flib:$LD_LIBRARY_PATH\n注意：这通常是针对 GPU 服务器等受限环境的临时解决方案。","https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues\u002F47",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},30175,"在 Linux 上运行时报错 'error while loading shared libraries: libmvec.so.1' 怎么办？","这个错误通常是因为编译 openSMILE 时使用的 GCC 版本太旧，不支持所需的 C++11 标准或相关库。\n解决方案：\n1. 升级 GCC 编译器到支持 C++11 的版本（通常需要 GCC 4.8 以上，建议更新版本）。\n2. 重新编译 openSMILE 源代码。\n如果在 CentOS 7 等旧系统上编译遇到 C++ 标准库错误，也表明需要升级编译器工具链。","https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues\u002F27",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},30176,"下载的 macOS 压缩包 (.tar.gz) 无法解压怎么办？","如果官方发布的 .tar.gz 包无法解压，可能是下载过程中文件损坏。\n建议尝试以下步骤：\n1. 重新从 GitHub Release 页面下载文件。\n2. 在 Linux 或 macOS 终端使用标准命令解压：tar zxf filename.tar.gz\n3. 如果仍然失败，可以直接从源代码编译安装，这通常能解决预编译包的环境兼容性问题。","https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues\u002F21",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},30177,"Android 集成时构建失败，提示 'git_version.hpp.in does not exist' 错误如何解决？","在 Android 模板项目中构建时出现此错误，通常是因为缺少版本生成文件或构建环境配置不完整。\n该问题在后续更新中已修复（minor issues resolved）。如果遇到此类构建错误：\n1. 确保您使用的是最新的代码库或已修复的发布版本。\n2. 检查 progsrc\u002Fandroid-template 目录结构是否完整。\n3. 如果问题依旧，建议参考官方文档或使用官方提供的已编译 .aar 文件，而不是自行从模板构建，因为模板项目可能处于非工作状态或需要特定的初始化步骤。","https:\u002F\u002Fgithub.com\u002Faudeering\u002Fopensmile\u002Fissues\u002F6",{"id":174,"question_zh":175,"answer_zh":176,"source_url":147},30178,"为什么提取的特征 CSV 文件中第一列显示为 'unknown'，或者某些配置文件不支持 CSV 输出？","1. 第一列显示 'unknown' 是正常现象，可以忽略，不影响数据使用。\n2. 并非所有配置文件都支持所有输出格式。大多数配置文件支持通过添加 '-csvoutput' 参数（注意参数前有空格）来输出 CSV 格式。\n3. 部分配置文件（如某些 HTK 专用配置）被硬编码为仅生成 HTK 格式输出，即使添加了 '-csvoutput' 参数也可能无效。请尝试更换其他支持 CSV 的配置文件（如标准的 MFCC 配置）。",[178,183,188],{"id":179,"version":180,"summary_zh":181,"released_at":182},214534,"v3.0.2","3.0.2 版本新增了适用于 Mac 上 M1 处理器的编译二进制文件（`opensmile-3.0.2-macos-armv8.zip`），以及适用于树莓派等不同 Linux ARM 架构处理器的二进制文件（`opensmile-3.0.2-linux-armv7.zip`、`opensmile-3.0.2-linux-armv8.zip`）。\n\n## 新增内容\n\n* macOS-armv8 架构的二进制文件\n* Linux-armv7 架构的二进制文件\n* Linux-armv8 架构的二进制文件\n","2023-10-19T14:37:25",{"id":184,"version":185,"summary_zh":186,"released_at":187},214535,"v3.0.1","版本 3.0.1 是一个补丁版本，包含一系列错误修复、小幅改进以及内部重构。\n在该版本中，移除了多个此前已弃用的过时组件。\n\n## 新增\n- eGeMAPSv02 特征集配置，修复了 LLD 输出中 GeMAPS 论文中提到的两个缺失特征。\n\n## 变更\n- 引入了 standard_data_output_no_lld_de.conf.inc 包含文件，使 GeMAPS 配置无需再定义虚假的 lld_de 层级。\n- 移除了 -ffast-math 和 \u002Ffp:fast 编译器标志，以提高不同编译器和系统之间输出结果的可重复性。\n- SMILExtract 默认不再将日志写入文件。\n- 进行了多项内部重构与代码清理。\n\n## 移除\n- 移除了与 SEMAINE 相关的组件和二进制文件。\n- 移除了已废弃的 cJniSink 和 cJniMessageInterface 组件。\n- 移除了数据内存层级中对整数数据的未使用内部支持。\n\n## 修复\n- 修复了在不同线程中同时初始化多个 openSMILE 实例时出现的竞争条件。\n- 修复了 smile_reset 函数中的竞争条件，该问题可能导致在多实例并发使用时函数执行失败。\n- 对条件变量的实现进行了多项修复与优化。\n- 修复了 cExternalSource 和 cExternalAudioSource 中罕见的竞争条件。\n- 修复了当采样格式设置为 32 位浮点时，cWaveSink 写出的 Wave 文件头不正确的问题。\n- cArffSink 现在能够正确转义输出中的特殊字符（例如实例名称）。\n- 修复了一个构建问题，该问题曾导致 Android 模板示例应用无法在 Windows 和 macOS 上成功构建。\n- 其他若干细微的修复与调整。","2022-01-04T14:49:55",{"id":189,"version":190,"summary_zh":191,"released_at":192},214536,"v3.0.0","版本 3.0 是 openSMILE 的第三个主要发布版，包含大量渐进式改进和修复。最显著的变化是引入了全新的 SMILEapi C API 和一个独立的 Python 库。其他变更还包括：使用 CMake 完全重写的构建流程、对 iOS 平台的支持、更新的 Android 集成、FFmpeg 音频源组件、性能和内存使用方面的重大优化、HTML 格式的文档，以及众多其他小的更新、代码重构和问题修复。自版本 3.0 起，openSMILE 的二进制文件和源代码均托管在 GitHub 上。\n\n## 新增\n- 新组件：\n  - cDataPrintSink\n  - cFunctionalModulation（从版本 2.2 中重新引入）\n  - cFFmpegSource\n  - cExternalSource\n  - cExternalAudioSource\n  - cExternalSink\n  - cExternalMessageInterface\n  - cVectorBinaryOperation\n- 新配置文件：\n  - GeMAPS v01b 和 eGeMAPS v01b（修复了数值不稳定性）\n- SMILEapi：C API，并提供 Python 和 C# 的语言绑定。\n- iOS 平台支持及 iOS 示例应用项目。\n- 彩色日志输出。\n- 命令行选项 `-exportHelp`，用于以 JSON 格式导出组件帮助信息，供第三方应用程序使用。\n- 现在支持为环形缓冲区数据内存级别启用 `growDyn` 选项。\n\n## 变更\n- 使用 CMake 替代基于 Autotools 的构建脚本。\n- 使用 Kotlin 和 Gradle 重写了 Android 示例项目。\n- 大幅降低了高帧率数据内存级别的内存占用（例如原始 Wave 数据）。\n- 对组件 cSpecScale 和 cFunctionalModulation 进行了性能优化。\n- 改进了对从外部源异步读取数据的组件的内部支持（例如声卡、网络）。\n- 文档已更新，现以 HTML 格式提供。\n- 进行了多项清理和重构工作。\n\n## 修复\n- 修复了大量 bug，并进行了其他小幅改进。\n\n## 移除\n- 出于稳定性考虑，移除了多线程处理功能。","2020-10-21T15:19:23"]