[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-xid32--SoundMind":3,"tool-xid32--SoundMind":64},[4,18,28,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,27],"语言模型",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[27,15,13,14],{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":24,"last_commit_at":42,"category_tags":43,"status":17},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[27,15,13,14],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":24,"last_commit_at":50,"category_tags":51,"status":17},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[14,27],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":24,"last_commit_at":58,"category_tags":59,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,"2026-04-18T11:00:28",[15,16,60,61,13,62,27,14,63],"视频","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":113,"github_topics":114,"view_count":24,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":119,"updated_at":120,"faqs":121,"releases":152},9732,"xid32\u002FSoundMind","SoundMind","We introduce the Audio Logical Reasoning (ALR) dataset, consisting of 6,446 text-audio annotated samples specifically designed for complex reasoning tasks. Building on this resource, we propose SoundMind, a rule-based reinforcement learning (RL) algorithm tailored to endow audio language models (ALMs) with deep bimodal reasoning abilities.","SoundMind 是一个专为提升音频语言模型逻辑推理能力而设计的开源框架。它主要解决了当前人工智能在处理“听”与“读”结合时的短板：现有的模型往往能识别声音内容，却难以像人类一样基于声音信息进行复杂的逻辑推导和多模态思考。\n\n该项目的核心亮点在于构建了全新的“音频逻辑推理（ALR）数据集”，包含 6000 多个高质量样本，不仅提供音频和文本，还标注了详细的思维链（Chain-of-Thought）。在此基础上，SoundMind 提出了一种基于规则的强化学习算法（SoundMind-RL），通过奖励机制引导模型深度理解音频与文本之间的逻辑关联，从而实现跨模态的深度推理。\n\nSoundMind 非常适合从事多模态大模型研究的研究人员、希望增强模型逻辑能力的开发者，以及关注音频智能前沿技术的工程师使用。需要注意的是，由于训练对算力要求较高（推荐多卡高端 GPU 环境），它更偏向于专业科研与开发场景，而非普通消费者的日常应用工具。作为 EMNLP 2025 的主会口头报告成果，SoundMind 为探索音频领域的复杂推理任务提供了重要的基准数据和训练范式。","# SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models [EMNLP 2025 Main Conference (Oral)]\n\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fblob\u002Fmain\u002FLICENSE) \n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2506.12935-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.12935) \n[![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Dataset-blue)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSoundMind-RL\u002FSoundMindDataset) \n[![Dropbox](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDropbox-Dataset-brightgreen.svg)](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=0) \n\nThis repository is the official implementation of *SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models* (EMNLP 2025). We introduce **SoundMind-RL**, a novel rule-based reinforcement learning framework that empowers large-scale audio-language models with advanced logical reasoning capabilities across both audio and textual modalities. To enable such training, we build the **SoundMind dataset**, an Audio Logical Reasoning (ALR) benchmark comprising 6,446 high-quality samples annotated with chain-of-thought reasoning in both audio and text forms.\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxid32_SoundMind_readme_60e9bf7145b7.png\" alt=\"Task Figure\">\n\u003C\u002Fp>\n\n## Dataset Download\n\nTo download our dataset, please visit this link: [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSoundMind-RL\u002FSoundMindDataset).\n\nAlternatively, you can also download it from [Dropbox](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=0).\n\nRun the following command:\n\n```bash\nwget -c \"https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=1\" -O audio_dataset.zip\n```\n\nThe dataset contains train, test, and validation splits with corresponding text descriptions and metadata stored as JSON files. All annotation files are located in the `dataset-annotation-json` folder in this GitHub.\n\n## Requirements\n\n### Recommended Hardware\n\n8× NVIDIA H800 80GB or 8× NVIDIA H100 80GB GPUs.\n\n### Codebase and Compatibility\n\nOur codebase is based on [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl). If you are already familiar with [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl), you should be able to quickly get started with this repository.\n\n### Environment Setup (Recommended: Anaconda)\n\n- **Python**: Version >= 3.9\n- **CUDA**: Version >= 12.1\n\nFor training and inference engines to utilize better and faster hardware support, CUDA\u002FcuDNN and other dependencies are required, and some of the dependencies are easy to be overridden when installing other packages.\n\nWe need to install the following prerequisites:\n\n- **CUDA**: Version >= 12.4\n- **cuDNN**: Version >= 9.8.0\n\n\n```bash\n# change directory to anywhere you like, in verl source code directory is not recommended\nwget https:\u002F\u002Fdeveloper.download.nvidia.com\u002Fcompute\u002Fcudnn\u002F9.8.0\u002Flocal_installers\u002Fcudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.deb\ndpkg -i cudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.deb\ncp \u002Fvar\u002Fcudnn-local-repo-ubuntu2204-9.8.0\u002Fcudnn-*-keyring.gpg \u002Fusr\u002Fshare\u002Fkeyrings\u002F\napt-get update\napt-get -y install cudnn-cuda-12\n```\n\n\nCreate and activate a new conda environment:\n\n```bash\nconda create -n alr python==3.10\nconda activate alr\n```\n\nInstall verl:\n\n```bash\nbash scripts\u002Finstall_vllm_sglang_mcore.sh\npip install --no-deps -e .\n```\n\n\nPlease make sure that the installed packages are not overridden during the installation of other packages.\n\nThe packages worth checking are:\n\n- **torch** and torch series\n- **vLLM**\n- **SGLang**\n- **pyarrow**\n- **tensordict**\n\n\nFor [Qwen2.5-Omni](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni), we need to update some additional library versions.\n\n\n```bash\npip install transformers==4.52.3\npip install accelerate\npip install qwen-omni-utils[decord] -U\n```\n\n\n## Preprocessing Data\nOur project and code rely on  Audio Logical Reasoning (ALR) dataset.\n\n\n### Generate Parquet Format Dataset\n\n\n- **Option 1: Two modal inputs are used**\n\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr.py\n```\n\n\n- **Option 2: Only texts are used**\n\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr_text.py\n```\n\n\n- **Option 3: Only audio is used**\n\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr_audio.py\n```\n\n## Checkpoint Download\n\nTo download our model checkpoint, please visit this link: [Checkpoint Link](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Ff24wyecnycfu6g6ip10ac\u002Fqwen2_5_omni_logic.zip?rlkey=xlixctyr8cbfpv85arhka0b8c&st=wd5rlh9b&dl=0)\n\nRun the following command:\n\n```bash\nwget -c \"https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Ff24wyecnycfu6g6ip10ac\u002Fqwen2_5_omni_logic.zip?rlkey=xlixctyr8cbfpv85arhka0b8c&st=wd5rlh9b&dl=1\" -O qwen2_5_omni_logic.zip\n```\n\n## RL-Training & Evaluation\n\nIf you don't want to use the pre-trained model we provided, you can use the official version. You can change the model path implementation in download_qwen25omni.py and main_grpo.sh.\n\n\nRun the following command:\n\n```bash\npython download_qwen25omni.py\nbash main_grpo.sh\n```\n\n\n\n## ✏️ Citation\n\nIf you think this project is helpful, please feel free to leave a star⭐️ and cite our paper:\n\n```\n@article{diao2025soundmind,\n  title={SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models},\n  author={Diao, Xingjian and Zhang, Chunhui and Kong, Keyi and Wu, Weiyi and Ma, Chiyu and Ouyang, Zhongyu and Qing, Peijun and Vosoughi, Soroush and Gui, Jiang},\n  journal={arXiv preprint arXiv:2506.12935},\n  year={2025}\n}\n```\n","# SoundMind: 面向音频-语言模型的强化学习激励逻辑推理 [EMNLP 2025 主会场（口头报告）]\n\n[![许可证：MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fblob\u002Fmain\u002FLICENSE) \n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2506.12935-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.12935) \n[![Hugging Face Spaces](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Dataset-blue)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSoundMind-RL\u002FSoundMindDataset) \n[![Dropbox](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDropbox-Dataset-brightgreen.svg)](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=0) \n\n本仓库是论文《SoundMind: 面向音频-语言模型的强化学习激励逻辑推理》（EMNLP 2025）的官方实现。我们提出了 **SoundMind-RL**，一种新颖的基于规则的强化学习框架，能够赋予大规模音频-语言模型在音频和文本两种模态上进行高级逻辑推理的能力。为了支持此类训练，我们构建了 **SoundMind 数据集**，这是一个包含 6,446 个高质量样本的音频逻辑推理（ALR）基准数据集，这些样本同时配有音频和文本形式的思维链注释。\n\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxid32_SoundMind_readme_60e9bf7145b7.png\" alt=\"任务示意图\">\n\u003C\u002Fp>\n\n## 数据集下载\n\n如需下载我们的数据集，请访问以下链接：[Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSoundMind-RL\u002FSoundMindDataset)。\n\n您也可以从 [Dropbox](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=0) 下载。\n\n运行以下命令：\n\n```bash\nwget -c \"https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=1\" -O audio_dataset.zip\n```\n\n该数据集包含训练集、测试集和验证集，并附有相应的文本描述和元数据，存储为 JSON 文件。所有标注文件均位于本 GitHub 仓库的 `dataset-annotation-json` 文件夹中。\n\n## 环境要求\n\n### 推荐硬件配置\n\n8× NVIDIA H800 80GB 或 8× NVIDIA H100 80GB 显卡。\n\n### 代码库与兼容性\n\n我们的代码基于 [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 构建。如果您已经熟悉 [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl)，则可以快速上手本仓库。\n\n### 环境搭建（推荐使用 Anaconda）\n\n- **Python**: 版本 ≥ 3.9\n- **CUDA**: 版本 ≥ 12.1\n\n为了使训练和推理引擎更好地利用硬件加速，需要安装 CUDA\u002FcuDNN 等依赖项，而这些依赖项在安装其他软件包时容易被覆盖。因此，我们需要安装以下先决条件：\n\n- **CUDA**: 版本 ≥ 12.4\n- **cuDNN**: 版本 ≥ 9.8.0\n\n\n```bash\n# 可以切换到任意目录，但不建议在 verl 源码目录下操作\nwget https:\u002F\u002Fdeveloper.download.nvidia.com\u002Fcompute\u002Fcudnn\u002F9.8.0\u002Flocal_installers\u002Fcudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.deb\ndpkg -i cudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.deb\ncp \u002Fvar\u002Fcudnn-local-repo-ubuntu2204-9.8.0\u002Fcudnn-*-keyring.gpg \u002Fusr\u002Fshare\u002Fkeyrings\u002F\napt-get update\napt-get -y install cudnn-cuda-12\n```\n\n\n创建并激活一个新的 conda 环境：\n\n```bash\nconda create -n alr python==3.10\nconda activate alr\n```\n\n安装 verl：\n\n```bash\nbash scripts\u002Finstall_vllm_sglang_mcore.sh\npip install --no-deps -e .\n```\n\n\n请确保在安装其他软件包时不会覆盖已安装的依赖项。需要特别注意检查的包包括：\n\n- **torch** 及其相关系列\n- **vLLM**\n- **SGLang**\n- **pyarrow**\n- **tensordict**\n\n\n对于 [Qwen2.5-Omni](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5-Omni)，我们还需要更新一些额外的库版本。\n\n\n```bash\npip install transformers==4.52.3\npip install accelerate\npip install qwen-omni-utils[decord] -U\n```\n\n\n## 数据预处理\n我们的项目和代码依赖于音频逻辑推理（ALR）数据集。\n\n\n### 生成 Parquet 格式数据集\n\n\n- **选项 1：使用双模态输入**\n\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr.py\n```\n\n\n- **选项 2：仅使用文本**\n\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr_text.py\n```\n\n\n- **选项 3：仅使用音频**\n\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr_audio.py\n```\n\n\n## 模型检查点下载\n\n如需下载我们的模型检查点，请访问以下链接：[检查点链接](https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Ff24wyecnycfu6g6ip10ac\u002Fqwen2_5_omni_logic.zip?rlkey=xlixctyr8cbfpv85arhka0b8c&st=wd5rlh9b&dl=0)\n\n运行以下命令：\n\n```bash\nwget -c \"https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Ff24wyecnycfu6g6ip10ac\u002Fqwen2_5_omni_logic.zip?rlkey=xlixctyr8cbfpv85arhka0b8c&st=wd5rlh9b&dl=1\" -O qwen2_5_omni_logic.zip\n```\n\n\n## 强化学习训练与评估\n\n如果您不想使用我们提供的预训练模型，也可以使用官方版本。只需在 download_qwen25omni.py 和 main_grpo.sh 中修改模型路径即可。\n\n\n运行以下命令：\n\n```bash\npython download_qwen25omni.py\nbash main_grpo.sh\n```\n\n\n\n## ✏️ 引用\n\n如果您认为本项目有所帮助，请随时点赞⭐️ 并引用我们的论文：\n\n```\n@article{diao2025soundmind,\n  title={SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models},\n  author={Diao, Xingjian and Zhang, Chunhui and Kong, Keyi and Wu, Weiyi and Ma, Chiyu and Ouyang, Zhongyu and Qing, Peijun and Vosoughi, Soroush and Gui, Jiang},\n  journal={arXiv preprint arXiv:2506.12935},\n  year={2025}\n}\n```","# SoundMind 快速上手指南\n\nSoundMind 是一个基于规则强化学习（RL）的框架，旨在赋予大规模音语模型（Audio-Language Models）跨模态逻辑推理能力。本项目基于 [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl) 构建，并提供了专用的 **SoundMind 数据集**和训练好的 **Qwen2.5-Omni** 检查点。\n\n## 1. 环境准备\n\n### 系统要求\n- **GPU**: 推荐 8× NVIDIA H800 80GB 或 8× NVIDIA H100 80GB。\n- **操作系统**: Linux (Ubuntu 22.04 推荐)。\n- **Python**: >= 3.9 (推荐 3.10)。\n- **CUDA**: >= 12.4。\n- **cuDNN**: >= 9.8.0。\n\n### 前置依赖安装\n首先安装 CUDA 和 cuDNN 依赖（以 Ubuntu 22.04 为例）：\n\n```bash\nwget https:\u002F\u002Fdeveloper.download.nvidia.com\u002Fcompute\u002Fcudnn\u002F9.8.0\u002Flocal_installers\u002Fcudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.deb\ndpkg -i cudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.deb\ncp \u002Fvar\u002Fcudnn-local-repo-ubuntu2204-9.8.0\u002Fcudnn-*-keyring.gpg \u002Fusr\u002Fshare\u002Fkeyrings\u002F\napt-get update\napt-get -y install cudnn-cuda-12\n```\n\n## 2. 安装步骤\n\n### 创建虚拟环境\n建议使用 Anaconda 创建独立环境：\n\n```bash\nconda create -n alr python==3.10\nconda activate alr\n```\n\n### 安装核心框架 (verl)\n克隆本仓库后，运行以下脚本安装 vLLM、SGLang 和 Megatron-Core 等核心依赖，并安装本项目代码：\n\n```bash\nbash scripts\u002Finstall_vllm_sglang_mcore.sh\npip install --no-deps -e .\n```\n\n> **注意**：安装过程中请确保 `torch`、`vLLM`、`SGLang`、`pyarrow` 和 `tensordict` 等关键包未被其他操作覆盖。\n\n### 安装 Qwen2.5-Omni 特定依赖\n为了支持 Qwen2.5-Omni 模型，需更新以下库：\n\n```bash\npip install transformers==4.52.3\npip install accelerate\npip install qwen-omni-utils[decord] -U\n```\n\n## 3. 基本使用\n\n### 第一步：下载数据集\n本项目依赖 Audio Logical Reasoning (ALR) 数据集。你可以从 Dropbox 下载并解压：\n\n```bash\nwget -c \"https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Firtbrnmk5e0ecvv8fyrum\u002Faudio_dataset.zip?rlkey=p1ebkt9h1bkyjsq3fo2bp667v&st=gxr542e2&dl=1\" -O audio_dataset.zip\nunzip audio_dataset.zip\n```\n*注：标注文件位于仓库内的 `dataset-annotation-json` 文件夹中。*\n\n### 第二步：数据预处理\n根据训练需求生成 Parquet 格式数据集（任选其一）：\n\n**选项 A：使用音频 + 文本双模态输入（推荐）**\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr.py\n```\n\n**选项 B：仅使用文本输入**\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr_text.py\n```\n\n**选项 C：仅使用音频输入**\n```bash\ncd .\u002Fexamples\u002Fdata_preprocess\npython alr_audio.py\n```\n\n### 第三步：下载模型检查点\n下载预训练的 Qwen2.5-Omni 逻辑推理模型：\n\n```bash\nwget -c \"https:\u002F\u002Fwww.dropbox.com\u002Fscl\u002Ffi\u002Ff24wyecnycfu6g6ip10ac\u002Fqwen2_5_omni_logic.zip?rlkey=xlixctyr8cbfpv85arhka0b8c&st=wd5rlh9b&dl=1\" -O qwen2_5_omni_logic.zip\nunzip qwen2_5_omni_logic.zip\n```\n\n### 第四步：运行强化学习训练与评估\n如果你使用的是官方提供的预训练模型，直接运行以下命令即可启动 GRPO 训练流程：\n\n```bash\npython download_qwen25omni.py\nbash main_grpo.sh\n```\n\n*若需使用自定义模型路径，请修改 `download_qwen25omni.py` 和 `main_grpo.sh` 中的模型路径配置。*","某智能客服团队正在开发一款能处理复杂投诉的音频助手，需要系统不仅能“听清”用户语气，还要能根据背景噪音、语速变化和文字描述进行深层逻辑推断。\n\n### 没有 SoundMind 时\n- **逻辑断层**：模型仅能识别字面意思，无法结合背景中的争吵声或急促语调推断用户的真实紧急程度，导致误判优先级。\n- **推理缺失**：面对“因为刚才电话断线所以我要重复三次”这类需要因果关联的语音，模型往往只能机械转录，无法生成连贯的解决思路。\n- **训练低效**：缺乏专门针对音频逻辑推理的高质量标注数据，团队需人工构建少量样本，导致模型在复杂多模态场景下泛化能力极差。\n- **响应僵化**：系统无法执行多步推理（如先判断情绪再分析诉求最后匹配政策），只能给出通用的模板回复，用户体验冰冷且低效。\n\n### 使用 SoundMind 后\n- **深度双模态推理**：SoundMind 利用基于规则的强化学习算法，让模型能同时理解音频特征与文本语义，准确从嘈杂背景中推断出用户隐含的焦虑情绪。\n- **思维链生成**：借助 SoundMind 数据集提供的 6000+ 条思维链标注，模型能像人类一样逐步推导（例如：“听到断线音 -> 理解重复原因 -> 安抚并快速处理”），输出逻辑严密的决策路径。\n- **数据驱动增强**：直接复用专为复杂推理设计的 ALR 数据集进行训练，大幅降低了数据清洗成本，使模型迅速掌握跨模态的逻辑关联能力。\n- **动态策略优化**：通过强化学习激励，模型在面对模糊或多变的语音输入时，能自主调整推理策略，提供更具同理心且符合业务逻辑的个性化回应。\n\nSoundMind 通过引入专用的逻辑推理数据集与强化学习框架，彻底解决了音频语言模型“听得见却想不通”的难题，使其真正具备处理复杂现实任务的双模态智慧。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxid32_SoundMind_eb702317.png","xid32","Xingjian Diao","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fxid32_1139e82a.jpg","Xingjian Diao is a Ph.D. student in Computer Science at Dartmouth College🌲, working on multimodal learning and reasoning.",null,"https:\u002F\u002Fxid32.github.io\u002F","https:\u002F\u002Fgithub.com\u002Fxid32",[83,87],{"name":84,"color":85,"percentage":86},"Python","#3572A5",95.7,{"name":88,"color":89,"percentage":90},"Shell","#89e051",4.3,1108,131,"2026-04-18T13:14:40","MIT",5,"Linux","必需，推荐 8× NVIDIA H800 80GB 或 8× NVIDIA H100 80GB，CUDA >= 12.4","未说明",{"notes":100,"python":101,"dependencies":102},"代码库基于 verl 框架。安装 cuDNN 和 CUDA 时需防止依赖包被覆盖（特别是 torch 系列、vLLM、SGLang 等）。若使用 Qwen2.5-Omni 模型，需额外更新特定的库版本。数据集包含音频和文本模态，需预先处理为 Parquet 格式。","3.9+ (推荐 3.10)",[103,104,105,106,107,108,109,110,111,112],"torch","verl","vLLM","SGLang","transformers==4.52.3","accelerate","qwen-omni-utils","pyarrow","tensordict","cuDNN>=9.8.0",[27,16,63],[115,116,117,118],"audio-language-model","audio-reasoning","dataset","reinforcement-learning","2026-03-27T02:49:30.150509","2026-04-20T04:06:09.611553",[122,127,132,137,142,147],{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},43702,"如何获取 SoundMind 的微调模型检查点（Checkpoints）？","维护者已在 README 中添加了 Dropbox 链接供下载微调后的检查点。此外，团队计划很快设置 Hugging Face 托管以方便访问。请查看项目 README 文件获取最新的下载链接。","https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fissues\u002F5",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},43703,"数据集中的 JSON 元数据文件包含哪些字段，它们如何与音频文件对应？","每个 JSON 条目包含以下主要字段：\n1. `user_content`：描述推理任务的文本提示（包含大前提、小前提、结论及判断指令）。\n2. `answer`：自然语言解释，阐述推理过程并以预测标签（'entailed' 或 'not-entailed'）结尾。\n3. `label`：数值标签，1 代表 'entailed'（蕴含），0 代表 'not-entailed'（不蕴含）。\n4. `id`：示例的唯一标识符。\n\n对应关系：JSON 中的 `id` 字段直接对应 `audio_dataset\u002F{train|dev|test}\u002F` 目录下的文件夹名称（例如 `0001\u002F`）。该文件夹内包含 `question.wav`（用户问题的音频版）等文件。","https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fissues\u002F1",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},43704,"有什么推荐的文本转语音（TTS）模型用于生成音频数据吗？","项目推荐以下几个开源 TTS 模型，它们在生成推理风格的语音方面表现优异：\n1. WhisperSpeech\n2. Spark-TTS\n3. MegaTTS3（论文中使用的模型）\n4. Zonos\n这些模型均能提供高质量的音频输出和灵活性。","https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fissues\u002F3",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},43705,"能否提供一个模型输入和输出的具体文本示例？","以下是数据集中一个完整的输入输出示例：\n\n**输入 (`user_content`, 对应 `question.wav`)**:\n\"让我们找出这些前提和结论之间的逻辑联系。你有两个选择，'entailed' 意味着结论必须基于给定前提为真，而 'not-entailed' 意味着结论不能基于前提为真。\n设定如下：\n大前提：'一项调查显示，78% 患有中耳炎的儿童来自二手烟家庭。研究人员表示，二手烟环境会增加空气中的有害颗粒，包括尼古丁和其他有毒物质。与生活在无烟环境中的儿童相比，生活在二手烟环境中的儿童更可能患中耳炎。'\n小前提：'调查还显示，无烟家庭的比例逐年增加。'\n结论：'医学专家说，父母和其他家庭成员吸烟，它是...\"\n\n**输出**: 模型会生成一段推理过程，最终得出 'entailed' 或 'not-entailed' 的结论。","https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fissues\u002F4",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},43706,"运行代码时遇到 'Unrecognized configuration class Qwen2_5OmniConfig' 错误或 'Only support config type...' 警告怎么办？","这是一个已知问题，目前 veRL 库中的自定义 `OutputForPPO` 代码尚未完全支持 Qwen2.5-Omni 的多模态 Rollout。\n错误信息通常指出仅支持 `qwen2`, `qwen2_5_vl`, `llama` 等配置类型，而不支持 `qwen2_5_omni`。\n当前状态：\n1. 社区用户已确认该问题，指出缺少针对 Qwen2.5-Omni 的专用支持代码（如 `Qwen2_5_OmniCausalLMOutputForPPO`）。\n2. 即使安装了特定版本的 transformers (4.52.3) 和 vllm (0.8.5)，问题依然存在，因为这主要是 veRL 仓库本身的功能缺失，而非版本不匹配。\n建议关注项目更新，等待维护者添加对 Qwen Omni Rollout 的专门支持。","https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fissues\u002F11",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},43707,"下载的模型检查点文件（safetensors）损坏无法加载，报错 'header too large' 怎么办？","部分用户报告从 Dropbox 或 Hugging Face 下载的第一个分片文件（如 `model-00001-of-00005.safetensors`）存在损坏，导致加载时出现 `SafetensorError: Error while deserializing header: header too large` 错误。\n解决方案：\n1. 维护者已确认收到报告，并承诺验证和重新上传检查点文件。\n2. 建议用户重新下载文件，并对比 SHA256 校验值。如果问题依旧，请等待维护者更新修复后的文件链接。","https:\u002F\u002Fgithub.com\u002Fxid32\u002FSoundMind\u002Fissues\u002F12",[]]