[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-X-LANCE--SLAM-LLM":3,"tool-X-LANCE--SLAM-LLM":65},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":10,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,"2026-04-18T11:00:28",[26,51,52,53,14,54,15,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,51,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":80,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":100,"env_os":101,"env_gpu":102,"env_ram":103,"env_deps":104,"category_tags":116,"github_topics":117,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":124,"updated_at":125,"faqs":126,"releases":155},9634,"X-LANCE\u002FSLAM-LLM","SLAM-LLM","A Framework for Speech, Language, Audio, Music Processing with Large Language Model","SLAM-LLM 是一款专为语音、语言、音频及音乐处理打造的深度学习工具包，旨在帮助开发者高效训练定制化的多模态大语言模型。它主要解决了传统框架在处理复杂音频任务时面临的训练门槛高、大规模数据支持不足以及资源消耗过大等痛点，让从实验验证到工业级部署变得更加顺畅。\n\n这款工具特别适合人工智能研究人员、算法工程师以及对多模态交互感兴趣的开发者使用。无论是学术探索还是构建千万小时级的工业应用，SLAM-LLM 都能提供详尽的训练指南和高性能推理模型。\n\n其技术亮点十分突出：不仅完整复现了仅需单阶段训练即可实现音色可控对话的 SLAM-Omni 系统，还针对超大规模数据集进行了深度优化。通过支持动态帧批处理、迭代式数据集加载以及 DeepSpeed 分布式训练，它能显著降低显存占用并将训练时间缩短至原来的四分之一。此外，工具包内置了丰富的任务配方，统一支持自动语音识别、语音翻译等多任务场景，并具备多机多卡分布式推理能力，是构建下一代智能语音交互系统的得力助手。","\u003Cdiv align=\"center\">\n    \u003Ch1>\n    SLAM-LLM\n    \u003C\u002Fh1>\n    \u003Cp>\n    \u003Cb>SLAM-LLM\u003C\u002Fb> is a deep learning toolkit that allows researchers and\ndevelopers to train custom multimodal large language model (MLLM), focusing on \u003Cb>S\u003C\u002Fb>peech, \u003Cb>L\u003C\u002Fb>anguage, \u003Cb>A\u003C\u002Fb>udio, \u003Cb>M\u003C\u002Fb>usic processing. We provide detailed recipes for training and high-performance checkpoints for inference. \u003Cbr>\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FX-LANCE_SLAM-LLM_readme_d042a17b6c57.jpg\" alt=\"SLAM-LLM Logo\" style=\"width: 200px; height: 200px;\">\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003C\u002Fp>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPlatform-linux-lightgrey\" alt=\"version\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCuda-11.8+-orange\" alt=\"version\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-2.01+-brightgreen\" alt=\"python\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-red.svg\" alt=\"mit\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n# Table of Contents\n1. [News](#news)\n2. [Installation](#installation)\n3. [Usage](#usage)\n    - [List of Recipes](#list-of-recipes)\n    - [Configuration Priority](#configuration-priority)\n4. [Features](#features)\n5. [Acknowledge](#acknowledge)\n6. [Citation](#citation)\n\n# News\n- [Update Jan. 15, 2026] The [SLAM-LLM Framework](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.09385v1) was accepted by IEEE Journal of Selected Topics in Signal Processing (JSTSP), where we put the framework design and some unpublished experiments and insights for speech, audio, and music MLLM. \n- [Update Apr. 24, 2025] We have supported [large-scale industrial training](examples\u002Faispeech_asr\u002FREADME.md), suitable for datasets on the order of 100,000 hours. Its main features include:\n  - **Support for multi-task training:** Designed to support tasks such as ASR and ST through a unified data format. \n  - **Dynamic prompt selection:** Supports random selection from multiple prompts. \n  - **Iterative dataset:** Uses an iterative dataset format to reduce startup time for large datasets. \n  - **Deepspeed training:** Supports DeepSpeed training to significantly reduce memory usage.\n  - **Multi-machine multi-GPU inference:** Supports distributed inference across multiple machines and GPUs to reduce evaluation time.\n  - **Dynamic frame batching:** Dynamically combines frames based on audio size rather than using a fixed batch size, significantly reducing training and evaluation time (reduces training time by 3\u002F4 for 100,000 hours of data).\n- [Update Apr. 24, 2025] We have supported the Deepspeed, checkout the instruction #Fine-tuning using Deepspeed at [here](examples\u002Fasr_librispeech\u002FREADME.md).\n- [Update Jan. 22, 2025] 🔥🔥🔥 Full reproduction (including all data preparation, model training, and inference) for [SLAM-Omni](examples\u002Fs2s\u002FREADME.md) has been supported.  \n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FX-LANCE_SLAM-LLM_readme_51040e35c712.png)\n  - SLAM-Omni is a **timbre-controllable** voice interaction system that requires only **single-stage training** and minimal resources to achieve high-quality, end-to-end speech dialogue, supporting multi-turn conversations in both Chinese and English. ([paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15649), [demo](https:\u002F\u002Fslam-omni.github.io))\n  - We have fully reproduced the **training and inference** processes of SLAM-Omni and open-sourced all related training datasets. The provided code framework theoretically supports all codec-based spoken dialogue models. Additionally, we offer the reproduction code for [Mini-Omni](https:\u002F\u002Fgithub.com\u002Fgpt-omni\u002Fmini-omni).\n\n\u003Ctable class=\"center\">\n\u003Ctr>\n    \u003Ctd width=50% style=\"border: none\">\n        \u003Cvideo controls autoplay loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F73597edb-0d66-453b-b10c-8cf8dd3cae18\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=50% style=\"border: none\">\n        \u003Cvideo controls autoplay loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7a797491-0509-4da8-8662-f2107bd8856a\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n- [Update Nov. 17, 2024] Recipes for [LLM-Based Contextual ASR](examples\u002Fcontextual_asr\u002FREADME.md) have been supported. \n- [Update Nov. 5, 2024] Recipes for [speech emotion captioning (SEC)](examples\u002Fsec_emotioncaps\u002FREADME.md) with [emotion2vec](https:\u002F\u002Fgithub.com\u002FddlBoJack\u002Femotion2vec) as the encoder has been supported.\n- [Update Oct. 12, 2024] Recipes for [SLAM-AAC](examples\u002Fslam_aac\u002FREADME.md) with [EAT](https:\u002F\u002Fgithub.com\u002Fcwx-worst-one\u002FEAT) as the encoder have been supported. \n- [Update Sep. 28, 2024] Recipes for [CoT-ST](examples\u002Fst_covost2\u002FREADME.md) have been supported. \n- [Update Sep. 25, 2024] Recipes for [DRCap](examples\u002Fdrcap_zeroshot_aac\u002FREADME.md) have been supported. \n- [Update Jun. 12, 2024] Recipes for [MaLa-ASR](examples\u002Fmala_asr_slidespeech\u002FREADME.md) have been supported. \n- **[CALL FOR EXAMPLE]** We sincerely invite developers and researchers to develop new applications, conduct academic research based on SLAM-LLM, and pull request your examples! We also acknowledge engineering PR (such as improving and speeding up multi-node training). \n- [Update May. 22, 2024] Please join [slack](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fslam-llm\u002Fshared_invite\u002Fzt-2mc0pkhhs-5jjOi8Cwc8R1Xc8IQmykDA) or [WeChat group](.\u002Fdocs\u002FWechat.jpg). We will sync our updates and Q&A here. \n- [Update May. 21, 2024] Recipes for [Spatial Audio Understanding](examples\u002Fseld_spatialsoundqa\u002FREADME.md) have been supported. \n- [Update May. 20, 2024] Recipes for [music caption (MC)](examples\u002Fmc_musiccaps\u002FREADME.md) have been supported. \n- [Update May. 8, 2024] Recipes for [visual speech recognition (VSR)](examples\u002Fvsr_LRS3\u002FREADME.md) have been supported. \n- [Update May. 4, 2024] Recipes for [zero-shot text-to-speech (TTS)](examples\u002Fvallex\u002FREADME.md) have been supported. \n- [Update Apr. 28, 2024] Recipes for [automated audio captioning (AAC)](examples\u002Faac_audiocaps\u002FREADME.md) have been supported. \n- [Update Mar. 31, 2024] Recipes for [automatic speech recognition (ASR)](examples\u002Fasr_librispeech\u002FREADME.md) have been supported. \n\n# Installation\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.git\ncd transformers\ngit checkout tags\u002Fv4.35.2\npip install -e .\ncd ..\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft.git\ncd peft\ngit checkout tags\u002Fv0.6.0\npip install -e .\ncd ..\npip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\ngit clone https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM.git\ncd SLAM-LLM\npip install  -e .\n```\n\nFor some examples, you may need to use `fairseq`, the command line is as follows:\n```\n# you need to install fairseq before SLAM-LLM\ngit clone https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq\ncd fairseq\npip install --editable .\u002F\n```\nWe also provide a docker image for convenience:\n```shell\n# build docker image\ndocker build -t slam-llm:latest .\n\n# run docker image with gpu\ndocker run -it --gpus all --name slam --shm-size=256g slam-llm:latest \u002Fbin\u002Fbash\n```\n# Usage\n## List of Recipes\nWe provide reference implementations of various LLM-based speech, audio, and music tasks: \n- **Speech Task**\n    - Automatic Speech Recognition (ASR)\n        - [SLAM-ASR](examples\u002Fasr_librispeech\u002FREADME.md)\n    \n    - Contextual Automatic Speech Recognition (CASR)\n        - [ Mala-ASR](examples\u002Fmala_asr_slidespeech\u002FREADME.md)\n        - [LLM-Based Contextual ASR](examples\u002Fcontextual_asr\u002FREADME.md)\n    \n    - [Visual Speech Recognition (VSR)](examples\u002Fvsr_LRS3\u002FREADME.md) \n    - Speech-to-Text Translation (S2TT)\n        - [CoT-ST](examples\u002Fst_covost2\u002FREADME.md)\n    \n    - Text-to-Speech (TTS)\n        - [VALL-E-X](examples\u002Fvallex\u002FREADME.md)\n    - [Speech Emotion Captioning (SEC)](examples\u002Fsec_emotioncaps\u002FREADME.md)\n    - Voice Interaction System\n        - [SLAM-Omni](examples\u002Fs2s\u002FREADME.md)\n    \n- **Audio Task**\n    - [Automated Audio Captioning (AAC)](examples\u002Faac_audiocaps\u002FREADME.md)\n      - [SLAM-AAC](examples\u002Fslam_aac\u002FREADME.md)\n      - [DRCap](examples\u002Fdrcap_zeroshot_aac\u002FREADME.md)\n  \n    - Spatial Audio Understanding\n      - [BAT](examples\u002Fseld_spatialsoundqa\u002FREADME.md)\n    \n- **Music Task**\n    - [Music Caption (MC)](examples\u002Fmc_musiccaps\u002FREADME.md)\n\n## Configuration Priority\nWe provide hierarchical configuration inheritance relationships as follows:\n```\ncommand-line (shell file) > Hydra configuration (yaml file) > dataclass configuration (Python file)\n```\n\n# Features\n- Easily extend to new models and tasks.\n- Detailed recipes for training and high-performance checkpoints for inference.\n- Mixed precision training which trains faster with less GPU memory on NVIDIA tensor cores. \n- Multi-GPU training with data and model parallel, supporting [DDP](https:\u002F\u002Fpytorch.org\u002Ftutorials\u002Fintermediate\u002Fddp_tutorial.html), [FSDP](https:\u002F\u002Fpytorch.org\u002Ftutorials\u002Fintermediate\u002FFSDP_tutorial.html) and [deepspeed](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed) (still need to be improved).  \n- Flexible configuration based on [Hydra](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhydra) and [dataclass](https:\u002F\u002Fdocs.python.org\u002F3\u002Flibrary\u002Fdataclasses.html) allowing a combination of code, command-line and file based configuration. \n\n# Acknowledge\n- We borrow code from [Llama-Recipes](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-recipes) for the training process. \n- We borrow code from [Fairseq](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq) for deepspeed configuration. \n- We thank the contributors for providing diverse recipes. \n\n# Citation\nSLAM-LLM Framework:\n```\n@article{ma2026slam,\n  title={SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing},\n  author={Ma, Ziyang and Yang, Guanrou and Chen, Wenxi and Gao, Zhifu and Du, Yexing and Li, Xiquan and Zheng, Zhisheng and Zhu, Haina and others},\n  journal={Proc. IEEE Journal of Selected Topics in Signal Processing},\n  year={2026}\n}\n```\n\n## Speech Task\n\nSLAM-ASR:\n```\n@article{ma2025speech,\n  title={Speech Recognition Meets Large Language Model: Benchmarking, Models, and Exploration},\n  author={Ma, Ziyang and Yang, Guanrou and Yang, Yifan and Gao, Zhifu and Wang, Jiaming and Du, Zhihao and Yu, Fan and Chen, Qian and Zheng, Siqi and Zhang, Shiliang and others},\n  journal={Proc. AAAI},\n  year={2025}\n}\n```\nMala-ASR:\n```\n@article{yang2024mala,\n  title={MaLa-ASR: Multimedia-Assisted LLM-Based ASR},\n  author={Yang, Guanrou and Ma, Ziyang and Yu, Fan and Gao, Zhifu and Zhang, Shiliang and Chen, Xie},\n  journal={Proc. INTERSPEECH},\n  year={2024}\n}\n```\nLLM-Based Contextual ASR:\n```\n@article{yang2024ctc,\n  title={CTC-Assisted LLM-Based Contextual ASR},\n  author={Yang, Guanrou and Ma, Ziyang and Gao, Zhifu and Zhang, Shiliang and Chen, Xie},\n  journal={Proc. SLT},\n  year={2024}\n}\n```\nSLAM-Omni:\n```\n@article{chen2024slam,\n  title={SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training},\n  author={Chen, Wenxi and Ma, Ziyang and Yan, Ruiqi and Liang, Yuzhe and Li, Xiquan and Xu, Ruiyang and Niu, Zhikang and Zhu, Yanqiao and Yang, Yifan and Liu, Zhanxun and others},\n  journal={Proc. ACL},\n  year={2025}\n}\n```\nCoT-ST:\n```\n@article{du2024cot,\n  title={CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought},\n  author={Du, Yexing and Ma, Ziyang and Yang, Yifan and Deng, Keqi and Chen, Xie and Yang, Bo and Xiang, Yang and Liu, Ming and Qin, Bing},\n  journal={Proc. ACL},\n  year={2025}\n}\n```\n\n## Audio Task\nSLAM-AAC:\n```\n@article{chen2025slam,\n  title={SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs},\n  author={Chen, Wenxi and Ma, Ziyang and Li, Xiquan and Xu, Xuenan and Liang, Yuzhe and Zheng, Zhisheng and Yu, Kai and Chen, Xie},\n  journal={Proc. ICASSP},\n  year={2025}\n}\n```\nDRCap:\n```\n@article{li2025drcap,\n  title={DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning},\n  author={Li, Xiquan and Chen, Wenxi and Ma, Ziyang and Xu, Xuenan and Liang, Yuzhe and Zheng, Zhisheng and Kong, Qiuqiang and Chen, Xie},\n  journal={Proc. ICASSP},\n  year={2025}\n}\n```\nBAT:\n```\n@article{zheng2024bat,\n  title={BAT: Learning to Reason about Spatial Sounds with Large Language Models},\n  author={Zheng, Zhisheng and Peng, Puyuan and Ma, Ziyang and Chen, Xie and Choi, Eunsol and Harwath, David},\n  journal={Proc. ICML},\n  year={2024}\n}\n```\n","\u003Cdiv align=\"center\">\n    \u003Ch1>\n    SLAM-LLM\n    \u003C\u002Fh1>\n    \u003Cp>\n    \u003Cb>SLAM-LLM\u003C\u002Fb> 是一个深度学习工具包，允许研究人员和开发者训练自定义的多模态大语言模型（MLLM），专注于\u003Cb>S\u003C\u002Fb>peech、\u003Cb>L\u003C\u002Fb>anguage、\u003Cb>A\u003C\u002Fb>udio、\u003Cb>M\u003C\u002Fb>usic 处理。我们提供了详细的训练配方以及用于推理的高性能检查点。\u003Cbr>\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FX-LANCE_SLAM-LLM_readme_d042a17b6c57.jpg\" alt=\"SLAM-LLM Logo\" style=\"width: 200px; height: 200px;\">\n    \u003C\u002Fp>\n    \u003Cp>\n    \u003C\u002Fp>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPlatform-linux-lightgrey\" alt=\"version\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FCuda-11.8+-orange\" alt=\"version\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch-2.01+-brightgreen\" alt=\"python\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-red.svg\" alt=\"mit\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n# 目录\n1. [新闻](#news)\n2. [安装](#installation)\n3. [使用](#usage)\n    - [配方列表](#list-of-recipes)\n    - [配置优先级](#configuration-priority)\n4. [特性](#features)\n5. [致谢](#acknowledge)\n6. [引用](#citation)\n\n# 新闻\n- [更新于2026年1月15日] 我们的[SLAM-LLM框架](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.09385v1)已被IEEE《信号处理精选主题期刊》（JSTSP）接收，其中我们详细介绍了该框架的设计以及一些未发表的关于语音、音频和音乐MLLM的实验与见解。\n- [更新于2025年4月24日] 我们现已支持[大规模工业级训练](examples\u002Faispeech_asr\u002FREADME.md)，适用于约10万小时规模的数据集。其主要特点包括：\n  - **多任务训练支持：** 通过统一的数据格式，支持ASR和ST等多种任务。\n  - **动态提示选择：** 支持从多个提示中随机选取。\n  - **迭代数据集：** 使用迭代数据集格式，以减少大型数据集的启动时间。\n  - **DeepSpeed训练：** 支持DeepSpeed训练，显著降低内存占用。\n  - **多机多GPU推理：** 支持跨多台机器和多块GPU的分布式推理，从而缩短评估时间。\n  - **动态帧批处理：** 根据音频大小动态组合帧，而非采用固定批大小，大幅缩短训练和评估时间（对于10万小时的数据，可将训练时间缩短四分之三）。\n- [更新于2025年4月24日] 我们已支持DeepSpeed训练，请参阅[此处](examples\u002Fasr_librispeech\u002FREADME.md)的“使用DeepSpeed进行微调”说明。\n- [更新于2025年1月22日] 🔥🔥🔥 已完全复现了[SLAM-Omni](examples\u002Fs2s\u002FREADME.md)的整个流程（包括所有数据准备、模型训练和推理）。\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FX-LANCE_SLAM-LLM_readme_51040e35c712.png)\n  - SLAM-Omni是一个**音色可控**的语音交互系统，仅需**单阶段训练**且资源消耗极低，即可实现高质量的端到端语音对话，支持中英文多轮对话。（[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.15649), [演示](https:\u002F\u002Fslam-omni.github.io))\n  - 我们已完整复现了SLAM-Omni的**训练和推理**过程，并开源了所有相关训练数据集。提供的代码框架理论上支持所有基于编解码器的语音对话模型。此外，我们还提供了[Mini-Omni](https:\u002F\u002Fgithub.com\u002Fgpt-omni\u002Fmini-omni)的复现代码。\n\n\u003Ctable class=\"center\">\n\u003Ctr>\n    \u003Ctd width=50% style=\"border: none\">\n        \u003Cvideo controls autoplay loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F73597edb-0d66-453b-b10c-8cf8dd3cae18\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n    \u003Ctd width=50% style=\"border: none\">\n        \u003Cvideo controls autoplay loop src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F7a797491-0509-4da8-8662-f2107bd8856a\" muted=\"false\">\u003C\u002Fvideo>\n    \u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n- [更新于2024年11月17日] 已支持[基于LLM的情境感知ASR](examples\u002Fcontextual_asr\u002FREADME.md)的配方。\n- [更新于2024年11月5日] 已支持使用[emotion2vec](https:\u002F\u002Fgithub.com\u002FddlBoJack\u002Femotion2vec)作为编码器的[语音情感字幕生成（SEC）](examples\u002Fsec_emotioncaps\u002FREADME.md)配方。\n- [更新于2024年10月12日] 已支持使用[EAT](https:\u002F\u002Fgithub.com\u002Fcwx-worst-one\u002FEAT)作为编码器的[SLAM-AAC](examples\u002Fslam_aac\u002FREADME.md)配方。\n- [更新于2024年9月28日] 已支持[CoT-ST](examples\u002Fst_covost2\u002FREADME.md)的配方。\n- [更新于2024年9月25日] 已支持[DRCap](examples\u002Fdrcap_zeroshot_aac\u002FREADME.md)的配方。\n- [更新于2024年6月12日] 已支持[MaLa-ASR](examples\u002Fmala_asr_slidespeech\u002FREADME.md)的配方。\n- **【征集示例】** 我们诚挚邀请开发者和研究人员基于SLAM-LLM开发新应用、开展学术研究，并提交您的示例！我们也欢迎工程相关的PR（例如改进和加速多节点训练）。  \n- [更新于2024年5月22日] 请加入我们的[Slack群组](https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fslam-llm\u002Fshared_invite\u002Fzt-2mc0pkhhs-5jjOi8Cwc8R1Xc8IQmykDA)或[微信交流群](.\u002Fdocs\u002FWechat.jpg)。我们将在此同步最新动态及答疑信息。\n- [更新于2024年5月21日] 已支持[空间音频理解](examples\u002Fseld_spatialsoundqa\u002FREADME.md)的配方。\n- [更新于2024年5月20日] 已支持[音乐字幕生成（MC）](examples\u002Fmc_musiccaps\u002FREADME.md)的配方。\n- [更新于2024年5月8日] 已支持[视觉语音识别（VSR）](examples\u002Fvsr_LRS3\u002FREADME.md)的配方。\n- [更新于2024年5月4日] 已支持[零样本文本转语音（TTS）](examples\u002Fvallex\u002FREADME.md)的配方。\n- [更新于2024年4月28日] 已支持[自动音频字幕生成（AAC）](examples\u002Faac_audiocaps\u002FREADME.md)的配方。\n- [更新于2024年3月31日] 已支持[自动语音识别（ASR）](examples\u002Fasr_librispeech\u002FREADME.md)的配方。\n\n# 安装\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.git\ncd transformers\ngit checkout tags\u002Fv4.35.2\npip install -e .\ncd ..\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft.git\ncd peft\ngit checkout tags\u002Fv0.6.0\npip install -e .\ncd ..\npip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\ngit clone https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM.git\ncd SLAM-LLM\npip install  -e .\n```\n\n对于部分示例，您可能需要使用`fairseq`，命令如下：\n```\n# 在安装SLAM-LLM之前，需先安装fairseq\ngit clone https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq\ncd fairseq\npip install --editable .\u002F\n```\n我们还提供了一个方便的Docker镜像：\n```shell\n# 构建Docker镜像\ndocker build -t slam-llm:latest .\n\n# 使用GPU运行Docker镜像\ndocker run -it --gpus all --name slam --shm-size=256g slam-llm:latest \u002Fbin\u002Fbash\n```\n# 使用\n\n## 食谱列表\n我们提供了多种基于大语言模型的语音、音频和音乐任务的参考实现：\n- **语音任务**\n    - 自动语音识别 (ASR)\n        - [SLAM-ASR](examples\u002Fasr_librispeech\u002FREADME.md)\n    \n    - 上下文自动语音识别 (CASR)\n        - [ Mala-ASR](examples\u002Fmala_asr_slidespeech\u002FREADME.md)\n        - [基于大语言模型的上下文ASR](examples\u002Fcontextual_asr\u002FREADME.md)\n    \n    - [视觉语音识别 (VSR)](examples\u002Fvsr_LRS3\u002FREADME.md) \n    - 语音到文本翻译 (S2TT)\n        - [CoT-ST](examples\u002Fst_covost2\u002FREADME.md)\n    \n    - 文本到语音 (TTS)\n        - [VALL-E-X](examples\u002Fvallex\u002FREADME.md)\n    - [语音情感字幕生成 (SEC)](examples\u002Fsec_emotioncaps\u002FREADME.md)\n    - 语音交互系统\n        - [SLAM-Omni](examples\u002Fs2s\u002FREADME.md)\n    \n- **音频任务**\n    - [自动化音频字幕生成 (AAC)](examples\u002Faac_audiocaps\u002FREADME.md)\n      - [SLAM-AAC](examples\u002Fslam_aac\u002FREADME.md)\n      - [DRCap](examples\u002Fdrcap_zeroshot_aac\u002FREADME.md)\n  \n    - 空间音频理解\n      - [BAT](examples\u002Fseld_spatialsoundqa\u002FREADME.md)\n    \n- **音乐任务**\n    - [音乐字幕生成 (MC)](examples\u002Fmc_musiccaps\u002FREADME.md)\n\n## 配置优先级\n我们提供了如下层次化的配置继承关系：\n```\n命令行（shell文件） > Hydra配置（yaml文件） > dataclass配置（Python文件）\n```\n\n# 特性\n- 易于扩展到新模型和新任务。\n- 提供详细的训练食谱和高性能推理检查点。\n- 支持混合精度训练，在NVIDIA Tensor Core上以更少的显存更快地训练。\n- 多GPU训练支持数据并行和模型并行，兼容[DDP](https:\u002F\u002Fpytorch.org\u002Ftutorials\u002Fintermediate\u002Fddp_tutorial.html)、[FSDP](https:\u002F\u002Fpytorch.org\u002Ftutorials\u002Fintermediate\u002FFSDP_tutorial.html)和[deepspeed](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)（仍在完善中）。\n- 基于[Hydra](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fhydra)和[dataclass](https:\u002F\u002Fdocs.python.org\u002F3\u002Flibrary\u002Fdataclasses.html)的灵活配置，允许代码、命令行和文件配置的组合。\n\n# 致谢\n- 我们借鉴了[Llama-Recipes](https:\u002F\u002Fgithub.com\u002Fmeta-llama\u002Fllama-recipes)中的训练流程代码。\n- 我们借鉴了[Fairseq](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Ffairseq)中的deepspeed配置代码。\n- 感谢各位贡献者提供的多样化食谱。\n\n# 引用\nSLAM-LLM框架：\n```\n@article{ma2026slam,\n  title={SLAM-LLM: 一种模块化、开源的多模态大语言模型框架及语音、语言、音频和音乐处理的最佳实践},\n  author={Ma, Ziyang and Yang, Guanrou and Chen, Wenxi and Gao, Zhifu and Du, Yexing and Li, Xiquan and Zheng, Zhisheng and Zhu, Haina et al.},\n  journal={IEEE信号处理专题期刊},\n  year={2026}\n}\n```\n\n## 语音任务\n\nSLAM-ASR：\n```\n@article{ma2025speech,\n  title={语音识别与大语言模型的结合：基准测试、模型与探索},\n  author={Ma, Ziyang and Yang, Guanrou and Yang, Yifan and Gao, Zhifu and Wang, Jiaming and Du, Zhihao and Yu, Fan and Chen, Qian and Zheng, Siqi and Zhang, Shiliang et al.},\n  journal={AAAI会议论文集},\n  year={2025}\n}\n```\nMala-ASR：\n```\n@article{yang2024mala,\n  title={MaLa-ASR：多媒体辅助的大语言模型ASR},\n  author={Yang, Guanrou and Ma, Ziyang and Yu, Fan and Gao, Zhifu and Zhang, Shiliang and Chen, Xie},\n  journal={INTERSPEECH会议论文集},\n  year={2024}\n}\n```\n基于大语言模型的上下文ASR：\n```\n@article{yang2024ctc,\n  title={CTC辅助的大语言模型上下文ASR},\n  author={Yang, Guanrou and Ma, Ziyang and Gao, Zhifu and Zhang, Shiliang and Chen, Xie},\n  journal={SLT会议论文集},\n  year={2024}\n}\n```\nSLAM-Omni：\n```\n@article{chen2024slam,\n  title={SLAM-Omni：单阶段训练的音色可控语音交互系统},\n  author={Chen, Wenxi and Ma, Ziyang and Yan, Ruiqi and Liang, Yuzhe and Li, Xiquan and Xu, Ruiyang and Niu, Zhikang and Zhu, Yanqiao and Yang, Yifan and Liu, Zhanxun et al.},\n  journal={ACL会议论文集},\n  year={2025}\n}\n```\nCoT-ST：\n```\n@article{du2024cot,\n  title={CoT-ST：通过多模态思维链增强大语言模型语音翻译},\n  author={Du, Yexing and Ma, Ziyang and Yang, Yifan and Deng, Keqi and Chen, Xie and Yang, Bo and Xiang, Yang and Liu, Ming and Qin, Bing},\n  journal={ACL会议论文集},\n  year={2025}\n}\n```\n\n## 音频任务\nSLAM-AAC：\n```\n@article{chen2025slam,\n  title={SLAM-AAC：利用释义增强和CLAP精炼通过大语言模型提升音频字幕生成},\n  author={Chen, Wenxi and Ma, Ziyang and Li, Xiquan and Xu, Xuenan and Liang, Yuzhe and Zheng, Zhisheng and Yu, Kai and Chen, Xie},\n  journal={ICASSP会议论文集},\n  year={2025}\n}\n```\nDRCap：\n```\n@article{li2025drcap,\n  title={DRCap：通过检索增强生成解码CLAP潜在表示实现零样本音频字幕生成},\n  author={Li, Xiquan and Chen, Wenxi and Ma, Ziyang and Xu, Xuenan and Liang, Yuzhe and Zheng, Zhisheng and Kong, Qiuqiang and Chen, Xie},\n  journal={ICASSP会议论文集},\n  year={2025}\n}\n```\nBAT：\n```\n@article{zheng2024bat,\n  title={BAT：利用大语言模型学习空间声音推理},\n  author={Zheng, Zhisheng and Peng, Puyuan and Ma, Ziyang and Chen, Xie and Choi, Eunsol and Harwath, David},\n  journal={ICML会议论文集},\n  year={2024}\n}\n```","# SLAM-LLM 快速上手指南\n\nSLAM-LLM 是一个专注于**语音 (Speech)、语言 (Language)、音频 (Audio) 和音乐 (Music)** 处理的多模态大语言模型 (MLLM) 深度学习工具包。它提供了详细的训练配方 (Recipes) 和高性能的推理检查点，支持从自动语音识别 (ASR) 到端到端语音对话系统 (如 SLAM-Omni) 等多种任务。\n\n## 1. 环境准备\n\n在开始安装之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux\n*   **GPU 驱动**: 支持 CUDA 11.8 或更高版本\n*   **Python**: 建议 Python 3.8+\n*   **PyTorch**: 2.0.1+\n*   **显存要求**: 根据具体任务不同，建议使用具备较大显存的 NVIDIA GPU（支持 Tensor Core 以加速混合精度训练）。\n\n## 2. 安装步骤\n\nSLAM-LLM 依赖特定版本的 `transformers` 和 `peft`，请严格按照以下顺序执行安装命令。\n\n### 步骤一：安装核心依赖\n\n```bash\n# 克隆并安装指定版本的 transformers\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers.git\ncd transformers\ngit checkout tags\u002Fv4.35.2\npip install -e .\ncd ..\n\n# 克隆并安装指定版本的 peft\ngit clone https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft.git\ncd peft\ngit checkout tags\u002Fv0.6.0\npip install -e .\ncd ..\n\n# 安装 PyTorch (CUDA 11.8 版本)\n# 国内用户推荐使用清华源或阿里源加速下载\npip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 步骤二：安装 SLAM-LLM\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FddlBoJack\u002FSLAM-LLM.git\ncd SLAM-LLM\npip install -e .\n```\n\n### 可选：安装 Fairseq\n部分示例（如某些 ASR 任务）需要 `fairseq`，如需使用请在安装 SLAM-LLM **之前**执行：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq\ncd fairseq\npip install --editable .\u002F\ncd ..\n```\n\n### 可选：使用 Docker\n为方便环境部署，项目提供了 Docker 镜像构建方案：\n\n```bash\n# 构建镜像\ndocker build -t slam-llm:latest .\n\n# 运行容器（启用 GPU 支持）\ndocker run -it --gpus all --name slam --shm-size=256g slam-llm:latest \u002Fbin\u002Fbash\n```\n\n## 3. 基本使用\n\nSLAM-LLM 采用基于 **Hydra** 的层级配置系统，支持通过命令行、YAML 文件或 Python dataclass 进行配置。配置优先级为：`命令行 > Hydra YAML > Python Dataclass`。\n\n### 支持的任务列表\n项目内置了多种任务的训练与推理配方（Recipes），主要包括：\n\n*   **语音任务**:\n    *   自动语音识别 (ASR): `SLAM-ASR`, `Mala-ASR`, `Contextual ASR`\n    *   视觉语音识别 (VSR)\n    *   语音翻译 (S2TT): `CoT-ST`\n    *   语音合成 (TTS): `VALL-E-X`\n    *   语音情感描述 (SEC)\n    *   端到端语音交互: `SLAM-Omni` (支持音色控制、多轮对话)\n*   **音频任务**:\n    *   自动音频描述 (AAC): `SLAM-AAC`, `DRCap`\n    *   空间音频理解\n*   **音乐任务**:\n    *   音乐描述 (MC)\n\n### 快速启动示例\n\n具体的训练和推理命令请参考各任务对应的 `examples` 目录下的 README 文档。以下以 **LibriSpeech ASR** 任务为例展示典型的运行逻辑：\n\n1.  **查找配置文件**:\n    进入 `examples\u002Fasr_librispeech\u002F` 目录，查看提供的 shell 脚本或 yaml 配置。\n\n2.  **执行训练**:\n    通常通过运行提供的 shell 脚本来启动训练，脚本内部会调用主程序并加载相应的 Hydra 配置。\n    \n    ```bash\n    # 示例：进入具体任务目录并运行训练脚本\n    cd examples\u002Fasr_librispeech\n    bash run_train.sh \n    ```\n    *(注：实际运行时请根据 `run_train.sh` 中的内容调整数据路径和超参数)*\n\n3.  **执行推理**:\n    使用训练好的 checkpoint 进行推理，同样通过指定配置路径实现。\n\n    ```bash\n    # 示例：运行推理脚本\n    bash run_inference.sh\n    ```\n\n### 高级特性\n*   **大规模训练**: 支持 DeepSpeed 以减少显存占用，适合 10 万小时级数据集。\n*   **动态帧批处理 (Dynamic Frame Batching)**: 根据音频长度动态组合批次，显著减少训练时间。\n*   **多机多卡**: 支持 DDP、FSDP 及 DeepSpeed 分布式训练与推理。\n\n更多详细用法、数据准备流程及模型复现细节，请访问 GitHub 仓库中对应任务的 `README.md` 文件。","某智能客服团队正致力于构建一个支持中英双语、能识别用户情绪并控制回复音色的端到端语音对话系统，以替代传统的“语音转文字 + 文本大模型 + 文字转语音”串联架构。\n\n### 没有 SLAM-LLM 时\n- **流程割裂且延迟高**：需要分别维护 ASR、LLM 和 TTS 三个独立模型，数据在模块间反复转换，导致响应延迟严重，无法实现流畅的多轮实时对话。\n- **音色控制极其困难**：若想实现根据用户情绪动态调整回复音色（如安慰时用温柔声线），需额外训练复杂的后处理模块，开发周期长达数月。\n- **训练资源消耗巨大**：面对十万小时级的工业级语音数据，传统固定批次（Batch Size）训练方式显存占用极高，且启动缓慢，普通算力集群难以承载。\n- **多任务协同成本高**：语音识别（ASR）与语音翻译（ST）等任务需要维护多套数据格式和代码库，迭代更新时极易出现兼容性问题。\n\n### 使用 SLAM-LLM 后\n- **端到端单阶段训练**：利用 SLAM-LLM 复现 SLAM-Omni 架构，仅需单阶段训练即可构建高质量的端到端对话系统，大幅降低延迟，实现自然的中英多轮交互。\n- **原生音色可控能力**：直接调用框架内置的音色控制机制，无需额外开发即可让模型根据语境自动切换说话风格，显著提升了用户体验。\n- **高效处理海量数据**：借助动态帧批处理（Dynamic Frame Batching）和 DeepSpeed 支持，训练十万小时数据的时间缩短了 75%，显存占用显著降低，使大规模训练在有限算力下成为可能。\n- **统一多任务框架**：通过统一的数据格式支持 ASR、ST 等多任务混合训练，一套代码即可管理所有语音语言任务，研发效率提升数倍。\n\nSLAM-LLM 将原本繁琐割裂的语音 AI 开发流程整合为高效统一的端到端解决方案，让开发者能以更低成本快速落地具备情感交互能力的智能语音应用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FX-LANCE_SLAM-LLM_d042a17b.jpg","X-LANCE","SJTU Cross Media Language Intelligence Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FX-LANCE_f7663981.png","",null,"https:\u002F\u002Fx-lance.sjtu.edu.cn\u002F","https:\u002F\u002Fgithub.com\u002FX-LANCE",[84,88,92],{"name":85,"color":86,"percentage":87},"Python","#3572A5",99.1,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0.7,{"name":93,"color":94,"percentage":95},"Dockerfile","#384d54",0.1,1022,112,"2026-04-19T01:08:40","MIT",4,"Linux","必需 NVIDIA GPU，支持 CUDA 11.8+，显存需求视任务而定（支持 DeepSpeed 以降低显存占用，支持多机多卡分布式训练\u002F推理）","未说明（大规模工业级训练建议大内存，Docker 运行示例中设置共享内存为 256GB）",{"notes":105,"python":106,"dependencies":107},"1. 官方明确仅提供 Linux 平台支持徽章。2. 必须严格安装指定版本的 transformers (v4.35.2) 和 peft (v0.6.2)，而非最新版。3. 提供官方 Docker 镜像以简化环境配置，运行容器时建议分配较大的共享内存（如 256GB）。4. 框架支持动态帧批处理（Dynamic frame batching）和 DeepSpeed，可显著降低大规模数据集（如 10 万小时）训练的显存和时间消耗。5. 部分功能（如 ASR 相关示例）可能需要额外安装 fairseq 库。","未说明（需兼容 PyTorch 2.0.1）",[108,109,110,111,112,113,114,115],"torch==2.0.1","torchvision==0.15.2","torchaudio==2.0.2","transformers==4.35.2","peft==0.6.0","fairseq (可选，部分示例需要)","hydra-core","deepspeed (可选，用于大规模训练)",[55,15,54],[118,119,120,121,122,123],"audio-processing","large-language-model","multimodal-large-language-models","music-processing","peft","speech-processing","2026-03-27T02:49:30.150509","2026-04-20T04:06:12.525180",[127,132,137,142,147,151],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},43264,"训练时出现 loss: nan 和 acc: 0.0 怎么办？","这通常是因为使用了 fp16 精度导致数值溢出。Qwen 等模型是使用 bf16 训练的，某些算子在 fp16 下容易溢出。解决方法是将配置中的 use_fp16 设置为 false（即使用 bf16 或 fp32）。注意：关闭 fp16 后训练速度可能会变慢，但能保证数值稳定性。","https:\u002F\u002Fgithub.com\u002FX-LANCE\u002FSLAM-LLM\u002Fissues\u002F125",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},43265,"安装时遇到 Hydra 任务类型不匹配的 AssertionError 错误如何解决？","这是版本冲突问题。hydra-core 的高版本（如 1.3.2）虽然兼容低版本，但安装顺序至关重要。请严格按照以下步骤操作：首先安装 fairseq 库，然后再安装 SLAM-LLM。这样可以确保 hydra-core 版本正确（应为 1.3.2），从而解决任务字典推断失败的问题。","https:\u002F\u002Fgithub.com\u002FX-LANCE\u002FSLAM-LLM\u002Fissues\u002F97",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},43266,"微调后模型输出拒绝回答（如“我是 AI 无法转录”）或重复循环单词怎么办？","这是指令遵循能力不足导致的。建议采取以下措施：\n1. 对于无语音音频，使用 \u003CNO_SPEECH> prompt 并结合 Musan 数据集进行训练，以控制输出格式。\n2. 在后处理阶段检查输出中是否包含特定标签（如全大写的标签），如果存在则移除意外输出。\n3. 确保训练数据中包含足够的指令遵循样本，防止模型退化到预训练时的拒绝模式。","https:\u002F\u002Fgithub.com\u002FX-LANCE\u002FSLAM-LLM\u002Fissues\u002F113",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},43267,"模型的输入数据具体是什么格式？","输入数据由音频和对应的文本组成。具体处理流程是：首先使用 VAD（语音活动检测）对所有视频中的音频进行分段，然后利用 ASR 系统为每个分段生成候选转录文本，最终得到音频 - 文本对（audio\u002Ftext segments）作为模型输入。","https:\u002F\u002Fgithub.com\u002FX-LANCE\u002FSLAM-LLM\u002Fissues\u002F115",{"id":148,"question_zh":149,"answer_zh":150,"source_url":131},43268,"替换 LLM  backbone（如换成 Qwen2.5）后训练不稳定有哪些注意事项？","替换模型后最常见的问题是精度不匹配导致的梯度爆炸。例如 Qwen 系列模型原生支持 bf16，若强制使用 fp16 训练极易导致 loss 变为 nan。务必检查新模型的推荐训练精度，并在配置文件中显式禁用 fp16（use_fp16=false），同时可能需要调整学习率以适应新模型的收敛特性。",{"id":152,"question_zh":153,"answer_zh":154,"source_url":141},43269,"如何处理音频中没有语音或语音极少的情况？","可以通过在训练数据中加入带有 \u003CNO_SPEECH> 标签的样本（如 Musan 数据集）来专门训练模型识别静音或非语音片段。在推理阶段，可以检测输出中是否包含该特定标签，如果检测到，则直接判定为无语音内容，避免模型产生胡言乱语或重复输出。",[]]