[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ABexit--ASR-LLM-TTS":3,"tool-ABexit--ASR-LLM-TTS":65},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159267,2,"2026-04-17T11:29:14",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":10,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,"2026-04-10T11:13:16",[26,51,52,53,14,54,15,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,51,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":82,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":97,"env_os":98,"env_gpu":99,"env_ram":100,"env_deps":101,"category_tags":115,"github_topics":82,"view_count":10,"oss_zip_url":82,"oss_zip_packed_at":82,"status":16,"created_at":116,"updated_at":117,"faqs":118,"releases":154},8643,"ABexit\u002FASR-LLM-TTS","ASR-LLM-TTS","This is a speech interaction system built on an open-source model, integrating ASR, LLM, and TTS in sequence. The ASR model is SenceVoice, the LLM models are QWen2.5-0.5B\u002F1.5B, and there are three TTS models: CosyVoice, Edge-TTS, and pyttsx3","ASR-LLM-TTS 是一个基于开源模型构建的全流程语音交互系统，旨在让计算机像真人一样“听、想、说”。它串联了阿里 SenseVoice（语音识别）、通义千问 Qwen2.5（大语言模型）以及 CosyVoice\u002FEdge-TTS\u002Fpyttsx3（语音合成）三大核心组件，实现了从语音输入、智能理解到语音输出的完整闭环。\n\n这套方案主要解决了开发者在搭建本地化语音助手时，面临的多模型整合困难、实时性差以及依赖复杂环境等痛点。通过提供详细的配置教程和模块化脚本，用户可快速部署支持实时打断、声纹识别（基于 CAM++ 模型）、自定义唤醒词及多轮对话记忆的高级交互应用。此外，它还支持切换至 Qwen2-VL 模型，拓展出能处理图片与视频的多模态交互能力。\n\nASR-LLM-TTS 特别适合有一定 Python 基础的开发者、AI 研究人员或技术爱好者使用。无论是希望低成本构建私有化智能助手，还是想深入研究语音与大模型结合的应用场景，都能从中获得灵活且高效的解决方案。项目社区活跃，持续更新，让前沿的语音交互技术变得触手可及。","# 环境配置详细教程 [B站](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1HucueQEJo\u002F)\n\n0. anaconda\\ffmpeg安装\n```\n    网上很多教程，自行搜索\n```\n\n```\n    SenseVoiceSmall模型下载：\n        自动下载：设置215行 model_dir = \"iic\u002FSenseVoiceSmall\"\n        手动下载：https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002FSenseVoiceSmall\u002Ffiles\n    \n    QWen模型下载：\n        自动下载：设置220行 model_name = \"Qwen\u002FQwen2.5-1.5B-Instruct\"，开启科学上网，可从huggingface自动下载\n        手动下载：https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002F 搜索QWen，结果中下载显存可支持模型\n```\n\n1. 创建虚拟环境\n```\n    conda create -n chatAudio python=3.10\n    conda activate chatAudio\n```\n2. 安装pytorch+cuda版本，本地测试2.0以上版本均可，这里安装torch=2.3.1+cuda11.8\n```\n    pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n    其它适合自己电脑的torch+cuda版本可在torch官网查找\n    https:\u002F\u002Fpytorch.org\u002Fget-started\u002Fprevious-versions\u002F\n```\n\n3. 简易版本安装，不使用cosyvoice时依赖项较少\n```\n    pip install edge-tts==6.1.17 funasr==1.1.12 ffmpeg==1.4 opencv-python==4.10.0.84 transformers==4.45.2 webrtcvad==2.0.10 qwen-vl-utils==0.0.8 pygame==2.6.1 langid==1.1.6 langdetect==1.0.9 accelerate==0.33.0 PyAudio==0.2.14\n\n    可执行验证：\n    python 13_SenceVoice_QWen2.5_edgeTTS_realTime.py\n```\n\n至此，不调用cosyvoice作为合成的交互可成功调用了。\n\n4. cosyvoice依赖库\n```\n    大家反馈较多pynini、wetext安装方法：\n    conda install -c conda-forge pynini=2.1.6\n    pip install WeTextProcessing --no-deps\n```\n\n5. cosyvoice其它依赖项安装（如遇到权限问题导致安装失败，以管理员形式打开终端）\n```\n   pip install HyperPyYAML==1.2.2 modelscope==1.15.0 onnxruntime==1.19.2 openai-whisper==20231117 importlib_resources==6.4.5 sounddevice==0.5.1 matcha-tts==0.0.7.0\n\n   可执行验证：\n    python 10_SenceVoice_QWen2.5_cosyVoice.py\n```\n\n# :sparkles: 241130-updata\n\n## 新增声纹识别功能\n\n设置固定声纹注册语音存储目录，如目录为空则自动进入声纹注册模式。默认注册语音时长大于3秒，可自定义，一般而言时长越长，声纹效果越稳定。\n声纹模型采用阿里开源的CAM++，其采用3D-Speaker中文数据训练，符合中文对话需求\n\n## 新增自由定义唤醒词功能\n\n使用SenceVoice的语音识别能力实现，将语音识别的汉字转为拼音进行匹配。将唤醒词\u002F指令词设置为中文对应拼音，可自由定制。15.0_SenceVoice_kws_CAM++.py中默认为'ni hao xiao qian'，15.1_SenceVoice_kws_CAM++.py中默认为'zhan qi lai'[暗影君王实在太cool辣]\n\n## 新增对话历史内容记忆功能\n\n通过建立user、system历史队列实现。开启新一轮对话时，首先获取历史记忆，而后拼接新的输入指令。可自由定义最大历史长度，默认为512。\n\n对应脚本：\n\n无历史记忆：15.0_SenceVoice_kws_CAM++.py\n\n有历史记忆：15.1_SenceVoice_kws_CAM++.py\n\n[演示demo，B站] (https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Q6zpYpEgv)\n\nHave fun! 😊\n\n# :sparkles: 241123-updata\n\n## 更新单模态自由打断语音交互\n\n使用webrtcvad进行实时vad检测，设置一个检测时间段=0.5s，有效语音激活率=40%，每个检测chunk=20ms。也就是说500ms\u002F20ms=25个检测段，如果25*0.4=10个片段激活，则该0.5秒为有效音，加入缓存。\n\n可改进点：使用模型VAD，去除噪声干扰\n\n13_SenceVoice_QWen2.5_edgeTTS_realTime.py\n\n## 音视频多模态语音交互\n\n基于以上逻辑，替换QWen2.5-1.5B模型为QWen2-VL-2B，可实现音视频多模态交互。模型具有两种输入格式，图片\u002F视频\n\n14_SenceVoice_QWen2VL_edgeTTS_realTime.py\n\n[演示demo，B站] (https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1uQBCYrEYL)\n\n# :sparkles: 241027-语音交互大模型\u002FSenceVoice-QWen2.5-TTS\n\n## 框架\n\nSenceVoice-QWen2.5-CosyVoice搭建\n\n此工程主代码来于[CosyVoice] (https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n\n在CosyVoice基础上添加[SenceVoice] (https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunASR) 作为语音识别模型\n\n添加[QWwn2.5] (https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5) 作为大语言模型进行对话理解\n\n## 3种语音合成方法\n\nCoosyVoice推理速度慢，严重影响对话实时性，额外添加pyttsx3和edgeTTS\n\nEdgeTTS实验过程出现链接错误问题，升级版本至6.1.17解决，无需科学上网\n\nAll dependencies are listed in requirements.txt, the interactive inference scripts are 10\u002F11\u002F12_SenceVoice_QWen2.5_xxx.py. \n\nHave fun! 😊\n","# 环境配置详细教程 [B站](https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1HucueQEJo\u002F)\n\n0. anaconda\\ffmpeg安装\n```\n    网上很多教程，自行搜索\n```\n\n```\n    SenseVoiceSmall模型下载：\n        自动下载：设置215行 model_dir = \"iic\u002FSenseVoiceSmall\"\n        手动下载：https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002FSenseVoiceSmall\u002Ffiles\n    \n    QWen模型下载：\n        自动下载：设置220行 model_name = \"Qwen\u002FQwen2.5-1.5B-Instruct\"，开启科学上网，可从huggingface自动下载\n        手动下载：https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002F 搜索QWen，结果中下载显存可支持模型\n```\n\n1. 创建虚拟环境\n```\n    conda create -n chatAudio python=3.10\n    conda activate chatAudio\n```\n2. 安装pytorch+cuda版本，本地测试2.0以上版本均可，这里安装torch=2.3.1+cuda11.8\n```\n    pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n    其它适合自己电脑的torch+cuda版本可在torch官网查找\n    https:\u002F\u002Fpytorch.org\u002Fget-started\u002Fprevious-versions\u002F\n```\n\n3. 简易版本安装，不使用cosyvoice时依赖项较少\n```\n    pip install edge-tts==6.1.17 funasr==1.1.12 ffmpeg==1.4 opencv-python==4.10.0.84 transformers==4.45.2 webrtcvad==2.0.10 qwen-vl-utils==0.0.8 pygame==2.6.1 langid==1.1.6 langdetect==1.0.9 accelerate==0.33.0 PyAudio==0.2.14\n\n    可执行验证：\n    python 13_SenceVoice_QWen2.5_edgeTTS_realTime.py\n```\n\n至此，不调用cosyvoice作为合成的交互可成功调用了。\n\n4. cosyvoice依赖库\n```\n    大家反馈较多pynini、wetext安装方法：\n    conda install -c conda-forge pynini=2.1.6\n    pip install WeTextProcessing --no-deps\n```\n\n5. cosyvoice其它依赖项安装（如遇到权限问题导致安装失败，以管理员形式打开终端）\n```\n   pip install HyperPyYAML==1.2.2 modelscope==1.15.0 onnxruntime==1.19.2 openai-whisper==20231117 importlib_resources==6.4.5 sounddevice==0.5.1 matcha-tts==0.0.7.0\n\n   可执行验证：\n    python 10_SenceVoice_QWen2.5_cosyVoice.py\n```\n\n# :sparkles: 241130-updata\n\n## 新增声纹识别功能\n\n设置固定声纹注册语音存储目录，如目录为空则自动进入声纹注册模式。默认注册语音时长大于3秒，可自定义，一般而言时长越长，声纹效果越稳定。\n声纹模型采用阿里开源的CAM++，其采用3D-Speaker中文数据训练，符合中文对话需求\n\n## 新增自由定义唤醒词功能\n\n使用SenceVoice的语音识别能力实现，将语音识别的汉字转为拼音进行匹配。将唤醒词\u002F指令词设置为中文对应拼音，可自由定制。15.0_SenceVoice_kws_CAM++.py中默认为'ni hao xiao qian'，15.1_SenceVoice_kws_CAM++.py中默认为'zhan qi lai'[暗影君王实在太cool辣]\n\n## 新增对话历史内容记忆功能\n\n通过建立user、system历史队列实现。开启新一轮对话时，首先获取历史记忆，而后拼接新的输入指令。可自由定义最大历史长度，默认为512。\n\n对应脚本：\n\n无历史记忆：15.0_SenceVoice_kws_CAM++.py\n\n有历史记忆：15.1_SenceVoice_kws_CAM++.py\n\n[演示demo，B站] (https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1Q6zpYpEgv)\n\nHave fun! 😊\n\n# :sparkles: 241123-updata\n\n## 更新单模态自由打断语音交互\n\n使用webrtcvad进行实时vad检测，设置一个检测时间段=0.5s，有效语音激活率=40%，每个检测chunk=20ms。也就是说500ms\u002F20ms=25个检测段，如果25*0.4=10个片段激活，则该0.5秒为有效音，加入缓存。\n\n可改进点：使用模型VAD，去除噪声干扰\n\n13_SenceVoice_QWen2.5_edgeTTS_realTime.py\n\n## 音视频多模态语音交互\n\n基于以上逻辑，替换QWen2.5-1.5B模型为QWen2-VL-2B，可实现音视频多模态交互。模型具有两种输入格式，图片\u002F视频\n\n14_SenceVoice_QWen2VL_edgeTTS_realTime.py\n\n[演示demo，B站] (https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1uQBCYrEYL)\n\n# :sparkles: 241027-语音交互大模型\u002FSenceVoice-QWen2.5-TTS\n\n## 框架\n\nSenceVoice-QWen2.5-CosyVoice搭建\n\n此工程主代码来于[CosyVoice] (https:\u002F\u002Fgithub.com\u002FFunAudioLLM\u002FCosyVoice)\n\n在CosyVoice基础上添加[SenceVoice] (https:\u002F\u002Fgithub.com\u002Fmodelscope\u002FFunASR) 作为语音识别模型\n\n添加[QWwn2.5] (https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5) 作为大语言模型进行对话理解\n\n## 3种语音合成方法\n\nCoosyVoice推理速度慢，严重影响对话实时性，额外添加pyttsx3和edgeTTS\n\nEdgeTTS实验过程出现链接错误问题，升级版本至6.1.17解决，无需科学上网\n\nAll dependencies are listed in requirements.txt, the interactive inference scripts are 10\u002F11\u002F12_SenceVoice_QWen2.5_xxx.py. \n\nHave fun! 😊","# ASR-LLM-TTS 快速上手指南\n\n本指南帮助开发者快速搭建基于 SenseVoice（语音识别）、Qwen2.5（大语言模型）和 TTS（语音合成）的实时语音交互系统。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Windows \u002F Linux \u002F macOS\n- **Python 版本**: 3.10\n- **GPU**: 支持 CUDA 的 NVIDIA 显卡（推荐显存 8GB 以上，具体视模型大小而定）\n- **前置软件**:\n  - [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002F) (用于管理虚拟环境)\n  - [FFmpeg](https:\u002F\u002Fffmpeg.org\u002F) (用于音频处理，需配置环境变量)\n\n### 模型资源\n项目依赖以下模型，可选择自动下载或手动下载后放置到指定目录：\n- **SenseVoiceSmall (ASR)**:\n  - 自动：代码中设置 `model_dir = \"iic\u002FSenseVoiceSmall\"`\n  - 手动：[ModelScope 下载链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002Fiic\u002FSenseVoiceSmall\u002Ffiles)\n- **Qwen2.5 (LLM)**:\n  - 自动：代码中设置 `model_name = \"Qwen\u002FQwen2.5-1.5B-Instruct\"` (需网络通畅)\n  - 手动：在 [ModelScope](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002F) 搜索 \"QWen\"，根据显存选择合适版本下载。\n- **声纹模型 (可选)**: CAM++ (首次运行自动下载)\n\n---\n\n## 2. 安装步骤\n\n### 第一步：创建虚拟环境\n```bash\nconda create -n chatAudio python=3.10\nconda activate chatAudio\n```\n\n### 第二步：安装 PyTorch (CUDA 版本)\n根据本地显卡驱动选择合适的版本，以下以 CUDA 11.8 + Torch 2.3.1 为例：\n```bash\npip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n> 注：其他版本请参考 [PyTorch 官网历史版本](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Fprevious-versions\u002F)。\n\n### 第三步：安装基础依赖 (轻量版)\n如果不使用 CosyVoice 进行高保真语音合成（使用 EdgeTTS 替代），安装以下依赖即可运行基础功能：\n```bash\npip install edge-tts==6.1.17 funasr==1.1.12 ffmpeg==1.4 opencv-python==4.10.0.84 transformers==4.45.2 webrtcvad==2.0.10 qwen-vl-utils==0.0.8 pygame==2.6.1 langid==1.1.6 langdetect==1.0.9 accelerate==0.33.0 PyAudio==0.2.14\n```\n**验证安装**：\n```bash\npython 13_SenceVoice_QWen2.5_edgeTTS_realTime.py\n```\n\n### 第四步：安装 CosyVoice 完整依赖 (可选)\n如需使用 CosyVoice 进行更自然的语音合成及声纹克隆，需额外安装以下库：\n\n1. 安装特定编译库：\n```bash\nconda install -c conda-forge pynini=2.1.6\npip install WeTextProcessing --no-deps\n```\n\n2. 安装其余依赖（如遇权限错误请以管理员身份运行终端）：\n```bash\npip install HyperPyYAML==1.2.2 modelscope==1.15.0 onnxruntime==1.19.2 openai-whisper==20231117 importlib_resources==6.4.5 sounddevice==0.5.1 matcha-tts==0.0.7.0\n```\n\n**验证安装**：\n```bash\npython 10_SenceVoice_QWen2.5_cosyVoice.py\n```\n\n---\n\n## 3. 基本使用\n\n### 场景 A：实时语音对话 (轻量版)\n使用 EdgeTTS 合成语音，响应速度快，无需复杂配置。\n```bash\npython 13_SenceVoice_QWen2.5_edgeTTS_realTime.py\n```\n*功能特点：支持单模态语音打断、实时语音识别与大模型对话。*\n\n### 场景 B：实时语音对话 (高保真版)\n使用 CosyVoice 合成语音，支持声纹注册与克隆。\n```bash\npython 10_SenceVoice_QWen2.5_cosyVoice.py\n```\n*功能特点：音色更自然，首次运行若声纹目录为空会自动进入注册模式（需录制大于 3 秒的语音）。*\n\n### 场景 C：自定义唤醒词与历史记忆\n支持通过拼音定制唤醒词（如 \"ni hao xiao qian\"），并开启多轮对话记忆。\n```bash\n# 无历史记忆版本\npython 15.0_SenceVoice_kws_CAM++.py\n\n# 开启历史记忆版本 (默认保留最近 512 token 上下文)\npython 15.1_SenceVoice_kws_CAM++.py\n```\n\n### 场景 D：多模态交互 (视觉 + 听觉)\n替换为 Qwen2-VL 模型，支持图片\u002F视频输入分析。\n```bash\npython 14_SenceVoice_QWen2VL_edgeTTS_realTime.py\n```\n\n> **提示**：运行前请确保麦克风权限已开启，并根据需求在脚本头部调整模型路径或参数配置。","一位独居的视障老人希望在家中通过自然语音与智能助手交流，获取新闻播报、天气查询及日常陪伴，而无需依赖屏幕或复杂的触控操作。\n\n### 没有 ASR-LLM-TTS 时\n- **交互门槛高**：老人必须精准点击手机图标或记住特定指令词，传统的关键词匹配系统无法理解口语化的模糊表达（如“今天外面冷不冷”）。\n- **反馈机械生硬**：现有的 TTS 引擎声音单调缺乏情感，长时间收听容易产生疲劳感，且无法根据对话语境调整语气。\n- **打断体验差**：在助手播报过程中，若老人想中途插话提问，系统无法识别，必须等待播报结束才能重新唤醒，对话流程割裂。\n- **缺乏记忆能力**：每次对话都是独立的，助手记不住老人刚才提到的喜好或前文语境，导致重复询问，体验极不连贯。\n\n### 使用 ASR-LLM-TTS 后\n- **自然语义理解**：依托 SenseVoice 和 QWen2.5 模型，老人可用任意自然口吻说话，系统能精准识别方言口音并理解“帮我看看要不要带伞”这类隐含意图。\n- **拟人化情感播报**：集成 CosyVoice 或 Edge-TTS，助手能用温暖、自然的音色回应，甚至模仿亲人语气，显著提升陪伴感和可听性。\n- **实时自由打断**：利用 webrtcvad 技术实现全双工交互，老人在助手说话时随时插嘴，系统能立即停止播报并响应新指令，如同真人交谈般流畅。\n- **上下文连续记忆**：内置的历史队列功能让助手记住“刚才提到的那个公园”，在多轮对话中保持逻辑连贯，无需老人反复复述背景信息。\n\nASR-LLM-TTS 将冰冷的机器指令转化为有温度、懂语境的自然对话，真正实现了零门槛的语音智能陪伴。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FABexit_ASR-LLM-TTS_bfed02c9.png","ABexit","abexit","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FABexit_a4c1d5bd.jpg","Someone learning about speech AI.​","University of Chinese Academy of Sciences","BeiJing",null,"https:\u002F\u002Fgithub.com\u002FABexit",[85,89],{"name":86,"color":87,"percentage":88},"Python","#3572A5",99.5,{"name":90,"color":91,"percentage":92},"Dockerfile","#384d54",0.5,1167,195,"2026-04-17T09:13:45","Apache-2.0",4,"Windows, Linux, macOS","需要 NVIDIA GPU（用于运行 PyTorch CUDA 版本），README 提及需根据显存大小选择 QWen 模型版本，未明确具体最低显存要求，但建议支持 CUDA 11.8","未说明",{"notes":102,"python":103,"dependencies":104},"1. 推荐使用 Anaconda 创建名为 'chatAudio' 的虚拟环境。2. 必须安装 FFmpeg。3. 若使用 CosyVoice 功能，需额外安装 pynini（建议通过 conda-forge 安装）和 WeTextProcessing。4. 模型支持自动下载（需网络通畅或配置镜像源）或手动从 ModelScope 下载，包括 SenseVoiceSmall 和 Qwen 系列模型。5. 若遇到权限问题导致安装失败，请以管理员身份运行终端。6. 声纹识别功能默认使用阿里开源的 CAM++ 模型。","3.10",[105,106,107,108,109,110,111,112,113,114],"torch==2.3.1","torchaudio==2.3.1","funasr==1.1.12","transformers==4.45.2","edge-tts==6.1.17","accelerate==0.33.0","modelscope==1.15.0","onnxruntime==1.19.2","pynini==2.1.6","WeTextProcessing",[15,55,54],"2026-03-27T02:49:30.150509","2026-04-18T03:34:43.973007",[119,124,129,134,139,144,149],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},38708,"在 Windows 上安装依赖时遇到 cl.exe 报错（无效数值参数\u002FWno-register）怎么办？","这是 Windows 环境下编译 C++ 扩展时的常见兼容性问题。维护者已更新教程，建议参考最新安装文档。如果仍然报错，可以尝试参考社区提供的解决方案文章：https:\u002F\u002Fblog.lukeewin.top\u002Farchives\u002Fjie-jue-an-zhuang-pynini-he-wetextprocessing-bao-cuo-wen-ti，该文章详细解决了 pynini 和 WeTextProcessing 的安装报错问题。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F1",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},38709,"项目是否有详细的安装教程或环境配置指南？","有的，维护者已更新教程。此外，社区用户推荐了一篇详细的解决安装报错的文章，特别是针对 pynini 和 WeTextProcessing 的依赖问题，地址为：https:\u002F\u002Fblog.lukeewin.top\u002Farchives\u002Fjie-jue-an-zhuang-pynini-he-wetextprocessing-bao-cuo-wen-ti。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F2",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},38710,"启动 webui.py 时报错 'The request model: pretrained_models\u002FCosyVoice-300M does not exist!' 如何解决？","该错误通常是因为 ModelScope 上的模型路径变更或临时不可用。根据社区反馈，确保网络通畅并检查模型名称是否正确。有用户反馈在修正环境或等待服务恢复后成功运行。如果问题持续，建议检查项目是否更新了模型下载路径配置，或尝试手动下载模型到指定目录。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F4",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},38711,"运行时出现 aiohttp 相关的 ClientConnectorDNSError 或 getaddrinfo failed 错误怎么办？","这通常是由于依赖的第三方服务（如 EdgeTTS）官网服务关闭或网络解析失败导致的。有用户确认将 EdgeTTS 版本锁定为 6.1.17 可能无效，因为服务端已变动。解决方案是切换使用其他可用的 TTS 引擎，例如切换到 KOKORO 模型即可正常运作。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F8",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},38712,"麦克风离音箱太近导致回声触发 VAD 无限循环，有解决办法吗？","这是一个已知的缺陷。目前项目中尚未集成好用的开源回声消除（AEC）算法来完美解决此问题。虽然有人建议使用 WebRTC 的 AEC 功能，但现有的 webrtcvad Python 版本似乎并未封装 AEC 算法。暂时建议通过物理方式调整麦克风与音箱的距离来避免回声干扰。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F11",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},38713,"如何实现流式输入输出以降低对话延迟？","可以通过利用支持音频直接输入输出的模型来优化流程。例如，使用 Qwen\u002FQwen2.5-Omni-7B 模型，它可以直接接收音频输入并输出音频，从而省去了单独的 ASR（语音识别）步骤，仅需保留 VAD（语音活动检测）即可实现更低延迟的多轮对话。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F17",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},38714,"该项目支持在 macOS (Apple Silicon M3) 上运行吗？","可以在 macOS 上运行。虽然苹果芯片不支持 CUDA，但 PyTorch 官方提供了支持 macOS (MPS 加速) 的版本（2.0 以上）。用户可以通过 conda 安装适配的版本，例如：conda install pytorch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 -c pytorch。","https:\u002F\u002Fgithub.com\u002FABexit\u002FASR-LLM-TTS\u002Fissues\u002F15",[]]