[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-zai-org--GLM-ASR":3,"similar-zai-org--GLM-ASR":93},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":19,"owner_website":20,"owner_url":21,"languages":22,"stars":27,"forks":28,"last_commit_at":29,"license":30,"difficulty_score":31,"env_os":32,"env_gpu":33,"env_ram":34,"env_deps":35,"category_tags":42,"github_topics":47,"view_count":52,"oss_zip_url":18,"oss_zip_packed_at":18,"status":53,"created_at":54,"updated_at":55,"faqs":56,"releases":92},3456,"zai-org\u002FGLM-ASR","GLM-ASR","GLM-ASR-Nano: A robust, open-source speech recognition model with 1.5B parameters","GLM-ASR 是一款拥有 15 亿参数的开源语音识别模型，专为应对真实世界复杂的语音场景而设计。它不仅能精准识别标准的普通话和英语，更在方言支持上表现卓越，尤其优化了粤语及其他地方方言的转录效果，有效填补了传统模型在方言识别上的空白。此外，针对极低音量或耳语场景，GLM-ASR 展现了出色的鲁棒性，能够清晰捕捉并转写那些常被其他模型忽略的微弱声音。\n\n在性能方面，GLM-ASR 在多个权威基准测试中超越了同量级的开源模型甚至部分闭源方案（如 OpenAI Whisper V3），特别是在带有噪音和多人重叠说话的真实会议场景中，保持了极低的错误率。目前该模型已支持 17 种语言的高可用性识别。\n\n这款工具非常适合开发者、研究人员以及需要构建高准确率语音应用的企业团队使用。无论是开发智能会议记录系统、方言辅助工具，还是研究低资源语音技术，GLM-ASR 都提供了强大的底层支持。其独特的技术亮点在于将紧凑的模型体积与对“轻声\u002F耳语”及“多方言”的深度优化相结合，同时兼容主流的 Transformers 和 SGLang 推理框架，便于快速集成与部署。","# GLM-ASR\n\n[中文阅读.](.\u002FREADME_zh.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=resources\u002Flogo.svg width=\"20%\"\u002F>\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n    👋 Join our\u003Ca href=\"resources\u002FWECHAT.md\" target=\"_blank\"> Wechat\u003C\u002Fa> or \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FHvT5BaPg3H\" target=\"_blank\">Discord\u003C\u002Fa> community.\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    👋 Follow AutoGLM Autotyper \u003Ca href=\"https:\u002F\u002Fx.com\u002FAutotyper_Agent?s=20\" target=\"_blank\">X\u003C\u002Fa> account\n\u003C\u002Fp>\n\n## Model Introduction\n\n**GLM-ASR-Nano-2512** is a robust, open-source speech recognition model with **1.5B parameters**. Designed for\nreal-world complexity, it outperforms OpenAI Whisper V3 on multiple benchmarks while maintaining a compact size.\n\nKey capabilities include:\n\n* **Exceptional Dialect Support**\n  Beyond standard Mandarin and English, the model is highly optimized for **Cantonese (粤语)** and other dialects,\n  effectively bridging the gap in dialectal speech recognition.\n\n* **Low-Volume Speech Robustness**\n  Specifically trained for **\"Whisper\u002FQuiet Speech\"** scenarios. It captures and accurately transcribes extremely\n  low-volume audio that traditional models often miss.\n\n* **SOTA Performance**\n  Achieves the **lowest average error rate (4.10)** among comparable open-source models, showing significant advantages\n  in Chinese benchmarks (Wenet Meeting, Aishell-1, etc..).\n\n## Benchmark\n\nWe evaluated GLM-ASR-Nano against leading open-source and closed-source models. The results demonstrate\nthat **GLM-ASR-Nano (1.5B)** achieves superior performance, particularly in challenging acoustic environments.\n\n![Benchmark results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_GLM-ASR_readme_07a3b8aafa15.png)\n\nNotes:\n\n* Wenet Meeting reflects real-world meeting scenarios with noise and overlapping speech.\n* Aishell-1 is a standard Mandarin benchmark.\n\n## Supported Languages\n\nGLM-ASR-Nano supports **17 languages** with high usability (WER ≤ 20%), specifically optimized for the following regions:\n\n![Supported Languages List](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_GLM-ASR_readme_f111d05021ec.png)\n\n## Download\n\n| Model             | Download Links                                                                                                                                             |\n|-------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| GLM-ASR-Nano-2512  | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-ASR-Nano-2512)\u003Cbr>[🤖 ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FGLM-ASR-Nano-2512)               |\n\n* Please note that the model weight format has changed after adapting to `transformers` and `SGLang`. If your model was downloaded before December 27, 2025, please pull the latest version of the model.\n\n## Inference\n\nWe provide two test audio clips, in Chinese and English versions respectively.\n\n### Requirements\n\n```bash\npip install -r requirements.txt\nsudo apt install ffmpeg\n```\n\n### Example Code\n\n* transformers 5.0.0, requires installation from source, refer to requirements.txt\n\n```python\nfrom transformers import AutoModel, AutoProcessor\nimport torch\n\ndevice = \"cuda\" if torch.cuda.is_available() else \"cpu\"\nrepo_id = \"zai-org\u002FGLM-ASR-Nano-2512\"\n\nprocessor = AutoProcessor.from_pretrained(repo_id)\nmodel = AutoModel.from_pretrained(repo_id, dtype=torch.bfloat16, device_map=device)\n\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\n                \"type\": \"audio\",\n                \"url\": \"example_zh.wav\",\n            },\n            {\"type\": \"text\", \"text\": \"Please transcribe this audio into text\"},\n        ],\n    }\n]\n\ninputs = processor.apply_chat_template(\n    messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors=\"pt\"\n)\ninputs = inputs.to(device, dtype=torch.bfloat16)\noutputs = model.generate(**inputs, max_new_tokens=128, do_sample=False)\nprint(processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True))\n```\n\n* SGLang\n\nCurrently, no release version is available. Please use the latest development docker image.\n\n```shell\ndocker pull lmsysorg\u002Fsglang:dev\n```\n\nEnter the docker container and run\n\n```shell\npip install git+https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\npython3 -m sglang.launch_server --model-path zai-org\u002FGLM-ASR-Nano-2512 --served-model-name glm-asr --host 0.0.0.0 --port 8000\n```\n\nsend requests to the server using the following example code:\n\n```python\nfrom openai import OpenAI\n\nopenai_api_key = \"EMPTY\"\nopenai_api_base = \"http:\u002F\u002F127.0.0.1:8000\u002Fv1\"\n\nclient = OpenAI(api_key=openai_api_key, base_url=openai_api_base)\nresponse = client.chat.completions.create(\n    model=\"glm-asr\",\n    messages=[\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\n                    \"type\": \"audio_url\",\n                    \"audio_url\": {\"url\": \"example_zh.wav\"}\n                },\n                {\n                    \"type\": \"text\",\n                    \"text\": \"Please transcribe this audio into text\"\n                },\n            ]\n        }\n    ],\n    max_tokens=1024,\n)\nprint(response.choices[0].message.content.strip())\n```\n\n* transformers 4.51.3 (for models that have not been updated)\n\n```shell\npython inference.py --checkpoint_dir zai-org\u002FGLM-ASR-Nano-2512 --audio examples\u002Fexample_en.wav # English\npython inference.py --checkpoint_dir zai-org\u002FGLM-ASR-Nano-2512 --audio examples\u002Fexample_zh.wav # 中文\n```\n\nFor the two example audio clips above, the model is able to produce accurate transcription results. They are:\n\n```shell\nbe careful not to allow fabric to become too hot which can cause shrinkage or in extreme cases scorch\n我还能再搞一个，就算是非常小的声音也能识别准确\n```\n","# GLM-ASR\n\n[中文阅读.](.\u002FREADME_zh.md)\n\n\u003Cdiv align=\"center\">\n\u003Cimg src=resources\u002Flogo.svg width=\"20%\"\u002F>\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n    👋 加入我们的\u003Ca href=\"resources\u002FWECHAT.md\" target=\"_blank\">微信\u003C\u002Fa>或 \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FHvT5BaPg3H\" target=\"_blank\">Discord\u003C\u002Fa>社区。\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    👋 关注 AutoGLM Autotyper \u003Ca href=\"https:\u002F\u002Fx.com\u002FAutotyper_Agent?s=20\" target=\"_blank\">X\u003C\u002Fa> 账号\n\u003C\u002Fp>\n\n## 模型介绍\n\n**GLM-ASR-Nano-2512** 是一款参数量达 **15亿** 的开源语音识别模型，具有极强的鲁棒性。该模型专为应对真实场景中的复杂性而设计，在多个基准测试中表现超越 OpenAI Whisper V3，同时保持了较小的模型体积。\n\n其主要特点包括：\n\n* **卓越的方言支持**\n  除了标准普通话和英语之外，该模型还针对 **粤语** 及其他方言进行了高度优化，有效填补了方言语音识别领域的空白。\n\n* **低音量语音识别能力**\n  特别针对 **“耳语\u002F低声语音”** 场景进行训练，能够准确捕捉并转录传统模型容易忽略的极低音量音频。\n\n* **SOTA 性能**\n  在同类开源模型中，GLM-ASR-Nano 实现了 **最低平均错误率（4.10）**，尤其在中文相关基准测试（Wenet Meeting、Aishell-1 等）中表现出显著优势。\n\n## 基准测试\n\n我们对 GLM-ASR-Nano 与领先的开源及闭源模型进行了对比评测。结果表明，**GLM-ASR-Nano (15亿)** 在复杂声学环境下的表现尤为突出。\n\n![Benchmark results](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_GLM-ASR_readme_07a3b8aafa15.png)\n\n备注：\n\n* Wenet Meeting 反映了包含噪声和多人同时说话的真实会议场景。\n* Aishell-1 是标准的普通话基准测试集。\n\n## 支持的语言\n\nGLM-ASR-Nano 支持 **17 种语言**，且在这些语言上的可用性较高（WER ≤ 20%），尤其针对以下地区进行了优化：\n\n![Supported Languages List](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_GLM-ASR_readme_f111d05021ec.png)\n\n## 下载\n\n| 模型             | 下载链接                                                                                                                                             |\n|-------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| GLM-ASR-Nano-2512  | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-ASR-Nano-2512)\u003Cbr>[🤖 ModelScope](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FGLM-ASR-Nano-2512)               |\n\n* 请注意，自适配 `transformers` 和 `SGLang` 后，模型权重格式已发生变化。如果您是在 2025 年 12 月 27 日之前下载的模型，请拉取最新版本。\n\n## 推理\n\n我们提供了两段测试音频，分别以中文和英文录制。\n\n### 需求\n\n```bash\npip install -r requirements.txt\nsudo apt install ffmpeg\n```\n\n### 示例代码\n\n* transformers 5.0.0，需从源码安装，请参考 requirements.txt\n\n```python\nfrom transformers import AutoModel, AutoProcessor\nimport torch\n\ndevice = \"cuda\" if torch.cuda.is_available() else \"cpu\"\nrepo_id = \"zai-org\u002FGLM-ASR-Nano-2512\"\n\nprocessor = AutoProcessor.from_pretrained(repo_id)\nmodel = AutoModel.from_pretrained(repo_id, dtype=torch.bfloat16, device_map=device)\n\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\n                \"type\": \"audio\",\n                \"url\": \"example_zh.wav\",\n            },\n            {\"type\": \"text\", \"text\": \"请将这段音频转写成文字\"},\n        ],\n    }\n]\n\ninputs = processor.apply_chat_template(\n    messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors=\"pt\"\n)\ninputs = inputs.to(device, dtype=torch.bfloat16)\noutputs = model.generate(**inputs, max_new_tokens=128, do_sample=False)\nprint(processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True))\n```\n\n* SGLang\n\n目前暂无正式发布版本，请使用最新的开发版 Docker 镜像。\n\n```shell\ndocker pull lmsysorg\u002Fsglang:dev\n```\n\n进入 Docker 容器后执行：\n\n```shell\npip install git+https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\npython3 -m sglang.launch_server --model-path zai-org\u002FGLM-ASR-Nano-2512 --served-model-name glm-asr --host 0.0.0.0 --port 8000\n```\n\n使用以下示例代码向服务器发送请求：\n\n```python\nfrom openai import OpenAI\n\nopenai_api_key = \"EMPTY\"\nopenai_api_base = \"http:\u002F\u002F127.0.0.1:8000\u002Fv1\"\n\nclient = OpenAI(api_key=openai_api_key, base_url=openai_api_base)\nresponse = client.chat.completions.create(\n    model=\"glm-asr\",\n    messages=[\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\n                    \"type\": \"audio_url\",\n                    \"audio_url\": {\"url\": \"example_zh.wav\"}\n                },\n                {\n                    \"type\": \"text\",\n                    \"text\": \"请将这段音频转写成文字\"\n                },\n            ]\n        }\n    ],\n    max_tokens=1024,\n)\nprint(response.choices[0].message.content.strip())\n```\n\n* transformers 4.51.3（适用于未更新的模型）\n\n```shell\npython inference.py --checkpoint_dir zai-org\u002FGLM-ASR-Nano-2512 --audio examples\u002Fexample_en.wav # 英文\npython inference.py --checkpoint_dir zai-org\u002FGLM-ASR-Nano-2512 --audio examples\u002Fexample_zh.wav # 中文\n```\n\n对于上述两段示例音频，模型均能生成准确的转录结果，具体如下：\n\n```shell\nbe careful not to allow fabric to become too hot which can cause shrinkage or in extreme cases scorch\n我还能再搞一个，就算是非常小的声音也能识别准确\n```","# GLM-ASR 快速上手指南\n\nGLM-ASR-Nano-2512 是一款拥有 15 亿参数的开源语音识别模型，在中文基准测试中表现优异，特别擅长方言（如粤语）及低音量语音的识别。\n\n## 环境准备\n\n*   **系统要求**：Linux 或 macOS（推荐 Linux），具备 NVIDIA GPU 以获得最佳推理速度。\n*   **前置依赖**：\n    *   Python 3.8+\n    *   `ffmpeg` (用于音频处理)\n    *   PyTorch (支持 CUDA)\n\n## 安装步骤\n\n1.  **安装系统依赖 ffmpeg**\n    ```bash\n    sudo apt install ffmpeg\n    ```\n\n2.  **安装 Python 依赖**\n    推荐使用国内镜像源加速安装：\n    ```bash\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n    > **注意**：本项目依赖 `transformers` 5.0.0+ 版本，可能需要从源码安装，请确保 `requirements.txt` 中的配置已正确应用。\n\n3.  **获取模型**\n    国内用户推荐通过 **ModelScope (魔搭)** 下载，速度更快：\n    *   ModelScope: [ZhipuAI\u002FGLM-ASR-Nano-2512](https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FZhipuAI\u002FGLM-ASR-Nano-2512)\n    *   Hugging Face: [zai-org\u002FGLM-ASR-Nano-2512](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-ASR-Nano-2512)\n\n    > **重要提示**：模型权重格式已更新以适配 `transformers` 和 `SGLang`。如果您在 2025 年 12 月 27 日之前下载过模型，请务必拉取最新版本。\n\n## 基本使用\n\n以下是最简单的基于 `transformers` 的推理示例。代码会自动从远程加载模型（若本地已下载则读取本地缓存）。\n\n```python\nfrom transformers import AutoModel, AutoProcessor\nimport torch\n\n# 自动检测设备\ndevice = \"cuda\" if torch.cuda.is_available() else \"cpu\"\nrepo_id = \"zai-org\u002FGLM-ASR-Nano-2512\"\n\n# 加载处理器和模型\nprocessor = AutoProcessor.from_pretrained(repo_id)\nmodel = AutoModel.from_pretrained(repo_id, dtype=torch.bfloat16, device_map=device)\n\n# 构建输入消息\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\n                \"type\": \"audio\",\n                \"url\": \"example_zh.wav\",  # 替换为您的音频文件路径\n            },\n            {\"type\": \"text\", \"text\": \"Please transcribe this audio into text\"},\n        ],\n    }\n]\n\n# 处理输入并生成结果\ninputs = processor.apply_chat_template(\n    messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors=\"pt\"\n)\ninputs = inputs.to(device, dtype=torch.bfloat16)\n\noutputs = model.generate(**inputs, max_new_tokens=128, do_sample=False)\n\n# 解码输出\nresult = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)\nprint(result)\n```\n\n**运行说明**：\n将上述代码保存为 `infer.py`，并将 `example_zh.wav` 替换为您实际的音频文件路径即可运行。模型支持中英文及多种方言的高精度转录。","某跨国客服团队需要处理大量包含粤语方言及低音量录音的每日客户回访音频，以生成可检索的服务质检报告。\n\n### 没有 GLM-ASR 时\n- **方言识别失效**：面对混杂粤语或地方口音的录音，通用模型（如早期 Whisper）常将关键诉求误识为乱码，导致人工复核成本激增。\n- **微弱声音丢失**：客户在嘈杂背景下的低声抱怨或耳语常被系统直接忽略，造成重要投诉线索遗漏，引发潜在公关风险。\n- **部署资源沉重**：为了追求稍高的准确率，团队不得不租用昂贵的多卡 GPU 服务器运行大参数模型，推理延迟高且运维成本难以控制。\n- **多语言切换繁琐**：处理中、英、粤混合对话时，需频繁切换不同模型或进行复杂的预处理，工作流断裂且效率低下。\n\n### 使用 GLM-ASR 后\n- **方言精准转写**：GLM-ASR 凭借对粤语等方言的深度优化，能准确还原客户原话，即使是地道的口语表达也能无缝转换为文字。\n- **捕捉低语细节**：针对“耳语\u002F低音量”场景的特训，让 GLM-ASR 能清晰转录以往被忽略的微弱声音，确保每一条客户反馈都被完整记录。\n- **轻量高效运行**：仅 1.5B 参数量的 GLM-ASR 可在单张消费级显卡甚至边缘设备上流畅运行，推理速度大幅提升的同时显著降低了算力开支。\n- **一站式多语支持**：GLM-ASR 原生支持 17 种语言，无需额外配置即可自动处理中英粤混合对话，实现了从音频输入到文本输出的全自动流水线。\n\nGLM-ASR 以极小的模型体积解决了复杂声学环境下的方言与低音量识别难题，让高质量语音转写变得低成本且触手可及。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fzai-org_GLM-ASR_10a1a8b7.png","zai-org","Z.ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fzai-org_f0d5ae80.png","ChatGLM, GLM-4.5, CogVLM, CodeGeeX, CogView, CogVideoX | CogDL, AMiner | Zhipu.ai (Z.ai)",null,"Zai_org","https:\u002F\u002Fwww.zhipuai.cn\u002Fen","https:\u002F\u002Fgithub.com\u002Fzai-org",[23],{"name":24,"color":25,"percentage":26},"Python","#3572A5",100,785,72,"2026-04-04T18:23:29","Apache-2.0",3,"Linux","推荐使用 NVIDIA GPU (代码示例中自动检测 cuda)，需支持 torch.bfloat16 精度；未明确具体显存大小，但 1.5B 参数模型建议 8GB+；CUDA 版本未说明","未说明",{"notes":36,"python":34,"dependencies":37},"1. 若使用 transformers 5.0.0，必须从源码安装。2. 2025 年 12 月 27 日前下载的模型权重格式已变更，需拉取最新版本以适配 transformers 和 SGLang。3. Linux 环境下需通过 apt 安装 ffmpeg。4. SGLang 部署目前无发布版本，需使用最新的开发版 Docker 镜像 (lmsysorg\u002Fsglang:dev)。5. 模型支持 17 种语言，特别优化了粤语及低音量语音识别。",[38,39,40,41],"transformers>=5.0.0 (需源码安装)","torch","ffmpeg","sglang (可选，需 dev 版 Docker)",[43,44,45,46],"语言模型","数据工具","开发框架","音频",[48,49,50,51],"asr","edge","llm","voice",2,"ready","2026-03-27T02:49:30.150509","2026-04-06T08:09:04.021890",[57,62,67,72,77,82,87],{"id":58,"question_zh":59,"answer_zh":60,"source_url":61},15861,"是否有针对 GLM-ASR-Nano 模型的 vLLM 部署教程或配方（Recipe）？","目前已有社区贡献的 vLLM 部署指南可供参考，地址为：https:\u002F\u002Fgithub.com\u002FJaredforReal\u002Frecipes\u002Fblob\u002Fmain\u002FGLM\u002FGLM-ASR.md。官方团队也表示将尽快提供正式支持。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F32",{"id":63,"question_zh":64,"answer_zh":65,"source_url":66},15862,"项目是否会开源训练代码？","官方明确表示目前没有发布训练代码的计划。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F22",{"id":68,"question_zh":69,"answer_zh":70,"source_url":71},15863,"如何部署推理服务？有推荐的 Docker 镜像吗？","目前可以直接使用 SGL (SGLang) 的 Docker 镜像进行部署，无需等待官方单独提供的镜像。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F17",{"id":73,"question_zh":74,"answer_zh":75,"source_url":76},15859,"运行示例脚本时出现报错，提示模型类型不支持或 Flash Attention 相关错误，如何解决？","该问题通常由依赖版本冲突引起。解决方案包括：\n1. 确保使用最新的 requirements.txt，最新版本已移除对 flash_attn 的强制依赖。\n2. 尝试重新拉取 Hugging Face 上的 modeling_audio.py 文件。\n3. 如果不需要高性能加速，可以将注意力机制改为 SDPA（Scaled Dot-Product Attention），这样可以在 CPU 上运行且无需安装 flash_attn。\n4. 参考以下环境配置尝试修复：python==3.12, transformers==4.51.3, cuda==12.4, torch==2.4.1, torchaudio==2.4.1, torchvision==0.19.1。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F2",{"id":78,"question_zh":79,"answer_zh":80,"source_url":81},15860,"GLM-ASR 模型是否支持除英语和中文以外的多语言识别？","是的，模型支持多语言。开发者已更新了多语言支持的结果，用户可以查看仓库中的最新表格图片获取详细信息。根据社区反馈，该模型在非印地语\u002F英语的其他语言上也能以不错的准确率运行，但在某些语言（如土耳其语）上的表现可能不如 Whisper-large 模型稳健。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F1",{"id":83,"question_zh":84,"answer_zh":85,"source_url":86},15864,"显存有限（如 8G 显存的 2080 显卡），是否有更小尺寸的模型可用？","当前 GLM-ASR 系列可能没有更小的官方版本适配低显存设备。不过社区用户推荐了一个替代方案：GPA (https:\u002F\u002Fgithub.com\u002FAutoArk\u002FGPA)，这是一个集 ASR、TTS、VC 于一体的模型，参数量仅为 0.3B，对并发和流式处理有良好支持，适合资源受限的设备。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F28",{"id":88,"question_zh":89,"answer_zh":90,"source_url":91},15865,"模型是否支持热词（Hotword）或上下文偏置功能？如果有，Prompt 格式是什么？","截至当前 Issue 关闭时，官方文档和回复中尚未明确说明是否支持热词（Contextual Biasing）及具体的 Prompt 格式。建议关注后续官方更新或在讨论区进一步询问。","https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-ASR\u002Fissues\u002F8",[],[94,104,112,120,128,139],{"id":95,"name":96,"github_repo":97,"description_zh":98,"stars":99,"difficulty_score":31,"last_commit_at":100,"category_tags":101,"status":53},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[45,102,103],"图像","Agent",{"id":105,"name":106,"github_repo":107,"description_zh":108,"stars":109,"difficulty_score":52,"last_commit_at":110,"category_tags":111,"status":53},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,"2026-04-05T23:32:43",[45,103,43],{"id":113,"name":114,"github_repo":115,"description_zh":116,"stars":117,"difficulty_score":52,"last_commit_at":118,"category_tags":119,"status":53},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[45,102,103],{"id":121,"name":122,"github_repo":123,"description_zh":124,"stars":125,"difficulty_score":52,"last_commit_at":126,"category_tags":127,"status":53},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[45,43],{"id":129,"name":130,"github_repo":131,"description_zh":132,"stars":133,"difficulty_score":52,"last_commit_at":134,"category_tags":135,"status":53},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[102,44,136,137,103,138,43,45,46],"视频","插件","其他",{"id":140,"name":141,"github_repo":142,"description_zh":143,"stars":144,"difficulty_score":31,"last_commit_at":145,"category_tags":146,"status":53},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[103,102,45,43,138]]