[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-davidmrau--mixture-of-experts":3,"tool-davidmrau--mixture-of-experts":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":32,"env_os":90,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":96,"github_topics":97,"view_count":32,"oss_zip_url":79,"oss_zip_packed_at":79,"status":17,"created_at":102,"updated_at":103,"faqs":104,"releases":140},4791,"davidmrau\u002Fmixture-of-experts","mixture-of-experts","PyTorch Re-Implementation of \"The Sparsely-Gated Mixture-of-Experts Layer\" by Noam Shazeer et al. https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06538","mixture-of-experts 是一个基于 PyTorch 框架的开源项目，它复现了经典论文《The Sparsely-Gated Mixture-of-Experts Layer》中提出的稀疏门控混合专家层。该工具旨在解决传统神经网络在扩大规模时计算成本过高的问题，通过引入“混合专家”机制，让模型在每次推理时仅激活部分参数（专家），从而在保持极低计算量的同时，显著增加模型的总参数量和表达能力。\n\n这一实现特别适合深度学习研究人员和算法开发者使用，尤其是那些希望探索超大模型架构、研究模型稀疏性或在单 GPU 环境下进行高效训练的技术人员。其核心亮点在于采用了动态路由策略，能够根据输入数据自动选择最合适的“专家”子网络进行处理，并辅以噪声门控技术来平衡负载与提升训练稳定性。作为 FastMoE 等先进训练系统的参考基准，mixture-of-experts 提供了简洁易用的 API 接口，支持快速集成到现有项目中，帮助开发者轻松构建和测试具备数十亿参数潜力的神经网络，是探索下一代高效大模型架构的理想起点。","# The Sparsely Gated Mixture of Experts Layer for PyTorch\n\n\n\n![source: https:\u002F\u002Ftechburst.io\u002Foutrageously-large-neural-network-gated-mixture-of-experts-billions-of-parameter-same-d3e901f2fe05](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdavidmrau_mixture-of-experts_readme_0aed23d78f10.png)\n\n\nThis repository contains the PyTorch re-implementation of the sparsely-gated MoE layer described in the paper [Outrageously Large Neural Networks](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06538) for PyTorch. \n```python\n\nfrom moe import MoE\nimport torch\n\n# instantiate the MoE layer\nmodel = MoE(input_size=1000, output_size=20, num_experts=10,hidden_size=66, k= 4, noisy_gating=True)\n\nX = torch.rand(32, 1000)\n\n#train\nmodel.train()\n# forward\ny_hat, aux_loss = model(X)\n\n# evaluation\n\nmodel.eval()\ny_hat, aux_loss = model(X)\n\n```\n\n\n\n\n\n\n# Requirements\n\nTo install the requirements run:\n\n```pip install -r requirements.py```\n\n\n# Example\n\nThe file ```example.py``` contains a minimal working example illustrating how to train and evaluate the MoE layer with dummy inputs and targets. To run the example:\n\n```python example.py```\n\n# CIFAR 10 example\n\nThe file ```cifar10_example.py``` contains a minimal working example of the CIFAR 10 dataset. It achieves an accuracy of 39% with arbitrary hyper-parameters and not fully converged. To run the example:\n\n```python cifar10_example.py```\n\n# Used by\n\n[FastMoE: A Fast Mixture-of-Expert Training System](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.13262.pdf) This implementation was used as a reference PyTorch implementation for single-GPU training. \n\n# Acknowledgements\n\nThe code is based on the TensorFlow implementation that can be found [here](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Ftensor2tensor\u002Fblob\u002Fmaster\u002Ftensor2tensor\u002Futils\u002Fexpert_utils.py).\n\n\n# Citing\n```\n@misc{rau2019moe,\n    title={Sparsely-gated Mixture-of-Experts PyTorch implementation},\n    author={Rau, David},\n    journal={https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts},\n    year={2019}\n}\n```\n\n","# 用于 PyTorch 的稀疏门控专家混合层\n\n\n\n![source: https:\u002F\u002Ftechburst.io\u002Foutrageously-large-neural-network-gated-mixture-of-experts-billions-of-parameter-same-d3e901f2fe05](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdavidmrau_mixture-of-experts_readme_0aed23d78f10.png)\n\n\n本仓库包含了论文《极其庞大的神经网络》（[arXiv:1701.06538](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.06538)）中描述的稀疏门控 MoE 层的 PyTorch 重实现。\n```python\n\nfrom moe import MoE\nimport torch\n\n# 实例化 MoE 层\nmodel = MoE(input_size=1000, output_size=20, num_experts=10,hidden_size=66, k= 4, noisy_gating=True)\n\nX = torch.rand(32, 1000)\n\n# 训练模式\nmodel.train()\n# 前向传播\ny_hat, aux_loss = model(X)\n\n# 评估模式\nmodel.eval()\ny_hat, aux_loss = model(X)\n\n```\n\n\n\n\n\n\n# 环境要求\n\n安装依赖项请运行：\n\n```pip install -r requirements.py```\n\n\n# 示例\n\n文件 ```example.py``` 包含一个最小可运行示例，展示了如何使用虚拟输入和目标来训练和评估 MoE 层。运行示例命令如下：\n\n```python example.py```\n\n# CIFAR-10 示例\n\n文件 ```cifar10_example.py``` 包含一个基于 CIFAR-10 数据集的最小可运行示例。在未完全收敛且采用任意超参数的情况下，该示例达到了 39% 的准确率。运行示例命令如下：\n\n```python cifar10_example.py```\n\n# 使用单位\n\n[FastMoE：一种快速的专家混合训练系统](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.13262.pdf) 本实现被用作单 GPU 训练的参考 PyTorch 实现。\n\n# 致谢\n\n该代码基于 TensorFlow 实现，TensorFlow 实现可在 [这里](https:\u002F\u002Fgithub.com\u002Ftensorflow\u002Ftensor2tensor\u002Fblob\u002Fmaster\u002Ftensor2tensor\u002Futils\u002Fexpert_utils.py) 找到。\n\n\n# 引用\n```\n@misc{rau2019moe,\n    title={稀疏门控专家混合层的 PyTorch 实现},\n    author={Rau, David},\n    journal={https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts},\n    year={2019}\n}\n```","# Mixture-of-Experts (MoE) 快速上手指南\n\n本指南基于 David Rau 的 PyTorch 实现，帮助开发者快速部署稀疏门控混合专家（Sparsely Gated MoE）层。该实现参考了论文《Outrageously Large Neural Networks》。\n\n## 环境准备\n\n- **系统要求**：支持 Python 3.6+ 的操作系统（Linux\u002FmacOS\u002FWindows）。\n- **核心依赖**：\n  - PyTorch\n  - 其他依赖项详见项目根目录下的 `requirements.py` 文件。\n\n> **提示**：国内开发者建议使用清华或阿里镜像源加速 PyTorch 及相关库的安装。\n\n## 安装步骤\n\n1. 克隆或下载本项目代码到本地。\n2. 进入项目目录，运行以下命令安装依赖：\n\n```bash\npip install -r requirements.py\n```\n\n> **国内加速建议**：若安装缓慢，可添加国内镜像源参数：\n> ```bash\n> pip install -r requirements.py -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 基本使用\n\n以下是最小化的代码示例，展示如何实例化 MoE 层并进行前向传播（训练与评估模式）。\n\n```python\nfrom moe import MoE\nimport torch\n\n# 实例化 MoE 层\n# 参数说明：\n# input_size: 输入维度\n# output_size: 输出维度\n# num_experts: 专家数量\n# hidden_size: 隐藏层维度\n# k: 每次激活的专家数量 (top-k)\n# noisy_gating: 是否启用噪声门控\nmodel = MoE(input_size=1000, output_size=20, num_experts=10, hidden_size=66, k=4, noisy_gating=True)\n\n# 构造随机输入数据 (Batch size=32, Input dim=1000)\nX = torch.rand(32, 1000)\n\n# --- 训练模式 ---\nmodel.train()\n# 前向传播，返回预测值和辅助损失 (aux_loss 用于负载均衡正则化)\ny_hat, aux_loss = model(X)\n\n# --- 评估模式 ---\nmodel.eval()\ny_hat, aux_loss = model(X)\n```\n\n### 运行示例脚本\n\n项目提供了两个现成的示例脚本供参考：\n\n1. **基础示例**（使用虚拟数据）：\n   ```bash\n   python example.py\n   ```\n\n2. **CIFAR-10 数据集示例**：\n   ```bash\n   python cifar10_example.py\n   ```\n   *注：默认超参数下该示例准确率约为 39%，仅供流程参考，需进一步调优以达到收敛。*","某大型电商平台的算法团队正在构建下一代智能推荐系统，需要处理海量用户行为数据并实时预测点击率，但受限于算力成本，难以部署超大规模模型。\n\n### 没有 mixture-of-experts 时\n- **模型容量受限**：为了控制显存占用和计算延迟，团队被迫使用参数量较小的稠密网络，导致模型无法捕捉复杂的长尾用户兴趣，推荐准确率遭遇瓶颈。\n- **资源浪费严重**：无论输入数据简单还是复杂，所有神经元都必须参与计算，导致在处理简单样本时算力空转，能源效率低下。\n- **扩展性差**：试图通过简单增加网络层数来提升效果时，训练时间呈指数级增长，且极易出现梯度消失或过拟合，难以落地十亿级参数模型。\n- **推理延迟高**：庞大的全连接层导致单次推理耗时过长，无法满足大促期间毫秒级响应的实时推荐需求。\n\n### 使用 mixture-of-experts 后\n- **稀疏激活突破容量限制**：mixture-of-experts 允许构建包含数十亿参数的超大模型，但每次前向传播仅激活其中少数几个“专家”网络，在不增加计算量的前提下大幅提升了模型表达能力。\n- **动态路由提升效率**：门控机制能根据输入特征自动选择最合适的专家进行处理，简单样本快速通过，复杂样本由专长专家深度分析，显著降低了无效计算。\n- **线性扩展训练规模**：团队可以轻松增加专家数量来扩展模型规模，训练速度几乎与专家数量无关，成功在单卡环境下验证了十亿参数模型的可行性。\n- **兼顾高精度与低延迟**：在保持原有推理延迟不变的情况下，推荐系统的点击率（CTR）预估精度提升了 15%，完美平衡了性能与成本。\n\nmixture-of-experts 通过“分而治之”的稀疏激活策略，让开发者能够以极低的计算代价驾驭超大规模神经网络，彻底打破了模型容量与推理效率之间的传统权衡。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdavidmrau_mixture-of-experts_97a9dd54.png","davidmrau","David Rau","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdavidmrau_f5189b32.jpg","Search & Embeddings @ Cohere","University of Amsterdam","Amsterdam","david.rau@hotmail.de",null,"https:\u002F\u002Fgithub.com\u002Fdavidmrau",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,1240,111,"2026-03-17T07:03:30","GPL-3.0","","未说明",{"notes":93,"python":91,"dependencies":94},"README 中未明确列出具体的操作系统、GPU、内存及 Python 版本要求。安装依赖的命令示例为 'pip install -r requirements.py'（通常应为 requirements.txt）。该工具是基于 TensorFlow 实现的 PyTorch 复现版，主要用于稀疏门控混合专家（MoE）层的研究与实验。",[95],"torch",[14],[98,64,99,100,101],"moe","sparsely-gated-mixture-of-experts","pytorch","re-implementation","2026-03-27T02:49:30.150509","2026-04-07T10:53:32.909387",[105,110,115,120,125,130,135],{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},21761,"为什么在训练过程中 w_gate 的梯度始终为零且参数不更新？","这通常是因为没有使用辅助负载均衡损失（load-balance loss, l_aux）。如果不使用该损失，当 k=1 时，w_gate 的更新可能仅依赖于负载均衡损失而非主损失（如分类损失）。此外，如果替换了原始的 softmax 计算方式（例如直接使用 logits 归一化），当 k>1 时可能会产生负的 gate 值导致问题。建议在计算 gate 前先对 logits 应用 `F.softmax(logits, dim=1)`，或者确保在训练中包含了辅助负载均衡损失。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F27",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},21762,"在特定版本的 PyTorch（如 1.11.0）中，为什么门控参数（gates parameters）无法学习？","在较新版本的 PyTorch 中，对 `nn.Parameter` 直接调用 `.to(self.device)` 会将其转换为普通的 `nn.Tensor`，导致其不再被注册为模型参数从而无法更新。解决方法是移除代码中的 `.to(self.device)` 调用。门控权重（如 `self.w_gate` 和 `self.w_noise`）在初始化时已被注册为参数，可以在 `__init__` 外部通过将整个模型移动到设备（例如 `model.to(device)`）来自动处理设备转移。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F12",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},21763,"为什么专家网络（MLP experts）的输出层使用了 `nn.LogSoftmax`？","最初使用 `nn.LogSoftmax` 是为了配合负对数似然损失（NLLLoss）以及方便使用 `index_add` 函数（因为不存在 `index_multiply`）。但在某些示例（如 CIFAR）中使用交叉熵损失（CrossEntropyLoss）时，这会导致不一致。维护者已修复此问题，建议将 `LogSoftmax` 替换为普通的 `Softmax`，或者直接根据使用的损失函数调整输出层逻辑。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F13",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},21764,"在验证集上运行代码时，为什么会出现除以零的错误（noise_stddev 为零）？","这是因为在验证模式下（`train=False`），噪声标准差 `noise_stddev` 的计算公式中包含乘以 `train` 变量，导致其变为 0。随后在计算概率 `prob_if_in` 时，公式 `(clean_values - threshold_if_in) \u002F noise_stddev` 会导致除以零错误。这是一个已知的实现细节问题，通常需要修改代码以在评估阶段避免除以零，例如给 `noise_stddev` 添加一个极小值 epsilon，或者在 `train=False` 时跳过涉及噪声的概率计算步骤。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F9",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},21765,"是否有使用真实数据集（如 CIFAR-10）的训练示例？","有的。维护者已经添加了使用 CIFAR-10 数据集的示例代码。你可以参考仓库中的 `cifar10_example.py` 文件来了解如何在真实数据集上配置和运行混合专家模型。此外，Fashion-MNIST 也是一个常用的测试数据集。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F3",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},21766,"由于 Top-k 操作不可导，w_gate 和 w_noise 如何通过反向传播进行更新？","虽然 Top-k 选择操作本身是不可导的，但该实现采用了“噪声 Top-k 门控”（noisy top-k gating）机制。通过在 logits 中加入可学习的噪声，并使用软化的阈值处理（利用正态分布累积分布函数 CDF 计算概率），使得门控过程在期望上是可导的。此外，梯度的更新很大程度上依赖于辅助负载均衡损失（load balancing loss），该损失提供了关于门控参数的梯度信号，从而允许 `w_gate` 和 `w_noise` 在训练中被有效更新。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F11",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},21767,"在回归任务中训练时，为什么 `self.w_gate` 会变成 NaN？","这通常发生在将模型从分类任务修改为回归任务时（例如将损失函数改为 `MSELoss` 并移除输出层的 Softmax）。如果出现 NaN，可能是由于数据未正确归一化、学习率过高或梯度爆炸导致的。建议首先检查数据集的预处理，尝试降低学习率，或者启用梯度裁剪（gradient clipping）。如果仅在特定数据集上出现该问题，需排查该数据集是否存在异常值或分布问题。","https:\u002F\u002Fgithub.com\u002Fdavidmrau\u002Fmixture-of-experts\u002Fissues\u002F16",[]]