[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-CuriousAI--mean-teacher":3,"tool-CuriousAI--mean-teacher":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",155373,2,"2026-04-14T11:34:08",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":76,"owner_website":76,"owner_url":78,"languages":79,"stars":88,"forks":89,"last_commit_at":90,"license":91,"difficulty_score":10,"env_os":92,"env_gpu":93,"env_ram":93,"env_deps":94,"category_tags":99,"github_topics":100,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":106,"updated_at":107,"faqs":108,"releases":143},7546,"CuriousAI\u002Fmean-teacher","mean-teacher","A state-of-the-art semi-supervised method for image recognition","Mean Teacher 是一种先进的半监督图像识别方法，旨在帮助开发者在标注数据稀缺的情况下，依然能训练出高精度的深度学习模型。它主要解决了传统监督学习过度依赖大量昂贵标注数据的问题，通过巧妙利用未标注数据来提升模型性能。\n\n该工具特别适合人工智能研究人员和深度学习开发者使用，尤其是那些需要在 ImageNet 或 CIFAR 等数据集上进行图像分类任务，但面临标注样本不足困境的团队。其核心亮点在于独特的“师生”协同机制：系统同时维护一个“学生”模型和一个“教师”模型。在训练过程中，“学生”模型通过常规反向传播更新权重，而“教师”模型的权重则是“学生”权重的指数移动平均（EMA）。通过最小化两者对同一输入（经过不同噪声增强）预测结果的一致性误差，Mean Teacher 能有效引导模型学习到更稳健的特征表示。相比早期的半监督方法，它在处理大规模数据集时表现更为准确且稳定，并提供了 TensorFlow 和 PyTorch 两种主流框架的实现版本，便于用户快速集成到现有项目中。","# Mean teachers are better role models\n\n[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.01780) ---- [NIPS 2017 poster](nips_2017_poster.pdf) ---- [NIPS 2017 spotlight slides](nips_2017_slides.pdf) ---- [Blog post](https:\u002F\u002Fthecuriousaicompany.com\u002Fmean-teacher\u002F)\n\nBy Antti Tarvainen, Harri Valpola ([The Curious AI Company](https:\u002F\u002Fthecuriousaicompany.com\u002F))\n\n## Approach\n\nMean Teacher is a simple method for semi-supervised learning. It consists of the following steps:\n\n1. Take a supervised architecture and make a copy of it. Let's call the original model the **student** and the new one the **teacher**.\n2. At each training step, use the same minibatch as inputs to both the student and the teacher but add random augmentation or noise to the inputs separately.\n3. Add an additional *consistency cost* between the student and teacher outputs (after softmax).\n4. Let the optimizer update the student weights normally.\n5. Let the teacher weights be an exponential moving average (EMA) of the student weights. That is, after each training step, update the teacher weights a little bit toward the student weights.\n\nOur contribution is the last step. Laine and Aila [\\[paper\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1610.02242) used shared parameters between the student and the teacher, or used a temporal ensemble of teacher predictions. In comparison, Mean Teacher is more accurate and applicable to large datasets.\n\n![Mean Teacher model](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCuriousAI_mean-teacher_readme_388f91efd018.png)\n\nMean Teacher works well with modern architectures. Combining Mean Teacher with ResNets, we improved the state of the art in semi-supervised learning on the ImageNet and CIFAR-10 datasets.\n\nImageNet using 10% of the labels | top-5 validation error\n---------------------------------|------------------------\nVariational Auto-Encoder [\\[paper\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.08976) | 35.42 ± 0.90\nMean Teacher ResNet-152          |  **9.11 ± 0.12**\nAll labels, state of the art [\\[paper\\]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1709.01507.pdf) |  3.79\n\nCIFAR-10 using 4000 labels   | test error\n-----------------------------|-----------\nCT-GAN [\\[paper\\]](https:\u002F\u002Fopenreview.net\u002Fforum?id=SJx9GQb0-) | 9.98 ± 0.21\nMean Teacher ResNet-26\t     | **6.28 ± 0.15**\nAll labels, state of the art [\\[paper\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.07485) | 2.86\n\n\n## Implementation\n\nThere are two implementations, one for TensorFlow and one for PyTorch.\nThe PyTorch version is probably easier to adapt to your needs,\nsince it follows typical PyTorch idioms, and there's a natural place to\nadd your model and dataset. Let me know if anything needs clarification.\n\nRegarding the results in the paper, the experiments using a traditional\nConvNet architecture were run with the TensorFlow version.\nThe experiments using residual networks were run with the PyTorch version.\n\n\n## Tips for choosing hyperparameters and other tuning\n\nMean Teacher introduces two new hyperparameters: EMA decay rate and consistency cost weight. The optimal value for each of these depends on the dataset, the model, and the composition of the minibatches. You will also need to choose how to interleave unlabeled samples and labeled samples in minibatches.\n\nHere are some rules of thumb to get you started:\n\n* If you are working on a new dataset, it may be easiest to start with only labeled data and do pure supervised training. Then when you are happy with the architecture and hyperparameters, add mean teacher. The same network should work well, although you may want to tune down regularization such as weight decay that you have used with small data.\n* Mean Teacher needs some noise in the model to work optimally. In practice, the best noise is probably random input augmentations. Use whatever relevant augmentations you can think of: the algorithm will train the model to be invariant to them.\n* It's useful to dedicate a portion of each minibatch for labeled examples. Then the supervised training signal is strong enough early on to train quickly and prevent getting stuck into uncertainty. In the PyTorch examples we have a quarter or a half of the minibatch for the labeled examples and the rest for the unlabeled. (See [TwoStreamBatchSampler](pytorch\u002Fmean_teacher\u002Fdata.py#L98) in Pytorch code.)\n* For EMA decay rate 0.999 seems to be a good starting point.\n* You can use either MSE or KL-divergence as the consistency cost function. For KL-divergence, a good consistency cost weight is often between 1.0 and 10.0. For MSE, it seems to be between the number of classes and the number of classes squared. On small datasets we saw MSE getting better results, but KL always worked pretty well too.\n* It may help to ramp up the consistency cost in the beginning over the first few epochs until the teacher network starts giving good predictions. \n* An additional trick we used in the PyTorch examples: Have two seperate logit layers at the top level. Use one for classification of labeled examples and one for predicting the teacher output. And then have an additional cost between the logits of these two predictions. The intent is the same as with the consistency cost rampup: in the beginning the teacher output may be wrong, so loosen the link between the classification prediction and the consistency cost. (See the [--logit-distance-cost](https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fblob\u002Fmaster\u002Fpytorch\u002Fmean_teacher\u002Fcli.py#L65-L66) argument in the PyTorch implementation.)\n","# 冷酷的教师是更好的榜样\n\n[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.01780) ---- [NIPS 2017 海报](nips_2017_poster.pdf) ---- [NIPS 2017 焦点演讲幻灯片](nips_2017_slides.pdf) ---- [博客文章](https:\u002F\u002Fthecuriousaicompany.com\u002Fmean-teacher\u002F)\n\n作者：Antti Tarvainen、Harri Valpola（好奇人工智能公司）\n\n## 方法\n\n均值教师是一种简单的半监督学习方法。其步骤如下：\n\n1. 拿一个有监督的模型架构并复制一份。我们称原始模型为“学生”，新模型为“教师”。\n2. 在每个训练步骤中，将相同的迷你批次分别输入到学生和教师模型中，但对输入分别添加随机增强或噪声。\n3. 在学生和教师的输出之间（经过 softmax 后）加入额外的一致性损失项。\n4. 让优化器正常更新学生的权重。\n5. 教师的权重设置为学生权重的指数移动平均（EMA）。也就是说，在每个训练步骤后，教师的权重会稍微向学生权重靠拢。\n\n我们的贡献在于最后一步。Laine 和 Aila [\\[论文\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1610.02242) 使用了学生和教师之间的共享参数，或者使用了教师预测的时间集成。相比之下，均值教师更加准确，并且适用于大规模数据集。\n\n![均值教师模型](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCuriousAI_mean-teacher_readme_388f91efd018.png)\n\n均值教师与现代架构配合良好。通过将均值教师与 ResNet 结合，我们在 ImageNet 和 CIFAR-10 数据集上的半监督学习性能达到了新的高度。\n\nImageNet 使用 10% 标签 | 验证集 top-5 错误率\n---------------------------------|------------------------\n变分自编码器 [\\[论文\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1609.08976) | 35.42 ± 0.90\n均值教师 ResNet-152          | **9.11 ± 0.12**\n全部标签，当前最优结果 [\\[论文\\]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1709.01507.pdf) | 3.79\n\nCIFAR-10 使用 4000 个标签   | 测试错误率\n-----------------------------|-----------\nCT-GAN [\\[论文\\]](https:\u002F\u002Fopenreview.net\u002Fforum?id=SJx9GQb0-) | 9.98 ± 0.21\n均值教师 ResNet-26\t     | **6.28 ± 0.15**\n全部标签，当前最优结果 [\\[论文\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F1705.07485) | 2.86\n\n\n## 实现\n\n我们提供了两个实现版本，分别针对 TensorFlow 和 PyTorch。\nPyTorch 版本可能更容易根据你的需求进行调整，\n因为它遵循典型的 PyTorch 编程习惯，并且可以很方便地集成你的模型和数据集。如果有什么不清楚的地方，请随时联系我。\n\n关于论文中的实验结果，使用传统卷积网络架构的实验是用 TensorFlow 版本完成的。\n而使用残差网络的实验则是用 PyToch 版本完成的。\n\n\n## 超参数选择及其他调优技巧\n\n均值教师引入了两个新的超参数：EMA 衰减率和一致性损失权重。这两个参数的最佳取值取决于数据集、模型以及迷你批次的组成。此外，你还需要决定如何在迷你批次中混合无标签样本和有标签样本。\n\n以下是一些入门级的经验法则：\n\n* 如果你在处理一个新的数据集，最简单的方法是从仅有有标签数据开始，进行纯监督训练。等你对模型架构和超参数感到满意后，再加入均值教师。通常情况下，同样的网络仍然适用，不过你可能需要适当降低之前在小数据集上使用的正则化强度，比如权重衰减。\n* 均值教师需要一定的噪声才能达到最佳效果。实践中，最好的噪声来源往往是随机的输入增强。你可以尝试任何相关的增强技术——算法会训练模型对这些变换保持不变。\n* 建议在每个迷你批次中预留一部分用于有标签样本。这样，早期的监督信号会足够强，有助于快速训练并避免陷入不确定性状态。在 PyTorch 的示例中，我们通常将迷你批次的四分之一或二分之一用于有标签样本，其余部分用于无标签样本。（参见 PyTorch 代码中的 [TwoStreamBatchSampler](pytorch\u002Fmean_teacher\u002Fdata.py#L98)。）\n* 对于 EMA 衰减率，0.999 通常是一个不错的起点。\n* 一致性损失函数可以选择 MSE 或 KL 散度。对于 KL 散度，一致性损失权重一般在 1.0 到 10.0 之间；而对于 MSE，则通常介于类别数和类别数的平方之间。在小规模数据集上，我们发现 MSE 往往能取得更好的效果，不过 KL 散度的表现也一直很稳定。\n* 在训练初期的前几个 epoch 中逐步增加一致性损失，直到教师模型开始给出较为准确的预测，可能会有所帮助。\n* 我们在 PyTorch 示例中还使用了一个额外的小技巧：在顶层设置两个独立的 logits 层。其中一个用于有标签样本的分类，另一个用于预测教师的输出。然后在这两个预测的 logits 之间再添加一项额外的损失。这一做法的目的与逐步增加一致性损失类似：在训练初期，教师的预测可能还不太准确，因此需要暂时放松分类预测与一致性损失之间的关联。（参见 PyTorch 实现中的 [--logit-distance-cost](https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fblob\u002Fmaster\u002Fpytorch\u002Fmean_teacher\u002Fcli.py#L65-L66) 参数。）","# Mean Teacher 快速上手指南\n\nMean Teacher 是一种高效的半监督学习方法，通过维护一个“教师”模型（学生模型权重的指数移动平均）来指导学生模型的训练，从而在标签数据稀缺的情况下显著提升性能。本项目提供 TensorFlow 和 PyTorch 两种实现，本指南以更易扩展的 **PyTorch** 版本为例。\n\n## 环境准备\n\n*   **操作系统**: Linux, macOS 或 Windows\n*   **Python**: 3.6 及以上版本\n*   **核心依赖**:\n    *   PyTorch (推荐最新稳定版)\n    *   torchvision\n    *   NumPy\n    *   Pillow\n*   **硬件建议**: 推荐使用 NVIDIA GPU 以加速训练过程。\n\n## 安装步骤\n\n1.  **克隆项目仓库**\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher.git\n    cd mean-teacher\u002Fpytorch\n    ```\n\n2.  **安装 Python 依赖**\n    建议使用国内镜像源（如清华源）加速安装：\n    ```bash\n    pip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    ```\n    *注：如果 `requirements.txt` 未明确指定 PyTorch 版本，请根据官方文档单独安装适合你 CUDA 版本的 PyTorch：*\n    ```bash\n    # 示例：安装 CPU 版本 (如有需要)\n    pip install torch torchvision -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n    \n    # 示例：安装 CUDA 11.8 版本 (请根据实际情况调整)\n    # pip install torch torchvision --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    ```\n\n## 基本使用\n\n以下示例展示如何在 CIFAR-10 数据集上启动半监督训练。该脚本会自动处理数据下载、增强以及 Mean Teacher 的核心逻辑（一致性成本计算与 EMA 更新）。\n\n1.  **运行训练脚本**\n    在项目根目录 (`pytorch\u002F`) 下执行：\n\n    ```bash\n    python main.py --dataset cifar10 --labels 4000 --arch resnet26\n    ```\n\n    **参数说明：**\n    *   `--dataset`: 数据集名称 (支持 `cifar10`, `cifar100`, `mnist` 等)。\n    *   `--labels`: 使用的有标签样本数量 (例如 `4000` 表示仅用 4000 张带标签图片，其余作为无标签数据)。\n    *   `--arch`: 模型架构 (例如 `resnet26`, `convnet`)。\n\n2.  **关键超参数调优建议**\n    为了获得最佳效果，可根据实际情况调整以下参数（直接追加到上述命令后）：\n\n    *   **EMA 衰减率**: 默认通常为 0.999，可作为起点。\n        ```bash\n        --ema-decay 0.999\n        ```\n    *   **一致性成本权重**: 若使用 KL 散度，建议在 1.0 到 10.0 之间；若使用 MSE，通常在类别数到类别数平方之间。\n        ```bash\n        --consistency 10.0\n        ```\n    *   **Logit 距离成本**: 用于在训练初期解耦分类预测与一致性成本，防止教师模型早期预测不准影响训练。\n        ```bash\n        --logit-distance-cost 0.1\n        ```\n\n    **完整示例命令：**\n    ```bash\n    python main.py --dataset cifar10 --labels 4000 --arch resnet26 --ema-decay 0.999 --consistency 10.0 --logit-distance-cost 0.1\n    ```\n\n训练过程中，模型将自动利用无标签数据的一致性约束来优化学生网络，并同步更新教师网络的权重。","某医疗影像初创团队正在开发肺结节检测系统，但面临大量未标注的 CT 扫描数据与极少量专家标注样本的困境。\n\n### 没有 mean-teacher 时\n- **模型过拟合严重**：仅靠有限的几千张标注图片训练，模型死记硬背了训练集特征，在面对新医院设备拍摄的图像时准确率断崖式下跌。\n- **数据浪费巨大**：仓库中积累的数万张未标注 CT 影像完全无法参与训练，只能闲置，导致模型泛化能力先天不足。\n- **标注成本高昂**：为了提升效果，团队被迫花费数月时间和高额预算聘请放射科医生进行人工补标，项目进度严重滞后。\n- **鲁棒性差**：模型对图像的轻微旋转、亮度变化或噪声非常敏感，实际部署中误报率居高不下。\n\n### 使用 mean-teacher 后\n- **充分利用未标注数据**：通过引入“教师 - 学生”一致性约束，成功将数万张未标注影像纳入训练，显著提升了模型对未知数据的适应能力。\n- **大幅降低标注依赖**：在仅使用 10% 原有标注数据的情况下，达到了接近全量标注的训练效果，节省了 90% 的新增标注预算。\n- **增强抗干扰能力**：利用随机增强和噪声输入机制，强制模型学习图像的本质特征而非表面噪声，对不同角度和质量的 CT 片表现稳定。\n- **收敛更平滑高效**：教师模型权重的指数移动平均（EMA）机制充当了稳定的目标参考，避免了训练过程中的剧烈震荡，加速了模型收敛。\n\nmean-teacher 通过巧妙的半监督学习机制，让海量无标签数据转化为模型性能的提升动力，以极低代价解决了小样本场景下的过拟合难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FCuriousAI_mean-teacher_9bb5a1e5.png","CuriousAI","Curious AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FCuriousAI_12bca190.png","Deep good. Unsupervised better.",null,"valpola+githubcai@gmail.com","https:\u002F\u002Fgithub.com\u002FCuriousAI",[80,84],{"name":81,"color":82,"percentage":83},"Python","#3572A5",98.3,{"name":85,"color":86,"percentage":87},"Shell","#89e051",1.7,1661,342,"2026-04-14T09:16:44","NOASSERTION","","未说明",{"notes":95,"python":93,"dependencies":96},"该工具提供 TensorFlow 和 PyTorch 两种实现版本。其中 PyTorch 版本更易于适配自定义模型和数据集。文中提到的实验结果分别基于传统 ConvNet（使用 TensorFlow）和残差网络（使用 PyTorch）得出。README 中未明确列出具体的操作系统、GPU 型号、显存大小、内存需求、Python 版本及依赖库的具体版本号。",[97,98],"TensorFlow","PyTorch",[14],[101,102,103,104,105],"deep-learning","semi-supervised-learning","nips-2017","tensorflow","pytorch","2026-03-27T02:49:30.150509","2026-04-15T06:56:52.779255",[109,114,119,123,128,133,138],{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},33835,"代码与最新版本的 PyTorch 不兼容，报错或无法运行怎么办？","该代码库较旧，可能不直接支持最新的 PyTorch 版本。用户反馈在 PyTorch 0.4.1 + Python 3 环境下无法工作。如果遇到 `.data` 属性被移除的问题，需将其更改为 `.item()`。若修改后出现 `RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM`，通常是因为版本不匹配或参数设置问题，建议尝试使用代码原本适配的旧版 PyTorch（如 0.3.x 或 0.4.0），或者参考社区贡献的更新版本。","https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fissues\u002F27",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},33836,"如何调整网络以适应不同尺寸的输入图像（非 32x32）？","默认代码是针对 32x32 图像尺寸设计的。如果直接使用其他尺寸（如改变输入分辨率），可能会在网络前向传播时因维度不匹配而报错。要适配不同尺寸，通常需要修改网络架构中的全连接层输入维度，或者使用适应可变输入尺寸的卷积神经网络结构（如全局平均池化）。如果只是测试，最简单的方法是先将图像 Resize 到 32x32。","https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fissues\u002F7",{"id":120,"question_zh":121,"answer_zh":122,"source_url":118},33837,"在计算分类损失时，应该使用 softmax 后的输出还是原始 logits？","应该使用原始 logits（即网络的直接输出）。代码中 `class_criterion` 通常是 `CrossEntropyLoss`，该损失函数内部已经包含了 Softmax 操作，因此期望的输入是未经过 Softmax 的 logits。如果在传入损失函数前先对输出做了 Softmax，会导致计算错误。代码中定义的 `softmax1, softmax2` 变量如果是用于其他目的（如调试或一致性损失计算）是可以的，但在计算分类交叉熵损失时应直接传入 `output1`。",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},33838,"运行 SVHN 数据集训练时，准确率只有 90% 左右，达不到论文中的 96%，原因是什么？","准确率偏低通常由以下原因造成：\n1. **超参数错误**：检查 `max_consistency_cost` 参数，论文中使用的是 `1.0`，如果误设为 `100.0` 会导致性能下降。\n2. **评估集不同**：默认的 `train_svhn.py` 是从训练集中划分验证集进行评估，这比论文中使用的独立测试集（Test Set）更难，且训练数据变少，导致准确率自然偏低。\n3. **评估指标**：论文报告的是 `eval\u002Ferror\u002Fema`（指数移动平均模型的误差），这通常比普通模型 `eval\u002Ferror\u002F1` 的结果更好。\n建议运行 `experiments\u002Fsvhn_final_eval.py` 脚本，它包含了论文中接近最优的超参数配置，以复现论文结果。","https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fissues\u002F4",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},33839,"运行代码时遇到 AttributeError: 'DataFrame' object has no attribute 'to_msgpack' 错误如何解决？","这是因为新版 Pandas（如 1.0.1+）移除了 `to_msgpack` 方法。解决方法是将 Pandas 版本降级到旧版本。根据社区反馈，尝试安装 `pandas==0.20.3` 可以解决此问题。可以使用命令 `pip install pandas==0.20.3` 进行安装。注意：如果 0.20.3 仍不行，可能需要尝试该版本附近的其他旧版本，直到找到兼容的版本。","https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fissues\u002F40",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},33840,"Mean Teacher 方法中，学生模型和教师模型必须使用不同的增强输入吗？使用相同输入会影响性能吗？","输入通常是同一图像的不同增强版本（transformed versions）。关于是否必须不同，维护者和讨论者认为：即使使用相同的输入，由于学生网络和教师网络（EMA 模型）的参数本身存在差异，它们的输出仍然会不同，因此 Mean Teacher 的性能可能不会大幅下降。相比之下，像 Pi-model 这样仅依赖输入变换和 Dropout 作为变异来源的方法，如果使用相同输入可能会受到更大影响。不过，为了获得最佳的正则化效果，通常建议仍使用不同的数据增强。","https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fissues\u002F13",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},33841,"该项目代码的开源许可证是什么？可以用于商业或二次开发吗？","项目维护者已在仓库中添加许可证文件（LICENSE.txt）并在所有文件顶部注明。最初讨论时曾考虑 Creative Commons (CC) 协议，但社区指出 CC 协议不推荐用于软件代码，因为它缺乏针对源代码分发和专利权的条款，且与其他主流软件许可证不兼容。最终项目采用了适合软件的许可证（具体请查看仓库根目录下的 LICENSE.txt 文件，通常为 Apache 2.0 或 MIT 等宽松协议，需以实际文件为准），允许用户在遵守条款的前提下使用和修改代码。","https:\u002F\u002Fgithub.com\u002FCuriousAI\u002Fmean-teacher\u002Fissues\u002F15",[]]