Semi-supervised-learning

1.6k 213 中等 1 次阅读 5天前MIT音频开发框架语言模型图像

AI 解读由 AI 自动生成，仅供参考

Semi-supervised-learning（又名 USB）是一个由微软推出的统一半监督学习代码库，旨在为计算机视觉、自然语言处理和音频分类领域提供标准化的基准测试平台。在半监督学习中，模型需要利用少量标注数据和大量未标注数据进行训练，但以往的研究往往因实验设置不统一、代码分散而难以公平对比不同算法的性能。USB 通过整合多种主流算法与数据集，解决了这一痛点，让研究人员能够在完全一致的环境下复现结果、评估新方法。

该项目特别适合人工智能领域的研究人员和开发者使用。无论是希望快速验证新算法效果的学者，还是想要在实际应用中利用未标注数据提升模型性能的工程师，都能从中受益。其核心亮点在于“统一性”：它不仅封装了包括 FixMatch、DeFixMatch、EPASS 等在内的多种前沿算法，还提供了模块化的架构设计，支持用户轻松扩展新任务或自定义数据增强策略。此外，项目已正式融入 PyTorch 生态系统，并配套了详细的文档、Colab 演示及多语言博客教程，极大降低了上手门槛。如果你正在探索如何更高效地挖掘未标注数据的价值，Semi-supervised-learning 将是一个值得信赖的起点。

使用场景

某医疗影像初创团队正致力于开发肺炎 X 光片自动筛查系统，但面临医院标注数据稀缺且昂贵的困境。

没有 Semi-supervised-learning 时

数据利用率极低：团队仅能使用少量医生精标数据训练模型，大量未标注的临床影像被闲置浪费。
模型泛化能力差：由于训练样本不足，模型在面对不同设备拍摄或复杂病灶的图像时，误诊率居高不下。
研发成本高昂：为了提升准确率，团队不得不投入巨额预算聘请专家进行人工标注，严重拖慢产品迭代速度。
算法验证困难：缺乏统一基准，难以公平对比 FixMatch、FlexMatch 等不同半监督算法在医疗场景下的真实表现。

使用 Semi-supervised-learning 后

海量数据激活：借助 USB 统一的代码框架，团队轻松将未标注影像纳入训练，通过一致性正则化挖掘数据潜在价值。
准确率显著跃升：在同等标注量下，模型利用半监督学习策略大幅提升了鲁棒性，对疑难杂症的识别精度接近全监督高水平。
标注成本骤降：仅需极少量种子数据即可启动训练，减少了对人工标注的依赖，使项目预算降低 70% 以上。
高效算法选型：直接调用内置的 Benchmark 模块，快速复现并对比多种 SOTA 算法，迅速锁定最适合医疗影像的最优方案。

Semi-supervised-learning 通过统一基准与高效算法库，让企业在低标注成本下实现了医疗 AI 模型性能的突破性增长。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU (Docker 部分明确提及)，需安装 nvidia-docker2
README 中提到的测试环境基于 CUDA 11.6，建议根据 PyTorch 版本匹配对应的 CUDA 版本

内存

未说明

依赖

notes该项目名为 USB (Unified Semi-supervised learning Benchmark)，支持 CV、NLP 和音频分类任务。可以通过 pip 直接安装 'semilearn' 包使用，也可以克隆源码进行开发。如果使用 Docker，需根据本地 CUDA 版本修改 Dockerfile 中的基础镜像标签和 PyTorch 安装源。运行前需按照 preprocess 目录下的说明下载并处理数据集。

python3.8

torch

torchvision

torchaudio

transformers

semilearn

快速开始

USB: 一种用于计算机视觉、自然语言处理和音频分类的统一半监督学习基准
论文 · 基准测试结果 · 演示 · 文档 · 问题 · 博客 · 博客（PyTorch） · 博客（中文） · 视频 · 视频（中文）

新闻与更新
简介
开始使用
- 先决条件
- 安装
使用
基准测试结果
模型库
社区
许可证
致谢

新闻与更新

[2024年3月16日] 添加 EPASS、SequenceMatch 和 ReFixMatch。修复了一些拼写错误。
[2023年7月7日] 添加 DeFixmatch。修复了一些 bug。发布 semilearn=0.3.1/
[2023年6月1日] USB 已正式加入 PyTorch 生态系统！[Pytorch 博客]
[2023年1月30日] 更新 semilearn==0.3.0。添加 FreeMatch 和 SoftMatch。增加不平衡数据算法。更新结果并支持 wandb。详情请参阅 CHANGE_LOG。[结果][日志][Wandb]。旧的经典日志可以在这里找到：[TorchSSL 日志]。
[2022年10月16日] 数据集下载链接和处理说明发布！[数据集]
[2022年10月13日] 我们已完成最终版本，并更新了 [结果]。[Openreview]
[2022年10月6日] USB 的训练日志和结果已更新！可用的数据集将很快上传。[日志] [结果]
[2022年9月17日] USB 论文已被 NeurIPS 2022 数据集与基准赛道接受！[Openreview]
[2022年8月21日] USB 正式发布！

简介

USB 是一个基于 PyTorch 的 Python 包，用于半监督学习 (SSL)。它易于使用和扩展，对小型团队来说经济实惠，并且功能全面，适合开发和评估 SSL 算法。USB 提供了基于一致性正则化的 14 种 SSL 算法的实现，以及来自计算机视觉、自然语言处理和音频领域的 15 项评估任务。

代码结构

(返回顶部)

开始使用

这是一个在本地设置 USB 的示例。要搭建一个本地副本，请按照以下简单步骤操作。

先决条件

USB 基于 PyTorch 构建，依赖 torchvision、torchaudio 和 transformers。

要安装所需的包，您可以创建一个 conda 环境：

conda create --name usb python=3.8

然后使用 pip 安装所需包：

pip install -r requirements.txt

从现在开始，您可以通过输入以下命令来开始使用 USB：

python train.py --c config/usb_cv/fixmatch/fixmatch_cifar100_200_0.yaml

安装

我们提供了一个名为 semilearn 的 USB Python 包，方便用户快速在其数据上训练和测试支持的 SSL 算法：

pip install semilearn

(返回顶部)

开发

你也可以开发自己的SSL算法，并通过克隆USB来评估它：

git clone https://github.com/microsoft/Semi-supervised-learning.git

(返回顶部)

准备数据集

详细的下载和处理说明请参见数据集下载。在运行或开发算法之前，请按照该说明下载数据集。

(返回顶部)

使用方法

USB易于使用且易于扩展。通过以下示例，你可以快速熟悉USB的使用方法，也可以在自己的数据集上评估现有的SSL算法，或者开发新的SSL算法。

使用USB包快速入门

请先参阅安装部分以安装USB。我们提供了以下Colab教程：

使用Docker开始

步骤1：检查你的环境

你需要先正确安装Docker和NVIDIA驱动程序。要在Docker容器中使用GPU，还需要安装nvidia-docker2（安装指南）。然后，请通过nvidia-smi检查你的CUDA版本。

步骤2：克隆项目

git clone https://github.com/microsoft/Semi-supervised-learning.git

步骤3：构建Docker镜像

在构建镜像之前，你可以根据自己的CUDA版本修改Dockerfile。我们使用的CUDA版本是11.6。你可以根据NVIDIA CUDA镜像标签页更改基础镜像标签。此外，你还需要根据自己的CUDA版本更改--extra-index-url，以便安装正确版本的PyTorch。可以通过PyTorch官网查看对应的URL。

使用以下命令构建镜像：

cd Semi-supervised-learning && docker build -t semilearn .

完成！你可以将刚刚构建的镜像用于自己的项目。别忘了在需要使用GPU的容器中添加--gpu参数。

训练

以下是一个在CIFAR-100数据集上使用200个标签训练FixMatch的示例。训练其他支持的算法（在不同数据集上使用不同标签设置）可以通过配置文件指定：

python train.py --c config/usb_cv/fixmatch/fixmatch_cifar100_200_0.yaml

评估

训练完成后，你可以通过训练日志查看评估性能，或者运行评估脚本：

python eval.py --dataset cifar100 --num_classes 100 --load_path /PATH/TO/CHECKPOINT

开发

请查阅开发文档，以创建你自己的SSL算法！

更多示例，请参阅文档

(返回顶部)

基准测试结果

有关不同任务的基准测试结果，请参阅结果。

(返回顶部)

模型库

TODO：添加预训练模型。

(返回顶部)

待办事项

完成README
更新SUPPORT.MD，加入关于该项目支持经验的内容
多语言支持
- 中文

完整的功能建议列表（以及已知问题）请参阅GitHub上的开放问题。

(返回顶部)

贡献

本项目欢迎贡献和建议。大多数贡献都需要你同意贡献者许可协议（CLA），声明你有权并将实际授予我们使用你贡献的权利。详情请访问https://cla.opensource.microsoft.com。

当你提交拉取请求时，CLA机器人会自动判断你是否需要提供CLA，并相应地标记PR（例如状态检查、评论）。只需按照机器人提供的指示操作即可。对于所有使用我们CLA的仓库，你只需执行一次此操作。

本项目采用了微软开源行为准则。更多信息请参阅行为准则常见问题解答，或如有任何其他疑问或意见，请联系opencode@microsoft.com。

如果你有使USB更好的建议，可以fork该项目并创建一个拉取请求。你也可以直接打开带有“enhancement”标签的问题。别忘了给项目点个赞！再次感谢！

Fork项目
创建你的分支（git checkout -b your_name/your_branch）
提交你的更改（git commit -m '添加一些功能'）
推送到分支（git push origin your_name/your_branch）
打开拉取请求

(返回顶部)

商标

本项目可能包含项目、产品或服务的商标或标志。对微软商标或标志的授权使用须遵守并遵循微软商标与品牌指南。在本项目的修改版本中使用微软商标或标志时，不得造成混淆或暗示微软的赞助关系。任何第三方商标或标志的使用均受其各自政策的约束。

许可证

根据MIT许可证分发。更多信息请参阅LICENSE.txt。

(返回顶部)

社区与联系方式

USB社区由以下人员维护：

王一东（yidongwang37@gmail.com），东京工业大学
陈浩（haoc3@andrew.cmu.edu），卡内基梅隆大学
范悦（yfan@mpi-inf.mpg.de），马克斯普朗克信息学研究所
侯文欣（wenxinhou@microsoft.com），微软STCA
陶然（rant@andrew.cmu.edu），卡内基梅隆大学
王进东（jindwang@microsoft.com），微软亚洲研究院

(返回顶部)

引用 USB

如果您觉得本项目对您的研究或论文有帮助，请引用我们：

@inproceedings{usb2022,
  doi = {10.48550/ARXIV.2208.07204},
  url = {https://arxiv.org/abs/2208.07204},
  author = {Wang, Yidong and Chen, Hao and Fan, Yue and Sun, Wang and Tao, Ran and Hou, Wenxin and Wang, Renjie and Yang, Linyi and Zhou, Zhi and Guo, Lan-Zhe and Qi, Heli and Wu, Zhen and Li, Yu-Feng and Nakamura, Satoshi and Ye, Wei and Savvides, Marios and Raj, Bhiksha and Shinozaki, Takahiro and Schiele, Bernt and Wang, Jindong and Xie, Xing and Zhang, Yue},
  title = {USB: A Unified Semi-supervised Learning Benchmark for Classification},
  booktitle = {Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year = {2022}
}

@article{wang2023freematch,
  title={FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning},
  author={Wang, Yidong and Chen, Hao and Heng, Qiang and Hou, Wenxin and Fan, Yue and and Wu, Zhen and Wang, Jindong and Savvides, Marios and Shinozaki, Takahiro and Raj, Bhiksha and Schiele, Bernt and Xie, Xing},
  booktitle={International Conference on Learning Representations (ICLR)},
  year={2023}
}

@article{chen2023softmatch,
  title={SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised Learning},
  author={Chen, Hao and Tao, Ran and Fan, Yue and Wang, Yidong and Wang, Jindong and Schiele, Bernt and Xie, Xing and Raj, Bhiksha and Savvides, Marios},
  booktitle={International Conference on Learning Representations (ICLR)},
  year={2023}
}

@article{zhang2021flexmatch,
  title={FlexMatch: Boosting Semi-supervised Learning with Curriculum Pseudo Labeling},
  author={Zhang, Bowen and Wang, Yidong and Hou, Wenxin and Wu, Hao and Wang, Jindong and Okumura, Manabu and Shinozaki, Takahiro},
  booktitle={Neural Information Processing Systems (NeurIPS)},
  year={2021}
}

致谢

我们感谢以下项目在创建 USB 时提供的参考：

(返回顶部)

USB 半监督学习快速上手指南

USB (Unified Semi-supervised learning Benchmark) 是一个基于 PyTorch 的开源工具包，旨在为计算机视觉 (CV)、自然语言处理 (NLP) 和音频分类领域提供统一、易用且高效的半监督学习 (SSL) 算法开发与评估框架。它内置了 14 种主流 SSL 算法（如 FixMatch, FreeMatch, SoftMatch 等）及 15 个基准任务。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux 或 macOS (Windows 需通过 WSL 或 Docker 运行)
Python 版本: 推荐 Python 3.8
硬件: 支持 CUDA 的 NVIDIA GPU (可选，但强烈推荐用于训练)
前置依赖:
- PyTorch
- torchvision
- torchaudio
- transformers

建议先安装 conda 来管理虚拟环境。

安装步骤

您可以选择直接安装发布包进行快速使用，或克隆源码进行二次开发。

方式一：快速安装 (推荐新手)

如果您只想快速运行现有的 SSL 算法，可以直接通过 pip 安装 semilearn 包：

# 创建并激活 conda 环境
conda create --name usb python=3.8 -y
conda activate usb

# 安装核心依赖包
pip install semilearn

方式二：源码安装 (推荐开发者)

如果您需要修改算法代码、添加新数据集或复现最新研究结果，请克隆官方仓库：

# 克隆项目
git clone https://github.com/microsoft/Semi-supervised-learning.git
cd Semi-supervised-learning

# 创建并激活 conda 环境
conda create --name usb python=3.8 -y
conda activate usb

# 安装项目所需依赖
pip install -r requirements.txt

提示：国内用户若下载依赖较慢，可添加清华源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

数据准备

在运行训练前，您需要下载并预处理数据集。详细的下载链接和处理脚本请参考项目内的 preprocess 目录：数据集下载与处理指南

基本使用

安装完成后，您可以通过配置文件轻松启动训练或评估。

1. 开始训练

以下示例展示如何使用 FixMatch 算法在 CIFAR-100 数据集上进行训练（设定标签数量为 200）：

python train.py --c config/usb_cv/fixmatch/fixmatch_cifar100_200_0.yaml

--c: 指定配置文件路径。
您可以修改 config/ 目录下的 YAML 文件来切换算法、数据集或调整超参数。

2. 模型评估

训练完成后，使用以下命令加载检查点并进行评估：

python eval.py --dataset cifar100 --num_classes 100 --load_path /PATH/TO/CHECKPOINT

请将 /PATH/TO/CHECKPOINT 替换为您实际保存的模型权重文件路径。

3. 在线体验 (Colab)

如果您不想在本地配置环境，可以使用 Google Colab 快速体验：

4. 使用 Docker (可选)

如果您希望环境完全隔离，可以使用 Docker 部署：

# 克隆项目
git clone https://github.com/microsoft/Semi-supervised-learning.git
cd Semi-supervised-learning

# 构建镜像 (注意：可能需要根据本地 CUDA 版本修改 Dockerfile)
docker build -t semilearn .

# 运行容器 (需添加 --gpus all 参数以启用 GPU)
docker run --gpus all -it semilearn bash

版本历史

v.0.0.02022/07/14

常见问题

为什么在论文中提到 CV 数据集没有提供验证集，但在复现 TissueMNIST 时却使用了验证集？

运行初学者示例笔记本（Beginner_Example.ipynb）时，为什么经过多个 epoch 后性能没有任何提升？

如何配置单机多卡（分布式）训练？world_size 和 rank 参数需要修改吗？

设置 seed（随机种子）为什么会显著降低训练速度？可以关闭吗？

为什么复现 FreeMatch 在 CIFAR-100 上的结果时，错误率高于论文报告的值？

在分布式并行训练中，EMA 模型定义时的 batch size 显示是否正确？

运行 ReFixMatch 或 FreeMatch 时验证集准确率很低，可能是什么原因？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架