awesome-imbalanced-learning

1.5k 230 非常简单 1 次阅读 5天前CC0-1.0开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

awesome-imbalanced-learning 是一个专注于解决机器学习中“类别不平衡”或“长尾分布”问题的精选资源库。在现实世界的分类任务中，数据往往分布不均，例如欺诈检测、罕见病预测等场景，少数类样本极少而多数类样本极多。若直接训练模型，往往会导致预测偏差和性能下降。该项目旨在帮助开发者和研究人员从这些不平衡数据中学习出更公正、准确的模型。

它系统地整理了该领域的高质量学术论文、开源代码、主流框架及工具库。内容按编程语言和研究方向进行了清晰分类，并严格筛选那些具有高影响力或发表于顶级会议期刊的成果。除了提供文献指引，项目还特别推荐了如 imbalanced-ensemble 等实用的 Python 工具箱，方便用户快速上手实践。

无论是正在攻克长尾难题的算法研究员，还是需要处理非均衡数据的工程开发者，都能在这里找到前沿的理论支持和现成的解决方案。作为一个持续更新的社区驱动项目，awesome-imbalanced-learning 致力于成为连接理论与实践的桥梁，让处理复杂数据分布变得更加高效简单。

使用场景

某金融科技公司风控团队正致力于构建信用卡欺诈检测模型，面对的是典型的极度不平衡数据场景（欺诈交易仅占万分之五）。

没有 awesome-imbalanced-learning 时

盲目试错成本高：工程师需在海量论文中手动筛选适合长尾分布的算法，耗时数周仍难以确定最优技术路线。
复现代码困难：找到的开源代码往往依赖混乱或缺乏文档，导致复现经典不平衡学习算法（如重采样、代价敏感学习）失败率高。
模型性能瓶颈：直接套用常规分类器导致模型严重偏向多数类，欺诈召回率极低，大量风险交易被漏判。
缺乏系统框架：团队只能零散拼凑数据处理与训练脚本，无法系统化对比不同不平衡学习策略的效果。

使用 awesome-imbalanced-learning 后

精准定位方案：直接查阅按领域整理的顶会论文列表，快速锁定适用于金融欺诈场景的 SOTA 算法（如集成学习方法）。
高效落地实践：利用收录的高质量代码库及官方推荐的 imbalanced-ensemble 工具包，几天内即可完成复杂算法的部署与调优。
显著提升指标：应用成熟的不平衡学习策略后，模型在保持低误报率的同时，将欺诈交易召回率提升了 40%。
体系化研发流程：基于清晰的框架分类，团队建立了从数据重采样到损失函数优化的标准化实验流水线，加速迭代。

awesome-imbalanced-learning 将原本需要数月摸索的长尾学习难题，转化为可快速复用的高效工程实践，让模型在极端不平衡数据下依然精准可靠。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个非平衡学习相关的论文、代码和库的精选列表，本身不是一个单一的可执行工具。其中列出的主要 Python 库（如 imbalanced-ensemble, imbalanced-learn）通常兼容主流操作系统，具体版本依赖需参考各子项目的文档。部分算法支持并行加速（通过 joblib），但未明确提及 GPU 需求。

python未说明

scikit-learn

imbalanced-learn

joblib

快速开始

精选的不平衡学习论文、代码和库

语言: [英语] [中文]

**类别不平衡（也称为长尾问题）**是指在分类问题中，各类别样本数量不均衡的现象，这在实际应用中非常常见。例如，欺诈检测、罕见药物不良反应预测以及基因家族预测等场景。如果未能有效处理类别不平衡问题，许多分类算法的预测性能往往会变得不准确且下降。不平衡学习旨在解决类别不平衡问题，从而从不平衡数据中学习到一个无偏的模型。

受awesome-machine-learning的启发，在本仓库中：

框架和库按编程语言分类。
研究论文按研究领域分类。

注意：

⭐ 如果您喜欢这个项目，请留下一个星标！ ⭐
贡献者将出现在贡献者✨名单中！
该领域的研究论文众多，因此本列表并不打算涵盖所有内容。
我们的目标是仅保留那些具有良好影响力或已在知名顶级会议/期刊上发表的“优秀”作品。

1. 框架与库

1.1 Python

imbalanced-ensemble [Github][文档][图库][论文]

注意: 使用 Python 编写，易于使用。
- imbalanced-ensemble 是一个用于在类别不平衡数据上快速实现和部署 集成学习算法 的 Python 工具箱。其特点包括：
  - (i) 统一且易于使用的 API、详细的文档和示例。
  - (ii) 开箱即用，支持多分类不平衡学习。
  - (iii) 在可能的情况下，通过 joblib 进行并行化以优化性能。
  - (iv) 强大的可定制交互式训练日志记录和可视化工具。
  - (v) 与其他流行包（如 scikit-learn 和 imbalanced-learn）完全兼容。
- 目前（v0.1.4），它包含了超过 15 种基于 重采样 和 代价敏感学习 的集成算法（例如，SMOTEBoost/Bagging、RUSBoost/Bagging、AdaCost、EasyEnsemble、BalanceCascade、SelfPacedEnsemble 等）。
imbalanced-learn [Github][文档][论文]

注意: 使用 Python 编写，易于使用。
- imbalanced-learn 是一个提供多种 重采样 技术的 Python 包，这些技术常用于类间不平衡严重的数据集中。它与 scikit-learn 兼容，并且是 scikit-learn-contrib 项目的一部分。
- 当前（v0.8.0），它包含 21 种不同的重采样技术，包括过采样、欠采样以及混合方法（例如，SMOTE、ADASYN、TomekLinks、NearMiss、OneSideSelection、SMOTETomek 等）。
- 该包还提供了许多实用工具，例如用于 Keras/TensorFlow 的 批处理生成器，详情请参阅 API 参考。
smote_variants [文档][Github] - 一个包含 85 种少数类 过采样 技术的集合，适用于多分类过采样和模型选择功能（全部用 Python 编写，也支持 R 和 Julia）。

1.2 R

smote_variants [文档][Github] - 一个集合了 85 种少数类 过采样 技术的库，适用于不平衡学习中的多分类过采样和模型选择功能（全部用 Python 编写，同时也支持 R 和 Julia）。
caret [文档][Github] - 包含随机欠采样/过采样的实现。
ROSE [文档] - 包含 ROSE（随机过采样示例）的实现。
DMwR [文档] - 包含 SMOTE（合成少数类过采样技术）的实现。

1.3 Java

KEEL [Github][论文] - KEEL 提供一个基于数据流的简单 GUI，用于设计包含不同数据集和计算智能算法的实验（特别关注进化算法），以评估算法的行为。该工具包含了多种广泛使用的不平衡学习技术，如（进化）过采样/欠采样、代价敏感学习、算法改进以及集成学习方法。

注意： 内置了种类繁多的经典分类、回归和预处理算法。

1.4 Scala

undersampling [文档][Github] - 一个用于不平衡分类中欠采样及其集成变体的 Scala 库。

1.5 Julia

smote_variants [文档][Github] - 一个包含 85 种少数类过采样技术的集合，适用于多分类过采样，并具备模型选择功能（全部用 Python 编写，同时也支持 R 和 Julia）。

2. 研究论文

2.1 综述

从不平衡数据中学习（IEEE TKDE，2009 年，6000+ 引用）[论文]
- 高被引的经典综述论文。系统地回顾了该领域在 2009 年时流行的解决方案、评估指标以及未来研究中的挑战性问题。
从不平衡数据中学习：开放性挑战与未来方向（2016 年，900+ 引用）[论文]
- 本文重点关注不平衡学习中的开放性问题与挑战，例如极端类别不平衡、在线/流式学习中的不平衡、多分类不平衡学习以及半监督/无监督不平衡学习。
从类别不平衡数据中学习：方法与应用的综述（2017 年，900+ 引用）[论文]
- 这是一篇关于不平衡学习方法与应用的最新且详尽的综述，共纳入了 527 篇文献。文中提供了对现有方法的多个详细分类体系，并探讨了该研究领域的最新趋势。

2.2 集成学习

2.2.1 通用集成

自步集成（ICDE 2020，20+次引用）[论文][代码][幻灯片][知乎][PyPI]

注：一种性能卓越且计算效率高的多功能解决方案。
MESA：利用元采样器提升不平衡数据集上的集成学习（NeurIPS 2020）[论文][代码][视频][知乎]

注：直接从数据中学习最优的采样策略。
面向类别不平衡学习的探索性欠采样（IEEE Trans. on SMC, 2008，1300+次引用）[论文]

注：简单但有效的解决方案。
- EasyEnsemble [代码]
- BalanceCascade [代码]
集成对长尾数据的影响（Neurips 2023 Heavy Tails Workshop）[论文]

注：在不平衡数据集上，增加更多的（>10个）集成成员会持续提升性能。根据集成的多样性和依赖关系，logit和概率集成在不平衡数据集上存在差异。
- Logit与概率集成 [代码]

2.2.2 基于Boosting

AdaBoost（1995年，18700+次引用）[论文][代码] - 基于C4.5的自适应提升
DataBoost（2004年，570+次引用）[论文] - 针对不平衡数据的数据生成提升
SMOTEBoost（2003年，1100+次引用）[论文][代码] - 合成少数类过采样技术提升
MSMOTEBoost（2011年，1300+次引用）[论文] - 改进的合成少数类过采样技术提升
RAMOBoost（2010年，140+次引用）[论文] [代码] - 提升中的排序少数类过采样
RUSBoost（2009年，850+次引用）[论文] [代码] - 随机欠采样提升
AdaBoostNC（2012年，350+次引用）[论文] - 带有负相关学习的自适应提升
EUSBoost（2013年，210+次引用）[论文] - 提升中的进化式欠采样

2.2.3 基于Bagging

Bagging（1996年，20000+次引用）[论文][代码] - 袋装预测器
利用集成模型对不平衡数据集进行多样性分析（2009年，400+次引用）[论文]
- UnderBagging [代码]
- OverBagging [代码]
- SMOTEBagging [代码]

2.2.4 代价敏感集成

AdaCost（ICML 1999，800+次引用）[论文][代码] - 基于误分类代价的提升
AdaUBoost（NIPS 1999，100+次引用）[论文][代码] - 使用不等损失函数的AdaBoost
AsymBoost（NIPS 2001，700+次引用）[论文][代码] - 非对称AdaBoost与检测器级联

2.3 数据重采样

2.3.1 过采样

ROS [代码] - 随机过采样
SMOTE（2002年，9800+次引用）[论文][代码] - 合成少数类过采样技术
Borderline-SMOTE（2005年，1400+次引用）[论文][代码] - 边界合成少数类过采样技术
ADASYN（2008年，1100+次引用）[论文][代码] - 自适应合成采样
SPIDER（2008年，150+次引用）[论文][代码（Java）] - 不平衡数据的有选择性预处理
Safe-Level-SMOTE（2009年，370+次引用）[论文][代码（Java）] - 安全级别合成少数类过采样技术
SVM-SMOTE（2009年，120+次引用）[论文][代码] - 基于支持向量机支持向量的SMOTE
MDO（2015年，150+次引用）[论文][代码] - 基于马氏距离的多分类不平衡问题过采样。

注：更多过采样方法请参阅 smote-variants。

2.3.2 欠采样

RUS [代码] - 随机欠采样
CNN（1968年，2100+次引用）[论文][代码] - 凝聚最近邻
ENN（1972年，1500+次引用）[论文][代码] - 编辑凝聚最近邻
TomekLink（1976年，870+次引用）[论文][代码] - Tomek对凝聚最近邻的改进
NCR（2001年，500+次引用）[论文][代码] - 邻域清理规则
NearMiss-1、2和3（2003年，420+次引用）[论文][代码] - 多种基于kNN的不平衡数据分布处理方法。
带有TomekLink的CNN（2004年，2000+次引用）[论文][代码（Java）] - 凝聚最近邻 + TomekLink
OSS（2007年，2100+次引用）[论文][代码] - 单侧选择
EUS（2009年，290+次引用）[论文] - 进化欠采样
IHT（2014年，130+次引用）[论文][代码] - 实例难度阈值

2.3.3 混合采样

关于几种平衡训练数据方法行为的研究（2004年，2000+次引用）[论文]

注：涉及10种不同过/欠采样方法的大规模实验评估。
- SMOTE-Tomek [代码]
- SMOTE-ENN [代码]
SMOTE-RSB（2012年，210+次引用）[论文][代码] - 使用SMOTE和粗糙集理论的混合预处理
SMOTE-IPF（2015年，180+次引用）[论文][代码] - 带有迭代分割滤波器的SMOTE

2.4 成本敏感学习

CSC4.5（2002年，420+次引用）[论文][代码（Java）] - 一种基于实例加权的方法，用于构建成本敏感决策树
CSSVM（2008年，710+次引用）[论文][代码（Java）] - 面向高度不平衡分类问题的成本敏感支持向量机
CSNN（2005年，950+次引用）[论文][代码（Java）] - 使用解决类别不平衡问题的方法训练成本敏感神经网络。

2.5 深度学习

2.5.1 综述

卷积神经网络中类别不平衡问题的系统研究（2018年，330+次引用）[论文]
关于深度学习中类别不平衡问题的综述（2019年，50+次引用）[论文]

注：最近一篇关于深度学习中类别不平衡问题的全面综述。

2.5.2 图数据挖掘

半监督图不平衡回归（KDD 2023）[论文] [代码]
TAM：面向类别不平衡节点分类的拓扑感知边界损失（ICML 2022）[论文][代码]
GraphSMOTE：利用图神经网络进行图上的不平衡节点分类（WSDM 2021）[论文][代码]
拓扑不平衡学习用于半监督节点分类（NeurIPS 2021）[论文][代码]
GraphENS：面向类别不平衡节点分类的邻域感知自我网络合成（ICLR 2022）[论文][代码]
LTE4G：面向图神经网络的长尾专家模型（CIKM 2022）[论文][代码]
多类别不平衡图卷积网络学习（IJCAI 2020）[论文]

2.5.3 困难样本挖掘

基于区域的目标检测器在线困难样本挖掘训练（CVPR 2016，840+次引用）[论文][代码] - 在神经网络训练的后期阶段，仅对“困难样本”（即损失值较大的样本）进行梯度反向传播。

2.5.4 损失函数工程

密集目标检测中的焦点损失（ICCV 2017，2600+次引用）[论文][代码（detectron2）][代码（非官方）] - 一种统一的损失函数，专注于训练稀疏的困难样本，以防止大量容易的负样本在训练过程中压倒检测器。

注：解决方案优雅，影响力巨大。
不平衡数据集上深度神经网络的训练（IJCNN 2016，110+次引用）[论文] - 平均（平方）错误，能够均衡地捕捉多数类和少数类的分类错误。
利用视觉注意力聚合进行深度不平衡属性分类（ECCV 2018，30+次引用）[论文][代码]
通过少数类增量校正实现不平衡深度学习（TPAMI 2018，60+次引用）[论文] - 类别校正损失，旨在通过迭代式分批学习过程发现少数类稀疏采样的边界，从而最小化多数类的主导效应。
基于标签分布感知边距损失的学习不平衡数据集（NIPS 2019，10+次引用）[论文][代码] - 一种基于理论原则的标签分布感知边距（LDAM）损失，其动机是通过最小化基于边距的泛化界来优化模型性能。
梯度协调单阶段检测器（AAAI 2019，40+次引用）[论文][代码] - 相较于仅对“容易”的负样本进行降权处理的焦点损失，GHM还对“非常困难”的样本进行降权，因为这些样本很可能是异常值。
基于有效样本数的类别平衡损失（CVPR 2019，70+次引用）[论文][代码] - 一种简单且通用的基于有效样本数的类别重加权机制。
影响力平衡损失用于不平衡视觉分类（ICCV 2021）[论文][代码]
AutoBalance：针对不平衡数据的优化损失函数（NeurIPS 2021）[论文]
过参数化下的标签不平衡与群体敏感分类（NeurIPS 2021）[论文][代码]

2.5.5 元学习

学习建模尾部类别（NIPS 2017，70+次引用）[论文] - 将分布头部数据丰富的类别中的元知识迁移到尾部数据稀少的类别中。
学习重加权样本以实现鲁棒深度学习（ICML 2018，150+次引用）[论文][代码] - 隐式学习一个权重函数，在DNN的梯度更新中对样本进行重加权。

注：通过元学习解决类别不平衡问题的代表性工作。
Meta-weight-net：学习显式的样本权重映射（NIPS 2019）[论文][代码] - 显式地学习一个权重函数（使用MLP作为函数近似器），在DNN的梯度更新中对样本进行重加权。
学习数据操作用于增强和加权（NIPS 2019）[论文][代码]
学习平衡：面向不平衡及分布外任务的贝叶斯元学习（ICLR 2020）[论文][代码]
MESA：利用MEta-SAmpler提升集成不平衡学习（NeurIPS 2020）[论文][代码][视频]

注：元学习驱动的集成学习

2.5.6 表示学习

为不平衡分类学习深度表示（CVPR 2016，220+次引用）[论文]
基于GAN的不平衡分类的监督类分布学习（ICDM 2019）[论文]
解耦表示与分类器以进行长尾识别（ICLR 2020）[论文][代码]

注：关于表示学习和分类器学习的有趣发现
利用基于能量的对比表示迁移加速不平衡数据学习（NeurIPS 2021）[论文]
为监督学习量身定制自监督（ECCV 2022）[论文][代码]

2.5.7 后验校准

面向不平衡数据的后验重新校准（NeurIPS 2020）[论文][代码]
通过logit调整进行长尾学习（ICLR 2021）[论文][代码]

2.5.8 半/自监督学习

重新思考标签在改善类别不平衡学习中的价值（NeurIPS 2020）[论文][代码][视频]

注：半监督训练/自监督预训练有助于不平衡学习
不平衡半监督学习中伪标签的分布对齐精炼器（NeurIPS 2020）[论文][代码]
ABC：面向类别不平衡半监督学习的辅助平衡分类器（NeurIPS 2021）[论文][代码]
通过开放世界采样改进不平衡数据上的对比学习（NeurIPS 2021）[论文]
DASO：面向不平衡半监督学习的分布感知语义导向伪标签（CVPR 2022）[论文][代码]

2.5.9 课程学习

面向不平衡数据分类的动态课程学习（ICCV 2019）[论文]

2.5.10 两阶段训练

使用深度神经网络进行脑肿瘤分割（2017年，1200+次引用）[论文][代码（非官方）]

先在平衡数据集上进行预训练，然后在原始的不平衡数据上对最后一个输出层进行微调，再接softmax。

2.5.11 网络架构

BBN：具有累积学习的双分支网络，用于长尾视觉识别（CVPR 2020）[论文][代码]
通过类别平衡集成实现类别不平衡深度学习（TNNLS 2021）[论文]

2.5.12 深度生成模型

用于鲁棒不平衡分类的深度生成模型（CVPR 2020）[论文]

2.5.13 不平衡回归

半监督图不平衡回归（KDD 2023）[论文] [代码]
RankSim：用于深度不平衡回归的排序相似性正则化（ICML 2022）[论文] [代码]
不平衡视觉回归中的平衡均方误差（CVPR 2022）[论文] [代码]
深入研究深度不平衡回归（ICML 2021）[论文][代码][视频]
基于密度的不平衡回归加权方法（机器学习[J]，2021年）[论文][代码]

2.5.14 数据增强

面向少数类的邻域扩展与注意力聚合在视频长尾识别中的应用（AAAI 2023）[论文][代码]

3. 杂项

3.1 数据集

imbalanced-learn 数据集

该数据集集合来自 imblearn.datasets.fetch_datasets。

ID	名称	数据源及目标	比例	样本数	特征数
1	ecoli	UCI, 目标: imU	8.6:1	336	7
2	optical_digits	UCI, 目标: 8	9.1:1	5,620	64
3	satimage	UCI, 目标: 4	9.3:1	6,435	36
4	pen_digits	UCI, 目标: 5	9.4:1	10,992	16
5	abalone	UCI, 目标: 7	9.7:1	4,177	10
6	sick_euthyroid	UCI, 目标: 患有甲状腺功能减退症	9.8:1	3,163	42
7	spectrometer	UCI, 目标: >=44	11:1	531	93
8	car_eval_34	UCI, 目标: 良好、非常好	12:1	1,728	21
9	isolet	UCI, 目标: A、B	12:1	7,797	617
10	us_crime	UCI, 目标: >0.65	12:1	1,994	100
11	yeast_ml8	LIBSVM, 目标: 8	13:1	2,417	103
12	scene	LIBSVM, 目标: 多于一个标签	13:1	2,407	294
13	libras_move	UCI, 目标: 1	14:1	360	90
14	thyroid_sick	UCI, 目标: 患病	15:1	3,772	52
15	coil_2000	KDD, CoIL, 目标: 少数类	16:1	9,822	85
16	arrhythmia	UCI, 目标: 06	17:1	452	278
17	solar_flare_m0	UCI, 目标: M->0	19:1	1,389	32
18	oil	UCI, 目标: 少数类	22:1	937	49
19	car_eval_4	UCI, 目标: vgood	26:1	1,728	21
20	wine_quality	UCI, 葡萄酒，目标: <=4	26:1	4,898	11
21	letter_img	UCI, 目标: Z	26:1	20,000	16
22	yeast_me2	UCI, 目标: ME2	28:1	1,484	8
23	webpage	LIBSVM，w7a，目标: 少数类	33:1	34,780	300
24	ozone_level	UCI，臭氧数据	34:1	2,536	72
25	mammography	UCI，目标: 少数类	42:1	11,183	6
26	protein_homo	KDD CUP 2004，少数类	111:1	145,751	74
27	abalone_19	UCI，目标: 19	130:1	4,177	10

不平衡数据库

链接：https://github.com/gykovacs/mldb

3.2 GitHub 仓库

3.2.1 算法、工具及 Jupyter 笔记本

imbalanced-algorithms - 基于 Python 的不平衡数据学习算法实现。
imbalanced-dataset-sampler - （PyTorch）不平衡数据采样器，用于对低频类进行过采样，对高频类进行欠采样。
class_imbalance - 关于二分类中类别不平衡问题的 Jupyter Notebook 演示。
Multi-class-with-imbalanced-dataset-classification - 在不平衡的 20 新闻组数据集上执行多分类任务。
使用 scikit-learn 进行高级机器学习：不平衡分类与文本数据 - 不同的特征选择方法以及针对不平衡数据的重采样方法。

3.2.2 论文列表

异常检测学习资源由 yzhao062 整理 - 包括异常检测相关的书籍、论文、视频和工具箱。
基于深度学习的不平衡时间序列分类论文列表 - 不平衡时间序列分类

3.2.3 幻灯片

acm_imbalanced_learning - 2016年4月27日在德克萨斯州奥斯汀举行的 ACM 不平衡学习讲座的幻灯片和代码。

贡献者 ✨

感谢以下各位优秀的朋友（emoji key）：

_{Zhining Liu}
💻 🚧 🌍

_曾阿信
🚧

_{WonJun Moon}
💻

_{Gang Liu}
💻

本项目遵循 all-contributors 规范。欢迎任何形式的贡献！

awesome-imbalanced-learning 快速上手指南

awesome-imbalanced-learning 是一个精选的不平衡学习（Imbalanced Learning）资源列表，汇集了相关的论文、代码框架和库。它本身不是一个单一的软件包，而是一个资源导航项目。对于开发者而言，最直接的“上手”方式是使用其中推荐的顶级 Python 工具库，特别是 imbalanced-ensemble 和 imbalanced-learn。

本指南将重点介绍如何在中国网络环境下安装并使用这两个核心库来解决类别不平衡问题。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Windows, macOS 或 Linux
Python 版本: Python 3.7 或更高版本 (推荐 3.8+)
前置依赖:
- pip (Python 包管理工具)
- scikit-learn (机器学习基础库)
- numpy, pandas, matplotlib (数据处理与可视化)

建议：使用虚拟环境（如 venv 或 conda）以避免依赖冲突。

# 创建并激活虚拟环境 (可选但推荐)
python -m venv imbal_env
# Windows:
imbal_env\Scripts\activate
# macOS/Linux:
source imbal_env/bin/activate

2. 安装步骤

由于网络原因，国内开发者建议使用国内镜像源进行安装，以获得更快的下载速度。

方案 A：安装 `imbalanced-learn` (侧重重采样技术)

这是最经典的不平衡学习库，提供 SMOTE、欠采样等基础算法。

pip install imbalanced-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

方案 B：安装 `imbalanced-ensemble` (侧重集成学习)

这是一个更现代的工具箱，专为不平衡数据设计的集成算法（如 SelfPacedEnsemble, BalanceCascade），支持多分类且性能优化更好。

pip install imbalanced-ensemble -i https://pypi.tuna.tsinghua.edu.cn/simple

方案 C：安装常用依赖

确保已安装基础数据科学栈：

pip install scikit-learn numpy pandas matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 基本使用

以下示例展示如何使用上述两个库处理一个简单的二分类不平衡数据集。

场景 1：使用 `imbalanced-learn` 进行 SMOTE 过采样

此方法通过生成少数类样本来平衡数据集。

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline as ImbPipeline

# 1. 生成模拟的不平衡数据 (少数类占比约 1%)
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, 
                           n_informative=2, n_redundant=0, 
                           weights=[0.99, 0.01], random_state=42)

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 构建包含 SMOTE 和分类器的管道
# 注意：必须在训练集上拟合 SMOTE，严禁在测试集上过采样
pipeline = ImbPipeline([
    ('smote', SMOTE(random_state=42)),
    ('classifier', LogisticRegression())
])

# 4. 训练模型
pipeline.fit(X_train, y_train)

# 5. 评估
y_pred = pipeline.predict(X_test)
print(classification_report(y_test, y_pred))

场景 2：使用 `imbalanced-ensemble` 进行集成学习

此方法使用专门设计的集成算法（如 SelfPacedEnsemble）直接在不平衡数据上训练，无需显式重采样。

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from imblearn.ensemble import SelfPacedEnsemble # 来自 imbalanced-ensemble 库

# 1. 生成模拟的不平衡数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, 
                           n_informative=2, n_redundant=0, 
                           weights=[0.99, 0.01], random_state=42)

# 2. 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 初始化自步集成分类器
# n_estimators: 基估计器数量, base_estimator: 基模型 (默认为决策树)
spe_clf = SelfPacedEnsemble(n_estimators=10, random_state=42)

# 4. 直接在不平衡数据上训练
spe_clf.fit(X_train, y_train)

# 5. 评估
y_pred = spe_clf.predict(X_test)
print(classification_report(y_test, y_pred))

# 可选：查看训练过程中的损失变化 (如果开启了日志)
# spe_clf.visualize()

核心提示

API 兼容性: imbalanced-learn 和 imbalanced-ensemble 的 API 设计高度兼容 scikit-learn，你可以像使用 RandomForestClassifier 一样使用它们。
管道整合: 强烈建议在 scikit-learn 的 Pipeline 中使用重采样步骤（如场景 1），以防止数据泄露。
多分类支持: imbalanced-ensemble 原生支持多分类不平衡问题，无需额外配置。

常见问题

项目是否有计划提供类别不平衡的数据集？

在评估不平衡学习模型时，为什么简单的线性回归在 average_precision_score 指标上得分最高？

如何向该项目贡献代码或成为贡献者？

能否将某些特定的应用论文（如 IoT 领域的自动机器学习系统）添加到不平衡学习列表中？

如何在语义分割任务中处理像素级的类别不平衡问题？

如何推荐 NeurIPS 2020 等会议上的最新不平衡学习相关工作？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 awesome-imbalanced-learning 时

使用 awesome-imbalanced-learning 后

运行环境要求

快速开始

精选的不平衡学习论文、代码和库

语言: [英语] [中文]

最新动态：

目录

1. 框架与库

1.1 Python

1.2 R

1.3 Java

1.4 Scala

1.5 Julia

2. 研究论文

2.1 综述

2.2 集成学习

2.2.1 通用集成

2.2.2 基于Boosting

2.2.3 基于Bagging

2.2.4 代价敏感集成

2.3 数据重采样

2.3.1 过采样

2.3.2 欠采样

2.3.3 混合采样

2.4 成本敏感学习

2.5 深度学习

2.5.1 综述

2.5.2 图数据挖掘

2.5.3 困难样本挖掘

2.5.4 损失函数工程

2.5.5 元学习

2.5.6 表示学习

2.5.7 后验校准

2.5.8 半/自监督学习

2.5.9 课程学习

2.5.10 两阶段训练

2.5.11 网络架构

2.5.12 深度生成模型

2.5.13 不平衡回归

2.5.14 数据增强

3. 杂项

3.1 数据集

3.2 GitHub 仓库

3.2.1 算法、工具及 Jupyter 笔记本

3.2.2 论文列表

3.2.3 幻灯片

贡献者 ✨

awesome-imbalanced-learning 快速上手指南

1. 环境准备

2. 安装步骤

方案 A：安装 imbalanced-learn (侧重重采样技术)

方案 B：安装 imbalanced-ensemble (侧重集成学习)

方案 C：安装常用依赖

3. 基本使用

场景 1：使用 imbalanced-learn 进行 SMOTE 过采样

场景 2：使用 imbalanced-ensemble 进行集成学习

核心提示

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

方案 A：安装 `imbalanced-learn` (侧重重采样技术)

方案 B：安装 `imbalanced-ensemble` (侧重集成学习)

场景 1：使用 `imbalanced-learn` 进行 SMOTE 过采样

场景 2：使用 `imbalanced-ensemble` 进行集成学习