feature-selector

2.2k 766 非常简单 1 次阅读 2天前GPL-3.0数据工具

AI 解读由 AI 自动生成，仅供参考

feature-selector 是一款专为机器学习数据集设计的 Python 工具，旨在通过高效的特征选择实现数据降维。在构建模型时，冗余或低质量的特征不仅会增加计算负担，还可能降低预测精度，而 feature-selector 正是为了解决这一痛点而生。它能自动识别并剔除五类无效特征：包含大量缺失值的列、仅有一个唯一值的列、高度共线性的相关特征，以及基于模型评估出的零重要性或低重要性特征。

除了核心的筛选功能，feature-selector 还内置了丰富的可视化模块，例如相关性热力图和重要特征排序图，帮助用户直观地洞察数据结构与特征分布，从而做出更明智的决策。由于其基于 LightGBM 等成熟库构建，操作简便且结果可靠，非常适合数据科学家、机器学习工程师以及相关领域的研究人员使用。无论是进行快速的数据探索，还是为生产环境优化模型输入，feature-selector 都能以简洁的代码流程提升工作效率，让数据处理变得更加轻松透明。

使用场景

某电商数据科学团队正在构建用户流失预测模型，面对包含数千个行为特征的高维数据集，他们急需优化特征工程流程以提升模型效率。

没有 feature-selector 时

数据清洗依赖人工编写大量重复代码来排查缺失值和单一值特征，耗时且容易遗漏异常列。
高度相关的共线特征导致模型过拟合，团队需手动计算相关系数矩阵并肉眼筛选，效率极低。
无法量化特征重要性，只能凭经验盲目保留所有变量，导致训练速度缓慢且模型可解释性差。
缺乏直观的可视化手段，难以向业务部门展示哪些关键因素真正影响了用户流失。

使用 feature-selector 后

一键自动识别并移除缺失值过多及仅含单一取值的无效特征，将数据预处理时间从数小时缩短至几分钟。
内置算法精准检测并剔除共线特征，有效降低了维度冗余，显著提升了模型的泛化能力。
基于 LightGBM 自动评估特征重要性，果断剔除零贡献或低贡献特征，使训练速度提升 40% 以上。
直接生成相关性热力图和重要特征排序图，清晰直观地展示了核心驱动因子，便于团队汇报与决策。

feature-selector 通过自动化多维度的特征筛选与可视化，将繁琐的数据降维工作转化为高效、精准的标准化流程，让数据科学家能更专注于模型策略本身。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具主要用于机器学习数据集的降维，支持缺失值、单一唯一值、共线特征及基于 LightGBM 的特征重要性筛选。README 中未明确指定操作系统、GPU 及内存需求，通常此类依赖 CPU 的传统机器学习库在主流操作系统上均可运行，具体资源消耗取决于数据集大小。

python3.6+

lightgbm==2.1.1

matplotlib==2.1.2

seaborn==0.8.1

numpy==1.22.0

pandas==0.23.1

scikit-learn==0.19.1

快速开始

特征选择器：Python 中的简单特征选择

特征选择器是一个用于降低机器学习数据集维度的工具。

方法

共有五种方法用于识别需要移除的特征：

缺失值
唯一值
共线性特征
重要性为零的特征
重要性较低的特征

使用方法

请参阅 Feature Selector 使用说明笔记本，了解如何使用。

可视化

FeatureSelector 还包含多种可视化方法，用于检查数据集的特性。

相关性热图

最重要的特征

所需依赖：

python==3.6+
lightgbm==2.1.1
matplotlib==2.1.2
seaborn==0.8.1
numpy==1.22.0
pandas==0.23.1
scikit-learn==0.19.1

联系方式

如有任何问题，请发送邮件至 wjk68@case.edu！

Feature Selector 快速上手指南

Feature Selector 是一个用于机器学习数据集降维的 Python 工具，能够自动识别并移除冗余或低价值的特征。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux / macOS / Windows
Python 版本：3.6 及以上
核心依赖库：
- lightgbm == 2.1.1
- matplotlib == 2.1.2
- seaborn == 0.8.1
- numpy == 1.22.0
- pandas == 0.23.1
- scikit-learn == 0.19.1

提示：国内开发者建议使用清华或阿里镜像源加速依赖安装。

安装步骤

您可以直接通过 pip 安装所需的依赖包。推荐使用国内镜像源以提高下载速度：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lightgbm==2.1.1 matplotlib==2.1.2 seaborn==0.8.1 numpy==1.22.0 pandas==0.23.1 scikit-learn==0.19.1

若需安装最新版本的 feature-selector（如果已发布到 PyPI）或直接克隆源码使用：

git clone https://github.com/WillKoehrsen/feature-selector.git
cd feature-selector

基本使用

以下是使用 FeatureSelector 进行特征选择的最简示例。该工具主要包含五种筛选方法：缺失值、单一唯一值、共线特征、零重要性特征和低重要性特征。

import pandas as pd
from feature_selector import FeatureSelector

# 1. 准备数据 (假设 features 为特征 DataFrame, labels 为目标变量 Series)
# features = pd.read_csv('your_data.csv')
# labels = features['target_column']
# features = features.drop(columns=['target_column'])

# 2. 初始化 FeatureSelector
fs = FeatureSelector(data=features, labels=labels)

# 3. 运行特征选择方法
# 识别缺失值超过阈值的特征
fs.identify_missing(missing_threshold=0.6)

# 识别单一唯一值的特征
fs.identify_single_unique()

# 识别高共线性特征 (相关系数阈值)
fs.identify_collinear(correlation_threshold=0.98)

# 基于模型识别零重要性和低重要性特征
# 需要先训练一个 LightGBM 模型来计算重要性
fs.identify_zero_importance(task='classification', eval_metric='auc', 
                            n_iterations=10, early_stopping=True)
fs.identify_low_importance(cumulative_importance=0.99)

# 4. 获取要移除的特征列表
to_remove = fs.check_identified_features()

# 5. 执行移除操作，得到精简后的数据集
filtered_features = fs.remove(methods='all', keep_one_hot=False)

# 6. (可选) 可视化分析
# fs.plot_correlation_heatmap()
# fs.plot_feature_importances(n=10)

更多详细用法和可视化示例，请参考官方 Feature Selector Usage notebook。

常见问题

在 Ubuntu 或 Jupyter Notebook 中安装后无法导入 feature_selector 包怎么办？

遇到 'LightGBMError: Multiclass objective and metrics don't match' 错误如何解决？

运行 'identify_zero_importance' 方法时遇到包含 NaN 或无穷大的值报错怎么办？

如何保存特征选择生成的图表图片？

使用 pip 安装失败或在旧版 Python 环境中导入时报 OSError 错误怎么办？

运行回归任务时报错 'Found input variables with inconsistent numbers of samples' 是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|2天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|2天前

其他图像数据工具

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.8k|★☆☆☆☆|昨天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|1周前

开发框架数据工具其他