awesome-feature-engineering

598 190 非常简单 1 次阅读 2天前NOASSERTION数据工具其他开发框架Agent图像

AI 解读由 AI 自动生成，仅供参考

awesome-feature-engineering 是一份专为机器学习领域精心整理的特征工程技术资源清单。在机器学习中，原始数据往往无法直接用于模型训练，如何从中提取有效信息（即“特征工程”）是决定模型性能的关键难题。这份清单系统地解决了这一痛点，将分散的技术文档、代码库和教程按数据类型进行了科学分类。

它涵盖了数值型数据的标准化与分箱、文本数据的词向量与 TF-IDF 处理、图像数据的深度学习特征提取、类别型数据的编码技巧，以及时序和地理空间数据的特有处理方法。无论是刚入门的新手还是资深算法工程师，都能在这里快速找到针对特定数据类型的最佳实践方案和相关工具链接（如 scikit-learn、Featuretools 等）。

特别适合机器学习开发者、数据科学家及人工智能研究人员使用。其独特亮点在于极强的结构化与全面性：不仅罗列了传统统计方法，还收录了 t-SNE、Yeo-Johnson 变换等进阶技术，并提供了从理论文章到具体代码实现的完整路径。通过参考 awesome-feature-engineering，用户可以大幅缩短调研时间，构建更高质量的数据输入，从而提升模型的整体表现。

使用场景

某电商数据科学团队正致力于构建用户流失预测模型，但原始数据中包含大量分布不均的数值型特征和复杂的类别变量，导致初期模型效果不佳。

没有 awesome-feature-engineering 时

面对偏态分布的连续数值（如用户消费金额），团队缺乏系统的转换指南，只能盲目尝试对数变换，无法有效利用 Box-Cox 或 Yeo-Johnson 等高级方法标准化数据分布。
处理高基数类别特征（如成千上万个商品 ID）时，仅知道简单的独热编码，导致特征维度爆炸，且容易忽略均值编码（Mean Encoding）等能保留目标信息的高效技巧。
在挖掘特征交互关系时，完全依赖人工经验构造交叉项，不仅效率低下，还遗漏了通过多项式特征或聚类生成的深层隐含模式。
缺乏统一的知识索引，团队成员需花费大量时间在零散的博客和文档中搜索特定技术实现，严重拖慢了实验迭代节奏。

使用 awesome-feature-engineering 后

团队快速定位并应用了 Yeo-Johnson 变换处理非正态数值特征，显著提升了模型对异常值的鲁棒性，使数据分布更符合算法假设。
针对高基数类别数据，直接采用列表中推荐的均值编码和计数编码方案，在大幅降低维度的同时，有效保留了特征与目标变量的关联性。
借助 Featuretools 和多阶多项式特征生成技术，自动挖掘出“用户活跃度×最近购买时间”等强解释性交互特征，模型区分度明显增强。
依托其结构化的资源分类，工程师能按需速查从文本 TF-IDF 到时序滞后特征的各类实现方案，将特征工程阶段的研发周期缩短了 40%。

awesome-feature-engineering 通过提供系统化、全覆盖的特征工程技术图谱，帮助团队将原本依靠直觉的“手工艺术”转化为高效可复用的“标准工程”，直接推动了模型精度的突破。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个机器学习特征工程技术的资源列表（Awesome List），并非单一的可执行软件工具。它汇总了多种不同技术栈（如统计学习、自然语言处理、计算机视觉等）的库和教程链接。具体的运行环境需求取决于用户选择实现的特定特征工程技术（例如，使用深度学习提取图像特征需要 GPU 和 Keras/TensorFlow，而仅使用 Pandas 进行分箱操作则仅需 CPU）。建议根据具体选用的算法参考对应链接中的文档来配置环境。

python未说明

scikit-learn

pandas

scipy

numpy

gensim

opencv

Pillow

pytesseract

keras

nltk

快速开始

机器学习中的精彩特征工程

一份精心整理的资源列表，专注于机器学习中的特征工程技术。

维护者 - Andrei Khobnia

本页面采用知识共享署名-非商业性使用-相同方式共享 3.0 未本地化许可协议许可。

欢迎随时创建 pull requests。

数值型数据

理解特征工程（第1部分）——连续数值型数据

归一化

排名

量化与分箱

Box-Cox变换

scipy.stats.boxcox
np.log (x + const)

t-SNE特征

PCA特征

文本数据

理解特征工程（第3部分）——文本数据的传统方法

词袋模型

短语检测特征

sklearn_api.phrases – Scikit learn用于短语（搭配）检测的封装

TFIDF

词嵌入

子词嵌入

基于字节对编码（BPE）的275种语言的预训练子词嵌入

模式特征

ClearTK - 特征提取教程
正则表达式

词典特征

使用双向LSTM-CNN进行命名实体识别（arXiv:1511.08308）

词性特征

图像数据

计算机视觉算法特征

图像统计特征

ImageStat 模块 — Pillow

OCR 特征

Google Tesseract 的 Python 封装库

深度学习特征

分类数据

理解特征工程（第 2 部分）—— 分类数据

独热编码

计数编码

特征工程：计数编码

标签编码

虚拟编码

均值编码

哈希化

时间序列数据

滑动窗口特征

pandas.DataFrame.rolling

滞后特征

使用 pandas 滞后时间序列数据以研究因果关系

地理空间数据

返回顶部

awesome-feature-engineering 快速上手指南

awesome-feature-engineering 并非一个可直接安装的 Python 库，而是一个精选的特征工程技术资源清单。它汇总了针对数值、文本、图像、类别、时间序列及地理空间数据的各种处理方法、理论文章及对应的代码实现库（如 scikit-learn, pandas, gensim 等）。

本指南将指导你如何搭建环境，并利用该清单中推荐的主流工具快速开始特征工程实践。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：Windows, macOS 或 Linux
Python 版本：推荐 Python 3.8 及以上版本
包管理器：pip 或 conda

前置依赖安装

根据清单内容，核心依赖主要集中在数据处理和机器学习领域。建议使用国内镜像源加速安装。

推荐使用 pip 安装核心套件：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple \
    pandas \
    numpy \
    scikit-learn \
    scipy \
    matplotlib \
    seaborn

针对特定数据类型的可选依赖：

文本处理：gensim, nltk, spacy
图像处理：opencv-python, pillow, scikit-image, keras (或 tensorflow/pytorch)
时间序列：tsfresh
自动特征生成：featuretools

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple \
    gensim nltk opencv-python pillow scikit-image tsfresh featuretools

安装步骤

由于本项目是资源列表，无需安装项目本身。你只需克隆仓库以便查阅文档，或直接参考下文的使用示例调用相关库。

1. 克隆资源仓库（可选，用于离线查阅）：

git clone https://github.com/aikho/awesome-feature-engineering.git
cd awesome-feature-engineering

2. 验证环境：

运行以下 Python 代码确认核心库已就绪：

import pandas as pd
import sklearn
import numpy as np

print(f"Pandas version: {pd.__version__}")
print(f"Scikit-learn version: {sklearn.__version__}")
print("Environment ready for Feature Engineering!")

基本使用

以下示例展示了如何利用清单中推荐的技术，对不同类型的数据进行基础特征工程。

1. 数值型数据 (Numeric Data)

技术：标准化 (Scaling) 与分箱 (Binning) 对应库：sklearn.preprocessing, pandas

import pandas as pd
from sklearn.preprocessing import StandardScaler
import numpy as np

# 模拟数据
df = pd.DataFrame({'age': [25, 32, 47, 51, 62], 'income': [30000, 45000, 80000, 92000, 120000]})

# 1. Scaling (标准化)
scaler = StandardScaler()
df[['age_scaled', 'income_scaled']] = scaler.fit_transform(df[['age', 'income']])

# 2. Quantization and Binning (分箱)
df['age_bin'] = pd.cut(df['age'], bins=[0, 30, 50, 100], labels=['Young', 'Middle', 'Senior'])

print(df.head())

2. 类别型数据 (Categorical Data)

技术：独热编码 (One Hot Encoding) 与均值编码 (Mean Encoding) 对应库：pandas, sklearn

from sklearn.preprocessing import OneHotEncoder

# 模拟数据
df_cat = pd.DataFrame({
    'city': ['Beijing', 'Shanghai', 'Beijing', 'Guangzhou', 'Shanghai'],
    'target': [1, 0, 1, 0, 1] # 假设的目标变量
})

# 1. One Hot Encoding (使用 pandas)
df_dummies = pd.get_dummies(df_cat, columns=['city'], prefix='city')

# 2. Mean Encoding (手动实现示例：用目标均值替换类别)
mean_enc = df_cat.groupby('city')['target'].mean()
df_cat['city_mean_enc'] = df_cat['city'].map(mean_enc)

print(df_dummies)
print(df_cat)

3. 文本数据 (Textual Data)

技术：TF-IDF 与词袋模型 (Bag of Words) 对应库：sklearn.feature_extraction.text

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

documents = [
    "机器学习是人工智能的核心",
    "深度学习属于机器学习的子集",
    "自然语言处理需要大量的文本数据"
]

# 1. Bag of Words
count_vec = CountVectorizer()
bow_matrix = count_vec.fit_transform(documents)
print("BoW Shape:", bow_matrix.shape)

# 2. TF-IDF
tfidf_vec = TfidfVectorizer()
tfidf_matrix = tfidf_vec.fit_transform(documents)
print("TF-IDF Shape:", tfidf_matrix.shape)

4. 时间序列数据 (Time Series Data)

技术：滞后特征 (Lag Features) 与滚动窗口 (Rolling Window) 对应库：pandas

# 模拟时间序列数据
dates = pd.date_range(start='2023-01-01', periods=5, freq='D')
ts_df = pd.DataFrame({'date': dates, 'value': [10, 12, 11, 15, 14]})
ts_df.set_index('date', inplace=True)

# 1. Lag Features (滞后 1 期)
ts_df['value_lag1'] = ts_df['value'].shift(1)

# 2. Rolling Window Features (滚动平均值，窗口大小=2)
ts_df['value_roll_mean'] = ts_df['value'].rolling(window=2).mean()

print(ts_df)

5. 高级自动化特征工程

技术：自动特征生成 对应库：featuretools (清单推荐)

import featuretools as ft

# 创建实体集 (EntitySet)
es = ft.EntitySet(id="customer_data")

# 添加数据框 (示例)
# transactions_df = ... 
# es = es.add_dataframe(dataframe_name="transactions", dataframe=transactions_df, index="id", ...)

# 深度特征合成 (Deep Feature Synthesis)
# feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name="customers", max_depth=2)
# print(feature_matrix.head())

提示：对于图像数据（如 CNN 特征提取）和复杂的地理空间数据处理，请参考原仓库中对应的 Image Data 和 Geospatial Data 章节链接，使用 Keras, OpenCV 或专用 GIS 库进行深入实践。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.4k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天