featureform

2k 106 较难 1 次阅读 2天前MPL-2.0其他开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

Featureform 是一款“虚拟特征存储”工具，旨在帮助数据科学团队在不替换现有数据设施的前提下，高效管理机器学习模型所需的特征。它就像一层智能调度系统，覆盖在您已有的数据库、数据仓库或流处理平台之上，将其统一转化为功能完备的特征存储中心。

在实际工作中，Featureform 主要解决了团队协作难、实验管理乱以及生产部署复杂等痛点。它通过标准化的定义方式，让特征转换、标签和训练集变得可共享、可复用，彻底告别了混乱的临时脚本。同时，它能自动协调底层异构基础设施，处理重试逻辑与分布式系统问题，确保特征从开发到上线的可靠性与一致性。此外，内置的权限控制和审计日志也能帮助团队轻松满足合规要求。

这款工具特别适合拥有多样化数据架构的数据科学家、机器学习工程师以及需要规范化 ML 流程的研发团队。其最大的技术亮点在于“虚拟化”理念：无需迁移数据或重构架构，只需通过代码定义，即可让现有的数据基础设施具备专业特征存储的能力，既降低了成本，又提升了灵活性。

使用场景

某电商公司的数据科学团队正在构建实时反欺诈模型，需要整合分散在 PostgreSQL、Redis 和 Kafka 中的用户行为数据。

没有 featureform 时

协作混乱：每位数据科学家在各自的 Jupyter Notebook 中重复编写特征转换逻辑，导致“特征定义不一致”，多人使用同一特征时计算结果却不同。
实验难追溯：特征代码散落在名为 Untitled_128.ipynb 的文件中，缺乏版本管理和元数据记录，无法复现三个月前的模型训练环境。
部署成本高：将模型从测试推送到生产时，工程师需手动重写代码以适配不同的底层存储系统，耗时数周且容易出错。
数据不可靠：特征逻辑可被随意修改，下游模型常因上游逻辑变更而失效，且缺乏自动重试机制来处理分布式系统的临时故障。

使用 featureform 后

标准化协作：团队通过 featureform 统一定义特征、标签和训练集，所有成员共享同一套经过验证的逻辑，彻底消除歧义。
实验可管理：特征代码从 Notebook 推送至中央仓库，自动记录名称、版本、血缘关系和负责人，随时可回溯任意历史实验。
无缝部署：featureform 直接编排现有的 PostgreSQL 和 Kafka 基础设施，自动处理异构系统的差异，使生产部署时间从数周缩短至数小时。
高可靠性与合规：强制特征不可变性防止逻辑被意外篡改，内置的重试机制自动解决分布式故障，同时通过角色控制确保数据合规。

featureform 让团队无需替换现有架构，即可将分散的数据基础设施瞬间升级为统一、可靠且易于协作的虚拟特征商店。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具是一个虚拟特征存储（Virtual Feature Store），本身不直接计算数据，而是编排现有的数据基础设施（如 Spark, Redis 等）。支持在本地文件、Kubernetes（包括 Minikube）或 Docker 容器中运行。具体资源需求取决于所连接的后端数据基础设施。

python3.7, 3.8, 3.9, 3.10

快速开始

Website | Docs | Community forum

什么是 Featureform？

Featureform 是一个虚拟特征存储库。它使数据科学家能够定义、管理和提供其机器学习模型的特征。Featureform 构建在您现有的基础设施之上，并对其进行编排，使其像传统的特征存储库一样工作。通过使用 Featureform，数据科学团队可以解决以下组织问题：

增强协作 Featureform 确保转换、特征、标签和训练集以标准化形式定义，以便在整个团队中轻松共享、重用和理解。
组织实验 无标题_128.ipynb 的时代已经过去。转换、特征和训练集可以从笔记本推送到具有名称、变体、血统和所有者等元数据的集中式特征仓库。
促进部署 一旦特征准备好部署，Featureform 将编排您的数据基础设施，使其在生产环境中就绪。使用 Featureform API，您无需担心异构基础设施的特殊性（除了它们的转换语言之外）。
提高可靠性 Featureform 强制要求所有特征、标签和训练集都是不可变的。这使得它们可以在数据科学家之间安全地重用，而无需担心逻辑发生变化。此外，Featureform 的编排器会自动处理重试逻辑并尝试解决其他常见的分布式系统问题。
保持合规性 通过内置的角色基于访问控制、审计日志和动态服务规则，您的合规性逻辑可以直接由 Featureform 强制执行。

为什么 Featureform 独特？

利用您现有的数据基础设施。 Featureform 并不会取代您现有的基础设施。相反，Featureform 将您现有的基础设施转变为一个特征存储库。由于对基础设施具有通用性，团队可以选择合适的数据基础设施来解决其处理问题，而 Featureform 则在其之上提供了一个特征存储库抽象层。Featureform 编排和管理转换，而不是实际进行计算。计算任务被卸载到组织现有的数据基础设施上。因此，Featureform 更类似于一个框架和工作流，而不是额外的数据基础设施。

专为单个数据科学家和大型企业团队设计 无论您是单个数据科学家还是大型企业组织的一员，Featureform 都可以让您将转换、特征和训练集的定义记录并推送到一个集中式仓库。它适用于从笔记本电脑到大型异构云部署的各种环境。

本地工作的单个数据科学家: 无标题_128.ipynb、df_final_final_7 和数百个未文档化的数据集版本的时代已经结束。在笔记本中工作的数据科学家可以将转换、特征和训练集的定义推送到一个集中式的本地仓库。
拥有生产部署的单个数据科学家: 注册您的 PySpark 转换，让 Featureform 编排您的从 Spark 到 Redis 的数据基础设施，并监控基础设施和数据。
数据科学团队: 共享、重用并相互学习彼此的转换、特征和训练集。Featureform 标准izes了机器学习资源的定义方式，并提供了搜索和发现的接口。它还维护变更历史，允许不同版本的特征存在，并强制实施不可变性，以解决资源共享中最常见的失败情况。
数据科学组织: 企业通常对其数据和特征的访问控制有各种不同的规则。这些规则可能基于数据科学家的角色、模型的类别，或根据用户输入数据动态决定（例如，用户位于欧洲并受 GDPR 约束）。所有这些规则都可以指定，Featureform 将强制执行它们。数据科学家可以确保遵守组织的治理规则，而无需修改其工作流程。

原生嵌入支持 Featureform 从一开始就以嵌入为目标进行构建。它支持向量数据库作为推理和训练存储。Transformer 模型可以用作转换，从而实现嵌入表的版本化和可靠再生。我们甚至创建并开源了一个流行的向量数据库 Emeddinghub。

开源 Featureform 可在 Mozilla Public License 2.0 许可下免费使用。

Featureform 抽象层

实际上，特征的定义分散在不同的基础设施组件中：数据源、转换逻辑、推理存储、训练存储，以及它们各自的基础数据设施。然而，数据科学家通常会以逻辑形式来思考特征，例如“用户的平均购买价格”。Featureform 允许数据科学家通过转换、提供者、标签和训练集资源，以逻辑形式定义特征。随后，Featureform 会协调底层的实际组件，以实现数据科学家所期望的状态。

如何使用 Featureform

Featureform 可以在本地基于文件运行，也可以与您现有的基础设施一起部署在 Kubernetes 集群中。

Kubernetes

在 Kubernetes 上运行 Featureform 可以连接到您现有的云基础设施，同时也可以在 Minikube 上进行本地部署。

如需了解如何在云端运行，请参阅我们的 Kubernetes 部署文档。

若想在单个 Docker 容器中试用 Featureform，请参考我们的 Docker 快速入门指南。

贡献

如需为 Featureform 做贡献，请查看贡献文档。
欢迎加入我们的社区！请访问 Slack 加入我们。

提交问题

如果您在使用 Featureform 时遇到任何问题，请帮助我们通过提交问题来反馈。

许可证

Mozilla 公共许可证 2.0 版

Featureform 快速上手指南

Featureform 是一个**虚拟特征存储（Virtual Feature Store）**工具。它不替换你现有的数据基础设施，而是作为一层抽象，协调现有的数据源、转换逻辑和存储系统，帮助数据科学家统一地定义、管理和部署机器学习特征。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (WSL 推荐)
Python 版本：3.7, 3.8, 3.9 或 3.10
前置依赖：
- pip (Python 包管理工具)
- (可选) Docker 或 Kubernetes：如果你计划使用容器化部署或连接云基础设施。
- (可选) 现有数据基础设施：如 Spark, Redis, Snowflake 等（Featureform 将协调这些工具进行实际计算）。

安装步骤

你可以直接通过 PyPI 安装 Featureform 的 Python 客户端库。

pip install featureform

提示：国内开发者若遇到下载速度慢的问题，可使用清华或阿里镜像源加速安装：
pip install featureform -i https://pypi.tuna.tsinghua.edu.cn/simple

若你需要运行本地服务端进行测试，推荐使用 Docker 快速启动（需先安装 Docker）：

docker run -p 8080:8080 featureform/featureform

基本使用

Featureform 的核心工作流是：定义资源 -> 注册到仓库 -> 由编排器调度执行。以下是一个最简化的本地使用示例，展示如何定义数据源、转换逻辑和训练集。

1. 初始化客户端

首先，导入库并连接到本地实例（或远程集群）。

import featureform as ff

# 连接到本地运行的 Featureform 实例
client = ff.Client(host="localhost:8080")

2. 定义数据源与转换

假设我们有一个包含用户交易数据的 CSV 文件，我们需要定义一个特征："用户的平均购买价格"。

# 注册一个本地文件作为数据源
@client.register_file(
    name="user_transactions",
    version="1.0",
    path="./data/transactions.csv",
    description="Raw user transaction data"
)
def user_transactions_source():
    pass

# 定义转换逻辑：计算平均购买价格
@client.df_transformation(
    name="avg_purchase_price",
    version="1.0",
    inputs=[("user_transactions", "1.0")],
    description="Calculates the average purchase price per user"
)
def avg_purchase_price_df(transactions):
    # 使用 Pandas/Spark 语法进行转换
    return transactions.groupby("user_id").agg({"price": "mean"}).rename(columns={"price": "avg_price"})

3. 定义特征与训练集

将上述转换结果注册为特征，并构建用于模型训练的训练集。

# 注册特征
@client.feature(
    name="user_avg_price",
    version="1.0",
    transformation=("avg_purchase_price", "1.0"),
    description="Average price of purchases for a user"
)
def user_avg_price():
    pass

# 定义标签 (Label) - 例如：用户是否流失
@client.label(
    name="user_churn",
    version="1.0",
    source=("user_transactions", "1.0"),
    description="Whether the user has churned"
)
def user_churn_label():
    pass

# 创建训练集
@client.training_set(
    name="churn_prediction_dataset",
    version="1.0",
    features=[("user_avg_price", "1.0")],
    labels=[("user_churn", "1.0")]
)
def churn_training_set():
    pass

4. 应用变更

将定义的元数据推送到 Featureform 仓库。如果是本地模式，这会更新本地元数据存储；如果是生产模式，Featureform 将开始编排底层基础设施（如触发 Spark 任务）来物化这些特征。

# 提交所有定义
client.apply()

5. 获取特征数据

在模型训练或推理阶段，可以通过 API 获取生成的训练集数据。

# 获取训练集数据 (返回 Pandas DataFrame 或其他格式，取决于配置)
training_data = client.get_training_set("churn_prediction_dataset", "1.0")

print(training_data.head())

下一步建议：

对于生产环境，请参考官方文档配置 Kubernetes 部署以连接您的云数据仓库（如 Snowflake, BigQuery）和在线存储（如 Redis）。
加入社区 Slack 频道交流最佳实践。

版本历史

v0.12.12024/02/13

v0.12.02024/02/12

v0.11.02023/11/30

v0.10.12023/08/17

v0.10.02023/07/14

v0.9.02023/06/06

v0.8.12023/05/16

v0.8.02023/05/10

v0.7.32023/04/18

v0.7.22023/04/06

v0.7.12023/04/03

v0.7.02023/04/03

v0.6.42023/03/21

v0.6.32023/03/20

v0.6.22023/03/15

v0.6.12023/03/15

v0.6.02023/03/06

v0.5.12023/02/08

v0.5.02023/02/07

v0.4.62023/02/01

常见问题

遇到无法进行基于时间的连接或时间列名称不是 'ts' 的错误怎么办？

从 BigQuery 向 Redis 同步超过 10 万行数据时，为什么只写入了 10 万条？

如何在 Featureform 中使用 DuckDB 作为离线存储（Offline Store）？

在 Spark Provider 中指定 S3 输出位置时出现 'Invalid JSON' 错误如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|4天前

插件开发框架

使用场景

没有 featureform 时

使用 featureform 后

运行环境要求

快速开始

Website | Docs | Community forum

什么是 Featureform？

更多阅读

为什么 Featureform 独特？

Featureform 抽象层

如何使用 Featureform

Kubernetes

贡献

提交问题

许可证

Featureform 快速上手指南

环境准备

安装步骤

基本使用

1. 初始化客户端

2. 定义数据源与转换

3. 定义特征与训练集

4. 应用变更

5. 获取特征数据

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown