kedro

GitHub
10.8k 1k 非常简单 1 次阅读 昨天Apache-2.0开发框架数据工具
AI 解读 由 AI 自动生成,仅供参考

Kedro 是一款专为生产环境打造的开源数据科学与数据工程工具箱。它致力于解决数据项目中常见的代码混乱、难以复现和维护成本高等痛点,通过引入成熟的软件工程最佳实践,帮助团队构建可复现、易维护且模块化的数据处理流水线。

无论是正在从实验性脚本向生产系统过渡的数据科学家,还是希望规范工作流的数据工程师,Kedro 都能提供极大的便利。它不再让数据分析停留在零散的 Jupyter 笔记本中,而是引导用户将代码组织成结构清晰的标准项目。

Kedro 的核心亮点在于其强大的项目模板和独特的“数据目录”(Data Catalog)机制。这一设计巧妙地将数据处理逻辑与具体的数据存储位置解耦,让用户无需修改核心代码即可灵活切换本地文件、数据库或云存储等不同数据源。此外,其内置的流水线可视化功能,能直观展示数据流转过程,极大提升了调试效率与协作透明度。作为一个由 LF AI & Data 基金会托管的 Python 框架,Kedro 以友好的上手体验和严谨的工程规范,成为构建可靠数据产品的得力助手。

使用场景

某电商公司的数据团队正在构建一个每日更新的用户流失预测模型,需要处理从原始日志到特征工程再到模型训练的复杂流程。

没有 kedro 时

  • 代码如“意大利面”:数据处理、特征提取和训练逻辑全部堆砌在几个巨大的 Jupyter Notebook 中,变量依赖混乱,新人接手几乎无法理清执行顺序。
  • 复现噩梦:当业务方质疑模型结果时,数据科学家很难重新运行完全一致的中间步骤,因为临时修改的代码未版本化,且中间数据丢失。
  • 协作冲突频繁:多位工程师同时修改同一个脚本的不同部分,缺乏模块化隔离,导致合并代码时频繁出现冲突且难以调试。
  • 部署困难:实验室环境的代码充满硬编码路径和全局变量,无法直接迁移到生产服务器,每次上线都需要花费数天手动重构。

使用 kedro 后

  • 流水线可视化与标准化:kedro 将项目拆分为独立的节点(Node)和数据集(DataSet),通过有向无环图(DAG)清晰展示数据流向,任何人一眼就能看懂逻辑结构。
  • 一键复现与缓存:借助 kedro 的数据抽象层,团队可以随时重跑任意历史版本的管道,自动加载或跳过未变动的中间数据,确保实验结果严格可复现。
  • 模块化并行开发:不同成员负责不同的功能模块(如清洗、特征、训练),通过标准接口对接,互不干扰,大幅降低了代码合并的难度。
  • 无缝切换环境:通过配置文件管理数据路径和参数,同一套代码只需切换配置即可从本地开发平滑过渡到生产环境,消除了“在我机器上能跑”的问题。

kedro 通过引入软件工程的最佳实践,将原本混乱的实验性代码转化为可维护、可信赖的生产级数据流水线。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notesKedro 是一个用于数据工程和数据科学管道的 Python 框架,支持通过 PyPI (uv pip) 或 Conda 安装。它依赖于标准 Python 日志库,并支持多种部署策略(如 Argo, Prefect, Kubeflow, AWS Batch, Databricks)。核心框架支持所有 CPython 团队积极维护的 Python 版本,而 kedro-datasets 包遵循 NEP 29 版本支持政策。
python3.10 | 3.11 | 3.12 | 3.13
pytest
Sphinx
ruff
kedro-viz
kedro hero image

快速开始

Kedro

Python版本 PyPI版本 Conda版本 许可证 Slack组织 Slack存档 GitHub Actions工作流状态 - Main分支 GitHub Actions工作流状态 - Develop分支 文档 OpenSSF最佳实践 月度下载量 总下载量

由Kedro提供支持

什么是Kedro?

Kedro是一个用于构建生产级数据工程和数据科学流水线的工具箱。它采用软件工程的最佳实践,帮助您创建可复现、易于维护且模块化的数据工程和数据科学流水线。您可以在kedro.org上了解更多信息。

Kedro是一个开源的Python框架,由LF AI & Data Foundation托管。

如何安装Kedro?

要从Python包索引(PyPI)安装Kedro,请运行以下命令:

uv pip install kedro

您也可以使用conda来安装Kedro:

conda install -c conda-forge kedro

我们的入门指南提供了完整的安装说明,还包括如何设置Python虚拟环境的内容。

从源代码安装

如果您想在正式发布之前使用最新的Kedro版本,可以从main分支安装:

uv pip install git+https://github.com/kedro-org/kedro@main

Kedro的主要特性有哪些?

特性 是什么?
项目模板 基于Cookiecutter Data Science的标准、可修改且易于使用的项目模板。
数据目录 一系列轻量级的数据连接器,用于在多种不同的文件格式和文件系统之间保存和加载数据,包括本地和网络文件系统、云对象存储以及HDFS。数据目录还为基于文件的系统提供了数据和模型版本控制功能。
流水线抽象 自动解析纯Python函数之间的依赖关系,并使用Kedro-Viz进行数据流水线可视化。
编码标准 使用pytest进行测试驱动开发,利用Sphinx编写文档齐全的代码,借助ruff的支持生成经过静态检查的代码,并使用标准的Python日志记录库。
灵活的部署 支持单机或分布式机器部署的策略,同时还支持在Argo、Prefect、Kubeflow、AWS Batch和Databricks等平台上部署。

我如何使用 Kedro?

Kedro 文档 首先介绍了如何安装 Kedro,随后讲解了Kedro 的核心概念

接下来,您可以参考 spaceflights 教程 来构建一个 Kedro 项目,以获得实际操作经验。

对于初学者和中级用户,文档中还有一节全面的内容,介绍如何使用 Kedro-Viz 可视化 Kedro 项目

使用 Kedro-Viz 生成的管道可视化图

此外,文档还说明了如何将 Kedro 与 Jupyter Notebook 结合使用,并提供了一系列针对 Kedro 核心功能的高级用户指南。我们还建议您查阅 API 参考文档,以获取更多详细信息。

为什么会有 Kedro?

Kedro 是基于我们在交付涉及大量未经验证原始数据的真实世界机器学习应用过程中积累的最佳实践(以及教训)而构建的。我们开发 Kedro 的目标是:

  • 解决 Jupyter Notebook、一次性脚本和胶水代码的主要缺陷,因为其重点在于 创建可维护的数据工程和数据科学代码
  • 提升团队协作效率,尤其是在团队成员对软件工程概念的熟悉程度各不相同的情况下
  • 提高效率,因为模块化和关注点分离等实践理念能够促进可重用分析代码的产生

如需了解更多关于 Kedro 如何满足您的使用场景,请参阅 Kedro 官网上的产品常见问题解答

Kedro 背后的团队

Kedro 产品团队 以及来自全球的众多开源贡献者共同维护着 Kedro。

我可以参与贡献吗?

当然可以!我们欢迎各种形式的贡献。请查看我们的参与 Kedro 贡献指南

我还能在哪里了解更多?

围绕 Kedro 的社区正在不断壮大。我们鼓励您在 Slack 上提出和回答技术问题,并将 Linen 历史讨论存档 收藏起来。

我们在 Kedro 文档中的技术 FAQ 列表 中整理了常见问题,同时在 awesome-kedro GitHub 仓库 上也汇集了越来越多使用 Kedro 的博客文章、视频和项目。如果您使用 Kedro 开发了任何内容,我们非常乐意将其加入该列表——只需提交一个 PR 即可!

我该如何引用 Kedro?

如果您是学术界人士,Kedro 同样可以帮助您,例如作为解决可重复性研究问题的工具。请使用我们仓库上的“引用此仓库”按钮,从 CITATION.cff 文件中生成引用格式。

Python 版本支持政策

  • 核心 Kedro 框架 支持由 CPython 核心团队积极维护的所有 Python 版本。当某个 Python 版本达到生命周期结束时,Kedro 将停止对该版本的支持。这并不被视为破坏性变更。
  • Kedro Datasets 包遵循 NEP 29 Python 版本支持政策。这意味着 kedro-datasets 通常会比 kedro 更早停止对某些 Python 版本的支持。这是因为 kedro-datasets 依赖较多遵循 NEP 29 政策的库,而 Kedro 框架更为保守的版本支持策略使得管理这些依赖变得较为困难。

☕️ Kedro Coffee Chat 🔶

我们珍视社区,并希望保持紧密联系。为此,我们定期举办公开的 Coffee Chat 活动,每两周分享 Kedro 的最新动态和精彩内容,并留出时间让您现场提问。

请访问 Kedro Coffee Chat 维基页面,了解即将举行的演示主题和日期。

关注我们的 Slack 公告频道,以获取 Kedro Coffee Chat 的最新消息及演示录像。

版本历史

1.3.12026/04/07
1.3.02026/03/31
1.2.02026/01/29
1.1.12025/11/26
1.1.02025/11/25
0.19.152025/12/16
1.0.02025/07/22
1.0.0rc32025/07/21
1.0.0rc22025/07/18
1.0.0rc12025/06/20
0.19.142025/06/17
0.19.132025/05/22
0.19.122025/03/20
0.19.112025/01/29
0.19.102024/11/26
0.19.92024/10/10
0.19.82024/08/22
0.19.72024/08/01
0.19.62024/05/27
0.19.52024/04/22

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架