OpenMetadata

11.1k 1.9k 较难 1 次阅读今天Apache-2.0数据工具

AI 解读由 AI 自动生成，仅供参考

OpenMetadata 是一个统一的开源元数据平台，旨在帮助企业高效地发现、监控和治理数据资产。在数据源分散、血缘关系复杂且团队协作困难的背景下，它通过构建中央元数据存储库，解决了数据“找不到、看不懂、管不住”的痛点，让数据价值得以释放。

该平台非常适合数据工程师、分析师、治理专家以及需要跨部门协作的数据团队使用。其核心亮点在于提供了深入的列级数据血缘分析，让用户能清晰追踪数据的来龙去脉；同时支持 84 多种连接器，可无缝集成各类数据仓库、数据库及 BI 工具。OpenMetadata 还具备无代码的数据质量测试功能，用户无需编写复杂脚本即可定义和运行质检规则。此外，平台内置了类似社交软件的协作机制，支持针对具体数据资产进行讨论、任务分配和事件通知，真正实现了技术管理与团队沟通的有机融合，是构建现代化数据栈的理想选择。

使用场景

某电商公司的数据团队正紧急排查“双 11"大促报表中销售额数据异常波动的原因，需要快速定位问题源头并协同修复。

没有 OpenMetadata 时

资产查找如大海捞针：分析师不知道核心销售表存储在哪个数据库，只能逐个询问开发人员或翻阅过时的文档，耗时数小时。
血缘关系靠人工推测：面对数据异常，无法直观看到该字段上游依赖了哪些清洗任务和数据源，只能凭经验猜测，极易漏掉关键节点。
质量问题响应滞后：数据错误往往在业务方投诉后才被发现，缺乏自动化的质量监控和报警机制，信任度低。
协作沟通支离破碎：发现问题的分析师、负责管道的工程师和业务所有者分散在邮件、IM 和会议中，上下文割裂，难以形成闭环。

使用 OpenMetadata 后

一键全局搜索定位：分析师通过关键词直接搜到目标表和仪表盘，立即查看其详细描述、所有者及最新更新时间，秒级锁定资产。
列级血缘自动可视化：系统自动生成从源系统到报表端的完整列级血缘图，团队迅速定位到是某个中间层的 ETL 逻辑变更导致了数据偏差。
无代码质量监控预警：预先配置的无代码数据质量测试在管道运行失败时自动触发告警，并在事件发生前拦截了脏数据流入报表。
上下文内高效协同：团队成员直接在数据资产的页面下发起讨论线程、指派修复任务并@相关负责人，所有沟通记录与数据上下文永久留存。

OpenMetadata 通过统一的元数据底座，将原本分散、被动且低效的数据管理流程，转变为透明、主动且高度协同的现代化数据运营体系。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notesREADME 主要介绍了 OpenMetadata 的功能特性（如数据发现、协作、质量、治理等）和架构组件，未直接列出具体的运行环境需求（如 OS、GPU、RAM、Python 版本等）。文档指引用户参考官方文档 (https://docs.open-metadata.org/quick-start/local-docker-deployment) 获取安装说明，并提到可以通过 Docker 快速部署。

python未说明

未说明

快速开始

用 OpenMetadata 助力您的数据之旅

什么是 OpenMetadata？

OpenMetadata 是一个由中央元数据存储库、深度列级血缘关系以及无缝团队协作支持的统一元数据平台，用于数据发现、数据可观测性和数据治理。它是最快速发展的开源项目之一，拥有活跃的社区，并被众多不同行业领域的公司所采用。基于开放元数据标准和 API，支持与广泛数据服务的连接器，OpenMetadata 实现了端到端的元数据管理，让您能够自由地释放数据资产的价值。

功能
试用我们的沙盒
安装与运行
路线图
文档与支持
贡献者

OpenMetadata 由四个主要组件组成：

元数据模式：这些是基于通用抽象和类型的元数据核心定义和词汇表。它们还允许自定义扩展和属性，以适应不同的用例和领域。
元数据存储：这是用于存储和管理元数据图的中心存储库，以统一的方式连接数据资产、用户和工具生成的元数据。
元数据 API：这些是基于元数据模式构建的用于生产和消费元数据的接口。它们实现了用户界面和工具、系统和服务与元数据存储的无缝集成。
摄取框架：这是一个可插拔框架，用于从各种源和工具将元数据摄取到元数据存储中。它支持约 84 多种连接器，适用于数据仓库、数据库、仪表板服务、消息传递服务、管道服务等。

OpenMetadata 的关键特性

数据发现：使用多种策略（如关键词搜索、数据关联和高级查询）在一个地方查找和探索所有数据资产。您可以在表、主题、仪表板、管道和服务中进行搜索。

数据协作：与其他用户和团队就数据资产进行沟通、交流和合作。您可以接收事件通知、发送警报、添加公告、创建任务以及使用对话线程。

数据质量和探查器：通过无代码方式衡量和监控数据质量，以建立对数据的信任。您可以定义并运行数据质量测试，将它们分组为测试套件，并在交互式仪表板上查看结果。借助强大的协作功能，使数据质量成为组织内的共同责任。

数据治理：在整个组织范围内执行数据政策和标准。您可以定义数据域和数据产品，指定所有者和利益相关者，并使用标签和术语对数据资产进行分类。利用强大的自动化功能自动对您的数据进行分类。

数据洞察与 KPI：使用报告和平台分析来了解贵组织的数据状况。数据洞察提供了一个单一视图，展示了所有关键指标，以最准确地反映您的数据状态。您可以在 OpenMetadata 中定义关键绩效指标 (KPI)，并设定目标，以改善文档、所有权和分级管理。还可以针对 KPI 设置警报，以便在指定时间收到通知。

数据血缘：端到端地跟踪和可视化您的数据资产的来源和转换过程。您可以查看列级血缘关系，筛选查询，并使用无代码编辑器手动编辑血缘关系。

数据文档化：使用富文本、图片和链接记录您的数据资产和元数据实体。您还可以添加评论和注释，生成数据字典和数据目录。

数据可观测性：监控您的数据资产和管道的健康状况和性能。您可以查看诸如数据新鲜度、数据量、数据质量及数据延迟等指标。您也可以为任何异常或故障设置警报和通知。

数据安全：使用各种身份验证和授权机制保护您的数据和元数据。您可以与不同的身份提供商集成以实现单点登录，并定义角色和策略来进行访问控制。

Webhook：使用 Webhook 与外部应用程序和服务集成。您可以注册 URL 以接收元数据事件通知，并与 Slack、Microsoft Teams 和 Google Chat 集成。

连接器：使用连接器从各种源和工具摄取元数据。OpenMetadata 支持约 84 种以上的连接器，适用于数据仓库、数据库、仪表板服务、消息传递服务、管道服务等。

试用我们的沙盒

请访问 http://sandbox.open-metadata.org 查看并体验示例数据。

安装并运行 OpenMetadata

您只需几分钟即可启动并运行。有关安装说明，请参阅 OpenMetadata 文档：本地 Docker 部署快速入门。

文档与支持

我们随时为您提供帮助，让 OpenMetadata 更加完善！请查阅 OpenMetadata 文档，以全面了解 OpenMetadata 的各项功能。加入我们的 Slack 社区，与我们联系，无论是聊天、寻求帮助，还是讨论新功能需求。

贡献者

我们非常感谢所有贡献，无论大小！请查看我们的贡献指南以开始参与，并告诉我们我们能如何帮助您。

不想错过任何更新吗？给这个项目点个⭐ 🚀 吧！

衷心感谢所有支持我们的人！

星标用户

许可证

OpenMetadata 采用 Apache License, Version 2.0 协议发布。

OpenMetadata 快速上手指南

OpenMetadata 是一个统一的元数据平台，旨在通过中央元数据存储库、深入的列级血缘分析和无缝的团队协作，赋能数据发现、数据可观测性和数据治理。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux, macOS, 或 Windows (需安装 WSL2 或 Docker Desktop)
Docker: 版本 20.10+ (推荐使用 Docker Compose v2+)
内存: 至少分配 8GB RAM 给 Docker 容器（推荐 16GB 以获得更佳体验）
网络: 确保能够访问 Docker Hub 拉取镜像。
- 国内加速建议: 如果拉取镜像缓慢，请配置 Docker 镜像加速器（如阿里云、腾讯云等提供的加速地址），或在 docker-compose.yaml 中替换为国内镜像源。

安装步骤

OpenMetadata 官方推荐使用 Docker Compose 进行本地快速部署。

1. 获取源码或配置文件

克隆官方仓库或直接下载 docker-compose.yml 文件。

git clone https://github.com/open-metadata/OpenMetadata.git
cd OpenMetadata/docker-compose

2. 启动服务

在项目目录下运行以下命令启动所有组件（包括 MySQL/Elasticsearch/OpenMetadata Server 等）：

docker compose up -d

注意: 首次启动可能需要几分钟时间下载镜像并初始化数据库。您可以使用 docker compose logs -f openmetadata 查看启动日志。

3. 验证安装

当所有容器状态变为 Up (healthy) 后，在浏览器中访问：

http://localhost:8585

默认登录账号：

用户名: admin
密码: admin

基本使用

以下是使用 OpenMetadata 的最简流程：

1. 连接数据源 (Ingestion)

OpenMetadata 支持 84+ 种连接器。以最常用的 MySQL 为例：

登录后，点击顶部导航栏的 Connectors。
选择 Databases -> MySQL。
点击 Add Connection，填写基本信息：
- Name: my_mysql_db
- Host: 您的数据库地址 (本地测试可填 host.docker.internal 或局域网 IP)
- Port: 3306
- Username/Password: 数据库凭证
保存并测试连接。

2. 运行元数据摄取

连接成功后，配置摄取任务以同步元数据：

在连接器页面点击刚创建的连接，进入 Ingestion 标签页。
点击 Create Ingestion Task。
保持默认配置（全量同步），点击 Save & Run。
等待任务状态变为 Success。

3. 探索与协作

现在您可以在平台上查看同步过来的数据资产：

数据发现: 在首页搜索框输入表名，即可查看表结构、描述和预览数据。
查看血缘: 点击任意表，选择 Lineage 标签，查看列级的数据来源与去向。
添加文档: 在表详情页点击 Description，使用富文本编辑器添加业务含义注释。
数据质量: 点击 Data Quality 标签，无需编写代码即可添加测试用例（如：非空检查、唯一性检查），并查看质量评分。

更多详细功能（如自定义标签、权限管理、高级血缘分析）请参考官方文档。

版本历史

1.12.0-rc1-release2026/02/05

1.11.8-release2026/02/04

1.11.3-release2025/12/17

1.12.5-release2026/04/10

1.12.4-release2026/03/30

1.12.3-release2026/03/19

1.11.14-release2026/03/17

1.11.13-release2026/03/06

1.11.12-release2026/03/05

1.11.11-release2026/02/26

1.12.1-release2026/02/24

1.12.0-release2026/02/22

1.11.10-release2026/02/18

1.11.9-release2026/02/16

1.11.7-release2026/01/28

1.11.6-release2026/01/21

1.9.17-release2026/01/21

1.11.5-release2026/01/14

1.11.4-release2025/12/24

1.9.16-release2025/12/19

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

lobehub

LobeHub 是一个致力于工作与生活的智能体协作平台，旨在帮助用户发现、构建并与不断成长的 AI 智能体队友协同工作。它解决了当前 AI 应用中单点交互效率低、难以形成规模化协作网络的问题，将“智能体”确立为工作的基本单元，让人类与 AI 能够共同进化。无论是开发者、研究人员还是普通用户，都能通过 LobeHub 轻松设计多智能体协作流程。平台支持一键安装 MCP 插件、访问丰富的智能体市场，并提供本地与云端数据库管理、多用户协作等高级功能。其独特的技术亮点包括对多种大模型服务商的兼容、本地大模型部署支持、视觉识别、语音对话（TTS/STT）、文生图以及思维链（Chain of Thought）等能力。此外，LobeHub 还具备分支对话、工件生成、文件上传与知识库集成等实用特性，并适配桌面端、移动端及 PWA 场景，支持自定义主题。通过开源与自托管选项，LobeHub 为构建人机共演的未来协作网络提供了灵活、可扩展的基础设施。

★ 75.1k|★★☆☆☆|4天前

语言模型数据工具Agent

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.8k|★☆☆☆☆|6天前

开发框架其他数据工具