mldb

685 101 较难 1 次阅读 1个月前Apache-2.0开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

mldb 是一款专为机器学习打造的开源 SQL 数据库。它旨在解决传统数据库在处理机器学习任务时的痛点，让用户能够直接使用熟悉的 SQL 语言完成从数据存储、探索分析，到模型训练及 API 部署的全流程，无需在不同工具间频繁切换。

这款工具特别适合数据科学家、机器学习工程师以及希望深入探索底层算法的研究人员使用。对于需要在 Linux 或 macOS 环境下构建自定义 ML 流程的开发者而言，mldb 提供了极高的灵活性。

mldb 拥有多项独特的技术亮点：它扩展了 SQL 方言以原生支持嵌套结构、嵌入向量和张量等机器学习专用数据类型；采用“万物皆表”的设计理念，允许用户像查询普通数据一样直接检视和操作训练好的模型；同时具备无锁高并发的 REST 接口，确保数据加载与模型预测的高效执行。此外，其架构正朝着核心精简、功能插件化的方向演进，支持通过 C++、Python 和 JavaScript 进行灵活扩展。虽然目前主要由社区志愿者维护，但它依然是探索高性能内存数据结构与独立计算抽象的优秀研究平台。

使用场景

某电商数据团队需要基于海量用户行为日志（点击、浏览、购买）快速构建实时推荐模型，以优化首页商品展示。

没有 mldb 时

数据工程师需编写复杂的 ETL 脚本将非结构化的日志文件清洗并转换为传统关系型数据库所需的规整表格，耗时且易出错。
算法科学家必须将数据导出到本地，使用 Python 或 R 进行特征工程，导致数据搬运频繁，难以处理嵌套的用户行为序列数据。
模型训练与数据存储割裂，每次调整特征都需要重新导出数据，迭代周期长达数天，无法响应业务变化。
部署模型时需额外开发 REST API 服务包裹算法代码，运维架构复杂，难以实现高并发下的低延迟预测。

使用 mldb 后

直接利用 mldb 特有的 SQL 方言加载原始日志文件，其原生支持稀疏数据和嵌套结构，无需繁琐的预处理即可直接查询探索。
在数据库内部直接调用内置的高效机器学习算法进行训练，利用“一切皆表”的特性，像操作普通数据一样对模型进行 introspection 和特征变换。
通过简单的 SQL 语句即可完成从数据准备到模型训练的全流程，将原本数天的迭代周期缩短至小时级，大幅提升实验效率。
训练好的模型自动暴露为高性能、无锁的 REST API 端点，无需额外开发包装代码，即可直接集成到线上推荐系统中提供服务。

mldb 通过将数据存储、探索、训练和服务部署融合在统一的 SQL 环境中，彻底消除了机器学习流程中的数据孤岛与工程摩擦。

运行环境要求

操作系统

Linux
macOS

GPU

未说明

内存

未说明

依赖

notes该项目自 2017 年起不再作为商业产品维护，仅由少数人在业余时间作为开源研究项目开发。旧的 Docker 容器和企业版已停止维护，请勿使用。获取最新版本的唯一方式是自行从源码编译。支持 Intel、ARM 和 Apple 处理器。

python未说明

C++

Python

Javascript

快速开始

MLDB 是机器学习数据库

MLDB 是一个为机器学习设计的开源 SQL 数据库，由 MLDB.ai 开发。自 2017 年 MLDB.ai 被 Element AI 收购以来，它不再作为商业支持的产品提供服务，而是由极少数人利用业余时间以开源研究项目的形式进行开发。

原 MLDB 企业版、MLDB Docker 容器以及 MLDB Hub 均已停止维护，请勿使用。

MLDB 是一个专为机器学习设计的开源数据库。您可以将其作为命令行工具安装在任何地方，既可以以脚本方式运行，也可以通过 RESTful API 发送命令来存储数据、使用 SQL 进行探索，进而训练机器学习模型并将其部署为 API。更多信息请访问 http://mldb.ai。

本仓库包含 MLDB 的源代码，可用于构建 MLDB。构建是获取最新版本的唯一途径。MLDB 可以在 Linux 或 macOS 上编译和运行，支持 Intel、ARM 和 Apple 处理器。CI/CD 流水线托管在 GitLab 上。

如果您在构建或运行 MLDB 时遇到任何问题，或者有任何疑问，请创建 GitHub 问题或者在 Gitter 上与我们交流。请注意，这是一个开源项目，参与开发的人员都有自己的本职工作。

MLDB 有哪些值得关注的地方？

MLDB 包含一些有趣的概念：

一种对机器学习有用的 SQL 方言
高效的数据加载实现、经典机器学习算法的训练以及预测端点
数据集抽象，能够有效建模多种真实世界数据（表格型、稀疏型、行为数据、日志文件等）
专为机器学习设计的数据模型和类型系统，包括嵌套结构、嵌入向量和张量等数据类型
“一切皆表”的设计理念，允许对机器学习模型进行操作和内省
无锁且高性能的 REST 端点
通过插件实现的扩展性，支持 C++、Python 和 JavaScript

MLDB 目前被用于探索以下研究方向：

高效的内存数据存储
机器学习算法的高速训练
内存映射数据结构
不依赖计算平台的处理抽象

目前，MLDB 正在进行重构，核心功能将大幅精简，其他功能则以插件形式实现，并计划支持更广泛的部署平台。

MLDB 的最终愿景是成为一种“反平台”的机器学习工具：通过允许用户在独立于其原始创建平台的环境中对机器学习解决方案进行操作和转换，并根据运行时环境进行优化，从而简化机器学习解决方案的构建和部署流程。

文档

原始的 Markdown 格式文档位于 container_files/public_html/doc 目录下，您可以在 GitHub 上浏览这些文件，也可以访问完整渲染后的版本：https://docs.mldb.ai。这些文档基于最后一次商业发布版本编写，因此已经过时，但仍然具有一定的参考价值。

版权与许可（Apache License v2.0）

MLDB © 2016 mldb.ai Inc（及其继承者）及贡献者所有，采用 Apache 许可证 2.0 版进行分发。不过，ext 目录下的内容除外，该目录包含其他开源软件组件的修改版本（可能），每个组件都遵循各自的 Apache 兼容许可证，并标注了相应的版权声明。各组件的源代码可通过其 Git 子模块获取，而对这些组件在 mldbai GitHub 组织中的任何修改，均默认适用与被修改作品相同的许可证。

MLDB 快速上手指南

MLDB 是一个专为机器学习设计的开源 SQL 数据库。它允许用户通过 SQL 存储和探索数据，训练经典机器学习模型，并将模型作为 API 暴露出来。注意：自 2017 年项目转为社区维护的开源研究项目后，原有的商业版、Docker 容器及 Hub 已停止维护，构建源码是获取最新版本的唯一途径。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux 或 macOS (OSX)。
硬件架构：支持 Intel、ARM 或 Apple Silicon 处理器。
前置依赖：
- 由于需要从头编译，请确保系统已安装基础的构建工具链（如 gcc/clang, make, git 等）。
- 建议预留充足的内存和磁盘空间以应对编译过程。

提示：本项目由志愿者利用业余时间维护，构建过程可能需要一定时间。如遇问题，可通过 Gitter 社区交流或在 GitHub Issues 反馈。

安装步骤

目前官方未提供预编译的二进制包或维护中的 Docker 镜像，您需要通过源码自行构建。

克隆源代码仓库
```
git clone --recursive https://github.com/mldbai/mldb.git
cd mldb
```
注意：务必使用 --recursive 参数以拉取必要的子模块。
执行构建 具体的构建命令和依赖细节请参阅项目根目录下的 Building.md 文件。通常在 Linux 环境下，构建流程涉及配置和编译步骤：
```
# 示例流程（具体请以 Building.md 为准）
./configure
make
```
验证安装 构建完成后，生成的可执行文件即可作为命令行工具使用，或通过 RESTful API 启动服务。

基本使用

MLDB 的核心工作流是：加载数据 -> SQL 探索 -> 训练模型 -> 部署 API。以下是最基础的使用概念示例：

1. 启动服务

构建完成后，运行 MLDB 服务器（默认监听本地端口）：

./mldb_runner

2. 通过 REST API 交互

MLDB 主要通过 HTTP REST API 进行操作。您可以使用 curl 发送请求。

示例：创建一个简单的数据集并插入数据

# 创建一个名为 "my_dataset" 的稀疏数据集
curl -X PUT http://localhost:8080/v1/datasets/my_dataset \
     -d '{ "type": "sparse.mutable" }'

# 向数据集中插入一行数据 (行名为 "row_1", 特征 "feature_a" 值为 10)
curl -X POST http://localhost:8080/v1/datasets/my_dataset/rows \
     -d '{
           "rowName": "row_1",
           "columns": [ ["feature_a", 10, 0] ]
         }'

示例：使用 SQL 查询数据

curl -X GET "http://localhost:8080/v1/query?q=SELECT%20*%20FROM%20my_dataset"

示例：训练一个简单的分类器 MLDB 支持通过 SQL 语句直接触发机器学习训练任务（具体语法参考官方文档）：

CREATE PROCEDURE train_model AS
TRAIN CLASSIFIER my_classifier
ON (SELECT * FROM my_dataset)
USING { 'algorithm': 'linear_regression', 'label': 'feature_a' };

3. 扩展性

MLDB 支持通过插件进行扩展，您可以使用 C++、Python 或 Javascript 编写自定义功能，以适应特定的机器学习需求。

更多详细文档（基于上一商业版本，仅供参考）可访问：https://docs.mldb.ai

版本历史

v2017.04.17.02017/05/25

v2017.01.24.02017/01/26

v2016.12.16.02016/12/16

v2016.10.05.02016/10/05

v2016.08.31.02016/09/01

v2016.08.04.02016/08/04

v2016.07.12.02016/07/12

v2016.06.28.12016/06/28

v2016.06.08.02016/06/08

v2016.06.02.02016/06/02

v2016.04.25.02016/04/25

v2016.04.04.02016/04/25

v2016.03.22.02016/03/22

v2016.03.10.02016/03/11

v2016.02.19.02016/02/19

v2016.02.11.02016/02/11

v2016.02.01.02016/02/01

v2016.01.26.02016/01/26

v2016.01.18.02016/01/18

v2015.12.08.02015/12/08

常见问题

为什么编译或运行社区版（Community Edition）MLDB 时会提示需要许可证密钥？

如何在 macOS 上解决 Docker 启动 MLDB 时出现的 'directory mapped to /mldb_data owned by root' 错误？

MLDB 项目目前是否还在维护或处于活跃状态？

在 Ubuntu 上构建 MLDB 社区版时遇到 'postgresql/libpq-fe.h: No such file or directory' 错误怎么办？

有没有比本地安装更简单的方法来快速体验 MLDB？

在 macOS 上使用 MLDB 时，除了 Docker 方案外还有其他建议吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架