lightwood

504 100 简单 1 次阅读昨天GPL-3.0开发框架

AI 解读由 AI 自动生成，仅供参考

Lightwood 是一个旨在简化机器学习流程的自动化框架，被誉为“机器学习的乐高积木”。它通过一种名为 JSON-AI 的声明式语法，让用户能够轻松生成并自定义完整的机器学习管道，从而将数据科学家从繁琐的数据清洗、特征工程和模型训练等重复性代码工作中解放出来，专注于解决业务核心问题。

无论是处理数字、文本、日期还是多媒体数据，甚至是具有时间序列依赖关系的复杂场景，Lightwood 都能自动识别数据类型并构建相应的处理流程。其独特之处在于高度的灵活性：用户既可以直接使用默认配置快速建模，也可以通过修改 JSON-AI 配置文件，随时替换管道中的任何环节（如更换编码器或预测模型），甚至注入自定义的 Python 代码。

这款工具非常适合希望提升开发效率的开发者、数据科学家以及研究人员。对于想要快速验证想法但不愿深陷底层代码细节的团队，Lightwood 提供了一个既能自动化执行又保留深度定制能力的理想平衡点，让构建高质量机器学习模型变得更加直观和高效。

使用场景

某电商数据团队需要快速构建一个预测用户复购率的模型，但面临数据杂乱、特征工程耗时且模型迭代缓慢的挑战。

没有 lightwood 时

数据科学家需手动编写大量重复代码来清洗日期、分类标签和文本等多模态数据，极易出错。
特征工程依赖人工经验选择编码器，难以系统化尝试规则基于或学习型的转换策略。
每次调整模型结构（如从随机森林切换到神经网络）都需要重构整个训练流水线，开发周期长达数周。
缺乏统一的声明式配置，团队成员间难以复用和审查建模逻辑，协作效率低下。

使用 lightwood 后

只需定义目标列，lightwood 自动识别数据类型并生成清洗与划分方案，将预处理时间从几天缩短至几分钟。
通过 JSON-AI 语法灵活配置每列的编码器，轻松混合规则化归一化与深度学习特征提取，无需重写底层逻辑。
修改配置文件即可自动替换“混合器”（Mixer）模型并生成完整 Python 代码，实现小时级的模型迭代验证。
建模流程被抽象为清晰的声明式文档，团队成员可直接基于 JSON 配置协作，显著降低沟通与维护成本。

lightwood 让数据团队从繁琐的代码锅炉中解放出来，真正专注于解决业务独特的建模难题。

运行环境要求

操作系统

未说明

GPU

未说明 (文中提及主要使用基于 PyTorch 的方法，但未明确强制要求 GPU 或具体型号)

内存

未说明

依赖

notes建议使用 Python 虚拟环境进行安装。开发环境下需克隆源码并安装 requirements.txt 和 requirements_image.txt。首选 IDE 为 Visual Studio Code。项目遵循 GPL 许可证，贡献代码需签署协议。

python>=3.8, <3.11

pandas

torch (PyTorch)

flake8

autopep8

快速开始

Lightwood

Lightwood 是一个 AutoML 框架，它允许你使用称为 JSON-AI 的声明式语法来生成和定制机器学习流水线。

我们的目标是通过让用户专注于他们希望对数据完成的什么任务，而无需编写围绕机器学习和数据准备的重复性样板代码，从而使数据科学/机器学习（DS/ML）生命周期更加简便。相反，我们让你能够专注于模型中真正独特且自定义的部分。

Lightwood 支持多种数据类型，如数字、日期、类别、标签、文本、数组以及各种多媒体格式。这些数据类型可以组合在一起以解决复杂问题。我们还支持时间序列模式，适用于存在行间依赖关系的问题。

我们的 JSON-AI 语法允许用户更改 Lightwood 自动生成的模型中的任何部分。该语法详细描述了建模流水线中每一步的具体细节。用户可以覆盖默认值（例如更改某一列的数据类型），或者完全用自定义方法替换某些步骤（例如为预测器使用随机森林模型）。Lightwood 会根据此语法创建一个“JSON-AI”对象，然后可以利用该对象自动生成表示你的流水线的 Python 代码。

有关如何生成 JSON-AI 语法以及 Lightwood 工作原理的详细信息，请参阅 Lightwood 理念。

Lightwood 理念

Lightwood 将 ML 流水线抽象为三个核心步骤：

(1) 预处理与数据清洗
(2) 特征工程
(3) 模型构建与训练

Lightwood 内部结构

i) 预处理与清洗

对于数据集中的每一列，Lightwood 会通过简短的统计分析识别其疑似数据类型（数值型、类别型等），并据此生成 JSON-AI 语法。

如果用户保持默认行为，Lightwood 将根据识别出的数据类型对每一列进行简要的预处理以清理数据。随后，它会将数据划分为训练集、验证集和测试集。

cleaner 和 splitter 对象分别指代预处理函数和数据划分函数。

ii) 特征工程

数据可以通过“编码器”转换为特征。编码器代表将预处理后的数据转换为模型可使用的数值表示形式的规则。

编码器可以是 基于规则的 或 学习得到的。基于规则的编码器按照特定指令转换数据（例如归一化数值数据），而学习得到的编码器则在训练后生成数据的表示形式（例如语言模型中的“[CLS]”标记）。

编码器会根据数据类型分配给每一列；用户可以在列级别或数据类型级别覆盖这一分配。编码器继承自 BaseEncoder 类。

iii) 模型构建与训练

我们将一种接收 编码后 特征数据并输出目标变量预测结果的预测模型称为 mixer 模型。用户可以选择使用 Lightwood 的默认 mixer，也可以创建自己的实现，这些实现应继承自 BaseMixer 类。

我们主要采用基于 PyTorch 的方法，但也支持其他模型。

使用方法

我们诚邀您查阅我们的文档以获取具体的指南和教程！请持续关注更新和变化。

快速用例

Lightwood 可以与 pandas.DataFrame 配合使用。加载 DataFrame 后，通过字典定义一个“ProblemDefinition”。用户唯一需要指定的是待预测列的名称（通过键 target）。

使用命令 json_ai_from_problem 生成 JSON-AI 语法。随后，Lightwood 可以利用该对象通过 code_from_json_ai 自动生成功能完整的 ML 流水线 Python 代码。

你可以创建一个 Predictor 对象，并通过 predictor_from_code 利用该代码实例化。

要从原始数据开始端到端训练一个 Predictor，用户可以使用 predictor.learn() 命令并传入数据。

import pandas as pd
from lightwood.api.high_level import (
    ProblemDefinition,
    json_ai_from_problem,
    code_from_json_ai,
    predictor_from_code,
)

if __name__ == '__main__':
    # 加载一个 pandas 数据集
    df = pd.read_csv("https://raw.githubusercontent.com/mindsdb/benchmarks/main/benchmarks/datasets/hdi/data.csv"
    )

    # 定义预测任务，指定目标列
    pdef = ProblemDefinition.from_dict(
        {
            "target": "Development Index",  # 你想要预测的列
        }
    )

    # 生成用于建模问题的 JSON-AI 代码
    json_ai = json_ai_from_problem(df, problem_definition=pdef)

    # 可选 - 查看 JSON-AI 语法
    # print(json_ai.to_json())

    # 生成 Python 代码
    code = code_from_json_ai(json_ai)

    # 可选 - 查看生成的代码
    # print(code)

    # 从 Python 代码创建预测器
    predictor = predictor_from_code(code)

    # 从原始数据到最终预测器，端到端训练模型
    predictor.learn(df)

    # 划分训练集和测试集，并展示几个示例的预测结果
    test_df = predictor.split(predictor.preprocess(df))["test"]
    preds = predictor.predict(test_df).iloc[:10]
    print(preds)

BYOM：自带模型

只要遵循每个步骤中提供的抽象接口，Lightwood 就支持用户自定义的架构或方法。

我们的教程提供了如何在流水线中引入自定义的具体案例。请查看“自定义清洗器”、“自定义分割器”、“自定义解释器”和“自定义 mixer”。敬请期待更多更新。

安装

您可以按照以下方式安装 Lightwood：

pip3 install lightwood

注意：根据您的环境，您可能需要在上述命令中使用 pip 而不是 pip3。

不过，我们建议您创建一个 Python 虚拟环境。

设置开发环境

Python 版本应在 >=3.8 且 < 3.11 的范围内。
克隆 Lightwood 仓库。
运行 cd lightwood && pip install -r requirements.txt && pip install -r requirements_image.txt。
将其添加到您的 Python 路径中（例如，在您的 ~/.bashrc 文件末尾添加一行：export PYTHONPATH='/where/you/cloned/lightwood':$PYTHONPATH）。
进入您克隆 Lightwood 的目录，运行 python -m unittest discover tests，以确保单元测试通过。

如果您的环境中默认使用的是 Python 2.x，请使用 python3 和 pip3 代替。

目前，使用 Lightwood 的首选环境是 Visual Studio Code，这是一个非常流行的 Python IDE。不过，任何 IDE 都应该可以正常工作。虽然我们没有针对其他 IDE 的指南，但您可以将以下内容作为 VSCode 的模板，或者贡献您自己设置其他 IDE 的技巧和经验。

设置 VSCode 环境

安装并启用 GitHub 账户同步功能（如果您使用多台机器）。
安装 Pylance（用于类型检查），并确保禁用 Pyright。
前往 Python > Lint: Enabled，仅保留 flake8，其余全部禁用。
将 python.linting.flake8Path 设置为 flake8 的完整路径（即运行 which flake8 找到的路径）。
将 Python › Formatting: Provider 设置为 autopep8。
在 Python › Formatting: Autopep8 Args 中添加 --global-config=<path_to>/lightwood/.flake8 和 --experimental。
安装 Live Share 和 Live Share 白板插件。

参与 Lightwood 的贡献

我们非常欢迎社区的贡献和您的宝贵意见！我们希望让参与 Lightwood 的贡献变得尽可能简单。

只要您有动力并愿意加入这一旅程，任何人都可以成为 Lightwood 核心团队的一员！

如果您有兴趣帮助推动机器学习的民主化，请继续阅读本指南。

您可以如何帮助我们？

报告 Bug
改进文档
解决问题
提出新功能
讨论功能实现
提交 Bug 修复
使用您自己的数据测试 Lightwood，并告诉我们结果如何！

代码贡献

一般来说，我们遵循“fork-and-pull”（分叉与拉取）的 Git 工作流程。具体步骤如下：

分叉 Lightwood 仓库。
进行更改并提交。
确保 CI 测试通过。您可以在本地运行测试套件，使用 flake8 . 检查代码风格，使用 python -m unittest discover tests 运行自动化测试。这并不能保证远程测试一定通过，因为我们会在多个环境中运行，但在大多数情况下应该没问题。
将您的本地分支推送到您的分叉仓库。
从您的仓库向 mindsdb/lightwood 的 main 分支提交拉取请求，以便我们审查您的更改。请务必在提交拉取请求之前合并 main 分支的最新代码！

注意：由于 Lightwood 采用 GPL 许可证，您需要签署一份代码许可协议。

功能与 Bug 报告

我们使用 GitHub Issues 来跟踪 Bug 和功能需求。请通过打开新 Issue 并填写所有必填项来报告问题。

代码评审流程

拉取请求（PR）评审会定期进行。如果您的 PR 没有针对之前的某个问题，请先创建一个 Issue。

如果您的更改可能影响性能，我们将运行我们的私有基准测试套件来验证它。

请务必及时回复我们的反馈或问题。

社区

如果您有任何其他问题，或想与 MindsDB 核心团队交流，欢迎加入我们的社区：MindsDB Community。

要获取 Lightwood 和 MindsDB 的最新公告、发布信息及活动动态，请订阅我们的每月社区通讯。

加入我们，共同推动机器学习的民主化进程，让开发者也能成为数据科学家！

贡献者行为准则

请注意，本项目遵循贡献者行为准则。参与本项目即表示您同意遵守其中的各项条款。

当前贡献者

许可证

Lightwood 许可证

Lightwood 快速上手指南

Lightwood 是一个 AutoML 框架，允许用户通过声明式的 JSON-AI 语法生成和定制机器学习流水线。它旨在简化数据科学流程，让用户专注于业务逻辑而非重复的样板代码，支持数值、日期、类别、文本、数组及多媒体等多种数据类型，并具备时间序列处理能力。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python 版本：>= 3.8 且 < 3.11
前置依赖：建议安装 pandas 用于数据处理
虚拟环境：强烈建议使用 Python 虚拟环境（如 venv 或 conda）以避免依赖冲突

安装步骤

1. 创建并激活虚拟环境（推荐）

python -m venv lightwood_env
# Linux/macOS
source lightwood_env/bin/activate
# Windows
lightwood_env\Scripts\activate

2. 安装 Lightwood

使用 pip 进行安装。国内用户若遇到下载速度慢的问题，可指定清华或阿里镜像源加速。

通用安装命令：

pip3 install lightwood

使用国内镜像源加速安装（推荐）：

pip3 install lightwood -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：根据您的环境配置，可能需要将 pip3 替换为 pip。

基本使用

Lightwood 的核心工作流基于 pandas.DataFrame。只需定义预测目标，框架即可自动生成预处理、特征工程和模型训练的完整代码。

以下是最简化的端到端使用示例：

import pandas as pd
from lightwood.api.high_level import (
    ProblemDefinition,
    json_ai_from_problem,
    code_from_json_ai,
    predictor_from_code,
)

if __name__ == '__main__':
    # 1. 加载 pandas DataFrame 数据集
    df = pd.read_csv("https://raw.githubusercontent.com/mindsdb/benchmarks/main/benchmarks/datasets/hdi/data.csv")

    # 2. 定义预测任务：指定目标列名称
    pdef = ProblemDefinition.from_dict(
        {
            "target": "Development Index",  # 您想要预测的列名
        }
    )

    # 3. 根据问题定义生成 JSON-AI 对象
    json_ai = json_ai_from_problem(df, problem_definition=pdef)

    # 4. 从 JSON-AI 生成具体的 Python 流水线代码
    code = code_from_json_ai(json_ai)

    # 5. 实例化预测器对象
    predictor = predictor_from_code(code)

    # 6. 端到端训练：从原始数据直接训练出最终模型
    predictor.learn(df)

    # 7. 进行预测
    # 先划分测试集
    test_df = predictor.split(predictor.preprocess(df))["test"]
    # 获取前 10 条预测结果
    preds = predictor.predict(test_df).iloc[:10]
    print(preds)

核心步骤说明：

ProblemDefinition: 仅需指定 target（目标列），Lightwood 会自动推断其他列的数据类型。
json_ai_from_problem: 分析数据并生成描述流水线结构的 JSON-AI 对象。
code_from_json_ai: 将 JSON-AI 对象转换为可执行的 Python 代码。
predictor.learn(): 自动执行数据清洗、分割、特征编码及模型训练。

如需自定义流水线（例如更换特定的编码器或模型架构），可修改生成的 json_ai 对象后再转换为代码，具体请参考官方文档中的 "BYOM: Bring your own models" 部分。

版本历史

v25.12.1.02025/12/02

v25.9.1.02025/09/02

v25.7.5.12025/07/29

v25.5.2.22025/05/15

v25.5.2.12025/05/11

v25.3.3.32025/03/25

v25.3.3.12025/03/25

v25.3.3.02025/03/24

v25.2.2.02025/02/14

v24.12.3.02024/12/19

v24.12.1.02024/12/06

v24.11.4.02024/11/28

v24.5.2.02024/05/15

v24.3.3.12024/03/19

v23.12.4.02024/01/10

v23.11.1.02024/01/10

v23.8.1.02023/08/07

v23.7.1.02023/07/03

v23.6.4.02023/06/27

v23.6.2.02023/06/14

常见问题

遇到 ImportError: cannot import name 'Imputer' from 'sklearn.preprocessing' 错误怎么办？

如何处理短文本（short_text）输出类型时的自定义准确率函数错误？

设置 HORIZON=1 时预测器创建失败报错怎么办？

如何保存 Predictor 对象及其生成的代码以便后续加载使用？

遇到 ImportError: cannot import name 'MinMaxScalar' 错误如何解决？

如何将 Deernet 论文中的数据集添加到基准测试中？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架