OpenML

731 125 较难 1 次阅读 1周前BSD-3-Clause开发框架其他数据工具

AI 解读由 AI 自动生成，仅供参考

OpenML 是一个致力于推动开放科学的在线机器学习平台，旨在让数据、算法和实验的共享与协作变得简单高效。它构建了一个无缝连接的网络生态，允许全球研究者打破工具壁垒，直接基于他人的最新数据、思路和结果进行创新，从而实现人机之间最优的分工协作。

在科研领域，重复搭建实验环境和手动整理数据往往耗费大量精力。OpenML 有效解决了这一痛点，它将分散的研究资源标准化并集中管理。研究人员无需再花费数天时间重新运行他人的实验或从头寻找数据集，只需几分钟即可复用已有的工作流，快速回答关于超参数调优、最佳分析路径或数据集相似性等关键问题。这不仅极大地节省了时间，还确保了新实验能即时与当前最高水平进行公平对比。

OpenML 特别适合机器学习研究人员、数据科学家以及高校师生使用。无论是需要验证新算法的学者，还是希望复现经典实验的开发者，都能从中受益。其独特的技术亮点在于提供了灵活的 API 接口和广泛的集成方案（如与 scikit-learn 深度整合），让用户能够直接在熟悉的编程环境中调用平台资源。尽管其后端架构正在向更现代的 FastAPI 迁移，但 OpenML 始终保持着对开放数据和可复现性的坚定承诺，是促进跨学科合作与加速科学发现的得力助手。

使用场景

某高校数据科学团队正在研究医疗影像分类算法，急需验证新模型在多个公开数据集上的泛化能力并复现前沿成果。

没有 OpenML 时

研究人员需花费数天时间在不同网站手动搜寻、下载并清洗格式各异的医疗数据集，且难以确认数据版本的一致性。
复现论文结果时，因缺乏统一的实验环境和超参数记录，团队成员不得不反复猜测配置或重新运行他人代码，耗时耗力。
每次实验产生的大量日志和模型文件散落在本地硬盘，缺乏集中管理，导致团队协作时难以快速对比不同策略的优劣。
想要回答“哪些数据集结构与当前任务相似”或“该任务的最佳已知工作流是什么”等问题时，只能依靠人工查阅文献，效率极低。

使用 OpenML 后

通过 OpenML 的 API 直接调用已标准化清洗的医疗影像数据集，一键获取元数据，将数据准备时间从数天缩短至几分钟。
直接复用平台上记录的完整实验流程（Flows）和超参数配置，无需重新调试即可在相同基准下立即对比新模型与现有最佳结果。
所有实验自动上传至云端进行版本管理和结构化存储，团队成员可实时查看、筛选并可视化分析历史实验数据，协作效率大幅提升。
利用平台的搜索与推荐功能，瞬间找到结构相似的数据集及该领域的最优工作流，为算法改进提供明确方向。

OpenML 通过构建无缝协作的机器学习生态，让研究人员从繁琐的数据整理和实验复现中解放出来，专注于核心算法的创新与突破。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库 (openml/OpenML) 主要包含基于 PHP 的 Web 应用程序和 REST API，目前仅处于维护模式，官方正逐步淘汰此版本并转向基于 FastAPI 的新 API。具体的运行环境需求（如 Python 版本、依赖库等）需参考各语言独立的客户端仓库（如 openml-python, openml-r 等）。

python未说明 (主仓库为 PHP 项目，另有独立的 openml-python, openml-r, openml-java 等客户端库)

快速开始

[!警告] 本仓库目前仅处于维护模式。我们正逐步淘汰基于PHP的REST API，转而采用更为现代化的基于FastAPI的API。更多详情请参阅贡献指南。

OpenML：开放机器学习

欢迎来到OpenML的GitHub页面！ :tada:

我们是谁？
什么是OpenML？
参与进来

我们是谁？

我们是一群热衷于开放科学、开放数据和机器学习的人。我们希望通过计算机与人类之间的最佳分工协作，让机器学习和数据分析变得简单、可及、协作性高且开放。

什么是OpenML？

想了解OpenML或参与其中吗？请随时行动，并在有任何问题或意见时与我们联系！ :incoming_envelope:

入门：
- 访问OpenML官网，初步了解OpenML是什么。
- OpenML的文档页面提供了详细的介绍和功能说明，以及
- OpenML的不同API和集成，以便每个人都能使用自己喜爱的工具。
如何贡献：https://github.com/openml/OpenML/blob/master/CONTRIBUTING.md
引用与荣誉准则：https://www.openml.org/terms
沟通/联系方式：https://github.com/openml/OpenML/wiki/Communication-Channels

OpenML是一个用于共享和组织数据、机器学习算法及实验的在线机器学习平台。它旨在创建一个无摩擦、网络化的生态系统，您可以轻松地将其集成到现有的流程、代码或环境中，使全球各地的人们能够协作并直接建立在他人的最新想法、数据和成果之上，无论他们使用何种工具和基础设施。

作为开放科学平台，OpenML为科学界及其他领域带来了重要益处。

对科学的好处

许多学科通过采用在线工具来组织、结构化和分析科学数据，取得了重大突破。事实上，任何共享的想法、问题、观察或工具，都可能被恰好具备相关专业知识的人注意到，从而激发新思路、解答未解决问题、重新诠释观察结果，或以意想不到的方式重复利用数据和工具。因此，以团队形式（甚至跨学科）在线分享研究成果并开展协作，能够让科学家们迅速借鉴和扩展他人的成果，促进新的发现。

此外，随着大量已有数据的可用，规模更大的研究也变得可行。诸如“哪个超参数需要调优？”、“分析该数据集的最佳已知工作流是什么？”或“哪些数据集与我的数据结构相似？”等问题，都可以通过复用先前的实验在几分钟内得到解答，而无需花费数天时间来搭建和运行新的实验。

对科学家的好处

科学家们也可以从使用OpenML中获得个人收益。例如，他们可以节省时间，因为OpenML协助处理许多常规且繁琐的任务：查找数据集、任务、流程和先前的研究成果，设置实验，并将所有实验整理好以供进一步分析。此外，新实验会立即与当前最先进的水平进行比较，而无需总是重新运行他人的实验。

另一个好处是，将自己的研究成果与其他人的成果关联起来，具有巨大的潜在价值（例如，见Feurer等，2015年；Post等，2016年；Probst等，2017年），这将带来更多论文发表机会，并促进与世界各地其他科学家的合作。

最后，OpenML还可以帮助科学家提升声誉，通过让其工作（无论是否已发表）被广泛人群所知晓，以及展示其数据、代码和实验被他人下载或重用的频率。

对社会的好处

OpenML也为学生、公民科学家和从业者提供了一个有用的学习和工作环境。学生和公民科学家可以通过贡献自己的算法和实验，轻松探索前沿技术并与顶尖专家合作。教师可以挑战学生，在OpenML任务上展开竞争，或将OpenML数据融入作业中。最后，机器学习从业者可以探索和重用针对特定分析问题的最佳解决方案，与科学界互动，或高效地尝试多种可能的方法。

参与进来

OpenML已经发展成为一个相当大的项目。我们非常需要更多人来帮忙 :wrench:。

您想贡献吗？：太棒了！请查看我们的维基页面上的如何贡献说明，或联系我们。您或许能以意想不到的方式提供帮助。我们欢迎任何创意。
您想为我们提供资金支持吗？：当然！通过传统渠道获得资助竞争非常激烈，我们对每一份小额捐助都深表感谢。请发送邮件至openmlHQ@googlegroups.com！

GitHub组织结构

为了简化开发，OpenML的代码分布在不同的仓库中。如果您想参与贡献，请查看各个仓库的README文件和问题跟踪器。以下是其中最重要的几个：

openml/OpenML：OpenML Web应用，包括REST API。
openml/openml-python：Python API，用于从Python脚本（包括scikit-learn）与OpenML交互。
openml/openml-r：R API，用于从R脚本（包括mlr）与OpenML交互。
openml/java：Java API，用于从Java脚本与OpenML交互。
openml/openml-weka：WEKA插件，用于从WEKA工具箱与OpenML交互。

OpenML 快速上手指南

⚠️ 重要提示 当前主仓库（PHP 版 REST API）已进入仅维护模式。官方正逐步迁移至基于 FastAPI 的新版服务端 API。对于新开发项目，建议优先参考新版 API 文档及对应的客户端库。本指南主要介绍如何通过各语言客户端与 OpenML 平台交互。

OpenML 是一个开放的机器学习平台，旨在共享和整理数据、算法及实验结果，促进全球协作。

环境准备

在开始之前，请确保您的开发环境满足以下基本要求：

操作系统：Linux, macOS 或 Windows。
网络连接：需要访问 www.openml.org（如遇网络延迟，可尝试配置代理）。
前置依赖：根据您使用的编程语言，安装相应的运行时环境：
- Python 用户：Python 3.7+ 及 pip。
- R 用户：R 环境及 CRAN 包管理工具。
- Java 用户：JDK 8+ 及 Maven/Gradle。
OpenML 账号（可选但推荐）：访问 openml.org 注册账号并获取 API Key，以便上传数据或提交实验结果。

安装步骤

OpenML 提供了多种语言的客户端库，请选择适合您技术栈的安装方式。

1. Python (推荐，集成 scikit-learn)

使用 pip 安装官方 Python 客户端：

pip install openml

若需结合 scikit-learn 使用，确保已安装 scikit-learn：

pip install scikit-learn

2. R 语言

在 R 控制台或 RStudio 中运行：

install.packages("OpenML")

3. Java / WEKA

Maven 项目，在 pom.xml 中添加依赖：

<dependency>
    <groupId>org.openml</groupId>
    <artifactId>openml-java</artifactId>
    <version>0.13.0</version> <!-- 请检查最新版本号 -->
</dependency>

WEKA 用户：可通过 WEKA 的包管理器安装 OpenML 插件，或将 jar 包放入 WEKA 的 packages 目录。

基本使用

以下以最常用的 Python 为例，展示如何下载数据集并运行一个简单的机器学习实验。

第一步：配置 API Key (可选)

如果您需要上传数据或提交结果，请在代码开头设置 API Key：

import openml

# 替换为您在 openml.org 获取的 API Key
openml.config.apikey = 'YOUR_API_KEY_HERE'

第二步：下载数据集

直接从 OpenML 服务器获取经典数据集（例如 Iris）：

import openml

# 通过 ID 获取数据集 (Iris 数据集 ID 为 61)
dataset = openml.datasets.get_dataset(61)

# 将数据加载为 pandas DataFrame 和 numpy 数组
X, y, categorical_indicator, attribute_names = dataset.get_data(
    dataset_format='array', 
    target=dataset.default_target_attribute
)

print(f"数据集名称：{dataset.name}")
print(f"特征形状：{X.shape}")

第三步：运行实验并上传结果

结合 scikit-learn 构建模型，并在 OpenML 任务上运行实验：

from sklearn import ensemble
from sklearn.model_selection import cross_val_score
import openml

# 获取一个分类任务 (例如 Iris 上的分类任务 ID 为 164020)
task = openml.tasks.get_task(164020)

# 定义模型
clf = ensemble.RandomForestClassifier(n_estimators=10, random_state=42)

# 在 OpenML 任务上运行模型
run = openml.runs.run_model_on_task(clf, task)

# 发布运行结果到 OpenML 服务器 (需配置 API Key)
# run.publish() 

print(f"实验运行完成，本地评估分数：{run.data_content['predictions']}")

第四步：探索现有流（工作流）

查看其他人提交的优秀解决方案：

# 搜索特定的机器学习流 (Flow)
flows = openml.flows.list_flows(tag='study_14', output_format='dataframe')
print(flows.head())

更多语言（R/Java）的详细用法及高级功能，请访问 OpenML 官方文档及各语言客户端仓库。

版本历史

v1.2.42026/01/22

v1.2.32025/11/28

v1.2.22025/11/27

v1.2.12025/11/15

v1.2.02025/11/14

v1.1.02025/06/20

v1.0.202411152024/11/15

常见问题

如何获取所有有效的任务（Task）和数据集（Dataset）ID 列表？

API 下载大文件（如任务列表）速度太慢，有没有加速方法？

本地安装 OpenML 后页面显示空白且无任何错误提示，该如何排查？

OpenML 是否支持除 ARFF 以外的其他数据格式（如 CSV 或 DSPL）？

遇到任务的数据分割文件（data_splits）下载返回 JSON 错误而非 ARFF 文件怎么办？

OpenML 是否原生支持稀疏 ARFF (Sparse ARFF) 或 LibSVM 格式？

为什么某些数据集在没有设置默认目标属性（default_target_attribute）时，类别数（number of classes）显示异常？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前

开发框架图像Agent