mlreef

MLReef 是一款专为机器学习打造的开源协作平台，旨在帮助团队高效地合作、复现并分享机器学习项目。它主要解决了机器学习开发流程中数据管理混乱、实验难以追踪以及部署环境不一致等痛点，让从数据处理到模型上线的全生命周期更加流畅。

这款工具非常适合机器学习开发者、数据科学家以及科研研究人员使用。无论是需要管理大规模数据集的团队，还是希望规范实验记录的个人研究者，都能从中受益。

MLReef 的核心亮点在于其四大功能模块：首先是全面版本化的数据管理基础设施，支持通过 Git 或 Git LFS 对数据进行并发处理和历史追溯；其次是代码发布功能，能将脚本容器化并版本控制，确保在数据管道中不可变且稳定地运行；第三是强大的实验管理器，可轻松追踪实验环境、参数及结果；最后提供灵活的 ML-Ops 解决方案，支持在 Kubernetes、云端或裸金属服务器上编排和运行深度学习任务。虽然官方已停止更新此仓库并将重心转移至 GitLab，但其设计理念仍为构建高效的机器学习工作流提供了宝贵参考。

某医疗影像初创团队的算法工程师正在协作开发基于 ResNet50 的肺结节检测模型，需频繁迭代数据版本并复现实验结果。

没有 mlreef 时

数据集散落在个人硬盘或云盘中，缺乏统一版本控制，团队成员常因使用错误的数据版本导致模型训练无效。
代码依赖本地环境配置，超参数通过硬编码或分散的配置文件管理，他人难以复现特定的实验设置。
实验记录依靠手工整理的 Excel 表格，无法自动关联代码版本、数据版本与最终的模型指标，追溯问题极其困难。
从开发到部署的流程割裂，将脚本转化为可运行的流水线需要大量手动运维工作，效率低下。

使用 mlreef 后

利用 Git LFS 托管医疗影像数据，实现数据的全量版本化管理，团队可随时回溯任意历史数据集并确保多人并发协作不冲突。
通过 argparse 标准化参数接口并发布脚本，mlreef 自动将其容器化，确保超参数在流水线中可灵活调用且环境始终一致。
实验管理器自动追踪每次训练的代码快照、数据版本及评估指标，一键即可复现任何历史最佳模型的开发环境。
内置的 ML-Ops 编排方案直接将容器化脚本转化为 K8s 或云端流水线，大幅缩短了从代码提交到模型产出的周期。

mlreef 通过打通数据、代码与实验的全链路版本管理，让医疗 AI 研发从混乱的手工操作转变为可复现、可协作的标准化工程流程。

机器学习协作平台

MLReef 是一个开源的 ML-Ops 平台，帮助您与数千名其他用户协作、复现并分享您的机器学习工作。

重要提示：我们不再维护和更新此仓库。目前我们仍在积极开发该项目，但已在 GitLab 的主仓库中进行。

MLReef

MLReef 是一个用于机器学习/深度学习开发的平台，包含四个主要部分：

数据管理 - 完全版本化的数据托管和处理基础设施
代码仓库发布 - 容器化且版本化的脚本仓库，可在数据管道中以不可变方式使用
实验管理器 - 实验跟踪、环境及结果
ML-Ops - 适用于机器学习/深度学习任务的流水线与编排解决方案（K8s / 云 / 裸金属）

注册并在几分钟内开始实验。

如需了解更多关于 MLReef 如何简化您的机器学习开发生命周期，请访问我们的主页

数据管理

使用 git / git LFS 仓库托管您的数据。
- 可并发地对数据进行操作
- 完全版本控制或 LFS 版本控制
- 全面查看数据处理和可视化的历史记录
将您的外部存储连接到 MLReef，并直接在流水线中使用数据
数据集管理（访问权限、历史记录、流水线）

代码发布

通过 argparse 添加参数...

# ResNet50 脚本的示例参数
def process_arguments(args):
    parser = argparse.ArgumentParser(description='ResNet50')
    parser.add_argument('--input-path', action='store', help='图片目录路径')
    parser.add_argument('--output-path', action='store', default='.', help='输出指标保存路径')
    parser.add_argument('--height', action='store', default=224, help='图片高度（整数）')
    parser.add_argument('--width', action='store', default=224, help='图片宽度（整数）')
    parser.add_argument('--channels', action='store', default=3, help='图片通道数：1 = 灰度，3 = RGB，'
                                                                      '4=RGBA（整数）')
    parser.add_argument('--use-pretrained', action='store', default=True, help='是否使用预训练的 ResNet50 权重（布尔值）')
    parser.add_argument('--epochs', action='store',default=5, help='训练轮数')
    parser.add_argument('--batch-size', action='store', default=32, help='输入神经网络的批次大小（整数）')
    parser.add_argument('--validation-split', action='store', default=.25, help='用于验证的图片比例（浮点数）')
    parser.add_argument('--class-mode', action='store', default='binary', help='"categorical"、"binary"、"sparse"、'
                                                                                    ' "input" 或 None')
    parser.add_argument('--learning-rate', action='store', default=0.0001,
                        help='Adam 优化器的学习率（浮点数）'
                             '')
    parser.add_argument('--loss', action='store', default='sparse_categorical_crossentropy', help='用于模型编译的损失函数')
    params = vars(parser.parse_args(args))
    return params

...而发布您的脚本将为您带来以下优势：

您的脚本将被容器化
- 始终可用的脚本，可在流水线中轻松访问超参数
- 执行环境（包括特定的包和版本）
- 超参数
  - 用于命令行参数的 ArgParser，显示当前使用的值
  - 显式参数字典
  - 输入验证和使用指南
基于版本和代码分支的多个容器

实验管理器

完整的实验设置日志
- 包含未提交的本地更改在内的完整源码控制信息
- 执行环境（包括特定的包和版本）
- 超参数
自动捕获完整的实验输出
- 存储实验产物和标准输出日志
- 单个实验的性能指标以及所有实验的对比图表
- 对日志和输出的详细视图
广泛的平台支持和集成
- 支持所有基于 Python 的机器学习/深度学习框架，例如：PyTorch、TensorFlow、Keras 或 Scikit-Learn

ML-Ops

并发计算流水线
治理与控制
- 访问与用户管理
- 统一权限管理
- 资源管理
模型管理

MLReef 架构

MLReef 在机器学习生命周期中的组件：

数据存储组件目前基于 Git 和 Git LFS。
模型开发基于可复用模块（由社区或团队发布）、数据管理、数据处理/数据可视化/实验流水线，支持托管或本地部署环境，以及模型管理。
ML-Ops 编排、实验与工作流的可重复性，以及可扩展性。

为什么选择 MLReef？

MLReef 是我们针对机器学习/深度学习领域中无数研究者和开发者共同面临问题的解决方案：训练生产级深度学习模型的过程复杂且难以梳理。MLReef 通过将代码版本控制、研究项目、性能指标和模型溯源关联起来，实现对整个流程的跟踪与管控。

我们结合最佳的数据科学实践、DevOps 知识以及对协作的深度关注，设计了 MLReef。

每天使用它来提升团队协作效率和透明度
只需点击一下按钮，即可从任何代码仓库创建云端任务
自动化流程并构建流水线，以收集实验日志、输出结果和数据
将您的机器学习生命周期全面记录在 MLReef 平台上，使其更加透明

开发者入门

请仔细阅读贡献指南
克隆 mlreef Git 仓库到本地
阅读架构文档

要开始开发，请继续阅读开发者指南

标准源码库

MLReef 的标准源码库，所有开发工作都在此进行，托管于 gitLab.com/mlreef/mlreef。

许可证

MIT 许可证（更多信息请参阅 LICENSE.md）

文档、社区与支持

更多信息请访问官方文档和 YouTube 频道。

如需示例和用例，请查看以下案例或注册后开始教程：

如有疑问，请在我们的 Slack 频道发帖，或在 Stack Overflow 上使用 'mlreef' 标签提问。

功能请求或错误报告，请使用 GitLab 问题。

此外，您也可以随时通过 hello@mlreef.com 联系我们。

贡献

欢迎提交合并请求 :heart: 更多详情请参阅 MLReef 的贡献指南。

MLReef 快速上手指南

重要提示：根据官方说明，本 GitHub 仓库已停止维护和更新。所有开发工作已迁移至 GitLab。请开发者前往 GitLab 主仓库获取最新代码和文档。

MLReef 是一个开源的机器学习运维（MLOps）协作平台，旨在帮助团队进行数据版本管理、代码容器化、实验追踪及流水线编排。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux (推荐 Ubuntu/CentOS), macOS 或 Windows (需配合 WSL2)。
核心依赖：
- Git：用于代码和数据版本控制。
- Git LFS：用于大文件（数据集、模型权重）的版本管理。
- Docker：用于脚本容器化和环境隔离。
- Python 3.6+：主要开发语言。
账户准备：建议先在 MLReef 官网注册账号以便使用云端功能（如需自部署，需参考架构文档配置 Kubernetes 等基础设施）。

安装步骤

由于开发重心已转移，请直接从 GitLab 克隆源代码：

克隆仓库

git clone https://gitlab.com/mlreef/mlreef.git
cd mlreef

阅读开发指南 在本地运行前，强烈建议阅读官方的架构文档和开发者指南，以了解具体的依赖安装脚本（通常涉及 Docker Compose 或 Helm Chart 配置）：
- 架构文档
- 开发者指南 (位于克隆后的根目录)
安装依赖 根据项目内部的 requirements.txt 或 Dockerfile 安装 Python 依赖（具体命令请参考上述开发者指南，通常如下）：
```
pip install -r requirements.txt
```

基本使用

MLReef 的核心工作流是将您的机器学习脚本参数化并发布到平台，从而实现自动化的实验管理和流水线执行。

1. 参数化您的脚本

为了让 MLReef 能够自动捕捉超参数并生成容器，您需要使用 argparse 定义脚本参数。

示例 (train.py)：

import argparse

def process_arguments(args):
    parser = argparse.ArgumentParser(description='ResNet50 Training')
    parser.add_argument('--input-path', action='store', help='path to directory of images')
    parser.add_argument('--output-path', action='store', default='.', help='path to output metrics')
    parser.add_argument('--epochs', action='store', default=5, help='number of epochs for training')
    parser.add_argument('--batch-size', action='store', default=32, help='batch size fed to the neural network (int)')
    parser.add_argument('--learning-rate', action='store', default=0.0001, help='learning rate of Adam Optimizer (float)')
    
    params = vars(parser.parse_args(args))
    return params

if __name__ == "__main__":
    config = process_arguments(None)
    # 在此处添加您的训练逻辑
    print(f"Starting training with epochs: {config['epochs']}")

2. 数据管理

将您的数据集托管在 Git 或 Git LFS 仓库中，或者连接外部存储。

版本控制：利用 Git LFS 管理大型数据集，确保数据处理历史可追溯。
流水线集成：在 MLReef 平台中直接引用这些数据路径作为输入。

3. 运行实验

完成代码提交后，您可以通过以下方式启动实验：

云端一键运行：登录 MLReef Web 界面，关联您的代码仓库，点击按钮即可在云端创建任务。平台会自动：
- 构建包含特定依赖包的 Docker 容器。
- 捕获完整的实验日志、输出工件（Artifacts）和性能指标。
- 记录未提交的本地更改和确切的环境版本。
本地/自部署运行：如果您配置了本地 Orchestrator，可以通过命令行触发流水线，系统会自动处理并发计算和资源调度。

4. 查看结果

实验完成后，在 MLReef 仪表板中查看：

不同实验的对比图表。
详细的标准输出日志。
生成的模型文件和评估指标。

更多高级用例（如电影推荐、手写数字识别、风格迁移）请参考官方文档或访问 MLReef 官网。

mlreef

使用场景

没有 mlreef 时

使用 mlreef 后

运行环境要求

快速开始