mlr

1.7k 404 非常简单 1 次阅读 3天前NOASSERTION视频开发框架数据工具语言模型插件其他图像音频Agent

AI 解读由 AI 自动生成，仅供参考

mlr 是一个专为 R 语言设计的机器学习框架，旨在为用户提供统一、高效的实验基础设施。在 R 的原生环境中，不同的机器学习算法往往缺乏标准化的接口，导致研究人员在进行复杂实验时，需要编写大量繁琐且易错的代码来封装算法、统一输出格式，并手动实现重采样、超参数优化、特征选择及数据预处理等功能。mlr 完美解决了这些痛点，它将分类、回归、生存分析及聚类等监督与非监督学习方法整合在同一接口下，让用户能专注于实验设计本身，而非底层代码实现。

该工具特别适合数据科学家、统计研究人员以及需要在 R 中进行系统性模型评估的开发者使用。其核心技术亮点在于提供了一套完整的模块化流程，不仅支持灵活的实验扩展和自定义算法构建，还原生集成了并行计算能力以加速耗时任务。此外，mlr 与 OpenML 平台深度连接，便于用户共享数据集与实验结果，促进可复现研究。需要注意的是，目前 mlr 已进入维护退休阶段，开发团队建议新项目优先采用其继任者 mlr3，但 mlr 依然是理解 R 语言机器学习工作流的重要经典工具。

使用场景

某金融风控团队需要在 R 语言环境中，基于历史交易数据快速构建并对比多种机器学习模型，以预测客户违约概率。

没有 mlr 时

接口混乱：调用随机森林、SVM 等不同算法包时，需手动编写大量重复代码来统一输入输出格式，极易出错。
流程繁琐：交叉验证、超参数调优和特征选择需分别实现，缺乏标准化流程，导致实验复现困难。
效率低下：面对海量参数组合，难以直接利用多核并行加速，往往因计算耗时过长而被迫简化实验方案。
评估片面：缺乏统一的统计评估框架，难以科学地对比不同模型在特定业务指标上的表现差异。

使用 mlr 后

统一接口：mlr 提供了标准化的学习器接口，一行代码即可切换不同算法，自动处理数据格式对齐问题。
流程自动化：内置完整的重采样、超参数优化及特征选择管道，通过配置对象即可一键执行复杂实验流程。
并行加速：原生支持并行计算后端，轻松将网格搜索等耗时任务分发至多核运行，大幅缩短建模周期。
科学评估：提供丰富的性能度量指标和统计检验工具，确保模型对比结果具有统计学意义且可复现。

mlr 通过构建标准化的机器学习基础设施，让数据科学家从繁琐的工程编码中解放出来，专注于核心实验设计与业务价值挖掘。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具是基于 R 语言的机器学习框架，非 Python 工具。官方已宣布该项目进入‘退休’（retired）状态，不再添加新功能，仅修复严重漏洞，建议新项目使用其继任者 mlr3。安装可通过 CRAN 或 GitHub 进行。支持并行计算，但未明确具体硬件门槛。

python不适用 (基于 R 语言)

R (基础环境)

S3 接口支持

快速开始

mlr

软件包官网：发布版 | 开发版

R语言中的机器学习。

已弃用

{mlr}已被mlr-org团队宣布退役。我们不再添加新功能，仅会修复_严重_的bug。建议从现在起及未来项目中使用新的mlr3框架。

并非{mlr}的所有功能都已经在{mlr3}中实现。如果您缺少关键功能，请在相应的mlr3扩展包中提交issue，并随时跟进。

安装

发布版

install.packages("mlr")

开发版

remotes::install_github("mlr-org/mlr")

在出版物中引用{mlr}

请引用我们的JMLR论文 [bibtex]。

该软件包的部分内容是作为其他出版物的一部分创建的。如果您使用了这些部分，请相应地引用相关工作。所有{mlr}相关出版物的概述可以在这里找到这里。

简介

R语言并未为其机器学习算法定义标准化接口。因此，对于任何非 trivial 的实验，您都需要编写冗长、繁琐且容易出错的封装代码来调用不同的算法，并统一它们的输出。

此外，您还需要实现以下基础设施：

对模型进行重采样
优化超参数
选择特征
处理数据的预处理和后处理
以统计学上有意义的方式比较模型。

由于这些操作计算成本较高，您可能还希望对实验进行并行化。这往往迫使用户因时间限制或缺乏专业的编程技能而在实验中做出妥协。

{mlr}提供了这些基础设施，使您可以专注于自己的实验！该框架提供了监督学习方法，如分类、回归和生存分析，以及相应的评估和优化方法，同时也支持无监督学习方法，如聚类。它被设计成允许您自行扩展，或者偏离已实现的便捷方法，构建自己的复杂实验或算法。

此外，该包与R包OpenML及其在线平台良好集成，该平台旨在支持在线协作式机器学习，并允许轻松共享数据集、机器学习任务、算法和实验，从而支持可重复性研究。

特性

清晰的S3接口，用于R中的分类、回归、聚类和生存分析方法
通过属性抽象描述学习器和任务
便捷的方法和通用构建模块，用于您的机器学习实验
重采样方法，如自助法、交叉验证和子采样
丰富的可视化工具（例如ROC曲线、预测和部分预测）
跨数据集和学习器的简化基准测试
使用多种优化策略轻松进行超参数调优，包括强大的配置器，如
- 迭代F竞赛（irace）
- 基于序列模型的优化
带有过滤器和包装器的变量选择
带有调优和特征选择的嵌套模型重采样
代价敏感学习、阈值调优和不平衡数据纠正
封装机制，用于以复杂方式扩展学习器功能
可将不同的处理步骤组合成一个复杂的数据挖掘链，可联合优化
OpenML连接器，用于开放机器学习服务器
内置并行化
详细教程

其他

简单的使用问题更适合在Stackoverflow上使用mlr标签提问。

请注意，我们所有人都在学术界工作，并为这个项目投入了大量精力——仅仅因为我们喜欢它，而不是因为我们为此获得报酬。

新的开发工作应转向{mlr3}。我们有自己的风格指南，可以通过使用styler包中的mlr_style轻松应用。更多信息请参阅我们的wiki。

讲座、研讨会等

mlr-outreach负责所有与{mlr}和{mlr3}相关的推广活动。

mlr 快速上手指南

重要提示：mlr 包目前已被官方标记为**退休（Retired）**状态。开发团队不再添加新功能，仅修复严重漏洞。对于新项目，强烈建议使用其继任者 mlr3。本指南仅供维护旧项目或学习参考。

环境准备

操作系统：Windows、macOS 或 Linux
R 版本：建议 R 3.5.0 或更高版本
前置依赖：
- 基础 R 环境
- 推荐安装 devtools 或 remotes 包以便从 GitHub 安装开发版
- 若需并行计算，需配置相应的后端（如 parallel 包）

安装步骤

1. 安装稳定版（推荐）

从 CRAN 镜像源安装（国内用户可先设置清华或中科大镜像）：

# 设置国内镜像（可选，加速下载）
options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN"))

# 安装 mlr
install.packages("mlr")

2. 安装开发版

如需最新代码（包含未发布的修复），可从 GitHub 安装：

# 确保已安装 remotes 包
install.packages("remotes")

# 从 GitHub 安装
remotes::install_github("mlr-org/mlr")

基本使用

mlr 的核心流程分为三步：定义任务 (Task) -> 选择学习器 (Learner) -> 训练与评估 (Train & Resample)。

以下是一个最简单的分类示例（使用鸢尾花数据集）：

library(mlr)

# 1. 定义任务：创建一个分类任务
# data: 数据集
# target: 目标变量列名
# task.type: 任务类型 (classif, regr, cluster, surv)
task <- makeClassifTask(data = iris, target = "Species")

# 2. 选择学习器：选择一个分类算法
# 例如：随机森林 ("classif.ranger" 或 "classif.randomForest")
# 这里使用内置的简单分类树
learner <- makeLearner("classif.rpart")

# 3. 训练模型
model <- train(learner, task)

# 查看模型摘要
print(model)

# 4. 模型评估：使用交叉验证 (Cross-Validation)
# cv.inds: 交叉验证折数
resample_result <- resample(
  learner = learner,
  task = task,
  resampling = makeResampleDesc("CV", iters = 5),
  measures = acc # 评估指标：准确率
)

# 输出评估结果
print(resample_result$aggr)

核心概念简述

Task: 封装了数据和目标变量，统一了不同算法的输入格式。
Learner: 封装了具体的机器学习算法（如 SVM, 随机森林, 神经网络等）。
Resample: 提供了交叉验证、自助法等重采样策略，用于客观评估模型性能。
Measure: 定义了评估指标（如准确率 acc, 均方误差 mse, AUC 等）。

版本历史

v2.19.12022/09/30

v2.19.02021/02/23

v2.18.02020/10/06

v2.17.12020/03/24

v2.17.02020/01/10

v2.16.02019/11/26

v2.15.02019/08/07

v2.14.02019/04/26

v2.132018/09/09

v2.122018/06/23

v2.112018/06/23

v2.102018/06/23

v2.92018/06/23

v2.82018/06/23

v2.72018/06/23

v2.62018/06/23

v2.52018/06/23

v2.42018/06/23

v2.32018/06/23

v2.22018/06/23

常见问题

partialPrediction 函数绘制的决策树等分段常数模型为何看起来是分段线性的？

在使用 resample() 处理大型数据集并结合特征过滤时，遇到 'Assertion on xs failed: Must be of type list, not NULL' 错误怎么办？

如何为 LiblineaRLogReg 学习器正确设置类别权重（class weights）？

mlr 包的 rdocumentation 网站上文档版本滞后或缺失新功能链接怎么办？

如何在预测时使用子模型（submodels），哪些学习器支持此功能？

randomForestSRCSyn 学习器测试失败并报错 'dim(X) must have a positive length' 是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 152.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|3天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|6天前

插件开发框架