mlrun
MLRun 是一款开源的 MLOps 平台,旨在帮助团队快速构建并管理贯穿全生命周期的连续机器学习与生成式 AI 应用。它无缝集成到现有的开发流程及 CI/CD 环境中,自动化处理生产数据交付、机器学习流水线编排以及在线应用的部署监控。
在人工智能项目从实验走向生产的过程中,团队常面临数据孤岛、工程实施复杂、资源消耗大以及协作效率低等挑战。MLRun 通过统一的编排能力有效解决了这些痛点,显著减少了重复的工程工作量,缩短了模型上线时间,并优化了计算资源的使用。它打破了数据科学家、算法工程师、软件开发人员及运维团队之间的壁垒,让不同角色的成员能在同一平台上高效协作,实现模型的持续迭代与改进。
MLRun 特别适合从事机器学习工程化、大模型应用开发的技术团队使用,包括算法研究员、后端开发者及 MLOps 工程师。其独特的技术亮点在于支持任意本地或云端 IDE 进行开发,具备强大的数据血缘追踪与版本管理能力,并能灵活适配多种数据存储、向量数据库及主流 AI 框架。无论是处理结构化数据还是利用大语言模型加工非结构化信息,MLRun 都能提供从数据预处理、模型训练评估到大规模部署的一站式解决方案,让 AI 应用的落地变得更加简单可控。
使用场景
某金融科技公司的大数据团队正致力于构建一个实时反欺诈检测系统,需要频繁迭代模型并处理海量交易流数据。
没有 mlrun 时
- 环境割裂严重:数据科学家在本地 Jupyter 笔记本中调试代码,而运维团队使用完全不同的 CI/CD 脚本部署,导致“在我机器上能跑”的冲突频发。
- 流水线手动拼接:从数据清洗、特征工程到模型训练,每个环节都需要人工编写独立的 Shell 脚本串联,一旦数据源变更,整个链路极易断裂。
- 资源浪费与监控缺失:难以动态分配计算资源,常出现小任务占用大集群的情况,且模型上线后缺乏统一的生命周期追踪,故障排查耗时极长。
- 协作效率低下:数据版本、代码版本和模型版本分散管理,团队成员无法快速复现他人的实验结果,新成员上手成本极高。
使用 mlrun 后
- 无缝集成开发流:mlrun 直接嵌入现有的 IDE 和 CI/CD 环境,数据科学家提交的代码可自动转化为生产级管道,彻底消除环境与部署差异。
- 自动化端到端管线:通过 mlrun 定义统一的自动化工作流,自动完成数据预处理、训练及评估,数据源变动时管道自动触发重跑,稳定性大幅提升。
- 弹性资源与全链路观测:mlrun 根据任务负载动态调度计算资源,显著降低算力成本,并提供从数据血缘到模型在线服务的全生命周期监控面板。
- 打破团队孤岛:统一平台管理代码、数据和模型版本,任何成员均可一键复现实验,促进了数据、算法与运维团队的高效协作。
mlrun 通过将碎片化的机器学习工程标准化和自动化,帮助团队将模型从实验到生产的交付周期缩短了 70%。
运行环境要求
- 未说明
非必需,但支持 GPU 加速(文档提及 GPU 利用相关章节),具体型号、显存及 CUDA 版本未说明
未说明

快速开始
使用MLRun
MLRun是一个开源的AI编排平台,用于在其整个生命周期内快速构建和管理连续的(生成式)AI应用。MLRun可以集成到您的开发和CI/CD环境中,并自动化生产数据、ML流水线和在线应用的交付。 MLRun显著减少了工程工作量、上线时间和计算资源。 借助MLRun,您可以在本地或云端选择任何IDE。MLRun打破了数据、ML、软件以及DevOps/MLOps团队之间的壁垒,从而实现协作和快速的持续改进。
您可以从MLRun的教程和示例以及设置客户端环境开始使用,或者阅读关于MLRun架构的内容。
本页将解释MLRun如何解决生成式AI任务、MLOps任务,并介绍MLRun核心组件。
有关MLRun开放架构支持的数据存储、开发工具、服务、平台等,请参阅https://docs.mlrun.org/en/stable/ecosystem.html。
生成式AI任务

使用MLRun在企业范围内开发、扩展、部署和监控您的AI模型。生成式AI开发流程一节详细描述了不同的任务和阶段。
数据管理
MLRun支持大规模的批处理或实时数据处理、数据血缘与版本控制、结构化与非结构化数据等。在早期阶段去除不适当的数据,可以节省后续所需的资源。
文档: 使用LLM处理非结构化数据, 向量数据库, 数据管理的护栏 演示: 呼叫中心演示 视频: 呼叫中心
开发
使用MLRun构建自动化的ML流水线,以收集数据、预处理(准备)数据、运行训练流水线并评估模型。
文档: 使用RAG, 评估LLM, 微调LLM 演示: 呼叫中心演示, 银行代理演示 视频: 呼叫中心
部署
MLRun的服务功能可以将新训练的LLM产品化为无服务器函数,利用实时自动伸缩的Nuclio无服务器函数。应用程序流水线包括从接收事件或数据、结合上下文准备所需模型特征、使用一个或多个模型进行推理,再到驱动行动的所有步骤。
文档: 服务生成式AI模型, GPU利用率, 生成式AI实时服务图 教程: 使用MLRun部署LLM 演示: 呼叫中心演示, 银行代理演示 视频: 呼叫中心
运营监控
监控所有资源、数据、模型和应用指标,以确保性能。然后识别风险、控制成本并衡量业务KPI。 收集生产数据、元数据和指标,以便进一步调整模型和应用,并实现治理和可解释性。
文档: 模型监控<monitoring, 警报和通知 教程: 使用MLRun部署LLM, 使用LLM监控模型 演示: 银行代理演示
MLOps任务

MLOps开发流程一节详细描述了不同的任务和阶段。 MLRun可用于自动化和编排所有不同的任务,也可以只编排特定的任务(并与您已部署的内容集成)。
项目管理和 CI/CD 自动化
在 MLRun 中,资产、元数据和服务(数据、函数、作业、工件、模型、密钥等)都被组织到项目中。项目可以作为一个整体导入或导出,并映射到 Git 仓库或 IDE 项目(如 PyCharm、VSCode 等),从而实现版本控制、协作以及 CI/CD 流程。项目访问权限可以限制为特定的用户和角色。
文档: 项目与自动化、CI/CD 集成
教程: 快速入门、自动化机器学习流水线
视频: 快速入门。
数据摄取与处理
MLRun 提供了针对各种离线和在线 数据源 的抽象接口(文档),支持大规模的批处理或实时数据处理、数据血缘与版本管理、结构化与非结构化数据等多种功能。此外,MLRun 的 特征存储(文档)能够自动完成数据特征在整个机器学习生命周期中的收集、转换、存储、目录化、服务化及监控工作,同时支持特征的复用与共享。
更多信息请参阅:
文档: 数据摄取与处理、特征存储、数据与工件
教程: 快速入门、特征存储。
模型开发与训练
MLRun 允许您轻松构建机器学习流水线,从多种数据源或特征存储中获取数据并进行处理,以多种参数进行大规模模型训练,测试模型,跟踪每次实验,注册、版本化并部署模型等。MLRun 提供可扩展的内置或自定义模型训练服务,能够与任何框架集成,并可与第三方训练或自动机器学习服务协同工作。您还可以引入自己的预训练模型并在流水线中使用。
文档: 模型开发与训练、模型训练与跟踪、批量运行与工作流
教程: 训练、比较与注册模型、自动化机器学习流水线
视频: 训练与比较模型。
模型与应用部署
MLRun 可以利用弹性且高可用的无服务器函数,快速部署和管理生产级别的实时或批处理应用流水线。MLRun 覆盖整个机器学习应用流程:拦截应用/用户请求,执行数据处理任务,使用一个或多个模型进行推理,驱动相应操作,并与应用逻辑无缝集成。
文档: 模型与应用部署、实时流水线、批量推理
教程: 实时服务、批量推理、高级流水线
视频: 服务预训练模型。
模型监控
MLRun 的各个对象(数据、函数、作业、模型、流水线等)都内置了可观性功能,无需复杂的集成或代码埋点。借助 MLRun,您可以监控应用/模型的资源使用情况及模型行为(漂移、性能等),定义自定义应用指标,并触发警报或重新训练作业。
MLRun 核心组件

MLRun 包括以下主要组件:
项目管理: 一种服务(API、SDK、数据库、UI),用于管理项目的各类资产(数据、函数、作业、工作流、密钥等),并提供中央控制和元数据层。
函数: 自动部署的软件包,包含一个或多个方法以及运行时特定的属性(如镜像、库、命令、参数、资源等)。
数据与工件: 与各种数据源的无缝连接、元数据管理、目录化以及对结构化/非结构化工件的版本控制。
批量运行与工作流: 使用特定参数执行一个或多个函数,并收集、跟踪和比较所有结果及工件。
实时服务流水线: 利用实时无服务器技术快速部署可扩展的数据与机器学习流水线,包括 API 处理、数据准备/增强、模型服务、集成模型、动作驱动与度量等。
模型监控: 监控数据、模型、资源及生产组件,提供反馈回路以探索生产数据、识别漂移、对异常或数据质量问题发出警报、触发重新训练作业、衡量业务影响等。
告警与通知: 使用告警来识别并通知您潜在的问题;使用通知报告运行和流水线的状态。
特征存储: 自动收集、准备、目录化并服务于开发(离线)和实时(在线)部署的生产级数据特征,同时最大限度地减少工程工作量。
版本历史
v1.11.0-rc482026/03/31v1.11.0-rc472026/03/27v1.11.0-rc462026/03/25v1.11.0-rc442026/03/23v1.11.0-rc422026/03/12v1.11.0-rc412026/03/09v1.11.0-rc402026/03/03v1.11.0-rc392026/02/24v1.11.0-rc382026/02/23v1.11.0-rc372026/02/22v1.11.0-rc362026/02/18v1.11.0-rc352026/02/17v1.11.0-rc342026/02/15v1.11.0-rc332026/02/11v1.10.22026/02/16v1.11.0-rc322026/02/05v1.11.0-rc312026/02/05v1.11.0-rc302026/02/01v1.11.0-rc292026/01/30v1.11.0-rc282026/01/28常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
