MLServer

882 229 简单 1 次阅读 3天前Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

MLServer 是一款开源的机器学习模型推理服务器，旨在帮助开发者轻松地将训练好的模型部署为生产级服务。它通过提供标准的 REST 和 gRPC 接口，屏蔽了底层框架的差异，让用户无需编写复杂的包装代码即可快速上线模型。

对于需要同时管理多个模型或应对高并发请求的团队，MLServer 解决了传统部署方式中资源利用率低、扩展困难的问题。其核心亮点在于支持“多模型同进程服务”，允许在单个进程中运行多个模型以节省资源；具备自适应批处理能力，能动态合并请求以提升吞吐量；并原生支持垂直扩展的并行推理。此外，它完全兼容 KFServing V2 数据平面协议，可无缝集成到 Kubernetes、Seldon Core 及 KServe 等云原生环境中。

目前，MLServer 开箱即支持 Scikit-Learn、XGBoost、LightGBM、MLflow 等多种主流框架，同时也允许用户自定义运行时以适配特殊需求。这款工具特别适合机器学习工程师、后端开发人员以及负责 MLOps 基础设施的研究人员使用，是构建高效、可扩展模型服务管道的理想选择。

使用场景

某电商数据团队需要将基于 Scikit-Learn 的用户流失预测模型和基于 XGBoost 的商品推荐模型同时部署到生产环境，以支持实时营销决策。

没有 MLServer 时

资源浪费严重：每个模型需独立启动一个 Flask/FastAPI 服务进程，导致服务器内存和 CPU 被大量空闲进程占用，无法在同一节点高效运行多个模型。
接口标准混乱：不同框架编写的服务接口定义不一，上游业务方调用时需适配多种协议，增加了集成复杂度和维护成本。
高并发处理能力弱：缺乏原生的自适应批处理（Adaptive Batching）机制，面对突发流量时无法自动合并请求，导致推理延迟飙升或服务崩溃。
扩展运维困难：难以直接对接 Kubernetes 原生架构（如 KServe），手动编写扩容脚本繁琐且容易出错，无法实现弹性伸缩。

使用 MLServer 后

多模型同进程运行：利用多模型服务特性，将流失预测和商品推荐模型部署在同一个进程中，显著降低资源开销，提升服务器利用率。
统一标准化接口：通过内置符合 KFServing V2 协议的 REST/gRPC 接口，屏蔽底层框架差异，让业务方只需对接一套标准 API 即可调用所有模型。
智能流量削峰：开启自适应批处理功能，MLServer 自动将并发的推理请求动态打包处理，在保证低延迟的同时大幅提升吞吐量。
云原生无缝集成：直接作为 KServe 或 Seldon Core 的核心推理后端部署，天然支持 Kubernetes 的弹性伸缩策略，运维团队无需额外开发即可实现自动化扩缩容。

MLServer 通过统一标准化的推理服务和高效的资源调度，让多模型生产部署从“手工定制”转变为“开箱即用”，极大降低了 MLOps 的落地门槛。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具是一个通用的推理服务器，支持多种机器学习框架（如 Scikit-Learn, XGBoost, HuggingFace 等）。具体的硬件资源（GPU/内存）需求取决于所选用的推理运行时（Runtime）及加载的模型大小，README 中未给出统一的硬件指标。Python 3.7、3.8 已不再支持，3.13 尚未支持。支持通过 Kubernetes (Seldon Core, KServe) 进行原生部署。

python3.9, 3.10, 3.11, 3.12

mlserver

mlserver-sklearn

mlserver-xgboost

mlserver-mllib

mlserver-lightgbm

mlserver-catboost

mlserver-mlflow

mlserver-alibi-detect

mlserver-alibi-explain

mlserver-huggingface

快速开始

MLServer

一个用于部署机器学习模型的开源推理服务器。

概述

MLServer 旨在通过 REST 和 gRPC 接口，以一种简单的方式启动您的机器学习模型服务，并完全符合 KFServing 的 V2 数据平面规范。您可以在这里观看一段简短的项目介绍视频。

多模型服务：允许用户在同一进程中运行多个模型。
能够通过推理工作线程池，在多个模型之间并行执行推理，实现垂直扩展。
支持自适应批处理，以便动态地将推理请求分组在一起。
可在 Kubernetes 原生框架中部署，具有良好的可扩展性，包括 Seldon Core 和 KServe（原名 KFServing）。MLServer 是用于服务机器学习模型的核心 Python 推理服务器。
同时支持 gRPC 和 REST 风格的标准 V2 推理协议，该协议已被标准化并被多种模型服务框架采用。

您可以在初始设计文档中了解更多关于该项目目标的信息。

使用方法

您可以运行以下命令来安装 mlserver 包：

pip install mlserver

请注意，要使用任何可选的推理运行时，您需要安装相应的包。例如，要服务一个 scikit-learn 模型，您需要安装 mlserver-sklearn 包：

pip install mlserver-sklearn

有关如何使用 MLServer 的更多信息，您可以查看任何可用示例。

推理运行时

推理运行时允许您定义模型在 MLServer 中的使用方式。您可以将其视为 MLServer 与您选择的机器学习框架之间的后端桥梁。您可以在推理运行时的文档页面中了解更多信息。

开箱即用时，MLServer 提供了一组预打包的运行时，使您能够与一些常见的框架进行交互。这使得您可以立即开始服务这些框架中保存的模型。然而，您也可以**编写自定义运行时**。

开箱即用时，MLServer 提供以下框架的支持：

框架	支持状态	文档
Scikit-Learn	✅	MLServer SKLearn
XGBoost	✅	MLServer XGBoost
Spark MLlib	✅	MLServer MLlib
LightGBM	✅	MLServer LightGBM
CatBoost	✅	MLServer CatBoost
Tempo	✅	`github.com/SeldonIO/tempo`
MLflow	✅	MLServer MLflow
Alibi-Detect	✅	MLServer Alibi Detect
Alibi-Explain	✅	MLServer Alibi Explain
HuggingFace	✅	MLServer HuggingFace

MLServer 采用 Apache License, Version 2.0 许可证。但请注意，与 MLServer 结合或同时使用的软件可能采用不同的许可证条款。例如，Alibi Detect 和 Alibi Explain 均采用 Business Source License 1.1 许可证。有关与 MLServer 结合或同时使用的其他产品的法律条款，请参阅其各自的文档。

支持的 Python 版本

🔴 不支持

🟠 已弃用：将在未来版本中移除

🟢 支持

🔵 未测试

Python 版本	状态
3.7	🔴
3.8	🔴
3.9	🟢
3.10	🟢
3.11	🟢
3.12	🟢
3.13	🔴

示例

要查看 MLServer 的实际应用，请参阅我们的完整示例列表。以下是一些精选示例，展示了如何利用 MLServer 开始服务您的机器学习模型。

开发者指南

版本管理

主 mlserver 包和推理运行时包都遵循相同的版本号方案。要为所有包同步更新版本，可以使用./hack/update-version.sh脚本。

我们通常将版本号保留为即将发布的版本占位符。

例如：

./hack/update-version.sh 0.2.0.dev1

测试

要运行 MLServer 和所有运行时的全部测试，可以使用：

make test

要单独运行某个文件的测试，可以使用类似以下的命令：

tox -e py3 -- tests/batch_processing/test_rest.py

MLServer 快速上手指南

MLServer 是一个开源的机器学习模型推理服务器，支持通过 REST 和 gRPC 接口提供服务，完全兼容 KFServing V2 数据平面协议。它支持多模型服务、并行推理、自适应批处理，并可无缝集成到 Kubernetes 生态（如 Seldon Core 和 KServe）。

环境准备

操作系统：Linux / macOS / Windows（推荐 Linux 生产环境）
Python 版本：3.9、3.10、3.11 或 3.12（3.7/3.8 已不再支持，3.13 尚未测试）
包管理工具：pip（建议使用虚拟环境）
可选依赖：根据你要服务的模型框架安装对应的运行时包（如 mlserver-sklearn、mlserver-xgboost 等）

💡 国内用户可使用清华或阿里云镜像加速 pip 安装：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package-name>

安装步骤

安装核心包：

pip install mlserver

根据模型类型安装对应运行时（以 Scikit-Learn 为例）：

pip install mlserver-sklearn

其他常见运行时：

pip install mlserver-xgboost
pip install mlserver-lightgbm
pip install mlserver-huggingface
pip install mlserver-mlflow

基本使用

以下以部署一个 Scikit-Learn 模型为例：

1. 准备模型文件

假设你已有一个训练好的 model.pkl 文件，存放在当前目录。

2. 创建配置文件 `settings.json`

{
  "models": [
    {
      "name": "sklearn-model",
      "implementation": "mlserver_sklearn.SKLearnModel",
      "model_uri": "./model.pkl",
      "parameters": {
        "version": "v1"
      }
    }
  ]
}

3. 启动 MLServer

mlserver start .

服务器默认在 http://localhost:8080 提供 REST 接口，在 grpc://localhost:9000 提供 gRPC 接口。

4. 发送推理请求（REST 示例）

curl -X POST http://localhost:8080/v2/models/sklearn-model/infer \
  -H "Content-Type: application/json" \
  -d '{
    "inputs": [
      {
        "name": "input-0",
        "shape": [1, 4],
        "datatype": "FP32",
        "data": [[5.1, 3.5, 1.4, 0.2]]
      }
    ]
  }'

你将收到模型的预测结果。

✅ 现在你已成功使用 MLServer 部署了一个机器学习模型！
更多框架示例（XGBoost、HuggingFace、自定义模型等）请参考官方文档中的 Examples 章节。

版本历史

1.7.12025/06/06

1.7.02025/04/11

1.6.12024/09/10

1.6.02024/06/26

1.5.02024/03/05

1.4.02024/02/28

1.3.52023/07/10

1.3.42023/06/21

1.3.32023/06/05

1.3.22023/05/10

1.3.12023/04/27

1.3.02023/04/27

1.2.42023/03/10

1.2.32023/01/16

1.2.22023/01/16

1.2.12022/12/19

1.2.02022/11/25

1.2.0.dev12022/08/01

1.1.02022/08/01

常见问题

在多模型服务（Multi-model serving）中遇到 'IsADirectoryError: [Errno 21] Is a directory' 错误，如何解决？

卸载模型（model unload）后，为什么内存（特别是 GPU 显存）没有被释放？

MLServer 是否支持 Python 3.12？

启用了自适应批处理（Adaptive Batching），但在使用推理流（inference streaming）时收到警告或不生效，原因是什么？

如何获取推理队列（request queue）中的元素数量指标以进行性能调优？

MLServer 是否支持 Pydantic V2？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 MLServer 时

使用 MLServer 后

运行环境要求

快速开始

MLServer

概述

使用方法

推理运行时

支持的 Python 版本

示例

开发者指南

版本管理

测试

MLServer 快速上手指南

环境准备

安装步骤

基本使用

1. 准备模型文件

2. 创建配置文件 settings.json

3. 启动 MLServer

4. 发送推理请求（REST 示例）

版本历史

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

2. 创建配置文件 `settings.json`