vertex-ai-mlops
vertex-ai-mlops 是一个专注于谷歌云平台(GCP)Vertex AI 的开源项目,旨在提供机器学习运营(MLOps)的全流程工作流参考。它主要解决了企业在将预测性 AI 和生成式 AI 模型从实验阶段推向生产环境时,面临的流程标准化难、框架适配复杂以及运维管理混乱等痛点。
该项目特别适合机器学习工程师、数据科学家以及云架构师使用。无论是需要构建稳健的模型部署流水线,还是希望探索大语言模型(GenAI)与时间序列预测的实际应用,都能从中找到经过验证的代码范例和架构指导。
其核心亮点在于紧跟技术前沿,2025 年的更新计划明确将重心转向生成式 AI 与预测性 AI 的深度融合。项目不仅涵盖了多种主流机器学习框架的特定工作流,还通过清晰的目录结构区分了"MLOps 基础”、“框架集成”与“应用场景”(如生成式 AI 应用、预测分析)。此外,作者建立了良好的内容维护机制,将过时资料归档至"legacy"文件夹,确保用户始终能获取最新、最有效的最佳实践方案,是学习如何在 Google Cloud 上落地企业级 AI 操作的实用指南。
使用场景
某电商公司的数据科学团队正致力于构建一个实时需求预测系统,以优化库存管理并支持生成式 AI 驱动的营销文案自动创作。
没有 vertex-ai-mlops 时
- 流程割裂严重:数据科学家在本地笔记本训练模型,而工程师需手动重写代码才能部署到云端,导致“开发 - 生产”环境不一致,频繁出现运行报错。
- 版本管理混乱:缺乏统一的实验追踪机制,难以回溯哪个数据集或超参数组合产生了最佳预测效果,复现模型如同“大海捞针”。
- 生成式 AI 落地难:尝试引入大模型辅助 forecasting 时,因缺少标准化的推理管道和监控工具,导致响应延迟高且无法有效评估输出质量。
- 运维成本高昂:每次模型更新都需要人工干预重新配置资源,无法实现自动化持续集成与部署(CI/CD),迭代周期长达数周。
使用 vertex-ai-mlops 后
- 端到端流水线打通:利用预置的 MLOps 模板,团队直接将本地实验无缝迁移至 Vertex AI 托管管道,确保了从训练到推理的环境一致性,部署错误率降为零。
- 全链路可追溯:通过集成的元数据管理,自动记录每次实验的代码、数据和参数版本,团队成员可随时一键复现任意历史最佳模型。
- GenAI 工作流标准化:借助
Applied GenAI文件夹中的成熟范式,快速搭建了包含提示词工程、模型微调及效果评估的生成式 AI 流程,显著提升了预测准确性与文案生成效率。 - 自动化运维升级:建立了自动化的触发机制,当新销售数据流入时自动重新训练并部署模型,将迭代周期从数周缩短至数小时。
vertex-ai-mlops 通过提供标准化的端到端工作流,将原本碎片化的 AI 开发过程转变为高效、可控且可自动化的工业生产体系。
运行环境要求
- 未说明
- 非必需
- 代码主要在 Google Cloud Vertex AI、BigQuery 等云端服务上运行,本地笔记本仅需最小化计算资源(如 n1-standard2)
未说明(设计为在最小化机器尺寸上运行,重负载由云端承担)

快速开始
|
在 GitHub上查看 |
分享至:
|
|
与作者联系:
|
|
|
Vertex AI 用于机器学习运维
2025年更新: 该仓库正朝着以 MLOps 为中心的预测性和生成式 AI 运维方法发展。
仓库的主要重点是以下领域的新内容:
- MLOps
- 框架
- 应用*
- 主要是应用型生成式 AI 和应用型预测
2025年将有哪些变化:
/MLOps文件夹中将包含更多 MLOps 内容Applied GenAI文件夹中将对生成式 AI 工具进行详细回顾Frameworks文件夹中将提供大量框架特定的工作流- 所有编号文件夹将被迁移至这些主文件夹
- 所有“应用*”文件夹将合并为一个“应用工作流”文件夹,并按主题划分子文件夹:生成式 AI、预测等
- 本 readme.md 文件将被完全重写
- 被认为过时的内容将被移至名为
legacy的子文件夹,并更新相关链接。
2024年更新: 本仓库正在从针对各种框架的端到端工作流,演变为以 MLOps 为导向的预测性和生成式 AI 运维开发方法。新方法正在 MLOps 文件夹中开发。一旦接近完成,本仓库的内容将重新组织为以下结构:
- MLOps
- 流水线
- 实验
- 特征存储
- 模型监控
- …
- 应用示例
- 预测
- 生产式 AI
- …
- 框架工作流
- BigQuery ML
- TensorFlow
- scikit-learn
- …
这是本仓库转型前的原始自述文件。待内容重组完成后并将上述信息整合进去后,此文件将被删除。
👋 我是 Mike
我想与您分享并启用来自 Google Cloud 的 Vertex AI。这里的目标是分享一套全面的机器学习端到端工作流,涵盖从数据到模型再到服务和管理的全过程,甚至实现流程自动化。无论您的数据类型、技能水平或框架偏好如何,您都能在这里找到有用的内容。您甚至可以提出自己的需求,我可能会将其纳入后续更新中!
点击观看 YouTube 视频
点击 此处 查看本仓库当前播放列表
跟踪
为了更好地了解哪些内容对用户最有帮助,本仓库在每个 Markdown(.md)和笔记本(.ipynb)文件中都使用了跟踪像素。不会收集任何用户或位置数据。 所记录的信息仅包括内容已被渲染/查看,从而为我们提供每日使用次数统计。如果您对此有任何疑虑,请在 仓库讨论区 中提出,我也很乐意为您提供不含跟踪功能的分支版本。
仓库中提供了脚本 pixel_remove.py,位于 pixel 文件夹内,可用于从您本地副本中移除此类跟踪。此外,本自述文件还包含了创建跟踪功能的完整代码,供您参考复制或深入理解。
本仓库采用的方法
本仓库以工作流的形式呈现,主要使用交互式 Python 笔记本文件(.ipynb)。为什么选择这种方式呢?因为这些笔记本易于审查、分享和迁移,同时兼具代码与叙述性内容。叙述部分可以使用纯文本、Markdown 和/或 HTML 编写,从而轻松实现可视化说明。这进一步强化了本仓库的目标:提供易于访问、可移植的信息,并作为您自身工作的良好起点。
在笔记本中,代码的执行是由本地计算资源驱动的。在本仓库中,这意味着当前的 Python 代码是在笔记本所关联的计算环境中运行的。该仓库中的代码大量依赖于在 GCP 中编排服务,而不是在笔记本所在的本地环境中进行数据计算。因此,这些笔记本被设计为可以在较小的机器规格上运行,例如 n1-standard2 实例。而繁重的训练和推理任务则由 Vertex AI、BigQuery 等 Google Cloud 服务来完成。您甚至会发现一些笔记本不仅编写代码,还会将代码部署到 Vertex AI 自定义训练和 Vertex AI 流水线等服务中。
此外,仓库中也有一些部分使用其他语言,如 R,以及创建与笔记本无关的外部文件,例如 Dockerfile、.py 脚本和模块等。
本仓库中的代码具有明确的观点和风格,既不完全适合直接投入生产环境,也不仅仅是临时性的探索性代码。它介于从探索到部署的连续体之间,目标是从“Hello World”逐步过渡到 CI/CD/CT 流程。在我们的日常数据科学工作中,这一过程可以大致分为以下阶段:
在 探索 阶段,一切都是边写代码边尝试。随着探索的深入,某些想法逐渐显现出价值,需要进一步开发。
在 开发 阶段,通常采取以下步骤:
- 让其运行起来
- 构建一个可用的端到端流程
- 进行代码清理
- 重新审视代码,移除不再需要的部分,并根据新学到的知识重新组织结构
- 使其通用化
- 引入参数化
- 使用函数
- 控制流程:开始加入逻辑以检查边界条件
- 进行优化
- 更好地利用数据结构来优化执行期间的数据处理
- 在兼顾可读性(即可维护性)和计算效率的前提下,优化执行时间
在许多情况下,从开发到 部署 的过程非常简单:
- 定时运行笔记本——这几乎相当于跳过了 开发 阶段
- 部署流水线
- 创建云函数
然而,不可避免的是,当某个工作流程展现出价值时,在真正 部署 之前往往还需要付出更多的努力:
- 错误处理
- 单元测试
- 将专用代码转化为通用代码:
- 使用类
- 更好地管理环境配置
那么,本仓库中的代码处于哪个阶段呢?它位于 开发 阶段的后期,具备良好的可读性和适应性。
目录
注意事项
数据类型
- 表格:以行和列形式存储的结构化数据
- 语言:用于翻译和/或理解的文本
- 视觉:图像
- 视频
方便程度
- 使用预训练 API
- 自动化构建自定义模型
- 使用您选择的框架中的核心工具,实现端到端的自定义机器学习
框架偏好
概述
这是一个系列的工作流演示,它们使用相同的数据源,通过不同的框架和自动化手段来构建并部署同一个机器学习模型。这些演示旨在帮助您快速了解和学习 Vertex AI,并为新项目提供起点。
这些演示专注于工作流本身,不会深入探讨各个机器学习框架的具体细节,而是着重介绍如何与 Vertex AI 集成及实现自动化。如果您有更多工作流的想法或希望添加的细节,请随时告诉我!
为了更好地理解本仓库的内容,以下图表展示了内容的分类方式。
| 方向 |
|---|
![]() |
预训练 API
| 预训练模型 |
|
|||||
|---|---|---|---|---|---|---|
| 数据类型 | 预训练模型 | 预测类型 | 相关解决方案 | |||
|
文本 |
Cloud Translation API |
检测、翻译 |
Cloud Text-to-Speech |
AutoML Translation |
||
|
Cloud Natural Language API |
实体(识别和标记)、情感分析、实体情感分析、语法分析、内容分类 |
Healthceare Natural Language API |
AutoML 文本 | |||
|
图像 |
Cloud Vision API |
裁剪提示、OCR、人脸检测、图像属性、标签检测、地标检测、徽标检测、目标定位、安全搜索、网页检测 |
|
AutoML 图像 |
||
|
音频 |
Cloud Media Translation API |
实时语音翻译 |
Cloud Speech-to-Text |
|||
|
视频 |
Cloud Video Intelligence API |
标签检测*、镜头检测*、露骨内容检测*、语音转录、目标跟踪*、文本检测、徽标检测、人脸检测、人员检测、名人识别 |
Vertex AI Vision |
AutoML 视频 |
||
AutoML
| AutoML | ||
|---|---|---|
| 数据类型 |
AutoML |
预测类型 |
|
表格 |
AutoML Tables |
|
|
图像 |
AutoML Image |
|
|
视频 |
AutoML Video |
|
|
文本 |
AutoML Text |
|
|
文本 |
AutoML Translation |
翻译 |
带有训练数据
本工作专注于您拥有训练数据的情况:
| 概述 |
|---|
![]() |
| AutoML | BigQuery ML | Vertex AI | 使用 AutoML、BigQuery ML 和开源 Prophet 进行预测 |
|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
Vertex AI 用于机器学习训练
Vetex AI
Vetex AI 是一个端到端的模型开发平台。它由核心组件组成,这些组件使各种设计模式下的 MLOps 流程成为可能。
与 Vertex AI 交互
许多 Vertex AI 资源可以直接在 GCP 控制台 中查看和监控。Vertex AI 资源主要通过 Vertex AI API 创建和修改。
该 API 可通过以下方式访问:
本仓库中的笔记本主要使用 Python 客户端 aiplatform。偶尔也会使用 aiplatform.gapic、aiplatform_v1 和 aiplatform_v1beta1。
有关 API 版本、层次以及如何/何时使用每个版本的完整详细信息,请参阅此帮助说明。
安装 Vertex AI Python 客户端
pip install google-cloud-aiplatform
示例用法:列出 Vertex AI 模型注册表中的所有模型
PROJECT = 'statmike-mlops-349915'
REGION = 'us-central1'
# 使用 aiplatform 列出区域中项目的全部模型
from google.cloud import aiplatform
aiplatform.init(project = PROJECT, location = REGION)
model_list = aiplatform.Model.list()
设置
演示以一系列笔记本的形式呈现,最好在 JupyterLab 中运行。这些笔记本可以在 GitHub 上的此仓库 中直接查看,也可以克隆到您的 Vertex AI Workbench 实例 上。
选项 1:查看并使用单个文件
选择文件,并在您选择的浏览器或 IDE 中直接查看。这有助于您对内容有一个总体了解,并挑选出需要复制粘贴到项目中的部分。以下是获取此仓库内容本地副本的一些方法:
- 使用 Git:
git clone https://github.com/statmike/vertex-ai-mlops - 使用
wget直接从 GitHub 下载单个文件:- 前往 GitHub.com 上的笔记本,右键点击下载链接,然后选择“复制链接地址”。
- 或者,点击 GitHub 上的“Raw”按钮,然后复制加载后的 URL。
- 在笔记本单元格中或直接在终端中运行以下命令(无需加
!)。请注意,URL 略有不同,它直接指向 GitHub 上的原始内容。!wget "https://raw.githubusercontent.com/statmike/vertex-ai-mlops/main/<路径和文件名>.ipynb"
- 使用 Colab(以及即将推出的 Vertex AI Enterprise Colab)打开这些笔记本。许多笔记本的顶部都有可以直接在 Colab 中打开的按钮。不过,有些笔记本尚未具备此功能,还有一些使用本地 Docker,而 Colab 不支持 Docker。
选项 2:在 Vertex AI Workbench 上的 Notebook 中运行这些笔记本
简而言之:
在 Google Cloud 控制台中,选择或创建一个项目,然后转到 Vertex AI > Workbench > 实例
- 创建一个新的 Notebook 并打开 JupyterLab
- 使用 Git 菜单克隆此仓库,打开并运行
00 - Environment Setup.ipynb
- 创建一个项目
- 链接,或者前往:控制台 > IAM 和管理 > 管理资源
- 点击“+ 创建项目”
- 提供名称、结算帐号、组织和位置
- 点击“创建”
- 启用 API:Vertex AI API 和 Notebooks API
- 链接
- 或者,前往:
- 控制台 > Vertex AI,然后启用 API
- 再前往控制台 > Vertex AI > Workbench,然后启用 API
- 或者,前往:
- 链接
- 使用 Vertex AI Workbench 实例 创建一个 Notebook:
- 前往:控制台 > Vertex AI > Workbench > 实例 - 直接链接
- 创建一个新的实例 - 说明
- 实例启动后,点击“Open JupyterLab”链接。
- 将此仓库克隆到 JupyterLab 实例中:
- 您可以选择:
- 前往“Git”菜单,选择“Clone a Repository”
- 或者在左侧工具栏上找到 Git 图标,点击“Clone a Repository”
- 输入此仓库的克隆 URI:https://github.com/statmike/vertex-ai-mlops.git
- 在文件浏览器中,您将看到名为“vertex-ai-mlops”的文件夹,其中包含了此仓库的所有文件
- 您可以选择:
- 为这些工作流设置 Notebook 环境
- 打开 notebook vertex-ai-mlops/00 - Environment Setup
- 按照说明运行各个单元格
相关资源:
有用的部分
- 学习机器学习
- 我经常被问到:“我该如何学习机器学习?”有很多很好的答案……
- 探索
- 这是一系列项目,用于探索机器学习领域中新的、对我来说是新事物的以及新兴的工具!
- 技巧
- 关于如何使用该仓库和笔记本的技巧,包括构建容器、参数化作业以及与其他 GCP 服务交互等核心技能示例。这些技巧有助于扩展作业规模,并以 CI/CD 为重点进行开发。
类似本仓库的更多资源
这是我个人用于学习和分享 Vertex AI 的演示仓库。还有许多其他可用资源。在每个笔记本中,我都添加了一个资源部分和相关的培训部分。
- GitHub 真实场景的大量示例! 由 @jcavezar 提供
- GitHub GoogleCloudPlatform/vertex-ai-samples
- GitHub GoogleCloudPlatform/mlops-with-vertex-ai
- Google Cloud 上的数据科学概述
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器






