ml-on-gcp

514 181 较难 1 次阅读 2周前Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

ml-on-gcp 是一套专为 Google Cloud Platform（GCP）打造的机器学习实战指南与代码库。它致力于帮助开发者将基于 TensorFlow、scikit-learn 等主流框架编写的本地代码，平滑迁移并高效运行在谷歌云端。

在实际开发中，工程师往往需要花费大量时间处理云环境配置、接口适配及资源调度等繁琐事务。ml-on-gcp 通过提供经过验证的“食谱”式教程和最佳实践，显著降低了这些工程门槛，让用户能将更多精力聚焦于数据探索、模型构建及核心业务问题的解决。

该工具特别适合希望在云端开展工作的机器学习工程师、数据科学家及研究人员。无论是需要在 Compute Engine 上进行弹性训练、利用 Kubernetes 集群进行超参数搜索，还是通过 Cloud Functions 实现模型的无服务器化推理，都能在这里找到对应的示例代码。

其技术亮点在于覆盖了从数据处理到模型部署的全链路场景，不仅包含传统的 CPU 训练方案，还整合了 NVIDIA RAPIDS、TensorRT 等 GPU 加速技术以提升大规模推理性能。此外，项目提供了丰富的"Example Zoo"，收录了可直接在 AI Platform 上运行的 адаптированные 案例，帮助用户快速搭建生产级的机器学习流水线。

使用场景

某生物科技公司数据团队正利用 1000 Genomes 数据集，通过深度学习模型进行大规模基因组祖先推断分析。

没有 ml-on-gcp 时

工程师需手动配置复杂的 GPU 驱动与 CUDA 环境，耗费数天时间搭建基础运行平台，严重拖慢实验进度。
面对海量基因数据，本地服务器算力不足导致训练任务频繁中断，且缺乏弹性扩容机制来应对突发计算需求。
模型训练完成后，将其封装为可调用的 API 服务流程繁琐，需自行编写大量胶水代码连接存储、计算与服务层。
不同框架（如 TensorFlow、scikit-learn）在云端的最佳实践分散，团队需反复试错以解决接口兼容性问题。

使用 ml-on-gcp 后

直接复用官方提供的 Deep Learning VM 镜像和现成食谱（如基因组推断指南），一键部署预配置好的开发环境，将准备时间从数天缩短至小时级。
依据"Compute Engine 突发训练”指南，轻松调用高性能 VM 集群进行弹性扩缩容，快速完成高负荷计算任务并自动释放资源以节省成本。
参考"Cloud Functions + AI Platform"示例，迅速将训练好的模型封装为无服务器推理端点，实现从模型到生产服务的无缝衔接。
遵循针对 TensorFlow Estimators 或 scikit-learn 的标准化云端教程，规避底层接口陷阱，让团队专注于算法优化而非环境调试。

ml-on-gcp 通过提供经过验证的云端机器学习“食谱”，帮助团队摆脱基础设施运维的泥潭，将精力完全回归到数据探索与核心问题解决上。

运行环境要求

操作系统

Linux

GPU

非必需（取决于具体任务）
部分示例（如 TensorRT/T4）需要 NVIDIA GPU（Tesla T4），支持 CUDA-X AI/RAPIDS 加速
其他示例可在传统 CPU 实例上运行

内存

未说明（取决于具体任务和所选虚拟机类型，支持从 CPU 实例到高性能 GPU 实例的弹性配置）

依赖

notes本项目主要提供在 Google Cloud Platform (GCP) 上运行机器学习任务的指南和示例代码，而非单一的可安装软件包。运行环境通常基于 GCP 的深度学习虚拟机镜像（Deep Learning VM images），支持一键配置。用户需拥有 GCP 账户并根据示例选择相应的服务（如 Compute Engine, Kubernetes Engine, AI Platform, Cloud Functions）。部分高级加速功能（如 RAPIDS）需要特定的实验性镜像和 NVIDIA GPU 支持。

python未说明（基于 Google Cloud Deep Learning VM 镜像，通常预装 Python 3.x）

TensorFlow

scikit-learn

TensorRT

RAPIDS

xgboost

pandas

Dask

Spark

tensorflow-probability

Keras

快速开始

Google Cloud 平台上的机器学习

指导您如何将代码从各种机器学习框架迁移到 Google Cloud 平台。

我们的目标是提供实用的指南和最佳实践，帮助您减少在不同接口间调试的时间，从而将更多精力投入到数据集探索、模型构建以及解决真正关心的问题上。

博客文章

使用深度学习进行基因组谱系推断 - 在 Google Cloud 平台上利用 1000 基因组数据集进行谱系推断
使用 TensorRT 5 和 NVIDIA T4 GPU 大规模运行 TensorFlow 推理工作负载 - 利用 Tesla T4、TensorFlow、TensorRT、负载均衡和自动扩缩功能构建 ML 推理演示
NVIDIA 的 RAPIDS 加入我们的深度学习虚拟机镜像集合，加速数据科学工作流程 - Google Cloud 提供的一系列深度学习虚拟机（VM）镜像，支持一键式搭建面向机器学习的开发环境。然而，部分数据科学家仍在传统的基于 CPU 的实例上结合使用 pandas、Dask、scikit-learn 和 Spark。如果您希望通过扩展来加速端到端流程，Google Cloud 的深度学习 VM 现已包含一个实验性镜像，其中预装了 RAPIDS——NVIDIA 开源的基于 Python 的 GPU 加速数据处理与机器学习库，它是 NVIDIA 更大范围的 CUDA-X AI 加速软件套件中的重要组成部分。CUDA-X AI 是 NVIDIA 提供的一系列 GPU 加速库，用于加速深度学习、机器学习和数据分析任务。
从 Google Cloud Functions 推断机器学习模型 - 介绍如何通过 Google Cloud Function 端点推断 AI Platform 模型
NVIDIA 在语言理解方面取得突破，助力实现实时对话式 AI - AI Hub 和 AI Platform Notebooks 中的 BERT 笔记本

TensorFlow

Estimators - Estimator 接口指南

scikit-learn

在 GCE 上使用 scikit-learn - 在 Google Compute Engine 上使用 scikit-learn 训练一个简单模型
模型服务 - 使用 Google App Engine 和 Cloud Endpoints 提供模型服务
超参数搜索 - 从 Jupyter 笔记本中对 Google Kubernetes Engine 集群上的超参数进行搜索

Google Compute Engine

Compute Engine 生存训练 - 介绍在 Google Compute Engine 上运行高可用训练作业的框架
Compute Engine 突发训练 - 指南说明如何利用高性能虚拟机快速且低成本地执行计算密集型训练任务。（本指南中的示例训练作业同时使用了 xgboost 和 scikit-learn。）

Google Cloud Functions

Google Cloud Functions + AI Platform 示例 - 用于推断 AI Platform 模型的示例端点

示例动物园

一系列适配后可在 AI Platform 上运行的示例集合。

Google 机器学习仓库

如果您正在寻找有关如何使用其他服务在 Google Cloud Platform (GCP) 上进行机器学习的指南，请查看我们的其他仓库：

AI Platform 示例，其中包含使用 AI Platform Training、Prediction、Notebooks 和 AI Hub 等产品，将您的代码从各种 ML 框架迁移到 Google Cloud AI Platform 的指南。
Keras 正统编程者，该仓库由 Google Cloud AI 开发者关系团队制作，内容涵盖机器学习和人工智能领域的教育、培训和研究，适合从初学者到中级及高级用户。
专业服务，包含由 Google Cloud 专业服务团队开发的常用解决方案和工具。

ml-on-gcp 快速上手指南

ml-on-gcp 是一个汇集了将各类机器学习框架代码迁移至 Google Cloud Platform (GCP) 的实战指南仓库。它旨在提供具体的“食谱”和最佳实践，帮助开发者减少在接口适配上的时间，专注于数据探索、模型构建及问题解决。

环境准备

在开始之前，请确保你具备以下基础环境和权限：

Google Cloud 账号：拥有一个激活的 GCP 项目，并启用了计费功能。
gcloud CLI：本地已安装并配置好 Google Cloud SDK。
- 安装后运行 gcloud auth login 进行登录。
- 运行 gcloud config set project [YOUR_PROJECT_ID] 设置默认项目。
前置依赖：
- Python 3.7+ (根据具体教程需求)
- Jupyter Notebook (用于运行提供的 .ipynb 示例)
- 对应框架依赖：TensorFlow, scikit-learn, xgboost 等（建议在虚拟环境中安装）。
API 启用：根据你要使用的服务（如 Compute Engine, AI Platform, Cloud Functions），需在 GCP 控制台或通过命令行启用相应 API。

注意：由于网络原因，国内开发者访问 GCP 服务可能需要配置代理或使用全球加速通道。本仓库本身托管于 GitHub，克隆时若速度慢可考虑使用国内镜像源。

安装步骤

本仓库主要包含代码示例和文档，无需复杂的安装过程，只需克隆仓库并安装对应示例的依赖即可。

克隆仓库

git clone https://github.com/GoogleCloudPlatform/ml-on-gcp.git
cd ml-on-gcp

安装通用依赖（可选） 如果你打算运行多个示例，可以安装基础的 ML 库：
```
pip install tensorflow scikit-learn pandas google-cloud-storage
```
配置特定示例环境 进入具体教程目录（例如 tutorials/sklearn/titanic），通常会有独立的 requirements.txt，请按需安装：
```
cd tutorials/sklearn/titanic
pip install -r requirements.txt
```

基本使用

以下以 scikit-learn on GCE 为例，展示如何在 Google Compute Engine (GCE) 上训练一个简单的模型。这是最基础的“云端训练”场景。

场景：在 GCE 实例上训练 Titanic 生存预测模型

准备数据与代码 确保你已在本地 tutorials/sklearn/titanic 目录下准备好了训练脚本（如 train.py）和数据集。

创建计算实例 使用 gcloud 命令创建一个带有预装深度学习环境的 VM 实例（也可选择标准 CPU 实例）：

gcloud compute instances create ml-training-vm \
  --zone=us-central1-a \
  --machine-type=n1-standard-4 \
  --image-family=common-cu101 \
  --image-project=deeplearning-platform-release \
  --boot-disk-size=50GB

上传代码到实例 将本地的训练代码和数据上传至刚创建的实例：
```
gcloud compute scp train.py titanic.csv ml-training-vm:~/ --zone=us-central1-a
```
远程执行训练 通过 SSH 连接实例并运行训练脚本：
```
gcloud compute ssh ml-training-vm --zone=us-central1-a --command="python3 train.py"
```
注：train.py 内部逻辑应包含加载数据、使用 scikit-learn 建模、训练及保存模型文件的步骤。
获取模型 训练完成后，将生成的模型文件下载回本地或上传至 Google Cloud Storage (GCS)：
```
gcloud compute scp ml-training-vm:~/model.pkl ./local_model.pkl --zone=us-central1-a
```

其他快速入口

TensorFlow Estimators: 查看 tutorials/tensorflow/tf-estimators.ipynb 了解如何在 GCP 上使用 TF Estimator 接口。
超参数搜索: 参考 tutorials/sklearn/hpsearch，学习如何在 Google Kubernetes Engine (GKE) 集群上从 Jupyter Notebook 发起超参数搜索任务。
无服务器推理: 查看 gcf/gcf-ai-platform-example，了解如何通过 Google Cloud Functions 调用 AI Platform 模型进行推理。

更多高级示例（如 TensorFlow Probability, BERT 等）请访问仓库中的 example_zoo 目录。

常见问题

如何在 GCP 上使用包含 Pandas 预处理步骤的 Scikit-Learn 管道进行在线预测？

为什么在 App Engine (gae_serve) 部署示例中会出现 502 Bad Gateway 错误？

是否有从 Google App Engine (GAE) 查询 ML Engine 模型的实践示例？

如何在 GKEParallel 中更好地处理 sklearn.ParameterGrid 的参数组合分布？

部署应用时遇到 'Unable to determine the root directory where GAE runtimes are stored' 错误怎么办？

如何修复文档中提到的已弃用的 gcloud 命令和文件？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架