cube-studio

2k 156 较难 1 次阅读 2天前NOASSERTION语言模型开发框架数据工具Agent

AI 解读由 AI 自动生成，仅供参考

Cube Studio 是一款开源的云原生一站式人工智能平台，旨在为机器学习、深度学习及大模型应用提供从开发训练到部署推理的全链路支持。它有效解决了 AI 工程化过程中环境配置复杂、分布式训练门槛高、异构算力调度难以及模型管理分散等痛点，让用户能通过可视化的“拖拉拽”方式轻松编排任务流程，无需深陷底层基础设施的繁琐细节。

该平台特别适合 AI 算法工程师、数据科学家、企业研发团队以及需要构建私有化 MaaS（模型即服务）能力的组织使用。无论是进行常规的模型训练，还是探索 DeepSeek 等大模型的微调与强化学习，Cube Studio 都能提供流畅的体验。

其技术亮点在于强大的兼容性与高性能调度能力：不仅支持 PyTorch、DeepSpeed 等主流框架，还能无缝调度昇腾、寒武纪、海光等国产异构算力；内置 VGPU 虚拟化技术与多机多卡分布式训练方案，显著提升资源利用率；同时集成 vLLM、Ollama 等工具实现高效的大模型推理，并支持云边端协同与自动化标注。通过整合项目权限管理、超参搜索及模型市场，Cube Studio 真正实现了 AI 作业的标准化与自动化，助力团队高效落地智能应用。

使用场景

某中型电商公司的算法团队正急需基于私有交易数据，对 DeepSeek 大模型进行 SFT 微调以构建智能客服助手，并需快速部署上线。

没有 cube-studio 时

环境搭建繁琐：数据科学家需手动配置 PyTorch、DeepSpeed 及昇腾/英伟达异构驱动，常因依赖冲突导致数天无法开始训练。
资源调度低效：多机多卡分布式训练需人工编写复杂的 K8s YAML 文件，无法灵活利用闲置算力，且缺乏 VGPU 虚拟化导致小任务独占整卡，资源浪费严重。
流程割裂难协同：数据标注、模型训练、超参搜索与推理服务分散在不同脚本或工具中，缺乏统一的 Pipeline 编排，迭代一次模型需跨多个系统手动流转。
运维监控黑盒：训练任务一旦失败难以定位是代码错误还是网络（RDMA/IB）问题，缺乏全链路日志与可视化监控，排查耗时极长。

使用 cube-studio 后

开箱即用环境：通过平台预置的镜像模板，一键拉起支持 DeepSpeed 和国产异构算力的训练环境，将准备时间从数天缩短至分钟级。
智能弹性调度：利用拖拉拽方式编排分布式训练 Pipeline，自动调度多机多卡资源，并通过 VGPU 技术将单卡切分给多个轻量任务，算力利用率提升 300%。
全链路闭环管理：在统一界面完成从自动化标注、SFT 微调、奖励模型训练到 vLLM/Ollama 推理服务部署的全流程，实现“数据进、模型出”的自动化流转。
透明可观测性：内置实时监控面板清晰展示 RDMA 网络状态与训练指标，任务异常自动告警并定位根因，大幅降低运维门槛。

cube-studio 将原本碎片化、高门槛的 AI 工程链路整合为标准化、可视化的云原生流水线，让算法团队能专注于模型创新而非基础设施运维。

运行环境要求

操作系统

Linux

GPU

非必需，但支持多种算力
支持 NVIDIA (T4/V100/A100)、国产 GPU (海光 DCU、华为 NPU、寒武纪 MLU、天数智芯)
支持 vGPU、RDMA 调度及 GPU 共享/独占模式
具体显存和 CUDA 版本未说明，取决于底层 K8s 集群配置

内存

未说明 (取决于项目组资源限制配置及任务类型)

依赖

notes该工具为云原生机器学习平台，主要部署在 Kubernetes 集群上，而非单机环境。支持多集群、多资源组管理。支持 ARM64 芯片架构。需自行配置底层 K8s 环境、存储及网络（支持非 80 端口、HTTPS、内网穿透）。计量计费功能支持对 Notebook、Docker 构建、Pipeline 等资源进行配额限制。

python未说明

Kubernetes (多集群支持)

Containerd

IPVS (网络模式)

快速开始

同步更新旧仓库 tencent/cube-studio

Cube Studio

English | 简体中文

整体架构

帮助文档

https://github.com/data-infra/cube-studio/wiki

开源共建

学习、部署、体验、开源建设、商业合作欢迎来撩。或添加微信luanpeng1234，备注<开源建设>

公司

功能清单

cube studio是开源一站式云原生机器学习平台，目前主要包含

模块分组	功能模块	功能清单
基础能力	项目组管理	AI平台需要通过项目划分，支持配置相应项目组用户的权限，任务/服务的挂载，资源组，集群，服务代理，项目组内角色应用
基础能力	网络	支持非80端口，支持公网/域名，支持反向代理和内网穿透方式访问，支持https
基础能力	用户管理角色管理/权限管理	管理平台用户的基本信息，组织架构，支持账号密码，rbac权限体系。增加修改和删除，清理等操作的历史记录
基础能力	计量计费功能	1、支持平台资源限制的分配和查看；项目组资源限制，租户资源限制、任务资源限制，项目组下个人的资源限制，包括开发资源，训练资源、推理资源等。额度限制限制在notebook，docker构建，pipeline，超参搜索，内部服务，推理服务中的生效。限制支持单任务，并行任务总和和历史任务总和等方法 2、提供统一的开发、训练、推理服务资源监控，从租户、项目、任务角度分析模型资源分配及使用情况。 3、支持自定义计费模式，通过计量结果自定义获取计费值
基础能力	SSO单点登录	账号密码注册自动登录，支持对接公司账号体系AUTH_OID/AUTH_LDAP/AUTH_REMOTE_USER等登录注册方式，支持消息推送。增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等
基础能力	支持多种算力	提供多种规格的资源支持不同的使用场景，cpu/gpu等支持T4/V100/A100等多种卡型，支持arm64芯片，支持vgpu等模式。支持国产gpu，支持调度海光dcu，华为npu，寒武纪mlu，天数智芯GPU，支持rdma调度，mellanox。支持gpu禁用模型，共享模式，独占模式
基础能力	多资源组/多集群	支持划分多资源组，支持ipvs的k8s网络模式，支持多k8s集群，支持containerd容器运行态
基础能力	边缘集群	支持边缘集群模式，支持边缘节点开发，训练，推理
基础能力	serverless集群模式	支持腾讯云serverless集群模式，（notebook,pipeline,推理服务模块支持）阿里云serverless集群模式（notebook,pipeline,推理服务模块支持）
基础能力	数据库存储	支持外部mysql作为元数据库支持外部postgres作为元数据库
基础能力	机器资源管理	web界面控制机器调度类型，所属资源组，是否启动rdma，是否启动vgpu，可用任务场景等
基础能力	存储盘管理	支持web界面添加存储盘，支持项目组绑定，notebook pipeline 推理服务，直接在pod中挂载外部分布式存储。支持nfs，cfs，oss，nas，cos，glusterfs，cephfs，s3/minio
基础能力	国际化能力	mlops支持配置多语言配置，目前支持中英文
数据管理	数据地图	元数据库表管理，指标，维表
数据管理	数据计算	sqllab交互查询，支持mysql，postgresql，clickhouse，hive，presto等计算引擎
数据管理	ETL编排	数据ETL任务流编排，任务管理等对接公司数据中台相应计算/调度引擎
数据管理	数据集管理	允许用户随时上传样本集（图片、音频、文本等），支持sdk进行数据集对接，支持数据集一键探索功能
数据管理	数据标注	支持标注平台，图/文/音/多模态各类型标注能力，对接一站式机器学习平台，支持自动化标注(需购买aihub)：支持目标识别，目标边界识别，目标遮罩识别，图片分类，图片描述，ocr，关键点检测。支持大模型自动化标注：文本分类，文本翻译，命名实体识别，阅读理解，问答，摘要提取。
开发环境	镜像功能	镜像仓库/镜像管理/在线构建镜像。同时提供平台所有镜像，包括模板镜像/服务镜像/notebook镜像/gpu基础环境的构建方法和构建后镜像，支持dockerfile在线构建支持同一仓库多个秘钥配置
开发环境	notebook	支持基于开源的Jupyterlab/vscode，提供在线的交互式开发调试工具；提供多种可选环境ide和开发示例，支持资源类型选择支持大数据版本，机器学习版本，深度学习版本大数据版本支持用户信息，hdfs客户端，hive客户端和spark客户端支持ssh remote与notebook对接远程开发，方便快速将本地代码提交到平台的训练环境。 ssh隧道代理，单端口开放支持matlab，Rstudio等在线ide 支持gpu，cpu，内存，监控，支持git交互支持自定义notebook镜像，便于封装公司自己的notebook 多环境notebook，支持R语言/julia语言/python2.7/python3.6/python3.7/python3.8/python3.9/python3.10环境和cube-studio专有环境支持 tensorboard任务可视化 notebook支持环境镜像保存 jupyter支持密码保护 notebook支持整卡占用，虚拟卡占用，gpu共享占用支持notebook启动自动初始化环境
模型训练	拖拉拽任务流编排调试	提供拖拽式交互开发环境，支持开发者以拖拽的方式完成业务逻辑的PIPLINE；支持单任务调试，训练支持多种资源规格（CPU、GPU等），支持卡型的选择，超时重试等。任务支持独占和共享占用gpu 分布式任务模板支持单任务调试用户镜像而非模板镜像支持rdma资源占用支持gpu不同厂商，不同卡型的占用分布式任务模板支持gpu型号透传，rdma资源透传，拉取秘钥透传 pipeline调试，支持定时调度，补录，并发限制，超时，实例依赖等，任务管理， workflow实例管理，资源监控，支持任务输入输出，任务流全局变量，文本/图片/echart结果可视化，支持 workflow暂停和恢复。支持任务流优先级支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力任务流支持任务推荐定时调度支持最大保留实例数 pipeline支持任务流优先级
模型训练	主流功能算子	基础算子：自定义镜像，逻辑节点， python 数据同步：数据集导入，(支持huggingface数据集) datax，datax-import 模型导入(支持huggingface模型) 数据处理工具： hadoop/spark作业提交， volcanojob/ray分布式数据处理， sparkjob hadoop支持hadfs，hive命令，spark命令特征处理： - 数据合并，包含union、join操作 - 去除重复样本 - 数据变换，包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 - 非数值型变量处理，包括hash、根据统计量转换、one-hot - 异常值检测 - 获取变量的统计量 - 去除值过于单一的变量 - 删除缺失率过高的值 - 填充缺失值 - 数据离散化，等宽、等频、聚类离散化 - 标准化、正则化、归一化，有最大绝对值归一化、最大最小归一化、z_score标准化 - 索引处理，包含增加索引、索引转列、列索引重命名 - 排序 - 执行sql - hadamard乘积 - 特征组合，用于衍生特征 - 降维，包括pca降维和卡方降维 - 特征重要性，通过随机森林、逻辑回归、xgboost等模型计算特征重要性，可计算特征的iv值、互信息值、方差等 - 考察特征向量间的相关性 - 数据拆分，包括列内拆分、列间拆分、行间拆分、svd奇异值分解 - 采样，包括随机采样、分层采样、过采样、欠采样传统机器学习： ray-sklearn分布式， xgb单机训练推理传统机器学习算法： ar/arima时间序列算法/random-forest/random-forest-regression/lr/lightgbm/knn/kmean/gbdt/decision-tree/pca/lda/catboost/xgb/超参搜索分布式深度学习框架： tf/pytorch/mxnet/horovod/paddlejob/mindspore分布式训练分布式加速框架： mpi/colossalai/deepspeed/horovod/megatron 模型处理：模型评估，模型格式转换模型服务化：模型注册，模型离线推理, 模型部署媒体分布式处理：分布式媒体下载，视频提取图片，视频提取图片
模型训练	算子自定义	支持算子自定义，通过web界面操作将自定义算法代码镜像，注册为可被他人复用的pipeline算子
模型训练	自动学习	面向非AI背景的用户提供自动学习服务，用户选择某一个场景之后，上传训练数据即可自动开始训练和模型部署，支持示例automl任务流导入导出
模型训练	自定义镜像	面向高级 AI 开发者，提供自定义训练作业（执行环境 + 代码）功能；
模型训练	自动调参	基于单机/分布式自动超参搜索
模型训练	TensorBoard作业	实时/离线观察模型训练过程中的参数和指标变化情况
模型管理推理服务	内部服务	支持开发或运维工具快捷部署，提供mysql-web，postgresql web，mobgo web， redis web，neo4j，rstudio等开源工具
模型管理推理服务	模型管理	模型管理用于对模型多版本管理，支持模型发布为推理服务
模型管理推理服务	推理服务	支持ml/tf/pytorch/tentortrt/onnx常规模型的多版本的0代码发布。支持gpu卡型选择，支持vgpu，独占，共享占用，支持cpu/mem/gpu等弹性伸缩，支持服务优先级，支持远程模型路径,支持流量分流，流量复制，sidecar配置，支持泛域名配置，支持配置文件挂载，启动目录/命令/环境变量/端口/指标/健康检查等支持调试环境/测试环境/生产环境支持域名/ip代理多种形式支持服务负载指标监控支持多版本服务滚动升级和回滚，支持单pod滚动发布支持禁用 k8s service负载均衡器支持大模型分布式推理提供ml/tf/pytorch/tentortrt/onnx常规模型推理服务镜像支持用户自定义模型推理镜像支持定时伸缩容支持配置服务的jwt认证功能
监控	整体资源	所有集群，所有计算机器的使用情况，包括机器的所属集群，所属资源组，机器ip，cpu/gpu类型和卡型，当前cpu/内存/gpu的使用率所有集群，所有计算pod的使用情况，包括pod所属集群，所属资源组，所属命名空间，调度ip，pod名称，启动用户，cpu，gpu，内存的申请使用率整体资源页面，支持管理员批量删除
监控	监控体系	所有机器的gpu资源的使用情况，所有机器的内存/cpu/网络io/磁盘io的负载情况，所有pod的内存/cpu/gpu/网络io负载情况所有推理服务的内存/cpu/gpu/qps/吞吐/vgpu负载情况支持ib流量监控
模型应用市场	模型应用管理方案	提供cubestudio sdk，提供模型开发规范和使用规范
模型应用市场	模型应用管理方案	提供web端模型应用体验，支持同步/异步推理
模型应用市场	模型应用管理方案	提供开发多个python cuda版本的基础镜像
模型应用市场	预训练模型	提供视觉，听觉，nlp，多模态等400+预训练模型，提供预训练模型的模型加载和推理能力，可直接一键部署服务，并提供api
模型应用市场	模型市场	aihub应用对接cube-studio平台进行卡片式展示
模型应用市场	模型一键开发	提供一键转notebook开发，提供符合当前模型所需环境的jupyter
模型应用市场	模型一键微调	支持一键转pipeline微调链路，包括示例数据集下载，微调，模型注册，模型部署，支持微调后模型部署
模型应用市场	模型一键部署web	提供模型一键部署提供手机端和pc端web界面和api，和demo示例弹窗演示
模型应用市场	模型自动化标注	支持部署对接labelstudio自动化标注
模型应用市场	数据集sdk	支持通过python sdk搜索上传下载数据集，支持数据集的加解密/解压缩/数据集基础信息查看等
模型应用市场	notebook sdk	支持通过api，对接cube-studio创建notebook，并跳转到指定目录，用于其他算法平台在当前平台的调试和演示
模型应用市场	pipeline训练sdk	支持AI开发主流语言 Python，提供Python SDK支持用户通过SDK来进行pipeline任务流管理和训练任务启动以及任务流编排
模型应用市场	推理服务sdk	提供python sdk，对接cube tudio进行推理服务的发布，服务升级
大模型	大模型分布式多机多卡	支持分布式多机多卡训练，例如mpi/deepspeed/Colossal-AI
大模型	支持大模型推理aihub形式	支持openjourney/gpt3/yuan/sd-v1.5/sd-v2/sd-v3/Stable Cascade/Stable Diffusion XL/chatglm/llama/chinese-alpaca/qwen/gemma/yi/aquilachat2部署
大模型	支持大模型推理openai接口	支持fastchat+vllm大模型推理，支持推理加速+流式接口
大模型	支持大模型微调	支持 chatglm2/chatglm3/chatglm4/llama3-chinese/qwen lora微调，支持 llama-factory 100+llm微调
大模型	智能对话	提供支持多场景对话，支持提示词构建，推理接口配置，llm问答，支持问询中模型切换，清理，历史上下文
大模型	私有知识库	私有知识库配置，私有知识库召回
大模型	私有知识库	支持召回列表模式
大模型	私有知识库	支持 aigc模式
大模型	私有知识库	支持微信公众号服务号对接
大模型	私有知识库	支持企业微信群聊机器人对接
大模型	私有知识库	支持钉钉群聊机器人对接

支持模板

提示：

1、可自由定制任务插件，更适用当前业务需求

模块	模板	类型	文档地址
数据导入导出	datax	单机	job-template/job/datax/README.md
数据导入导出	数据集导入	单机	job-template/job/dataset/README.md
数据导入导出	模型导入	单机	job-template/job/model_download/README.md
数据预处理	data-process	单机	job-template/job/data-process/README.md
数据处理工具	hadoop	单机	job-template/job/hadoop/README.md
数据处理工具	ray	分布式	job-template/job/ray/README.md
数据处理工具	volcanojob	分布式	job-template/job/volcano/README.md
特征处理	feature-process	单机	job-template/job/feature-process/README.md
机器学习框架	ray-sklearn	分布式	job-template/job/ray-sklearn/README.md
机器学习算法	random_forest	单机	job-template/job/random_forest/README.md
机器学习算法	lr	单机	job-template/job/lr/README.md
机器学习算法	lightgbm	单机	job-template/job/lightgbm/README.md
机器学习算法	knn	单机	job-template/job/knn/README.md
机器学习算法	kmeans	单机	job-template/job/kmeans/README.md
机器学习算法	nni	单机	job-template/job/hyperparameter-search-nni/README.md
机器学习算法	xgb	单机	job-template/job/xgb/README.md
机器学习算法	gbdt	单机	job-template/job/gbdt/README.md
机器学习算法	decision-tree	单机	job-template/job/decision_tree/README.md
机器学习算法	bayesian	单机	job-template/job/bayesian/README.md
机器学习算法	adaboost	单机	job-template/job/adaboost/README.md
深度学习	tfjob	分布式	job-template/job/tf/README.md
深度学习	pytorchjob	分布式	job-template/job/pytorch/README.md
深度学习	paddle	分布式	job-template/job/paddle/README.md
深度学习	mxnet	分布式	job-template/job/mxnet/README.md
深度学习	mindspore	分布式	job-template/job/mindspore/README.md
深度学习	horovod	分布式	job-template/job/horovod/README.md
深度学习	mpi	分布式	job-template/job/mpi/README.md
深度学习	colossalai	分布式	job-template/job/colossalai/README.md
深度学习	deepspeed	分布式	job-template/job/deepspeed/README.md
深度学习	megatron	分布式	job-template/job/megatron/README.md
模型处理	model-evaluation	单机	job-template/job/model_evaluation/README.md
模型服务化	model-convert	单机	job-template/job/model-convert/README.md
模型服务化	model-register	单机	job-template/job/model_register/README.md
模型服务化	deploy-service	单机	job-template/job/deploy-service/README.md
模型服务化	model-offline-predict	分布式	job-template/job/offline-predict/README.md
多媒体类	media-download	分布式	job-template/job/video-audio/README.md
多媒体类	video-img	分布式	job-template/job/video-audio/README.md
多媒体类	video-audio	分布式	job-template/job/video-audio/README.md
大模型	llama	单机多卡	job-template/job/llama-factory
大模型	chatglm	单机多卡	job-template/job/llama-factory
大模型	qwen	单机多卡	job-template/job/llama-factory
大模型	deepseek	单机多卡	job-template/job/llama-factory
大模型	llama-factory	单机多卡	job-template/job/llama-factory

平台简介

完整的平台包含

1、机器的标准化
2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus/efk/zipkin)
3、基础能力(tf/pytorch/mxnet/valcano/ray等分布式，nni/ray超参搜索)
4、平台web部分(oa/权限/项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)

输入图片说明

算力/存储/用户管理

算力：

云原生统筹平台cpu/gpu等算力
支持划分多资源组，支持多k8s集群，多地部署
支持T4/V100/A100/昇腾/dcu/VGPU等异构GPU/NPU环境
支持边缘集群模式，支持边缘节点上开发/训练/推理
支持鲲鹏芯片arm64架构，RDMA

存储：

自带分布式存储，支持多机分布式下文件处理
支持外部存储挂载，支持项目组挂载绑定
支持个人存储空间/组空间等多种形式
平台内存储空间不需要迁移

用户权限：

支持sso登录，对接公司账号体系
支持项目组划分，支持配置相应项目组用户的权限
管理平台用户的基本信息，组织架构，rbac权限体系

多集群管控

cube支持多集群调度，可同时管控多个训练或推理集群。在单个集群内，不仅能做到一个项目组内对在线开发、训练、推理的隔离，还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力，能够在多项目间共享公共算力池和私有化算力池，做到成本最低化。

分布式存储

cube会自动为用户挂载用户的个人目录，同一个用户在平台任何地方启动的容器，其用户个人子目录均为/mnt/$username。可以将pvc/hostpath/memory/configmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载，进而实现一个项目组共享同一个目录等功能。

在线开发

系统多租户/多实例管理，在线交互开发调试，无需安装三方控件，只需浏览器就能完成开发。
支持vscode，jupyter，Matlab，Rstudio等多种在线IDE类型
Jupyter支持cube-studio sdk，Julia，R，python，pyspark多内核版本，

支持c++，java，conda等多种开发语言，以及tensorboard/git/gpu监控等多种插件
支持ssh remote与notebook互通，本地进行代码开发
在线镜像构建，通过Web Shell方式在浏览器中完成构建；并提供各种版本notebook，inference，gpu，python等基础镜像

标注平台：

支持图/文/音/多模态/大模型多种类型标注功能，用户管理，工作任务分发
对接aihub模型市场，支持自动化标注；对接数据集，支持标注数据导入；对接pipeline，支持标注结果自动化训练

拖拉拽pipeline编排

1、Ml全流程

数据导入，数据预处理，超惨搜索，模型训练，模型评估，模型压缩，模型注册，服务上线，ml算法全流程

2、灵活开放

支持单任务调试、分布式任务日志聚合查看，pipeline调试跟踪，任务运行资源监控，以及定时调度功能(包含补录，忽略，重试，依赖，并发限制，过期淘汰等功能)

分布式框架

1、训练框架支持分布式（协议和策略）
2、代码识别分布式角色（有状态）
3、控制器部署分布式训练集群（operator）
4、配置分布式训练集群的部署（CRD）

多层次多类型算子

以k8s为核心，
1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等，
2、以及在此衍生出来的分布式的数据下载，hdfs拉取，cos上传下载，视频采帧，音频抽取，分布式的训练，例如推荐场景的din算法，ComiRec算法，MMoE算法，DeepFM算法，youtube dnn算法，ple模型，ESMM模型，双塔模型，音视频的wenet，containAI等算法的分布式训练。

功能模板化

和非模板开发相比，使用模板建立应用成本会更低一些，无需开发平台。
迁移更加容易，通过模板标准化后，后续应用迁移迭代只需迁移配置模板，简化复杂的配置操作。
配置复用，通过简单的配置就可以复用这些能力，算法与工程分离避免重复开发。

为了避免重复开发，对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像，将镜像注册到平台，这样其他用户就可以复用这些功能。平台自带模板在job-template目录下

流水线调试

Pipeline调试支持定时执行，支持，补录，并发限制，超时，实例依赖等。
Pipeling运行，支持变量在任务间输入输出，全局变量，流向控制，模板变量，数据时间等
Pipeling运行，支持任务结果可视化，图片、csv/json，echart源码可视化

nni超参搜索

界面化呈现训练各组数据，通过图形界面进行直观呈现。减少以往开发调参过程的枯燥感，让整个调参过程更加生动具有趣味性，完全无需丰富经验就能实现更精准的参数控制调节。

# 上报当前迭代目标值
nni.report_intermediate_result(test_acc)
# 上报最终目标值
nni.report_final_result(test_acc)

# 接收超参数为输入参数
parser.add_argument('--batch_size', type=int)

推理服务

0代码发布推理服务从底层到上层，包含服务网格，serverless，pipeline，http框架，模型计算。

服务网格阶段：主要工作是代理流量的中转和管控，例如分流，镜像，限流，黑白名单之类的。
serverless阶段：主要为服务的智能化运维，例如服务的激活，伸缩容，版本管理，蓝绿发布。
pipeline阶段：主要为请求在各数据处理/推理之间的流动。推理的前后置处理逻辑等。
http/grpc框架：主要为处理客户端的请求，准备推理样本，推理后作出响应。
模型计算：模型在cpu/gpu上对输入样本做前向计算。

主要功能：

支持模型管理注册，灰度发布，版本回退，模型指标可视化，以及在piepline中进行模型注册
推理服务支持多集群，多资源组，异构gpu环境，平台资源统筹监控，VGPU，服务流量分流，复制，sidecar
支持0代码的模型发布，gpu推理加速，支持训练推理混部，服务优先级，自定义指标弹性伸缩。

监控和推送

监控：cube-studio集成prometheus生态，可以监控包括主机，进程，服务流量，gpu等相关负载，并配套grafana进行可视化

推送：cube-studio开放推送接口，可自定义推送给企业oa系统

AIHub

系统自带通用模型数量400+，覆盖绝大数行业场景，根据需求可以不断扩充。
模型开源、按需定制，方便快速集成，满足用户业务增长及二次开发升级。
模型标准化开发管理，大幅降低使用门槛，开发周期时长平均下降30%以上。

AIHub模型可一键部署为WEB端应用，手机端/PC端皆可，实时查看模型应用效果
点击模型开发即可进入notebook进行模型代码的二次开发，实现一键开发
点击训练即可加入自己的数据进行一键微调，使模型更贴合自身场景

GPT训练微调

cube-studio支持deepspeed/colossalai等分布式加速框架，可一键实现大模型多机多卡分布式训练
AIHub包含gpt/AIGC大模型，可一键转为微调pipeline，修改为自己的数据后，便可以微调并部署

GPT-RDMA

rdma插件部署后，k8s机器可用资源

capacity:
  cpu: '128'
  memory: 1056469320Ki
  nvidia.com/gpu: '8'
  rdma/hca: '500'

代码分布式训练中使用IB设备

export NCCL_IB_HCA=mlx5
export MLP_WORKER_GPU=$GPU_NUM
export MLP_WORKER_NUM=$WORLD_SIZE
export MLP_ROLE_INDEX=$RANK
export MLP_WORKER_0_HOST=$MASTER_ADDR
export MLP_WORKER_0_PORT=$MASTER_PORT

gpt私有知识库

数据智能模块可配置专业领域智能对话，快速敏捷使用llm
可为某个聊天场景配置私有知识库文件，支持主题分割，语义embedding，意图识别，概要提取，多路召回，排序，多种功能融合

gpt智能聊天

可以将智能会话与AIHub相结合，例如下面AIGC模型与聊天会话
可使用Autogpt方式串联所有aihub模型，进行图文音智能化处理
智能会话与公共直接打通，可在微信公众号中进行图文音对话

数据中台对接

为了加速AI算法平台的使用，cube-studio支持对接公司原有数据中台，包括数据计算引擎sqllab，元数据管理，指标管理，维表管理，数据ETL，数据集管理

三种方式部署

针对企业需求，根据不同场景对计算实时性的不同需求，可以提供三种建设模式

模式一：私有化部署——对数据安全要求高、预算充足、自己有开发能力
模式二：边缘集群部署——算力分散，多个子网环境的场景，或边缘设备场景
模式三：serverless集群——成本有限，按需申请算力的场景

边缘计算

通过边缘集群的形式，在中心节点部署平台，并将边缘节点加入调度，每个私有网用户，通过项目组，将notebook，pipeline，service部署在边缘节点

1、避免数据到中心节点的带宽传输
2、避免中心节点的算力成本，充分利用边缘节点算力
3、避免边缘节点的运维成本

Cube Studio 快速上手指南

Cube Studio 是一款开源的一站式云原生机器学习平台，提供从项目管理、资源调度、模型开发到训练推理的全流程支持。

环境准备

在部署前，请确保满足以下系统要求和前置依赖：

操作系统: Linux (推荐 CentOS 7+/Ubuntu 18.04+)
容器编排: Kubernetes 集群 (v1.20+)
- 支持多集群架构
- 网络模式支持 IPVS
- 容器运行时支持 containerd
硬件资源:
- 支持 x86_64 及 ARM64 架构
- 算力支持：CPU、GPU (NVIDIA T4/V100/A100 等)
- 国产算力适配：海光 DCU、华为 NPU、寒武纪 MLU、天数智芯 GPU 等
- 高级特性：支持 vGPU、RDMA (Mellanox) 调度
其他依赖:
- Docker
- Helm (用于应用编排)
- MySQL/PostgreSQL (元数据存储)
- MinIO/Ceph (对象存储，用于模型和数据持久化)

提示：平台支持多种网络访问方式，包括非 80 端口、公网域名、反向代理及内网穿透，并原生支持 HTTPS。

安装步骤

由于 Cube Studio 基于 Kubernetes 构建，推荐使用 Helm 进行部署。以下是标准安装流程：

添加 Helm Chart 仓库

helm repo add cube-studio https://data-infra.github.io/cube-studio/
helm repo update

创建命名空间
```
kubectl create namespace cube-studio
```
安装 Cube Studio 使用默认配置安装（生产环境建议修改 values.yaml 配置存储类、数据库地址及资源限制）：
```
helm install cube-studio cube-studio/cube-studio -n cube-studio
```
验证部署状态 等待所有 Pod 运行就绪：
```
kubectl get pods -n cube-studio
```
当所有组件状态为 Running 时，表示安装成功。
获取访问地址
- 若配置了 Ingress，直接访问绑定的域名。
- 若使用 NodePort 或本地测试，可通过端口转发访问：
```
kubectl port-forward svc/cube-studio-server -n cube-studio 8080:80
```
然后在浏览器打开 http://localhost:8080。

基本使用

安装完成后，您可以按照以下步骤开始使用平台的核心功能：

1. 初始化与登录

访问平台首页，使用默认管理员账号登录（初始密码请参考 Helm 安装后的输出日志或通过 Secret 查看）。
SSO 集成：如需对接企业账号体系，可在“系统设置”中配置 AUTH_LDAP 或 AUTH_OID 实现单点登录。

2. 创建项目组

平台采用多租户隔离机制，使用前需创建项目组：

进入 项目组管理 模块。
点击“新建项目”，填写项目名称（如 demo-project）。
配置该项目的资源配额（CPU/GPU 限额）、挂载存储及成员权限（RBAC）。

3. 启动开发环境 (Notebook)

进入刚创建的项目，选择 开发服务。
点击“新建实例”，选择镜像（支持自定义 Docker 镜像）和资源配置（如 1 CPU, 2GB Mem, 1 NVIDIA T4）。
启动后，点击“打开 Jupyter"，即可在浏览器中进行代码编写、数据探索和模型调试。

4. 提交训练任务

在 任务管理 模块中，点击“新建任务”。
选择算法镜像或上传自定义代码包。
配置超参数、数据集路径及输出模型路径。
提交任务后，平台将自动调度至合适的集群节点（支持断点续训和日志实时查看）。

5. 资源监控与计量

在 计量计费 模块，可查看租户、项目及个人的资源使用情况（开发、训练、推理资源）。
支持自定义计费规则，对超出额度的任务进行限制或告警。

更多详细功能文档及进阶用法，请访问官方 Wiki：https://github.com/data-infra/cube-studio/wiki

版本历史

v2026.01.012026/02/03

v2025.09.012025/10/27

v2025.07.012025/07/25

v2025.03.012025/06/03

v2025.01.012025/03/05

v2024.11.012024/11/30

v2024.09.012024/09/24

v2024.08.012024/08/09

v2024.07.012024/07/02

常见问题

在 KubeSphere 环境中安装 istio-ingressgateway 启动失败，报错证书签名未知或连接被拒绝怎么办？

开源版中如何使用标注平台功能？

在 ARM64 架构服务器上单机部署时，部分镜像报错 'exec format error' 如何解决？

部署时发现 bitnami/kube-rbac-proxy:0.14.1 镜像已被官方删除，应该替换为什么版本？

使用 OpenEBS LocalPV 存储类时，报错 'claim.Spec.Selector is not supported' 或 'Only support ReadWriteOnce' 怎么办？

文档中提到需要配置 DCGM-Exporter 的 ServiceMonitor，但找不到对应的 YAML 文件怎么办？

AIHUB 相关功能在开源版中可用吗？

按照教程单机部署完成后，前端业务页面无法访问，如何排查？

内网离线部署文档中提到的 'init-en' 文件在新版本中找不到，是否还需要处理？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架