[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-tencentmusic--cube-studio":3,"tool-tencentmusic--cube-studio":62},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":59,"last_commit_at":60,"category_tags":61,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,27],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":78,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":122,"forks":123,"last_commit_at":124,"license":125,"difficulty_score":126,"env_os":127,"env_gpu":128,"env_ram":129,"env_deps":130,"category_tags":137,"github_topics":138,"view_count":24,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":156,"updated_at":157,"faqs":158,"releases":194},10113,"tencentmusic\u002Fcube-studio","cube-studio","cube studio开源云原生一站式机器学习\u002F深度学习\u002F大模型AI平台，mlops算法链路全流程，算力租赁平台，notebook在线开发，拖拉拽任务流pipeline编排，多机多卡分布式训练，超参搜索，推理服务VGPU虚拟化，边缘计算，标注平台自动化标注，deepseek等大模型sft微调\u002F奖励模型\u002F强化学习训练，vllm\u002Follama\u002Fmindie大模型多机推理，私有知识库，AI模型市场，支持国产cpu\u002Fgpu\u002Fnpu 昇腾生态，支持RDMA，支持pytorch\u002Ftf\u002Fmxnet\u002Fdeepspeed\u002Fpaddle\u002Fcolossalai\u002Fhorovod\u002Fray\u002Fvolcano等分布式","Cube Studio 是一款开源的云原生一站式人工智能平台，旨在为机器学习、深度学习及大模型应用提供从开发到部署的全流程支持。它有效解决了 AI 工程化过程中环境配置复杂、资源调度困难、分布式训练门槛高以及模型落地运维繁琐等痛点，让团队能够专注于算法创新而非基础设施搭建。\n\n该平台非常适合 AI 开发者、数据科学家、算法研究人员以及需要构建私有化 AI 能力的企业团队使用。无论是进行日常的 Notebook 在线开发、自动化数据标注，还是执行复杂的多机多卡分布式训练、超参数搜索，Cube Studio 都能通过可视化的“拖拉拽”方式轻松编排任务流。\n\n其技术亮点在于对国产硬件生态的深度适配，全面支持昇腾 NPU 及各类国产 CPU\u002FGPU，并兼容 RDMA 高速网络。在大模型领域，Cube Studio 提供了从 SFT 微调、奖励模型训练到强化学习的一站式解决方案，集成 vLLM、Ollama 等主流推理框架，支持 VGPU 虚拟化与边缘计算。此外，它还内置了私有知识库和 AI 模型市场，支持 PyTorch、TensorFlow、DeepSpeed 等多种主流框架，真正实现了算力","Cube Studio 是一款开源的云原生一站式人工智能平台，旨在为机器学习、深度学习及大模型应用提供从开发到部署的全流程支持。它有效解决了 AI 工程化过程中环境配置复杂、资源调度困难、分布式训练门槛高以及模型落地运维繁琐等痛点，让团队能够专注于算法创新而非基础设施搭建。\n\n该平台非常适合 AI 开发者、数据科学家、算法研究人员以及需要构建私有化 AI 能力的企业团队使用。无论是进行日常的 Notebook 在线开发、自动化数据标注，还是执行复杂的多机多卡分布式训练、超参数搜索，Cube Studio 都能通过可视化的“拖拉拽”方式轻松编排任务流。\n\n其技术亮点在于对国产硬件生态的深度适配，全面支持昇腾 NPU 及各类国产 CPU\u002FGPU，并兼容 RDMA 高速网络。在大模型领域，Cube Studio 提供了从 SFT 微调、奖励模型训练到强化学习的一站式解决方案，集成 vLLM、Ollama 等主流推理框架，支持 VGPU 虚拟化与边缘计算。此外，它还内置了私有知识库和 AI 模型市场，支持 PyTorch、TensorFlow、DeepSpeed 等多种主流框架，真正实现了算力资源的高效租赁与管理，助力用户低成本构建高效的 MLOps 闭环。","# Cube Studio\n\n[English](README_EN.md) | 简体中文\n\n### 整体架构\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_48ee2acd87b8.png)\n\n\n# 公司\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_95cea8890e7e.png)\n\n# 帮助文档\n\nhttps:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fwiki\n\n# 功能清单\n\ncube studio是 开源一站式云原生机器学习平台，目前主要包含\n\n|模块分组|功能模块| 功能清单                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|:-|:--|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n|基础能力|项目组管理| \u003Cli>AI平台需要通过项目划分，\u003Cli>支持配置相应项目组用户的权限，\u003Cli>任务\u002F服务的挂载，资源组，集群，服务代理，\u003Cli>\u003Cu>项目组内角色应用                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|网络| \u003Cli>支持非80端口，\u003Cli>支持公网\u002F域名，\u003Cli>支持反向代理和内网穿透方式访问，\u003Cli>\u003Cu>支持https\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|用户管理 角色管理\u002F权限管理| \u003Cli>管理平台用户的基本信息，组织架构，支持账号密码，rbac权限体系。\u003Cli> \u003Cu>增加修改和删除，清理等操作的历史记录\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|基础能力|计量计费功能| \u003Cu>\u003Cli>1、支持平台资源限制的分配和查看；项目组资源限制，租户资源限制、任务资源限制，项目组下个人的资源限制，包括开发资源，训练资源、推理资源等。   额度限制限制在notebook，docker构建，pipeline，超参搜索，内部服务，推理服务中的生效。限制支持单任务，并行任务总和和历史任务总和等方法\u003Cli>2、提供统一的开发、训练、推理服务资源监控，从租户、项目、任务角度分析模型资源分配及使用情况。\u003Cli> 3、支持自定义计费模式，通过计量结果自定义获取计费值\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|基础能力|SSO单点登录| \u003Cli>账号密码注册自动登录，\u003Cli>\u003Cu>支持对接公司账号体系AUTH_OID\u002FAUTH_LDAP\u002FAUTH_REMOTE_USER等登录注册方式，\u003Cli>\u003Cu>支持消息推送。  \u003Cli>\u003Cu>增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|基础能力|支持多种算力| \u003Cli>提供多种规格的资源支持不同的使用场景，cpu\u002Fgpu等 支持T4\u002FV100\u002FA100等多种卡型，\u003Cli>\u003Cu>支持arm64芯片，\u003Cli>\u003Cu>支持vgpu等模式。\u003Cli>\u003Cu>支持国产gpu，支持调度海光dcu，华为npu，寒武纪mlu，天数智芯GPU，\u003Cli>\u003Cu>支持rdma调度，mellanox。\u003Cli>\u003Cu>支持gpu禁用模型，共享模式，独占模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|基础能力|多资源组\u002F多集群| \u003Cli>支持划分多资源组，\u003Cli>支持ipvs的k8s网络模式，\u003Cli>\u003Cu>支持多k8s集群，\u003Cli>支持containerd容器运行态                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|基础能力|边缘集群| \u003Cli>\u003Cu>支持边缘集群模式，支持边缘节点开发，训练，推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|serverless集群模式| \u003Cli>\u003Cu>支持腾讯云serverless集群模式，（notebook,pipeline,推理服务模块支持）\u003Cli>\u003Cu>阿里云serverless集群模式（notebook,pipeline,推理服务模块支持）                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|基础能力|数据库存储| \u003Cli>支持外部mysql作为元数据库\u003Cli>\u003Cu>支持外部postgres作为元数据库                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|机器资源管理| \u003Cli>\u003Cu>web界面控制机器调度类型，所属资源组，是否启动rdma，是否启动vgpu，可用任务场景等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|基础能力|存储盘管理| \u003Cli>\u003Cu>支持web界面添加存储盘，支持项目组绑定，notebook pipeline 推理服务，直接在pod中挂载外部分布式存储。\u003Cli>\u003Cu>支持nfs，cfs，oss，nas，cos，glusterfs，cephfs，s3\u002Fminio                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|基础能力|国际化能力| \u003Cli>\u003Cu>mlops支持配置多语言配置，目前支持中英文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|数据管理|数据地图| \u003Cli>元数据库表管理，指标，维表                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据计算| \u003Cli>sqllab交互查询，支持mysql，\u003Cu>postgresql，clickhouse，hive，presto\u003C\u002Fu>等计算引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|数据管理|ETL编排| \u003Cli>数据ETL任务流编排，任务管理等对接公司数据中台相应计算\u002F调度引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|数据管理|数据集管理| \u003Cli>允许用户随时上传样本集（图片、音频、文本等），\u003Cli>\u003Cu>支持sdk进行数据集对接，\u003Cli>\u003Cu>支持数据集一键探索功能                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据标注| \u003Cli>\u003Cu>支持标注平台，图\u002F文\u002F音\u002F多模态各类型标注能力，\u003Cli>\u003Cu>对接一站式机器学习平台，支持自动化标注(需购买aihub)：\u003Cli>\u003Cu>支持目标识别，目标边界识别，目标遮罩识别，图片分类，图片描述，ocr，关键点检测。支持大模型自动化标注：文本分类，文本翻译，命名实体识别，阅读理解，问答，摘要提取。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|开发环境|镜像功能| \u003Cli>镜像仓库\u002F镜像管理\u002F在线构建镜像。同时提供平台所有镜像，包括模板镜像\u002F服务镜像\u002Fnotebook镜像\u002Fgpu基础环境的构建方法和构建后镜像，\u003Cli>\u003Cu>支持dockerfile在线构建 \u003Cli>\u003Cu>支持同一仓库多个秘钥配置                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|开发环境|notebook| \u003Cli>支持基于开源的Jupyterlab\u002Fvscode，提供在线的交互式开发调试工具；\u003Cli>提供多种可选环境ide和开发示例，支持资源类型选择 支持大数据版本，机器学习版本，深度学习版本 \u003Cli>\u003Cu>大数据版本支持用户信息，hdfs客户端，hive客户端和spark客户端 \u003Cli>支持ssh remote与notebook对接远程开发，方便快速将本地代码提交到平台的训练环境。\u003Cli>\u003Cu>ssh隧道代理，单端口开放 \u003Cli>\u003Cu>支持matlab，Rstudio等在线ide \u003Cli>\u003Cu>支持gpu，cpu，内存，监控，支持git交互 \u003Cli>\u003Cu>支持自定义notebook镜像，便于封装公司自己的notebook \u003Cli>\u003Cu>多环境notebook，支持R语言\u002Fjulia语言\u002Fpython2.7\u002Fpython3.6\u002Fpython3.7\u002Fpython3.8\u002Fpython3.9\u002Fpython3.10环境和cube-studio专有环境 \u003Cli>\u003Cu>支持tensorboard任务可视化 \u003Cli>\u003Cu>notebook支持环境镜像保存 \u003Cli>\u003Cu>jupyter支持密码保护 \u003Cli>\u003Cu>notebook支持整卡占用，虚拟卡占用，gpu共享占用 \u003Cli>支持notebook启动自动初始化环境                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型训练|拖拉拽任务流编排调试| \u003Cli>提供拖拽式交互开发环境，支持开发者以拖拽的方式完成业务逻辑的PIPLINE； \u003Cli>支持单任务调试，\u003Cli>训练支持多种资源规格（CPU、GPU等），支持卡型的选择，超时重试等。\u003Cli>\u003Cu>任务支持独占和共享占用gpu\u003C\u002Fu>\u003C\u002Fli>\u003Cli>\u003Cu>分布式任务模板支持单任务调试用户镜像而非模板镜像\u003C\u002Fu>  \u003Cli>\u003Cu>支持rdma资源占用 \u003Cli>\u003Cu>支持gpu不同厂商，不同卡型的占用 \u003Cli>\u003Cu>分布式任务模板支持gpu型号透传，rdma资源透传，拉取秘钥透传  \u003C\u002Fu>\u003Cli>pipeline调试，支持定时调度，补录，并发限制，超时，实例依赖等，\u003Cli>任务管理，\u003Cli>workflow实例管理，\u003Cli>资源监控，\u003Cli>\u003Cu>支持任务输入输出，\u003Cli>\u003Cu>任务流全局变量，\u003Cli>\u003Cu>文本\u002F图片\u002Fechart结果可视化，\u003Cli>\u003Cu>支持workflow暂停和恢复。\u003Cli>\u003Cu>支持任务流优先级 \u003Cli>\u003Cu>支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力 \u003Cli>\u003Cu>任务流支持任务推荐\u003Cli>\u003Cu>定时调度支持最大保留实例数\u003Cli>\u003Cu>pipeline支持任务流优先级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|主流功能算子| 基础算子：\u003Cli>自定义镜像，\u003Cli>\u003Cu>逻辑节点，\u003C\u002Fu>\u003Cli>\u003Cu>python\u003C\u002Fu>\u003C\u002Fli> 数据同步：\u003Cli>数据集导入，\u003Cu>(支持huggingface数据集)\u003C\u002Fu>\u003Cli>datax，\u003Cu>datax-import\u003C\u002Fu>\u003C\u002Fli>\u003Cli>模型导入\u003Cu>(支持huggingface模型)\u003C\u002Fu>\u003C\u002Fli>  数据处理工具：\u003Cli>hadoop\u002Fspark作业提交，\u003Cli>volcanojob\u002Fray分布式数据处理，\u003Cli>sparkjob  \u003C\u002Fli> \u003Cli>\u003Cu>hadoop支持hadfs，hive命令，spark命令\u003C\u002Fu>\u003C\u002Fli> 特征处理： \u003Cu>\u003Cli>-数据合并，包含union、join操作 \u003Cli>-去除重复样本 \u003Cli>-数据变换，包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 \u003Cli>-非数值型变量处理，包括hash、根据统计量转换、one-hot \u003Cli>-异常值检测 \u003Cli>-获取变量的统计量 \u003Cli>-去除值过于单一的变量 \u003Cli>-删除缺失率过高的值 \u003Cli>-删除缺失率过高的值 \u003Cli>-填充缺失值 \u003Cli>-数据离散化，等宽、等频、聚类离散化 \u003Cli> -标准化、正则化、归一化，有最大绝对值归一化、最大最小归一化、z_score标准化 \u003Cli>-索引处理，包含增加索引、索引转列、列索引重命名 \u003Cli> -排序 \u003Cli> -执行sql \u003Cli> -hadamard乘积 \u003Cli> -特征组合，用于衍生特征 \u003Cli> -降维，包括pca降维和卡方降维 \u003Cli> -特征重要性，通过随机森林、逻辑回归、xgboost等模型计算特征重要性，可计算特征的iv值、互信息值、方差等 \u003Cli> -特征向量间的相关性计算 \u003Cli> -数据拆分，包括列内拆分、列间拆分、行间拆分、svd奇异值分解 \u003Cli> -采样，包括随机采样、分层采样、过采样、欠采样\u003C\u002Fli>\u003C\u002Fu>  传统机器学习：\u003Cli>ray-sklearn分布式，\u003Cli>xgb单机训练推理 \u003C\u002Fli>传统机器学习算法：\u003Cu>\u003Cli>ar\u002Farima时间序列算法\u002Frandom-forest\u002Frandom-forest-regression\u002Flr\u002Flightgbm\u002Fknn\u002Fkmean\u002Fgbdt\u002Fdecision-tree\u002Fpca\u002Flda\u002Fcatboost\u002Fxgb\u002F超参搜索 \u003C\u002Fu>\u003C\u002Fli>分布式深度学习框架：\u003Cli>tf\u002Fpytorch\u002F\u003Cu>mxnet\u002Fhorovod\u002Fpaddlejob\u002Fmindspore分布式训练\u003C\u002Fu>\u003C\u002Fli> 分布式加速框架：\u003Cli>\u003Cu>mpi\u002Fcolossalai\u002Fdeepspeed\u002Fhorovod\u002Fmegatron \u003C\u002Fu>\u003C\u002Fli>模型处理：\u003Cu>\u003Cli>模型评估，\u003Cli>模型格式转换 \u003C\u002Fli>\u003C\u002Fu>模型服务化：\u003Cli>模型注册，\u003Cli>\u003Cu>模型离线推理\u003C\u002Fu>，\u003Cli>模型部署 \u003C\u002Fli>媒体分布式处理：\u003Cli>分布式媒体下载，\u003Cli>视频提取图片，\u003Cli>视频提取图片|\n|模型训练|算子自定义| 支持算子自定义，通过web界面操作将自定义算法代码镜像，注册为可被他人复用的pipeline算子                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型训练|自动学习| 面向非AI背景的用户提供自动学习服务，用户选择某一个场景之后，上传训练数据即可自动开始训练和模型部署，\u003Cu>支持示例automl任务流导入导出                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|自定义镜像| 面向高级 AI 开发者，提供自定义训练作业（执行环境 + 代码）功能；                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型训练|自动调参| 基于单机\u002F\u003Cu>分布式自动超参搜索                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|模型训练|TensorBoard作业| \u003Cu>实时\u002F离线观察模型训练过程中的参数和指标变化情况                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型管理 推理服务|内部服务| 支持开发或运维工具快捷部署，提供mysql-web，postgresql web，mobgo web， redis web，neo4j，rstudio等开源工具                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型管理 推理服务|模型管理| 模型管理用于对模型多版本管理，支持模型发布为推理服务                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|模型管理 推理服务|推理服务| \u003Cli>支持\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型的多版本的0代码发布。 \u003Cli>支持gpu卡型选择，\u003Cu>支持vgpu，独占，共享占用\u003C\u002Fu>，\u003Cli>支持cpu\u002Fmem\u002F\u003Cu>gpu等弹性伸缩，\u003Cli>支持服务优先级，\u003C\u002Fu>\u003Cli>支持远程模型路径,支持流量分流，流量复制，sidecar配置，支持泛域名配置，支持配置文件挂载，启动目录\u002F命令\u002F环境变量\u002F端口\u002F指标\u002F健康检查等 支持调试环境\u002F测试环境\u002F生产环境 支持域名\u002Fip代理多种形式 \u003Cli>支持服务负载指标监控 \u003Cli>支持多版本服务滚动升级和回滚，\u003Cli>\u003Cu>支持单pod滚动发布 \u003C\u002Fu>\u003Cli>\u003Cu>支持禁用k8s service负载均衡器 \u003C\u002Fu>\u003Cli>\u003Cu>支持大模型分布式推理 \u003C\u002Fu>\u003Cli>提供\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型推理服务镜像 支持用户自定义模型推理镜像\u003Cli>\u003Cu>支持定时伸缩容\u003C\u002Fli>\u003Cli>\u003Cu>支持配置服务的jwt认证功能\u003C\u002Fli>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|监控|整体资源| \u003Cli>所有集群，所有计算机器的使用情况，包括机器的所属集群，所属资源组，机器ip，cpu\u002Fgpu类型和卡型，当前cpu\u002F内存\u002Fgpu的使用率\u003Cli> 所有集群，所有计算pod的使用情况，包括pod所属集群，所属资源组，所属命名空间，调度ip，pod名称，启动用户，cpu，gpu，内存的申请使用率 \u003Cli>\u003Cu>整体资源页面，支持管理员批量删除                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|监控|监控体系| \u003Cli>所有机器的gpu资源的使用情况， \u003Cli>所有机器的内存\u002Fcpu\u002F网络io\u002F磁盘io的负载情况， \u003Cli>所有pod的内存\u002Fcpu\u002Fgpu\u002F网络io负载情况 \u003Cli>所有推理服务的内存\u002Fcpu\u002Fgpu\u002Fqps\u002F吞吐\u002Fvgpu负载情况 \u003Cli>\u003Cu>支持ib流量监控                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|模型应用市场|模型应用管理方案| \u003Cli>\u003Cu>提供cubestudio sdk，提供模型开发规范和使用规范                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供web端模型应用体验，支持同步\u002F异步推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供开发多个python cuda版本的基础镜像                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|模型应用市场|预训练模型| \u003Cli>\u003Cu>提供视觉，听觉，nlp，多模态等400+预训练模型，提供预训练模型的模型加载和推理能力，可直接一键部署服务，并提供api                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|模型市场| \u003Cli>\u003Cu>aihub应用对接cube-studio平台进行卡片式展示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|模型应用市场|模型一键开发| \u003Cli>\u003Cu>提供一键转notebook开发，提供符合当前模型所需环境的jupyter                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型应用市场|模型一键微调| \u003Cli>\u003Cu>支持一键转pipeline微调链路，包括示例数据集下载，微调，模型注册，模型部署，支持微调后模型部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |\n|模型应用市场|模型一键部署web| \u003Cli>\u003Cu>提供模型一键部署提供手机端和pc端web界面和api，和demo示例弹窗演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|模型自动化标注| \u003Cli>\u003Cu>支持部署对接labelstudio自动化标注                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|数据集sdk| \u003Cli>\u003Cu>支持通过python sdk搜索上传下载数据集，支持数据集的加解密\u002F解压缩\u002F数据集基础信息查看等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型应用市场|notebook sdk| \u003Cli>\u003Cu>支持通过api，对接cube-studio创建notebook，并跳转到指定目录，用于其他算法平台在当前平台的调试和演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|pipeline训练sdk| \u003Cli>\u003Cu>支持AI开发主流语言 Python，提供Python SDK支持用户通过SDK来进行pipeline任务流管理和训练任务启动以及任务流编排                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|模型应用市场|推理服务sdk| \u003Cli>\u003Cu>提供python sdk，对接cube tudio进行推理服务的发布，服务升级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|大模型分布式多机多卡| \u003Cli>\u003Cu>支持分布式多机多卡训练，例如mpi\u002Fdeepspeed\u002FColossal-AI                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理aihub形式| \u003Cli>\u003Cu>支持openjourney\u002Fgpt3\u002Fyuan\u002Fsd-v1.5\u002Fsd-v2\u002Fsd-v3\u002FStable Cascade\u002FStable Diffusion XL\u002Fchatglm\u002Fllama\u002Fchinese-alpaca\u002Fqwen\u002Fgemma\u002Fyi\u002Faquilachat2部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理openai接口| \u003Cli>\u003Cu>支持fastchat+vllm大模型推理，支持推理加速+流式接口                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|大模型|支持大模型微调| \u003Cli>\u003Cu>支持chatglm2\u002Fchatglm3\u002Fchatglm4\u002Fllama3-chinese\u002Fqwen lora微调，支持llama-factory 100+llm微调                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|大模型|智能对话| \u003Cli>\u003Cu>提供支持多场景对话，支持提示词构建，推理接口配置，llm问答，支持问询中模型切换，清理，历史上下文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|大模型|私有知识库| \u003Cli>\u003Cu>私有知识库配置，私有知识库召回                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持召回列表模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持aigc模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持微信公众号服务号对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持企业微信群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持钉钉群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n\n\n# 支持模板\n\n提示：\n- 1、可自由定制任务插件，更适用当前业务需求\n\n| 模块     | 模板                    | 类型 | 文档地址 |\n|:-------|:----------------------| :---- |:---- |\n| 数据导入导出 | datax                 | 单机 | job-template\u002Fjob\u002Fdatax\u002FREADME.md\n| 数据导入导出 | 数据集导入                 | 单机 | job-template\u002Fjob\u002Fdataset\u002FREADME.md\n| 数据导入导出 | 模型导入                  | 单机 | job-template\u002Fjob\u002Fmodel_download\u002FREADME.md\n| 数据预处理  | data-process          | 单机 | job-template\u002Fjob\u002Fdata-process\u002FREADME.md\n| 数据处理工具 | hadoop                | 单机 | job-template\u002Fjob\u002Fhadoop\u002FREADME.md\n| 数据处理工具   | ray                   | 分布式 | job-template\u002Fjob\u002Fray\u002FREADME.md\n| 数据处理工具   | volcanojob            | 分布式 | job-template\u002Fjob\u002Fvolcano\u002FREADME.md\n| 特征处理   | feature-process       | 单机 | job-template\u002Fjob\u002Ffeature-process\u002FREADME.md\n| 机器学习框架 | ray-sklearn           | 分布式 | job-template\u002Fjob\u002Fray-sklearn\u002FREADME.md\n| 机器学习算法 | random_forest         | 单机 | job-template\u002Fjob\u002Frandom_forest\u002FREADME.md\n| 机器学习算法 | lr                    | 单机 | job-template\u002Fjob\u002Flr\u002FREADME.md\n| 机器学习算法 | lightgbm              | 单机 | job-template\u002Fjob\u002Flightgbm\u002FREADME.md\n| 机器学习算法 | knn                   | 单机 | job-template\u002Fjob\u002Fknn\u002FREADME.md\n| 机器学习算法 | kmeans                | 单机 | job-template\u002Fjob\u002Fkmeans\u002FREADME.md\n| 机器学习算法 | nni                   | 单机 | job-template\u002Fjob\u002Fhyperparameter-search-nni\u002FREADME.md\n| 机器学习算法 | xgb                   | 单机 | job-template\u002Fjob\u002Fxgb\u002FREADME.md\n| 机器学习算法 | gbdt                  | 单机 | job-template\u002Fjob\u002Fgbdt\u002FREADME.md\n| 机器学习算法 | decision-tree         | 单机 | job-template\u002Fjob\u002Fdecision_tree\u002FREADME.md\n| 机器学习算法 | bayesian              | 单机 | job-template\u002Fjob\u002Fbayesian\u002FREADME.md\n| 机器学习算法 | adaboost              | 单机 | job-template\u002Fjob\u002Fadaboost\u002FREADME.md\n| 深度学习   | tfjob                 | 分布式 | job-template\u002Fjob\u002Ftf\u002FREADME.md\n| 深度学习   | pytorchjob            | 分布式 | job-template\u002Fjob\u002Fpytorch\u002FREADME.md\n| 深度学习   | paddle                | 分布式 | job-template\u002Fjob\u002Fpaddle\u002FREADME.md\n| 深度学习   | mxnet                 | 分布式 | job-template\u002Fjob\u002Fmxnet\u002FREADME.md\n| 深度学习   | mindspore             | 分布式 | job-template\u002Fjob\u002Fmindspore\u002FREADME.md\n| 深度学习   | horovod               | 分布式 | job-template\u002Fjob\u002Fhorovod\u002FREADME.md\n| 深度学习   | mpi                   | 分布式 | job-template\u002Fjob\u002Fmpi\u002FREADME.md\n| 深度学习   | colossalai            | 分布式 | job-template\u002Fjob\u002Fcolossalai\u002FREADME.md\n| 深度学习   | deepspeed             | 分布式 | job-template\u002Fjob\u002Fdeepspeed\u002FREADME.md\n| 深度学习   | megatron              | 分布式 | job-template\u002Fjob\u002Fmegatron\u002FREADME.md\n| 模型处理   | model-evaluation      | 单机 | job-template\u002Fjob\u002Fmodel_evaluation\u002FREADME.md\n| 模型服务化  | model-convert         | 单机 | job-template\u002Fjob\u002Fmodel-convert\u002FREADME.md\n| 模型服务化  | model-register        | 单机 | job-template\u002Fjob\u002Fmodel_register\u002FREADME.md\n| 模型服务化  | deploy-service        | 单机 | job-template\u002Fjob\u002Fdeploy-service\u002FREADME.md\n| 模型服务化  | model-offline-predict | 分布式 | job-template\u002Fjob\u002Foffline-predict\u002FREADME.md\n| 多媒体类   | media-download        | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-img             | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-audio           | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 大模型    | llama                 | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | chatglm               | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | qwen                  | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | deepseek              | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | llama-factory         | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n\n# 平台简介\n\n\n完整的平台包含\n - 1、机器的标准化\n - 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus\u002Fefk\u002Fzipkin)\n - 3、基础能力(tf\u002Fpytorch\u002Fmxnet\u002Fvalcano\u002Fray等分布式，nni\u002Fray超参搜索)\n - 4、平台web部分(oa\u002F权限\u002F项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)\n\n![输入图片说明](https:\u002F\u002Fcube-studio.oss-cn-hangzhou.aliyuncs.com\u002Fdocs\u002Fimage\u002Finfra.png) \n\n\n# 算力\u002F存储\u002F用户管理\n\n算力：\n - 云原生统筹平台cpu\u002Fgpu等算力\n - 支持划分多资源组，支持多k8s集群，多地部署\n - 支持T4\u002FV100\u002FA100\u002F昇腾\u002Fdcu\u002FVGPU等异构GPU\u002FNPU环境\n - 支持边缘集群模式，支持边缘节点上开发\u002F训练\u002F推理\n - 支持鲲鹏芯片arm64架构，RDMA\n\n存储：\n - 自带分布式存储，支持多机分布式下文件处理\n - 支持外部存储挂载，支持项目组挂载绑定\n - 支持个人存储空间\u002F组空间等多种形式\n - 平台内存储空间不需要迁移\n\n用户权限：\n - 支持sso登录，对接公司账号体系\n - 支持项目组划分，支持配置相应项目组用户的权限\n - 管理平台用户的基本信息，组织架构，rbac权限体系\n\n# 多集群管控\n\ncube支持多集群调度，可同时管控多个训练或推理集群。在单个集群内，不仅能做到一个项目组内对在线开发、训练、推理的隔离，还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力，能够在多项目间共享公共算力池和私有化算力池，做到成本最低化。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_763efcf9edab.png)\n\n# 分布式存储\n\ncube会自动为用户挂载用户的个人目录，同一个用户在平台任何地方启动的容器，其用户个人子目录均为\u002Fmnt\u002F$username。可以将pvc\u002Fhostpath\u002Fmemory\u002Fconfigmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载，进而实现一个项目组共享同一个目录等功能。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_c8d58ad7662a.png)\n\n# 在线开发\n\n - 系统多租户\u002F多实例管理，在线交互开发调试，无需安装三方控件，只需浏览器就能完成开发。\n - 支持vscode，jupyter，Matlab，Rstudio等多种在线IDE类型\n - Jupyter支持cube-studio sdk，Julia，R，python，pyspark多内核版本，\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_08c6ca4391f6.png)\n\n\n - 支持c++，java，conda等多种开发语言，以及tensorboard\u002Fgit\u002Fgpu监控等多种插件\n - 支持ssh remote与notebook互通，本地进行代码开发\n - 在线镜像构建，通过Web Shell方式在浏览器中完成构建；并提供各种版本notebook，inference，gpu，python等基础镜像\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_9b5f761ff386.png)\n\n\n# 标注平台：\n\n - 支持图\u002F文\u002F音\u002F多模态\u002F大模型多种类型标注功能，用户管理，工作任务分发\n - 对接aihub模型市场，支持自动化标注；对接数据集，支持标注数据导入；对接pipeline，支持标注结果自动化训练\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_6438d078a190.png)\n\n\n# 拖拉拽pipeline编排\n\n1、Ml全流程\n\n数据导入，数据预处理，超惨搜索，模型训练，模型评估，模型压缩，模型注册，服务上线，ml算法全流程\n\n2、灵活开放\n\n支持单任务调试、分布式任务日志聚合查看，pipeline调试跟踪，任务运行资源监控，以及定时调度功能(包含补录，忽略，重试，依赖，并发限制，过期淘汰等功能)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_c9d80ce9ff0d.png)\n\n\n# 分布式框架\n\n1、训练框架支持分布式（协议和策略）  \n2、代码识别分布式角色（有状态）  \n3、控制器部署分布式训练集群（operator）  \n4、配置分布式训练集群的部署（CRD）  \n\n\n# 多层次多类型算子\n\n以k8s为核心，  \n1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等，  \n2、 以及在此衍生出来的分布式的数据下载，hdfs拉取，cos上传下载，视频采帧，音频抽取，分布式的训练，例如推荐场景的din算法，ComiRec算法，MMoE算法，DeepFM算法，youtube dnn算法，ple模型，ESMM模型，双塔模型，音视频的wenet，containAI等算法的分布式训练。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_33e40dfd9352.png)\n\n\n# 功能模板化\n\n - 和非模板开发相比，使用模板建立应用成本会更低一些，无需开发平台。\n - 迁移更加容易，通过模板标准化后，后续应用迁移迭代只需迁移配置模板，简化复杂的配置操作。\n - 配置复用，通过简单的配置就可以复用这些能力，算法与工程分离避免重复开发。\n\n\n为了避免重复开发，对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像，将镜像注册到平台，这样其他用户就可以复用这些功能。平台自带模板在job-template目录下\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_34f19894a848.png)\n\n# 流水线调试\n\n - Pipeline调试支持定时执行，支持，补录，并发限制，超时，实例依赖等。\n - Pipeling运行，支持变量在任务间输入输出，全局变量，流向控制，模板变量，数据时间等\n - Pipeling运行，支持任务结果可视化，图片、csv\u002Fjson，echart源码可视化\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_35a279593f1a.png)\n\n# nni超参搜索\n\n\n界面化呈现训练各组数据，通过图形界面进行直观呈现。\n减少以往开发调参过程的枯燥感，让整个调参过程更加生动具有趣味性，完全无需丰富经验就能实现更精准的参数控制调节。\n\n```bash\n# 上报当前迭代目标值\nnni.report_intermediate_result(test_acc)\n# 上报最终目标值\nnni.report_final_result(test_acc)\n\n# 接收超参数为输入参数\nparser.add_argument('--batch_size', type=int)\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_8313ac0f6bc0.png)\n\n\n# 推理服务\n\n0代码发布推理服务从底层到上层，包含服务网格，serverless，pipeline，http框架，模型计算。\n\n - 服务网格阶段：主要工作是代理流量的中转和管控，例如分流，镜像，限流，黑白名单之类的。\n\n - serverless阶段：主要为服务的智能化运维，例如服务的激活，伸缩容，版本管理，蓝绿发布。\n\n - pipeline阶段：主要为请求在各数据处理\u002F推理之间的流动。推理的前后置处理逻辑等。\n\n - http\u002Fgrpc框架：主要为处理客户端的请求，准备推理样本，推理后作出响应。\n\n - 模型计算：模型在cpu\u002Fgpu上对输入样本做前向计算。\n\n主要功能：\n\n - 支持模型管理注册，灰度发布，版本回退，模型指标可视化，以及在piepline中进行模型注册\n - 推理服务支持多集群，多资源组，异构gpu环境，平台资源统筹监控，VGPU，服务流量分流，复制，sidecar\n - 支持0代码的模型发布，gpu推理加速，支持训练推理混部，服务优先级，自定义指标弹性伸缩。\n \n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_9116f6164c82.png)\n\n# 监控和推送\n\n监控：cube-studio集成prometheus生态，可以监控包括主机，进程，服务流量，gpu等相关负载，并配套grafana进行可视化\n\n推送：cube-studio开放推送接口，可自定义推送给企业oa系统\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_6499e089529a.png)\n\n# AIHub\n\n - 系统自带通用模型数量400+，覆盖绝大数行业场景，根据需求可以不断扩充。\n - 模型开源、按需定制，方便快速集成，满足用户业务增长及二次开发升级。\n - 模型标准化开发管理，大幅降低使用门槛，开发周期时长平均下降30%以上。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_d27861a8b884.png)\n\n\n - AIHub模型可一键部署为WEB端应用，手机端\u002FPC端皆可，实时查看模型应用效果\n - 点击模型开发即可进入notebook进行模型代码的二次开发，实现一键开发\n - 点击训练即可加入自己的数据进行一键微调，使模型更贴合自身场景\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_4b14126a1fea.png)\n\n# GPT训练微调\n\n - cube-studio支持deepspeed\u002Fcolossalai等分布式加速框架，可一键实现大模型多机多卡分布式训练\n - AIHub包含gpt\u002FAIGC大模型，可一键转为微调pipeline，修改为自己的数据后，便可以微调并部署\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_8bfa9ff63a66.png)\n\n\n# GPT-RDMA\n\nrdma插件部署后，k8s机器可用资源\n```bash\ncapacity:\n  cpu: '128'\n  memory: 1056469320Ki\n  nvidia.com\u002Fgpu: '8'\n  rdma\u002Fhca: '500'\n```\n代码分布式训练中使用IB设备\n```bash\nexport NCCL_IB_HCA=mlx5\nexport MLP_WORKER_GPU=$GPU_NUM\nexport MLP_WORKER_NUM=$WORLD_SIZE\nexport MLP_ROLE_INDEX=$RANK\nexport MLP_WORKER_0_HOST=$MASTER_ADDR\nexport MLP_WORKER_0_PORT=$MASTER_PORT\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_307cbb029f95.png)\n\n\n# gpt私有知识库\n\n - 数据智能模块可配置专业领域智能对话，快速敏捷使用llm\n - 可为某个聊天场景配置私有知识库文件，支持主题分割，语义embedding，意图识别，概要提取，多路召回，排序，多种功能融合\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_9eb27b814396.png)\n\n\n# gpt智能聊天\n\n - 可以将智能会话与AIHub相结合，例如下面AIGC模型与聊天会话\n - 可使用Autogpt方式串联所有aihub模型，进行图文音智能化处理\n - 智能会话与公共直接打通，可在微信公众号中进行图文音对话\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_ca1a37cc203c.png)\n\n\n# 数据中台对接\n  \n为了加速AI算法平台的使用，cube-studio支持对接公司原有数据中台，包括数据计算引擎sqllab，元数据管理，指标管理，维表管理，数据ETL，数据集管理\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_15c2d098c972.png)\n\n\n# 三种方式部署\n\n针对企业需求，根据不同场景对计算实时性的不同需求，可以提供三种建设模式\n\n模式一：私有化部署——对数据安全要求高、预算充足、自己有开发能力  \n模式二：边缘集群部署——算力分散，多个子网环境的场景，或边缘设备场景  \n模式三：serverless集群——成本有限，按需申请算力的场景  \n\n## 边缘计算\n\n通过边缘集群的形式，在中心节点部署平台，并将边缘节点加入调度，每个私有网用户，通过项目组，将notebook，pipeline，service部署在边缘节点  \n - 1、避免数据到中心节点的带宽传输  \n - 2、避免中心节点的算力成本，充分利用边缘节点算力\n - 3、避免边缘节点的运维成本\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_f9e4098205e3.png)\n\n","# Cube Studio\n\n[英文](README_EN.md) | 简体中文\n\n### 整体架构\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_48ee2acd87b8.png)\n\n\n# 公司\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_95cea8890e7e.png)\n\n# 帮助文档\n\nhttps:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fwiki\n\n# 功能清单\n\nCube Studio 是一款开源的一站式云原生机器学习平台，目前主要包含\n\n|模块分组|功能模块| 功能清单                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|:-|:--|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n|基础能力|项目组管理| \u003Cli>AI平台需要通过项目划分，\u003Cli>支持配置相应项目组用户的权限，\u003Cli>任务\u002F服务的挂载，资源组，集群，服务代理，\u003Cli>\u003Cu>项目组内角色应用                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|网络| \u003Cli>支持非80端口，\u003Cli>支持公网\u002F域名，\u003Cli>支持反向代理和内网穿透方式访问，\u003Cli>\u003Cu>支持https\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|用户管理 角色管理\u002F权限管理| \u003Cli>管理平台用户的基本信息，组织架构，支持账号密码，rbac权限体系。\u003Cli> \u003Cu>增加修改和删除，清理等操作的历史记录\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|基础能力|计量计费功能| \u003Cu>\u003Cli>1、支持平台资源限制的分配和查看；项目组资源限制，租户资源限制、任务资源限制，项目组下个人的资源限制，包括开发资源，训练资源、推理资源等。   额度限制限制在notebook，docker构建，pipeline，超参搜索，内部服务，推理服务中的生效。限制支持单任务，并行任务总和和历史任务总和等方法\u003Cli>2、提供统一的开发、训练、推理服务资源监控，从租户、项目、任务角度分析模型资源分配及使用情况。\u003Cli> 3、支持自定义计费模式，通过计量结果自定义获取计费值\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|基础能力|SSO单点登录| \u003Cli>账号密码注册自动登录，\u003Cli>\u003Cu>支持对接公司账号体系AUTH_OID\u002FAUTH_LDAP\u002FAUTH_REMOTE_USER等登录注册方式，\u003Cli>\u003Cu>支持消息推送。  \u003Cli>\u003Cu>增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|基础能力|支持多种算力| \u003Cli>提供多种规格的资源支持不同的使用场景，cpu\u002Fgpu等 支持T4\u002FV100\u002FA100等多种卡型，\u003Cli>\u003Cu>支持arm64芯片，\u003Cli>\u003Cu>支持vgpu等模式。\u003Cli>\u003Cu>支持国产gpu，支持调度海光dcu，华为npu，寒武纪mlu，天数智芯GPU，\u003Cli>\u003Cu>支持rdma调度，mellanox。\u003Cli>\u003Cu>支持gpu禁用模型，共享模式，独占模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|基础能力|多资源组\u002F多集群| \u003Cli>支持划分多资源组，\u003Cli>支持ipvs的k8s网络模式，\u003Cli>\u003Cu>支持多k8s集群，\u003Cli>支持containerd容器运行态                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|基础能力|边缘集群| \u003Cli>\u003Cu>支持边缘集群模式，支持边缘节点开发，训练，推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|serverless集群模式| \u003Cli>\u003Cu>支持腾讯云serverless集群模式，（notebook,pipeline,推理服务模块支持）\u003Cli>\u003Cu>阿里云serverless集群模式（notebook,pipeline,推理服务模块支持）                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|基础能力|数据库存储| \u003Cli>支持外部mysql作为元数据库\u003Cli>\u003Cu>支持外部postgres作为元数据库                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|机器资源管理| \u003Cli>\u003Cu>web界面控制机器调度类型，所属资源组，是否启动rdma，是否启动vgpu，可用任务场景等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|基础能力|存储盘管理| \u003Cli>\u003Cu>支持web界面添加存储盘，支持项目组绑定，notebook pipeline 推理服务，直接在pod中挂载外部分布式存储。\u003Cli>\u003Cu>支持nfs，cfs，oss，nas，cos，glusterfs，cephfs，s3\u002Fminio                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|基础能力|国际化能力| \u003Cli>\u003Cu>mlops支持配置多语言配置，目前支持中英文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|数据管理|数据地图| \u003Cli>元数据库表管理，指标，维表                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据计算| \u003Cli>sqllab交互查询，支持mysql，\u003Cu>postgresql，clickhouse，hive，presto\u003C\u002Fu>等计算引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|数据管理|ETL编排| \u003Cli>数据ETL任务流编排，任务管理等对接公司数据中台相应计算\u002F调度引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|数据管理|数据集管理| \u003Cli>允许用户随时上传样本集（图片、音频、文本等），\u003Cli>\u003Cu>支持sdk进行数据集对接，\u003Cli>\u003Cu>支持数据集一键探索功能                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据标注| \u003Cli>\u003Cu>支持标注平台，图\u002F文\u002F音\u002F多模态各类型标注能力，\u003Cli>\u003Cu>对接一站式机器学习平台，支持自动化标注(需购买aihub)：\u003Cli>\u003Cu>支持目标识别，目标边界识别，目标遮罩识别，图片分类，图片描述，ocr，关键点检测。支持大模型自动化标注：文本分类，文本翻译，命名实体识别，阅读理解，问答，摘要提取。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|开发环境|镜像功能| \u003Cli>镜像仓库\u002F镜像管理\u002F在线构建镜像。同时提供平台所有镜像，包括模板镜像\u002F服务镜像\u002Fnotebook镜像\u002Fgpu基础环境的构建方法和构建后镜像，\u003Cli>\u003Cu>支持dockerfile在线构建 \u003Cli>\u003Cu>支持同一仓库多个秘钥配置                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|开发环境|notebook| \u003Cli>支持基于开源的Jupyterlab\u002Fvscode，提供在线的交互式开发调试工具；\u003Cli>提供多种可选环境ide和开发示例，支持资源类型选择 支持大数据版本，机器学习版本，深度学习版本 \u003Cli>\u003Cu>大数据版本支持用户信息，hdfs客户端，hive客户端和spark客户端 \u003Cli>支持ssh remote与notebook对接远程开发，方便快速将本地代码提交到平台的训练环境。\u003Cli>\u003Cu>ssh隧道代理，单端口开放 \u003Cli>\u003Cu>支持matlab，Rstudio等在线ide \u003Cli>\u003Cu>支持gpu，cpu，内存，监控，支持git交互 \u003Cli>\u003Cu>支持自定义notebook镜像，便于封装公司自己的notebook \u003Cli>\u003Cu>多环境notebook，支持R语言\u002Fjulia语言\u002Fpython2.7\u002Fpython3.6\u002Fpython3.7\u002Fpython3.8\u002Fpython3.9\u002Fpython3.10环境和cube-studio专有环境 \u003Cli>\u003Cu>支持 tensorboard任务可视化 \u003Cli>\u003Cu>notebook支持环境镜像保存 \u003Cli>\u003Cu>jupyter支持密码保护 \u003Cli>\u003Cu>notebook支持整卡占用，虚拟卡占用，gpu共享占用 \u003Cli>支持notebook启动自动初始化环境                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型训练|拖拉拽任务流编排调试| \u003Cli>提供拖拽式交互开发环境，支持开发者以拖拽的方式完成业务逻辑的PIPLINE； \u003Cli>支持单任务调试，\u003Cli>训练支持多种资源规格（CPU、GPU等），支持卡型的选择，超时重试等。\u003Cli>\u003Cu>任务支持独占和共享占用gpu\u003C\u002Fu>\u003C\u002Fli>\u003Cli>\u003Cu>分布式任务模板支持单任务调试用户镜像而非模板镜像\u003C\u002Fu>  \u003Cli>\u003Cu>支持rdma资源占用 \u003Cli>\u003Cu>支持gpu不同厂商，不同卡型的占用 \u003Cli>\u003Cu>分布式任务模板支持gpu型号透传，rdma资源透传，拉取秘钥透传  \u003C\u002Fu>\u003Cli>pipeline调试，支持定时调度，补录，并发限制，超时，实例依赖等，\u003Cli>任务管理，\u003Cli>workflow实例管理，\u003Cli>资源监控，\u003Cli>\u003Cu>支持任务输入输出，\u003Cli>\u003Cu>任务流全局变量，\u003Cli>\u003Cu>文本\u002F图片\u002Fechart结果可视化，\u003Cli>\u003Cu>支持 workflow暂停和恢复。\u003Cli>\u003Cu>支持任务流优先级 \u003Cli>\u003Cu>支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力 \u003Cli>\u003Cu>任务流支持任务推荐\u003Cli>\u003Cu>定时调度支持最大保留实例数\u003Cli>\u003Cu>pipeline支持任务流优先级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|主流功能算子| 基础算子：\u003Cli>自定义镜像，\u003Cli>\u003Cu>逻辑节点，\u003C\u002Fu>\u003Cli>\u003Cu>python\u003C\u002Fu>\u003C\u002Fli> 数据同步：\u003Cli>数据集导入，\u003Cu>(支持huggingface数据集)\u003C\u002Fu>\u003Cli>datax，\u003Cu>datax-import\u003C\u002Fu>\u003C\u002Fli>\u003Cli>模型导入\u003Cu>(支持huggingface模型)\u003C\u002Fu>\u003C\u002Fli>  数据处理工具：\u003Cli>hadoop\u002Fspark作业提交，\u003Cli>volcanojob\u002Fray分布式数据处理，\u003Cli>sparkjob  \u003C\u002Fli> \u003Cli>\u003Cu>hadoop支持hadfs，hive命令，spark命令\u003C\u002Fu>\u003C\u002Fli> 特征处理： \u003Cu>\u003Cli>- 数据合并，包含union、join操作 \u003Cli>- 去除重复样本 \u003Cli>- 数据变换，包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 \u003Cli>- 非数值型变量处理，包括hash、根据统计量转换、one-hot \u003Cli>- 异常值检测 \u003Cli>- 获取变量的统计量 \u003Cli>- 去除值过于单一的变量 \u003Cli>- 删除缺失率过高的值 \u003Cli>- 填充缺失值 \u003Cli>- 数据离散化，等宽、等频、聚类离散化 \u003Cli> - 标准化、正则化、归一化，有最大绝对值归一化、最大最小归一化、z_score标准化 \u003Cli>- 索引处理，包含增加索引、索引转列、列索引重命名 \u003Cli> - 排序 \u003Cli> - 执行sql \u003Cli> - hadamard乘积 \u003Cli> - 特征组合，用于衍生特征 \u003Cli> - 降维，包括pca降维和卡方降维 \u003Cli> - 特征重要性，通过随机森林、逻辑回归、xgboost等模型计算特征重要性，可计算特征的iv值、互信息值、方差等 \u003Cli> - 特征向量间的相关性计算 \u003Cli> - 数据拆分，包括列内拆分、列间拆分、行间拆分、svd奇异值分解 \u003Cli> - 采样，包括随机采样、分层采样、过采样、欠采样\u003C\u002Fli>\u003C\u002Fu>  传统机器学习：\u003Cli>ray-sklearn分布式，\u003Cli>xgb单机训练推理 \u003C\u002Fli>传统机器学习算法：\u003Cu>\u003Cli>ar\u002Farima时间序列算法\u002Frandom-forest\u002Frandom-forest-regression\u002Flr\u002Flightgbm\u002Fknn\u002Fkmean\u002Fgbdt\u002Fdecision-tree\u002Fpca\u002Flda\u002Fcatboost\u002Fxgb\u002F超参搜索 \u003C\u002Fu>\u003C\u002Fli>分布式深度学习框架：\u003Cli>tf\u002Fpytorch\u002F\u003Cu>mxnet\u002Fhorovod\u002Fpaddlejob\u002Fmindspore分布式训练\u003C\u002Fu>\u003C\u002Fli> 分布式加速框架：\u003Cli>\u003Cu>mpi\u002Fcolossalai\u002Fdeepspeed\u002Fhorovod\u002Fmegatron \u003C\u002Fu>\u003C\u002Fli>模型处理：\u003Cu>\u003Cli>模型评估，\u003Cli>模型格式转换 \u003C\u002Fli>\u003C\u002Fu>模型服务化：\u003Cli>模型注册，\u003Cli>\u003Cu>模型离线推理\u003C\u002Fu>,\u003Cli>模型部署 \u003C\u002Fli>媒体分布式处理：\u003Cli>分布式媒体下载，\u003Cli>视频提取图片，\u003Cli>视频提取图片|\n|模型训练|算子自定义| 支持算子自定义，通过web界面操作将自定义算法代码镜像，注册为可被他人复用的pipeline算子                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型训练|自动学习| 面向非AI背景的用户提供自动学习服务，用户选择某一个场景之后，上传训练数据即可自动开始训练和模型部署，\u003Cu>支持示例automl任务流导入导出                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|自定义镜像| 面向高级 AI 开发者，提供自定义训练作业（执行环境 + 代码）功能；                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型训练|自动调参| 基于单机\u002F\u003Cu>分布式自动超参搜索                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|模型训练|TensorBoard作业| \u003Cu>实时\u002F离线观察模型训练过程中的参数和指标变化情况                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型管理 推理服务|内部服务| 支持开发或运维工具快捷部署，提供mysql-web，postgresql web，mobgo web， redis web，neo4j，rstudio等开源工具                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型管理 推理服务|模型管理| 模型管理用于对模型多版本管理，支持模型发布为推理服务                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|模型管理 推理服务|推理服务| \u003Cli>支持\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型的多版本的0代码发布。 \u003Cli>支持gpu卡型选择，\u003Cu>支持vgpu，独占，共享占用\u003C\u002Fu>，\u003Cli>支持cpu\u002Fmem\u002F\u003Cu>gpu等弹性伸缩，\u003Cli>支持服务优先级，\u003C\u002Fu>\u003Cli>支持远程模型路径,支持流量分流，流量复制，sidecar配置，支持泛域名配置，支持配置文件挂载，启动目录\u002F命令\u002F环境变量\u002F端口\u002F指标\u002F健康检查等 支持调试环境\u002F测试环境\u002F生产环境 支持域名\u002Fip代理多种形式 \u003Cli>支持服务负载指标监控 \u003Cli>支持多版本服务滚动升级和回滚，\u003Cli>\u003Cu>支持单pod滚动发布 \u003C\u002Fu>\u003Cli>\u003Cu>支持禁用 k8s service负载均衡器 \u003C\u002Fu>\u003Cli>\u003Cu>支持大模型分布式推理 \u003C\u002Fu>\u003Cli>提供\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型推理服务镜像 支持用户自定义模型推理镜像\u003Cli>\u003Cu>支持定时伸缩容\u003C\u002Fli>\u003Cli>\u003Cu>支持配置服务的jwt认证功能\u003C\u002Fli>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|监控|整体资源| \u003Cli>所有集群，所有计算机器的使用情况，包括机器的所属集群，所属资源组，机器ip，cpu\u002Fgpu类型和卡型，当前cpu\u002F内存\u002Fgpu的使用率\u003Cli> 所有集群，所有计算pod的使用情况，包括pod所属集群，所属资源组，所属命名空间，调度ip，pod名称，启动用户，cpu，gpu，内存的申请使用率 \u003Cli>\u003Cu>整体资源页面，支持管理员批量删除                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|监控|监控体系| \u003Cli>所有机器的gpu资源的使用情况， \u003Cli>所有机器的内存\u002Fcpu\u002F网络io\u002F磁盘io的负载情况， \u003Cli>所有pod的内存\u002Fcpu\u002Fgpu\u002F网络io负载情况 \u003Cli>所有推理服务的内存\u002Fcpu\u002Fgpu\u002Fqps\u002F吞吐\u002Fvgpu负载情况 \u003Cli>\u003Cu>支持ib流量监控                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|模型应用市场|模型应用管理方案| \u003Cli>\u003Cu>提供cubestudio sdk，提供模型开发规范和使用规范                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供web端模型应用体验，支持同步\u002F异步推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供开发多个python cuda版本的基础镜像                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|模型应用市场|预训练模型| \u003Cli>\u003Cu>提供视觉，听觉，nlp，多模态等400+预训练模型，提供预训练模型的模型加载和推理能力，可直接一键部署服务，并提供api                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|模型市场| \u003Cli>\u003Cu>aihub应用对接cube-studio平台进行卡片式展示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|模型应用市场|模型一键开发| \u003Cli>\u003Cu>提供一键转notebook开发，提供符合当前模型所需环境的jupyter                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型应用市场|模型一键微调| \u003Cli>\u003Cu>支持一键转pipeline微调链路，包括示例数据集下载，微调，模型注册，模型部署，支持微调后模型部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |\n|模型应用市场|模型一键部署web| \u003Cli>\u003Cu>提供模型一键部署提供手机端和pc端web界面和api，和demo示例弹窗演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|模型自动化标注| \u003Cli>\u003Cu>支持部署对接labelstudio自动化标注                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|数据集sdk| \u003Cli>\u003Cu>支持通过python sdk搜索上传下载数据集，支持数据集的加解密\u002F解压缩\u002F数据集基础信息查看等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型应用市场|notebook sdk| \u003Cli>\u003Cu>支持通过api，对接cube-studio创建notebook，并跳转到指定目录，用于其他算法平台在当前平台的调试和演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|pipeline训练sdk| \u003Cli>\u003Cu>支持 AI开发主流语言 Python，提供 Python SDK支持用户通过SDK来进行 pipeline任务流管理和训练任务启动以及任务流编排                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|模型应用市场|推理服务sdk| \u003Cli>\u003Cu>提供 python sdk，对接 cube tudio进行推理服务的发布，服务升级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|大模型分布式多机多卡| \u003Cli>\u003Cu>支持分布式多机多卡训练，例如 mpi\u002Fdeepspeed\u002FColossal-AI                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理aihub形式| \u003Cli>\u003Cu>支持 openjourney\u002Fgpt3\u002Fyuan\u002Fsd-v1.5\u002Fsd-v2\u002Fsd-v3\u002FStable Cascade\u002FStable Diffusion XL\u002Fchatglm\u002Fllama\u002Fchinese-alpaca\u002Fqwen\u002Fgemma\u002Fyi\u002Faquilachat2部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理openai接口| \u003Cli>\u003Cu>支持 fastchat+vllm 大模型推理，支持推理加速+流式接口                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|大模型|支持大模型微调| \u003Cli>\u003Cu>支持 chatglm2\u002Fchatglm3\u002Fchatglm4\u002Fllama3-chinese\u002Fqwen lora 微调，支持 llama-factory 100+llm 微调                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|大模型|智能对话| \u003Cli>\u003Cu>提供支持多场景对话，支持提示词构建，推理接口配置，llm问答，支持问询中模型切换，清理，历史上下文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|大模型|私有知识库| \u003Cli>\u003Cu>私有知识库配置，私有知识库召回                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持 召回列表模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持 aigc 模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持 微信公众号服务号对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持 企业微信群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持 钉钉群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n\n# 支持模板\n\n提示：\n- 1、可自由定制任务插件，更适用当前业务需求\n\n| 模块     | 模板                    | 类型 | 文档地址 |\n|:-------|:----------------------| :---- |:---- |\n| 数据导入导出 | datax                 | 单机 | job-template\u002Fjob\u002Fdatax\u002FREADME.md\n| 数据导入导出 | 数据集导入                 | 单机 | job-template\u002Fjob\u002Fdataset\u002FREADME.md\n| 数据导入导出 | 模型导入                  | 单机 | job-template\u002Fjob\u002Fmodel_download\u002FREADME.md\n| 数据预处理  | data-process          | 单机 | job-template\u002Fjob\u002Fdata-process\u002FREADME.md\n| 数据处理工具 | hadoop                | 单机 | job-template\u002Fjob\u002Fhadoop\u002FREADME.md\n| 数据处理工具   | ray                   | 分布式 | job-template\u002Fjob\u002Fray\u002FREADME.md\n| 数据处理工具   | volcanojob            | 分布式 | job-template\u002Fjob\u002Fvolcano\u002FREADME.md\n| 特征处理   | feature-process       | 单机 | job-template\u002Fjob\u002Ffeature-process\u002FREADME.md\n| 机器学习框架 | ray-sklearn           | 分布式 | job-template\u002Fjob\u002Fray-sklearn\u002FREADME.md\n| 机器学习算法 | random_forest         | 单机 | job-template\u002Fjob\u002Frandom_forest\u002FREADME.md\n| 机器学习算法 | lr                    | 单机 | job-template\u002Fjob\u002Flr\u002FREADME.md\n| 机器学习算法 | lightgbm              | 单机 | job-template\u002Fjob\u002Flightgbm\u002FREADME.md\n| 机器学习算法 | knn                   | 单机 | job-template\u002Fjob\u002Fknn\u002FREADME.md\n| 机器学习算法 | kmeans                | 单机 | job-template\u002Fjob\u002Fkmeans\u002FREADME.md\n| 机器学习算法 | nni                   | 单机 | job-template\u002Fjob\u002Fhyperparameter-search-nni\u002FREADME.md\n| 机器学习算法 | xgb                   | 单机 | job-template\u002Fjob\u002Fxgb\u002FREADME.md\n| 机器学习算法 | gbdt                  | 单机 | job-template\u002Fjob\u002Fgbdt\u002FREADME.md\n| 机器学习算法 | decision-tree         | 单机 | job-template\u002Fjob\u002Fdecision_tree\u002FREADME.md\n| 机器学习算法 | bayesian              | 单机 | job-template\u002Fjob\u002Fbayesian\u002FREADME.md\n| 机器学习算法 | adaboost              | 单机 | job-template\u002Fjob\u002Fadaboost\u002FREADME.md\n| 深度学习   | tfjob                 | 分布式 | job-template\u002Fjob\u002Ftf\u002FREADME.md\n| 深度学习   | pytorchjob            | 分布式 | job-template\u002Fjob\u002Fpytorch\u002FREADME.md\n| 深度学习   | paddle                | 分布式 | job-template\u002Fjob\u002Fpaddle\u002FREADME.md\n| 深度学习   | mxnet                 | 分布式 | job-template\u002Fjob\u002Fmxnet\u002FREADME.md\n| 深度学习   | mindspore             | 分布式 | job-template\u002Fjob\u002Fmindspore\u002FREADME.md\n| 深度学习   | horovod               | 分布式 | job-template\u002Fjob\u002Fhorovod\u002FREADME.md\n| 深度学习   | mpi                   | 分布式 | job-template\u002Fjob\u002Fmpi\u002FREADME.md\n| 深度学习   | colossalai            | 分布式 | job-template\u002Fjob\u002Fcolossalai\u002FREADME.md\n| 深度学习   | deepspeed             | 分布式 | job-template\u002Fjob\u002Fdeepspeed\u002FREADME.md\n| 深度学习   | megatron              | 分布式 | job-template\u002Fjob\u002Fmegatron\u002FREADME.md\n| 模型处理   | model-evaluation      | 单机 | job-template\u002Fjob\u002Fmodel_evaluation\u002FREADME.md\n| 模型服务化  | model-convert         | 单机 | job-template\u002Fjob\u002Fmodel-convert\u002FREADME.md\n| 模型服务化  | model-register        | 单机 | job-template\u002Fjob\u002Fmodel_register\u002FREADME.md\n| 模型服务化  | deploy-service        | 单机 | job-template\u002Fjob\u002Fdeploy-service\u002FREADME.md\n| 模型服务化  | model-offline-predict | 分布式 | job-template\u002Fjob\u002Foffline-predict\u002FREADME.md\n| 多媒体类   | media-download        | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-img             | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-audio           | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 大模型    | llama                 | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | chatglm               | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | qwen                  | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | deepseek              | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | llama-factory         | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n\n# 平台简介\n\n\n完整的平台包含\n - 1、机器的标准化\n - 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus\u002Fefk\u002Fzipkin)\n - 3、基础能力(tf\u002Fpytorch\u002Fmxnet\u002Fvalcano\u002Fray等分布式，nni\u002Fray超参搜索)\n - 4、平台web部分(oa\u002F权限\u002F项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)\n\n![输入图片说明](https:\u002F\u002Fcube-studio.oss-cn-hangzhou.aliyuncs.com\u002Fdocs\u002Fimage\u002Finfra.png) \n\n\n# 算力\u002F存储\u002F用户管理\n\n算力：\n - 云原生统筹平台cpu\u002Fgpu等算力\n - 支持划分多资源组，支持多k8s集群，多地部署\n - 支持T4\u002FV100\u002FA100\u002F昇腾\u002Fdcu\u002FVGPU等异构GPU\u002FNPU环境\n - 支持边缘集群模式，支持边缘节点上开发\u002F训练\u002F推理\n - 支持鲲鹏芯片arm64架构，RDMA\n\n存储：\n - 自带分布式存储，支持多机分布式下文件处理\n - 支持外部存储挂载，支持项目组挂载绑定\n - 支持个人存储空间\u002F组空间等多种形式\n - 平台内存储空间不需要迁移\n\n用户权限：\n - 支持sso登录，对接公司账号体系\n - 支持项目组划分，支持配置相应项目组用户的权限\n - 管理平台用户的基本信息，组织架构，rbac权限体系\n\n# 多集群管控\n\ncube支持多集群调度，可同时管控多个训练或推理集群。在单个集群内，不仅能做到一个项目组内对在线开发、训练、推理的隔离，还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力，能够在多项目间共享公共算力池和私有化算力池，做到成本最低化。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_763efcf9edab.png)\n\n# 分布式存储\n\ncube会自动为用户挂载用户的个人目录，同一个用户在平台任何地方启动的容器，其用户个人子目录均为\u002Fmnt\u002F$username。可以将pvc\u002Fhostpath\u002Fmemory\u002Fconfigmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载，进而实现一个项目组共享同一个目录等功能。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_c8d58ad7662a.png)\n\n# 在线开发\n\n - 系统多租户\u002F多实例管理，在线交互开发调试，无需安装三方控件，只需浏览器就能完成开发。\n - 支持vscode，jupyter，Matlab，Rstudio等多种在线IDE类型\n - Jupyter支持cube-studio sdk，Julia，R，python，pyspark多内核版本，\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_08c6ca4391f6.png)\n\n\n - 支持c++，java，conda等多种开发语言，以及tensorboard\u002Fgit\u002Fgpu监控等多种插件\n - 支持ssh remote与notebook互通，本地进行代码开发\n - 在线镜像构建，通过Web Shell方式在浏览器中完成构建；并提供各种版本notebook，inference，gpu，python等基础镜像\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_9b5f761ff386.png)\n\n\n# 标注平台：\n\n - 支持图\u002F文\u002F音\u002F多模态\u002F大模型多种类型标注功能，用户管理，工作任务分发\n - 对接aihub模型市场，支持自动化标注；对接数据集，支持标注数据导入；对接pipeline，支持标注结果自动化训练\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_6438d078a190.png)\n\n\n# 拖拉拽pipeline编排\n\n1、Ml全流程\n\n数据导入，数据预处理，超惨搜索，模型训练，模型评估，模型压缩，模型注册，服务上线，ml算法全流程\n\n2、灵活开放\n\n支持单任务调试、分布式任务日志聚合查看，pipeline调试跟踪，任务运行资源监控，以及定时调度功能(包含补录，忽略，重试，依赖，并发限制，过期淘汰等功能)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_c9d80ce9ff0d.png)\n\n\n# 分布式框架\n\n1、训练框架支持分布式（协议和策略）  \n2、代码识别分布式角色（有状态）  \n3、控制器部署分布式训练集群（operator）  \n4、配置分布式训练集群的部署（CRD）  \n\n\n# 多层次多类型算子\n\n以k8s为核心，  \n1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等，  \n2、 以及在此衍生出来的分布式的数据下载，hdfs拉取，cos上传下载，视频采帧，音频抽取，分布式的训练，例如推荐场景的din算法，ComiRec算法，MMoE算法，DeepFM算法，youtube dnn算法，ple模型，ESMM模型，双塔模型，音视频的wenet，containAI等算法的分布式训练。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_33e40dfd9352.png)\n\n\n# 功能模板化\n\n - 和非模板开发相比，使用模板建立应用成本会更低一些，无需开发平台。\n - 迁移更加容易，通过模板标准化后，后续应用迁移迭代只需迁移配置模板，简化复杂的配置操作。\n - 配置复用，通过简单的配置就可以复用这些能力，算法与工程分离避免重复开发。\n\n\n为了避免重复开发，对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像，将镜像注册到平台，这样其他用户就可以复用这些功能。平台自带模板在job-template目录下\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_34f19894a848.png)\n\n# 流水线调试\n\n - Pipeline调试支持定时执行，支持，补录，并发限制，超时，实例依赖等。\n - Pipeling运行，支持变量在任务间输入输出，全局变量，流向控制，模板变量，数据时间等\n - Pipeling运行，支持任务结果可视化，图片、csv\u002Fjson，echart源码可视化\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_35a279593f1a.png)\n\n# nni超参搜索\n\n\n界面化呈现训练各组数据，通过图形界面进行直观呈现。\n减少以往开发调参过程的枯燥感，让整个调参过程更加生动具有趣味性，完全无需丰富经验就能实现更精准的参数控制调节。\n\n```bash\n# 上报当前迭代目标值\nnni.report_intermediate_result(test_acc)\n# 上报最终目标值\nnni.report_final_result(test_acc)\n\n# 接收超参数为输入参数\nparser.add_argument('--batch_size', type=int)\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_8313ac0f6bc0.png)\n\n\n# 推理服务\n\n无需编写代码即可发布推理服务，覆盖从底层到上层的各个阶段，包括服务网格、Serverless架构、流水线、HTTP框架以及模型计算。\n\n- 服务网格阶段：主要负责流量的中转与管控，例如流量分流、镜像配置、限流、黑白名单等。\n- Serverless阶段：主要实现服务的智能化运维，如服务的自动激活、弹性伸缩、版本管理及蓝绿部署等。\n- 流水线阶段：主要处理请求在不同数据处理或推理模块之间的流转，以及推理前后的预处理逻辑。\n- HTTP\u002FGRPC框架：主要负责接收客户端请求、准备推理样本并生成响应。\n- 模型计算：在CPU或GPU上对输入样本进行前向计算。\n\n主要功能：\n\n- 支持模型的注册与管理、灰度发布、版本回滚、模型指标可视化，以及在流水线中注册模型。\n- 推理服务支持多集群、多资源组、异构GPU环境，能够统筹监控平台资源、使用vGPU技术、进行流量分流与复制，并集成Sidecar代理。\n- 支持零代码模型发布、GPU加速推理、训练与推理混部、服务优先级设置以及基于自定义指标的弹性伸缩。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_9116f6164c82.png)\n\n# 监控与推送\n\n监控：cube-studio集成了Prometheus生态，可监控主机、进程、服务流量、GPU负载等相关指标，并通过Grafana进行可视化展示。\n\n推送：cube-studio提供了开放的推送接口，用户可以自定义将监控数据推送到企业OA系统中。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_6499e089529a.png)\n\n# AIHub\n\n- 系统自带超过400个通用模型，覆盖绝大多数行业场景，且可根据需求持续扩充。\n- 模型开源、支持按需定制，便于快速集成，满足用户业务增长及二次开发升级的需求。\n- 通过标准化的开发与管理流程，大幅降低使用门槛，开发周期平均缩短30%以上。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_d27861a8b884.png)\n\n\n- AIHub中的模型可一键部署为Web应用，同时支持移动端和PC端访问，用户可实时查看模型的应用效果。\n- 点击模型开发入口即可进入Notebook环境，进行模型代码的二次开发，实现快速迭代。\n- 点击“训练”按钮，用户可上传自有数据进行一键微调，使模型更贴合自身业务场景。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_4b14126a1fea.png)\n\n# GPT训练与微调\n\n- cube-studio支持DeepSpeed、ColossalAI等分布式加速框架，可一键实现大模型的多机多卡分布式训练。\n- AIHub内置GPT及AIGC大模型，用户可将其转换为微调流水线，替换为自有数据后即可进行微调并部署。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_8bfa9ff63a66.png)\n\n\n# GPT-RDMA\n\nRDMA插件部署后，Kubernetes节点可用资源如下：\n```bash\ncapacity:\n  cpu: '128'\n  memory: 1056469320Ki\n  nvidia.com\u002Fgpu: '8'\n  rdma\u002Fhca: '500'\n```\n在分布式训练代码中，可通过以下环境变量使用IB设备：\n```bash\nexport NCCL_IB_HCA=mlx5\nexport MLP_WORKER_GPU=$GPU_NUM\nexport MLP_WORKER_NUM=$WORLD_SIZE\nexport MLP_ROLE_INDEX=$RANK\nexport MLP_WORKER_0_HOST=$MASTER_ADDR\nexport MLP_WORKER_0_PORT=$MASTER_PORT\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_307cbb029f95.png)\n\n\n# GPT私有知识库\n\n- 数据智能模块支持配置专业领域的智能对话，帮助用户快速高效地利用LLM。\n- 可为特定聊天场景配置私有知识库文件，支持主题分割、语义嵌入、意图识别、摘要提取、多路召回与排序等多种功能的融合。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_9eb27b814396.png)\n\n\n# GPT智能聊天\n\n- 可以将智能会话与AIHub结合使用，例如下文所示的AIGC模型与聊天会话。\n- 支持通过Autogpt方式串联所有AIHub模型，实现图文音的智能化处理。\n- 智能会话可以直接对接公共平台，例如在微信公众号中进行图文音交互。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_ca1a37cc203c.png)\n\n\n# 数据中台对接\n\n为加速AI算法平台的使用，cube-studio支持对接企业现有的数据中台，包括数据计算引擎SQLLab、元数据管理、指标管理、维表管理、数据ETL及数据集管理等功能。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_15c2d098c972.png)\n\n\n# 三种部署方式\n\n针对企业的不同需求及对计算实时性的要求，提供三种建设模式：\n\n模式一：私有化部署——适用于对数据安全要求高、预算充足且具备开发能力的企业。\n模式二：边缘集群部署——适用于算力分散、存在多个子网环境或边缘设备场景的企业。\n模式三：Serverless集群——适用于成本有限、按需申请算力的企业。\n\n## 边缘计算\n\n通过边缘集群的方式，在中心节点部署平台，并将边缘节点纳入调度体系。每个私有网络用户可通过项目组将Notebook、流水线及服务部署到边缘节点上：\n- 1. 避免数据传输至中心节点带来的带宽压力；\n- 2. 减少中心节点的算力成本，充分利用边缘节点的算力资源；\n- 3. 降低边缘节点的运维成本。\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_readme_f9e4098205e3.png)","# Cube Studio 快速上手指南\n\nCube Studio 是一款开源的一站式云原生机器学习平台，提供从数据准备、模型开发、训练、推理到资源管理的全流程支持。本指南将帮助您快速完成环境搭建并体验核心功能。\n\n## 环境准备\n\n在部署前，请确保您的基础设施满足以下要求：\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 18.04+ 或 CentOS 7+)\n- **Kubernetes 集群**: v1.20+ (支持多集群部署)\n- **容器运行时**: containerd 或 Docker\n- **网络模式**: 支持 IPVS 模式的 K8s 网络插件\n\n### 硬件资源\n- **计算资源**: 支持 CPU\u002FGPU 混合调度\n  - 通用 GPU: T4, V100, A100 等\n  - 国产算力: 海光 DCU, 华为 NPU, 寒武纪 MLU, 天数智芯 GPU\n  - 架构支持: x86_64 及 ARM64\n- **存储**: 需配置持久化存储类 (StorageClass) 用于挂载任务和服务\n- **网络**: 需开放相应端口，支持域名解析或内网穿透\n\n### 前置依赖\n- Helm v3.0+\n- kubectl (已配置集群访问权限)\n- MySQL\u002FPostgreSQL (用于元数据存储，也可使用内置方案)\n- Redis (可选，用于缓存加速)\n\n> **提示**: 国内用户建议使用阿里云、腾讯云或华为云的 ACK\u002FTKE 托管集群以获得更好的网络加速体验。\n\n## 安装步骤\n\nCube Studio 主要通过 Helm Chart 进行部署。以下是标准安装流程：\n\n### 1. 添加 Helm 仓库\n```bash\nhelm repo add cube-studio https:\u002F\u002Ftencentmusic.github.io\u002Fcube-studio\u002F\nhelm repo update\n```\n*(注：若官方源访问缓慢，可尝试配置国内镜像代理或使用本地 chart 包)*\n\n### 2. 创建命名空间\n```bash\nkubectl create namespace cube-studio\n```\n\n### 3. 安装核心组件\n执行以下命令部署平台基础服务（包含用户管理、项目管理、任务调度等）：\n```bash\nhelm install cube-studio cube-studio\u002Fcube-studio \\\n  --namespace cube-studio \\\n  --set global.storageClass=\u003Cyour-storage-class> \\\n  --set global.domain=\u003Cyour-domain-or-ip>\n```\n*请将 `\u003Cyour-storage-class>` 替换为您的存储类名称，`\u003Cyour-domain-or-ip>` 替换为访问地址。*\n\n### 4. 验证部署状态\n```bash\nkubectl get pods -n cube-studio\n```\n等待所有 Pod 状态变为 `Running` 即表示安装成功。\n\n### 5. 获取访问入口\n查看服务暴露的 IP 或域名：\n```bash\nkubectl get svc -n cube-studio\n```\n默认通过 NodePort 或 Ingress 暴露服务，浏览器访问 `http:\u002F\u002F\u003CIP>:\u003CPort>` 即可进入登录页。\n\n## 基本使用\n\n安装完成后，您可以按照以下步骤快速体验核心功能：\n\n### 1. 初始化管理员账号\n首次访问时，使用默认超级管理员账号登录（具体默认密码请参考部署后的 Secret 或日志输出）：\n- 用户名：`admin`\n- 密码：(查看 `kubectl get secret -n cube-studio`)\n\n登录后建议立即在“用户管理”模块修改密码并配置 SSO（支持 LDAP\u002FOIDC）。\n\n### 2. 创建项目组与资源配置\n- 进入**项目组管理**，新建一个项目（例如：`demo-project`）。\n- 在项目设置中配置**资源配额**（Quota），限制该项目可使用的 CPU、GPU 及内存上限。\n- 邀请成员加入项目并分配角色（开发者、运维、观察者等）。\n\n### 3. 启动在线开发环境 (Notebook)\n- 在项目详情页点击**新建任务** -> 选择**Notebook**。\n- 选择镜像（支持预置 PyTorch\u002FTensorFlow 镜像或自定义镜像）。\n- 选择算力规格（如：1 核 2G 或 1 张 T4 GPU）。\n- 点击提交，等待状态变为“运行中”。\n- 点击“访问链接”，即可在浏览器中打开 JupyterLab 进行代码开发与数据探索。\n\n### 4. 提交训练任务 (Pipeline)\n- 准备好训练代码并上传至 Git 或对象存储。\n- 进入**流水线 (Pipeline)** 模块，新建工作流。\n- 拖拽组件构建流程：数据加载 -> 模型训练 -> 模型评估。\n- 配置超参数搜索策略（可选）。\n- 提交运行，平台将自动调度集群资源执行训练，并实时展示日志与监控指标。\n\n### 5. 模型部署与服务化\n- 训练完成后，在**模型仓库**中注册生成的模型文件。\n- 点击**部署服务**，选择推理镜像与资源规格。\n- 平台将自动生成 API 接口，支持公网\u002F内网访问，并提供 QPS、延迟等监控看板。\n\n---\n*更多高级功能（如计量计费、多集群调度、国产芯片适配）请参考官方文档：https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fwiki*","某中型金融科技公司算法团队正紧急开发一个基于大模型的信贷风险预测系统，需在两周内完成从数据标注、模型微调到多机分布式训练及最终推理服务上线的全流程。\n\n### 没有 cube-studio 时\n- **环境搭建耗时**：数据科学家需手动配置 PyTorch、DeepSpeed 及 RDMA 网络环境，常因依赖冲突导致数天时间在调试服务器上，而非模型优化上。\n- **资源调度混乱**：多机多卡训练时，缺乏统一的算力租赁与虚拟化机制，GPU 资源常被闲置或争抢，无法实现细粒度的 vGPU 切分。\n- **流程割裂低效**：数据标注、模型训练（SFT\u002FRLHF）与推理部署分散在不同工具链中，依靠人工脚本串联，出错率高且难以复现。\n- **大模型适配困难**：针对国产昇腾 NPU 或特定大模型（如 DeepSeek）的适配需自行编写底层代码，缺乏现成的流水线模板支持。\n\n### 使用 cube-studio 后\n- **开箱即用开发**：通过 Notebook 在线开发环境一键加载预置的 PyTorch\u002FDeepSpeed 镜像，直接利用集群 RDMA 加速，环境准备时间从数天缩短至分钟级。\n- **弹性算力管理**：利用 vGPU 虚拟化技术灵活分配显存，通过拖拉拽方式编排多机多卡分布式训练任务，资源利用率提升 50% 以上。\n- **全链路自动化**：在统一平台内完成自动化标注、超参搜索、大模型微调及 vLLM\u002FOllama 推理服务部署，实现 MLOps 闭环，迭代周期缩短 70%。\n- **生态无缝兼容**：原生支持国产昇腾生态及 ColossalAI 等框架，内置大模型 SFT 与强化学习模板，无需修改代码即可平滑迁移至不同硬件架构。\n\ncube-studio 将原本碎片化、高门槛的 AI 工程链路整合为标准化流水线，让算法团队能专注于核心模型创新而非基础设施运维。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftencentmusic_cube-studio_dea6b4c6.png","tencentmusic","Tencent Music Entertainment","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ftencentmusic_5b1bf19b.jpg","",null,"https:\u002F\u002Fwww.tencentmusic.com\u002F","https:\u002F\u002Fgithub.com\u002Ftencentmusic",[82,86,90,94,98,102,106,110,114,118],{"name":83,"color":84,"percentage":85},"Python","#3572A5",55.3,{"name":87,"color":88,"percentage":89},"TypeScript","#3178c6",17,{"name":91,"color":92,"percentage":93},"Jupyter Notebook","#DA5B0B",14.5,{"name":95,"color":96,"percentage":97},"Less","#1d365d",3.7,{"name":99,"color":100,"percentage":101},"HTML","#e34c26",2.9,{"name":103,"color":104,"percentage":105},"Shell","#89e051",2.7,{"name":107,"color":108,"percentage":109},"JavaScript","#f1e05a",1.9,{"name":111,"color":112,"percentage":113},"CSS","#663399",0.9,{"name":115,"color":116,"percentage":117},"Dockerfile","#384d54",0.8,{"name":119,"color":120,"percentage":121},"Mustache","#724b3b",0.4,4961,874,"2026-04-20T03:32:58","NOASSERTION",5,"Linux","非必需（支持纯 CPU 模式）；若使用 GPU，支持 NVIDIA (T4\u002FV100\u002FA100)、国产芯片 (海光 DCU、华为 NPU、寒武纪 MLU、天数智芯)；支持 vGPU 及 RDMA；具体显存和 CUDA 版本取决于用户选择的底层硬件配置，平台本身未限定固定版本","未说明（取决于 Kubernetes 集群节点配置及任务负载）",{"notes":131,"python":132,"dependencies":133},"Cube Studio 是一个云原生机器学习平台，核心运行依赖 Kubernetes 集群环境。支持多集群管理、多种算力调度（包括 ARM64 架构和国产 AI 芯片）、细粒度的资源配额管理及计量计费功能。部署前需确保已具备可用的 K8s 集群（支持 ipvs 网络模式），并根据实际业务需求配置相应的 GPU 或 NPU 节点。","未说明",[134,135,136],"Kubernetes","Containerd","IPVS",[15,36,14,16,13],[139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155],"kubernetes","inference","mlops","workflow","ai","pytorch","spark","argo","kubeflow","automl","aihub","gpt","llmops","notebook","pipeline","vgpu","deepseek","2026-03-27T02:49:30.150509","2026-04-20T19:32:36.394117",[159,164,169,174,179,184,189],{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},45395,"服务发布后 ExternalIP 显示为 Master IP 导致集群故障或无法访问，是什么原因？","这通常是因为使用了 ipvs 网络模式导致的。解决方法是在配置文件中将网络模式从 iptable 修改为 ipvs。此外，早期版本中存在一个代码 Bug（`SERVICE_EXTERNAL_IP` 类型判断问题），如果在 2022 年 10 月 23 日左右部署的旧版本遇到此问题，建议升级到最新版本以修复该逻辑错误。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F121",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},45396,"多机器集群部署时，Worker 节点是否需要运行 start.sh 脚本？","不需要。`start.sh` 脚本用于在当前 K8s 集群中部署 Cube 平台本身。如果是多机部署且机器属于同一个现有的 K8s 集群，只需将新机器作为节点加入已有的 K8s 集群即可，无需在 Worker 节点上再次执行 `start.sh`。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F34",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},45397,"拉取镜像失败，提示 'pull access denied' 或 'repository does not exist' 怎么办？","如果是拉取官方腾讯音乐镜像库失败，可以通过以下两种方式解决：\n1. 手动拉取源镜像推送到自建的 Harbor 仓库，然后修改配置使用自建仓库拉取。\n2. 执行 SQL 语句替换数据库中的镜像地址，将默认源替换为腾讯云公共源：`UPDATE docker SET base_image = replace (base_image,'ai.tencentmusic.com\u002Ftme-public','ccr.ccs.tencentyun.com\u002Fcube-studio') WHERE args LIKE '%tencentmusic%'`。\n注意：对于 HTTPS 私有仓库需配置账号密码；对于 HTTP 非安全仓库，需在 Docker 配置中允许不安全注册表。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F25",{"id":175,"question_zh":176,"answer_zh":177,"source_url":178},45398,"K8s 集群启动后 Pod 之间或 Pod 与 Service 无法通信，CoreDNS 解析出错如何排查？","这通常是由于防火墙规则限制了转发流量。请尝试在主机上执行以下命令开放 FORWARD 链：`\u002Fsbin\u002Fiptables -P FORWARD ACCEPT`。执行后检查 CoreDNS 日志及网络连通性是否恢复。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F51",{"id":180,"question_zh":181,"answer_zh":182,"source_url":183},45399,"单机部署完成后，访问首页路径报错或无法进入 myapp\u002Fhome 怎么办？","单机部署成功后，默认的正确访问首页路径应为 `\u002Ffrontend\u002F`，而不是 `\u002Fmyapp\u002Fhome` 或其他路径。请确认浏览器地址栏后缀是否正确。如果仍有问题，请参考 GitHub Wiki 中的单机部署排查章节。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F145",{"id":185,"question_zh":186,"answer_zh":187,"source_url":188},45400,"自定义服务部署后实例显示成功但无法访问容器，或镜像拉取失败如何调试？","建议登录 K8s Dashboard 界面查看具体 Pod 的状态和事件日志，通过报错信息反推问题根源。常见原因包括：私有仓库认证信息未配置正确、镜像名称拼写错误或网络策略限制。确保在服务器端能手动 `docker pull` 该镜像后再进行平台部署。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F80",{"id":190,"question_zh":191,"answer_zh":192,"source_url":193},45401,"Grafana 监控模块显示异常或 Prometheus Adapter 报错如何处理？","该问题已在 commit `0b6b2aa03dadbf90e42cba02f853a69d93d5c40e` 中修复。如果遇到此类监控数据无法获取或组件报错的情况，请将项目代码更新至包含该提交的最新版本。","https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio\u002Fissues\u002F11",[195,200,205,210,215,220,225,230,235,240,245,250,255,260,265,270,275,280,285,290],{"id":196,"version":197,"summary_zh":198,"released_at":199},360302,"v2026.01.01","### 一、AIHub 功能与界面优化\n- 优化 AIHub Markdown 显示问题\n- AIHub 部署为推理服务类型离线场景问题修复\n- AIHub 应用优化\n- AIHub 文档优化\n- AIHub Demo 支持 HTTPS 限制\n- AIHub 数据处理任务模板增加\n\n### 二、大模型与推理服务优化\n- 大模型对话优化\n- 大模型微调可选值优化\n- 大模型可选值模型优化\n- 推理服务优化\n- 推理服务模型地址支持 `{{creator}}`\n- 去除 VLLM 的 AIHub\n- 升级 LLaMAFactory 镜像版本及相关任务模板\n- 升级 ML-Server 镜像版本\n- 优化 ML-Server 推理服务部署\n- 优化 Torch-Server 推理\n- 去除不使用的大模型\n- 去除部分过时模型\n- QwQ-32B 更换为 Qwen3 模型\n- 修复 Token 限制\n\n### 三、服务网关与接口优化\n- 服务网关优化（重复项合并）\n- 服务网关支持代理 Embedding 接口\n- 支持按照 Header 分流\n- 支持通过环境变量设置是否禁用服务流量转发\n\n### 四、部署与集群优化\n- 优化部署\n- 优化海光部署\n- 优化 DCU 兼容\n- 优化卸载脚本\n- 优化多集群 K8s 客户端线程安全问题\n- 修复 K8s 客户端使用线程安全后 Watch 组件的 Bug\n- 接口中增加 Pod IP\n- 支持摩尔线程\n- 升级到 20260101 版本\n- 升级新版本\n- Argo 镜像使用内网镜像\n- 修正 Redis 镜像地址\n- 修复部分连线不可用的情况\n\n### 五、文档与注释优化\n- 优化文档\n- 优化注释\n- 修正文档\n- 增加示例合集\n- 优化示例\n- 增加加解密注释\n- 增加初始化任务\n- 增加任务模板加密启动\n- 去除冗余代码\n\n### 六、安全与权限优化\n- 优化加密\n- 添加 OAuth2 认证\n- 在线 IDE SSH 增加防暴力破解\n- 优化 SSH 代理\n- 去除泛域名 SSH 代理\n- 普通用户不能添加其他人进组\n- 数据集下载权限控制\n- 优化权限问题\n- 固化任务模板不可修改\n- 安全响应添加\n\n### 七、监控与性能优化\n- 优化 LLM 指标监控\n- 增加 TPS、E2E、首 Token 时延、单 Token 平均时延（ms）\n- 优化整体资源自动使用缓存\n- 优化监控\n- 优化 Pod 子状态\n- 处理 Gevent 模型性能\n- 优化定时清理测试服务状态\n- 优化 Watch 监控\n\n### 八、任务模板与自动化标注\n- 优化任务模板描述\n- 增加图片质量评估任务模板\n- 优化 NLP 数据处理任务模板\n- 增加 PaddleOCR-VL 任务模板\n- 增加万物识别自动化标注\n- 增加图片转文档的自动化标注\n- 优化自动化标注\n- 优化 PaddleOCR-VL 自动化标注\n- 优化 PaddleOCR-VL AIHub 应用\n- 增加 PaddleOCR-VL 内容提取任务模板\n- 增加 PaddleOCR AIHub 应用\n- 万物识别自动化标注支持 XML 设置可信参数门限\n- 增加结构化数据标注能力\n- 增加结构化数据标注示例\n- 支持大模型万物边界线和遮罩识别\n- 添加 Dino 和 Dino-SAM 万物分隔模型\n- 修正万物分隔 GPU 占用\n\n### 九、数据处理与 NLP 能力\n- 优化数据处理，增加 NLP 数据分析、问答对抽取、问答对扩展等\n- 增加 NLP 数据分析能力\n- 优化判断文件格式的代码\n\n### 十、开发环境与工具优化\n- VS Code 支持默认中文\n- 优化 VS Code 汉化\n- 升级 Jupyter 镜像，支持汉化\n- 升级 Jupyter 镜像，支持汉化（重复项合并）\n- Grafana 默认中文简体（重复项合并）\n- Notebook 默认不显示续期\n- Notebook Stop 同时关闭 Commit 的 Pod\n- RStudio 首页跳转 Bug 修复（重复项合并）\n\n### 十一、数据库与记录优化\n- 优化数据库记录\n- 优化部署数据库写入可能出错的地方\n- 记录保存成功的时间\n- 记录 Save 成功时间\n- 修正某些类型数据库 Skip 是关键字的问题\n\n### 十二、配置与初始化优化\n- 优化初始化\n- 优化默认值\n- 修改初始化示例\n- 任务模板添加初始化 `TASK_RESOURCE_RDMA=0` 环境变量\n- 优化任务过期时间配置\n- 优化报警描述\n- 优化模板描述\n\n### 十三、其他修复与优化\n- 修复文字 Bug\n- 优化报错打印\n- 去除非必要文件\n- 优化端口暴露\n- 优化模拟数据\n- 去除 NXTime\n- 优化 AIPod 标签\n- 修正域名下的虚拟服务配置\n- 优化标注初始化\n- 修正推送给管理员的消息记录\n- 优化 MindFormer 镜像版本\n- 优化 MindIE 模型的发布功能\n- 增加 MindIE Qwen 推理\n- 修正 Argo 镜像使用内网的镜像\n- 支持增加模拟数据","2026-02-06T06:01:58",{"id":201,"version":202,"summary_zh":203,"released_at":204},360303,"v2025.09.01","### 一、 核心功能与模块优化\n1.  **模型训练与推理框架支持**\n    - 优化mindie模型的发布功能\n    - 模型推理类型支持mindie\n    - 增加mindie qwen推理\n    - 优化mindie推理\n    - 支持mindie分布式\n    - mindie多机推理 host模式，特权模式\n    - 修正ollama部署时api访问模型名的问题\n    - 修正大模型推理的启动命令\n    - 优化mindie模型的发布功能\n    - 优化llamafactory 分布式训练\n    - 增加llamafactory分布式示例\n    - 升级llama factory 支持多模态大模型训练\n    - 升级gpt5\n    - 支持vllm推理框架\n    - 丰富模型量化支持“gptq\",\"awq\",\"gguf\",\"hf_quantize”\n    - 添加模型蒸馏任务模板\n    - 支持模型转换任务模板\n    - 增加opencompass模型评估\n    - 优化opencompass任务模板\n    - 优化llm评估\n\n2.  **任务模板与Pipeline**\n    - 修复union-join-data 任务模板\n    - 修复mpi的任务模板\n    - 修复任务模板的复制功能\n    - 优化任务模板构建\n    - 优化分布式pytorch任务模板\n    - 任务参数支持可选可填参数类型\n    - 任务模板参数支持正则表达式\n    - 任务调试时的资源值为用户填写资源值而不使用任务模板环境变量\n    - 在任务模板中优化分布式任务的挂载\n    - 特征处理和机器学习算法任务模板合并在一起\n    - 合并机器学习模板和特征处理模板\n    - 完善sklearn的任务模板\n    - 增加汇总sklearn的任务模板\n    - 修正pipeline编辑没有修改项目组的问题\n\n3.  **AIHub应用与Demo**\n    - 优化aihub示例\n    - 优化aihub 推理参数 必要性\n    - 优化用户自定义aihub项目组时aihub demo的问题\n    - aihub应用要能直接打开jupyter界面\n    - 修复aihub应用 页面 管理服务按钮链接\n    - 去除不使用的大模型\n    - 去除部分过时的模型\n    - 去除chatglm任务模板\n    - 去除open webui\n    - 去除不使用的大模型\n    - 去除部分过时的模型\n    - 去除aihub非必要代码\n    - 去除视频人体分隔的aihub\n    - 优化模拟数据\n    - 支持增加模拟数据\n\n4.  **Notebook \u002F 在线IDE**\n    - jupyter ssh 端口统一为22\n    - notebook支持绑定机器和非在线ide模式打开\n    - notebook开放端口缩小为2个\n    - notebook可以直接打开输入框中输入的目录\n    - 修复 任务模板 打开目录直接显示文本文件\n    - 优化notebook保存功能\n    - 优化notebook保存报错提醒\n    - 优化notebook pod 健康检查\n    - 对于没有部署的notebook 不进行状态查询\n    - 增加去除conda版本的在线ide\n    - 默认不启动matlab ide\n    - 修复在线vscode 远程ssh没有启动的问题\n    - 兼容旧版本vscode\n    - notebook, pipeline, service, inference支持nfs挂载配置\n\n### 二、 部署与基础设施\n1.  **多集群与资源管理**\n    - k8s 看板 监控支持多集群\n    - 机器资源，pod运行，整体资源 信息接口暴露\n    - 优化整体资源\n    - 优化整体资源的显示问题\n    - 整体资源支持模拟数据\n    - 整体资源 pod 资源占用量 没有request的时候就用limit\n    - 优化整体资源的加载速度\n    - 支持节点批量删除\n    - 支持不同集群单独指定K8S_NETWORK_MODE等参数\n    - 修复多集群部署时缓存冲突的问题\n    - 修复多集群时的缓存问题\n    - 镜像构建和aihub支持多集群\n    - notebook 多集群创建时 没有项目组信息\n    - 支持边缘集群模式部署\n\n2.  **监控、日志与清理**\n    - 优化watch监控\n    - 优化监控\n    - 升级监听记录\n    - 升级grafana看板 支持containerd的运行时\n    - 减少日志打印\n    - 去除aihub的pysnooper.snoop打印\n    - 优化清理\n    - 优化限额配置和清理不正常的服务\n    - 优化定时清理notebook的bug\n    - 添加定制清理 历史log和workflow runhistory等记录\n    - 修复监听不到外界kill pod的信号\n    - prometheus查询设置timeout\n\n3.  **Pod与容器管理**\n    - 优化deployment查询\n    - 优化pod查询\n    - 优化pod子状态\n    - 优化pod标签\n    - 优化k8s查询\n    - 修复查询终止pod cache bug\n    - 还没有通过健康检查的状态为Starting\n    - 接口中增加pod_ip\n    - 分布式任务-1 gpu占用模式，需要特权\n    - 修正aihubpod的标签\n\n4.  **镜像与构建**\n    - 优化docker打包\n    - 优化dockerfile\n    - 优化dockerfile 多架构构建时架构默认值的问题\n    - 优化docker build构建\n    - 支持dockerfile在线构建能力\n    - 控制镜像构建权限\n    - 修正镜像管理中在线构建的注释\n    - 构建加密镜像方法\n    - 禁用用户自己填的镜像名\n    - 修正mindformer的镜像版本\n    - 优化yolo镜像\n    - 升级新的yolov8镜像版本\n    - 添加npu pytorch镜像\n    - argo镜像使用内网的镜像\n\n### 三、 安全、权限与认证\n1.  **认证与权限控制**\n    - 添加oauth2认证\n    - jwt公钥私钥存储\n    - 优化权限问题\n    - 优化pod 界面访问权限控制\n    - 普通用户不能添加其他人进组","2025-11-07T09:08:41",{"id":206,"version":207,"summary_zh":208,"released_at":209},360317,"v2022.08.01","1、部署：修正istio\u002Fprometheus部署、独立部署istio\u002Ftfjob\u002Fpytorchjob\u002Fmpijob\u002Fmxnetjob，简化部署镜像\r\n2、平台：优化前端ui，添加前后端分类部署方式，新增hive离线表\u002F指标\u002F维表\u002F数据集\u002F数据etl\u002F模型管理功能，修改水印和pipeline跳转链接，禁用jupyter的xsrf和网关请求大小限制，支持非80端口的网关入口，更新k8s共享内存的自动挂载。补充coredns的配置，添加全局用户pod的监控，添加推理服务sidecar功能，支持端口形式的请求监控。添加服务的帮助链接，前端添加retry_info能力。\r\n3、模板：添加mpi\u002Fspark-serverless\u002Fhorovod\u002Fpaddle\u002Fmxnet\u002Ftfjob-k8s\u002F分布式训练,hadoop模板，ner中文实体识别模板，修正模板的使用说明和参数说明\r\n4、example:添加数据集\u002F模型\u002F推理\u002F内部服务\u002F模板\u002Fpipeline示例，添加chatbot\u002Fcartoonize\u002Fopenpose\u002Fface\u002Fyolo\u002Fwenet等内部服务示例，添加triton\u002Ftfserving\u002Ftorchserver镜像构建和推理demo\r\n5、github补充wiki和英文版说明","2022-08-31T06:14:21",{"id":211,"version":212,"summary_zh":213,"released_at":214},360318,"v2022.07.01","1、部署：修改仓库地址、修正istio prometheus部署、独立部署istio、独立部署tfjob\u002Fpytorchjob\u002Fmpijob\u002Fmxnetjob、添加prometheus持久化\r\n2、镜像：添加新gpu构建镜像、添加推理服务的构建镜像\r\n3、功能：添加pipeline\u002Fservice\u002Fjob-template初始化方法，pipeline自动排版，添加支持拉取策略为IfNotPresent、修复边缘模式下jupyter打不开的问题\r\n4、模板：添加mpi-operator\u002Fspark-operator、添加horovod分布式、spark-serverless分布式、tfjob-k8s、替换stern为in cluster模式、\r\n5、demo：添加chatbot\u002Fcartoonize\u002Fopenpose\u002Fface\u002Fyolo\u002Fwenet等推理服务示例、添加人脸识别web镜像、模板demo示例","2022-07-31T08:06:13",{"id":216,"version":217,"summary_zh":218,"released_at":219},360319,"v2022.06.01","AIhub新增模板：\r\n\r\n数据\u002F算法模板：\r\ndatax(单机异构数据同步)\u002Fxgb(单机训练)\u002Fdeploy-service(单机部署推理服务)\u002Fray(分布式数据处理)\u002Fray-sklearn(分布式传统机器学习)\u002Fvolcano(分布式计算)\u002Fpytorchjob-train(分布式训练)\u002Fmedia-download(分布式文件下载)\u002Fvideo-audio(分布式提取音频)\u002Fvideo-img(分布式视频抽帧)\u002Fmodel-offline-predict(分布式模型离线推理)\u002Ftfjob-train(分布式训练)\u002Ftfjob-runner(分布式训练)\u002Ftfjob-plain(分布式训练)\u002Ftf-distribute-model-evaluation(分布式评估)\u002Ftf-model-offline-predict(分布式离线推理)\u002Fkaldi-distributed-on-volcanojob(分布式训练)\r\n\r\n全自动建模pipeline:\r\ndarknet目标识别\r\n\r\n推理服务：\r\nyolo目标识别\r\n\r\n功能优化：可视化优化，边缘能力支持，dag自动编排，单机部署优化，实时训练\r\n\r\n体验地址：http:\u002F\u002F159.75.208.175\u002F\r\n\r\n边缘集群部署调度以及边缘全自动建模流程：https:\u002F\u002Fwww.bilibili.com\u002Fvideo\u002FBV1qY4y1x7Yy\u002F\r\n\r\n欢迎图像、文本、语音、视频、推广搜、量化、风控等各行业算法同学，参与共建AIhub(数据\u002F算法模板，全自动建模pipeline，推理服务)市场。\r\n\r\n","2022-06-07T09:05:25",{"id":221,"version":222,"summary_zh":223,"released_at":224},360320,"v2022.05.01","添加单机部署脚本视频，将模板仓库合并到当前仓库，并添加分布式ray\u002Fvolcano\u002Ftf\u002Fpytorch分布式能力","2022-04-14T11:35:00",{"id":226,"version":227,"summary_zh":228,"released_at":229},360321,"v2021.11.01","修正了gpu基础镜像的构建，添加了部分说明文档","2021-11-25T05:25:14",{"id":231,"version":232,"summary_zh":233,"released_at":234},360315,"v2023.04.01","\r\n基础架构\r\n\r\n - 支持到1.18~1.25 k8s版本\r\n - 支持最小化部署\r\n - 增加alluxio+minio分布式缓存 \r\n - 增加efki日志系统\r\n - 增加harbor私有仓库部署\r\n - 去除kubeflow-pipeline依赖，添加argo独立部署\r\n - 添加gpu机器配置和内网域名解析配置\r\n\r\n平台：\r\n - 基础环境更新为python3.9\r\n - celery更新为5.1.2版本\r\n - 添加数据集导入模板，模型导入模板，模型注册模板\r\n - 增加sqllab功能\r\n - 推理服务单台滚动发布\r\n - 添加资源汇总页面\r\n - 支持用户密码修改\r\n - 增加可选notebook基础镜像\r\n - 添加认证信息多平台授权\r\n - 添加数据集版本，权限管理，上传下载\r\n\r\n其他：\r\n - 支持任务结果可视化\r\n - 支持数据集预览，模型指标预览\r\n - 支持血缘链路，字段、表、任务、看板关联\r\n - 支持sdk数据集上传下载，大数据量媒体文件数据处理。\r\n - 支持sdk 发起训练部署和推理\r\n - 支持gpu虚拟化\r\n - 支持分布式任务模板\r\n - 支持传统机器学习算法模板\r\n - 支持推广搜算法模板\r\n - 支持模型压缩，格式转换模板\r\n - 支持大模型模板\r\n - 支持400+aihub模型应用\r\n - 支持aihub转notebook开发，pipeline微调，web手机端和pc端推理体验\r\n - 支持国产芯片部署\r\n - 支持边缘集群模式\r\n - 支持标注平台与特征平台，以及特征处理sdk\r\n - 支持大模型微调，私有知识库，人机对话数字人\r\n","2023-04-11T10:07:37",{"id":236,"version":237,"summary_zh":238,"released_at":239},360316,"v2022.09.01","\r\n1、部署：\r\n简化istio部署模式\u002Fprometheus部署、修正istio gateway部署端口重复问题，\r\n合并部署tfjob\u002Fpytorchjob\u002Fmpijob\u002Fmxnetjob，\r\n减少部署镜像，\r\n支持k8s 1.20，1.21,1.22等版本\r\n\r\n2、平台：\r\n优化前端ui风格，修正前端构建方法\r\n支持前后端独立部署方式，\r\n新增离线表\u002F指标\u002F维表\u002F数据集\u002F数据etl\u002F模型管理功能，\r\n修改水印和pipeline跳转链接，\r\n禁用jupyter的xsrf和网关请求大小限制，\r\n支持非80端口的网关入口，\r\n支持k8s共享内存的自动挂载。\r\n补充coredns的配置，支持内网特殊dns解析\r\n添加全局用户pod的监控，添加用户任务资源占用监控，修正部分监控页面打开bug，\r\n添加推理服务sidecar功能，支持ip端口形式的流量监控。\r\n添加服务的帮助链接，\r\n添加bug report链接,\r\n支持多集群下，不同泛域名,\r\n支持右侧菜单自定义配置,\r\n添加支持bigdata machinelearning deeplearning版本jupyter，支持ssh直连notebook，支持notebook中hadoop，spark，flink数据分析\r\n添加支持服务部署中内外双网卡和单域名模式,\r\n添加支持密码修改,支持跨域共享cookie认证，和ifram嵌入跨域问题,\r\n增加任务跳过功能，增加项目组切换后，挂载自动补充\r\n添加数据集\u002F模型\u002F推理\u002F内部服务\u002F模板\u002Fpipeline示例，\r\n添加chatbot\u002Fcartoonize\u002Fopenpose\u002Fface\u002Fyolo\u002Fwenet等内部服务示例，\r\n添加triton\u002Ftfserving\u002Ftorchserver镜像构建和推理demo\r\n添加mpi\u002Fspark-serverless\u002Fhorovod\u002Fpaddle\u002Fmxnet\u002Ftfjob-k8s\u002F分布式训练,\r\n添加hadoop模板，支持spark任务提交\r\n添加ner中文实体识别模板，修正模板的使用说明和参数说明，\r\ngithub补充wiki和英文版说明,\r\n代码规范升级,修正数个isues bug\r\n\r\n3、aihub:\r\n平台添加aihub 应用市场查看，\r\n开源aihub python sdk，\r\n深度学习，添加算法模型animegan,ddddocr,deoldify,detectron2,face-paint,gfpgan,humanseg,paddleocr,panoptic,stable-diffusion,yolov3\r\n传统机器学习，添加算法示例AdaBoost,Bayesian,CRF,CatBoost,FM,HMM,LDA,MCMC,MEM,PCA,SVD,SVM,decision_tree,gbdt,kmean,knn,lightGBM,linear_regression,logistic_regression,neural_networks,random_forest,xgboost,关联分析,最小生成树,极大似然估计,聚类,集成学习\r\n","2022-11-12T08:54:50",{"id":241,"version":242,"summary_zh":243,"released_at":244},360313,"v2024.01.06","完善文档\r\n完善初始化示例\r\n完善测试脚本\r\n更换新版本整体资源界面\r\n支持暂停和恢复任务流\r\n任务流支持任务推荐\r\n分布式训练支持gpu和rdma，拉取秘钥等信息传递\r\n全面修改国内网络源的使用\r\n新增ib卡的监控\r\n修复gpu显存占用率和gpu利用率bug\r\n标准化ml server配置格式和接口格式\r\n支持统一镜像服务下多仓库秘钥配置\r\n新增各类型特征处理模板\r\n新增时间序列算法模板\r\naihub修改统一前缀\u002Faihub\u002F$name\u002F和\u002Faihub\u002F$name\u002Fapi\r\n前后端支持国际化\r\n支持数据集一键探索功能\r\n删除冗余前端代码\r\n支持ipvs 的k8s网络模型\r\n支持分布式训练时单机调试分布式worker镜像\r\n支持ssh隧道联动notebook sshd\r\n添加内网离线环境部署打包的修正方法\r\n全面升级python基础包\r\n支持centos8和ubuntu22.04部署\r\n支持sqllab，菜单，可配置化\r\n添加datax，sqllab，维表对接postgres的示例\r\n增加数据库结构说明\r\n增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等\r\n支持gpt4对话\r\n整体资源页面，支持管理员批量删除\r\n增加修改和删除，清理等操作的历史记录\r\n修正智能聊天在特殊返回值下内容显示不全的问题\r\n修正后端错别字，中英文和非必要的冗余代码\r\n添加任务流导入模板\r\n删除任务时，删除相同run-id的service\r\n修正任务超时的配置\r\n去除frameworkcontroller组件，nni组件不再依赖\r\n添加跳过功能\r\nworkflow pod人性化展示以及中文显示\r\n修正整体资源界面，vgpu调度显示","2023-12-18T02:57:44",{"id":246,"version":247,"summary_zh":248,"released_at":249},360304,"v2025.07.01","1. **计量计费和账单优化**  \n   - 增加默认过滤条件  \n   - 优化前端时间类型参数的可选择范围  \n\n2. **权限管理改进**  \n   - 简化admin权限查询  \n   - 支持用户删除操作  \n   - 添加登录日志登记  \n\n3. **项目与资源管理**  \n   - 任务模板、推理服务类型、AIHub支持配置显示范围  \n   - 项目分组列表显示更全面  \n   - 支持volcano调度器，项目组\u002F资源组可选  \n   - 支持binpack调度  \n   - 修复资源占用值显示问题  \n   - 设置volcano允许k8s集群内其他pod访问  \n\n4. **推理服务增强**  \n   - 优化推理服务网关功能，增加模型量化（int8\u002Fint4）  \n   - 支持推理服务网关统一代理  \n   - 修复推理服务设置域名为IP时的bug  \n   - 支持昇腾卡指定卡型  \n   - 支持并发数设置（TFServing）  \n   - 修复多机推理的访问入口问题  \n\n5. **模型训练与评估**  \n   - 增加LlamaFactory模型评估  \n   - LlamaFactory支持奖励模型训练和强化学习  \n   - 直接输出LlamaFactory评估指标  \n   - 支持断点续训（YOLOv8）  \n   - 升级YOLOv8，去除YOLOv7  \n   - 优化SFT pipeline  \n\n6. **部署与运维优化**  \n   - 支持SSH Proxy  \n   - 优化NPU监控  \n   - 生产部署后端代理模式支持gevent  \n   - 优化KubeKey离线部署  \n   - 支持Harbor HTTPS部署  \n   - 修复模型发布名称重复报错  \n   - 支持快速卸载AIHub应用  \n   - 优化初始化示例  \n\n7. **前端与用户体验**  \n   - 修正前端镜像名  \n   - 为工作目录类型参数添加打开Notebook快捷按钮  \n   - 优化字段描述  \n   - 修复多用户数据探索按钮冲突  \n   - 增加部署多个前端的方法  \n   - 优化AIHub应用弹出框，支持卸载  \n\n8. **文档与示例更新**  \n   - 优化文档描述  \n   - 添加SFT-RM-PPO示例  \n   - 添加奖励模型答案排序标注  \n   - 修正大模型初始化示例  \n   - 添加Ollama部署Embedding模型示例  \n   - 修正PaddleOCR的AIHub应用  \n\n9. **安全与兼容性**  \n   - 邮箱格式限制  \n   - 去除不必要密钥  \n   - 设置Notebook SSH密码为Pod名称  \n   - 注册后不自动登录  \n\n10. **其他改进**  \n    - 支持MindIE推理  \n    - 支持Python 3.11的ModelScope镜像  \n    - 优化ARM Ubuntu 22.04的源  \n    - 修复任务模板调用API认证问题  \n    - 更新ML服务镜像  \n    - 优化参数描述（如NPU310P占用名称）","2025-08-31T02:00:04",{"id":251,"version":252,"summary_zh":253,"released_at":254},360305,"v2025.03.01","# 1. 部署优化\n优化rke2部署\n优化kubekey多机部署\n支持jetson边缘盒子\n支持ollama大模型部署\n前端支持https跳转\nhttps支持nginxingressk8s部署\n修正https登录时的问题\n优化本地调试时端口号\n优化本地开发时调试环境ip问题\n# 2. 大模型相关\n大模型微调模板，全部改为llama-factory\n支持npu llamafactory和vllm\n添加deepseek微调\n优化llama factory任务模板\n支持vllm大模型对话测试\n支持qwq模型推理服务\n支持deepseek官方api\n添加deepseekchat应用\n设置大模型最大token数\n清理老旧aihub大模型\nchat中文名更改\n优化chat聊天对话内容替换适配deepseek\n# 3. 配置优化\n将大模型名称转换为配置\n初始化示例资源配置\n优化dockerfile env书写格式\n优化内服服务书写格式\n两个前端的示例配置\n更新user1权限\n增加管理员可以配置挂载目录\n禁用普通用户的挂载配置\n添加修改logo的教程\n# 4. 资源管理\n大模型推理服务实例小显存配置\n修正整体资源界面pod显示的更全面\n修复只有vgpu的时候资源显示的问题\n优化在gpu为虚拟化值时的问题\n修正额度限制\n增加项目组支持命名空间配置\n减小初始化资源占用\n支持指定第n张卡\n支持指定第一张卡\n# 5. 功能优化与修复\njwt sidecar使用优化\n修正metric没有启动时无法查看到pod的问题\n更新开机缓存提醒\n修复暂停和恢复\n修复aihub离线部署时的bug\n修复notebook保存的功能bug\n修复镜像保存的功能\n修复重复挂载的报错问题\n修复rancher拉取镜像只有一个进程\n清理孤立pod的报错\n删除archives冗余挂载，修复gpu最大额度限制，优化chat报错日志\n修正ollama配置信息和项目组配置报错提醒\n# 6. 镜像支持\npaddle镜像支持arm机构\n最小化镜像拉取\n修正昇腾镜像拉取策略\n更新yolov8镜像版本\n升级redis的镜像版本，解决arm情况下的部分报错\n更新ollama镜像，下载更快\nray制作arm镜像\nray-sklearn制作arm镜像\ndatax支持arm64\nnni的任务模板支持arm64\nray任务模板支持arm\n# 7. 任务模板\n修正任务模板目录和名称\n更新horvord任务模板\n更新mpi的任务模板\n修正标注导入的任务模板\n任务模板支持加密\n优化任务模板日志打印\n支持任务模板加密\n添加任务流固化的能力\n支持代码加密\n模板加密\n# 8. 推理服务\n支持推理服务在线测试功能\n推理服务的名称跟随版本更新\n支持aihub部署成推理服务\n推理服务的0代码发布首页自动化配置\n修复online服务优先显示的问题\n修正推理服务online模型优先显示\n# 9. 可视化与工具\n支持模型可视化\n目标识别增加可视化tensorboard能力\nyolo目标识别支持tensorboard查看\n增加open-webui内部服务\n支持open-webui的sidecar\n支持靠右停靠的列类型\n固化看板运行前无法进入跟踪界面\n增加目标识别和大模型的固化看板\ngrafana支持设置非匿名登录\n# 10. 数据集与模型\n优化modelscope内网子模型使用离线模型的问题\n数据集下载和模型下载支持魔塔\n修正hfd下载最大并行数\n修正paddleocr\n优化paddleocraihub应用\n纠正读光-文字识别-行识别模型aihub应用镜像版本\n# 11. 其他\n优化加密方法\naihub初始化不安装包\n视频跟踪的联网问题\n支持notebook stop\n修改pip config命令\n优化弹窗样式\n更加友好的aihub示例输入描写\naihubexample内网示例情况\naihub排序\nk8s查询时报错忽略\n优化npu mindie推理\n修改公司图片\n更新日志显示\n纠正val_dataset中文含义\n优化arm加密部署，修复域名访问\n优化aihub内网部署\nchat应用增加前后置处理逻辑","2025-06-19T12:20:38",{"id":256,"version":257,"summary_zh":258,"released_at":259},360306,"v2025.01.01","1. 任务模板与任务流优化  \n优化Llama Factory任务模板，修复任务流固化问题，支持任务流固化能力。  \n升级任务模板中Kubernetes版本，优化分布式训练任务模板。  \n修复任务开始时间和结束时间的问题，控制任务流任务节点显示长度。  \n添加MindFormer任务模板，优化MindFormer镜像，支持昇腾大模型示例Pipeline。  \n优化YOLOv8任务模板，升级YOLOv8镜像版本，修复YOLOv7示例问题。  \n\n2. 推理服务与模型管理  \n优化推理服务初始化，修复推理服务Online模型优先显示问题。  \n支持VLLM分布式推理，增加MindIE大模型推理服务。  \n修复模型发布的报错，模型管理支持直接跳转。  \n优化MindIE推理服务，修复模型导入模板环境变量错误。  \n支持昇腾的共享占用模式，优化昇腾初始化示例。  \n\n3. AIHub应用与Notebook优化  \n优化AIHub应用，支持自定义代码目录，修复AIHub应用部署问题。  \n支持AIHub自定义添加，优化目标跟踪AIHub应用。  \n优化Notebook内部服务推理服务端口取值，支持查看挂起消息。  \n添加昇腾Notebook，支持华为910，优化MindIE镜像。  \n修复Notebook SSH远程自动Python问题，增加SSH链接Jupyter时Matplotlib本地显示。  \n\n4. 前端与用户界面优化  \n优化前端表格显示，修复部分显示问题，修正中英文翻译。  \n优化用户权限界面，去除冗余Gamma角色权限，控制项目分组编辑添加权限。  \n修复详情页面缩进问题，优化弹窗提示，支持数据可视化弹窗功能。  \n优化首页项目描述，修复首页消息报警问题。  \n支持自定义初始化时的镜像仓库地址和Git地址，优化初始化时的Git地址信息。  \n\n5. 安全与权限管理  \n修复XSS安全问题，去除密码的显示，密码修正为密文存储。  \n支持LDAP单点登录，升级流量代理认证。  \n添加安全登录，完善安全扫描，修复安全扫描限制问题。  \n优化用户权限界面，去除过多无用Gamma角色权限。  \n支持Grafana设置非匿名登录，修复Cookie 401认证问题。  \n\n6. 资源管理与GPU\u002FNPU优化  \n优化资源限制，修复GPU最大额度限制问题。  \n优化本地调试时端口号，修复本地开发时调试环境IP问题。  \n修复Rancher拉取镜像只有一个进程的问题，清理孤立Pod的报错。  \n优化NPU MindIE推理，支持NPU的监控，优化MindIE镜像。  \n支持昇腾的VSCode，添加Ascend Jupyter和VSCode。  \n\n7. 镜像与部署优化  \n更新Ollama镜像，下载更快，修复Ollama配置信息报错。  \n升级20250201版本镜像，更新基础镜像，支持ARM64镜像。  \n修复ARM64版本的VSCode问题，支持ARM64部署。  \n优化CUDA镜像，更换为Devel版本，修复Containerd运行时问题。  \n支持多集群内外双网卡，优化RKE2部署Containerd版本。  \n\n8. 日志与报错修复  \n优化Chat报错日志，修复部分日志打印问题。  \n修复推理服务初始化报错，修复模型下载时文件不存在的重定向地址问题。  \n修复项目责任人归属问题，修复模型发布的报错。  \n修复部分显示Bug，修复部分日志打印问题。  \n\n9. 新功能与工具支持  \n添加DeepSeek推理服务，支持DeepSeek Chat应用。  \n支持任务流固化能力，添加任务流固化功能。  \n支持XGBoost、LightGBM、GBDT、KNN等多分类任务。  \n添加X11示例，支持多分类以及转换输出概率列名为原值。  \n支持自定义Notebook内部服务推理服务端口取值，优化本地调试时端口号。  \n\n10. 其他优化与修复  \n优化目标跟踪自动化标注应用，修复视频跟踪自动化标注问题。  \n优化多目标跟踪模型，修复目标跟踪AIHub应用问题。  \n修复部分Bug，优化YOLOv7内网示例。  \n修复部分显示问题，优化前端表格显示。  \n修复部分日志打印问题，优化部分操作权限。","2025-03-22T02:03:32",{"id":261,"version":262,"summary_zh":263,"released_at":264},360307,"v2024.11.01","添加和优化Jupyter、VSCode支持，包括SSH服务能力和本地显示Matplotlib。\r\n升级基础镜像，支持华为910、ARM64、NVCC版本GPU镜像和devel版本CUDA镜像，更新英伟达基础镜像。\r\n优化GPT地址配置兼容性，代码中镜像域名不写死，避免内网拉取不到镜像的问题。\r\n增加和优化ARM64镜像，增加gamma角色权限，优化用户权限界面和操作权限。\r\n修正部署问题，密码修正为密文存储，优化初始化过程，修正挂载和代理IP问题。\r\n优化和完善文档，包括中英文翻译和帮助文档位置更新。\r\n支持JSON类型输入，pipeline编排任务参数支持提示信息（tip）。\r\n数据集模块优化，包括跳转到Notebook上传和模板升级。\r\n修复前端显示问题，包括详情页面缩进、表格显示、部分搜索列表不显示中文等问题。\r\n增加LDAP单点登录和安全登录，完善安全扫描。\r\n视频跟踪自动化标注，优化多目标跟踪模型，增加YOLO跟踪AIHub应用和示例。\r\n在线VSCode增加SSH服务能力，IDE SSH远程自动Python。\r\n更新和优化镜像源、仓库账号和拉取秘钥，设置镜像拉取策略环境变量。\r\n新增和优化多分类模型支持，包括LightGBM、KNN、GBDT、决策树、XGBoost、Adaboost和LR的多分类及离线推理结果概率列名转换。\r\nAIHub部署支持配置项目组，增加独立应用构建镜像和任务模板。\r\n优化和删除冗余代码，去除非必要文件，减少日志打印。\r\n升级流量代理认证和计量计费账单功能，优化账单ID生成策略。\r\n修正自动化标注模型地址和部分体验问题，更新pandas版本。\r\n支持语种识别模型和语音分类模型，AIHub在线开发。\r\n推理服务和Notebook支持GPU显存单独设置，升级VGPU监控。\r\n优雅化代码，升级Istio部署，修改Grafana默认主题。\r\n修正项目成员代码位置、镜像名、Torch-Server模型发布文件名和模型名不支持的问题。\r\n服务发布需要先清理，升级推理服务镜像，更新TFServing的推理服务。\r\n完善YOLOv8任务模板和示例，支持构建成AIHub应用。\r\nPipeline复制不保留实例信息，修正超参搜索算法可取值的问题。\r\n更换ChatGPT Token，数据写入前增加JSON校验，更新脚本。\r\nNotebook不显示Node Selector，完善标注导入任务模板。\r\n内部服务支持定义首页路径，添加标注数据导入任务模板。\r\n修复部署显示问题，修正算子打开目录时的部分Bug，Pipeline算子支持镜像调试。\r\n示例Pipeline不允许修改，处理图标网站域名访问受限的问题。\r\n修正数据智能中的提示信息和记忆上次会话内容，修正激活包和初始化工作目录。\r\n增加激活码，支持菜单权限控制，更新Label Studio镜像版本。\r\n聊天会话私有会话增加提示词构建，移动ChatWeb构建后的目录地址。\r\n标注系统自动化标注接口添加服务内部名称，新版本标注系统对接Bug修复。\r\n删除一些不能识别的图片，只保留一个目标识别自动化接口，优化部分代码。","2024-12-04T06:45:33",{"id":266,"version":267,"summary_zh":268,"released_at":269},360308,"v2024.09.01","# 支持与功能增强\n支持最新版本的containerd  \n任务模板参数支持 workdir 子类型和 image 子类型  \n增加 12.6 版本的 CUDA  \n增加激活码  \n支持菜单权限控制  \n更新 Label Studio 镜像版本  \n聊天会话、私有会话增加提示词构建功能  \n添加 Aihub 独立应用构建镜像  \n标注系统自动化标注接口 添加上服务内部名称  \n新版本标注系统对接 bug 修复  \n删除一些不能识别的图片  \n只保留一个目标识别自动化接口  \n打开 Notebook，支持替换个人目录  \n更新 workdir 子类型  \nRancher 镜像从国内拉取  \n增加 Aihub 环境镜像  \n增加视频帧标注示例  \n升级 YOLOv8 的示例  \nNotebook 不显示 Node Selector  \n内部服务，支持定义首页路径  \nPipeline 算子支持镜像调试  \n示例 Pipeline 不允许修改  \nYOLOv8 支持构建成 Aihub 应用  \n增加 GPU 镜像版本  \nPipeline 复制不保留实例信息  \n\n# 文档完善\n完善文档  \n增加中英文翻译  \n增加 12.6 版本的 Aihub 文档  \n\n# 界面与用户体验\n更换 Favicon 的位置  \n界面多级索引时，返回上一层目录时指定范围 URL  \n单机多进程超参数搜索添加项目组注释  \n模型管理默认按名称分类  \n前端静态文件都打包到前端镜像中  \n添加前端文字描述  \n修复 ECharts 内容可视化问题  \n删除在线调试时清理启动的 Pod  \n移动 ChatWeb 构建后的目录地址  \n处理图标网站域名访问受限的问题  \n修正数据智能中的 Tips 问题，以及记忆上次会话内容  \n修正初始化示例中 wget 前 rm 的问题  \n优化整体资源的显示  \n完善标注导入任务模板  \n修复部署显示问题  \n修正算子打开目录时的部分 bug  \n修正超参搜索算法可取值的问题  \n\n# 代码优化与修复\n去掉冗余环节  \n优化部分代码  \n修改 Label Studio 的镜像  \n临时更换账号密码  \n升级 Label Studio 版本对应的接口  \n更新镜像源  \n优化 YOLOv8 任务模板  \n添加 Aihub 任务模板  \n更换 ChatGPT Token  \n数据写入前，增加 JSON 校验  \n更新脚本  \n修正激活包  \n修改初始化 workdir  \n\n# 其他\n添加误删除代码  \n替换仓库地址","2024-09-24T01:11:00",{"id":271,"version":272,"summary_zh":273,"released_at":274},360309,"v2024.08.01","支持列表界面的历史版本功能及增改界面的级联参数类型  \n支持级联参数类型，并提供Notebook示例  \n增大内网穿透端口  \n升级Grafana版本  \n优化图标显示  \n更换GitHub仓库地址  \n增加GitHub CI配置  \n移除模型结构网络定义功能  \n编排界面支持通用编排能力  \n增加标注训练全流程示例  \n更新错误提示显示  \n更新Label Studio镜像  \n添加模型定义功能，支持编排模型结构  \n通用Pipeline支持场景配置  \n更新Label Studio部署及YOLOv8测试示例  \n修改整体资源页面中占用资源但未运行Pod的显示方式  \nAIHub新增Apple续写模型DCLM-7B  \n将标注平台初始化至公共项目组  \n添加项目组信息查询接口  \n在AIHub部署时自动覆盖代码，实现AIHub的更新  \n添加结果保存步长限制  \n添加操作行为记录功能  \n修改Docker安装方法  \n保存YOLOv8目标识别结果  \n添加音频处理模板  \n任务模板参数中的choice可配置键值对  \n添加数据处理流程任务模板  \n标注平台更换Logo  \n全自动流程电动车识别  \n增加YOLOv8微调示例  \n更新最新所需镜像列表  \n自动化标注支持多后端模型  \n将SD WeUI升级为中文版，用于目标识别检测  \n完善不使用Docker时的部署方法  \n修正初始化模板  \n完善文档  \n任务模板强制要求添加启动命令  \n修正部分AIHub应用镜像  \n修正运行中任务流示例的耗时显示  \n修正内存资源无单位显示时的计算问题  \nYOLOv7支持GPU训练和推理  \n清理冗余代码  \n修正整体资源界面删除时AIHub的清理逻辑  \n修改默认Rancher版本和Kubernetes版本  \n全量为模板添加启动命令  \n将vGPU升级至Kubernetes 1.25  \n修复任务可视化显示问题  \n优化推理服务配置显示  \n更新GPT的URL","2024-08-21T07:47:59",{"id":276,"version":277,"summary_zh":278,"released_at":279},360310,"v2024.06.03","修复部分bug","2024-06-29T15:52:40",{"id":281,"version":282,"summary_zh":283,"released_at":284},360311,"v2024.06.02","MLOps平台相关：\n\n修正内部服务IP范围\n更新教程视频\n支持Pipeline任务优先级\nNNI超参搜索支持单机多进程和多机多进程两种形式\n修正Notebook SSH链接配置\nNotebook配置内外网时，模式使用URL代理，而不是端口代理\n数据集SDK去除load功能\nWatch组件只是Supervisord管理进程\n修复在Celery Worker中数据库连接失败的报错问题\n修复微调添加出错后，平台数据库受影响的问题\n添加用户登录时拷贝示例数据到个人目录\n添加Pipeline导出\n支持K3s部署Cube-Studio\n支持Helm部署Cube-Studio\n支持KubeSphere部署Cube-Studio\n优化边缘集群模式部署\n添加最小化单机部署\n添加Pod计量计费区分不同集群\n删除Pipeline时，清理绑定的Workflow\n分布式任务支持GPU共享占用模式\n修复管理员批量删除在线Pod的功能\n去除前端输出重复校验的问题\n增加CUDA 12.1的Notebook、Pipeline镜像\n计量计费增加机器信息\n升级Hadoop客户端任务模板，支持HDFS、Hadoop、Spark、Hive任务执行\n升级大数据版本Jupyter，支持HDFS、Hadoop、Spark、Hive任务执行\n添加DataX-Import任务模板，不使用JSON作为输入\n升级ML推理镜像，支持输入输出信息显示\nRStudio添加激活按钮\n支持推理服务定时伸缩容\n更改第四范式vGPU化能力\nSQLLab支持Hive、Presto、ClickHouse SQL对接\nDataX支持拉取ClickHouse数据\n推理服务支持JWT统一认证\n支持Label Studio标注平台免登录\n内部服务支持Windows应用\n模型管理支持模型下载\n数据集管理支持数据集预览\n用户界面去除删除按钮\n\nAIHub模型市场相关：\n\n增加AIHub基础镜像版本\nAIHub支持对接Hugging Face\n去除AIHub原有前端界面，改为Gradio\n删除失效的AIHub应用\n\nGPT大模型相关：\n\nAIHub添加百川2、Llama3、Gemma、GLM4等各类型的GPT大模型\n完善DeepSpeed任务模板和示例\n增加Baichuan2、Llama2、ChatGLM2、ChatGLM3、ChatGLM4、Qwen2微调任务模板\n支持大模型VLLM推理和OpenAI流式接口\n添加Llama-Factory任务模板\n智能聊天，支持结果可视化\n修正私有知识库接收消息不全的问题\n添加ChatGLM3、ChatGLM4、Qwen2微调全链路\nAIHub支持Stable-Cascade、SD3、SD Video以及SD的其他模型\n智能体支持AIHub接口格式\n智能体支持ChatGLM4和Qwen2","2024-06-24T05:59:56",{"id":286,"version":287,"summary_zh":288,"released_at":289},360312,"v2024.03.02","1、更新torch server、tfserving、triton server推理服务镜像版本\r\n2、k8s dashboard web界面去除不可控区域，避免安全问题\r\n3、升级任务模板\r\n4、增加智能聊天功能\r\n5、增加任务优先级\r\n6、增加计量计费\r\n7、增加算力额度控制\r\n8、支持添加端口黑名单\r\n9、修正数据集备份功能\r\n10、添加notebook镜像保存\r\n11、yolov3更新为yolov7，推理web使用gradio\r\n12、其他的文档修正和代码bug修正","2024-02-28T12:21:14",{"id":291,"version":292,"summary_zh":293,"released_at":294},360314,"v2023.08.01","1、全面替换基础组件的版本，基础组件基本支持arm64算力系统\r\n2、修改初始化配置，兼容更多k8s部署工具。\r\n3、替换基础部署k8s版本为1.21\r\n4、升级优化各类型job模板\r\n5、添加nfs的基础部署，添加harbor的基础部署，去除kube-batch\r\n6、修正部分错别字和代码风格优化","2023-10-19T06:00:51"]