[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-data-infra--cube-studio":3,"tool-data-infra--cube-studio":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":80,"owner_website":83,"owner_url":84,"languages":85,"stars":126,"forks":127,"last_commit_at":128,"license":129,"difficulty_score":130,"env_os":131,"env_gpu":132,"env_ram":133,"env_deps":134,"category_tags":141,"github_topics":80,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":142,"updated_at":143,"faqs":144,"releases":190},3027,"data-infra\u002Fcube-studio","cube-studio","cube studio开源云原生一站式机器学习\u002F深度学习\u002F大模型AI平台\u002FMaaS\u002Fmlops\u002F人工智能平台\u002F训推平台，算法全链路流程，算力租赁平台，拖拉拽任务流pipeline编排，多机多卡分布式训练，超参搜索，推理服务，VGPU虚拟化，云边端协同，边缘计算，自动化标注平台，deepseek等大模型sft微调\u002F奖励模型\u002F强化学习训练，vllm\u002Follama\u002Fmindie大模型多机推理，私有知识库llmops智能体，AI模型市场，支持国产异构算力调度,昇腾\u002F寒武纪\u002F海光\u002F摩尔\u002F沐曦等，支持ib\u002Froce\u002FRDMA，支持pytorch\u002Fdeepspeed\u002Fcolossalai\u002Fray等分布式","Cube Studio 是一款开源的云原生一站式人工智能平台，旨在为机器学习、深度学习及大模型应用提供从开发训练到部署推理的全链路支持。它有效解决了 AI 工程化过程中环境配置复杂、分布式训练门槛高、异构算力调度难以及模型管理分散等痛点，让用户能通过可视化的“拖拉拽”方式轻松编排任务流程，无需深陷底层基础设施的繁琐细节。\n\n该平台特别适合 AI 算法工程师、数据科学家、企业研发团队以及需要构建私有化 MaaS（模型即服务）能力的组织使用。无论是进行常规的模型训练，还是探索 DeepSeek 等大模型的微调与强化学习，Cube Studio 都能提供流畅的体验。\n\n其技术亮点在于强大的兼容性与高性能调度能力：不仅支持 PyTorch、DeepSpeed 等主流框架，还能无缝调度昇腾、寒武纪、海光等国产异构算力；内置 VGPU 虚拟化技术与多机多卡分布式训练方案，显著提升资源利用率；同时集成 vLLM、Ollama 等工具实现高效的大模型推理，并支持云边端协同与自动化标注。通过整合项目权限管理、超参搜索及模型市场，Cube Studio 真正实现了 AI 作业的标准化与自动化，助力团队高效","Cube Studio 是一款开源的云原生一站式人工智能平台，旨在为机器学习、深度学习及大模型应用提供从开发训练到部署推理的全链路支持。它有效解决了 AI 工程化过程中环境配置复杂、分布式训练门槛高、异构算力调度难以及模型管理分散等痛点，让用户能通过可视化的“拖拉拽”方式轻松编排任务流程，无需深陷底层基础设施的繁琐细节。\n\n该平台特别适合 AI 算法工程师、数据科学家、企业研发团队以及需要构建私有化 MaaS（模型即服务）能力的组织使用。无论是进行常规的模型训练，还是探索 DeepSeek 等大模型的微调与强化学习，Cube Studio 都能提供流畅的体验。\n\n其技术亮点在于强大的兼容性与高性能调度能力：不仅支持 PyTorch、DeepSpeed 等主流框架，还能无缝调度昇腾、寒武纪、海光等国产异构算力；内置 VGPU 虚拟化技术与多机多卡分布式训练方案，显著提升资源利用率；同时集成 vLLM、Ollama 等工具实现高效的大模型推理，并支持云边端协同与自动化标注。通过整合项目权限管理、超参搜索及模型市场，Cube Studio 真正实现了 AI 作业的标准化与自动化，助力团队高效落地智能应用。","# 同步更新旧仓库 [tencent\u002Fcube-studio](https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio)\n\n# Cube Studio\n\n[English](README_EN.md) | 简体中文\n\n### 整体架构\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_48ee2acd87b8.png)\n\n\n# 帮助文档\n\nhttps:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fwiki\n\n# 开源共建\n\n 学习、部署、体验、开源建设、商业合作 欢迎来撩。或添加微信luanpeng1234，备注\u003C开源建设>\n\n \u003Cimg border=\"0\" width=\"20%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_1ed54a2ca3d6.jpg\" \u002F>\n \n\n# 公司\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_95cea8890e7e.png)\n\n\n# 功能清单\n\ncube studio是 开源一站式云原生机器学习平台，目前主要包含\n\n|模块分组|功能模块| 功能清单                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|:-|:--|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n|基础能力|项目组管理| \u003Cli>AI平台需要通过项目划分，\u003Cli>支持配置相应项目组用户的权限，\u003Cli>任务\u002F服务的挂载，资源组，集群，服务代理，\u003Cli>\u003Cu>项目组内角色应用                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|网络| \u003Cli>支持非80端口，\u003Cli>支持公网\u002F域名，\u003Cli>支持反向代理和内网穿透方式访问，\u003Cli>\u003Cu>支持https\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|用户管理 角色管理\u002F权限管理| \u003Cli>管理平台用户的基本信息，组织架构，支持账号密码，rbac权限体系。\u003Cli> \u003Cu>增加修改和删除，清理等操作的历史记录\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|基础能力|计量计费功能| \u003Cu>\u003Cli>1、支持平台资源限制的分配和查看；项目组资源限制，租户资源限制、任务资源限制，项目组下个人的资源限制，包括开发资源，训练资源、推理资源等。   额度限制限制在notebook，docker构建，pipeline，超参搜索，内部服务，推理服务中的生效。限制支持单任务，并行任务总和和历史任务总和等方法\u003Cli>2、提供统一的开发、训练、推理服务资源监控，从租户、项目、任务角度分析模型资源分配及使用情况。\u003Cli> 3、支持自定义计费模式，通过计量结果自定义获取计费值\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|基础能力|SSO单点登录| \u003Cli>账号密码注册自动登录，\u003Cli>\u003Cu>支持对接公司账号体系AUTH_OID\u002FAUTH_LDAP\u002FAUTH_REMOTE_USER等登录注册方式，\u003Cli>\u003Cu>支持消息推送。  \u003Cli>\u003Cu>增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|基础能力|支持多种算力| \u003Cli>提供多种规格的资源支持不同的使用场景，cpu\u002Fgpu等 支持T4\u002FV100\u002FA100等多种卡型，\u003Cli>\u003Cu>支持arm64芯片，\u003Cli>\u003Cu>支持vgpu等模式。\u003Cli>\u003Cu>支持国产gpu，支持调度海光dcu，华为npu，寒武纪mlu，天数智芯GPU，\u003Cli>\u003Cu>支持rdma调度，mellanox。\u003Cli>\u003Cu>支持gpu禁用模型，共享模式，独占模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|基础能力|多资源组\u002F多集群| \u003Cli>支持划分多资源组，\u003Cli>支持ipvs的k8s网络模式，\u003Cli>\u003Cu>支持多k8s集群，\u003Cli>支持containerd容器运行态                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|基础能力|边缘集群| \u003Cli>\u003Cu>支持边缘集群模式，支持边缘节点开发，训练，推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|serverless集群模式| \u003Cli>\u003Cu>支持腾讯云serverless集群模式，（notebook,pipeline,推理服务模块支持）\u003Cli>\u003Cu>阿里云serverless集群模式（notebook,pipeline,推理服务模块支持）                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|基础能力|数据库存储| \u003Cli>支持外部mysql作为元数据库\u003Cli>\u003Cu>支持外部postgres作为元数据库                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|机器资源管理| \u003Cli>\u003Cu>web界面控制机器调度类型，所属资源组，是否启动rdma，是否启动vgpu，可用任务场景等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|基础能力|存储盘管理| \u003Cli>\u003Cu>支持web界面添加存储盘，支持项目组绑定，notebook pipeline 推理服务，直接在pod中挂载外部分布式存储。\u003Cli>\u003Cu>支持nfs，cfs，oss，nas，cos，glusterfs，cephfs，s3\u002Fminio                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|基础能力|国际化能力| \u003Cli>\u003Cu>mlops支持配置多语言配置，目前支持中英文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|数据管理|数据地图| \u003Cli>元数据库表管理，指标，维表                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据计算| \u003Cli>sqllab交互查询，支持mysql，\u003Cu>postgresql，clickhouse，hive，presto\u003C\u002Fu>等计算引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|数据管理|ETL编排| \u003Cli>数据ETL任务流编排，任务管理等对接公司数据中台相应计算\u002F调度引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|数据管理|数据集管理| \u003Cli>允许用户随时上传样本集（图片、音频、文本等），\u003Cli>\u003Cu>支持sdk进行数据集对接，\u003Cli>\u003Cu>支持数据集一键探索功能                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据标注| \u003Cli>\u003Cu>支持标注平台，图\u002F文\u002F音\u002F多模态各类型标注能力，\u003Cli>\u003Cu>对接一站式机器学习平台，支持自动化标注(需购买aihub)：\u003Cli>\u003Cu>支持目标识别，目标边界识别，目标遮罩识别，图片分类，图片描述，ocr，关键点检测。支持大模型自动化标注：文本分类，文本翻译，命名实体识别，阅读理解，问答，摘要提取。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|开发环境|镜像功能| \u003Cli>镜像仓库\u002F镜像管理\u002F在线构建镜像。同时提供平台所有镜像，包括模板镜像\u002F服务镜像\u002Fnotebook镜像\u002Fgpu基础环境的构建方法和构建后镜像，\u003Cli>\u003Cu>支持dockerfile在线构建 \u003Cli>\u003Cu>支持同一仓库多个秘钥配置                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|开发环境|notebook| \u003Cli>支持基于开源的Jupyterlab\u002Fvscode，提供在线的交互式开发调试工具；\u003Cli>提供多种可选环境ide和开发示例，支持资源类型选择 支持大数据版本，机器学习版本，深度学习版本 \u003Cli>\u003Cu>大数据版本支持用户信息，hdfs客户端，hive客户端和spark客户端 \u003Cli>支持ssh remote与notebook对接远程开发，方便快速将本地代码提交到平台的训练环境。\u003Cli>\u003Cu>ssh隧道代理，单端口开放 \u003Cli>\u003Cu>支持matlab，Rstudio等在线ide \u003Cli>\u003Cu>支持gpu，cpu，内存，监控，支持git交互 \u003Cli>\u003Cu>支持自定义notebook镜像，便于封装公司自己的notebook \u003Cli>\u003Cu>多环境notebook，支持R语言\u002Fjulia语言\u002Fpython2.7\u002Fpython3.6\u002Fpython3.7\u002Fpython3.8\u002Fpython3.9\u002Fpython3.10环境和cube-studio专有环境 \u003Cli>\u003Cu>支持tensorboard任务可视化 \u003Cli>\u003Cu>notebook支持环境镜像保存 \u003Cli>\u003Cu>jupyter支持密码保护 \u003Cli>\u003Cu>notebook支持整卡占用，虚拟卡占用，gpu共享占用 \u003Cli>支持notebook启动自动初始化环境                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型训练|拖拉拽任务流编排调试| \u003Cli>提供拖拽式交互开发环境，支持开发者以拖拽的方式完成业务逻辑的PIPLINE； \u003Cli>支持单任务调试，\u003Cli>训练支持多种资源规格（CPU、GPU等），支持卡型的选择，超时重试等。\u003Cli>\u003Cu>任务支持独占和共享占用gpu\u003C\u002Fu>\u003C\u002Fli>\u003Cli>\u003Cu>分布式任务模板支持单任务调试用户镜像而非模板镜像\u003C\u002Fu>  \u003Cli>\u003Cu>支持rdma资源占用 \u003Cli>\u003Cu>支持gpu不同厂商，不同卡型的占用 \u003Cli>\u003Cu>分布式任务模板支持gpu型号透传，rdma资源透传，拉取秘钥透传  \u003C\u002Fu>\u003Cli>pipeline调试，支持定时调度，补录，并发限制，超时，实例依赖等，\u003Cli>任务管理，\u003Cli>workflow实例管理，\u003Cli>资源监控，\u003Cli>\u003Cu>支持任务输入输出，\u003Cli>\u003Cu>任务流全局变量，\u003Cli>\u003Cu>文本\u002F图片\u002Fechart结果可视化，\u003Cli>\u003Cu>支持workflow暂停和恢复。\u003Cli>\u003Cu>支持任务流优先级 \u003Cli>\u003Cu>支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力 \u003Cli>\u003Cu>任务流支持任务推荐\u003Cli>\u003Cu>定时调度支持最大保留实例数\u003Cli>\u003Cu>pipeline支持任务流优先级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|主流功能算子| 基础算子：\u003Cli>自定义镜像，\u003Cli>\u003Cu>逻辑节点，\u003C\u002Fu>\u003Cli>\u003Cu>python\u003C\u002Fu>\u003C\u002Fli> 数据同步：\u003Cli>数据集导入，\u003Cu>(支持huggingface数据集)\u003C\u002Fu>\u003Cli>datax，\u003Cu>datax-import\u003C\u002Fu>\u003C\u002Fli>\u003Cli>模型导入\u003Cu>(支持huggingface模型)\u003C\u002Fu>\u003C\u002Fli>  数据处理工具：\u003Cli>hadoop\u002Fspark作业提交，\u003Cli>volcanojob\u002Fray分布式数据处理，\u003Cli>sparkjob  \u003C\u002Fli> \u003Cli>\u003Cu>hadoop支持hadfs，hive命令，spark命令\u003C\u002Fu>\u003C\u002Fli> 特征处理： \u003Cu>\u003Cli>-数据合并，包含union、join操作 \u003Cli>-去除重复样本 \u003Cli>-数据变换，包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 \u003Cli>-非数值型变量处理，包括hash、根据统计量转换、one-hot \u003Cli>-异常值检测 \u003Cli>-获取变量的统计量 \u003Cli>-去除值过于单一的变量 \u003Cli>-删除缺失率过高的值 \u003Cli>-删除缺失率过高的值 \u003Cli>-填充缺失值 \u003Cli>-数据离散化，等宽、等频、聚类离散化 \u003Cli> -标准化、正则化、归一化，有最大绝对值归一化、最大最小归一化、z_score标准化 \u003Cli>-索引处理，包含增加索引、索引转列、列索引重命名 \u003Cli> -排序 \u003Cli> -执行sql \u003Cli> -hadamard乘积 \u003Cli> -特征组合，用于衍生特征 \u003Cli> -降维，包括pca降维和卡方降维 \u003Cli> -特征重要性，通过随机森林、逻辑回归、xgboost等模型计算特征重要性，可计算特征的iv值、互信息值、方差等 \u003Cli> -特征向量间的相关性计算 \u003Cli> -数据拆分，包括列内拆分、列间拆分、行间拆分、svd奇异值分解 \u003Cli> -采样，包括随机采样、分层采样、过采样、欠采样\u003C\u002Fli>\u003C\u002Fu>  传统机器学习：\u003Cli>ray-sklearn分布式，\u003Cli>xgb单机训练推理 \u003C\u002Fli>传统机器学习算法：\u003Cu>\u003Cli>ar\u002Farima时间序列算法\u002Frandom-forest\u002Frandom-forest-regression\u002Flr\u002Flightgbm\u002Fknn\u002Fkmean\u002Fgbdt\u002Fdecision-tree\u002Fpca\u002Flda\u002Fcatboost\u002Fxgb\u002F超参搜索 \u003C\u002Fu>\u003C\u002Fli>分布式深度学习框架：\u003Cli>tf\u002Fpytorch\u002F\u003Cu>mxnet\u002Fhorovod\u002Fpaddlejob\u002Fmindspore分布式训练\u003C\u002Fu>\u003C\u002Fli> 分布式加速框架：\u003Cli>\u003Cu>mpi\u002Fcolossalai\u002Fdeepspeed\u002Fhorovod\u002Fmegatron \u003C\u002Fu>\u003C\u002Fli>模型处理：\u003Cu>\u003Cli>模型评估，\u003Cli>模型格式转换 \u003C\u002Fli>\u003C\u002Fu>模型服务化：\u003Cli>模型注册，\u003Cli>\u003Cu>模型离线推理\u003C\u002Fu>，\u003Cli>模型部署 \u003C\u002Fli>媒体分布式处理：\u003Cli>分布式媒体下载，\u003Cli>视频提取图片，\u003Cli>视频提取图片|\n|模型训练|算子自定义| 支持算子自定义，通过web界面操作将自定义算法代码镜像，注册为可被他人复用的pipeline算子                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型训练|自动学习| 面向非AI背景的用户提供自动学习服务，用户选择某一个场景之后，上传训练数据即可自动开始训练和模型部署，\u003Cu>支持示例automl任务流导入导出                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|自定义镜像| 面向高级 AI 开发者，提供自定义训练作业（执行环境 + 代码）功能；                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型训练|自动调参| 基于单机\u002F\u003Cu>分布式自动超参搜索                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|模型训练|TensorBoard作业| \u003Cu>实时\u002F离线观察模型训练过程中的参数和指标变化情况                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型管理 推理服务|内部服务| 支持开发或运维工具快捷部署，提供mysql-web，postgresql web，mobgo web， redis web，neo4j，rstudio等开源工具                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型管理 推理服务|模型管理| 模型管理用于对模型多版本管理，支持模型发布为推理服务                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|模型管理 推理服务|推理服务| \u003Cli>支持\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型的多版本的0代码发布。 \u003Cli>支持gpu卡型选择，\u003Cu>支持vgpu，独占，共享占用\u003C\u002Fu>，\u003Cli>支持cpu\u002Fmem\u002F\u003Cu>gpu等弹性伸缩，\u003Cli>支持服务优先级，\u003C\u002Fu>\u003Cli>支持远程模型路径,支持流量分流，流量复制，sidecar配置，支持泛域名配置，支持配置文件挂载，启动目录\u002F命令\u002F环境变量\u002F端口\u002F指标\u002F健康检查等 支持调试环境\u002F测试环境\u002F生产环境 支持域名\u002Fip代理多种形式 \u003Cli>支持服务负载指标监控 \u003Cli>支持多版本服务滚动升级和回滚，\u003Cli>\u003Cu>支持单pod滚动发布 \u003C\u002Fu>\u003Cli>\u003Cu>支持禁用k8s service负载均衡器 \u003C\u002Fu>\u003Cli>\u003Cu>支持大模型分布式推理 \u003C\u002Fu>\u003Cli>提供\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型推理服务镜像 支持用户自定义模型推理镜像\u003Cli>\u003Cu>支持定时伸缩容\u003C\u002Fli>\u003Cli>\u003Cu>支持配置服务的jwt认证功能\u003C\u002Fli>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|监控|整体资源| \u003Cli>所有集群，所有计算机器的使用情况，包括机器的所属集群，所属资源组，机器ip，cpu\u002Fgpu类型和卡型，当前cpu\u002F内存\u002Fgpu的使用率\u003Cli> 所有集群，所有计算pod的使用情况，包括pod所属集群，所属资源组，所属命名空间，调度ip，pod名称，启动用户，cpu，gpu，内存的申请使用率 \u003Cli>\u003Cu>整体资源页面，支持管理员批量删除                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|监控|监控体系| \u003Cli>所有机器的gpu资源的使用情况， \u003Cli>所有机器的内存\u002Fcpu\u002F网络io\u002F磁盘io的负载情况， \u003Cli>所有pod的内存\u002Fcpu\u002Fgpu\u002F网络io负载情况 \u003Cli>所有推理服务的内存\u002Fcpu\u002Fgpu\u002Fqps\u002F吞吐\u002Fvgpu负载情况 \u003Cli>\u003Cu>支持ib流量监控                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|模型应用市场|模型应用管理方案| \u003Cli>\u003Cu>提供cubestudio sdk，提供模型开发规范和使用规范                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供web端模型应用体验，支持同步\u002F异步推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供开发多个python cuda版本的基础镜像                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|模型应用市场|预训练模型| \u003Cli>\u003Cu>提供视觉，听觉，nlp，多模态等400+预训练模型，提供预训练模型的模型加载和推理能力，可直接一键部署服务，并提供api                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|模型市场| \u003Cli>\u003Cu>aihub应用对接cube-studio平台进行卡片式展示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|模型应用市场|模型一键开发| \u003Cli>\u003Cu>提供一键转notebook开发，提供符合当前模型所需环境的jupyter                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型应用市场|模型一键微调| \u003Cli>\u003Cu>支持一键转pipeline微调链路，包括示例数据集下载，微调，模型注册，模型部署，支持微调后模型部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |\n|模型应用市场|模型一键部署web| \u003Cli>\u003Cu>提供模型一键部署提供手机端和pc端web界面和api，和demo示例弹窗演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|模型自动化标注| \u003Cli>\u003Cu>支持部署对接labelstudio自动化标注                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|数据集sdk| \u003Cli>\u003Cu>支持通过python sdk搜索上传下载数据集，支持数据集的加解密\u002F解压缩\u002F数据集基础信息查看等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型应用市场|notebook sdk| \u003Cli>\u003Cu>支持通过api，对接cube-studio创建notebook，并跳转到指定目录，用于其他算法平台在当前平台的调试和演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|pipeline训练sdk| \u003Cli>\u003Cu>支持AI开发主流语言 Python，提供Python SDK支持用户通过SDK来进行pipeline任务流管理和训练任务启动以及任务流编排                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|模型应用市场|推理服务sdk| \u003Cli>\u003Cu>提供python sdk，对接cube tudio进行推理服务的发布，服务升级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|大模型分布式多机多卡| \u003Cli>\u003Cu>支持分布式多机多卡训练，例如mpi\u002Fdeepspeed\u002FColossal-AI                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理aihub形式| \u003Cli>\u003Cu>支持openjourney\u002Fgpt3\u002Fyuan\u002Fsd-v1.5\u002Fsd-v2\u002Fsd-v3\u002FStable Cascade\u002FStable Diffusion XL\u002Fchatglm\u002Fllama\u002Fchinese-alpaca\u002Fqwen\u002Fgemma\u002Fyi\u002Faquilachat2部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理openai接口| \u003Cli>\u003Cu>支持fastchat+vllm大模型推理，支持推理加速+流式接口                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|大模型|支持大模型微调| \u003Cli>\u003Cu>支持chatglm2\u002Fchatglm3\u002Fchatglm4\u002Fllama3-chinese\u002Fqwen lora微调，支持llama-factory 100+llm微调                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|大模型|智能对话| \u003Cli>\u003Cu>提供支持多场景对话，支持提示词构建，推理接口配置，llm问答，支持问询中模型切换，清理，历史上下文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|大模型|私有知识库| \u003Cli>\u003Cu>私有知识库配置，私有知识库召回                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持召回列表模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持aigc模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持微信公众号服务号对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持企业微信群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持钉钉群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n\n\n# 支持模板\n\n提示：\n- 1、可自由定制任务插件，更适用当前业务需求\n\n| 模块     | 模板                    | 类型 | 文档地址 |\n|:-------|:----------------------| :---- |:---- |\n| 数据导入导出 | datax                 | 单机 | job-template\u002Fjob\u002Fdatax\u002FREADME.md\n| 数据导入导出 | 数据集导入                 | 单机 | job-template\u002Fjob\u002Fdataset\u002FREADME.md\n| 数据导入导出 | 模型导入                  | 单机 | job-template\u002Fjob\u002Fmodel_download\u002FREADME.md\n| 数据预处理  | data-process          | 单机 | job-template\u002Fjob\u002Fdata-process\u002FREADME.md\n| 数据处理工具 | hadoop                | 单机 | job-template\u002Fjob\u002Fhadoop\u002FREADME.md\n| 数据处理工具   | ray                   | 分布式 | job-template\u002Fjob\u002Fray\u002FREADME.md\n| 数据处理工具   | volcanojob            | 分布式 | job-template\u002Fjob\u002Fvolcano\u002FREADME.md\n| 特征处理   | feature-process       | 单机 | job-template\u002Fjob\u002Ffeature-process\u002FREADME.md\n| 机器学习框架 | ray-sklearn           | 分布式 | job-template\u002Fjob\u002Fray-sklearn\u002FREADME.md\n| 机器学习算法 | random_forest         | 单机 | job-template\u002Fjob\u002Frandom_forest\u002FREADME.md\n| 机器学习算法 | lr                    | 单机 | job-template\u002Fjob\u002Flr\u002FREADME.md\n| 机器学习算法 | lightgbm              | 单机 | job-template\u002Fjob\u002Flightgbm\u002FREADME.md\n| 机器学习算法 | knn                   | 单机 | job-template\u002Fjob\u002Fknn\u002FREADME.md\n| 机器学习算法 | kmeans                | 单机 | job-template\u002Fjob\u002Fkmeans\u002FREADME.md\n| 机器学习算法 | nni                   | 单机 | job-template\u002Fjob\u002Fhyperparameter-search-nni\u002FREADME.md\n| 机器学习算法 | xgb                   | 单机 | job-template\u002Fjob\u002Fxgb\u002FREADME.md\n| 机器学习算法 | gbdt                  | 单机 | job-template\u002Fjob\u002Fgbdt\u002FREADME.md\n| 机器学习算法 | decision-tree         | 单机 | job-template\u002Fjob\u002Fdecision_tree\u002FREADME.md\n| 机器学习算法 | bayesian              | 单机 | job-template\u002Fjob\u002Fbayesian\u002FREADME.md\n| 机器学习算法 | adaboost              | 单机 | job-template\u002Fjob\u002Fadaboost\u002FREADME.md\n| 深度学习   | tfjob                 | 分布式 | job-template\u002Fjob\u002Ftf\u002FREADME.md\n| 深度学习   | pytorchjob            | 分布式 | job-template\u002Fjob\u002Fpytorch\u002FREADME.md\n| 深度学习   | paddle                | 分布式 | job-template\u002Fjob\u002Fpaddle\u002FREADME.md\n| 深度学习   | mxnet                 | 分布式 | job-template\u002Fjob\u002Fmxnet\u002FREADME.md\n| 深度学习   | mindspore             | 分布式 | job-template\u002Fjob\u002Fmindspore\u002FREADME.md\n| 深度学习   | horovod               | 分布式 | job-template\u002Fjob\u002Fhorovod\u002FREADME.md\n| 深度学习   | mpi                   | 分布式 | job-template\u002Fjob\u002Fmpi\u002FREADME.md\n| 深度学习   | colossalai            | 分布式 | job-template\u002Fjob\u002Fcolossalai\u002FREADME.md\n| 深度学习   | deepspeed             | 分布式 | job-template\u002Fjob\u002Fdeepspeed\u002FREADME.md\n| 深度学习   | megatron              | 分布式 | job-template\u002Fjob\u002Fmegatron\u002FREADME.md\n| 模型处理   | model-evaluation      | 单机 | job-template\u002Fjob\u002Fmodel_evaluation\u002FREADME.md\n| 模型服务化  | model-convert         | 单机 | job-template\u002Fjob\u002Fmodel-convert\u002FREADME.md\n| 模型服务化  | model-register        | 单机 | job-template\u002Fjob\u002Fmodel_register\u002FREADME.md\n| 模型服务化  | deploy-service        | 单机 | job-template\u002Fjob\u002Fdeploy-service\u002FREADME.md\n| 模型服务化  | model-offline-predict | 分布式 | job-template\u002Fjob\u002Foffline-predict\u002FREADME.md\n| 多媒体类   | media-download        | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-img             | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-audio           | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 大模型    | llama                 | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | chatglm               | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | qwen                  | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | deepseek              | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | llama-factory         | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n\n# 平台简介\n\n\n完整的平台包含\n - 1、机器的标准化\n - 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus\u002Fefk\u002Fzipkin)\n - 3、基础能力(tf\u002Fpytorch\u002Fmxnet\u002Fvalcano\u002Fray等分布式，nni\u002Fray超参搜索)\n - 4、平台web部分(oa\u002F权限\u002F项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)\n\n![输入图片说明](https:\u002F\u002Fcube-studio.oss-cn-hangzhou.aliyuncs.com\u002Fdocs\u002Fimage\u002Finfra.png) \n\n\n# 算力\u002F存储\u002F用户管理\n\n算力：\n - 云原生统筹平台cpu\u002Fgpu等算力\n - 支持划分多资源组，支持多k8s集群，多地部署\n - 支持T4\u002FV100\u002FA100\u002F昇腾\u002Fdcu\u002FVGPU等异构GPU\u002FNPU环境\n - 支持边缘集群模式，支持边缘节点上开发\u002F训练\u002F推理\n - 支持鲲鹏芯片arm64架构，RDMA\n\n存储：\n - 自带分布式存储，支持多机分布式下文件处理\n - 支持外部存储挂载，支持项目组挂载绑定\n - 支持个人存储空间\u002F组空间等多种形式\n - 平台内存储空间不需要迁移\n\n用户权限：\n - 支持sso登录，对接公司账号体系\n - 支持项目组划分，支持配置相应项目组用户的权限\n - 管理平台用户的基本信息，组织架构，rbac权限体系\n\n# 多集群管控\n\ncube支持多集群调度，可同时管控多个训练或推理集群。在单个集群内，不仅能做到一个项目组内对在线开发、训练、推理的隔离，还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力，能够在多项目间共享公共算力池和私有化算力池，做到成本最低化。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_763efcf9edab.png)\n\n# 分布式存储\n\ncube会自动为用户挂载用户的个人目录，同一个用户在平台任何地方启动的容器，其用户个人子目录均为\u002Fmnt\u002F$username。可以将pvc\u002Fhostpath\u002Fmemory\u002Fconfigmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载，进而实现一个项目组共享同一个目录等功能。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_c8d58ad7662a.png)\n\n# 在线开发\n\n - 系统多租户\u002F多实例管理，在线交互开发调试，无需安装三方控件，只需浏览器就能完成开发。\n - 支持vscode，jupyter，Matlab，Rstudio等多种在线IDE类型\n - Jupyter支持cube-studio sdk，Julia，R，python，pyspark多内核版本，\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_08c6ca4391f6.png)\n\n\n - 支持c++，java，conda等多种开发语言，以及tensorboard\u002Fgit\u002Fgpu监控等多种插件\n - 支持ssh remote与notebook互通，本地进行代码开发\n - 在线镜像构建，通过Web Shell方式在浏览器中完成构建；并提供各种版本notebook，inference，gpu，python等基础镜像\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_9b5f761ff386.png)\n\n\n# 标注平台：\n\n - 支持图\u002F文\u002F音\u002F多模态\u002F大模型多种类型标注功能，用户管理，工作任务分发\n - 对接aihub模型市场，支持自动化标注；对接数据集，支持标注数据导入；对接pipeline，支持标注结果自动化训练\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_6438d078a190.png)\n\n\n# 拖拉拽pipeline编排\n\n1、Ml全流程\n\n数据导入，数据预处理，超惨搜索，模型训练，模型评估，模型压缩，模型注册，服务上线，ml算法全流程\n\n2、灵活开放\n\n支持单任务调试、分布式任务日志聚合查看，pipeline调试跟踪，任务运行资源监控，以及定时调度功能(包含补录，忽略，重试，依赖，并发限制，过期淘汰等功能)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_c9d80ce9ff0d.png)\n\n\n# 分布式框架\n\n1、训练框架支持分布式（协议和策略）  \n2、代码识别分布式角色（有状态）  \n3、控制器部署分布式训练集群（operator）  \n4、配置分布式训练集群的部署（CRD）  \n\n\n# 多层次多类型算子\n\n以k8s为核心，  \n1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等，  \n2、 以及在此衍生出来的分布式的数据下载，hdfs拉取，cos上传下载，视频采帧，音频抽取，分布式的训练，例如推荐场景的din算法，ComiRec算法，MMoE算法，DeepFM算法，youtube dnn算法，ple模型，ESMM模型，双塔模型，音视频的wenet，containAI等算法的分布式训练。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_33e40dfd9352.png)\n\n\n# 功能模板化\n\n - 和非模板开发相比，使用模板建立应用成本会更低一些，无需开发平台。\n - 迁移更加容易，通过模板标准化后，后续应用迁移迭代只需迁移配置模板，简化复杂的配置操作。\n - 配置复用，通过简单的配置就可以复用这些能力，算法与工程分离避免重复开发。\n\n\n为了避免重复开发，对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像，将镜像注册到平台，这样其他用户就可以复用这些功能。平台自带模板在job-template目录下\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_34f19894a848.png)\n\n# 流水线调试\n\n - Pipeline调试支持定时执行，支持，补录，并发限制，超时，实例依赖等。\n - Pipeling运行，支持变量在任务间输入输出，全局变量，流向控制，模板变量，数据时间等\n - Pipeling运行，支持任务结果可视化，图片、csv\u002Fjson，echart源码可视化\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_35a279593f1a.png)\n\n# nni超参搜索\n\n\n界面化呈现训练各组数据，通过图形界面进行直观呈现。\n减少以往开发调参过程的枯燥感，让整个调参过程更加生动具有趣味性，完全无需丰富经验就能实现更精准的参数控制调节。\n\n```bash\n# 上报当前迭代目标值\nnni.report_intermediate_result(test_acc)\n# 上报最终目标值\nnni.report_final_result(test_acc)\n\n# 接收超参数为输入参数\nparser.add_argument('--batch_size', type=int)\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_8313ac0f6bc0.png)\n\n\n# 推理服务\n\n0代码发布推理服务从底层到上层，包含服务网格，serverless，pipeline，http框架，模型计算。\n\n - 服务网格阶段：主要工作是代理流量的中转和管控，例如分流，镜像，限流，黑白名单之类的。\n\n - serverless阶段：主要为服务的智能化运维，例如服务的激活，伸缩容，版本管理，蓝绿发布。\n\n - pipeline阶段：主要为请求在各数据处理\u002F推理之间的流动。推理的前后置处理逻辑等。\n\n - http\u002Fgrpc框架：主要为处理客户端的请求，准备推理样本，推理后作出响应。\n\n - 模型计算：模型在cpu\u002Fgpu上对输入样本做前向计算。\n\n主要功能：\n\n - 支持模型管理注册，灰度发布，版本回退，模型指标可视化，以及在piepline中进行模型注册\n - 推理服务支持多集群，多资源组，异构gpu环境，平台资源统筹监控，VGPU，服务流量分流，复制，sidecar\n - 支持0代码的模型发布，gpu推理加速，支持训练推理混部，服务优先级，自定义指标弹性伸缩。\n \n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_9116f6164c82.png)\n\n# 监控和推送\n\n监控：cube-studio集成prometheus生态，可以监控包括主机，进程，服务流量，gpu等相关负载，并配套grafana进行可视化\n\n推送：cube-studio开放推送接口，可自定义推送给企业oa系统\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_6499e089529a.png)\n\n# AIHub\n\n - 系统自带通用模型数量400+，覆盖绝大数行业场景，根据需求可以不断扩充。\n - 模型开源、按需定制，方便快速集成，满足用户业务增长及二次开发升级。\n - 模型标准化开发管理，大幅降低使用门槛，开发周期时长平均下降30%以上。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_d27861a8b884.png)\n\n\n - AIHub模型可一键部署为WEB端应用，手机端\u002FPC端皆可，实时查看模型应用效果\n - 点击模型开发即可进入notebook进行模型代码的二次开发，实现一键开发\n - 点击训练即可加入自己的数据进行一键微调，使模型更贴合自身场景\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_4b14126a1fea.png)\n\n# GPT训练微调\n\n - cube-studio支持deepspeed\u002Fcolossalai等分布式加速框架，可一键实现大模型多机多卡分布式训练\n - AIHub包含gpt\u002FAIGC大模型，可一键转为微调pipeline，修改为自己的数据后，便可以微调并部署\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_8bfa9ff63a66.png)\n\n\n# GPT-RDMA\n\nrdma插件部署后，k8s机器可用资源\n```bash\ncapacity:\n  cpu: '128'\n  memory: 1056469320Ki\n  nvidia.com\u002Fgpu: '8'\n  rdma\u002Fhca: '500'\n```\n代码分布式训练中使用IB设备\n```bash\nexport NCCL_IB_HCA=mlx5\nexport MLP_WORKER_GPU=$GPU_NUM\nexport MLP_WORKER_NUM=$WORLD_SIZE\nexport MLP_ROLE_INDEX=$RANK\nexport MLP_WORKER_0_HOST=$MASTER_ADDR\nexport MLP_WORKER_0_PORT=$MASTER_PORT\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_307cbb029f95.png)\n\n\n# gpt私有知识库\n\n - 数据智能模块可配置专业领域智能对话，快速敏捷使用llm\n - 可为某个聊天场景配置私有知识库文件，支持主题分割，语义embedding，意图识别，概要提取，多路召回，排序，多种功能融合\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_9eb27b814396.png)\n\n\n# gpt智能聊天\n\n - 可以将智能会话与AIHub相结合，例如下面AIGC模型与聊天会话\n - 可使用Autogpt方式串联所有aihub模型，进行图文音智能化处理\n - 智能会话与公共直接打通，可在微信公众号中进行图文音对话\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_ca1a37cc203c.png)\n\n\n# 数据中台对接\n  \n为了加速AI算法平台的使用，cube-studio支持对接公司原有数据中台，包括数据计算引擎sqllab，元数据管理，指标管理，维表管理，数据ETL，数据集管理\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_15c2d098c972.png)\n\n\n# 三种方式部署\n\n针对企业需求，根据不同场景对计算实时性的不同需求，可以提供三种建设模式\n\n模式一：私有化部署——对数据安全要求高、预算充足、自己有开发能力  \n模式二：边缘集群部署——算力分散，多个子网环境的场景，或边缘设备场景  \n模式三：serverless集群——成本有限，按需申请算力的场景  \n\n## 边缘计算\n\n通过边缘集群的形式，在中心节点部署平台，并将边缘节点加入调度，每个私有网用户，通过项目组，将notebook，pipeline，service部署在边缘节点  \n - 1、避免数据到中心节点的带宽传输  \n - 2、避免中心节点的算力成本，充分利用边缘节点算力\n - 3、避免边缘节点的运维成本\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_f9e4098205e3.png)\n\n","# 同步更新旧仓库 [tencent\u002Fcube-studio](https:\u002F\u002Fgithub.com\u002Ftencentmusic\u002Fcube-studio)\n\n# Cube Studio\n\n[English](README_EN.md) | 简体中文\n\n### 整体架构\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_48ee2acd87b8.png)\n\n\n# 帮助文档\n\nhttps:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fwiki\n\n# 开源共建\n\n 学习、部署、体验、开源建设、商业合作 欢迎来撩。或添加微信luanpeng1234，备注\u003C开源建设>\n\n \u003Cimg border=\"0\" width=\"20%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_1ed54a2ca3d6.jpg\" \u002F>\n \n\n# 公司\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_95cea8890e7e.png)\n\n\n# 功能清单\n\ncube studio是 开源一站式云原生机器学习平台，目前主要包含\n\n|模块分组|功能模块| 功能清单                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|:-|:--|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n|基础能力|项目组管理| \u003Cli>AI平台需要通过项目划分，\u003Cli>支持配置相应项目组用户的权限，\u003Cli>任务\u002F服务的挂载，资源组，集群，服务代理，\u003Cli>\u003Cu>项目组内角色应用                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|网络| \u003Cli>支持非80端口，\u003Cli>支持公网\u002F域名，\u003Cli>支持反向代理和内网穿透方式访问，\u003Cli>\u003Cu>支持https\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|用户管理 角色管理\u002F权限管理| \u003Cli>管理平台用户的基本信息，组织架构，支持账号密码，rbac权限体系。\u003Cli> \u003Cu>增加修改和删除，清理等操作的历史记录\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|基础能力|计量计费功能| \u003Cu>\u003Cli>1、支持平台资源限制的分配和查看；项目组资源限制，租户资源限制、任务资源限制，项目组下个人的资源限制，包括开发资源，训练资源、推理资源等。   额度限制限制在notebook，docker构建，pipeline，超参搜索，内部服务，推理服务中的生效。限制支持单任务，并行任务总和和历史任务总和等方法\u003Cli>2、提供统一的开发、训练、推理服务资源监控，从租户、项目、任务角度分析模型资源分配及使用情况。\u003Cli> 3、支持自定义计费模式，通过计量结果自定义获取计费值\u003C\u002Fu>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|基础能力|SSO单点登录| \u003Cli>账号密码注册自动登录，\u003Cli>\u003Cu>支持对接公司账号体系AUTH_OID\u002FAUTH_LDAP\u002FAUTH_REMOTE_USER等登录注册方式，\u003Cli>\u003Cu>支持消息推送。  \u003Cli>\u003Cu>增加登录验证，强密码，远程用户，登录频率限制，密码密文传输等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|基础能力|支持多种算力| \u003Cli>提供多种规格的资源支持不同的使用场景，cpu\u002Fgpu等 支持T4\u002FV100\u002FA100等多种卡型，\u003Cli>\u003Cu>支持arm64芯片，\u003Cli>\u003Cu>支持vgpu等模式。\u003Cli>\u003Cu>支持国产gpu，支持调度海光dcu，华为npu，寒武纪mlu，天数智芯GPU，\u003Cli>\u003Cu>支持rdma调度，mellanox。\u003Cli>\u003Cu>支持gpu禁用模型，共享模式，独占模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|基础能力|多资源组\u002F多集群| \u003Cli>支持划分多资源组，\u003Cli>支持ipvs的k8s网络模式，\u003Cli>\u003Cu>支持多k8s集群，\u003Cli>支持containerd容器运行态                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|基础能力|边缘集群| \u003Cli>\u003Cu>支持边缘集群模式，支持边缘节点开发，训练，推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|基础能力|serverless集群模式| \u003Cli>\u003Cu>支持腾讯云serverless集群模式，（notebook,pipeline,推理服务模块支持）\u003Cli>\u003Cu>阿里云serverless集群模式（notebook,pipeline,推理服务模块支持）                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|基础能力|数据库存储| \u003Cli>支持外部mysql作为元数据库\u003Cli>\u003Cu>支持外部postgres作为元数据库                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|基础能力|机器资源管理| \u003Cli>\u003Cu>web界面控制机器调度类型，所属资源组，是否启动rdma，是否启动vgpu，可用任务场景等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|基础能力|存储盘管理| \u003Cli>\u003Cu>支持web界面添加存储盘，支持项目组绑定，notebook pipeline 推理服务，直接在pod中挂载外部分布式存储。\u003Cli>\u003Cu>支持nfs，cfs，oss，nas，cos，glusterfs，cephfs，s3\u002Fminio                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|基础能力|国际化能力| \u003Cli>\u003Cu>mlops支持配置多语言配置，目前支持中英文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|数据管理|数据地图| \u003Cli>元数据库表管理，指标，维表                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据计算| \u003Cli>sqllab交互查询，支持mysql，\u003Cu>postgresql，clickhouse，hive，presto\u003C\u002Fu>等计算引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|数据管理|ETL编排| \u003Cli>数据ETL任务流编排，任务管理等对接公司数据中台相应计算\u002F调度引擎                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|数据管理|数据集管理| \u003Cli>允许用户随时上传样本集（图片、音频、文本等），\u003Cli>\u003Cu>支持sdk进行数据集对接，\u003Cli>\u003Cu>支持数据集一键探索功能                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|数据管理|数据标注| \u003Cli>\u003Cu>支持标注平台，图\u002F文\u002F音\u002F多模态各类型标注能力，\u003Cli>\u003Cu>对接一站式机器学习平台，支持自动化标注(需购买aihub)：\u003Cli>\u003Cu>支持目标识别，目标边界识别，目标遮罩识别，图片分类，图片描述，ocr，关键点检测。支持大模型自动化标注：文本分类，文本翻译，命名实体识别，阅读理解，问答，摘要提取。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|开发环境|镜像功能| \u003Cli>镜像仓库\u002F镜像管理\u002F在线构建镜像。同时提供平台所有镜像，包括模板镜像\u002F服务镜像\u002Fnotebook镜像\u002Fgpu基础环境的构建方法和构建后镜像，\u003Cli>\u003Cu>支持dockerfile在线构建 \u003Cli>\u003Cu>支持同一仓库多个秘钥配置                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|开发环境|notebook| \u003Cli>支持基于开源的Jupyterlab\u002Fvscode，提供在线的交互式开发调试工具；\u003Cli>提供多种可选环境ide和开发示例，支持资源类型选择 支持大数据版本，机器学习版本，深度学习版本 \u003Cli>\u003Cu>大数据版本支持用户信息，hdfs客户端，hive客户端和spark客户端 \u003Cli>支持ssh remote与notebook对接远程开发，方便快速将本地代码提交到平台的训练环境。\u003Cli>\u003Cu>ssh隧道代理，单端口开放 \u003Cli>\u003Cu>支持matlab，Rstudio等在线ide \u003Cli>\u003Cu>支持gpu，cpu，内存，监控，支持git交互 \u003Cli>\u003Cu>支持自定义notebook镜像，便于封装公司自己的notebook \u003Cli>\u003Cu>多环境notebook，支持R语言\u002Fjulia语言\u002Fpython2.7\u002Fpython3.6\u002Fpython3.7\u002Fpython3.8\u002Fpython3.9\u002Fpython3.10环境和cube-studio专有环境 \u003Cli>\u003Cu>支持 tensorboard任务可视化 \u003Cli>\u003Cu>notebook支持环境镜像保存 \u003Cli>\u003Cu>jupyter支持密码保护 \u003Cli>\u003Cu>notebook支持整卡占用，虚拟卡占用，gpu共享占用 \u003Cli>支持notebook启动自动初始化环境                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型训练|拖拉拽任务流编排调试| \u003Cli>提供拖拽式交互开发环境，支持开发者以拖拽的方式完成业务逻辑的PIPLINE； \u003Cli>支持单任务调试，\u003Cli>训练支持多种资源规格（CPU、GPU等），支持卡型的选择，超时重试等。\u003Cli>\u003Cu>任务支持独占和共享占用gpu\u003C\u002Fu>\u003C\u002Fli>\u003Cli>\u003Cu>分布式任务模板支持单任务调试用户镜像而非模板镜像\u003C\u002Fu>  \u003Cli>\u003Cu>支持rdma资源占用 \u003Cli>\u003Cu>支持gpu不同厂商，不同卡型的占用 \u003Cli>\u003Cu>分布式任务模板支持gpu型号透传，rdma资源透传，拉取秘钥透传  \u003C\u002Fu>\u003Cli>pipeline调试，支持定时调度，补录，并发限制，超时，实例依赖等，\u003Cli>任务管理，\u003Cli>workflow实例管理，\u003Cli>资源监控，\u003Cli>\u003Cu>支持任务输入输出，\u003Cli>\u003Cu>任务流全局变量，\u003Cli>\u003Cu>文本\u002F图片\u002Fechart结果可视化，\u003Cli>\u003Cu>支持 workflow暂停和恢复。\u003Cli>\u003Cu>支持任务流优先级 \u003Cli>\u003Cu>支持单任务和pipeline运行中任务监听端口提供运行中服务监听能力 \u003Cli>\u003Cu>任务流支持任务推荐\u003Cli>\u003Cu>定时调度支持最大保留实例数\u003Cli>\u003Cu>pipeline支持任务流优先级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|主流功能算子| 基础算子：\u003Cli>自定义镜像，\u003Cli>\u003Cu>逻辑节点，\u003C\u002Fu>\u003Cli>\u003Cu>python\u003C\u002Fu>\u003C\u002Fli> 数据同步：\u003Cli>数据集导入，\u003Cu>(支持huggingface数据集)\u003C\u002Fu>\u003Cli>datax，\u003Cu>datax-import\u003C\u002Fu>\u003C\u002Fli>\u003Cli>模型导入\u003Cu>(支持huggingface模型)\u003C\u002Fu>\u003C\u002Fli>  数据处理工具：\u003Cli>hadoop\u002Fspark作业提交，\u003Cli>volcanojob\u002Fray分布式数据处理，\u003Cli>sparkjob  \u003C\u002Fli> \u003Cli>\u003Cu>hadoop支持hadfs，hive命令，spark命令\u003C\u002Fu>\u003C\u002Fli> 特征处理： \u003Cu>\u003Cli>- 数据合并，包含union、join操作 \u003Cli>- 去除重复样本 \u003Cli>- 数据变换，包括boxcox转换、二值化、数据类型转换、dct变换、根据函数转换、ma移动平均、多项式展开 \u003Cli>- 非数值型变量处理，包括hash、根据统计量转换、one-hot \u003Cli>- 异常值检测 \u003Cli>- 获取变量的统计量 \u003Cli>- 去除值过于单一的变量 \u003Cli>- 删除缺失率过高的值 \u003Cli>- 填充缺失值 \u003Cli>- 数据离散化，等宽、等频、聚类离散化 \u003Cli> - 标准化、正则化、归一化，有最大绝对值归一化、最大最小归一化、z_score标准化 \u003Cli>- 索引处理，包含增加索引、索引转列、列索引重命名 \u003Cli> - 排序 \u003Cli> - 执行sql \u003Cli> - hadamard乘积 \u003Cli> - 特征组合，用于衍生特征 \u003Cli> - 降维，包括pca降维和卡方降维 \u003Cli> - 特征重要性，通过随机森林、逻辑回归、xgboost等模型计算特征重要性，可计算特征的iv值、互信息值、方差等 \u003Cli> - 考察特征向量间的相关性 \u003Cli> - 数据拆分，包括列内拆分、列间拆分、行间拆分、svd奇异值分解 \u003Cli> - 采样，包括随机采样、分层采样、过采样、欠采样\u003C\u002Fli>\u003C\u002Fu>  传统机器学习：\u003Cli>ray-sklearn分布式，\u003Cli>xgb单机训练推理 \u003C\u002Fli>传统机器学习算法：\u003Cu>\u003Cli>ar\u002Farima时间序列算法\u002Frandom-forest\u002Frandom-forest-regression\u002Flr\u002Flightgbm\u002Fknn\u002Fkmean\u002Fgbdt\u002Fdecision-tree\u002Fpca\u002Flda\u002Fcatboost\u002Fxgb\u002F超参搜索 \u003C\u002Fu>\u003C\u002Fli>分布式深度学习框架：\u003Cli>tf\u002Fpytorch\u002F\u003Cu>mxnet\u002Fhorovod\u002Fpaddlejob\u002Fmindspore分布式训练\u003C\u002Fu>\u003C\u002Fli> 分布式加速框架：\u003Cli>\u003Cu>mpi\u002Fcolossalai\u002Fdeepspeed\u002Fhorovod\u002Fmegatron \u003C\u002Fu>\u003C\u002Fli>模型处理：\u003Cu>\u003Cli>模型评估，\u003Cli>模型格式转换 \u003C\u002Fli>\u003C\u002Fu>模型服务化：\u003Cli>模型注册，\u003Cli>\u003Cu>模型离线推理\u003C\u002Fu>,\u003Cli>模型部署 \u003C\u002Fli>媒体分布式处理：\u003Cli>分布式媒体下载，\u003Cli>视频提取图片，\u003Cli>视频提取图片|\n|模型训练|算子自定义| 支持算子自定义，通过web界面操作将自定义算法代码镜像，注册为可被他人复用的pipeline算子                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型训练|自动学习| 面向非AI背景的用户提供自动学习服务，用户选择某一个场景之后，上传训练数据即可自动开始训练和模型部署，\u003Cu>支持示例automl任务流导入导出                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型训练|自定义镜像| 面向高级 AI 开发者，提供自定义训练作业（执行环境 + 代码）功能；                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型训练|自动调参| 基于单机\u002F\u003Cu>分布式自动超参搜索                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |\n|模型训练|TensorBoard作业| \u003Cu>实时\u002F离线观察模型训练过程中的参数和指标变化情况                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型管理 推理服务|内部服务| 支持开发或运维工具快捷部署，提供mysql-web，postgresql web，mobgo web， redis web，neo4j，rstudio等开源工具                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |\n|模型管理 推理服务|模型管理| 模型管理用于对模型多版本管理，支持模型发布为推理服务                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |\n|模型管理 推理服务|推理服务| \u003Cli>支持\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型的多版本的0代码发布。 \u003Cli>支持gpu卡型选择，\u003Cu>支持vgpu，独占，共享占用\u003C\u002Fu>，\u003Cli>支持cpu\u002Fmem\u002F\u003Cu>gpu等弹性伸缩，\u003Cli>支持服务优先级，\u003C\u002Fu>\u003Cli>支持远程模型路径,支持流量分流，流量复制，sidecar配置，支持泛域名配置，支持配置文件挂载，启动目录\u002F命令\u002F环境变量\u002F端口\u002F指标\u002F健康检查等 支持调试环境\u002F测试环境\u002F生产环境 支持域名\u002Fip代理多种形式 \u003Cli>支持服务负载指标监控 \u003Cli>支持多版本服务滚动升级和回滚，\u003Cli>\u003Cu>支持单pod滚动发布 \u003C\u002Fu>\u003Cli>\u003Cu>支持禁用 k8s service负载均衡器 \u003C\u002Fu>\u003Cli>\u003Cu>支持大模型分布式推理 \u003C\u002Fu>\u003Cli>提供\u003Cu>ml\u003C\u002Fu>\u002Ftf\u002Fpytorch\u002Ftentortrt\u002Fonnx常规模型推理服务镜像 支持用户自定义模型推理镜像\u003Cli>\u003Cu>支持定时伸缩容\u003C\u002Fli>\u003Cli>\u003Cu>支持配置服务的jwt认证功能\u003C\u002Fli>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|监控|整体资源| \u003Cli>所有集群，所有计算机器的使用情况，包括机器的所属集群，所属资源组，机器ip，cpu\u002Fgpu类型和卡型，当前cpu\u002F内存\u002Fgpu的使用率\u003Cli> 所有集群，所有计算pod的使用情况，包括pod所属集群，所属资源组，所属命名空间，调度ip，pod名称，启动用户，cpu，gpu，内存的申请使用率 \u003Cli>\u003Cu>整体资源页面，支持管理员批量删除                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|监控|监控体系| \u003Cli>所有机器的gpu资源的使用情况， \u003Cli>所有机器的内存\u002Fcpu\u002F网络io\u002F磁盘io的负载情况， \u003Cli>所有pod的内存\u002Fcpu\u002Fgpu\u002F网络io负载情况 \u003Cli>所有推理服务的内存\u002Fcpu\u002Fgpu\u002Fqps\u002F吞吐\u002Fvgpu负载情况 \u003Cli>\u003Cu>支持ib流量监控                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|模型应用市场|模型应用管理方案| \u003Cli>\u003Cu>提供cubestudio sdk，提供模型开发规范和使用规范                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供web端模型应用体验，支持同步\u002F异步推理                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场| 模型应用管理方案| \u003Cli>\u003Cu>提供开发多个python cuda版本的基础镜像                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|模型应用市场|预训练模型| \u003Cli>\u003Cu>提供视觉，听觉，nlp，多模态等400+预训练模型，提供预训练模型的模型加载和推理能力，可直接一键部署服务，并提供api                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|模型市场| \u003Cli>\u003Cu>aihub应用对接cube-studio平台进行卡片式展示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|模型应用市场|模型一键开发| \u003Cli>\u003Cu>提供一键转notebook开发，提供符合当前模型所需环境的jupyter                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|模型应用市场|模型一键微调| \u003Cli>\u003Cu>支持一键转pipeline微调链路，包括示例数据集下载，微调，模型注册，模型部署，支持微调后模型部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |\n|模型应用市场|模型一键部署web| \u003Cli>\u003Cu>提供模型一键部署提供手机端和pc端web界面和api，和demo示例弹窗演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|模型自动化标注| \u003Cli>\u003Cu>支持部署对接labelstudio自动化标注                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |\n|模型应用市场|数据集sdk| \u003Cli>\u003Cu>支持通过python sdk搜索上传下载数据集，支持数据集的加解密\u002F解压缩\u002F数据集基础信息查看等                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|模型应用市场|notebook sdk| \u003Cli>\u003Cu>支持通过api，对接cube-studio创建notebook，并跳转到指定目录，用于其他算法平台在当前平台的调试和演示                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|模型应用市场|pipeline训练sdk| \u003Cli>\u003Cu>支持AI开发主流语言 Python，提供Python SDK支持用户通过SDK来进行pipeline任务流管理和训练任务启动以及任务流编排                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |\n|模型应用市场|推理服务sdk| \u003Cli>\u003Cu>提供python sdk，对接cube tudio进行推理服务的发布，服务升级                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|大模型分布式多机多卡| \u003Cli>\u003Cu>支持分布式多机多卡训练，例如mpi\u002Fdeepspeed\u002FColossal-AI                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理aihub形式| \u003Cli>\u003Cu>支持openjourney\u002Fgpt3\u002Fyuan\u002Fsd-v1.5\u002Fsd-v2\u002Fsd-v3\u002FStable Cascade\u002FStable Diffusion XL\u002Fchatglm\u002Fllama\u002Fchinese-alpaca\u002Fqwen\u002Fgemma\u002Fyi\u002Faquilachat2部署                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |\n|大模型|支持大模型推理openai接口| \u003Cli>\u003Cu>支持fastchat+vllm大模型推理，支持推理加速+流式接口                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |\n|大模型|支持大模型微调| \u003Cli>\u003Cu>支持 chatglm2\u002Fchatglm3\u002Fchatglm4\u002Fllama3-chinese\u002Fqwen lora微调，支持 llama-factory 100+llm微调                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n|大模型|智能对话| \u003Cli>\u003Cu>提供支持多场景对话，支持提示词构建，推理接口配置，llm问答，支持问询中模型切换，清理，历史上下文                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |\n|大模型|私有知识库| \u003Cli>\u003Cu>私有知识库配置，私有知识库召回                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持召回列表模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持 aigc模式                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持微信公众号服务号对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持企业微信群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n|大模型|私有知识库| \u003Cli>\u003Cu>支持钉钉群聊机器人对接                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 |\n\n# 支持模板\n\n提示：\n- 1、可自由定制任务插件，更适用当前业务需求\n\n| 模块     | 模板                    | 类型 | 文档地址 |\n|:-------|:----------------------| :---- |:---- |\n| 数据导入导出 | datax                 | 单机 | job-template\u002Fjob\u002Fdatax\u002FREADME.md\n| 数据导入导出 | 数据集导入                 | 单机 | job-template\u002Fjob\u002Fdataset\u002FREADME.md\n| 数据导入导出 | 模型导入                  | 单机 | job-template\u002Fjob\u002Fmodel_download\u002FREADME.md\n| 数据预处理  | data-process          | 单机 | job-template\u002Fjob\u002Fdata-process\u002FREADME.md\n| 数据处理工具 | hadoop                | 单机 | job-template\u002Fjob\u002Fhadoop\u002FREADME.md\n| 数据处理工具   | ray                   | 分布式 | job-template\u002Fjob\u002Fray\u002FREADME.md\n| 数据处理工具   | volcanojob            | 分布式 | job-template\u002Fjob\u002Fvolcano\u002FREADME.md\n| 特征处理   | feature-process       | 单机 | job-template\u002Fjob\u002Ffeature-process\u002FREADME.md\n| 机器学习框架 | ray-sklearn           | 分布式 | job-template\u002Fjob\u002Fray-sklearn\u002FREADME.md\n| 机器学习算法 | random_forest         | 单机 | job-template\u002Fjob\u002Frandom_forest\u002FREADME.md\n| 机器学习算法 | lr                    | 单机 | job-template\u002Fjob\u002Flr\u002FREADME.md\n| 机器学习算法 | lightgbm              | 单机 | job-template\u002Fjob\u002Flightgbm\u002FREADME.md\n| 机器学习算法 | knn                   | 单机 | job-template\u002Fjob\u002Fknn\u002FREADME.md\n| 机器学习算法 | kmeans                | 单机 | job-template\u002Fjob\u002Fkmeans\u002FREADME.md\n| 机器学习算法 | nni                   | 单机 | job-template\u002Fjob\u002Fhyperparameter-search-nni\u002FREADME.md\n| 机器学习算法 | xgb                   | 单机 | job-template\u002Fjob\u002Fxgb\u002FREADME.md\n| 机器学习算法 | gbdt                  | 单机 | job-template\u002Fjob\u002Fgbdt\u002FREADME.md\n| 机器学习算法 | decision-tree         | 单机 | job-template\u002Fjob\u002Fdecision_tree\u002FREADME.md\n| 机器学习算法 | bayesian              | 单机 | job-template\u002Fjob\u002Fbayesian\u002FREADME.md\n| 机器学习算法 | adaboost              | 单机 | job-template\u002Fjob\u002Fadaboost\u002FREADME.md\n| 深度学习   | tfjob                 | 分布式 | job-template\u002Fjob\u002Ftf\u002FREADME.md\n| 深度学习   | pytorchjob            | 分布式 | job-template\u002Fjob\u002Fpytorch\u002FREADME.md\n| 深度学习   | paddle                | 分布式 | job-template\u002Fjob\u002Fpaddle\u002FREADME.md\n| 深度学习   | mxnet                 | 分布式 | job-template\u002Fjob\u002Fmxnet\u002FREADME.md\n| 深度学习   | mindspore             | 分布式 | job-template\u002Fjob\u002Fmindspore\u002FREADME.md\n| 深度学习   | horovod               | 分布式 | job-template\u002Fjob\u002Fhorovod\u002FREADME.md\n| 深度学习   | mpi                   | 分布式 | job-template\u002Fjob\u002Fmpi\u002FREADME.md\n| 深度学习   | colossalai            | 分布式 | job-template\u002Fjob\u002Fcolossalai\u002FREADME.md\n| 深度学习   | deepspeed             | 分布式 | job-template\u002Fjob\u002Fdeepspeed\u002FREADME.md\n| 深度学习   | megatron              | 分布式 | job-template\u002Fjob\u002Fmegatron\u002FREADME.md\n| 模型处理   | model-evaluation      | 单机 | job-template\u002Fjob\u002Fmodel_evaluation\u002FREADME.md\n| 模型服务化  | model-convert         | 单机 | job-template\u002Fjob\u002Fmodel-convert\u002FREADME.md\n| 模型服务化  | model-register        | 单机 | job-template\u002Fjob\u002Fmodel_register\u002FREADME.md\n| 模型服务化  | deploy-service        | 单机 | job-template\u002Fjob\u002Fdeploy-service\u002FREADME.md\n| 模型服务化  | model-offline-predict | 分布式 | job-template\u002Fjob\u002Foffline-predict\u002FREADME.md\n| 多媒体类   | media-download        | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-img             | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 多媒体类   | video-audio           | 分布式 | job-template\u002Fjob\u002Fvideo-audio\u002FREADME.md\n| 大模型    | llama                 | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | chatglm               | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | qwen                  | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | deepseek              | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n| 大模型    | llama-factory         | 单机多卡 | job-template\u002Fjob\u002Fllama-factory\n\n# 平台简介\n\n\n完整的平台包含\n - 1、机器的标准化\n - 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus\u002Fefk\u002Fzipkin)\n - 3、基础能力(tf\u002Fpytorch\u002Fmxnet\u002Fvalcano\u002Fray等分布式，nni\u002Fray超参搜索)\n - 4、平台web部分(oa\u002F权限\u002F项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)\n\n![输入图片说明](https:\u002F\u002Fcube-studio.oss-cn-hangzhou.aliyuncs.com\u002Fdocs\u002Fimage\u002Finfra.png) \n\n\n# 算力\u002F存储\u002F用户管理\n\n算力：\n - 云原生统筹平台cpu\u002Fgpu等算力\n - 支持划分多资源组，支持多k8s集群，多地部署\n - 支持T4\u002FV100\u002FA100\u002F昇腾\u002Fdcu\u002FVGPU等异构GPU\u002FNPU环境\n - 支持边缘集群模式，支持边缘节点上开发\u002F训练\u002F推理\n - 支持鲲鹏芯片arm64架构，RDMA\n\n存储：\n - 自带分布式存储，支持多机分布式下文件处理\n - 支持外部存储挂载，支持项目组挂载绑定\n - 支持个人存储空间\u002F组空间等多种形式\n - 平台内存储空间不需要迁移\n\n用户权限：\n - 支持sso登录，对接公司账号体系\n - 支持项目组划分，支持配置相应项目组用户的权限\n - 管理平台用户的基本信息，组织架构，rbac权限体系\n\n# 多集群管控\n\ncube支持多集群调度，可同时管控多个训练或推理集群。在单个集群内，不仅能做到一个项目组内对在线开发、训练、推理的隔离，还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力，能够在多项目间共享公共算力池和私有化算力池，做到成本最低化。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_763efcf9edab.png)\n\n# 分布式存储\n\ncube会自动为用户挂载用户的个人目录，同一个用户在平台任何地方启动的容器，其用户个人子目录均为\u002Fmnt\u002F$username。可以将pvc\u002Fhostpath\u002Fmemory\u002Fconfigmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载，进而实现一个项目组共享同一个目录等功能。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_c8d58ad7662a.png)\n\n# 在线开发\n\n - 系统多租户\u002F多实例管理，在线交互开发调试，无需安装三方控件，只需浏览器就能完成开发。\n - 支持vscode，jupyter，Matlab，Rstudio等多种在线IDE类型\n - Jupyter支持cube-studio sdk，Julia，R，python，pyspark多内核版本，\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_08c6ca4391f6.png)\n\n\n - 支持c++，java，conda等多种开发语言，以及tensorboard\u002Fgit\u002Fgpu监控等多种插件\n - 支持ssh remote与notebook互通，本地进行代码开发\n - 在线镜像构建，通过Web Shell方式在浏览器中完成构建；并提供各种版本notebook，inference，gpu，python等基础镜像\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_9b5f761ff386.png)\n\n\n# 标注平台：\n\n - 支持图\u002F文\u002F音\u002F多模态\u002F大模型多种类型标注功能，用户管理，工作任务分发\n - 对接aihub模型市场，支持自动化标注；对接数据集，支持标注数据导入；对接pipeline，支持标注结果自动化训练\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_6438d078a190.png)\n\n\n# 拖拉拽pipeline编排\n\n1、Ml全流程\n\n数据导入，数据预处理，超惨搜索，模型训练，模型评估，模型压缩，模型注册，服务上线，ml算法全流程\n\n2、灵活开放\n\n支持单任务调试、分布式任务日志聚合查看，pipeline调试跟踪，任务运行资源监控，以及定时调度功能(包含补录，忽略，重试，依赖，并发限制，过期淘汰等功能)\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_c9d80ce9ff0d.png)\n\n\n# 分布式框架\n\n1、训练框架支持分布式（协议和策略）  \n2、代码识别分布式角色（有状态）  \n3、控制器部署分布式训练集群（operator）  \n4、配置分布式训练集群的部署（CRD）  \n\n\n# 多层次多类型算子\n\n以k8s为核心，  \n1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等，  \n2、 以及在此衍生出来的分布式的数据下载，hdfs拉取，cos上传下载，视频采帧，音频抽取，分布式的训练，例如推荐场景的din算法，ComiRec算法，MMoE算法，DeepFM算法，youtube dnn算法，ple模型，ESMM模型，双塔模型，音视频的wenet，containAI等算法的分布式训练。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_33e40dfd9352.png)\n\n\n# 功能模板化\n\n - 和非模板开发相比，使用模板建立应用成本会更低一些，无需开发平台。\n - 迁移更加容易，通过模板标准化后，后续应用迁移迭代只需迁移配置模板，简化复杂的配置操作。\n - 配置复用，通过简单的配置就可以复用这些能力，算法与工程分离避免重复开发。\n\n\n为了避免重复开发，对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像，将镜像注册到平台，这样其他用户就可以复用这些功能。平台自带模板在job-template目录下\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_34f19894a848.png)\n\n# 流水线调试\n\n - Pipeline调试支持定时执行，支持，补录，并发限制，超时，实例依赖等。\n - Pipeling运行，支持变量在任务间输入输出，全局变量，流向控制，模板变量，数据时间等\n - Pipeling运行，支持任务结果可视化，图片、csv\u002Fjson，echart源码可视化\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_35a279593f1a.png)\n\n# nni超参搜索\n\n\n界面化呈现训练各组数据，通过图形界面进行直观呈现。\n减少以往开发调参过程的枯燥感，让整个调参过程更加生动具有趣味性，完全无需丰富经验就能实现更精准的参数控制调节。\n\n```bash\n# 上报当前迭代目标值\nnni.report_intermediate_result(test_acc)\n# 上报最终目标值\nnni.report_final_result(test_acc)\n\n# 接收超参数为输入参数\nparser.add_argument('--batch_size', type=int)\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_8313ac0f6bc0.png)\n\n\n# 推理服务\n\n0代码发布推理服务从底层到上层，包含服务网格，serverless，pipeline，http框架，模型计算。\n\n - 服务网格阶段：主要工作是代理流量的中转和管控，例如分流，镜像，限流，黑白名单之类的。\n\n - serverless阶段：主要为服务的智能化运维，例如服务的激活，伸缩容，版本管理，蓝绿发布。\n\n - pipeline阶段：主要为请求在各数据处理\u002F推理之间的流动。推理的前后置处理逻辑等。\n\n - http\u002Fgrpc框架：主要为处理客户端的请求，准备推理样本，推理后作出响应。\n\n - 模型计算：模型在cpu\u002Fgpu上对输入样本做前向计算。\n\n主要功能：\n\n - 支持模型管理注册，灰度发布，版本回退，模型指标可视化，以及在piepline中进行模型注册\n - 推理服务支持多集群，多资源组，异构gpu环境，平台资源统筹监控，VGPU，服务流量分流，复制，sidecar\n - 支持0代码的模型发布，gpu推理加速，支持训练推理混部，服务优先级，自定义指标弹性伸缩。\n \n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_9116f6164c82.png)\n\n# 监控和推送\n\n监控：cube-studio集成prometheus生态，可以监控包括主机，进程，服务流量，gpu等相关负载，并配套grafana进行可视化\n\n推送：cube-studio开放推送接口，可自定义推送给企业oa系统\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_6499e089529a.png)\n\n# AIHub\n\n - 系统自带通用模型数量400+，覆盖绝大数行业场景，根据需求可以不断扩充。\n - 模型开源、按需定制，方便快速集成，满足用户业务增长及二次开发升级。\n - 模型标准化开发管理，大幅降低使用门槛，开发周期时长平均下降30%以上。\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_d27861a8b884.png)\n\n\n - AIHub模型可一键部署为WEB端应用，手机端\u002FPC端皆可，实时查看模型应用效果\n - 点击模型开发即可进入notebook进行模型代码的二次开发，实现一键开发\n - 点击训练即可加入自己的数据进行一键微调，使模型更贴合自身场景\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_4b14126a1fea.png)\n\n# GPT训练微调\n\n - cube-studio支持deepspeed\u002Fcolossalai等分布式加速框架，可一键实现大模型多机多卡分布式训练\n - AIHub包含gpt\u002FAIGC大模型，可一键转为微调pipeline，修改为自己的数据后，便可以微调并部署\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_8bfa9ff63a66.png)\n\n\n# GPT-RDMA\n\nrdma插件部署后，k8s机器可用资源\n```bash\ncapacity:\n  cpu: '128'\n  memory: 1056469320Ki\n  nvidia.com\u002Fgpu: '8'\n  rdma\u002Fhca: '500'\n```\n代码分布式训练中使用IB设备\n```bash\nexport NCCL_IB_HCA=mlx5\nexport MLP_WORKER_GPU=$GPU_NUM\nexport MLP_WORKER_NUM=$WORLD_SIZE\nexport MLP_ROLE_INDEX=$RANK\nexport MLP_WORKER_0_HOST=$MASTER_ADDR\nexport MLP_WORKER_0_PORT=$MASTER_PORT\n```\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_307cbb029f95.png)\n\n\n# gpt私有知识库\n\n - 数据智能模块可配置专业领域智能对话，快速敏捷使用llm\n - 可为某个聊天场景配置私有知识库文件，支持主题分割，语义embedding，意图识别，概要提取，多路召回，排序，多种功能融合\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_9eb27b814396.png)\n\n\n# gpt智能聊天\n\n - 可以将智能会话与AIHub相结合，例如下面AIGC模型与聊天会话\n - 可使用Autogpt方式串联所有aihub模型，进行图文音智能化处理\n - 智能会话与公共直接打通，可在微信公众号中进行图文音对话\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_ca1a37cc203c.png)\n\n\n# 数据中台对接\n  \n为了加速AI算法平台的使用，cube-studio支持对接公司原有数据中台，包括数据计算引擎sqllab，元数据管理，指标管理，维表管理，数据ETL，数据集管理\n\n![image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_15c2d098c972.png)\n\n\n# 三种方式部署\n\n针对企业需求，根据不同场景对计算实时性的不同需求，可以提供三种建设模式\n\n模式一：私有化部署——对数据安全要求高、预算充足、自己有开发能力  \n模式二：边缘集群部署——算力分散，多个子网环境的场景，或边缘设备场景  \n模式三：serverless集群——成本有限，按需申请算力的场景  \n\n## 边缘计算\n\n通过边缘集群的形式，在中心节点部署平台，并将边缘节点加入调度，每个私有网用户，通过项目组，将notebook，pipeline，service部署在边缘节点  \n - 1、避免数据到中心节点的带宽传输  \n - 2、避免中心节点的算力成本，充分利用边缘节点算力\n - 3、避免边缘节点的运维成本\n\n![图片 1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_readme_f9e4098205e3.png)","# Cube Studio 快速上手指南\n\nCube Studio 是一款开源的一站式云原生机器学习平台，提供从项目管理、资源调度、模型开发到训练推理的全流程支持。\n\n## 环境准备\n\n在部署前，请确保满足以下系统要求和前置依赖：\n\n*   **操作系统**: Linux (推荐 CentOS 7+\u002FUbuntu 18.04+)\n*   **容器编排**: Kubernetes 集群 (v1.20+)\n    *   支持多集群架构\n    *   网络模式支持 IPVS\n    *   容器运行时支持 containerd\n*   **硬件资源**:\n    *   支持 x86_64 及 ARM64 架构\n    *   算力支持：CPU、GPU (NVIDIA T4\u002FV100\u002FA100 等)\n    *   国产算力适配：海光 DCU、华为 NPU、寒武纪 MLU、天数智芯 GPU 等\n    *   高级特性：支持 vGPU、RDMA (Mellanox) 调度\n*   **其他依赖**:\n    *   Docker\n    *   Helm (用于应用编排)\n    *   MySQL\u002FPostgreSQL (元数据存储)\n    *   MinIO\u002FCeph (对象存储，用于模型和数据持久化)\n\n> **提示**：平台支持多种网络访问方式，包括非 80 端口、公网域名、反向代理及内网穿透，并原生支持 HTTPS。\n\n## 安装步骤\n\n由于 Cube Studio 基于 Kubernetes 构建，推荐使用 Helm 进行部署。以下是标准安装流程：\n\n1.  **添加 Helm Chart 仓库**\n    ```bash\n    helm repo add cube-studio https:\u002F\u002Fdata-infra.github.io\u002Fcube-studio\u002F\n    helm repo update\n    ```\n\n2.  **创建命名空间**\n    ```bash\n    kubectl create namespace cube-studio\n    ```\n\n3.  **安装 Cube Studio**\n    使用默认配置安装（生产环境建议修改 `values.yaml` 配置存储类、数据库地址及资源限制）：\n    ```bash\n    helm install cube-studio cube-studio\u002Fcube-studio -n cube-studio\n    ```\n\n4.  **验证部署状态**\n    等待所有 Pod 运行就绪：\n    ```bash\n    kubectl get pods -n cube-studio\n    ```\n    当所有组件状态为 `Running` 时，表示安装成功。\n\n5.  **获取访问地址**\n    *   若配置了 Ingress，直接访问绑定的域名。\n    *   若使用 NodePort 或本地测试，可通过端口转发访问：\n    ```bash\n    kubectl port-forward svc\u002Fcube-studio-server -n cube-studio 8080:80\n    ```\n    然后在浏览器打开 `http:\u002F\u002Flocalhost:8080`。\n\n## 基本使用\n\n安装完成后，您可以按照以下步骤开始使用平台的核心功能：\n\n### 1. 初始化与登录\n*   访问平台首页，使用默认管理员账号登录（初始密码请参考 Helm 安装后的输出日志或通过 Secret 查看）。\n*   **SSO 集成**：如需对接企业账号体系，可在“系统设置”中配置 `AUTH_LDAP` 或 `AUTH_OID` 实现单点登录。\n\n### 2. 创建项目组\n平台采用多租户隔离机制，使用前需创建项目组：\n*   进入 **项目组管理** 模块。\n*   点击“新建项目”，填写项目名称（如 `demo-project`）。\n*   配置该项目的资源配额（CPU\u002FGPU 限额）、挂载存储及成员权限（RBAC）。\n\n### 3. 启动开发环境 (Notebook)\n*   进入刚创建的项目，选择 **开发服务**。\n*   点击“新建实例”，选择镜像（支持自定义 Docker 镜像）和资源配置（如 1 CPU, 2GB Mem, 1 NVIDIA T4）。\n*   启动后，点击“打开 Jupyter\"，即可在浏览器中进行代码编写、数据探索和模型调试。\n\n### 4. 提交训练任务\n*   在 **任务管理** 模块中，点击“新建任务”。\n*   选择算法镜像或上传自定义代码包。\n*   配置超参数、数据集路径及输出模型路径。\n*   提交任务后，平台将自动调度至合适的集群节点（支持断点续训和日志实时查看）。\n\n### 5. 资源监控与计量\n*   在 **计量计费** 模块，可查看租户、项目及个人的资源使用情况（开发、训练、推理资源）。\n*   支持自定义计费规则，对超出额度的任务进行限制或告警。\n\n---\n*更多详细功能文档及进阶用法，请访问官方 Wiki：https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fwiki*","某中型电商公司的算法团队正急需基于私有交易数据，对 DeepSeek 大模型进行 SFT 微调以构建智能客服助手，并需快速部署上线。\n\n### 没有 cube-studio 时\n- **环境搭建繁琐**：数据科学家需手动配置 PyTorch、DeepSpeed 及昇腾\u002F英伟达异构驱动，常因依赖冲突导致数天无法开始训练。\n- **资源调度低效**：多机多卡分布式训练需人工编写复杂的 K8s YAML 文件，无法灵活利用闲置算力，且缺乏 VGPU 虚拟化导致小任务独占整卡，资源浪费严重。\n- **流程割裂难协同**：数据标注、模型训练、超参搜索与推理服务分散在不同脚本或工具中，缺乏统一的 Pipeline 编排，迭代一次模型需跨多个系统手动流转。\n- **运维监控黑盒**：训练任务一旦失败难以定位是代码错误还是网络（RDMA\u002FIB）问题，缺乏全链路日志与可视化监控，排查耗时极长。\n\n### 使用 cube-studio 后\n- **开箱即用环境**：通过平台预置的镜像模板，一键拉起支持 DeepSpeed 和国产异构算力的训练环境，将准备时间从数天缩短至分钟级。\n- **智能弹性调度**：利用拖拉拽方式编排分布式训练 Pipeline，自动调度多机多卡资源，并通过 VGPU 技术将单卡切分给多个轻量任务，算力利用率提升 300%。\n- **全链路闭环管理**：在统一界面完成从自动化标注、SFT 微调、奖励模型训练到 vLLM\u002FOllama 推理服务部署的全流程，实现“数据进、模型出”的自动化流转。\n- **透明可观测性**：内置实时监控面板清晰展示 RDMA 网络状态与训练指标，任务异常自动告警并定位根因，大幅降低运维门槛。\n\ncube-studio 将原本碎片化、高门槛的 AI 工程链路整合为标准化、可视化的云原生流水线，让算法团队能专注于模型创新而非基础设施运维。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-infra_cube-studio_bfff7121.png","data-infra","栾鹏","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdata-infra_251d2b5c.jpg","微信号： luanpeng1234，加我微信",null,"深圳","825485697@qq.com","http:\u002F\u002Fblog.csdn.net\u002Fluanpeng825485697","https:\u002F\u002Fgithub.com\u002Fdata-infra",[86,90,94,98,102,106,110,114,118,122],{"name":87,"color":88,"percentage":89},"Python","#3572A5",55.4,{"name":91,"color":92,"percentage":93},"TypeScript","#3178c6",17,{"name":95,"color":96,"percentage":97},"Jupyter Notebook","#DA5B0B",14.3,{"name":99,"color":100,"percentage":101},"Less","#1d365d",3.7,{"name":103,"color":104,"percentage":105},"HTML","#e34c26",2.9,{"name":107,"color":108,"percentage":109},"Shell","#89e051",2.7,{"name":111,"color":112,"percentage":113},"JavaScript","#f1e05a",1.9,{"name":115,"color":116,"percentage":117},"CSS","#663399",0.9,{"name":119,"color":120,"percentage":121},"Dockerfile","#384d54",0.8,{"name":123,"color":124,"percentage":125},"Mustache","#724b3b",0.4,2049,156,"2026-04-03T14:19:07","NOASSERTION",4,"Linux","非必需，但支持多种算力。支持 NVIDIA (T4\u002FV100\u002FA100)、国产 GPU (海光 DCU、华为 NPU、寒武纪 MLU、天数智芯)。支持 vGPU、RDMA 调度及 GPU 共享\u002F独占模式。具体显存和 CUDA 版本未说明，取决于底层 K8s 集群配置。","未说明 (取决于项目组资源限制配置及任务类型)",{"notes":135,"python":136,"dependencies":137},"该工具为云原生机器学习平台，主要部署在 Kubernetes 集群上，而非单机环境。支持多集群、多资源组管理。支持 ARM64 芯片架构。需自行配置底层 K8s 环境、存储及网络（支持非 80 端口、HTTPS、内网穿透）。计量计费功能支持对 Notebook、Docker 构建、Pipeline 等资源进行配额限制。","未说明",[138,139,140],"Kubernetes (多集群支持)","Containerd","IPVS (网络模式)",[26,13,51,15],"2026-03-27T02:49:30.150509","2026-04-06T08:09:05.196475",[145,150,155,160,165,170,175,180,185],{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},13953,"在 KubeSphere 环境中安装 istio-ingressgateway 启动失败，报错证书签名未知或连接被拒绝怎么办？","该问题通常由 Gateway 配置缺失端口名称导致。请检查你的 Gateway YAML 文件，确保每个端口都定义了 'name' 字段。例如：\nport:\n  number: 80\n  name: http             # 必须添加此行\n  protocol: HTTP\n\nport:\n  number: 8080\n  name: http-8080        # 必须添加 name\n  protocol: HTTP\n\n如果缺少 name 字段，Istio 的 admission webhook 会拒绝请求，报错 'configuration is invalid: port name must be set'。修正后重新应用配置即可。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F20",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},13954,"开源版中如何使用标注平台功能？","标注平台完整功能属于企业版收费内容。开源版用户可以通过自行部署开源的 Label Studio 来替代，然后修改项目中的 home.py 文件，在菜单配置中添加自定义的 Label Studio 访问地址，从而实现类似功能。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F10",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},13955,"在 ARM64 架构服务器上单机部署时，部分镜像报错 'exec format error' 如何解决？","目前开源版本不支持 ARM64 架构，相关镜像未提供 ARM 构建版本，因此会报格式错误。ARM64 架构的支持仅在企业版中提供。如果必须在 ARM 环境使用，需要联系官方获取企业版支持。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F15",{"id":161,"question_zh":162,"answer_zh":163,"source_url":164},13956,"部署时发现 bitnami\u002Fkube-rbac-proxy:0.14.1 镜像已被官方删除，应该替换为什么版本？","可以使用腾讯云容器镜像服务的托管版本进行替换，镜像地址为：ccr.ccs.tencentyun.com\u002Fcube-studio\u002Fkube-rbac-proxy:0.14.1。请在部署配置文件中将原镜像地址替换为此地址。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F32",{"id":166,"question_zh":167,"answer_zh":168,"source_url":169},13957,"使用 OpenEBS LocalPV 存储类时，报错 'claim.Spec.Selector is not supported' 或 'Only support ReadWriteOnce' 怎么办？","OpenEBS LocalPV 不支持 ReadWriteMany (RWX) 模式，也不支持 PVC 中的 selector 字段。解决方法如下：\n1. 执行命令编辑 Prometheus 配置：kubectl edit prometheus k8s -n monitoring\n2. 找到并删除 'selector' 部分（如 matchLabels）。\n3. 将访问模式从 ReadWriteMany 修改为 ReadWriteOnce。\n4. 保存退出后，务必手动删除之前创建的处于 Pending 状态的 RWX 类型 PVC，否则新的 PVC 仍无法绑定。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F21",{"id":171,"question_zh":172,"answer_zh":173,"source_url":174},13958,"文档中提到需要配置 DCGM-Exporter 的 ServiceMonitor，但找不到对应的 YAML 文件怎么办？","实际上不需要手动创建 ServiceMonitor。DCGM-Exporter 的服务（Service）配置中已经包含了特定的注释（annotations），Prometheus 会自动通过这些注释发现并抓取指标。只需确保 Service 配置正确且 Prometheus 开启了自动发现功能即可。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F14",{"id":176,"question_zh":177,"answer_zh":178,"source_url":179},13959,"AIHUB 相关功能在开源版中可用吗？","AIHUB 的功能属于收费的企业版功能，并未在开源版本中开放。开源版仅包含基础的平台管理功能。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F9",{"id":181,"question_zh":182,"answer_zh":183,"source_url":184},13960,"按照教程单机部署完成后，前端业务页面无法访问，如何排查？","请参考官方 Wiki 中的“部署后排查”章节进行详细检查。通常涉及检查 Pod 状态、Service 暴露情况以及 Ingress 配置。排查指南地址：https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fwiki\u002F%E5%B9%B3%E5%8F%B0%E5%8D%95%E6%9C%BA%E9%83%A8%E7%BD%B2#%E9%83%A8%E7%BD%B2%E5%90%8E%E6%8E%92%E6%9F%A5","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F8",{"id":186,"question_zh":187,"answer_zh":188,"source_url":189},13961,"内网离线部署文档中提到的 'init-en' 文件在新版本中找不到，是否还需要处理？","在新版本中已经移除了 'init-en' 文件的相关逻辑，您可以直接忽略文档中关于该文件的处理步骤，无需额外操作。","https:\u002F\u002Fgithub.com\u002Fdata-infra\u002Fcube-studio\u002Fissues\u002F3",[191,196,201,206,211,216,221,226,231],{"id":192,"version":193,"summary_zh":194,"released_at":195},77459,"v2026.01.01","### 一、AIHub 功能与界面优化\n- 优化 AIHub Markdown 显示问题\n- AIHub 部署为推理服务类型离线场景问题修复\n- AIHub 应用优化\n- AIHub 文档优化\n- AIHub Demo 支持 HTTPS 限制\n- AIHub 数据处理任务模板增加\n\n### 二、大模型与推理服务优化\n- 大模型对话优化\n- 大模型微调可选值优化\n- 大模型可选值模型优化\n- 推理服务优化\n- 推理服务模型地址支持 `{{creator}}`\n- 去除 VLLM 的 AIHub\n- 升级 LLaMAFactory 镜像版本及相关任务模板\n- 升级 ML-Server 镜像版本\n- 优化 ML-Server 推理服务部署\n- 优化 Torch-Server 推理\n- 去除不使用的大模型\n- 去除部分过时模型\n- QwQ-32B 更换为 Qwen3 模型\n- 修复 Token 限制\n\n### 三、服务网关与接口优化\n- 服务网关优化（重复项合并）\n- 服务网关支持代理 Embedding 接口\n- 支持按照 Header 分流\n- 支持通过环境变量设置是否禁用服务流量转发\n\n### 四、部署与集群优化\n- 优化部署\n- 优化海光部署\n- 优化 DCU 兼容\n- 优化卸载脚本\n- 优化多集群 K8s 客户端线程安全问题\n- 修复 K8s 客户端使用线程安全后 Watch 组件的 Bug\n- 接口中增加 Pod IP\n- 支持摩尔线程\n- 升级到 20260101 版本\n- 升级新版本\n- Argo 镜像使用内网镜像\n- 修正 Redis 镜像地址\n- 修复部分连线不可用的情况\n\n### 五、文档与注释优化\n- 优化文档\n- 优化注释\n- 修正文档\n- 增加示例合集\n- 优化示例\n- 增加加解密注释\n- 增加初始化任务\n- 增加任务模板加密启动\n- 去除冗余代码\n\n### 六、安全与权限优化\n- 优化加密\n- 添加 OAuth2 认证\n- 在线 IDE SSH 增加防暴力破解\n- 优化 SSH 代理\n- 去除泛域名 SSH 代理\n- 普通用户不能添加其他人进组\n- 数据集下载权限控制\n- 优化权限问题\n- 固化任务模板不可修改\n- 安全响应添加\n\n### 七、监控与性能优化\n- 优化 LLM 指标监控\n- 增加 TPS、E2E、首 Token 时延、单 Token 平均时延（ms）\n- 优化整体资源自动使用缓存\n- 优化监控\n- 优化 Pod 子状态\n- 处理 Gevent 模型性能\n- 优化定时清理测试服务状态\n- 优化 Watch 监控\n\n### 八、任务模板与自动化标注\n- 优化任务模板描述\n- 增加图片质量评估任务模板\n- 优化 NLP 数据处理任务模板\n- 增加 PaddleOCR-VL 任务模板\n- 增加万物识别自动化标注\n- 增加图片转文档的自动化标注\n- 优化自动化标注\n- 优化 PaddleOCR-VL 自动化标注\n- 优化 PaddleOCR-VL AIHub 应用\n- 增加 PaddleOCR-VL 内容提取任务模板\n- 增加 PaddleOCR AIHub 应用\n- 万物识别自动化标注支持 XML 设置可信参数门限\n- 增加结构化数据标注能力\n- 增加结构化数据标注示例\n- 支持大模型万物边界线和遮罩识别\n- 添加 Dino 和 Dino-SAM 万物分隔模型\n- 修正万物分隔 GPU 占用\n\n### 九、数据处理与 NLP 能力\n- 优化数据处理，增加 NLP 数据分析、问答对抽取、问答对扩展等\n- 增加 NLP 数据分析能力\n- 优化判断文件格式的代码\n\n### 十、开发环境与工具优化\n- VS Code 支持默认中文\n- 优化 VS Code 汉化\n- 升级 Jupyter 镜像，支持汉化\n- 升级 Jupyter 镜像，支持汉化（重复项合并）\n- Grafana 默认中文简体（重复项合并）\n- Notebook 默认不显示续期\n- Notebook Stop 同时关闭 Commit 的 Pod\n- RStudio 首页跳转 Bug 修复（重复项合并）\n\n### 十一、数据库与记录优化\n- 优化数据库记录\n- 优化部署数据库写入可能出错的地方\n- 记录保存成功的时间\n- 记录 Save 成功时间\n- 修正某些类型数据库 Skip 是关键字的问题\n\n### 十二、配置与初始化优化\n- 优化初始化\n- 优化默认值\n- 修改初始化示例\n- 任务模板添加初始化 `TASK_RESOURCE_RDMA=0` 环境变量\n- 优化任务过期时间配置\n- 优化报警描述\n- 优化模板描述\n\n### 十三、其他修复与优化\n- 修复文字 Bug\n- 优化报错打印\n- 去除非必要文件\n- 优化端口暴露\n- 优化模拟数据\n- 去除 NXTime\n- 优化 AIPod 标签\n- 修正域名下的虚拟服务配置\n- 优化标注初始化\n- 修正推送给管理员的消息记录\n- 优化 MindFormer 镜像版本\n- 优化 MindIE 模型的发布功能\n- 增加 MindIE Qwen 推理\n- 修正 Argo 镜像使用内网的镜像\n- 支持增加模拟数据","2026-02-03T13:58:36",{"id":197,"version":198,"summary_zh":199,"released_at":200},77460,"v2025.09.01","### 一、 核心功能与模块优化\n1.  **模型训练与推理框架支持**\n    - 优化mindie模型的发布功能\n    - 模型推理类型支持mindie\n    - 增加mindie qwen推理\n    - 优化mindie推理\n    - 支持mindie分布式\n    - mindie多机推理 host模式，特权模式\n    - 修正ollama部署时api访问模型名的问题\n    - 修正大模型推理的启动命令\n    - 优化mindie模型的发布功能\n    - 优化llamafactory 分布式训练\n    - 增加llamafactory分布式示例\n    - 升级llama factory 支持多模态大模型训练\n    - 升级gpt5\n    - 支持vllm推理框架\n    - 丰富模型量化支持“gptq\",\"awq\",\"gguf\",\"hf_quantize”\n    - 添加模型蒸馏任务模板\n    - 支持模型转换任务模板\n    - 增加opencompass模型评估\n    - 优化opencompass任务模板\n    - 优化llm评估\n\n2.  **任务模板与Pipeline**\n    - 修复union-join-data 任务模板\n    - 修复mpi的任务模板\n    - 修复任务模板的复制功能\n    - 优化任务模板构建\n    - 优化分布式pytorch任务模板\n    - 任务参数支持可选可填参数类型\n    - 任务模板参数支持正则表达式\n    - 任务调试时的资源值为用户填写资源值而不使用任务模板环境变量\n    - 在任务模板中优化分布式任务的挂载\n    - 特征处理和机器学习算法任务模板合并在一起\n    - 合并机器学习模板和特征处理模板\n    - 完善sklearn的任务模板\n    - 增加汇总sklearn的任务模板\n    - 修正pipeline编辑没有修改项目组的问题\n\n3.  **AIHub应用与Demo**\n    - 优化aihub示例\n    - 优化aihub 推理参数 必要性\n    - 优化用户自定义aihub项目组时aihub demo的问题\n    - aihub应用要能直接打开jupyter界面\n    - 修复aihub应用 页面 管理服务按钮链接\n    - 去除不使用的大模型\n    - 去除部分过时的模型\n    - 去除chatglm任务模板\n    - 去除open webui\n    - 去除不使用的大模型\n    - 去除部分过时的模型\n    - 去除aihub非必要代码\n    - 去除视频人体分隔的aihub\n    - 优化模拟数据\n    - 支持增加模拟数据\n\n4.  **Notebook \u002F 在线IDE**\n    - jupyter ssh 端口统一为22\n    - notebook支持绑定机器和非在线ide模式打开\n    - notebook开放端口缩小为2个\n    - notebook可以直接打开输入框中输入的目录\n    - 修复 任务模板 打开目录直接显示文本文件\n    - 优化notebook保存功能\n    - 优化notebook保存报错提醒\n    - 优化notebook pod 健康检查\n    - 对于没有部署的notebook 不进行状态查询\n    - 增加去除conda版本的在线ide\n    - 默认不启动matlab ide\n    - 修复在线vscode 远程ssh没有启动的问题\n    - 兼容旧版本vscode\n    - notebook, pipeline, service, inference支持nfs挂载配置\n\n### 二、 部署与基础设施\n1.  **多集群与资源管理**\n    - k8s 看板 监控支持多集群\n    - 机器资源，pod运行，整体资源 信息接口暴露\n    - 优化整体资源\n    - 优化整体资源的显示问题\n    - 整体资源支持模拟数据\n    - 整体资源 pod 资源占用量 没有request的时候就用limit\n    - 优化整体资源的加载速度\n    - 支持节点批量删除\n    - 支持不同集群单独指定K8S_NETWORK_MODE等参数\n    - 修复多集群部署时缓存冲突的问题\n    - 修复多集群时的缓存问题\n    - 镜像构建和aihub支持多集群\n    - notebook 多集群创建时 没有项目组信息\n    - 支持边缘集群模式部署\n\n2.  **监控、日志与清理**\n    - 优化watch监控\n    - 优化监控\n    - 升级监听记录\n    - 升级grafana看板 支持containerd的运行时\n    - 减少日志打印\n    - 去除aihub的pysnooper.snoop打印\n    - 优化清理\n    - 优化限额配置和清理不正常的服务\n    - 优化定时清理notebook的bug\n    - 添加定制清理 历史log和workflow runhistory等记录\n    - 修复监听不到外界kill pod的信号\n    - prometheus查询设置timeout\n\n3.  **Pod与容器管理**\n    - 优化deployment查询\n    - 优化pod查询\n    - 优化pod子状态\n    - 优化pod标签\n    - 优化k8s查询\n    - 修复查询终止pod cache bug\n    - 还没有通过健康检查的状态为Starting\n    - 接口中增加pod_ip\n    - 分布式任务-1 gpu占用模式，需要特权\n    - 修正aihubpod的标签\n\n4.  **镜像与构建**\n    - 优化docker打包\n    - 优化dockerfile\n    - 优化dockerfile 多架构构建时架构默认值的问题\n    - 优化docker build构建\n    - 支持dockerfile在线构建能力\n    - 控制镜像构建权限\n    - 修正镜像管理中在线构建的注释\n    - 构建加密镜像方法\n    - 禁用用户自己填的镜像名\n    - 修正mindformer的镜像版本\n    - 优化yolo镜像\n    - 升级新的yolov8镜像版本\n    - 添加npu pytorch镜像\n    - argo镜像使用内网的镜像\n\n### 三、 安全、权限与认证\n1.  **认证与权限控制**\n    - 添加oauth2认证\n    - jwt公钥私钥存储\n    - 优化权限问题\n    - 优化pod 界面访问权限控制\n    - 普通用户不能添加其他人进组","2025-10-27T12:41:32",{"id":202,"version":203,"summary_zh":204,"released_at":205},77461,"v2025.07.01","1. **计量计费和账单优化**\n   - 增加默认过滤条件\n   - 优化前端时间类型参数的可选择范围\n\n2. **权限管理改进**\n   - 简化admin权限查询\n   - 支持用户删除操作\n   - 添加登录日志登记\n\n3. **项目与资源管理**\n   - 任务模板、推理服务类型、AIHub支持配置显示范围\n   - 项目分组列表显示更全面\n   - 支持volcano调度器，项目组\u002F资源组可选\n   - 支持binpack调度\n   - 修复资源占用值显示问题\n   - 设置volcano允许k8s集群内其他pod访问\n\n4. **推理服务增强**\n   - 优化推理服务网关功能，增加模型量化（int8\u002Fint4）\n   - 支持推理服务网关统一代理\n   - 修复推理服务设置域名为IP时的bug\n   - 支持昇腾卡指定卡型\n   - 支持并发数设置（TFServing）\n   - 修复多机推理的访问入口问题\n\n5. **模型训练与评估**\n   - 增加LlamaFactory模型评估\n   - LlamaFactory支持奖励模型训练和强化学习\n   - 直接输出LlamaFactory评估指标\n   - 支持断点续训（YOLOv8）\n   - 升级YOLOv8，去除YOLOv7\n   - 优化SFT pipeline\n\n6. **部署与运维优化**\n   - 支持SSH Proxy\n   - 优化NPU监控\n   - 生产部署后端代理模式支持gevent\n   - 优化KubeKey离线部署\n   - 支持Harbor HTTPS部署\n   - 修复模型发布名称重复报错\n   - 支持快速卸载AIHub应用\n   - 优化初始化示例\n\n7. **前端与用户体验**\n   - 修正前端镜像名\n   - 为工作目录类型参数添加打开Notebook快捷按钮\n   - 优化字段描述\n   - 修复多用户数据探索按钮冲突\n   - 增加部署多个前端的方法\n   - 优化AIHub应用弹出框，支持卸载\n\n8. **文档与示例更新**\n   - 优化文档描述\n   - 添加SFT-RM-PPO示例\n   - 添加奖励模型答案排序标注\n   - 修正大模型初始化示例\n   - 添加Ollama部署Embedding模型示例\n   - 修正PaddleOCR的AIHub应用\n\n9. **安全与兼容性**\n   - 邮箱格式限制\n   - 去除不必要密钥\n   - 设置Notebook SSH密码为Pod名称\n   - 注册后不自动登录\n\n10. **其他改进**\n    - 支持MindIE推理\n    - 支持Python 3.11的ModelScope镜像\n    - 优化ARM Ubuntu 22.04的源\n    - 修复任务模板调用API认证问题\n    - 更新ML服务镜像\n    - 优化参数描述（如NPU310P占用名称）","2025-07-25T10:35:02",{"id":207,"version":208,"summary_zh":209,"released_at":210},77462,"v2025.03.01","# 1. 部署优化\n优化rke2部署\n优化kubekey多机部署\n支持jetson边缘盒子\n支持ollama大模型部署\n前端支持https跳转\nhttps支持nginxingressk8s部署\n修正https登录时的问题\n优化本地调试时端口号\n优化本地开发时调试环境ip问题\n# 2. 大模型相关\n大模型微调模板，全部改为llama-factory\n支持npu llamafactory和vllm\n添加deepseek微调\n优化llama factory任务模板\n支持vllm大模型对话测试\n支持qwq模型推理服务\n支持deepseek官方api\n添加deepseekchat应用\n设置大模型最大token数\n清理老旧aihub大模型\nchat中文名更改\n优化chat聊天对话内容替换适配deepseek\n# 3. 配置优化\n将大模型名称转换为配置\n初始化示例资源配置\n优化dockerfile env书写格式\n优化内服服务书写格式\n两个前端的示例配置\n更新user1权限\n增加管理员可以配置挂载目录\n禁用普通用户的挂载配置\n添加修改logo的教程\n# 4. 资源管理\n大模型推理服务实例小显存配置\n修正整体资源界面pod显示的更全面\n修复只有vgpu的时候资源显示的问题\n优化在gpu为虚拟化值时的问题\n修正额度限制\n增加项目组支持命名空间配置\n减小初始化资源占用\n支持指定第n张卡\n支持指定第一张卡\n# 5. 功能优化与修复\njwt sidecar使用优化\n修正metric没有启动时无法查看到pod的问题\n更新开机缓存提醒\n修复暂停和恢复\n修复aihub离线部署时的bug\n修复notebook保存的功能bug\n修复镜像保存的功能\n修复重复挂载的报错问题\n修复rancher拉取镜像只有一个进程\n清理孤立pod的报错\n删除archives冗余挂载，修复gpu最大额度限制，优化chat报错日志\n修正ollama配置信息和项目组配置报错提醒\n# 6. 镜像支持\npaddle镜像支持arm机构\n最小化镜像拉取\n修正昇腾镜像拉取策略\n更新yolov8镜像版本\n升级redis的镜像版本，解决arm情况下的部分报错\n更新ollama镜像，下载更快\nray制作arm镜像\nray-sklearn制作arm镜像\ndatax支持arm64\nnni的任务模板支持arm64\nray任务模板支持arm\n# 7. 任务模板\n修正任务模板目录和名称\n更新horvord任务模板\n更新mpi的任务模板\n修正标注导入的任务模板\n任务模板支持加密\n优化任务模板日志打印\n支持任务模板加密\n添加任务流固化的能力\n支持代码加密\n模板加密\n# 8. 推理服务\n支持推理服务在线测试功能\n推理服务的名称跟随版本更新\n支持aihub部署成推理服务\n推理服务的0代码发布首页自动化配置\n修复online服务优先显示的问题\n修正推理服务online模型优先显示\n# 9. 可视化与工具\n支持模型可视化\n目标识别增加可视化tensorboard能力\nyolo目标识别支持tensorboard查看\n增加open-webui内部服务\n支持open-webui的sidecar\n支持靠右停靠的列类型\n固化看板运行前无法进入跟踪界面\n增加目标识别和大模型的固化看板\ngrafana支持设置非匿名登录\n# 10. 数据集与模型\n优化modelscope内网子模型使用离线模型的问题\n数据集下载和模型下载支持魔塔\n修正hfd下载最大并行数\n修正paddleocr\n优化paddleocraihub应用\n纠正读光-文字识别-行识别模型aihub应用镜像版本\n# 11. 其他\n优化加密方法\naihub初始化不安装包\n视频跟踪的联网问题\n支持notebook stop\n修改pip config命令\n优化弹窗样式\n更加友好的aihub示例输入描写\naihubexample内网示例情况\naihub排序\nk8s查询时报错忽略\n优化npu mindie推理\n修改公司图片\n更新日志显示\n纠正val_dataset中文含义\n优化arm加密部署，修复域名访问\n优化aihub内网部署\nchat应用增加前后置处理逻辑","2025-06-03T07:48:20",{"id":212,"version":213,"summary_zh":214,"released_at":215},77463,"v2025.01.01","优化Llama Factory任务模板  \n修正部分显示bug  \n删除archives冗余挂载，修复GPU最大额度限制，优化Chat报错日志  \n修正Ollama配置信息和项目组配置报错提醒  \n优化在GPU为虚拟化值时的问题  \n修正额度限制，增加项目组支持命名空间配置  \n修正部分日志打印  \n两个前端的示例配置  \nDeepSeek多机部署  \n自定义Notebook内部服务推理服务端口取值  \n优化本地调试时端口号  \n优化资源限制  \n优化本地开发时调试环境IP问题  \n修正推理服务Online模型优先显示  \n去除ChatGLM3  \n修复Online服务优先显示的问题  \n优化配置  \n升级AIHub  \n修改公司图片  \n优化NPU MindIE推理  \n固化看板运行前无法进入跟踪界面  \n修复模型发布的报错  \n更新AIHub  \n增加目标识别和大模型的固化看板  \n修正部分Bug，优化YOLOv7内网示例  \n修复Rancher拉取镜像只有一个进程的问题  \n清理孤立Pod的报错  \n更新Ollama镜像，下载更快  \n更新镜像版本  \n修正DeepSeek名称  \nAIHub应用部署以后应该是允许被别人使用的  \nGrafana支持设置非匿名登录  \nXSS修正避免&号  \nChat应用增加前后置处理逻辑  \n添加DeepSeek Chat应用  \n设置大模型最大Token数  \n推理服务的0代码发布首页自动化配置  \n修正&&转义的问题  \n分页功能  \n添加任务流固化的能力  \n添加DeepSeek推理服务  \n升级20250201版本镜像  \n修复项目责任人归属问题  \n优化User版本Dashboard权限  \n优化目标跟踪AIHub应用  \n修复下载模型时，文件不存在的重定向地址问题  \n添加配置变量默认值  \n内部服务不允许设置域名  \n设置只有管理员可以添加修改任务模板  \n修正部分Bug  \n设置宽度  \nAIHub支持离线缓存目的地设置  \n增加维表修改时字段类型JSON  \nNotebook支持查看挂起消息  \n优化目标跟踪AIHub  \n优化YOLOv8任务模板  \n优化Pipeline固化  \n修正Bug  \n安全扫描限制  \n去除XSS安全问题  \n修正任务流固化  \n优化目标跟踪自动化标注应用  \n支持任务流固化  \n前端安全问题修复  \n修改基础镜像名  \n增加看板固话的能力  \n去除密码的显示  \n更新基础镜像  \n整体资源Pipeline Workflow支持深度清洁  \nNotebook、NNI、AIHub均添加Cookie 401认证  \n使用泛域名配置  \n修正ARM64版本的VSCode  \n模型下载增加全局挂载  \n单点登录示例  \nAIHub支持自定义添加  \n支持AIHub自定义代码目录  \nAIHub应用支持禁用开发  \n优化日志  \n修正中英文  \n修复部分显示问题  \n修正TF Serving示例  \n修正任务开始时间和结束时间的问题  \n修正首页项目描述  \n修正推理服务初始化  \n模板分组添加分组类型未显示的问题修复  \n优化昇腾初始化示例  \nNPU PyTorch训练  \n完善示例  \n修改大模型推理服务配置名  \n优化MindIE推理服务  \n优化非80端口请求的问题  \n升级数据库结构，添加Expand字段  \n自由化设置节点标签GPU类型为大写  \n优化MindIE镜像  \n增加Pipeline机器学习算力模型参数描述链接  \n增加内存填写规范和Pipeline算子JSON类型参数提示框  \n优化初始化时的Git地址信息  \n优化分布式训练任务模板  \n增加MindIE大模型推理服务  \n添加最小化部署  \n添加MindFormer任务模板  \n添加新的昇腾Notebook  \n优化MindFormer镜像  \n增加NPU的监控  \n增加昇腾新的Notebook  \nNNI超参搜索支持ARM64  \n控制任务流任务节点显示长度  \n数据可视化支持弹窗  \n弹窗功能暂存  \n升级Volcano任务模板  \n升级任务模板中Kubernetes的版本  \n添加Ollama内部服务  \n多集群支持内外双网卡  \nYOLOv8升级镜像版本  \n修改邮箱验证条件  \nChat项目去除写入日志  \n支持VLLM分布式推理  \n推送消息缓存在Redis  \n增加Xinference的内部服务  \nConda不能使用的问题  \n支持首页消息报警  \n整体资源批量删除的时候更新服务的状态  \n内部服务状态增加是否Read的提示  \n推理服务状态增加是否Read的提示  \n模型管理，支持直接跳转  \n支持自定义初始化时的镜像仓库地址和Git地址  \n整体资源，普通用户可以看到自己的项目组  \n控制项目分组编辑添加权限  \n修正AIHub应用  \nWindows支持弹窗  \n升级AIHub ARM64版本  \n升级AIHub应用  \n添加ARM版本AIHub镜像  \n添加ARM版本ModelScope镜像  \n添加昇腾大模型示例Pipeline  \n修正模型导入模板环境变量错误  \n支持昇腾的共享占用模式  \n支持昇腾的VSCode  \n添加Ascend Jupyter和VSCode  \n升级基础镜像  \n支持华为910  \n支持ARM64  \n优化GPT地址配置兼容性  \n增加ARM64镜像  \n修正部署  \n密码修正为密文存储  \n支持JSON类型输入  \n中英文优化  \n代码中镜像域名不写死CCS，避免内网的时候拉取不到  \n数据集跳转到Notebook上传  \n修复详情页面缩进问题  \n增加LDAP单点登录  \n视频跟踪自动化标注  \n优化多目标跟踪模型  \nGPU镜像替换为NVCC版本  \n优化任务填写错误的问题  \nCUDA镜像更换为Devel版本  \nIDE SSH远程自动Python  \n增加YOLO跟踪AIHub  \n在线VSCode增加SSH服务能力  \n更换英伟达基础镜像  \n增加Gamma角色权限  \n优化部分操作权限  \n优化前端表格显示  \n添加X11示例  \n增加SSH链接Jupyter时，Matplotlib可在本地显示  \nContainerd运行时，支持自定义Containerd的位置  \n增加RKE2的部署Containerd版本  \n优化弹窗提示  \n添加多分类以及转换输出概率列名为原值  \n将离线推理输出的预测结果的概率值列名转换为对应的标签名  \n增加XGB多分类  \nAIHub部署支持配置项目组  \n去除冗余代码  \n优化用户权限界面  \n新增LightGBM多分类  \n升级流量代理认证  \n新增KNN多分类  \n升级用户权限界面  \n新增GBDT多分类  \n升级Dataset模板  \n去除非必要文件  \n用户权限页面调整  \n调整中文翻译  \nLR模块更新  \n数据集模块兼容  \n添加决策树多分类  \n为AdaBoost添加多分类  \n为LR添加多分类  \n修正\u002FAPI标准路径  \n去除过多无用Gamma角色权限  \n升级Label Studio任务模板  \n训练示例，支持虚拟化卡数  \nPipeline批量删除  \n修正示例支持离线场景  \n添加安全登录，完善安全扫描  \n优化YOLOv7的示例  \n修改初始化仓库  \n升级Label Studio镜像版本  \n更新镜像源  \n修改部分用户展示信息  \n修正挂载问题  \n优化初始化，YOLOv8推理服务","2025-03-05T04:41:07",{"id":217,"version":218,"summary_zh":219,"released_at":220},77464,"v2024.11.01","添加和优化Jupyter、VSCode支持，包括SSH服务能力和本地显示Matplotlib。\r\n升级基础镜像，支持华为910、ARM64、NVCC版本GPU镜像和devel版本CUDA镜像，更新英伟达基础镜像。\r\n优化GPT地址配置兼容性，代码中镜像域名不写死，避免内网拉取不到镜像的问题。\r\n增加和优化ARM64镜像，增加gamma角色权限，优化用户权限界面和操作权限。\r\n修正部署问题，密码修正为密文存储，优化初始化过程，修正挂载和代理IP问题。\r\n优化和完善文档，包括中英文翻译和帮助文档位置更新。\r\n支持JSON类型输入，pipeline编排任务参数支持提示信息（tip）。\r\n数据集模块优化，包括跳转到Notebook上传和模板升级。\r\n修复前端显示问题，包括详情页面缩进、表格显示、部分搜索列表不显示中文等问题。\r\n增加LDAP单点登录和安全登录，完善安全扫描。\r\n视频跟踪自动化标注，优化多目标跟踪模型，增加YOLO跟踪AIHub应用和示例。\r\n在线VSCode增加SSH服务能力，IDE SSH远程自动Python。\r\n更新和优化镜像源、仓库账号和拉取秘钥，设置镜像拉取策略环境变量。\r\n新增和优化多分类模型支持，包括LightGBM、KNN、GBDT、决策树、XGBoost、Adaboost和LR的多分类及离线推理结果概率列名转换。\r\nAIHub部署支持配置项目组，增加独立应用构建镜像和任务模板。\r\n优化和删除冗余代码，去除非必要文件，减少日志打印。\r\n升级流量代理认证和计量计费账单功能，优化账单ID生成策略。\r\n修正自动化标注模型地址和部分体验问题，更新pandas版本。\r\n支持语种识别模型和语音分类模型，AIHub在线开发。\r\n推理服务和Notebook支持GPU显存单独设置，升级VGPU监控。\r\n优雅化代码，升级Istio部署，修改Grafana默认主题。\r\n修正项目成员代码位置、镜像名、Torch-Server模型发布文件名和模型名不支持的问题。\r\n服务发布需要先清理，升级推理服务镜像，更新TFServing的推理服务。\r\n完善YOLOv8任务模板和示例，支持构建成AIHub应用。\r\nPipeline复制不保留实例信息，修正超参搜索算法可取值的问题。\r\n更换ChatGPT Token，数据写入前增加JSON校验，更新脚本。\r\nNotebook不显示Node Selector，完善标注导入任务模板。\r\n内部服务支持定义首页路径，添加标注数据导入任务模板。\r\n修复部署显示问题，修正算子打开目录时的部分Bug，Pipeline算子支持镜像调试。\r\n示例Pipeline不允许修改，处理图标网站域名访问受限的问题。\r\n修正数据智能中的提示信息和记忆上次会话内容，修正激活包和初始化工作目录。\r\n增加激活码，支持菜单权限控制，更新Label Studio镜像版本。\r\n聊天会话私有会话增加提示词构建，移动ChatWeb构建后的目录地址。\r\n标注系统自动化标注接口添加服务内部名称，新版本标注系统对接Bug修复。\r\n删除一些不能识别的图片，只保留一个目标识别自动化接口，优化部分代码。","2024-11-30T04:16:46",{"id":222,"version":223,"summary_zh":224,"released_at":225},77465,"v2024.09.01","# 支持与功能增强\n支持最新版本的containerd\n任务模板参数支持 workdir子类型和image子类型\n增加12.6的cuda\n增加激活码\n支持菜单权限控制\n更新label studio镜像版本\n聊天会话，私有会话增加提示词构建\n添加aihub独立应用构建镜像\n标注系统自动化标注接口 添加上服务内部名称\n新版本标注系统 对接bug修复\n删除一些不能识别的图片\n只保留一个目标识别自动化接口\n打开notebook，支持替换个人目录\n更新workdir子类型\nrancher 镜像从国内拉取\n增加aihub环境镜像\n增加视频帧标注示例\n升级yolov8的示例\nnotebook 不显示node selector\n内部服务，支持定义首页路径\npipeline算子支持镜像调试\n示例pipeline 不允许修改\nyolov8支持构建成aihub应用\n增加gpu镜像版本\npipeline复制不保留实例信息\n\n# 文档完善\n完善文档\n增加中英文翻译\n增加12.6的aihub文档\n\n# 界面与用户体验\n更换favicon的位置\n界面多级索引的时候返回上一层目录时指定范围url\n单机多进程超参数搜索添加项目组注释\n模型管理默认按名称分类\n前端静态文件都打包到前端镜像中\n添加前端文字描述\n修复echart内容可视化\n删除在线调试时清理启动的pod\n移动chatweb 构建后的目录地址\n处理图标网站域名访问受限的问题\n修正数据智能中的tips的问题，和记忆上次会话内容\n修正初始化示例中的wget前rm\n优化整体资源的显示\n完善标注导入任务模板\n修复部署显示问题\n修正算子打开目录时的部分bug\n修正超参搜索算法可取值的问题\n\n# 代码优化与修复\n去掉冗余环节\n优化部分代码\n修改label studio的镜像\n临时更换账号密码\n升级label studio版本对应的接口\n更新镜像源\n优化yolov8任务模板\n添加aihub任务模板\n更换chatgpt token\n数据写入前，增加json校验\n更新脚本\n修正激活包\n修改初始化 workdir\n\n# 其他\n添加误删除代码\n替换仓库地址","2024-09-24T01:11:38",{"id":227,"version":228,"summary_zh":229,"released_at":230},77466,"v2024.08.01","升级Grafana版本\n修复部署显示问题\n通用Pipeline，支持多场景\n任务模板可选值支持字典格式\n添加支持多级选择器\n升级NNI使用示例","2024-08-09T14:36:44",{"id":232,"version":233,"summary_zh":234,"released_at":235},77467,"v2024.07.01","MLOps平台相关：\n\n修正内部服务IP范围\n更新教程视频\n支持Pipeline任务优先级\nNNI超参搜索支持单机多进程和多机多进程两种形式\n修正Notebook SSH链接配置\nNotebook配置内外网时，模式使用URL代理，而不是端口代理\n数据集SDK去除load功能\nWatch组件只是Supervisord管理进程\n修复在Celery Worker中数据库连接失败的报错问题\n修复微调添加出错后，平台数据库受影响的问题\n添加用户登录时拷贝示例数据到个人目录\n添加Pipeline导出\n支持K3s部署Cube-Studio\n支持Helm部署Cube-Studio\n支持KubeSphere部署Cube-Studio\n优化边缘集群模式部署\n添加最小化单机部署\n添加Pod计量计费区分不同集群\n删除Pipeline时，清理绑定的Workflow\n分布式任务支持GPU共享占用模式\n修复管理员批量删除在线Pod的功能\n去除前端输出重复校验的问题\n增加CUDA 12.1的Notebook、Pipeline镜像\n计量计费增加机器信息\n升级Hadoop客户端任务模板，支持HDFS、Hadoop、Spark、Hive任务执行\n升级大数据版本Jupyter，支持HDFS、Hadoop、Spark、Hive任务执行\n添加DataX-Import任务模板，不使用JSON作为输入\n升级ML推理镜像，支持输入输出信息显示\nRStudio添加激活按钮\n支持推理服务定时伸缩容\n更改第四范式vGPU化能力\nSQLLab支持Hive、Presto、ClickHouse SQL对接\nDataX支持拉取ClickHouse数据\n推理服务支持JWT统一认证\n支持Label Studio标注平台免登录\n内部服务支持Windows应用\n模型管理支持模型下载\n数据集管理支持数据集预览\n用户界面去除删除按钮\n\nAIHub模型市场相关：\n\n增加AIHub基础镜像版本\nAIHub支持对接Hugging Face\n去除AIHub原有前端界面，改为Gradio\n删除失效的AIHub应用\n\nGPT大模型相关：\n\nAIHub添加百川2、Llama3、Gemma、GLM4等各类型的GPT大模型\n完善DeepSpeed任务模板和示例\n增加Baichuan2、Llama2、ChatGLM2、ChatGLM3、ChatGLM4、Qwen2微调任务模板\n支持大模型VLLM推理和OpenAI流式接口\n添加Llama-Factory任务模板\n智能聊天，支持结果可视化\n修正私有知识库接收消息不全的问题\n添加ChatGLM3、ChatGLM4、Qwen2微调全链路\nAIHub支持Stable-Cascade、SD3、SD Video以及SD的其他模型\n智能体支持AIHub接口格式\n智能体支持ChatGLM4和Qwen2","2024-07-02T14:49:50"]