[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-gpustack--gpustack":3,"tool-gpustack--gpustack":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":67,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":78,"owner_url":81,"languages":82,"stars":111,"forks":112,"last_commit_at":113,"license":114,"difficulty_score":10,"env_os":115,"env_gpu":116,"env_ram":117,"env_deps":118,"category_tags":124,"github_topics":125,"view_count":23,"oss_zip_url":78,"oss_zip_packed_at":78,"status":16,"created_at":144,"updated_at":145,"faqs":146,"releases":176},4217,"gpustack\u002Fgpustack","gpustack","A GPU cluster manager that configures and orchestrates inference engines like vLLM and SGLang for high-performance AI model deployment.","GPUStack 是一款开源的 GPU 集群管理工具，旨在帮助用户高效部署和运行高性能 AI 模型。它核心解决了在多环境（如本地服务器、Kubernetes 集群或云端）下，如何统一调度分散的 GPU 资源并自动配置最佳推理引擎的难题，让复杂的集群运维变得简单可控。\n\n无论是需要构建大规模模型服务的开发团队、IT 运维人员，还是希望快速落地 AI 应用的服务提供商，都能通过 GPUStack 轻松实现“模型即服务”。它支持 NVIDIA、AMD、华为昇腾等多种主流加速卡，并能自动编排 vLLM、SGLang、TensorRT-LLM 等高性能推理后端。\n\n其技术亮点在于“开箱即用”的性能优化：内置了针对低延迟或高吞吐量的预调优模式，支持 LMCache 等扩展缓存系统以降低首字延迟，并原生集成 EAGLE3 等投机解码技术。此外，GPUStack 还具备企业级的自动化故障恢复、负载均衡及细粒度的监控计量功能，让用户在享受极致推理速度的同时，也能拥有稳定可靠的生产级运维体验。","\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg alt=\"GPUStack\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_815a71fd15ae.png\" width=\"300px\"\u002F>\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fdocs.gpustack.ai\" target=\"_blank\">\n        \u003Cimg alt=\"Documentation\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocs-GPUStack-blue?logo=readthedocs&logoColor=white\">\u003C\u002Fa>\n    \u003Ca href=\".\u002FLICENSE\" target=\"_blank\">\n        \u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fgpustack\u002Fgpustack?logo=github&logoColor=white&label=License&color=blue\">\u003C\u002Fa>\n    \u003Ca href=\".\u002Fdocs\u002Fassets\u002Fwechat-group-qrcode.jpg\" target=\"_blank\">\n        \u003Cimg alt=\"WeChat\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-GPUStack-blue?logo=wechat&logoColor=white\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FVXYJzuaqwD\" target=\"_blank\">\n        \u003Cimg alt=\"Discord\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-GPUStack-blue?logo=discord&logoColor=white\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fintent\u002Ffollow?screen_name=gpustack_ai\" target=\"_blank\">\n        \u003Cimg alt=\"Follow on X(Twitter)\" src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fgpustack_ai?logo=X\">\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\".\u002FREADME.md\">English\u003C\u002Fa> |\n  \u003Ca href=\".\u002FREADME_CN.md\">简体中文\u003C\u002Fa> |\n  \u003Ca href=\".\u002FREADME_JP.md\">日本語\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cbr>\n\n## Overview\n\nGPUStack is an open-source GPU cluster manager designed for efficient AI model deployment. It configures and orchestrates inference engines — vLLM, SGLang, TensorRT-LLM, or your own — to optimize performance across GPU clusters. Its core features include:\n- **Multi-Cluster GPU Management.** Manages GPU clusters across multiple environments. This includes on-premises servers, Kubernetes clusters, and cloud providers.\n- **Pluggable Inference Engines.** Automatically configures high-performance inference engines such as vLLM, SGLang, and TensorRT-LLM. You can also add custom inference engines as needed.\n- **Day 0 Model Support.** GPUStack's pluggable engine architecture enables you to deploy new models on the day they are released.\n- **Performance-Optimized Configurations.** Offers pre-tuned modes for low latency or high throughput. GPUStack supports extended KV cache systems like LMCache and HiCache to reduce TTFT. It also includes built-in support for speculative decoding methods such as EAGLE3, MTP, and N-grams.\n- **Enterprise-Grade Operations.** Offers support for automated failure recovery, load balancing, monitoring, authentication, and access control.\n\n## Architecture\n\nGPUStack enables development teams, IT organizations, and service providers to deliver Model-as-a-Service at scale. It supports industry-standard APIs for LLM, voice, image, and video models. The platform includes built-in user authentication and access control, real-time monitoring of GPU performance and utilization, and detailed metering of token usage and API request rates.\n\nThe figure below illustrates how a single GPUStack server can manage multiple GPU clusters across both on-premises and cloud environments. The GPUStack scheduler allocates GPUs to maximize resource utilization and selects the appropriate inference engines for optimal performance. Administrators also gain full visibility into system health and metrics through integrated Grafana and Prometheus dashboards.\n\n![gpustack-v2-architecture](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_75fa329f902e.png)\n\n## Optimized Inference Performance\n\nGPUStack's automated engine selection and parameter optimization deliver strong inference performance out of the box. The following figure shows throughput improvements over default vLLM configurations:\n\n![a100-throughput-comparison](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_32fd62f5d229.png)\n\nFor detailed benchmarking methods and results, visit our [Inference Performance Lab](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Fperformance-lab\u002Foverview\u002F).\n\n## Supported Accelerators\n\nGPUStack supports a wide range of accelerators for AI inference:\n\n- **NVIDIA GPU**\n- **AMD GPU**\n- **Ascend NPU**\n- **Hygon DCU**\n- **MThreads GPU**\n- **Iluvatar GPU**\n- **MetaX GPU**\n- **Cambricon MLU**\n- **T-Head PPU**\n\nFor detailed requirements and setup instructions, see the [Installation Requirements](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Finstallation\u002Frequirements\u002F) documentation.\n\n## Quick Start\n\n### Prerequisites\n\n1. A node with at least one NVIDIA GPU. For other GPU types, please check the guidelines in the GPUStack UI when adding a worker, or refer to the [Installation documentation](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Finstallation\u002Frequirements\u002F) for more details.\n2. Ensure the NVIDIA driver, [Docker](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Finstall\u002F) and [NVIDIA Container Toolkit](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html) are installed on the worker node.\n3. (Optional) A CPU node for hosting the GPUStack server. The GPUStack server does not require a GPU and can run on a CPU-only machine. [Docker](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Finstall\u002F) must be installed. Docker Desktop (for Windows and macOS) is also supported. If no dedicated CPU node is available, the GPUStack server can be installed on the same machine as a GPU worker node.\n4. Only Linux is supported for GPUStack worker nodes. If you use Windows, consider using WSL2 and avoid using Docker Desktop. macOS is not supported for GPUStack worker nodes.\n\n### Install GPUStack\n\nRun the following command to install and start the GPUStack server using Docker:\n\n```bash\nsudo docker run -d --name gpustack \\\n    --restart unless-stopped \\\n    -p 80:80 \\\n    --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n    gpustack\u002Fgpustack\n```\n\n\u003Cdetails>\n\u003Csummary>Alternative: Use Quay Container Registry Mirror\u003C\u002Fsummary>\n\nIf you cannot pull images from `Docker Hub` or the download is very slow, you can use our `Quay.io` mirror by pointing your registry to `quay.io`:\n\n```bash\nsudo docker run -d --name gpustack \\\n    --restart unless-stopped \\\n    -p 80:80 \\\n    --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n    quay.io\u002Fgpustack\u002Fgpustack \\\n    --system-default-container-registry quay.io\n```\n\u003C\u002Fdetails>\n\nCheck the GPUStack startup logs:\n\n```bash\nsudo docker logs -f gpustack\n```\n\nAfter GPUStack starts, run the following command to get the default admin password:\n\n```bash\nsudo docker exec gpustack cat \u002Fvar\u002Flib\u002Fgpustack\u002Finitial_admin_password\n```\n\nOpen your browser and navigate to `http:\u002F\u002Fyour_host_ip` to access the GPUStack UI. Use the default username `admin` and the password you retrieved above to log in.\n\n### Set Up a GPU Cluster\n\n1. On the GPUStack UI, navigate to the `Clusters` page.\n\n2. Click the `Add Cluster` button.\n\n3. Select `Docker` as the cluster provider.\n\n4. Fill in the `Name` and `Description` fields for the new cluster, then click the `Save` button.\n\n5. Follow the UI guidelines to configure the new worker node. You will need to run a Docker command on the worker node to connect it to the GPUStack server. The command will look similar to the following:\n\n    ```bash\n    sudo docker run -d --name gpustack-worker \\\n          --restart=unless-stopped \\\n          --privileged \\\n          --network=host \\\n          --volume \u002Fvar\u002Frun\u002Fdocker.sock:\u002Fvar\u002Frun\u002Fdocker.sock \\\n          --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n          --runtime nvidia \\\n          gpustack\u002Fgpustack \\\n          --server-url http:\u002F\u002Fyour_gpustack_server_url \\\n          --token your_worker_token \\\n          --advertise-address 192.168.1.2\n    ```\n\n6. Execute the command on the worker node to connect it to the GPUStack server.\n\n7. After the worker node connects successfully, it will appear on the `Workers` page in the GPUStack UI.\n\n### Deploy a Model\n\n1. Navigate to the `Catalog` page in the GPUStack UI.\n\n2. Select the `Qwen3 0.6B` model from the list of available models.\n\n3. After the deployment compatibility checks pass, click the `Save` button to deploy the model.\n\n![deploy qwen3 from catalog](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_00b141d91d17.png)\n\n4. GPUStack will start downloading the model files and deploying the model. When the deployment status shows `Running`, the model has been deployed successfully.\n\n![model is running](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_124b7f60c094.png)\n\n5. Click `Playground - Chat` in the navigation menu, check that the model `qwen3-0.6b` is selected from the top-right `Model` dropdown. Now you can chat with the model in the UI playground.\n\n![quick chat](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_93613260dc3f.png)\n\n### Use the model via API\n\n1. Hover over the user avatar and navigate to the `API Keys` page, then click the `New API Key` button.\n\n2. Fill in the `Name` and click the `Save` button.\n\n3. Copy the generated API key and save it somewhere safe. Please note that you can only see it once on creation.\n\n4. You can now use the API key to access the OpenAI-compatible API endpoints provided by GPUStack. For example, use curl as the following:\n\n```bash\n# Replace `your_api_key` and `your_gpustack_server_url`\n# with your actual API key and GPUStack server URL.\nexport GPUSTACK_API_KEY=your_api_key\ncurl http:\u002F\u002Fyour_gpustack_server_url\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -H \"Authorization: Bearer $GPUSTACK_API_KEY\" \\\n  -d '{\n    \"model\": \"qwen3-0.6b\",\n    \"messages\": [\n      {\n        \"role\": \"system\",\n        \"content\": \"You are a helpful assistant.\"\n      },\n      {\n        \"role\": \"user\",\n        \"content\": \"Tell me a joke.\"\n      }\n    ],\n    \"stream\": true\n  }'\n```\n\n## Documentation\n\nPlease see the [official docs site](https:\u002F\u002Fdocs.gpustack.ai) for complete documentation.\n\n## Build\n\n1. Install Python (version 3.10 to 3.12).\n\n2. Run `make build`.\n\nYou can find the built wheel package in `dist` directory.\n\n## Contributing\n\nPlease read the [Contributing Guide](.\u002Fdocs\u002Fcontributing.md) if you're interested in contributing to GPUStack.\n\n## Join Community\n\nAny issues or have suggestions, feel free to join our [Community](https:\u002F\u002Fdiscord.gg\u002FVXYJzuaqwD) for support.\n\n## License\n\nCopyright (c) 2024-2025 The GPUStack authors\n\nLicensed under the Apache License, Version 2.0 (the \"License\");\nyou may not use this file except in compliance with the License.\nYou may obtain a copy of the License at [LICENSE](.\u002FLICENSE) file for details.\n\nUnless required by applicable law or agreed to in writing, software\ndistributed under the License is distributed on an \"AS IS\" BASIS,\nWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\nSee the License for the specific language governing permissions and\nlimitations under the License.\n","\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Cimg alt=\"GPUStack\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_815a71fd15ae.png\" width=\"300px\"\u002F>\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fdocs.gpustack.ai\" target=\"_blank\">\n        \u003Cimg alt=\"Documentation\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDocs-GPUStack-blue?logo=readthedocs&logoColor=white\">\u003C\u002Fa>\n    \u003Ca href=\".\u002FLICENSE\" target=\"_blank\">\n        \u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fgpustack\u002Fgpustack?logo=github&logoColor=white&label=License&color=blue\">\u003C\u002Fa>\n    \u003Ca href=\".\u002Fdocs\u002Fassets\u002Fwechat-group-qrcode.jpg\" target=\"_blank\">\n        \u003Cimg alt=\"WeChat\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWeChat-GPUStack-blue?logo=wechat&logoColor=white\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FVXYJzuaqwD\" target=\"_blank\">\n        \u003Cimg alt=\"Discord\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-GPUStack-blue?logo=discord&logoColor=white\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fintent\u002Ffollow?screen_name=gpustack_ai\" target=\"_blank\">\n        \u003Cimg alt=\"Follow on X(Twitter)\" src=\"https:\u002F\u002Fimg.shields.io\u002Ftwitter\u002Ffollow\u002Fgpustack_ai?logo=X\">\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\".\u002FREADME.md\">English\u003C\u002Fa> |\n  \u003Ca href=\".\u002FREADME_CN.md\">简体中文\u003C\u002Fa> |\n  \u003Ca href=\".\u002FREADME_JP.md\">日本語\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cbr>\n\n## 概述\n\nGPUStack 是一款开源的 GPU 集群管理器，专为高效部署 AI 模型而设计。它能够配置并编排推理引擎——如 vLLM、SGLang、TensorRT-LLM 或您自定义的引擎——以优化跨 GPU 集群的性能。其核心功能包括：\n- **多集群 GPU 管理。** 可管理跨多个环境的 GPU 集群，包括本地服务器、Kubernetes 集群以及云服务提供商。\n- **可插拔的推理引擎。** 自动配置高性能推理引擎，如 vLLM、SGLang 和 TensorRT-LLM。您也可以根据需要添加自定义推理引擎。\n- **Day 0 模型支持。** GPUStack 的可插拔引擎架构使您能够在模型发布当天就将其部署上线。\n- **性能优化配置。** 提供针对低延迟或高吞吐量的预调模式。GPUStack 支持 LMCache 和 HiCache 等扩展 KV 缓存系统，以降低 TTFT；同时内置对 EAGLE3、MTP 和 N-grams 等推测解码方法的支持。\n- **企业级运维功能。** 支持自动故障恢复、负载均衡、监控、身份验证和访问控制。\n\n## 架构\n\nGPUStack 使开发团队、IT 组织和服务提供商能够大规模提供模型即服务（MaaS）。它支持 LLM、语音、图像和视频模型的行业标准 API。该平台内置用户身份验证和访问控制、GPU 性能与利用率的实时监控，以及详细的 Token 使用量和 API 请求速率计量。\n\n下图展示了单个 GPUStack 服务器如何管理跨本地和云端的多个 GPU 集群。GPUStack 调度器会分配 GPU 以最大化资源利用率，并选择合适的推理引擎以实现最佳性能。管理员还可以通过集成的 Grafana 和 Prometheus 仪表板，全面了解系统健康状况和各项指标。\n\n![gpustack-v2-architecture](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_75fa329f902e.png)\n\n## 优化的推理性能\n\nGPUStack 的自动化引擎选择和参数优化，开箱即用即可带来出色的推理性能。下图展示了相较于默认 vLLM 配置的吞吐量提升：\n\n![a100-throughput-comparison](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_32fd62f5d229.png)\n\n有关详细的基准测试方法和结果，请访问我们的 [推理性能实验室](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Fperformance-lab\u002Foverview\u002F)。\n\n## 支持的加速器\n\nGPUStack 支持广泛的 AI 推理加速器：\n- NVIDIA GPU\n- AMD GPU\n- Ascend NPU\n- Hygon DCU\n- MThreads GPU\n- Iluvatar GPU\n- MetaX GPU\n- Cambricon MLU\n- T-Head PPU\n\n有关详细要求和设置说明，请参阅 [安装要求](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Finstallation\u002Frequirements\u002F) 文档。\n\n## 快速入门\n\n### 前提条件\n\n1. 至少配备一块 NVIDIA GPU 的节点。对于其他类型的 GPU，请在添加工作节点时查看 GPUStack UI 中的相关指南，或参考 [安装文档](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Finstallation\u002Frequirements\u002F) 获取更多信息。\n2. 确保工作节点上已安装 NVIDIA 驱动程序、[Docker](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Finstall\u002F) 和 [NVIDIA Container Toolkit](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html)。\n3. （可选）一台用于托管 GPUStack 服务器的 CPU 节点。GPUStack 服务器无需 GPU，可在纯 CPU 机器上运行。必须安装 Docker。也支持 Docker Desktop（适用于 Windows 和 macOS）。若无专用 CPU 节点，也可将 GPUStack 服务器安装在同一台 GPU 工作节点上。\n4. GPUStack 工作节点仅支持 Linux 系统。若您使用 Windows，建议采用 WSL2，避免使用 Docker Desktop。macOS 不支持作为 GPUStack 工作节点。\n\n### 安装 GPUStack\n\n运行以下命令，使用 Docker 安装并启动 GPUStack 服务器：\n\n```bash\nsudo docker run -d --name gpustack \\\n    --restart unless-stopped \\\n    -p 80:80 \\\n    --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n    gpustack\u002Fgpustack\n```\n\n\u003Cdetails>\n\u003Csummary>替代方案：使用 Quay 容器镜像仓库\u003C\u002Fsummary>\n\n如果您无法从 `Docker Hub` 拉取镜像，或下载速度非常慢，可以使用我们的 `Quay.io` 镜像，只需将您的容器注册表指向 `quay.io` 即可：\n\n```bash\nsudo docker run -d --name gpustack \\\n    --restart unless-stopped \\\n    -p 80:80 \\\n    --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n    quay.io\u002Fgpustack\u002Fgpustack \\\n    --system-default-container-registry quay.io\n```\n\u003C\u002Fdetails>\n\n检查 GPUStack 启动日志：\n\n```bash\nsudo docker logs -f gpustack\n```\n\nGPUStack 启动后，运行以下命令获取默认管理员密码：\n\n```bash\nsudo docker exec gpustack cat \u002Fvar\u002Flib\u002Fgpustack\u002Finitial_admin_password\n```\n\n打开浏览器，访问 `http:\u002F\u002Fyour_host_ip` 即可进入 GPUStack 管理界面。使用默认用户名 `admin` 和上述获取的密码登录。\n\n### 设置 GPU 集群\n\n1. 在 GPUStack 的 UI 界面中，导航到 `Clusters` 页面。\n\n2. 点击 `Add Cluster` 按钮。\n\n3. 选择 `Docker` 作为集群提供商。\n\n4. 填写新集群的 `Name` 和 `Description` 字段，然后点击 `Save` 按钮。\n\n5. 按照 UI 指南配置新的工作节点。您需要在工作节点上运行一个 Docker 命令，将其连接到 GPUStack 服务器。该命令大致如下：\n\n    ```bash\n    sudo docker run -d --name gpustack-worker \\\n          --restart=unless-stopped \\\n          --privileged \\\n          --network=host \\\n          --volume \u002Fvar\u002Frun\u002Fdocker.sock:\u002Fvar\u002Frun\u002Fdocker.sock \\\n          --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n          --runtime nvidia \\\n          gpustack\u002Fgpustack \\\n          --server-url http:\u002F\u002Fyour_gpustack_server_url \\\n          --token your_worker_token \\\n          --advertise-address 192.168.1.2\n    ```\n\n6. 在工作节点上执行该命令，以将其连接到 GPUStack 服务器。\n\n7. 工作节点成功连接后，将显示在 GPUStack UI 的 `Workers` 页面上。\n\n### 部署模型\n\n1. 导航到 GPUStack UI 中的 `Catalog` 页面。\n\n2. 从可用模型列表中选择 `Qwen3 0.6B` 模型。\n\n3. 部署兼容性检查通过后，点击 `Save` 按钮以部署模型。\n\n![从目录部署 Qwen3](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_00b141d91d17.png)\n\n4. GPUStack 将开始下载模型文件并部署模型。当部署状态显示为 `Running` 时，模型已成功部署。\n\n![模型正在运行](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_124b7f60c094.png)\n\n5. 点击导航菜单中的 `Playground - Chat`，确保在右上角的 `Model` 下拉菜单中选择了 `qwen3-0.6b` 模型。现在您可以在 UI Playground 中与该模型进行对话。\n\n![快速聊天](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_readme_93613260dc3f.png)\n\n### 通过 API 使用模型\n\n1. 将鼠标悬停在用户头像上，进入 `API Keys` 页面，然后点击 `New API Key` 按钮。\n\n2. 填写 `Name` 并点击 `Save` 按钮。\n\n3. 复制生成的 API 密钥，并将其保存在安全的地方。请注意，您只能在创建时查看一次。\n\n4. 现在您可以使用该 API 密钥访问 GPUStack 提供的与 OpenAI 兼容的 API 端点。例如，使用 curl 如下：\n\n```bash\n# 将 `your_api_key` 和 `your_gpustack_server_url`\n# 替换为您的实际 API 密钥和 GPUStack 服务器 URL。\nexport GPUSTACK_API_KEY=your_api_key\ncurl http:\u002F\u002Fyour_gpustack_server_url\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -H \"Authorization: Bearer $GPUSTACK_API_KEY\" \\\n  -d '{\n    \"model\": \"qwen3-0.6b\",\n    \"messages\": [\n      {\n        \"role\": \"system\",\n        \"content\": \"You are a helpful assistant.\"\n      },\n      {\n        \"role\": \"user\",\n        \"content\": \"Tell me a joke.\"\n      }\n    ],\n    \"stream\": true\n  }'\n```\n\n## 文档\n\n完整的文档请参阅 [官方文档网站](https:\u002F\u002Fdocs.gpustack.ai)。\n\n## 构建\n\n1. 安装 Python（版本 3.10 至 3.12）。\n\n2. 运行 `make build`。\n\n构建好的 wheel 包可在 `dist` 目录中找到。\n\n## 贡献\n\n如果您有兴趣为 GPUStack 做贡献，请阅读 [贡献指南](.\u002Fdocs\u002Fcontributing.md)。\n\n## 加入社区\n\n如有任何问题或建议，欢迎加入我们的 [社区](https:\u002F\u002Fdiscord.gg\u002FVXYJzuaqwD) 获取支持。\n\n## 许可证\n\n版权所有 © 2024–2025 GPUStack 作者\n\n根据 Apache License, Version 2.0（“许可证”）授权；除非符合许可证规定，否则不得使用本文件。有关详细信息，请参阅 [LICENSE](.\u002FLICENSE) 文件。\n\n除非适用法律要求或双方书面同意，否则软件按“原样”分发，不提供任何形式的保证或条件。许可证详细规定了权限和限制。","# GPUStack 快速上手指南\n\nGPUStack 是一款开源的 GPU 集群管理器，专为高效部署 AI 模型而设计。它支持自动配置 vLLM、SGLang、TensorRT-LLM 等推理引擎，并兼容 NVIDIA、AMD、华为昇腾等多种加速卡。\n\n## 环境准备\n\n在开始之前，请确保满足以下前置条件：\n\n### 1. 硬件与系统要求\n*   **GPU 节点 (Worker)**：\n    *   至少拥有一张 NVIDIA GPU（也支持 AMD、昇腾等，详见官方文档）。\n    *   **操作系统**：仅支持 **Linux**。\n    *   *注意*：Windows 用户建议使用 WSL2；macOS 不支持作为 Worker 节点。\n*   **管理节点 (Server)**：\n    *   可以是独立的 CPU 机器，也可以与 GPU 节点共用同一台机器。\n    *   支持 Linux、Windows (Docker Desktop) 和 macOS (Docker Desktop)。\n\n### 2. 软件依赖\n在所有节点上安装以下软件：\n*   **Docker**: [安装指南](https:\u002F\u002Fdocs.docker.com\u002Fengine\u002Finstall\u002F)\n*   **NVIDIA Driver**: 确保显卡驱动已正确安装。\n*   **NVIDIA Container Toolkit**: [安装指南](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Finstall-guide.html) (GPU 节点必需)\n\n## 安装步骤\n\n### 1. 启动 GPUStack 服务器 (Server)\n\n使用 Docker 运行 GPUStack 服务器。国内用户若拉取 Docker Hub 较慢，推荐使用提供的 Quay.io 镜像源。\n\n**标准安装命令：**\n```bash\nsudo docker run -d --name gpustack \\\n    --restart unless-stopped \\\n    -p 80:80 \\\n    --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n    gpustack\u002Fgpustack\n```\n\n**国内加速方案 (使用 Quay.io 镜像)：**\n```bash\nsudo docker run -d --name gpustack \\\n    --restart unless-stopped \\\n    -p 80:80 \\\n    --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n    quay.io\u002Fgpustack\u002Fgpustack \\\n    --system-default-container-registry quay.io\n```\n\n### 2. 获取管理员密码\n\n服务启动后，执行以下命令查看初始管理员密码：\n\n```bash\nsudo docker exec gpustack cat \u002Fvar\u002Flib\u002Fgpustack\u002Finitial_admin_password\n```\n\n### 3. 登录管理界面\n\n打开浏览器访问 `http:\u002F\u002F\u003C你的服务器 IP>`，使用用户名 `admin` 和上一步获取的密码登录。\n\n## 基本使用\n\n### 第一步：添加 GPU 工作节点\n\n1.  在 GPUStack UI 中，进入 **Clusters** 页面，点击 **Add Cluster**。\n2.  选择 **Docker** 作为集群提供商，填写名称和描述后保存。\n3.  按照界面指引，复制生成的 Docker 运行命令。该命令类似于：\n    ```bash\n    sudo docker run -d --name gpustack-worker \\\n          --restart=unless-stopped \\\n          --privileged \\\n          --network=host \\\n          --volume \u002Fvar\u002Frun\u002Fdocker.sock:\u002Fvar\u002Frun\u002Fdocker.sock \\\n          --volume gpustack-data:\u002Fvar\u002Flib\u002Fgpustack \\\n          --runtime nvidia \\\n          gpustack\u002Fgpustack \\\n          --server-url http:\u002F\u002F\u003C你的服务器 IP> \\\n          --token \u003C你的 worker token> \\\n          --advertise-address \u003C你的节点内网 IP>\n    ```\n4.  在拥有 GPU 的 Linux 节点上执行上述命令。执行成功后，该节点将出现在 UI 的 **Workers** 页面中。\n\n### 第二步：部署模型\n\n1.  进入 UI 的 **Catalog** 页面。\n2.  从列表中选择模型（例如 `Qwen3 0.6B`）。\n3.  通过兼容性检查后，点击 **Save** 开始部署。\n4.  等待状态变为 **Running**，即表示模型部署成功。\n\n### 第三步：体验对话与 API 调用\n\n#### 方式 A：在线对话框 (Playground)\n点击顶部导航栏的 **Playground - Chat**，在下拉菜单中选择已部署的模型（如 `qwen3-0.6b`），即可直接在网页中进行对话测试。\n\n#### 方式 B：通过 API 调用\n1.  点击右上角头像进入 **API Keys** 页面，创建一个新的 Key 并妥善保存。\n2.  使用 `curl` 或任何兼容 OpenAI 格式的客户端进行调用：\n\n```bash\n# 替换为你的实际 API Key 和服务器地址\nexport GPUSTACK_API_KEY=\u003Cyour_api_key>\nexport GPUSTACK_URL=http:\u002F\u002F\u003Cyour_gpustack_server_url>\n\ncurl $GPUSTACK_URL\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -H \"Authorization: Bearer $GPUSTACK_API_KEY\" \\\n  -d '{\n    \"model\": \"qwen3-0.6b\",\n    \"messages\": [\n      {\n        \"role\": \"system\",\n        \"content\": \"You are a helpful assistant.\"\n      },\n      {\n        \"role\": \"user\",\n        \"content\": \"Tell me a joke.\"\n      }\n    ],\n    \"stream\": true\n  }'\n```","某中型 AI 初创公司需要在混合云环境（本地服务器 + 公有云 GPU）中快速部署并规模化服务最新的开源大语言模型，以支撑其智能客服产品。\n\n### 没有 gpustack 时\n- **资源调度混乱**：运维团队需手动在本地和云端分别配置 vLLM 或 SGLang，跨环境扩缩容耗时数小时，难以应对突发流量。\n- **性能调优门槛高**：缺乏自动化的参数优化，工程师需反复试验 KV Cache 大小和解码策略，导致首字延迟（TTFT）居高不下。\n- **监控与运维割裂**：GPU 利用率、Token 消耗等关键指标分散在不同平台，故障恢复依赖人工介入，服务稳定性差。\n- **新模型上线慢**：每当有新模型发布，需重新编写适配脚本和配置文件，无法实现“发布即部署”。\n\n### 使用 gpustack 后\n- **统一集群编排**：gpustack 一键纳管本地与云端异构算力，自动将推理任务调度至最优节点，扩容时间从小时级缩短至分钟级。\n- **开箱即用的高性能**：内置预调优模式自动启用 LMCache 和 EAGLE3  speculative decoding，在同等硬件下吞吐量显著提升，延迟大幅降低。\n- **全链路可观测性**：集成 Prometheus 和 Grafana 提供统一的监控大盘，实时展示 GPU 状态与 API 用量，并支持故障自动迁移与恢复。\n- **敏捷模型迭代**：凭借插件式引擎架构，新模型发布当天即可通过简单配置完成部署，无需修改底层代码。\n\ngpustack 通过自动化编排与深度性能优化，让企业能够像使用水电一样便捷地构建高可用、低延迟的模型即服务（MaaS）平台。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgpustack_gpustack_32fd62f5.png","GPUStack","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgpustack_b55dad0f.png","GPU cluster manager for optimized AI model deployment",null,"info@gpustack.ai","GPUStack_ai","https:\u002F\u002Fgithub.com\u002Fgpustack",[83,87,91,95,99,103,107],{"name":84,"color":85,"percentage":86},"Python","#3572A5",95.5,{"name":88,"color":89,"percentage":90},"Jinja","#a52a22",1.7,{"name":92,"color":93,"percentage":94},"Dockerfile","#384d54",1.1,{"name":96,"color":97,"percentage":98},"Shell","#89e051",1,{"name":100,"color":101,"percentage":102},"PowerShell","#012456",0.6,{"name":104,"color":105,"percentage":106},"Makefile","#427819",0.1,{"name":108,"color":109,"percentage":110},"Mako","#7e858d",0,4786,493,"2026-04-05T04:48:16","Apache-2.0","Linux","工作节点必需至少一张 GPU。支持 NVIDIA、AMD、Ascend NPU、Hygon DCU、MThreads、Iluvatar、MetaX、Cambricon MLU、T-Head PPU。Server 端可运行在无 GPU 的 CPU 机器上。","未说明",{"notes":119,"python":120,"dependencies":121},"1. 架构分为 Server 和 Worker：Server 可运行在 Linux\u002FWindows\u002FmacOS 的 CPU 机器上（支持 Docker Desktop）；Worker 节点仅支持 Linux，不支持 macOS 和原生 Windows（Windows 需使用 WSL2 且避免使用 Docker Desktop）。2. 必须安装 Docker 及对应 GPU 的容器运行时工具（如 NVIDIA Container Toolkit）。3. 构建源码包需要 Python 3.10 至 3.12 版本。","3.10 - 3.12 (仅构建时需要)",[122,123],"Docker","NVIDIA Container Toolkit (针对 NVIDIA GPU)",[13,26],[126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143],"ascend","cuda","deepseek","distributed-inference","genai","inference","llama","llm","maas","openai","qwen","rocm","vllm","mindie","llm-inference","llm-serving","sglang","high-performance-inference","2026-03-27T02:49:30.150509","2026-04-06T14:01:41.206365",[147,152,157,162,167,172],{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},19225,"在 Windows 上部署模型时出现 \"Inference server exited with code 0\" 错误且日志为空，如何解决？","这通常是由于 IP 地址配置错误或防火墙阻止连接导致的。请尝试以下步骤：\n1. 重新运行安装脚本并指定与本地机器同一网段的 worker IP，例如：\nInvoke-Expression \"& { $((Invoke-WebRequest -Uri 'https:\u002F\u002Fget.gpustack.ai' -UseBasicParsing).Content) } -- --worker-ip '192.168.110.10'\"\n2. 如果之前指定了错误的 IP，删除现有的模型实例，让 GPUStack 使用更新后的 IP 重新创建。\n3. 检查 Windows 防火墙设置，确保未阻止相关端口的连接。如果是单节点本地部署，确保分配的 IP 段与本地网络接口一致。","https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F808",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},19226,"在 Mac (M3 Ultra) 上运行大型模型（如 DeepSeek-R1-671B）启动报错或卡在 Pending 状态怎么办？","这可能是由于内存映射或锁定机制导致的资源问题。请尝试以下解决方案：\n1. 修改模型部署配置，在“高级 - 后端参数”中添加 `--mmap` 和 `--mlock` 参数。\n2. 删除（重建）模型副本以应用新配置。\n3. 如果问题依旧，可以使用 Swift 脚本检查 Metal 设备的推荐最大工作集大小，确认显存是否充足：\n```swift\n#!\u002Fusr\u002Fbin\u002Fenv swift\nimport Metal\nfor device in MTLCopyAllDevices() {\n    if device.hasUnifiedMemory {\n        print(\"Recommended Max Working Set Size: \\(device.recommendedMaxWorkingSetSize)\")\n    }\n}\n```\n该问题在 v0.6.0 版本中也可能已通过其他修复得到解决。","https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F1487",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},19227,"启动 GPUStack 时遇到数据库迁移错误 \"no such column: memory\" 或 \"AttributeError: 'NoneType' object has no attribute 'terminate'\" 如何处理？","这通常是由于版本升级导致的数据库架构不兼容或安装冲突。解决方法如下：\n1. 升级到最新版本的 GPUStack，该问题已在后续发布版本中修复。\n2. 检查是否在同一台机器上同时安装了 Server 和 Worker 角色。默认情况下，GPUStack Server 已嵌入 Worker 功能，无需单独安装。如果在 Server 节点上重复安装 Worker，可能会破坏现有设置。请确保仅在独立节点上安装 Worker，或直接使用默认的 Server+Worker 模式启动。","https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F493",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},19228,"在海光 (Hygon) DCU 显卡上使用 Docker 部署 GPUStack 时，日志报错 \"Failed to detect GPU devices\" 且 name 为 None，如何解决？","虽然容器内执行 `hy-smi` 能正常显示显卡信息，但 GPUStack 无法正确解析设备名称。这通常是兼容性或驱动映射问题。\n1. 确保 Docker 启动参数正确挂载了设备（如 `\u002Fdev\u002Fkfd`, `\u002Fdev\u002Fmkfd`, `\u002Fdev\u002Fdri`）并添加了视频组权限（`--group-add video`）。\n2. 确认已安装最新的 GPUStack 版本，因为该问题可能涉及特定版本的解析逻辑修复。\n3. 如果问题持续，请提供完整的日志附件给维护者，因为这可能是一个需要针对特定国产卡进行适配的 Bug，官方已在相关版本中进行了修复验证。","https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F2032",{"id":168,"question_zh":169,"answer_zh":170,"source_url":171},19229,"升级 GPUStack 到 v2.0.0 后，Nvidia vGPU (Grid 驱动) 无法被识别，但 nvidia-smi 正常，怎么办？","这是 v2.0.0 版本中已知的 vGPU 检测回归问题。虽然在虚拟机和容器内 `nvidia-smi` 能正常输出，但 GPUStack 无法读取设备信息。\n1. 建议暂时回退到 v0.7.1 或其他稳定版本，直到官方发布修复补丁。\n2. 关注官方 Issue 跟踪，该问题已被标记并正在处理中。\n3. 确保 `nvidia-container-toolkit` 已正确安装且配置无误，尽管在此案例中主要问题是软件版本兼容性而非环境配置。","https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3510",{"id":173,"question_zh":174,"answer_zh":175,"source_url":151},19230,"如何在多节点环境中正确配置 Worker 节点的 IP 地址以避免连接失败？","当服务器与 Worker 不在同一网段或自动检测 IP 错误时，必须手动指定 Worker IP。\n1. 在 Worker 节点上重新运行安装脚本，并使用 `--worker-ip` 参数指定其局域网 IP 地址。例如：\nInvoke-Expression \"& { $((Invoke-WebRequest -Uri 'https:\u002F\u002Fget.gpustack.ai' -UseBasicParsing).Content) } -- --worker-ip '192.168.110.10' --port 9999\"\n2. 可选地，通过 `--tools-download-base-url` 指定国内镜像源以加速工具下载。\n3. 配置完成后，在 Server 端删除旧的模型实例，触发重新调度以确保连接到正确的 Worker IP。",[177,182,186,191,195,200,205,209,214,218,222,227,231,235,240,244,248,253,257,261],{"id":178,"version":179,"summary_zh":180,"released_at":181},117212,"v2.1.1","## 模型目录更新\r\n\r\n针对优化推理性能的调优版 Qwen3.5 模型部署：\n- **Qwen3.5-35B-A3B**：在使用 H200 GPU 时，吞吐量模式下 TPS 提升 33.0%，延迟模式下生成速度提升 2.74 倍。([报告](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Fperformance-lab\u002Fqwen3.5-35b-a3b\u002Fh200-latency\u002F))\n- **Qwen3.5-9B**：在使用 H100 GPU 时，吞吐量模式下 TPS 提升 15.6%，延迟模式下生成速度提升 1.26 倍。([报告](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Fperformance-lab\u002Fqwen3.5-9b\u002Fh100-latency\u002F))\n\n## 功能增强\r\n\r\n- 允许配置嵌入式 Prometheus 和 Grafana 的端口，以避免使用默认端口。（问题 #4896）\n- 支持使用 Anthropic X-API-KEY 格式的认证方式。（问题 #4882）\n- 支持将路由目标的权重配置为 0。（问题 #3772）\n- 在使用不兼容版本时，提示用户升级驱动程序。（问题 #4873）\n- UI\u002FUX 优化。（问题 #4833、#4871）\n\n## 错误修复\r\n\r\n- 修复了工作进程反复崩溃并重启的问题。（问题 #4921、#4878）\n- 修复了 Ollama 模型提供商缺少必填字段的问题。（问题 #4906）\n- 修复了用户激活和停用需要十分钟才能生效的问题。（问题 #4902）\n- 修正了从元数据中错误检测上下文大小的问题。（问题 #4895）\n- 修复了在一体化部署中，`gpustack-worker` 进程崩溃后无法自动恢复的问题。（问题 #4894）\n- 修复了自定义 CA 证书与 OIDC 不兼容的问题。（问题 #4893）\n- 修复了工作进程指标界面无响应的问题。（问题 #4879）\n- 解决了当工作节点名称已存在时注册失败的问题。（问题 #4875）\n- 修复了部分流式响应未返回 token 使用量的问题。（问题 #4874）\n- 修复了公共 MaaS 模型未包含在用量统计列表中的遗漏问题。（问题 #4864）\n- 修复了部署过程中无法获取模型预训练配置文件的问题。（问题 #4855）\n- 修复了在 NVIDIA vGPU 环境下，为后端可见设备分配 UUID 值会阻止工作负载启动的问题。（问题 #4844）\n- 解决了 MaxKB 使用 `\u002Fv2\u002Frerank` 端点导致无法直接访问 GPUStack 的兼容性问题。（问题 #4842）\n- 修正了调用 Anthropic API `\u002Fv1\u002Fmessages` 端点时出现 404 错误的问题。（问题 #4836）\n- 修复了 MindIE 2.3.0 缺少必要参数的问题。（问题 #4834）\n- 修复了无法检测到 Metax C500 GPU 的问题。（问题 #4832）\n- 修复了旧版自定义后端对来源处理不当的问题。（问题 #4827）\n- 修复了在 Ubuntu 24.04 环境中配备 AMD Radeon RX 7800 XT 显卡时设备检测失败的问题。（问题 #4796）\n\n## 内置推理后端更新\r\n\r\n### 新增内容\r\n\r\n- CANN：`vLLM 0.16.0`\n- CUDA：`vLLM 0.17.1`\n- MACA：`vLLM 0.14.0\u002F0.13.0\u002F0.12.0`、`SGLang 0.5.7`\n- ROCm：`vLLM 0.17.1`","2026-03-26T07:48:37",{"id":183,"version":184,"summary_zh":78,"released_at":185},117213,"v2.1.1rc1","2026-03-24T10:39:03",{"id":187,"version":188,"summary_zh":189,"released_at":190},117214,"v2.1.0","# GPUStack v2.1.0\n\n## 🚀 模型目录更新\n本次发布在多个模态上新增了40余款模型，进一步丰富了模型目录。\n\n**大语言模型（LLM）：** Qwen3.5系列、MiniMax-M2.5、Nanbeige4.1-3B、Qwne3-VL、PaddleOCR-VL-1.5、MiniMax-M2.1、Falcon-H1R-7B、LightOnOCR-2-1B、Kimi-K2.5、Qwen3-Coder-Next、Step-3.5-Flash  \n**嵌入模型（Embedding）：** BGE-M3、BGE-Large-EN-V1.5、BGE-Large-ZH-V1.5、Nomic-Embed-Text-V1.5、Jina-Embeddings-V3、Qwen3-VL-Embedding  \n**重排序模型（Reranker）：** BGE-Reranker-V2-M3、Jina-Reranker-M0、Qwen3-VL-Reranker  \n**音频模型：** Qwen3-TTS、Qwen3-ASR、Granite-Speech-3.3、Voxtral-Mini-3B-2507、CosyVoice2-0.5B、CosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-Instruct、Whisper-Large-V3-Turbo、Whisper-Large-V3、Faster-Whisper-Large-V3、Faster-Whisper-Medium、Faster-Whisper-Small、Dia-1.6B、SenseVoiceSmall  \n**图像模型：** FLUX.2-Klein、Qwen-Image-2512、Z-Image。更新了Z-Image-Turbo，使其能够在单张RTX4090显卡及NPU上运行；同时更新了Qwen-Image，支持在NPU上运行。\n\n## ✨ 新功能与优化\n- **新加速器支持**：新增对平头哥PPU的支持（[#3487](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3487)）。\n- **集成公共模型服务商**：支持OpenAI、Anthropic、DeepSeek、Doubao等多家服务商（[#3488](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3488)）。\n- **部署模型的推理性能基准测试**（[#4097](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4097)）。\n- **社区推理后端市场**（[#4084](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4084)）。\n- **vLLM Omni集成**：通过vLLM后端同时服务Omni、图像、TTS和视频模型（[#4007](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4007)）。\n- **Anthropic API支持**：可与Claude Code等代码辅助工具集成（[#4289](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4289)）。\n- **内置Grafana集成**（[#4068](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4068)）。\n- **克隆模型部署**（[#4190](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4190)）。\n- 改进了本地路径模型源的兼容性检查（[#4077](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4077)）。\n- 允许在使用自定义推理后端时覆盖默认运行命令（[#3407](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3407)）。\n- 在模型部署的高级设置中支持配置Runner容器的启动参数（[#3408](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3408)）。\n- 自定义后端支持环境变量占位符替换（[#3532](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3532)）。\n- 支持配置系统默认的容器仓库\u002F命名空间（[#4039](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4039)）。\n- UI\u002FUX优化（[#3770](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3770)、[#4035](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4035)、[#4051](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4051)、[#4066](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4066)、[#4176](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4176)、[#4311](https:\u002F\u002Fgithub.com","2026-03-07T07:37:08",{"id":192,"version":193,"summary_zh":78,"released_at":194},117215,"v2.1.0rc2","2026-03-06T11:31:31",{"id":196,"version":197,"summary_zh":198,"released_at":199},117216,"v2.1.0rc1","# GPUStack v2.1.0rc1\n\n## 🚀 模型目录更新\n\n**LLM：** Qwne3-VL、PaddleOCR-VL-1.5、MiniMax-M2.1、Falcon-H1R-7B、LightOnOCR-2-1B、Kimi-K2.5、Qwen3-Coder-Next、Step-3.5-Flash  \n**嵌入模型：** Qwen3-VL-Embedding、Jina-Embeddings-V3、BGE-m3、BGE-Large-EN-V1.5、BGE-Large-ZH-V1.5、Nomic-Embed-Text-V1.5  \n**重排序器：** BGE-Reranker-V2-M3、Jina-Reranker-M0、Qwen3-VL-Reranker  \n**音频：** Qwen3-TTS、Granite-Speech-3.3、Voxtral-Mini-3B-2507、CosyVoice2-0.5B、CosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-Instruct、Whisper-Large-V3-Turbo、Whisper-Large-V3、Faster-Whisper-Large-V3、Faster-Whisper-Medium、Faster-Whisper-Small、Dia-1.6B、SenseVoiceSmall  \n**图像：** FLUX.2-Klein、Qwen-Image-2512、Z-Image、更新了Z-Image-Turbo，使其可在单张RTX4090显卡及NPU上运行；更新了Qwen-Image，支持在NPU上运行。\n\n## ✨ 新功能与增强\n- **新加速器**：支持平头哥PPU（[#3487](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3487)）。\n- **与公共模型提供商集成**：OpenAI、Anthropic、DeepSeek、Doubao等（[#3488](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3488)）。\n- **部署模型的推理性能基准测试**（[#4097](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4097)）。\n- **社区推理后端市场**（[#4084](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4084)）。\n- **vLLM Omni集成**：使用vLLM后端服务Omni、图像、TTS和视频模型（[#4007](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4007)）。\n- **Anthropic API支持**：与Claude Code等编码代理工具集成（[#4289](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4289)）。\n- **内置Grafana集成**（[#4068](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4068)）。\n- **克隆模型部署**（[#4190](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4190)）。\n- 改进了本地路径模型源的兼容性检查（[#4077](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4077)）。\n- 允许在使用自定义推理后端时覆盖默认运行命令（[#3407](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3407)）。\n- 在模型部署的高级设置中支持配置运行容器的启动参数（[#3408](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3408)）。\n- 自定义后端支持环境变量占位符替换（[#3532](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3532)）。\n- 支持可配置的系统默认容器仓库\u002F命名空间（[#4039](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4039)）。\n- UI\u002FUX改进（[#3770](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F3770)、[#4035](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4035)、[#4051](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4051)、[#4066](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4066)、[#4176](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4176)、[#4311](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fgpustack\u002Fissues\u002F4311)）。\n\n## 🐛 错误修复\n- 修复了当`\u002Fsys\u002Fclass\u002Fdmi\u002Fid\u002Fproduct_uuid`相同时，工作进程相互覆盖的问题。","2026-02-14T12:17:28",{"id":201,"version":202,"summary_zh":203,"released_at":204},117217,"v2.0.3","## Bug 修复\n- 修复了网关在 3 分钟内超时的问题。（问题 #4175）\n- 修复了 `copy-images` 命令的 `--platform` 标志无法正确过滤架构的问题。（问题 #4173）\n- 修复了使用 NPU 进行 vLLM 分布式推理时出现的失败问题。（问题 #4171）\n- 修复了模型服务日志中的错误。（问题 #4156）\n- 修复了 SGLang 的 `mem-fraction-static` 参数在调度过程中未被考虑的问题。（问题 #4153）\n- 修复了 Higress 访问日志文件大小迅速增长的问题。（问题 #4150）\n- 修复了使用自定义后端部署时仍会报告“未识别的架构”错误的问题。（问题 #4146）\n- 修复了将模型副本数从 0 扩展到 5 后，模型实例在待处理和分析状态之间振荡的问题。（问题 #4138）\n- 修复了在未配置 TLS 时，TLS 端口检查会阻止启动的问题。（问题 #4127）\n- 修复了删除模型后仍会创建重复模型入口的问题。（问题 #4125）\n- 修复了 AMD 显卡无法被检测到的问题。（问题 #4123、#4116）\n- 修复了调用嵌入和重排序 API 时出现的意外错误。（问题 #4114、#4113）\n- 修复了当模型没有运行实例时返回错误状态码的问题。（问题 #4103）\n- 修复了在 AMD 显卡工作节点中使用除第一个之外的其他显卡时出现的“没有可用的 HIP 显卡”错误。（问题 #4033）","2026-01-09T13:40:08",{"id":206,"version":207,"summary_zh":78,"released_at":208},117218,"v2.0.3rc1","2026-01-07T10:32:11",{"id":210,"version":211,"summary_zh":212,"released_at":213},117219,"v2.0.2","## 模型目录更新\n- **新增**：GLM-4.7、DeepSeek-V3.2、DeepSeek-V3.2-Special、DeepSeek-OCR、Z-Image-Turbo、Qwen-Image-Edit。\n- **优化吞吐量的调优模型部署**：\n    - **DeepSeek-V3.2**：在使用H200 GPU的ShareGPT数据集上，令牌吞吐量提升了57.0%；在其他场景下最高可提升至153.6%。（[详细报告](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Fperformance-lab\u002Fdeepseek-v3.2\u002Fh200\u002F））\n    - **GLM-4.7**：在使用H200 GPU的ShareGPT数据集上，令牌吞吐量提升了134.8%；在其他场景下最高可提升至347.2%。（[详细报告](https:\u002F\u002Fdocs.gpustack.ai\u002Flatest\u002Fperformance-lab\u002Fglm-4.x\u002Fh200\u002F））\n\n## 功能增强\n- 优化了API和UI列表页面中的排序与筛选功能。（问题#1348、#2589）\n- 提高了密码长度限制。（问题#1367）\n- 新增了模型实例直接访问模式的支持。（问题#3772）\n- 在集群配置中增加了对预定义工作节点配置及外部服务器URL的支持。（问题#3775、#3771）\n- 改进了引导健康检查超时处理机制。（问题#3788）\n- 优化了工作节点IP地址的自动选择逻辑。（问题#3795）\n- 在自定义后端执行命令中新增了类Shell风格的分隔符支持。（问题#3860）\n- 其他多项用户体验改进。（问题#3757、#3766、#3824、#3865、#3866、#3885）\n\n## 问题修复\n- 修复了`no_proxy`中的CIDR规则在端口转发及向集群添加工作节点时失效的问题。（问题#1387）\n- 修复了与MindIE支持的部分模型之间的兼容性问题。（问题#2016）\n- 修复了后端版本更新无需重启实例即可生效的Bug。（问题#2574）\n- 修复了当前OIDC单点登录实现仅支持登录而无法登出的问题。（问题#2826）\n- 修复了自定义后端命令长度限制的问题。（问题#3555）\n- 修复了CosyVoice模型无法在Dify GPUStack插件中使用的Bug。（问题#3595）\n- 修复了DeepSeek-OCR部署失败的问题。（问题#3683）\n- 修复了容器镜像名称错误导致的问题。（问题#3689）\n- 修复了在服务器上配置的`system-default-container-registry`在添加工作节点时未生效的问题。（问题#3737）\n- 修复了部分模型无法在8GB显存GPU上启动的问题。（问题#3745）\n- 修复了多GPU推理的自动调度问题，该问题因`vocab_size`不能被`tensor-parallel-size`整除而引发。（问题#3777）\n- 修复了GPUStack Server启动时出现日志`\"[INFO] gateway exited with code 1, shutting down all services...\"`而导致的启动失败。（问题#3779）\n- 修复了评估GLM-4.6模型时访问受限的问题。（问题#3780）\n- 修复了当存在空集群时，模型搜索列表错误提示不兼容的问题。（问题#3790）\n- 修复了使用MySQL数据库时撤销模型权限时出现的错误。（问题#3796）\n- 修复了Completion API返回的HTTP响应错误。（问题#3801）\n- 修复了vLLM后端未能正确过滤Ascend 310P NPU的情况，导致“failed ","2025-12-31T13:00:19",{"id":215,"version":216,"summary_zh":78,"released_at":217},117220,"v2.0.2rc2","2025-12-31T06:08:10",{"id":219,"version":220,"summary_zh":78,"released_at":221},117221,"v2.0.2rc1","2025-12-25T11:54:58",{"id":223,"version":224,"summary_zh":225,"released_at":226},117222,"v2.0.1","## 功能增强\n- 优化了入门和安装流程。服务器默认不再包含嵌入式工作进程。我们建议将服务器和工作进程分开运行，以简化操作并避免暴露内部服务器端口。此更改仅影响新安装；旧版部署在升级后仍保持原有行为。详情请参阅 issue #3529。\n- 改进了安装用户体验，包括：\n    - 当缺少 docker.sock 时显示更友好的错误信息。详情请参阅 issue #3517。\n    - 阻止用户直接使用 API 端口。详情请参阅 issue #3519。\n    - 为网关添加了健康检查，并改进了错误信息。详情请参阅 issues #3525 和 #3548。\n    - 支持使用旧版工作进程令牌重新注册工作进程。详情请参阅 issue #3528。\n    - 将 Higress 的默认配置从 `\u002Fopt\u002Fdata` 移至 `\u002Fetc` 目录，以避免在挂载 `\u002Fopt` 时出现错误。详情请参阅 issue #3585。\n    - 放宽了 Ray 端口范围的限制。详情请参阅 issue #3620。\n- 在后端参数中支持以空格分隔的模式，使用户体验与 vLLM\u002FSGLang 保持一致。详情请参阅 issue #2961。\n- `copy-images` 命令现支持将镜像同步到 HTTP 注册表。详情请参阅 issue #3479。\n- 支持为下载运行器镜像配置容器注册表认证。详情请参阅 issue #3662。\n- 改进了 DigitalOcean 操作系统镜像的选择。详情请参阅 issue #3665。\n- Playground UI 中支持 `image_url` 参数。详情请参阅 issue #3627。\n\n## Bug 修复\n- 修复了 MindIE 中无法同时使用 CP 和 DP 的问题。详情请参阅 issue #3495。\n- 修复了安装过程中报告不支持的操作系统错误的问题。详情请参阅 issue #3499。\n- 修复了嵌入式工作进程可能因服务器 API 尚未就绪而无法注册的问题。详情请参阅 issue #3503。\n- 修复了多个 GPU 检测相关的问题。详情请参阅 issues #3510、#3511、#3514 和 #3590。\n- 修复了在 Kubernetes 中部署模型时返回 Forbidden 错误的问题。详情请参阅 issue #3513。\n- 修复了启动服务器时出现“连接调用失败”错误的问题。详情请参阅 issue #3535。\n- 修复了使用本地路径部署模型时卡在“准备文件”状态的问题。详情请参阅 issue #3544。\n- 修复了在某些部署环境中，工作进程运行一段时间后变为不可用的问题。详情请参阅 issue #2631。\n- 修复了使用 Azure AD 进行 OIDC 登录不再生效的问题。详情请参阅 issue #3560。\n- 修复了从 v0.7.1 迁移时嵌入式工作进程无法启动的问题。详情请参阅 issue #2762。\n- 修复了当服务器和工作进程挂载同一数据目录时迁移失败的问题。详情请参阅 issue #3613。\n- 修复了自动调度运行 DeepSeek-V3.2 时使用 TP7 导致失败的问题。详情请参阅 issue #3640。\n- 修复了 GPU 设备 API 返回“无法获取标量的数组长度”错误的问题。详情请参阅 issue #3637。\n- 修复了手动调度无法在多个副本之间分配 GPU 的问题。详情请参阅 issue #3648。\n- 修复了在 Kubernetes 中进行 vLLM 分布式推理时出现卷名重复错误的问题。详情请参阅 issue #3672。\n- 修复了使用 MySQL 数据库时模型部署失败的问题。详情请参阅 issue #3682。\n- 修复了当 Kubernetes 中的主机具有相同主机名时工作进程注册失败的问题。详情请参阅 issue #3700。\n- 修复了在 WSL 环境中安装失败的问题。详情请参阅 issue #3549。\n- 修复了如果数据目录是","2025-12-07T01:30:58",{"id":228,"version":229,"summary_zh":78,"released_at":230},117223,"v2.0.1rc2","2025-12-05T12:15:12",{"id":232,"version":233,"summary_zh":78,"released_at":234},117224,"v2.0.1rc1","2025-12-04T16:10:18",{"id":236,"version":237,"summary_zh":238,"released_at":239},117225,"v2.0.0","# GPUStack v2.0.0 - 高性能、灵活且易于操作\n\n## 概述\nGPUStack 2.0 进行了重大的架构重构，为大规模 AI 推理部署带来了显著的性能提升、更强的灵活性以及更强大的运维能力。\n\n## 🚀 性能增强\n\n### 优化的模型部署\n- 我们针对不同模型、GPU、推理引擎及参数组合进行了全面的基准测试。实验流程和结果已发布在我们的 [推理性能实验室](https:\u002F\u002Fdocs.gpustack.ai\u002F2.0\u002Fperformance-lab\u002Foverview) 中。\n- 现在，模型目录经过精心整理，提供了针对特定用户场景的优化部署方案。\n\n### 代理网关增强\n- 集成了开源 AI 网关 **Higress**，以消除以往服务器代理带来的瓶颈。\n- 能够轻松扩展以支持大规模大语言模型服务。\n\n### 内置 SGLang 支持\n- 新增 SGLang 作为内置推理后端，用于快速模型服务。\n- 支持 SGLang Diffusion，可用于运行扩散模型（Flux.1-dev、Qwen-Image）。\n\n### 扩展 KV 缓存\n- 集成了扩展 KV 缓存解决方案，显著降低首令牌延迟（TTFT）。\n- 对于 vLLM 使用 LMCache，对于 SGLang 使用 Hicache。\n- 在长上下文和多轮对话推理场景中尤为有效。\n\n### 推测解码配置\n- 支持采用 SOTA 算法的推测解码（EAGLE3、MTP、N-grams）。\n- 提供草稿模型的下载与管理功能，以减少用户操作负担。\n\n## 🔧 灵活的框架\n\n### 基于容器的架构\n- 重新设计了基于容器的部署框架。\n- 消除了复杂的 Python 环境管理开销。\n\n### 可插拔的推理后端\n- 支持多种内置推理后端（vLLM、SGLang、MindIE、vox-box）。\n- 也支持通过容器镜像接入任何自定义推理后端，如 TensorRT-LLM、llama-server、kokoro-fastapi。详情请参阅 [教程](https:\u002F\u002Fdocs.gpustack.ai\u002F2.0\u002Ftutorials\u002Fusing-custom-backends\u002F)。\n\n### 推理后端多版本管理\n- 同时维护内置和用户自定义推理后端的多个版本。\n- 确保现有部署的稳定可靠升级。\n\n### 通用模型代理\n- 支持超出 OpenAI 兼容接口的推理 API。更多信息请参阅 [文档](https:\u002F\u002Fdocs.gpustack.ai\u002F2.0\u002Fuser-guide\u002Fmodel-deployment-management\u002F#enable-generic-proxy)。\n- 提升了面向多样化 AI 应用开发需求的灵活性。\n\n### 解耦的 GPU 设备管理\n- GPU 设备管理已迁移至独立的 [GPUStack Runtime](https:\u002F\u002Fgithub.com\u002Fgpustack\u002Fruntime) 项目。\n- 简化了对更多 GPU 厂商的支持扩展。\n\n## 🛠️ 运维改进\n\n### GPU 集群管理\n- 支持管理来自不同提供商的多个 GPU 集群。\n- 为基于 Docker、Kubernetes 以及云 GPU 集群（如 DigitalOcean）提供统一的控制平面。详情请参阅 [教程](https:\u002F\u002Fdocs.gpustack.ai\u002F2.0\u002Ftutorials\u002Fad","2025-11-23T16:55:55",{"id":241,"version":242,"summary_zh":78,"released_at":243},117226,"v2.0.0rc2","2025-11-23T13:48:55",{"id":245,"version":246,"summary_zh":78,"released_at":247},117227,"v2.0.0rc1","2025-11-23T10:59:09",{"id":249,"version":250,"summary_zh":251,"released_at":252},117228,"v0.7.1","## 功能增强\n- 新增对 SSO 身份验证的支持，包括 OIDC 和 SAML。详情请参阅 issue #1253。:blue_book:[文档](https:\u002F\u002Fdocs.gpustack.ai\u002F0.7\u002Fuser-guide\u002Fsso\u002F)\n- 新增对 NVIDIA MIG 虚拟 GPU 的支持。详情请参阅 issue #2532。\n- 在模型实例日志中显示详细的下载进度。详情请参阅 issue #2176。\n- 目录中新增以下模型：`GPT-OSS`、`GLM-4.5`、`Qwen3-Coder`、`Qwen3-2507`。\n\n## 问题修复\n- 修复了 Qwen3-Coder 无法调用工具的问题。详情请参阅 issue #2660。\n- 修复了多模态配置中 `num_attention_heads=1` 导致张量并行无法启用的问题。详情请参阅 issue #2642。\n- 修复了升级到 v0.7 时数据库迁移失败的问题。详情请参阅 issue #2635。\n- 修复了在使用代理服务器和内网部署时模型搜索失败的问题。详情请参阅 issue #2654 和 #2653。\n- 修复了 LLM 模型调用在 300 秒后超时的问题。详情请参阅 issue #2656。\n- 修复了仅 CPU 服务器环境下分布式 vLLM 运行失败的问题。详情请参阅 issue #2691。\n- 修复了 pipx 路径环境变量设置错误的问题。详情请参阅 issue #2687。\n- 修复了桌面辅助程序在退出时不关闭 GPUStack 服务而导致无法重新打开的问题。详情请参阅 issue #2609。\n- 修复了在使用 Ingress 的 Kubernetes 部署中，模型搜索 API 返回 502 错误的问题。详情请参阅 issue #2677。\n- 修复了运行 Qwen3-32B-w8a8 时出现评估错误的问题。详情请参阅 issue #2631。\n- 修复了使用自定义 vLLM 版本部署新模型时被阻塞的问题。详情请参阅 issue #2770。\n- 修复了频繁报告模型实例未找到的问题。详情请参阅 issue #2762。\n- 其他 UI\u002FUX 修复。详情请参阅 issue #2643、#2705 和 #2715。\n\n## 其他\n- 更新了内置后端版本：\n  - **vLLM**：\n    - CUDA → v0.10.1.1\n    - NPU → v0.10.0rc1\n  - **llama-box** → v0.0.171\n  - **Ascend MindIE** → 2.1.rc1","2025-08-22T12:00:59",{"id":254,"version":255,"summary_zh":78,"released_at":256},117229,"v0.7.1rc2","2025-08-21T12:28:57",{"id":258,"version":259,"summary_zh":78,"released_at":260},117230,"v0.7.1rc1","2025-08-20T13:00:45",{"id":262,"version":263,"summary_zh":264,"released_at":265},117231,"v0.7.0","## 功能增强\n- 支持在 Ascend MindIE 后端下跨工作节点进行分布式部署。详情请参阅 issue #1950。:blue_book:[教程](https:\u002F\u002Fdocs.gpustack.ai\u002F0.7\u002Ftutorials\u002Frunning-deepseek-r1-671b-with-distributed-ascend-mindie\u002F)\n- 支持寒武纪 MLU。详情请参阅 issue #937。:blue_book:[文档](https:\u002F\u002Fdocs.gpustack.ai\u002F0.7\u002Finstallation\u002Fcambricon-mlu\u002Fonline-installation\u002F)\n- 支持 macOS 和 Windows 的桌面安装程序。详情请参阅 issue #959。:blue_book:[文档](https:\u002F\u002Fdocs.gpustack.ai\u002F0.7\u002Finstallation\u002Fdesktop-installer\u002F)\n- 改进了 API 请求和令牌使用情况的管理员视图，支持按模型\u002F用户筛选及数据导出功能。详情请参阅 issue #1837。\n- 添加了 AVX1 支持。详情请参阅 issues #1722、#541。\n- 优化了 GPUStack 代理性能。详情请参阅 issue #1842。\n- 支持从 Hugging Face 等远程源运行模型，即使在从在线切换到离线部署时亦可。详情请参阅 issues #1337、#2335。\n- 支持在 CUDA12.8 Docker 镜像中使用 vLLM。详情请参阅 issue #1775。\n- 在 CUDA Docker 镜像中添加了 FlashInfer。详情请参阅 issue #1955。\n- 默认启用 RPC 服务器缓存，以加速分布式 llama-box 初始化。详情请参阅 issue #2094。\n- 在 Docker 容器重建时保留自定义版本的推理后端。详情请参阅 issue #2468。\n- 改进了具有重复主机名的工作节点添加体验。详情请参阅 issue #2046。\n- 增强了对 Nvidia Container Toolkit 问题的诊断功能。详情请参阅 issue #2047。\n- 在 UI 中启用 GPU 利用率指标的自动刷新功能。详情请参阅 issue #1941。\n- 支持在 Chat Playground 中上传音频文件，以便更便捷地测试多模态模型。详情请参阅 issue #2163。\n- UI\u002FUX 优化，包括菜单布局更新、模型搜索分页等功能改进。详情请参阅 issues #2209、#2440、#2117。\n- 扩展了模型目录：`Qwen3-Embedding`、`Qwen3-Reranker`、`Hunyuan-A13B`、`GLM-4.1V`。\n\n## Bug 修复\n- 修复了 RPC 服务器 VRAM 分配未被计入指标的问题。详情请参阅 issue #303。\n- 解决了资源计算过程中出现的数据库锁错误。详情请参阅 issue #1140。\n- 修复了模型评估中“打开的文件过多”错误。详情请参阅 issue #2011。\n- 修复了下载过程中删除模型时清理不彻底的问题。详情请参阅 issues #2060、#2061。\n- 修复了 Hygon DCU 上 AWQ 模型加载失败的问题。详情请参阅 issue #2064。\n- 解决了分布式 DeepSeek-R1 部署中 Ray 置放组相关的错误。详情请参阅 issue #2077。\n- 修复了嵌入 Playground 在处理大段文本时无响应的问题。详情请参阅 issue #2085。\n- 修复了 GGUF 格式图像模型的架构加载错误。详情请参阅 issue #2108。\n- 提升了兼容性检查的准确性。详情请参阅 issues #2118、#2142。\n- 修复了 faster-whisper 模型的 GPU 分配错误。详情请参阅 issue #2164。\n- 修复了 Windows AMD 系统上虚拟 GPU 的检测问题。详情请参阅 issue #2166。\n- 修复了包含 mmproj 文件的模型大小计算问题。详情请参阅 issue #2189。\n- 解决了密码重置延迟的问题。详情请参阅 issue #2192。\n- 修复了自定义 MindIE 版本被覆盖的问题。详情请参阅 issue #2199。\n- 修复了 llama-box 中 JSON Schema 结构化输出的问题。详情请参阅 issue #2233。\n- 解决了自定义 vLLM 版本与 Pydantic 之间的冲突问题。详情请参阅 issue #2236。\n- 修复了上下文偏移问题。","2025-07-25T23:34:37"]