[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-predibase--lorax":3,"tool-predibase--lorax":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":72,"owner_website":78,"owner_url":79,"languages":80,"stars":119,"forks":120,"last_commit_at":121,"license":122,"difficulty_score":10,"env_os":123,"env_gpu":124,"env_ram":125,"env_deps":126,"category_tags":138,"github_topics":139,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":151,"updated_at":152,"faqs":153,"releases":183},4702,"predibase\u002Florax","lorax","Multi-LoRA inference server that scales to 1000s of fine-tuned LLMs","LoRAX 是一款高效的多 LoRA 推理服务器，旨在让单张 GPU 能够同时支撑数千个微调后的大语言模型服务。它主要解决了传统部署中每个微调模型需独立占用显存的痛点，大幅降低了多模型并行的硬件成本，同时确保了高吞吐量和低延迟。\n\n这款工具非常适合需要大规模部署定制化 AI 应用的开发者、研究人员及企业团队。无论是构建拥有多种垂直领域能力的智能助手，还是进行多模型对比实验，LoRAX 都能提供强大的基础设施支持。\n\n其核心技术亮点在于“动态适配器加载”与“异构连续批处理”。用户可在请求中即时指定任意来自 Hugging Face 或本地的 LoRA 适配器，系统会自动按需加载而无需重启服务；同时，它能将不同适配器的请求智能打包处理，保持性能稳定。此外，LoRAX 还支持张量并行、量化加速及 OpenAI 兼容接口，并采用 Apache 2.0 协议免费开放商用，是构建生产级多模型服务的理想选择。","\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpredibase_lorax_readme_8206cb6b32f4.png\" alt=\"LoRAX Logo\" style=\"width:200px;\" \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n\n_LoRAX: Multi-LoRA inference server that scales to 1000s of fine-tuned LLMs_\n\n[![](https:\u002F\u002Fdcbadge.vercel.app\u002Fapi\u002Fserver\u002FCBgdrGnZjy?style=flat&theme=discord-inverted)](https:\u002F\u002Fdiscord.gg\u002FCBgdrGnZjy)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg)](https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fblob\u002Fmaster\u002FLICENSE)\n[![Artifact Hub](https:\u002F\u002Fimg.shields.io\u002Fendpoint?url=https:\u002F\u002Fartifacthub.io\u002Fbadge\u002Frepository\u002Florax)](https:\u002F\u002Fartifacthub.io\u002Fpackages\u002Fsearch?repo=lorax)\n\n\u003C\u002Fdiv>\n\nLoRAX (LoRA eXchange) is a framework that allows users to serve thousands of fine-tuned models on a single GPU, dramatically reducing the cost of serving without compromising on throughput or latency.\n\n## 📖 Table of contents\n\n- [📖 Table of contents](#-table-of-contents)\n- [🌳 Features](#-features)\n- [🏠 Models](#-models)\n- [🏃‍♂️ Getting Started](#️-getting-started)\n  - [Requirements](#requirements)\n  - [Launch LoRAX Server](#launch-lorax-server)\n  - [Prompt via REST API](#prompt-via-rest-api)\n  - [Prompt via Python Client](#prompt-via-python-client)\n  - [Chat via OpenAI API](#chat-via-openai-api)\n  - [Next steps](#next-steps)\n- [🙇 Acknowledgements](#-acknowledgements)\n- [🗺️ Roadmap](#️-roadmap)\n\n## 🌳 Features\n\n- 🚅 **Dynamic Adapter Loading:** include any fine-tuned LoRA adapter from [HuggingFace](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters\u002F#huggingface-hub), [Predibase](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters\u002F#predibase), or [any filesystem](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters\u002F#local) in your request, it will be loaded just-in-time without blocking concurrent requests. [Merge adapters](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fguides\u002Fmerging_adapters\u002F) per request to instantly create powerful ensembles.\n- 🏋️‍♀️ **Heterogeneous Continuous Batching:** packs requests for different adapters together into the same batch, keeping latency and throughput nearly constant with the number of concurrent adapters.\n- 🧁 **Adapter Exchange Scheduling:** asynchronously prefetches and offloads adapters between GPU and CPU memory, schedules request batching to optimize the aggregate throughput of the system.\n- 👬 **Optimized Inference:**  high throughput and low latency optimizations including tensor parallelism, pre-compiled CUDA kernels ([flash-attention](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.08691), [paged attention](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.06180), [SGMV](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.18547)), quantization, token streaming.\n- 🚢  **Ready for Production** prebuilt Docker images, Helm charts for Kubernetes, Prometheus metrics, and distributed tracing with Open Telemetry. OpenAI compatible API supporting multi-turn chat conversations. Private adapters through per-request tenant isolation. [Structured Output](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fguides\u002Fstructured_output) (JSON mode).\n- 🤯 **Free for Commercial Use:** Apache 2.0 License. Enough said 😎.\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpredibase_lorax_readme_cc621e7e821e.png\" \u002F>\n\u003C\u002Fp>\n\n\n## 🏠 Models\n\nServing a fine-tuned model with LoRAX consists of two components:\n\n- [Base Model](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fbase_models): pretrained large model shared across all adapters.\n- [Adapter](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters): task-specific adapter weights dynamically loaded per request.\n\nLoRAX supports a number of Large Language Models as the base model including [Llama](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama) (including [CodeLlama](https:\u002F\u002Fhuggingface.co\u002Fcodellama)), [Mistral](https:\u002F\u002Fhuggingface.co\u002Fmistralai) (including [Zephyr](https:\u002F\u002Fhuggingface.co\u002FHuggingFaceH4\u002Fzephyr-7b-beta)), and [Qwen](https:\u002F\u002Fhuggingface.co\u002FQwen). See [Supported Architectures](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fbase_models\u002F#supported-architectures) for a complete list of supported base models. \n\nBase models can be loaded in fp16 or quantized with `bitsandbytes`, [GPT-Q](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.17323), or [AWQ](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00978).\n\nSupported adapters include LoRA adapters trained using the [PEFT](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft) and [Ludwig](https:\u002F\u002Fludwig.ai\u002F) libraries. Any of the linear layers in the model can be adapted via LoRA and loaded in LoRAX.\n\n## 🏃‍♂️ Getting Started\n\nWe recommend starting with our pre-built Docker image to avoid compiling custom CUDA kernels and other dependencies.\n\n### Requirements\n\nThe minimum system requirements need to run LoRAX include:\n\n- Nvidia GPU (Ampere generation or above)\n- CUDA 11.8 compatible device drivers and above\n- Linux OS\n- Docker (for this guide)\n\n### Launch LoRAX Server\n\n#### Prerequisites\nInstall [nvidia-container-toolkit](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Flatest\u002Finstall-guide.html)\nThen \n - `sudo systemctl daemon-reload`\n - `sudo systemctl restart docker`\n\n```shell\nmodel=mistralai\u002FMistral-7B-Instruct-v0.1\nvolume=$PWD\u002Fdata\n\ndocker run --gpus all --shm-size 1g -p 8080:80 -v $volume:\u002Fdata \\\n    ghcr.io\u002Fpredibase\u002Florax:main --model-id $model\n```\n\nFor a full tutorial including token streaming and the Python client, see [Getting Started - Docker](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Fdocker).\n\n### Prompt via REST API\n\nPrompt base LLM:\n\n```shell\ncurl 127.0.0.1:8080\u002Fgenerate \\\n    -X POST \\\n    -d '{\n        \"inputs\": \"[INST] Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May? [\u002FINST]\",\n        \"parameters\": {\n            \"max_new_tokens\": 64\n        }\n    }' \\\n    -H 'Content-Type: application\u002Fjson'\n```\n\nPrompt a LoRA adapter:\n\n```shell\ncurl 127.0.0.1:8080\u002Fgenerate \\\n    -X POST \\\n    -d '{\n        \"inputs\": \"[INST] Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May? [\u002FINST]\",\n        \"parameters\": {\n            \"max_new_tokens\": 64,\n            \"adapter_id\": \"vineetsharma\u002Fqlora-adapter-Mistral-7B-Instruct-v0.1-gsm8k\"\n        }\n    }' \\\n    -H 'Content-Type: application\u002Fjson'\n```\n\nSee [Reference - REST API](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Freference\u002Frest_api) for full details.\n\n### Prompt via Python Client\n\nInstall:\n\n```shell\npip install lorax-client\n```\n\nRun:\n\n```python\nfrom lorax import Client\n\nclient = Client(\"http:\u002F\u002F127.0.0.1:8080\")\n\n# Prompt the base LLM\nprompt = \"[INST] Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May? [\u002FINST]\"\nprint(client.generate(prompt, max_new_tokens=64).generated_text)\n\n# Prompt a LoRA adapter\nadapter_id = \"vineetsharma\u002Fqlora-adapter-Mistral-7B-Instruct-v0.1-gsm8k\"\nprint(client.generate(prompt, max_new_tokens=64, adapter_id=adapter_id).generated_text)\n```\n\nSee [Reference - Python Client](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Freference\u002Fpython_client) for full details.\n\nFor other ways to run LoRAX, see [Getting Started - Kubernetes](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Fkubernetes), [Getting Started - SkyPilot](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Fskypilot), and [Getting Started - Local](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Flocal).\n\n### Chat via OpenAI API\n\nLoRAX supports multi-turn chat conversations combined with dynamic adapter loading through an OpenAI compatible API. Just specify any adapter as the `model` parameter.\n\n```python\nfrom openai import OpenAI\n\nclient = OpenAI(\n    api_key=\"EMPTY\",\n    base_url=\"http:\u002F\u002F127.0.0.1:8080\u002Fv1\",\n)\n\nresp = client.chat.completions.create(\n    model=\"alignment-handbook\u002Fzephyr-7b-dpo-lora\",\n    messages=[\n        {\n            \"role\": \"system\",\n            \"content\": \"You are a friendly chatbot who always responds in the style of a pirate\",\n        },\n        {\"role\": \"user\", \"content\": \"How many helicopters can a human eat in one sitting?\"},\n    ],\n    max_tokens=100,\n)\nprint(\"Response:\", resp.choices[0].message.content)\n```\n\nSee [OpenAI Compatible API](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Freference\u002Fopenai_api) for details.\n\n### Next steps\n\nHere are some other interesting Mistral-7B fine-tuned models to try out:\n\n- [alignment-handbook\u002Fzephyr-7b-dpo-lora](https:\u002F\u002Fhuggingface.co\u002Falignment-handbook\u002Fzephyr-7b-dpo-lora): Mistral-7b fine-tuned on Zephyr-7B dataset with DPO.\n- [IlyaGusev\u002Fsaiga_mistral_7b_lora](https:\u002F\u002Fhuggingface.co\u002FIlyaGusev\u002Fsaiga_mistral_7b_lora): Russian chatbot based on `Open-Orca\u002FMistral-7B-OpenOrca`.\n- [Undi95\u002FMistral-7B-roleplay_alpaca-lora](https:\u002F\u002Fhuggingface.co\u002FUndi95\u002FMistral-7B-roleplay_alpaca-lora): Fine-tuned using role-play prompts.\n\nYou can find more LoRA adapters [here](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=text-generation&sort=trending&search=-lora), or try fine-tuning your own with [PEFT](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft) or [Ludwig](https:\u002F\u002Fludwig.ai).\n\n## 🙇 Acknowledgements\n\nLoRAX is built on top of HuggingFace's [text-generation-inference](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftext-generation-inference), forked from v0.9.4 (Apache 2.0).\n\nWe'd also like to acknowledge [Punica](https:\u002F\u002Fgithub.com\u002Fpunica-ai\u002Fpunica) for their work on the SGMV kernel, which is used to speed up multi-adapter inference under heavy load.\n\n## 🗺️ Roadmap\n\nOur roadmap is tracked [here](https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F57).\n","\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpredibase_lorax_readme_8206cb6b32f4.png\" alt=\"LoRAX Logo\" style=\"width:200px;\" \u002F>\n  \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n\n_LoRAX：可扩展至数千个微调大模型的多LoRA推理服务器_\n\n[![](https:\u002F\u002Fdcbadge.vercel.app\u002Fapi\u002Fserver\u002FCBgdrGnZjy?style=flat&theme=discord-inverted)](https:\u002F\u002Fdiscord.gg\u002FCBgdrGnZjy)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-blue.svg)](https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fblob\u002Fmaster\u002FLICENSE)\n[![Artifact Hub](https:\u002F\u002Fimg.shields.io\u002Fendpoint?url=https:\u002F\u002Fartifacthub.io\u002Fbadge\u002Frepository\u002Florax)](https:\u002F\u002Fartifacthub.io\u002Fpackages\u002Fsearch?repo=lorax)\n\n\u003C\u002Fdiv>\n\nLoRAX（LoRA交换）是一个框架，允许用户在单个GPU上服务数千个微调模型，从而大幅降低服务成本，同时不牺牲吞吐量和延迟。\n\n## 📖 目录\n\n- [📖 目录](#-table-of-contents)\n- [🌳 特性](#-features)\n- [🏠 模型](#-models)\n- [🏃‍♂️ 快速入门](#️-getting-started)\n  - [要求](#requirements)\n  - [启动LoRAX服务器](#launch-lorax-server)\n  - [通过REST API发送提示](#prompt-via-rest-api)\n  - [通过Python客户端发送提示](#prompt-via-python-client)\n  - [通过OpenAI API进行聊天](#chat-via-openai-api)\n  - [后续步骤](#next-steps)\n- [🙇 致谢](#-acknowledgements)\n- [🗺️ 路线图](#️-roadmap)\n\n## 🌳 特性\n\n- 🚅 **动态适配器加载：** 在请求中包含来自[HuggingFace](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters\u002F#huggingface-hub)、[Predibase](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters\u002F#predibase)或[任何文件系统](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters\u002F#local)的任意微调LoRA适配器，它将被即时加载，而不会阻塞并发请求。可根据每个请求合并适配器，以快速创建强大的集成模型。\n- 🏋️‍♀️ **异构连续批处理：** 将针对不同适配器的请求打包到同一批次中，使延迟和吞吐量几乎不受并发适配器数量的影响。\n- 🧁 **适配器交换调度：** 异步预取和卸载GPU与CPU之间的适配器，并调度请求批处理以优化系统的整体吞吐量。\n- 👬 **优化的推理：** 高吞吐量和低延迟优化，包括张量并行、预编译CUDA内核（如flash-attention、paged attention、SGMV）、量化以及标记流式传输。\n- 🚢  **生产就绪：** 提供预构建的Docker镜像、用于Kubernetes的Helm图表、Prometheus指标以及使用Open Telemetry的分布式追踪。兼容OpenAI的API，支持多轮对话。通过每请求租户隔离实现私有适配器。提供[结构化输出](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fguides\u002Fstructured_output)（JSON模式）。\n- 🤯 **免费商用：** Apache 2.0许可证。无需多言 😎.\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpredibase_lorax_readme_cc621e7e821e.png\" \u002F>\n\u003C\u002Fp>\n\n\n## 🏠 模型\n\n使用LoRAX服务一个微调模型包含两个组件：\n\n- [基础模型](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fbase_models)：所有适配器共享的预训练大型模型。\n- [适配器](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fadapters)：特定任务的适配器权重，按请求动态加载。\n\nLoRAX支持多种大型语言模型作为基础模型，包括[Llama](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama)（含[CodeLlama](https:\u002F\u002Fhuggingface.co\u002Fcodellama)）、[Mistral](https:\u002F\u002Fhuggingface.co\u002Fmistralai)（含[Zephyr](https:\u002F\u002Fhuggingface.co\u002FHuggingFaceH4\u002Fzephyr-7b-beta)）以及[Qwen](https:\u002F\u002Fhuggingface.co\u002FQwen)。完整的基础模型列表请参阅[支持的架构](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fmodels\u002Fbase_models\u002F#supported-architectures)。\n\n基础模型可以以fp16格式加载，也可以使用`bitsandbytes`、[GPT-Q](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.17323)或[AWQ](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.00978)进行量化。\n\n支持的适配器包括使用[PEFT](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft)和[Ludwig](https:\u002F\u002Fludwig.ai\u002F)库训练的LoRA适配器。模型中的任何线性层都可以通过LoRA进行适配，并加载到LoRAX中。\n\n## 🏃‍♂️ 快速入门\n\n我们建议从预构建的Docker镜像开始，以避免编译自定义CUDA内核和其他依赖项。\n\n### 要求\n\n运行LoRAX所需的最低系统要求包括：\n\n- NVIDIA GPU（Ampere系列及以上）\n- CUDA 11.8及更高版本的设备驱动程序\n- Linux操作系统\n- Docker（本指南中使用）\n\n### 启动LoRAX服务器\n\n#### 先决条件\n安装[nvidia-container-toolkit](https:\u002F\u002Fdocs.nvidia.com\u002Fdatacenter\u002Fcloud-native\u002Fcontainer-toolkit\u002Flatest\u002Finstall-guide.html)\n然后\n - `sudo systemctl daemon-reload`\n - `sudo systemctl restart docker`\n\n```shell\nmodel=mistralai\u002FMistral-7B-Instruct-v0.1\nvolume=$PWD\u002Fdata\n\ndocker run --gpus all --shm-size 1g -p 8080:80 -v $volume:\u002Fdata \\\n    ghcr.io\u002Fpredibase\u002Florax:main --model-id $model\n```\n\n有关包括标记流式传输和Python客户端在内的完整教程，请参阅[快速入门——Docker](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Fdocker)。\n\n### 通过REST API发送提示\n\n提示基础LLM：\n\n```shell\ncurl 127.0.0.1:8080\u002Fgenerate \\\n    -X POST \\\n    -d '{\n        \"inputs\": \"[INST] 纳塔莉娅四月份卖了48个发夹给她的朋友们，五月份她卖出的发夹数量是四月份的一半。那么纳塔莉娅四月和五月一共卖了多少个发夹呢？[\u002FINST]\",\n        \"parameters\": {\n            \"max_new_tokens\": 64\n        }\n    }' \\\n    -H 'Content-Type: application\u002Fjson'\n```\n\n提示LoRA适配器：\n\n```shell\ncurl 127.0.0.1:8080\u002Fgenerate \\\n    -X POST \\\n    -d '{\n        \"inputs\": \"[INST] 纳塔莉娅四月份卖了48个发夹给她的朋友们，五月份她卖出的发夹数量是四月份的一半。那么纳塔莉娅四月和五月一共卖了多少个发夹呢？[\u002FINST]\",\n        \"parameters\": {\n            \"max_new_tokens\": 64,\n            \"adapter_id\": \"vineetsharma\u002Fqlora-adapter-Mistral-7B-Instruct-v0.1-gsm8k\"\n        }\n    }' \\\n    -H 'Content-Type: application\u002Fjson'\n```\n\n更多详细信息请参阅[参考——REST API](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Freference\u002Frest_api)。\n\n### 通过Python客户端发送提示\n\n安装：\n\n```shell\npip install lorax-client\n```\n\n运行：\n\n```python\nfrom lorax import Client\n\nclient = Client(\"http:\u002F\u002F127.0.0.1:8080\")\n\n# 提示基础LLM\nprompt = \"[INST] 纳塔莉娅四月份卖了48个发夹给她的朋友们，五月份她卖出的发夹数量是四月份的一半。那么纳塔莉娅四月和五月一共卖了多少个发夹呢？[\u002FINST]\"\nprint(client.generate(prompt, max_new_tokens=64).generated_text)\n\n# 提示一个 LoRA 适配器\nadapter_id = \"vineetsharma\u002Fqlora-adapter-Mistral-7B-Instruct-v0.1-gsm8k\"\nprint(client.generate(prompt, max_new_tokens=64, adapter_id=adapter_id).generated_text)\n```\n\n完整详情请参阅 [参考 - Python 客户端](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Freference\u002Fpython_client)。\n\n如需了解其他运行 LoRAX 的方式，请参阅 [入门 - Kubernetes](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Fkubernetes)、[入门 - SkyPilot](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Fskypilot) 和 [入门 - 本地](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Fgetting_started\u002Flocal)。\n\n### 通过 OpenAI API 进行聊天\n\nLoRAX 支持多轮对话，并可通过兼容 OpenAI 的 API 动态加载适配器。只需将任意适配器指定为 `model` 参数即可。\n\n```python\nfrom openai import OpenAI\n\nclient = OpenAI(\n    api_key=\"EMPTY\",\n    base_url=\"http:\u002F\u002F127.0.0.1:8080\u002Fv1\",\n)\n\nresp = client.chat.completions.create(\n    model=\"alignment-handbook\u002Fzephyr-7b-dpo-lora\",\n    messages=[\n        {\n            \"role\": \"system\",\n            \"content\": \"你是一个友好的聊天机器人，总是以海盗的风格回应\",\n        },\n        {\"role\": \"user\", \"content\": \"一个人一次能吃掉多少架直升机？\"},\n    ],\n    max_tokens=100,\n)\nprint(\"响应:\", resp.choices[0].message.content)\n```\n\n详情请参阅 [兼容 OpenAI 的 API](https:\u002F\u002Fpredibase.github.io\u002Florax\u002Freference\u002Fopenai_api)。\n\n### 后续步骤\n\n以下是一些值得尝试的 Mistral-7B 微调模型：\n\n- [alignment-handbook\u002Fzephyr-7b-dpo-lora](https:\u002F\u002Fhuggingface.co\u002Falignment-handbook\u002Fzephyr-7b-dpo-lora)：基于 Zephyr-7B 数据集并使用 DPO 方法微调的 Mistral-7B 模型。\n- [IlyaGusev\u002Fsaiga_mistral_7b_lora](https:\u002F\u002Fhuggingface.co\u002FIlyaGusev\u002Fsaiga_mistral_7b_lora)：基于 `Open-Orca\u002FMistral-7B-OpenOrca` 构建的俄语聊天机器人。\n- [Undi95\u002FMistral-7B-roleplay_alpaca-lora](https:\u002F\u002Fhuggingface.co\u002FUndi95\u002FMistral-7B-roleplay_alpaca-lora)：使用角色扮演提示进行微调的模型。\n\n您可以在 [这里](https:\u002F\u002Fhuggingface.co\u002Fmodels?pipeline_tag=text-generation&sort=trending&search=-lora) 找到更多 LoRA 适配器，或者使用 [PEFT](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fpeft) 或 [Ludwig](https:\u002F\u002Fludwig.ai) 来微调您自己的模型。\n\n## 🙇 致谢\n\nLoRAX 基于 HuggingFace 的 [text-generation-inference](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftext-generation-inference) 构建，该库源自 v0.9.4 版本（Apache 2.0 许可）。\n\n我们还要感谢 [Punica](https:\u002F\u002Fgithub.com\u002Fpunica-ai\u002Fpunica)，感谢他们开发的 SGMV 内核，该内核用于在高负载下加速多适配器推理。\n\n## 🗺️ 路线图\n\n我们的路线图在此处跟踪：[GitHub 问题 #57](https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F57)。","# LoRAX 快速上手指南\n\nLoRAX (LoRA eXchange) 是一个高性能的多 LoRA 推理服务器，支持在单个 GPU 上同时服务数千个微调模型。它通过动态加载适配器、异构连续批处理等技术，在不牺牲吞吐量和延迟的前提下，大幅降低了部署成本。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下最低要求：\n\n*   **硬件**: NVIDIA GPU (Ampere 架构或更高版本，如 A100, RTX 3090\u002F4090 等)\n*   **驱动**: 兼容 CUDA 11.8 或更高版本的驱动程序\n*   **操作系统**: Linux\n*   **容器运行时**: Docker\n*   **前置依赖**: 安装 `nvidia-container-toolkit` 以允许 Docker 访问 GPU。\n\n**安装 nvidia-container-toolkit (Ubuntu\u002FDebian 示例):**\n\n```bash\n# 配置仓库并安装工具包（具体步骤请参考 NVIDIA 官方文档）\ndistribution=$(. \u002Fetc\u002Fos-release;echo $ID$VERSION_ID) \\\n      && curl -fsSL https:\u002F\u002Fnvidia.github.io\u002Flibnvidia-container\u002Fgpgkey | sudo gpg --dearmor -o \u002Fusr\u002Fshare\u002Fkeyrings\u002Fnvidia-container-toolkit.gpg \\\n      && curl -s -L https:\u002F\u002Fnvidia.github.io\u002Flibnvidia-container\u002F$distribution\u002Flibnvidia-container.list | \\\n            sed 's#deb https:\u002F\u002F#deb [signed-by=\u002Fusr\u002Fshare\u002Fkeyrings\u002Fnvidia-container-toolkit.gpg] https:\u002F\u002F#g' | \\\n            sudo tee \u002Fetc\u002Fapt\u002Fsources.list.d\u002Fnvidia-container-toolkit.list\n\nsudo apt-get update\nsudo apt-get install -y nvidia-container-toolkit\n\n# 重启 Docker 守护进程以生效\nsudo systemctl daemon-reload\nsudo systemctl restart docker\n```\n\n## 安装与启动\n\n推荐使用预构建的 Docker 镜像启动服务，无需手动编译 CUDA 内核。\n\n**启动 LoRAX 服务器:**\n\n以下命令将拉取镜像并启动一个基于 `Mistral-7B-Instruct-v0.1` 的推理服务，映射端口为 8080。\n\n```shell\nmodel=mistralai\u002FMistral-7B-Instruct-v0.1\nvolume=$PWD\u002Fdata\n\ndocker run --gpus all --shm-size 1g -p 8080:80 -v $volume:\u002Fdata \\\n    ghcr.io\u002Fpredibase\u002Florax:main --model-id $model\n```\n\n> **提示**: 如果下载 HuggingFace 模型较慢，可以在宿主机配置 HF 镜像加速，或在 `docker run` 中添加环境变量 `HUGGING_FACE_HUB_TOKEN` 和代理设置。\n\n## 基本使用\n\n服务启动后，您可以通过 REST API、Python 客户端或兼容的 OpenAI API 进行调用。\n\n### 1. 通过 REST API 调用\n\n**调用基础模型:**\n\n```shell\ncurl 127.0.0.1:8080\u002Fgenerate \\\n    -X POST \\\n    -d '{\n        \"inputs\": \"[INST] Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May? [\u002FINST]\",\n        \"parameters\": {\n            \"max_new_tokens\": 64\n        }\n    }' \\\n    -H 'Content-Type: application\u002Fjson'\n```\n\n**调用特定 LoRA 适配器:**\n只需在参数中指定 `adapter_id`（支持 HuggingFace Hub ID），LoRAX 会自动即时加载该适配器。\n\n```shell\ncurl 127.0.0.1:8080\u002Fgenerate \\\n    -X POST \\\n    -d '{\n        \"inputs\": \"[INST] Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May? [\u002FINST]\",\n        \"parameters\": {\n            \"max_new_tokens\": 64,\n            \"adapter_id\": \"vineetsharma\u002Fqlora-adapter-Mistral-7B-Instruct-v0.1-gsm8k\"\n        }\n    }' \\\n    -H 'Content-Type: application\u002Fjson'\n```\n\n### 2. 通过 Python 客户端调用\n\n首先安装官方客户端：\n\n```shell\npip install lorax-client\n```\n\n使用代码进行推理：\n\n```python\nfrom lorax import Client\n\nclient = Client(\"http:\u002F\u002F127.0.0.1:8080\")\n\nprompt = \"[INST] Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May? [\u002FINST]\"\n\n# 调用基础模型\nprint(client.generate(prompt, max_new_tokens=64).generated_text)\n\n# 调用 LoRA 适配器\nadapter_id = \"vineetsharma\u002Fqlora-adapter-Mistral-7B-Instruct-v0.1-gsm8k\"\nprint(client.generate(prompt, max_new_tokens=64, adapter_id=adapter_id).generated_text)\n```\n\n### 3. 通过 OpenAI 兼容 API 对话\n\nLoRAX 支持多轮对话，并允许将 `model` 参数直接指定为任意 LoRA 适配器的 ID。\n\n```python\nfrom openai import OpenAI\n\nclient = OpenAI(\n    api_key=\"EMPTY\",\n    base_url=\"http:\u002F\u002F127.0.0.1:8080\u002Fv1\",\n)\n\nresp = client.chat.completions.create(\n    model=\"alignment-handbook\u002Fzephyr-7b-dpo-lora\",\n    messages=[\n        {\n            \"role\": \"system\",\n            \"content\": \"You are a friendly chatbot who always responds in the style of a pirate\",\n        },\n        {\"role\": \"user\", \"content\": \"How many helicopters can a human eat in one sitting?\"},\n    ],\n    max_tokens=100,\n)\nprint(\"Response:\", resp.choices[0].message.content)\n```","某大型跨境电商平台需要为全球不同站点的客服系统部署数百个针对特定语言、商品品类及售后政策微调的专属大模型，以提供精准的自动回复服务。\n\n### 没有 lorax 时\n- **资源成本高昂**：每个微调模型都需要独立占用显存，部署几百个模型需采购数十张昂贵的高端 GPU，基础设施预算严重超标。\n- **响应延迟波动大**：当多个站点的咨询请求同时涌入，不同模型实例间无法共享计算资源，导致部分队列拥堵，用户等待时间忽长忽短。\n- **运维更新繁琐**：每当新增一个促销活动的专属模型或更新现有策略，都需要重新加载整个模型权重，服务中断风险高且发布周期长。\n- **弹性扩展困难**：面对“黑五”等流量洪峰，难以动态调整模型实例数量，要么资源闲置浪费，要么因算力不足导致服务崩溃。\n\n### 使用 lorax 后\n- **单卡承载千模**：利用动态适配器加载技术，lorax 让单个 GPU 即可同时运行数千个微调模型，将硬件成本降低了一个数量级。\n- **延迟稳定可控**：通过异构连续批处理技术，lorax 能将不同适配器的请求打包并行处理，无论并发模型数量多少，均保持低延迟和高吞吐。\n- **即时热切换**：支持按需即时加载适配器，新营销策略对应的模型可秒级上线，无需重启服务，实现了真正的业务零感知更新。\n- **智能显存调度**：lorax 自动在 GPU 和 CPU 内存间异步预取和卸载适配器，完美应对流量波峰，确保系统在高负载下依然稳健运行。\n\nlorax 通过革命性的多适配器推理架构，让企业在单张显卡上低成本、高效率地规模化落地千行百业的专属大模型应用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpredibase_lorax_c6ba2d5d.png","predibase","Predibase","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fpredibase_9b5990da.png","",null,"nicolasberenganrubrik","www.predibase.com","https:\u002F\u002Fgithub.com\u002Fpredibase",[81,85,89,93,97,101,105,109,112,116],{"name":82,"color":83,"percentage":84},"Python","#3572A5",68.8,{"name":86,"color":87,"percentage":88},"Rust","#dea584",20.2,{"name":90,"color":91,"percentage":92},"Cuda","#3A4E3A",8.5,{"name":94,"color":95,"percentage":96},"C++","#f34b7d",1.5,{"name":98,"color":99,"percentage":100},"Dockerfile","#384d54",0.4,{"name":102,"color":103,"percentage":104},"Shell","#89e051",0.3,{"name":106,"color":107,"percentage":108},"Makefile","#427819",0.1,{"name":110,"color":111,"percentage":108},"JavaScript","#f1e05a",{"name":113,"color":114,"percentage":115},"C","#555555",0,{"name":117,"color":118,"percentage":115},"Smarty","#f0c040",3744,311,"2026-04-06T07:31:10","Apache-2.0","Linux","必需：NVIDIA GPU（Ampere 架构或更高版本），需安装兼容 CUDA 11.8 及以上的驱动程序","未说明（文档仅提及 Docker 运行时需设置 --shm-size 1g）",{"notes":127,"python":128,"dependencies":129},"强烈建议使用官方预构建的 Docker 镜像以避免手动编译自定义 CUDA 内核。运行前必须安装 nvidia-container-toolkit 并重启 Docker 服务。支持动态加载 LoRA 适配器，基础模型支持 fp16 或多种量化格式（bitsandbytes, GPT-Q, AWQ）。","未说明（推荐使用预构建的 Docker 镜像，内部环境由镜像管理）",[130,131,132,133,134,135,136,137],"Docker","nvidia-container-toolkit","flash-attention","bitsandbytes","GPT-Q","AWQ","PEFT","Ludwig",[35,13,14],[140,141,142,143,144,145,146,147,148,149,150],"fine-tuning","gpt","llama","llm","llm-inference","llm-serving","llmops","lora","model-serving","pytorch","transformers","2026-03-27T02:49:30.150509","2026-04-07T08:18:32.996945",[154,159,164,169,174,179],{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},21375,"使用 Adapter 时模型只输出 unk token 或重复文本怎么办？","这通常是由 tokenizer 的特殊令牌（special tokens）配置或 SGMV kernel 问题引起的。解决方案包括：\n1. 确保最新版本的 LoRAX 已安装，近期提交已修复多数 Adapter 问题。\n2. 检查训练代码中是否使用了 AutoTokenizer 并写入了特殊令牌，尝试移除相关代码并确保模型输出目录中不包含 special_tokens 文件。\n3. 如果使用的是量化（quantization）训练的模型，尝试移除量化相关部分再测试。\n参考命令：确保使用最新的 docker 镜像 `ghcr.io\u002Fpredibase\u002Florax:latest`。","https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F68",{"id":160,"question_zh":161,"answer_zh":162,"source_url":163},21376,"如何在多 GPU 环境下部署 Mixtral-8x7B-Instruct-v0.1 模型？","在多 GPU 上运行 Mixtral 模型时，如果遇到 'sharded is not supported' 错误或 NVLINK 相关问题，可以通过添加特定的环境变量来解决。请使用以下 Docker 命令格式：\n`docker run -e NCCL_P2P_LEVEL=NVL --gpus all --shm-size 1g -p 8080:80 -v \u003C数据卷>:\u002Fdata ghcr.io\u002Fpredibase\u002Florax:latest --model-id \u003C模型路径> --dtype float16 --num-shard=4`\n关键点是设置 `-e NCCL_P2P_LEVEL=NVL` 以优化 GPU 间通信，并确保拉取的是最新版本的镜像。","https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F191",{"id":165,"question_zh":166,"answer_zh":167,"source_url":168},21377,"运行 Mistral 模型时报错 'Mistral model requires flash attention v2' 如何解决？","该错误通常是由于容器内的 NVIDIA 驱动程序版本过旧，不支持 Flash Attention v2 所致。在无法直接更新宿主机驱动的环境（如 AWS SageMaker）中，有效的解决方法是回退到 LoRAX 的早期版本（如 0.8.0），该版本对驱动要求较低。或者，尝试构建包含更新 CUDA 版本的自定义 Docker 镜像。","https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F42",{"id":170,"question_zh":171,"answer_zh":172,"source_url":173},21378,"如何从本地目录加载 Adapter 而不是从 Hugging Face Hub？","从本地加载 Adapter 失败通常是因为 Docker 容器内无法访问宿主机的文件路径。解决步骤如下：\n1. 启动 Docker 时必须使用 `-v` 参数将宿主机的 Adapter 目录挂载到容器内，例如：`-v $volume:\u002Fdata`。\n2. 在客户端代码中，`adapter_id` 应指向容器内的挂载路径（如 `\u002Fdata\u002Flora_models\u002Funsighing\u002F`），而不是宿主机的绝对路径。\n3. 确保目录中包含 `adapter_config.json` 和 `.safetensors` 格式的权重文件。如果文件名不匹配或扩展名不对，也会报错。","https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F51",{"id":175,"question_zh":176,"answer_zh":177,"source_url":178},21379,"LoRAX 是否支持集成 Outlines 库进行受限生成（如正则、JSON、语法引导）？","LoRAX 社区正在探讨与 Outlines 库的集成，以支持通过 Logits Processor 进行正则、JSON 或上下文无关文法（CFG）引导的生成。目前用户可以通过提出 Feature Request 推动该功能落地。需要注意的是，复杂的 Lark 文法配置可能导致生成挂起或输出垃圾内容，这通常是因为文法与 Prompt 或模型不兼容。建议在使用 CFG 时先测试简单的文法字符串，并关注 Outlines 仓库中关于 grammar 的相关 issue。","https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fissues\u002F176",{"id":180,"question_zh":181,"answer_zh":182,"source_url":163},21380,"在多卡部署时遇到 NCCL 或 GPU 通信错误该怎么办？","如果在多 GPU 部署（特别是使用 `--num-shard` 参数时）遇到连接错误或性能问题，很可能是 GPU 间通信机制（如 NVLINK）未正确配置。建议在 Docker 运行命令中添加环境变量 `-e NCCL_P2P_LEVEL=NVL` 来强制启用 NVLINK 级别的通信。同时，确保所有 GPU 驱动版本一致且足够新，并使用最新的 LoRAX 镜像以避免已知的分片（sharding）兼容性问题。",[184,189,194,199,204,209,214,219,224,229,234,239,244,249,254,259,263,268,273,278],{"id":185,"version":186,"summary_zh":187,"released_at":188},127382,"lorax-0.4.0","LoRAX 是一个开源框架，只需一份成本即可在生产环境中部署和 serving 数百个经过微调的大语言模型。","2025-01-13T23:12:10",{"id":190,"version":191,"summary_zh":192,"released_at":193},127383,"v0.12.1","## 🎉 功能增强\n\n* @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F669 中添加了对 mllama 中适配器加载的支持\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F681 中实现了在响应中记录跳过的 token 数量\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F684 中将 TTFT 和 TPOT 记录到响应头中\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F686 中新增了 CLI 参数 `--speculation-max-batch-size`\n* @joseph-predibase 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F687 中实现了下载时使用 `--predibase-api-token` 参数\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F690 中为编译最大批次大小和 rank 添加了启动器参数\n\n## 🐛 修复\n\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F668 中修复了 stella 嵌入及 lorax 的集成测试问题\n* @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F682 中修复了 mllama 中的 LoRA 加载和索引错误\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F667 中将 gRPC 消息的最大接收大小设置为 2GiB\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F672 中修复了 `frequency_penalty` 和 `presence_penalty` 的问题\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F673 中修复了分数相关问题（移除了调试代码）\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F676 中修复了 top_p，使其可以设置为 1.0\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F680 中修复了工具调用的格式问题\n* @joseph-predibase 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F688 中实现了下载 pbase 文件时使用 Predibase API Token\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F689 中修复了 pbase 适配器源解析问题\n* @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F692 中将 logprob 字段设为响应 Pydantic 验证的可选项\n\n## 🔧 维护\n\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F674 中仅使用 sha 标签运行集成测试\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F675 中修复了集成测试 2\n* @arnavgarg1 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F678 中确保在运行集成测试前始终构建并推送镜像\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F677 中规定只有在集成测试通过后才推送 main 分支\n* @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F683 中移除了不良检查\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.12.0...v0.12.1","2024-11-25T21:15:32",{"id":195,"version":196,"summary_zh":197,"released_at":198},127384,"v0.12.0","## 🎉 功能增强\n\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F655 中实现的多 LoRA 提示前缀缓存\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F658 中实现的转换为 Triton Punica 内核\n* 由 @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F652 中实现的 FP8 KV 缓存支持\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F619 中添加的 Mllama 支持\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F622 中实现的 Flash Mllama 支持\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F621 中实现的 Qwen2 的 MRL 嵌入支持\n* 由 @jfhetzer 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F656 中实现的 XLM-RoBERTa 和适配器嵌入支持\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F600 中实现的权重合并\n* 由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F536 中实现的功能：带输出模式强制的函数调用\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F653 中实现的分块预填充\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F615 中实现的向指标中添加输入数量\n* 由 @joseph-predibase 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F617 中添加的 --predibase-api-token CLI 参数\n* 由 @joseph-predibase 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F639 中添加的 --disable-sgmv 标志\n* 由 @GirinMan 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F644 中实现的结构化输出接口增强\n\n## 🐛 Bug 修复\n\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F618 中实现的为 OpenAI 端点添加完成消息\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F627 中实现的修复 CUDA 图编译问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F628 中实现的修复 Medusa 的 CUDA 图问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F629 中实现的修复重追踪消息问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F631 中实现的修复前缀管道和 BGMV 编译器维度问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F632 中实现的修复 Punica 内核编译问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F633 中实现的修复不使用前缀缓存时的 FlashInfer 问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F634 中实现的修复在没有 LoRA 秩的情况下进行 CUDA 图跟踪的问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F630 中实现的将秩 96 和 128 添加到 BGMV 内核\n* 由 @Infernaught 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F640 中实现的查找语言模型 lm 头部\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F638 中实现的为聊天补全 API 返回 n 个选项\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F641 中实现的修复 Llava Next 对于 Llama 3.2 视觉交叉注意力状态的问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F645 中实现的修复 Qwen-2.5-32b 的编译问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F648 中实现的为 OpenAI json_object API 添加向后兼容字段\n* 由 @joseph-predibase 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F654 中实现的修复 PREDIBASE_API_TOKEN 环境变量被丢弃的问题\n* 由 @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fp","2024-11-06T21:21:17",{"id":200,"version":201,"summary_zh":202,"released_at":203},127385,"v0.11.0","## 🎉 功能增强\n\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F581 中添加前缀缓存功能\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F586 中添加 Llava Next（VLM）\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F385 中推出搭载 FlashBert 的 Embedder Service v0\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F524 中新增 eager prefill 选项\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F531 中支持 BERT NER\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F543 中实现初始化时预加载适配器\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F503 中为嵌入模型添加批处理支持\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F507 中将 BERT 移至 GPU\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F508 中添加 DistilBERT\n* 由 @GirinMan 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F506 中实现 ChatCompletionStreamResponse 返回用量信息的功能\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F530 中新增 Gemma2\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F545 中将 KV 缓存分配移至路由器，以确保正确的块分配\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F548 中在路由器中对输入进行分词\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F551 中添加对 Llama 3 旋转嵌入的支持\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F538 中在路由器中应用聊天模板，以正确验证输入长度\n* 由 @bdalal 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F557 中允许在 Helm Chart 中设置 eager_prefill\n* 由 @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F559 中为 Mistral 添加 FP8 支持\n* 由 @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F562 中为 LLaMa 添加 FP8 支持\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F577 中支持 classify batch 功能\n* 由 @huytuong010101 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F576 中为 Phi-3 服务添加 longrope\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F588 中新增与具体实现无关的健康检查端点\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F597 中为 BERT 添加 FlashInfer 支持\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F598 中加速 NER 推理\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F603 中禁用健康检查追踪，并为 classify 和 classify_batch 端点添加指标\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F604 中添加用于预加载 adapter_source 和后端的启动参数\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F609 中并行化 \u002Fclassify_batch 的分词操作，并为非因果 LM 移除块分配器\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F593 中支持 bge-base-en-v1.5\n\n## 🐛 Bug 修复\n\n* 由 @ajtejankar 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F475 中修复 LM_HEAD 问题\n* 由 @thincal 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F476 中修复：使用 trust_remote_code 加载分词器\u002F配置文件\n* 修复 Medusa 批量加载签名相关的问题","2024-09-18T21:53:37",{"id":205,"version":206,"summary_zh":207,"released_at":208},127386,"v0.10.0","## 🎉 功能增强\n\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F372 中添加了对 Medusa 推测解码适配器的支持\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F454 中按请求添加了 Medusa 适配器\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F482 中支持联合训练的 Medusa + LoRA 适配器\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F375 中添加了提示词查找解码（ngram 推测）\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F464 中使用 SGMV 进行预填充 BGMV 解码\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F445 中添加了 phi3 模型\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F411 中添加了对 C4AI Command-R（cohere）的支持\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F423 中添加了 DBRX 模型\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F359 中重构了适配器接口，以支持除 LoRA 之外的其他适配器（例如推测解码）\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F370 中实现了通过适配器初始化服务器并将其设置为默认适配器的功能\n* @GirinMan 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F374 中实现了对 OpenAI 兼容 API 端点的 Seed 参数支持\n* @noyoshi 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F419 中为 lorax 启动器新增了 --default-adapter-source 参数\n* @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F418 中增强了客户端对错误响应的处理，使其更加健壮和用户友好\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F421 中同时支持 Medusa v1 和 v2\n* @noyoshi 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F428 中实现了在检查基础模型信息时使用默认的 HF HUB 令牌\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F446 中将 adapter_source 和 api_token 添加到 completions API 中\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F453 中增加了最大停止序列的数量\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F462 中支持 LORAX_USE_GLOBAL_HF_TOKEN 环境变量\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F467 中允许将温度设置为 0\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F471 中合并了 Medusa 分段\n\n## 🐛 Bug修复\n\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F363 中修复了在使用长序列长度时的 CUDA 编译问题\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F381 中修复了带有推测解码的 CUDA 图编译问题\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F382 中修复了 Mixtral 模型在推测解码中的问题\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F401 中修复了 EntryNotFoundError 的导入问题\n* @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F402 中修复了使用推测解码时的预热问题\n* @thincal 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F398 中直接分配偏置项以进行修复\n* @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F404 中修复了在 download_file 过程中忽略 botocore ClientError 的问题\n* @cla 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F405 中修复了 Pydantic v2 对 `adapter_id` 和 `merged_adapters` 的验证问题","2024-05-23T16:55:59",{"id":210,"version":211,"summary_zh":212,"released_at":213},127387,"v0.9.0","## 🎉 功能增强\n\n* 允许为 GPU 上的适配器分配专用内存预留，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F303 中实现\n* 强制限制适配器加载不得超过 `--adapter-memory-fraction` 设置的值，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F306 中实现\n* 新增 Qwen2 模型支持，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F327 中添加\n* 将 `max_new_tokens` 设为可选参数，默认值为 `max_total_tokens - input_length`，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F353 中实现\n* 在生成请求中公开 `ignore_eos_token` 选项，由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F340 中实现\n* 在预热阶段生成至 `max_total_tokens`，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F286 中实现\n* 添加返回备选 token 的支持，由 @JTS22 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F297 中实现\n* 新增功能：在 OpenAI 接口中添加 `repetition_penalty` 和 `top_k` 参数，由 @huytuong010101 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F288 中实现\n* 添加对使用 Rank-Stabilized 缩放训练的 LoRA 适配器的支持，由 @arnavgarg1 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F299 中实现\n* 提供更细粒度的方法来配置嵌入式 S3 客户端，由 @mitchklusty 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F325 中实现\n* 允许在 OpenAI API 中将基础模型作为 `model` 参数指定，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F331 中实现\n* 向 completions 和 chat completions 端点添加 `ignore_eos_token` 参数，由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F344 中实现\n* 记录 SGMV 内核是否已启用，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F342 中实现\n* 在流式输出时将生成的 token 日志写入文件，由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F309 中实现\n\n## 🐛 Bug 修复\n\n* 修复 SGMV 下的张量并行机制，使其在拆分后使用 LoRA 的真实秩，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F324 中实现\n* 修复由于 tqdm 的 stderr 未被打印而导致的程序挂起问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F352 中实现\n* 修复动态 RoPE 问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F350 中实现\n* 仅在预热期间更新缓存，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F351 中实现\n* 防止模型加载错误显示为 Flash Attention 导入错误，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F328 中实现\n* 如果无法加载基础模型配置，则使架构兼容性检查变为非致命错误，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F317 中实现\n* 修复 Qwen2 LoRA 的加载问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F345 中实现\n* 移除 OpenAI 兼容响应中的 vec 包装，由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F273 中实现\n* 禁止在预热期间进行提前停止，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F290 中实现\n* 当 `finish_reason` 为 'stop' 时，跳过返回 EOS token，由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F289 中实现\n* 修复相同架构下静态适配器的加载问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F300 中实现\n* 确保在使用 S 存储的模型时，`model_id` 为字符串类型。","2024-03-23T00:10:37",{"id":215,"version":216,"summary_zh":217,"released_at":218},127388,"v0.8.1","## 🎉 功能增强\n\n* 添加了 GEMMA，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F267 中完成\n* 将 details 参数传递给客户端，由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F265 中完成\n\n## 🔧 维护\n\n* 版本号升级，由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F268 中完成\n* 版本号升级，由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F270 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.8.0...v0.8.1","2024-02-21T22:28:16",{"id":220,"version":221,"summary_zh":222,"released_at":223},127389,"v0.8.0","## 🎉 功能增强\n\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F224 中添加了用于 JSON 模式验证的 Outlines logits 处理器\n* 由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F243 中启用了通过 OpenAI 兼容 API 的 JSON 引导生成\n* 现在，引导生成的 JSON 模式可选择性地尊重字段顺序，由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F264 中实现\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F223 中设置了默认适配器源\n* 为确保与 SGMV 内核兼容，对 LoRA 秩进行填充，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F256 中完成\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F220 中添加了模型和适配器响应头\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F221 中添加了 CORS 参数\n* 由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F230 中添加了暴露头信息\n\n## 🐛 Bug 修复\n\n* 由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F246 中正确拆分从 S3 下载的适配器权重时的 model_id\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F239 中修复了 TIES 合并逻辑，使其在应用权重之前先计算符号\n* 由 @llama-shepard 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F234 中更新了 s3.py 文件\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F254 中修复了 flash batch 的拼接问题\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F263 中修复了批处理合并和过滤逻辑，以正确处理 Outlines 状态\n\n## 📝 文档\n\n* 由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F240 中添加了引导生成指南\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F226 中添加了贡献指南\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F225 中更新了 README，加入了模型合并相关内容\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F258 中更新了结构化输出部分\n* 由 @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F228 中对开发环境搭建说明进行了小幅修正\n\n## 🔧 维护\n\n* 由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F250 中升级了 Docker，使用 Rust 1.75 和 Ubuntu 22.04\n* 由 @DhruvaBansal00 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F248 中因依赖项变更而升级了 Rust 版本\n* 由 @noyoshi 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F242 中修复了运行器上的路径问题\n\n## 新贡献者\n\n* @jeffreyftang 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F228 中完成了首次贡献\n* @DhruvaBansal00 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F248 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.7.0...v0.8.0","2024-02-20T23:47:18",{"id":225,"version":226,"summary_zh":227,"released_at":228},127390,"v0.7.0","## 🎉 功能增强\n\n* 每个请求合并多个 LoRA 适配器（线性、TIES、DARE），由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F212 中实现\n* Eetq，由 @flozi00 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F195 中实现\n* hqq JIT 量化，由 @flozi00 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F147 中实现\n* 添加了 Bloom 动态适配器加载功能，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F187 中实现\n* 在客户端中添加了 pbase adapter_source 并公开 api_token，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F181 中实现\n* Cloudflare R2 源，由 @llama-shepard 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F198 中实现\n\n## 🐛 Bug 修复\n\n* 修复了 Phi 对新 HF 格式的支持，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F192 中实现\n* 修复了 OpenAI 流式响应数据的问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F193 中实现\n* 修复：OpenAI 响应格式问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F184 中实现\n* 修复 RoPE 和 YARN 缩放问题，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F202 中实现\n* 在适配器函数中更早地检查基础模型，由 @noyoshi 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F196 中实现\n\n## 📝 文档\n\n* 更新了量化文档，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F206 中实现\n\n## 🔧 维护\n\n* 升级到 pytorch==2.2.0，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F217 中实现\n* 升级 exllama 内核，由 @flozi00 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F209 中实现\n* 添加模型缓存以避免存储空间不足，由 @magdyksaleh 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F201 中实现\n\n## 新贡献者\n* @llama-shepard 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F198 中做出了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.6.0...v0.7.0","2024-02-01T22:08:51",{"id":230,"version":231,"summary_zh":232,"released_at":233},127391,"v0.6.0","## 🎉 功能增强\n\n* OpenAI v1 补全 API，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F170 中实现\n* OpenAI v1 对话补全 API，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F171 中实现\n* 添加了 `prompt_tokens` 到响应中，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F165 中完成\n\n## 🐛 修复\n\n* 修复：在权重转换过程中处理 NaN 值，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F168 中完成\n\n## 📝 文档\n\n* 文档：OpenAI 兼容 API，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F174 中更新\n\n## 🔧 维护\n\n* 修复：仅在 Linux 系统上安装 stanford-stk，由 @tgaddair 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F169 中完成\n* 添加了针对 torch 的独立安装步骤，由 @asingh9530 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F173 中实现\n\n## 新贡献者\n* @asingh9530 在 https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F173 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.5.0...v0.6.0","2024-01-10T19:38:49",{"id":235,"version":236,"summary_zh":237,"released_at":238},127392,"v0.5.0","## 🎉 Enhancements\r\n\r\n* CUDA graph compilation by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F154\r\n\r\n## 🐛 Bugfixes\r\n\r\n* Fixed deadlock in sgmv_shrink kernel caused by imbalanced segments by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F156\r\n* Fixed loading adapter from absolute s3 path by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F161\r\n\r\n## 📝 Docs\r\n\r\n* Update client docs with new endpoint source by @abidwael in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F126\r\n* Update client docs with new endpoint source by @abidwael in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F146\r\n\r\n## 🔧 Maintenance\r\n\r\n* Reduce Docker size by removing duplicate torch install by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F144\r\n* remove CACHE_MANAGER in flash_causal_lm.py by @michaelfeil in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F157\r\n\r\n## New Contributors\r\n* @michaelfeil made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F157\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.4.1...v0.5.0","2024-01-08T17:14:14",{"id":240,"version":241,"summary_zh":242,"released_at":243},127393,"v0.4.1","## 🐛 Bugfixes\r\n\r\n* fix: Phi LoRA loading by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F136\r\n* fix: Triton usage for GPT-Q by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F140\r\n\r\n## 🔧 Maintenance\r\n\r\n* Optimize SGMV kernel code path to reduce mallocs by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F139\r\n* fix sync script to account for subfolder bucket paths by @noyoshi in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F135\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.4.0...v0.4.1","2023-12-18T19:53:01",{"id":245,"version":246,"summary_zh":247,"released_at":248},127394,"v0.4.0","## 🎉 Enhancements\r\n\r\n* Mixtral by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F122\r\n* Added Phi by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F132\r\n* add support for H100s by @thelinuxkid in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F111\r\n* upgrade to py 3.10 by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F121\r\n* Add predibase as a source for adapters by @magdyksaleh in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F125\r\n* enh: Add soci indexing to allow Lazy loading of LoRAX images by @gyanesh-mishra in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F95\r\n\r\n## 🐛 Bugfixes\r\n\r\n* fix: Set Mistral sliding window to max position embeddings when None by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F128\r\n* Fix Qwen tensor parallelism by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F120\r\n* fix: Llama AWQ with GQA by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F114\r\n* fix: Mixtral adapter loading wraps lm_head by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F131\r\n\r\n## 📝 Docs\r\n\r\n* Add Skypilot example and getting started guide by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F117\r\n* docs: fix broken link by @Fluder-Paradyne in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F133\r\n* Added Mixtral and Phi to docs by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F134\r\n\r\n## 🔧 Maintenance\r\n\r\n* Increase default client timeout to 60s by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F119\r\n* Make transpose contiguous for fan-in-fan-out by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F129\r\n* remove lorax env var by @geoffreyangus in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F113\r\n\r\n## New Contributors\r\n* @gyanesh-mishra made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F95\r\n* @thelinuxkid made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F111\r\n* @Fluder-Paradyne made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F133\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.3.0...v0.4.0","2023-12-15T18:15:39",{"id":250,"version":251,"summary_zh":252,"released_at":253},127395,"v0.3.0","## What's Changed\r\n\r\n### Enhancements\r\n\r\n* Add AWQ quantization by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F102\r\n* Add support for Qwen by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F103\r\n* Add Flash GPT2 by @geoffreyangus in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F93\r\n* LoRAX-compatible GPT-2 by @geoffreyangus in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F109\r\n\r\n### Bugfixes\r\n\r\n* decrease the max batch total tokens manually by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F89\r\n* Added --max-active-adapters to launcher by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F96\r\n* fix gptq fp16 inference by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F104\r\n* fix static adapter merge by @geoffreyangus in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F106\r\n\r\n### Maintenance\r\n\r\n* Update values.yaml tag to always use the latest image by @arnavgarg1 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F87\r\n* Update chart version by @abidwael in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F88\r\n* Warn if there are unused weights in the adapter by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F105\r\n* docs: Added client docs for connecting to Predibase endpoints by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F98\r\n* Generalized layer types and row parallel split logic by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F110\r\n* Mkdocs by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F112\r\n\r\n## New Contributors\r\n* @arnavgarg1 made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F87\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.2.1...v0.3.0","2023-12-07T18:56:41",{"id":255,"version":256,"summary_zh":257,"released_at":258},127396,"lorax-0.3.0","LoRAX is the open-source framework for serving hundreds of fine-tuned LLMs in production for the price of one.","2023-12-07T18:51:45",{"id":260,"version":261,"summary_zh":257,"released_at":262},127397,"lorax-0.2.1","2023-11-30T19:16:25",{"id":264,"version":265,"summary_zh":266,"released_at":267},127398,"v0.2.1","## What's Changed\r\n\r\n### Bugfixes\r\n\r\n* add weight property to exllamav2 quanlinear by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F80\r\n* fix: Assign dtype of lora to base model dtype by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F82\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.2.0...v0.2.1","2023-11-29T20:29:47",{"id":269,"version":270,"summary_zh":271,"released_at":272},127399,"v0.2.0","## What's Changed\r\n\r\n### Enhancements\r\n\r\n* Implement sparse SGMV by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F64\r\n* Implement tensor parallel SGMV by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F79\r\n* Add adapter support for all linear layers in Llama and Mistral by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F75\r\n* 4 bit support by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F66\r\n* Exllamav2 by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F60\r\n\r\n### Bugfixes\r\n\r\n* Updated to custom SGMV kernel to fix issue with certain ranks by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F70\r\n* fix: Allow using unsupported base models without adapter loading by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F76\r\n\r\n### Maintenance\r\n\r\n* Add DISABLE_SGMV env var to explicitly fallback to loop by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F69\r\n* Upgrade the README discord badge and use an invite link that doesn't expire. by @justinxzhao in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F73\r\n\r\n## New Contributors\r\n* @justinxzhao made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F73\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.1.2...v0.2.0","2023-11-28T22:01:04",{"id":274,"version":275,"summary_zh":276,"released_at":277},127400,"v0.1.2","## What's Changed\r\n\r\n* Fixed adapter segments when batches contain multiple distinct adapters by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F62\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.1.1...v0.1.2","2023-11-26T21:33:56",{"id":279,"version":280,"summary_zh":281,"released_at":282},127401,"v0.1.1","## What's Changed\r\n\r\n* Add Helm charts to deploy models by @abidwael in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F27\r\n* change defaults for helm chart by @noyoshi in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F38\r\n* add helm release wf by @noyoshi in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F39\r\n* Added support for YARN scaling by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F45\r\n* Fixed tensor parallelism splits by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F47\r\n* enh: enable CodeLlama by @geoffreyangus in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F48\r\n* Fallback when Punica is not installed by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F49\r\n* add transformers gptq weights by @flozi00 in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F52\r\n* Add support for paged attention v2 and update flash attention v2 by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F54\r\n* Fixed adapter loading for GPTQ base models by @tgaddair in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F58\r\n* Update gha to be able to automatically push images with release tags by @magdyksaleh in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F59\r\n\r\n## New Contributors\r\n* @abidwael made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F27\r\n* @flozi00 made their first contribution in https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fpull\u002F52\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fpredibase\u002Florax\u002Fcompare\u002Fv0.1.0...v0.1.1","2023-11-22T22:47:30"]