LitServe

3.9k 278 简单 1 次阅读今天Apache-2.0开发框架插件数据工具图像Agent

AI 解读由 AI 自动生成，仅供参考

LitServe 是一个轻量级的 Python 框架，帮助开发者快速构建自定义的 AI 推理服务。它允许你用纯 Python 代码完全控制模型的推理逻辑、批量处理、流式输出和多模型调度，无需依赖复杂的 MLOps 配置或黑盒服务。传统推理框架往往只支持单一模型类型，难以扩展到多模型、智能体或 RAG 等复杂场景，而 LitServe 让你自由定义流程，同时自动处理并发、扩展和部署。它特别适合需要灵活推理逻辑的 AI 开发者和研究人员，比如构建个性化聊天机器人、多模型流水线或定制化 RAG 系统。支持任意 PyTorch 模型，兼容 vLLM，可本地运行，也可一键部署到云端。其性能比 FastAPI 快近两倍，且无需编写额外的网络或服务胶水代码，真正实现“写逻辑，交给你，其余我来管”。

使用场景

某AI创业公司正在开发一款智能客服系统，需同时调用多个模型：一个用于理解用户意图的分类模型、一个用于检索知识库的RAG模型、一个用于生成自然回复的LLM，并支持流式输出和动态批处理，以应对高峰时段的并发请求。

没有 LitServe 时

需要手动用 FastAPI 搭建多个端点，分别管理三个模型的加载与调用，代码冗长且耦合严重。
批处理逻辑靠自己实现，无法自动合并相似请求，导致GPU利用率低，响应延迟高达800ms。
流式输出需要额外编写异步生成器和HTTP流控制，调试困难，常出现断流或乱序。
部署时需配置Nginx、Docker、Prometheus等MLOps组件，团队无专职运维，上线周期长达两周。
想加入新模型或调整推理顺序时，必须重写整个服务架构，迭代成本极高。

使用 LitServe 后

用纯Python定义统一的 LitAPI 类，直接在单个文件中串联三个模型的调用逻辑，代码清晰可维护。
自动启用动态批处理，系统在高并发下将10个请求合并为1批处理，GPU利用率从30%提升至85%，平均延迟降至320ms。
仅需返回生成器即可启用流式响应，用户能实时看到回复逐字出现，体验接近人工对话。
一键部署到Lightning AI，无需配置任何基础设施，自动获得GPU扩容和监控看板，上线时间缩短至2小时。
新增一个情感分析模型只需在 predict() 方法中追加一行调用，无需重构服务或修改部署流程。

LitServe 让AI工程师能像写函数一样构建生产级推理服务，把精力从工程杂务中解放出来，专注模型与用户体验的优化。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

需要 NVIDIA GPU，显存 8GB+，CUDA 11.7+

内存

16GB+

依赖

notes建议使用 conda 管理环境，首次运行可能需下载模型文件（大小依模型而定，可达数 GB）；支持自定义模型与 vLLM 集成，部署时可选择本地自托管或 Lightning AI 云平台

python3.8+

torch

fastapi

uvicorn

pydantic

huggingface-hub

accelerate

openai

快速开始

使用纯 Python 构建自定义推理服务器

精确定义模型、智能体、RAG 或流水线的推理工作方式。
无需 MLOps 桥接代码或配置文件，即可控制批处理、路由、流式传输和编排。

✅ 自定义推理逻辑  ✅ 比 FastAPI 快 2 倍     ✅ 智能体、RAG、流水线等
✅ 自定义逻辑 + 控制  ✅ 任意 PyTorch 模型          ✅ 自行托管或托管服务        
✅ 多 GPU 自动扩展   ✅ 批处理 + 流式传输       ✅ 自备模型或 vLLM           
✅ 无需 MLOps 桥接代码      ✅ Python 中轻松设置       ✅ 无服务器支持

![Discord](https://img.shields.io/discord/1077906959069626439?label=在 Discord 上获取帮助)

快速入门 • 示例 • 功能 • 性能 • 托管 • 文档

为什么选择 LitServe？

大多数推理工具（如 vLLM 等）专为单一模型类型设计，并强制使用严格的抽象。它们在你需要自定义逻辑、多个模型、智能体或非标准流水线时就显得力不从心。LitServe 让你用 Python 编写自己的推理引擎。你可以定义请求如何处理、模型如何加载、批处理和路由如何运作，以及输出如何生成。LitServe 负责性能、并发、扩展和部署。用 LitServe 构建推理 API、智能体、聊天机器人、RAG 系统、MCP 服务器或多模型流水线。

本地运行、自行托管或一键部署到 Lightning AI。

想要最简单的推理托管方式？

超过 38 万开发者使用 Lightning Cloud，这是运行 LitServe 最简单的方式，无需管理基础设施。只需一条命令即可部署，获得自动扩展 GPU、监控和免费 tier。无需云环境搭建。或者自行托管。

快速入门

通过 pip 安装 LitServe（更多选项)：

pip install litserve

示例 1：包含多个模型的玩具推理流水线。
示例 2：使用 OpenAI API 的最小智能体，用于获取新闻。
(高级示例)：

推理引擎示例

import litserve as ls

# 定义 API，可包含任意数量的模型、数据库等...
class InferenceEngine(ls.LitAPI):
    def setup(self, device):
        self.text_model = lambda x: x**2
        self.vision_model = lambda x: x**3

    def predict(self, request):
        x = request["input"]    
        # 使用两个模型进行计算
        a = self.text_model(x)
        b = self.vision_model(x)
        c = a + b
        return {"output": c}

if __name__ == "__main__":
    # 12+ 功能，如批处理、流式传输等...
    server = ls.LitServer(InferenceEngine(max_batch_size=1), accelerator="auto")
    server.run(port=8000)

免费部署到 Lightning Cloud（或自行托管）：

# 免费部署，带自动扩展、监控等...
lightning deploy server.py --cloud

# 或者本地运行（自行托管）
lightning deploy server.py
# python server.py

测试服务器：模拟 HTTP 请求（在任何终端运行）：

curl -X POST http://127.0.0.1:8000/predict -H "Content-Type: application/json" -d '{"input": 4.0}'

智能体示例

import re, requests, openai
import litserve as ls

class NewsAgent(ls.LitAPI):
    def setup(self, device):
        self.openai_client = openai.OpenAI(api_key="OPENAI_API_KEY")

    def predict(self, request):
        website_url = request.get("website_url", "https://text.npr.org/")
        website_text = re.sub(r'<[^>]+>', ' ', requests.get(website_url).text)

        # 请求 LLM 告诉你最新新闻
        llm_response = self.openai_client.chat.completions.create(
           model="gpt-3.5-turbo", 
           messages=[{"role": "user", "content": f"根据这段内容，最新的消息是：{website_text}"}],
        )
        output = llm_response.choices[0].message.content.strip()
        return {"output": output}

if __name__ == "__main__":
    server = ls.LitServer(NewsAgent())
    server.run(port=8000)

测试它：

curl -X POST http://127.0.0.1:8000/predict -H "Content-Type: application/json" -d '{"website_url": "https://text.npr.org/"}'

主要优势

一些主要优势：

部署任意管道或模型：代理、管道、RAG、聊天机器人、图像模型、视频、语音、文本等……
无需MLOps胶水：LitAPI让您在一个地方即可构建完整的AI系统（多模型、代理、RAG）(更多)。
即时搭建：只需几行代码，通过setup()即可连接模型、数据库和数据(更多)。
优化完善：内置自动扩展、GPU支持及快速推理功能(更多)。
随处部署：可自托管，也可通过Lightning一键部署(更多)。
面向AI的FastAPI：基于FastAPI构建，但针对AI进行了优化——在AI专用多工作线程处理下速度提升2倍(更多)。
适合专家使用：可使用vLLM，也可自行构建，全面掌控批处理、缓存和逻辑(更多)。

⚠️ 这并非开箱即用的vLLM或Ollama替代方案。如果您需要，LitServe为您提供更底层的灵活性，以构建他们所做的事情（甚至更多）。

精选示例

以下是常见模型类型和用例的推理管道示例。

玩具模型：      Hello world
大语言模型：           Llama 3.2, LLM代理服务器, 带工具使用的智能体
RAG：            vLLM RAG（Llama 3.2）, RAG API（LlamaIndex）
NLP：            Hugging face, BERT, 文本嵌入API
多模态：     OpenAI Clip, MiniCPM, Phi-3.5 Vision Instruct, Qwen2-VL, Pixtral
音频：          Whisper, AudioCraft, StableAudio, 降噪（DeepFilterNet）
视觉：         Stable diffusion 2, AuraFlow, Flux, 图像超分辨率（Aura SR）,
                背景移除, 控制稳定扩散（ControlNet）
语音：         文本转语音（XTTS V2）, Parler-TTS
经典机器学习：   随机森林, XGBoost
其他：  媒体转换API（ffmpeg）, PyTorch + TensorFlow合并在一个API中, LLM代理服务器

浏览100多个社区构建的模板

随处托管

自行托管，尽享完全掌控；或借助Lightning AI，在几秒钟内完成部署，支持自动扩展、安全保障以及99.995%的正常运行时间。
包含免费 tier，无需任何设置，直接在您的云端运行

lightning deploy server.py --cloud

https://github.com/user-attachments/assets/ff83dab9-0c9f-4453-8dcb-fb9526726344

功能特性

功能	自行管理	由 Lightning 全面托管
以 Docker 为先的部署	✅ DIY	✅ 一键式部署
成本	✅ 免费（DIY）	✅ 宽裕的免费 tier，按需付费
完全控制	✅	✅
使用任意引擎（如 vLLM 等）	✅	✅ vLLM、Ollama、LitServe 等
拥有专属 VPC	✅（手动设置）	✅ 连接您自己的 VPC
比普通 FastAPI 快 2 倍以上	✅	✅
自带模型	✅	✅
构建复合系统（多个模型）	✅	✅
GPU 自动扩展	✅	✅
批处理	✅	✅
流式传输	✅	✅
工作节点自动扩展	✅	✅
服务所有模型：（大语言模型、视觉模型等）	✅	✅
支持 PyTorch、JAX、TF 等...	✅	✅
符合 OpenAPI 规范	✅	✅
与 OpenAI 兼容	✅	✅
MCP 服务器支持	✅	✅
异步	✅	✅
身份验证	❌ DIY	✅ Token、密码、自定义
GPU	❌ DIY	✅ 支持 8 种以上 GPU 类型，H100 从 1.75 美元起
负载均衡	❌	✅ 内置负载均衡
缩放至零（无服务器）	❌	✅ 空闲时无机器运行
按需自动扩展	❌	✅ 自动扩缩容
多节点推理	❌	✅ 分布式跨节点
使用 AWS/GCP 积分	❌	✅ 使用现有云积分
版本控制	❌	✅ 发布版本与回滚
企业级正常运行时间（99.95%）	❌	✅ SLA 保障
SOC2 / HIPAA 合规性	❌	✅ 认证且安全
可观测性	❌	✅ 内置，可对接第三方工具
CI/CD 就绪	❌	✅ Lightning SDK
24/7 企业级支持	❌	✅ 专属支持
成本控制与审计日志	❌	✅ 预算、明细、日志
在 GPU 上调试	❌	✅ Studio 集成
20+ 功能	-	-

性能

LitServe 专为 AI 工作负载而设计。其专门的多 worker 处理方式可实现比 FastAPI 至少 2 倍的提速。

此外，批处理和 GPU 自动扩展等附加功能可将性能提升至 2 倍以上，高效扩展以支持比 FastAPI 和 TorchServe 更多的并发请求。

欲复现完整基准测试结果，请点击此处（数值越高越好）。

这些结果针对的是图像和文本分类 ML 任务。对于其他 ML 任务（如嵌入、大语言模型推理、音频、分割、目标检测、摘要等），性能关系同样适用。

💡 关于大语言模型推理的提示： 对于高性能的大语言模型推理（例如 Ollama/vLLM），可将 vLLM 与 LitServe 集成，使用 LitGPT，或借助 LitServe 打造您自己的 vLLM 类似服务器。要最大化大语言模型性能，还需采用诸如 kv 缓存之类的优化手段，而这些优化正是 LitServe 可提供的功能。

社区

LitServe 是一个接受贡献的社区项目——让我们共同打造全球最先进的 AI 推理引擎！

💬 在 Discord 上获取帮助
📋 许可证：Apache 2.0

LitServe 中文快速上手指南

环境准备

系统要求：Linux / macOS / Windows（推荐 Linux）
Python 版本：3.8+
前置依赖：
- PyTorch（推荐使用国内镜像加速安装）
- 可选：CUDA（如需 GPU 加速）

推荐使用清华源加速 PyTorch 安装：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装步骤

使用 pip 安装 LitServe（推荐使用国内镜像加速）：

pip install litserve -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

创建 server.py 文件，定义最简推理服务：

import litserve as ls

class InferenceEngine(ls.LitAPI):
    def setup(self, device):
        self.model = lambda x: x ** 2  # 示例模型：平方运算

    def predict(self, request):
        x = request["input"]
        return {"output": self.model(x)}

if __name__ == "__main__":
    server = ls.LitServer(InferenceEngine(), accelerator="auto")
    server.run(port=8000)

启动服务：

python server.py

测试请求：

curl -X POST http://127.0.0.1:8000/predict -H "Content-Type: application/json" -d '{"input": 4.0}'

响应示例：

{"output": 16.0}

支持一键部署至 Lightning AI：
lightning deploy server.py --cloud

版本历史

v0.2.172025/12/23

v0.2.162025/10/14

v0.2.152025/07/31

v0.2.142025/07/22

v0.2.132025/07/01

v0.2.13rc12025/06/18

v0.2.122025/06/11

v0.2.12.dev02025/06/05

0.2.112025/05/29

v0.2.11.a22025/05/27

v0.2.11a12025/05/23

0.2.11a02025/05/19

v0.2.102025/05/13

v0.2.92025/05/08

v0.2.9.dev02025/05/07

v0.2.82025/04/22

v0.2.8.dev02025/04/01

v0.2.72025/03/07

v0.2.7.dev02025/02/20

v0.2.62025/01/16

常见问题

如何在单个 LitServe 服务器上支持多个端点（如 /embedding、/vlm/predict）？

如何使用 LitServe 部署符合 OpenAI Embedding API 格式的自定义嵌入模型？

LitServe 是否支持模型空闲时自动卸载以节省 GPU 内存？

当 num_api_servers > 1 时，请求计数为何不准确？

能否自定义 LitServe 的默认 API 路径（如从 /predict 改为 /api/v1/predict）？

如何在 LitServe 中集成中间件（如身份验证、日志记录）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架