TileRT

GitHub
705 42 较难 1 次阅读 2天前MIT语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

TileRT 是一款专为超大规模语言模型设计的推理运行时系统,核心目标是在不牺牲模型精度或规模的前提下,实现毫秒级的超低延迟响应。它主要解决了当前大模型在实时交互场景中生成速度慢、首字延迟高的问题,让参数量高达数千亿的模型也能流畅运行。

该工具特别适合需要构建实时对话系统、高频交易辅助或即时决策应用的开发者与研究人员。对于追求极致性能优化的算法工程师而言,TileRT 提供了宝贵的底层加速方案。

其技术亮点在于独特的“基于瓦片(Tile-Based)”架构,配合多令牌预测(MTP)技术,显著提升了解码效率。在最新测试中,TileRT 在 8 张 NVIDIA B200 GPU 上运行 GLM-5 模型时,生成速度可达每秒 500 至 600 个令牌,端到端延迟较传统基线降低了约 35%,甚至实现了 3 到 4 倍的速度提升。值得注意的是,这些性能突破并未依赖有损的量化或蒸馏手段,而是通过系统层面的深度优化达成,确保了模型输出的高质量与完整性。

使用场景

某高频量化交易团队正在构建基于千亿参数大模型(如 GLM-5)的实时新闻情绪分析系统,需要在毫秒级内完成从长文本输入到交易信号生成的全过程。

没有 TileRT 时

  • 响应延迟过高:处理 100K+ 长度的财经新闻流时,首字生成延迟(TTFT)往往超过数百毫秒,导致交易信号滞后于市场波动。
  • 长上下文瓶颈:传统推理框架在处理超长上下文时显存占用激增,迫使团队不得不截断关键历史数据或降低模型精度,影响判断准确率。
  • 吞吐量受限:即便使用多卡集群,单批次推理速度也难以突破 100 tokens/s,无法支撑突发新闻洪峰下的并发需求。
  • 多令牌预测缺失:缺乏高效的多令牌预测(MTP)支持,只能逐个生成 token,进一步拉长了端到端的决策链条。

使用 TileRT 后

  • 极致低延迟:依托 TileRT 的分块运行时架构,在 8×NVIDIA B200 环境下将 GLM-5 的生成延迟压缩至毫秒级,实现真正的实时反应。
  • 无损长文处理:无需量化或蒸馏即可原生支持 192K 上下文窗口,完整保留历史行情与新闻关联,确保模型推理质量不打折。
  • 爆发式提速:开启 MTP=3 模式后,解码速率飙升至 600 tokens/s 以上,轻松应对高并发资讯流,系统吞吐量提升数倍。
  • 资源效率优化:在单节点上即可达成以往需大规模集群才能实现的性能指标,显著降低了硬件部署成本与维护复杂度。

TileRT 通过突破性的分块推理技术,让千亿参数大模型在金融等对延迟极度敏感的场景中真正具备了落地实战能力。

运行环境要求

操作系统
  • Linux
GPU

必需,8× NVIDIA B200 GPUs,需匹配 CUDA 12.8 或 12.9

内存

未说明

依赖
notes这是一个实验性项目,当前预构建包仅支持 8 卡 B200 配置。强烈建议在提供的 Docker 镜像中安装以获得最可靠的体验。支持 DeepSeek-V3.2 和 GLM-5 模型,需使用内置脚本将官方权重转换为 TileRT 格式后方可使用。
python3.11 – 3.12
torch (CUDA 12.8/12.9)
tilert
TileRT hero image

快速开始

TileRT:基于分块的超低延迟大模型推理运行时

PyPI版本

概述 · 生成 · MTP生成 · 安装 · 新闻


📰 新闻

  • :fire: 2026-02-14 · 试用在线演示。我们的在线演示现已上线!体验使用 GLM-5DeepSeek-V3.2 的超低延迟推理。立即试用 !

  • 🎉 2026-02-14 · v0.1.3 发布。v0.1.3 版本新增对最新 GLM-5 模型的支持,在 GLM-5-FP8 上可达到每秒 500 个 token,在 DeepSeek-V3.2 上则可达每秒 600 个 token。

  • 🚀 2026-01-26 · v0.1.2-alpha.1。TileRT 现已支持多 token 预测(MTP)!在 mtp=3 的设置下,我们在合成负载测试中实现了高达 590 tokens/s 的解码速率。

重要里程碑
  • 2025-12-23 · v0.1.1。在单节点上使用 8× NVIDIA B200 显卡的情况下,端到端 token 生成延迟进一步降低了约 35%(相比基准提升了 3 到 4 倍)。

  • 🚀 2025-11-20 · v0.1.0-alpha.1。首次公开发布针对 DeepSeek-V3.2-Exp 的版本,专注于 超低延迟 推理。可在 PyPIHuggingFace 上获取。


TileRT 是一个专为超低延迟场景设计的大语言模型(LLM)服务项目。其目标是在不牺牲模型规模和质量的前提下,突破 LLM 的延迟极限——使拥有数千亿参数的模型也能实现毫秒级的每输出 token 时间(TPOT)。

在我们最新的 v0.1.3 版本中,我们针对最新的 GLM-5 模型测试了 TileRT 的性能,证明了该方法在实际应用中的有效性。我们是首批支持这一最新模型的团队之一,验证了我们所开发技术的强大之处。

我们使用 GLM-5 模型(未采用量化或蒸馏等有损优化手段),在 8 张 NVIDIA B200 GPU 上以批大小为 1 的方式进行评估,以测试 TileRT 的初步性能。如下文的基准测试所示,TileRT 相较于现有的推理系统表现出显著的提升。

TileRT基准测试
图 1. 评估设置。批大小:1;输入序列长度:1K、16K、32K、64K、128K、150K、192K;输出序列长度:1K;使用 合成数据进行基准测试。SGLang v0.5.9.dev0 使用 MTP=3;vLLM v0.16.0rc2.dev173 使用 MTP=1(vLLM 在 MTP=3 时失败,因此我们按照 vLLM-GPT5-recipe 将其设置为 MTP=1);TileRT v0.1.3 使用 MTP=3。

TileRT基准测试
图 2. 评估设置。批大小:1;输入序列长度:1K、16K、32K、64K、128K、150K、192K;输出序列长度:1K;使用 合成数据进行基准测试。SGLang v0.5.9.dev0;vLLM v0.16.0rc2.dev173;TileRT v0.1.3。

与传统为高吞吐量批量处理而优化的推理系统不同,TileRT 更加注重 响应速度,这对于高频交易、交互式 AI、实时决策、长时间运行的智能体以及 AI 辅助编程等应用场景至关重要——在这些场景中,单个请求的延迟最为关键。

为此,TileRT 引入了 分块级运行时引擎。通过编译器驱动的方法,LLM 操作被分解为细粒度的分块级任务,而运行时则会动态地重新调度计算、I/O 和通信操作,在多个设备之间高度重叠地执行。这种设计最大限度地减少了空闲时间,提高了硬件利用率。

该项目仍在积极发展中,相关的编译器技术将随着它们逐步集成到 TileLangTileScale 中,陆续向社区开放分享。


安装

先决条件

在安装 TileRT 之前,请确保您的环境满足以下要求:

硬件要求

  • 8 张 NVIDIA B200 GPU

操作系统

  • Linux x86_64(推荐 Ubuntu 20.04 或更高版本)

Python 版本

  • Python 3.11 – 3.12 (该 wheel 包是基于这些版本构建并测试的。)

PyTorch 构建

  • 为 CUDA 12.8 或 12.9 编译的 PyTorch wheels (必须与 B200 GPU 所需的 CUDA 驱动程序/运行时版本匹配。)

Python 包安装

[!IMPORTANT] 免责声明:TileRT 是一个实验性项目。目前预构建的包仅支持 8 张 B200 GPU 的配置。为了获得最可靠的体验,我们强烈建议您在提供的 Docker 镜像中安装该包。

推荐的安装方式是使用预先配置好的 Docker 镜像,其中包含了所有必要的依赖项。

步骤 1:拉取 Docker 镜像

docker pull tileai/tilert:v0.1.0

步骤 2:启动 Docker 容器

IMAGE_NAME="tileai/tilert:v0.1.0"
WORKSPACE_PATH="/path/to/your/workspace"  # 替换为您实际的工作空间路径

docker run --gpus all -it \
    -v $WORKSPACE_PATH:/workspace/ \
    $IMAGE_NAME

步骤 3:安装 TileRT 包

进入容器后,使用 pip 安装 TileRT:

pip install tilert

现在您已经可以使用 TileRT 了!请前往 入门指南 下载模型权重并运行您的第一次推理。

入门指南

第 1 步:下载官方模型权重

自 v0.1.3 版本起,TileRT 不再需要从 Hugging Face 下载预先转换好的权重。相反,您可以直接从模型的源(例如 Hugging Face)下载官方模型权重,然后使用最新 TileRT 发行版中包含的权重转换脚本对其进行转换。

第 2 步:使用 weight_converter.py 转换权重

下载官方模型权重后,您可以使用以下命令将其转换为与 TileRT 兼容的格式:

对于 DeepSeek-V3.2,运行:

python -m tilert.models.preprocess.weight_converter \
  --model_type deepseek-v32 \
  --model_dir "/path/to/DeepSeek-V3.2" \
  --save_dir "/path/to/DeepSeek-V3.2-TileRT"

请将 /path/to/DeepSeek-V3.2 替换为您下载模型权重的目录,并将 /path/to/DeepSeek-V3.2-TileRT 替换为您希望保存转换后权重的目录。

同样,对于 GLM-5,运行:

python -m tilert.models.preprocess.weight_converter \
  --model_type glm-5 \
  --model_dir "/path/to/GLM-5-FP8" \
  --save_dir "/path/to/GLM-5-FP8-TileRT"

请将 /path/to/GLM-5-FP8 替换为包含已下载 GLM-5 模型权重的目录,将 /path/to/GLM-5-FP8-TileRT 替换为保存转换后权重的目标位置。

第 3 步:设置转换后的权重目录

权重转换完成后,请设置环境变量,使 TileRT 指向包含转换后权重的目录:

export MODEL_WEIGHTS_DIR= ... # 转换后的权重

现在您就可以使用 TileRT 和转换后的权重了!

运行生成示例

下载模型权重后,您可以在 Docker 环境中按如下方式运行生成示例:

MODEL_WEIGHTS_DIR="/path/to/tilert_weights"

docker run --gpus all -it \
    -v $WORKSPACE_PATH:/workspace/ \
    -v $MODEL_WEIGHTS_DIR:$MODEL_WEIGHTS_MOUNT \
    tilert:v0.1.0

进入容器后,运行以下 Python 脚本以执行文本生成:

from tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator

generator: ShowHandsGenerator = ShowHandsGenerator(
    max_new_tokens=1000,
    model_weights_dir=MODEL_WEIGHTS_DIR,
    with_mtp=False,  // 禁用 MTP
)
generator.from_pretrained()

prompt = (
    "给我讲三个笑话:\n\n"
    "1. 一个爸爸式的冷笑话,\n"
    "2. 一个程序员笑话,\n"
    "3. 一个只有尝试过训练大型语言模型的人才懂的笑话。\n"
    "每个笑话不超过15个字。"
)

print("提示词:", prompt)
print("完成内容:")
completion = generator.generate(prompt)

例如,TileRT 可能会生成:

示例输出(点击展开)
1. 我担心日历。它的日子不多了。
2. 只有10种人:懂二进制的和不懂二进制的。
3. 我的模型损失很低,但回答仍然是一堆胡话。这是过拟合。

此示例展示了使用预编译模型进行基本单步自回归生成的过程。

使用多标记预测 (MTP) 运行生成示例

TileRT 还支持多标记预测 (MTP),该功能允许模型在每次前向传播中生成多个标记,从而减少序列解码的深度。

为了更好地说明 MTP 的行为,我们使用一个更长的提示词来鼓励生成更长的内容:

from tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator

generator: ShowHandsGenerator = ShowHandsGenerator(
    max_new_tokens=1000,
    model_weights_dir=MODEL_WEIGHTS_DIR,
    with_mtp=True,  // 启用 MTP
)
generator.from_pretrained()
prompt = "给我讲10个笑话,每个笑话不超过100个字。"

print("提示词:", prompt)
print("完成内容:")
completion = generator.generate(prompt)

启用 MTP 后,TileRT 在生成过程中可能会报告类似如下的统计信息:

接受长度:平均值=2.77,最小值=1,最大值=4

这表明在 MTP 下,平均每次解码步骤都会接受多个标记。

示例输出(点击展开)
当然!这里给你准备了10个小笑话。

1. 我跟我老婆说她画眉毛画得太高了。她一脸惊讶。

2. 我发明了一个新词:抄袭。

3. 为什么科学家不信任原子?因为它们构成了所有东西。

4. 我正在读一本关于反重力的书。简直让人欲罢不能。

5. 你最喜欢瑞士的什么?我也不知道,不过那面国旗确实很加分。

6. 我跟电脑说我想休息一下,结果它现在不停地给我推送度假广告。

7. 为什么稻草人能获奖?因为他在这个领域太出色了。

8. 假面条叫什么?假意面。

9. 我跟行李箱说我没打算去度假,结果它现在背负着太多“包袱”。

10. 为什么骷髅之间不会打架?因为他们没有勇气。

此示例突出了 MTP 如何通过在每次解码步骤中接受多个标记,高效地生成更长的输出,同时保持相同的 Python API 接口。

更多详细信息,请参阅 生成脚本

当前状态与未来工作

TileRT 目前仍处于预览发布阶段,我们才刚刚起步。 我们将不断改进安装体验,并持续提升端到端性能。未来的版本将继续突破低延迟生成的极限。

感谢您的关注与支持——敬请期待,更快的标记生成即将到来!

版本历史

v0.1.32026/02/14
v0.1.3.post12026/02/27
v0.1.2-alpha.12026/01/26
v0.1.12025/12/23
v0.1.0-alpha.12025/11/22

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

157.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|6天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架