[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-tile-ai--TileRT":3,"tool-tile-ai--TileRT":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":75,"owner_website":75,"owner_url":77,"languages":78,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":105,"github_topics":75,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":106,"updated_at":107,"faqs":108,"releases":109},8057,"tile-ai\u002FTileRT","TileRT","Tile-Based Runtime for Ultra-Low-Latency LLM Inference","TileRT 是一款专为超大规模语言模型设计的推理运行时系统，核心目标是在不牺牲模型精度或规模的前提下，实现毫秒级的超低延迟响应。它主要解决了当前大模型在实时交互场景中生成速度慢、首字延迟高的问题，让参数量高达数千亿的模型也能流畅运行。\n\n该工具特别适合需要构建实时对话系统、高频交易辅助或即时决策应用的开发者与研究人员。对于追求极致性能优化的算法工程师而言，TileRT 提供了宝贵的底层加速方案。\n\n其技术亮点在于独特的“基于瓦片（Tile-Based）”架构，配合多令牌预测（MTP）技术，显著提升了解码效率。在最新测试中，TileRT 在 8 张 NVIDIA B200 GPU 上运行 GLM-5 模型时，生成速度可达每秒 500 至 600 个令牌，端到端延迟较传统基线降低了约 35%，甚至实现了 3 到 4 倍的速度提升。值得注意的是，这些性能突破并未依赖有损的量化或蒸馏手段，而是通过系统层面的深度优化达成，确保了模型输出的高质量与完整性。","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_readme_95b41b640d14.png\" width=\"120\"\u002F>\n  \u003Ch1>TileRT: Tile-Based Runtime for\u003Cbr>Ultra-Low-Latency LLM Inference\u003C\u002Fh1>\n  \u003Cp>\n    \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Ftilert\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyPI-tilert-1E90FF\" alt=\"PyPI version\" height=\"20\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTile-AI\u002FDeepSeek-V3.2-Exp-TileRT\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-1E90FF\">\u003C\u002Fa>\n  \u003C\u002Fp>\n  \u003Cp>\n    \u003Ca href=\"#overview\">\u003Cb>Overview\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#running-the-generation-example\">\u003Cb>Generation\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#running-the-generation-example-with-multi-token-prediction-mtp\">\u003Cb>MTP Generation\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#installation\">\u003Cb>Installation\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#news\">\u003Cb>News\u003C\u002Fb>\u003C\u002Fa>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n______________________________________________________________________\n\n\u003Ca id=\"news\">\u003C\u002Fa>\n\n## 📰 News\n\n- :fire: **2026-02-14 · [Try the Online Demo](https:\u002F\u002Fwww.tilert.ai\u002F)**. Our online demo is now live! Experience ultra-low-latency inference with **GLM-5** and **DeepSeek-V3.2**. [Try it now !](https:\u002F\u002Fwww.tilert.ai)\n\n- 🎉 **2026-02-14 · [v0.1.3](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.3) Released**. The v0.1.3 release introduces full support for the latest GLM-5 model, achieving up to 500 tokens\u002Fs on GLM-5-FP8 and up to 600 tokens\u002Fs on DeepSeek-V3.2.\n\n- 🚀 **2026-01-26 · [v0.1.2-alpha.1](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.2-alpha.1)**. **Multi-Token Prediction (MTP)** is now available in TileRT! With mtp=3, we achieve decoding rates of up to **590 tokens\u002Fs** under synthetic workloads.\n\n\u003Cdetails>\n  \u003Csummary>Key Milestones\u003C\u002Fsummary>\n\n- ⚡ **2025-12-23 · [v0.1.1](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.1)**. Achieved ~**35% further reduction** (3 ~ 4x speedup over baseline) in end-to-end token generation latency on a single node with **8× NVIDIA B200**.\n\n- 🚀 **2025-11-20 · [v0.1.0-alpha.1](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.0-alpha.1)**. Initial public release for **DeepSeek-V3.2-Exp**, targeting **ultra-low-latency** inference. Available on [PyPI](https:\u002F\u002Fpypi.org\u002Fproject\u002Ftilert) and [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FTile-AI\u002FDeepSeek-V3.2-Exp-TileRT).\n\n\u003C\u002Fdetails>\n\n______________________________________________________________________\n\n\u003Ca id=\"overview\">\u003C\u002Fa>\n\n**TileRT** is a project designed to serve large language models (LLMs) in ultra-low-latency scenarios. Its goal is to push the latency limits of LLMs without compromising model size or quality—enabling models with hundreds of billions of parameters to achieve millisecond-level time per output token (TPOT).\n\nIn our latest **v0.1.3** release, we tested **TileRT's** performance on the newest [**GLM-5**](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5-FP8) model, demonstrating the effectiveness of our approach in real-world applications. We were among the first to support this latest model, validating the power of the technology we've developed.\n\nUsing the [**GLM-5**](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5-FP8) model (without lossy optimizations such as quantization or distillation) with a batch size of 1 on 8× NVIDIA B200 GPUs, we evaluated TileRT’s preliminary performance. As shown in the benchmarks below, TileRT demonstrates substantial improvements over existing inference systems.\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_readme_ee57c8e1a927.png\" alt=\"TileRT Benchmark\" width=\"800\">\u003Cbr>\nFigure 1. Evaluation setup. Batch size: 1; Input sequence length: 1K, 16K, 32K, 64K, 128K, 150K, 192K; Output sequence length: 1K; Benchmark with \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\u002Fblob\u002Fmain\u002Ftensorrt_llm\u002Fbench\u002Fdataset\u002Fprepare_synthetic_data.py\">synthetic data\u003C\u002Fa>. SGLang v0.5.9.dev0 with MTP=3; vLLM v0.16.0rc2.dev173 with MTP=1 (vLLM failed when MTP=3, so we set MTP=1 as \u003Ca href=\"https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Frecipes\u002Fen\u002Flatest\u002FGLM\u002FGLM5.html\">vLLM-GPT5-recipe\u003C\u002Fa>); TileRT v0.1.3 with MTP=3.\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_readme_bd7275f380e6.png\" alt=\"TileRT Benchmark\" width=\"800\">\u003Cbr>\nFigure 2. Evaluation setup. Batch size: 1; Input sequence length: 1K, 16K, 32K, 64K, 128K, 150K, 192K; Output sequence length: 1K; Benchmark with \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\u002Fblob\u002Fmain\u002Ftensorrt_llm\u002Fbench\u002Fdataset\u002Fprepare_synthetic_data.py\">synthetic data\u003C\u002Fa>. SGLang v0.5.9.dev0; vLLM v0.16.0rc2.dev173; TileRT v0.1.3.\n\u003C\u002Fp>\n\nUnlike traditional inference systems optimized for high-throughput batch processing, TileRT prioritizes **responsiveness**, which is critical for applications such as high-frequency trading, interactive AI, real-time decision-making, long-running agents, and AI-assisted coding, where the latency of individual requests matters most.\n\nTo achieve this, TileRT introduces a **tile-level runtime engine**. Leveraging a compiler-driven approach, LLM operators are decomposed into fine-grained tile-level tasks, while the runtime dynamically reschedules computation, I\u002FO, and communication across multiple devices in a highly overlapped manner. This design minimizes idle time and improves hardware utilization.\n\nThe project is actively evolving, and the underlying compiler techniques will be gradually shared with the community as they are integrated into **TileLang** and **TileScale**.\n\n______________________________________________________________________\n\n## Installation\n\n- [Prerequisites](#prerequisites)\n- [Python Package Installation](#python-package-installation)\n\n### Prerequisites\n\nBefore installing TileRT, ensure your environment meets the following requirements:\n\n**Hardware Requirements**\n\n- 8× NVIDIA B200 GPUs\n\n**Operating System**\n\n- Linux x86_64 (Ubuntu 20.04 or later recommended)\n\n**Python Version**\n\n- Python 3.11 – 3.12\n  *(The wheel package is built and tested against these versions.)*\n\n**PyTorch Build**\n\n- PyTorch wheels compiled for CUDA 12.8 or 12.9\n  *(Must match the CUDA driver\u002Fruntime version required for B200 GPUs.)*\n\n### Python Package Installation\n\n> \\[!IMPORTANT\\]\n> **Disclaimer**: TileRT is an experimental project. The current pre-built package supports the 8-GPU B200 setup. For the most reliable experience, we strongly recommend installing the package within the provided Docker image.\n\nThe recommended installation method is using the pre-configured Docker image, which includes all necessary dependencies.\n\n**Step 1: Pull the Docker image**\n\n```bash\ndocker pull tileai\u002Ftilert:v0.1.0\n```\n\n**Step 2: Launch a Docker container**\n\n```bash\nIMAGE_NAME=\"tileai\u002Ftilert:v0.1.0\"\nWORKSPACE_PATH=\"\u002Fpath\u002Fto\u002Fyour\u002Fworkspace\"  # Replace with your actual workspace path\n\ndocker run --gpus all -it \\\n    -v $WORKSPACE_PATH:\u002Fworkspace\u002F \\\n    $IMAGE_NAME\n```\n\n**Step 3: Install the TileRT package**\n\nOnce inside the container, install TileRT using pip:\n\n```bash\npip install tilert\n```\n\nYou're now ready to use TileRT! Proceed to the [Getting Started](#getting-started) section to download model weights and run your first inference.\n\n## Getting Started\n\n### Step 1: Download Official Model Weights\n\nStarting from release v0.1.3, TileRT no longer requires downloading pre-converted weights from Hugging Face. Instead, you can download the official model weights directly from the model's source (e.g., Hugging Face), and then convert them using the weight converter script included with the latest TileRT release.\n\n### Step 2: Convert Weights Using `weight_converter.py`\n\nAfter downloading the official model weights, you can use the following command to convert them into a format compatible with TileRT:\n\nFor **DeepSeek-V3.2**, run:\n\n```bash\npython -m tilert.models.preprocess.weight_converter \\\n  --model_type deepseek-v32 \\\n  --model_dir \"\u002Fpath\u002Fto\u002FDeepSeek-V3.2\" \\\n  --save_dir \"\u002Fpath\u002Fto\u002FDeepSeek-V3.2-TileRT\"\n```\n\nReplace `\u002Fpath\u002Fto\u002FDeepSeek-V3.2` with the directory where you've downloaded the model weights, and `\u002Fpath\u002Fto\u002FDeepSeek-V3.2-TileRT` with the directory where you'd like the converted weights to be saved.\n\nSimilarly, for **GLM-5**, run:\n\n```bash\npython -m tilert.models.preprocess.weight_converter \\\n  --model_type glm-5 \\\n  --model_dir \"\u002Fpath\u002Fto\u002FGLM-5-FP8\" \\\n  --save_dir \"\u002Fpath\u002Fto\u002FGLM-5-FP8-TileRT\"\n```\n\nReplace `\u002Fpath\u002Fto\u002FGLM-5-FP8` with the directory containing the downloaded GLM-5 model weights, and `\u002Fpath\u002Fto\u002FGLM-5-FP8-TileRT` with the desired location for saving the converted weights.\n\n### Step 3: Set the Converted Weights Directory\n\nOnce the weights are converted, set the environment variable to point TileRT to the directory containing the converted weights:\n\n```bash\nexport MODEL_WEIGHTS_DIR= ... # converted weights\n```\n\nNow you're ready to use TileRT with the converted weights!\n\n### Running the Generation Example\n\nAfter downloading the model weights, you can run the generation example within the Docker environment as follows:\n\n```bash\nMODEL_WEIGHTS_DIR=\"\u002Fpath\u002Fto\u002Ftilert_weights\"\n\ndocker run --gpus all -it \\\n    -v $WORKSPACE_PATH:\u002Fworkspace\u002F \\\n    -v $MODEL_WEIGHTS_DIR:$MODEL_WEIGHTS_MOUNT \\\n    tilert:v0.1.0\n```\n\nOnce inside the container, run the following Python script to perform text generation:\n\n```python\nfrom tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator\n\ngenerator: ShowHandsGenerator = ShowHandsGenerator(\n    max_new_tokens=1000,\n    model_weights_dir=MODEL_WEIGHTS_DIR,\n    with_mtp=False,  # Disable MTP\n)\ngenerator.from_pretrained()\n\nprompt = (\n    \"Tell me three jokes:\\n\\n\"\n    \"1. A dad joke,\\n\"\n    \"2. A programmer joke,\\n\"\n    \"3. A joke that only makes sense if you've ever tried \"\n    \"to train a large language model.\\n\"\n    \"Keep each joke under 15 words.\"\n)\n\nprint(\"Prompt:\", prompt)\nprint(\"Completion:\")\ncompletion = generator.generate(prompt)\n```\n\nFor example, TileRT may generate:\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Sample output (click to expand)\u003C\u002Fb>\u003C\u002Fsummary>\n\n```text\n1. I'm afraid for the calendar. Its days are numbered.\n2. There are only 10 kinds of people: those who understand binary and those who don't.\n3. My model's loss is low, but its answers are still nonsense. Overfitting.\n```\n\n\u003C\u002Fdetails>\n\nThis example demonstrates basic single-step autoregressive generation using the precompiled model.\n\n### Running the Generation Example with Multi-Token Prediction (MTP)\n\nTileRT also supports Multi-Token Prediction (MTP), which allows the model to generate multiple tokens per forward pass and reduces sequential decoding depth.\n\nTo better illustrate MTP behavior, we use a longer prompt that encourages extended generation:\n\n```python\nfrom tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator\n\ngenerator: ShowHandsGenerator = ShowHandsGenerator(\n    max_new_tokens=1000,\n    model_weights_dir=MODEL_WEIGHTS_DIR,\n    with_mtp=True,  # Enable MTP\n)\ngenerator.from_pretrained()\nprompt = \"Tell me 10 jokes, keep them all under 100 words.\"\n\nprint(\"Prompt:\", prompt)\nprint(\"Completion:\")\ncompletion = generator.generate(prompt)\n```\n\nWhen MTP is enabled, TileRT may report statistics similar to the following during generation:\n\n```text\nAccepted length: mean=2.77, min=1, max=4\n```\n\nThis indicates that, on average, multiple tokens are accepted per decoding step under MTP.\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Sample output (click to expand)\u003C\u002Fb>\u003C\u002Fsummary>\n\n```text\nOf course! Here are 10 short jokes for you.\n\n1. I told my wife she was drawing her eyebrows too high. She looked surprised.\n\n2. I invented a new word: Plagiarism.\n\n3. Why don't scientists trust atoms? Because they make up everything.\n\n4. I'm reading a book on anti-gravity. It's impossible to put down.\n\n5. What's the best thing about Switzerland? I don't know, but the flag is a big plus.\n\n6. I told my computer I needed a break, and now it won't stop sending me vacation ads.\n\n7. Why did the scarecrow win an award? He was outstanding in his field.\n\n8. What do you call a fake noodle? An impasta.\n\n9. I told my suitcase there's no vacation, and now it has a lot of baggage.\n\n10. Why don't skeletons fight each other? They don't have the guts.\n```\n\n\u003C\u002Fdetails>\n\nThis example highlights how MTP enables TileRT to efficiently generate longer outputs by accepting multiple tokens per decoding step, while preserving the same Python API interface.\n\nFor more details, please refer to the [generation script](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Fblob\u002Fmain\u002Fpython\u002Fgenerate.py).\n\n## Status & Future Work\n\nTileRT is currently offered as a preview release, and we’re just getting started.\nWe are continuously improving the installation experience and enhancing end-to-end performance. Future releases will keep pushing the boundaries of low-latency generation.\n\nThank you for your interest and support — stay tuned, even faster token generation is on the way!\n","\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_readme_95b41b640d14.png\" width=\"120\"\u002F>\n  \u003Ch1>TileRT：基于分块的超低延迟大模型推理运行时\u003C\u002Fh1>\n  \u003Cp>\n    \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Ftilert\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyPI-tilert-1E90FF\" alt=\"PyPI版本\" height=\"20\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTile-AI\u002FDeepSeek-V3.2-Exp-TileRT\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-1E90FF\">\u003C\u002Fa>\n  \u003C\u002Fp>\n  \u003Cp>\n    \u003Ca href=\"#overview\">\u003Cb>概述\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#running-the-generation-example\">\u003Cb>生成\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#running-the-generation-example-with-multi-token-prediction-mtp\">\u003Cb>MTP生成\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#installation\">\u003Cb>安装\u003C\u002Fb>\u003C\u002Fa> ·\n    \u003Ca href=\"#news\">\u003Cb>新闻\u003C\u002Fb>\u003C\u002Fa>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n______________________________________________________________________\n\n\u003Ca id=\"news\">\u003C\u002Fa>\n\n## 📰 新闻\n\n- :fire: **2026-02-14 · [试用在线演示](https:\u002F\u002Fwww.tilert.ai\u002F)**。我们的在线演示现已上线！体验使用 **GLM-5** 和 **DeepSeek-V3.2** 的超低延迟推理。[立即试用 !](https:\u002F\u002Fwww.tilert.ai)\n\n- 🎉 **2026-02-14 · [v0.1.3](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.3) 发布**。v0.1.3 版本新增对最新 GLM-5 模型的支持，在 GLM-5-FP8 上可达到每秒 500 个 token，在 DeepSeek-V3.2 上则可达每秒 600 个 token。\n\n- 🚀 **2026-01-26 · [v0.1.2-alpha.1](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.2-alpha.1)**。TileRT 现已支持多 token 预测（MTP）！在 mtp=3 的设置下，我们在合成负载测试中实现了高达 **590 tokens\u002Fs** 的解码速率。\n\n\u003Cdetails>\n  \u003Csummary>重要里程碑\u003C\u002Fsummary>\n\n- ⚡ **2025-12-23 · [v0.1.1](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.1)**。在单节点上使用 **8× NVIDIA B200** 显卡的情况下，端到端 token 生成延迟进一步降低了约 **35%**（相比基准提升了 3 到 4 倍）。\n\n- 🚀 **2025-11-20 · [v0.1.0-alpha.1](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Freleases\u002Ftag\u002Fv0.1.0-alpha.1)**。首次公开发布针对 **DeepSeek-V3.2-Exp** 的版本，专注于 **超低延迟** 推理。可在 [PyPI](https:\u002F\u002Fpypi.org\u002Fproject\u002Ftilert) 和 [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FTile-AI\u002FDeepSeek-V3.2-Exp-TileRT) 上获取。\n\n\u003C\u002Fdetails>\n\n______________________________________________________________________\n\n\u003Ca id=\"overview\">\u003C\u002Fa>\n\n**TileRT** 是一个专为超低延迟场景设计的大语言模型（LLM）服务项目。其目标是在不牺牲模型规模和质量的前提下，突破 LLM 的延迟极限——使拥有数千亿参数的模型也能实现毫秒级的每输出 token 时间（TPOT）。\n\n在我们最新的 **v0.1.3** 版本中，我们针对最新的 [**GLM-5**](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5-FP8) 模型测试了 **TileRT** 的性能，证明了该方法在实际应用中的有效性。我们是首批支持这一最新模型的团队之一，验证了我们所开发技术的强大之处。\n\n我们使用 [**GLM-5**](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5-FP8) 模型（未采用量化或蒸馏等有损优化手段），在 8 张 NVIDIA B200 GPU 上以批大小为 1 的方式进行评估，以测试 TileRT 的初步性能。如下文的基准测试所示，TileRT 相较于现有的推理系统表现出显著的提升。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_readme_ee57c8e1a927.png\" alt=\"TileRT基准测试\" width=\"800\">\u003Cbr>\n图 1. 评估设置。批大小：1；输入序列长度：1K、16K、32K、64K、128K、150K、192K；输出序列长度：1K；使用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\u002Fblob\u002Fmain\u002Ftensorrt_llm\u002Fbench\u002Fdataset\u002Fprepare_synthetic_data.py\">合成数据\u003C\u002Fa>进行基准测试。SGLang v0.5.9.dev0 使用 MTP=3；vLLM v0.16.0rc2.dev173 使用 MTP=1（vLLM 在 MTP=3 时失败，因此我们按照 \u003Ca href=\"https:\u002F\u002Fdocs.vllm.ai\u002Fprojects\u002Frecipes\u002Fen\u002Flatest\u002FGLM\u002FGLM5.html\">vLLM-GPT5-recipe\u003C\u002Fa> 将其设置为 MTP=1）；TileRT v0.1.3 使用 MTP=3。\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_readme_bd7275f380e6.png\" alt=\"TileRT基准测试\" width=\"800\">\u003Cbr>\n图 2. 评估设置。批大小：1；输入序列长度：1K、16K、32K、64K、128K、150K、192K；输出序列长度：1K；使用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\u002Fblob\u002Fmain\u002Ftensorrt_llm\u002Fbench\u002Fdataset\u002Fprepare_synthetic_data.py\">合成数据\u003C\u002Fa>进行基准测试。SGLang v0.5.9.dev0；vLLM v0.16.0rc2.dev173；TileRT v0.1.3。\n\u003C\u002Fp>\n\n与传统为高吞吐量批量处理而优化的推理系统不同，TileRT 更加注重 **响应速度**，这对于高频交易、交互式 AI、实时决策、长时间运行的智能体以及 AI 辅助编程等应用场景至关重要——在这些场景中，单个请求的延迟最为关键。\n\n为此，TileRT 引入了 **分块级运行时引擎**。通过编译器驱动的方法，LLM 操作被分解为细粒度的分块级任务，而运行时则会动态地重新调度计算、I\u002FO 和通信操作，在多个设备之间高度重叠地执行。这种设计最大限度地减少了空闲时间，提高了硬件利用率。\n\n该项目仍在积极发展中，相关的编译器技术将随着它们逐步集成到 **TileLang** 和 **TileScale** 中，陆续向社区开放分享。\n\n______________________________________________________________________\n\n## 安装\n\n- [先决条件](#prerequisites)\n- [Python 包安装](#python-package-installation)\n\n### 先决条件\n\n在安装 TileRT 之前，请确保您的环境满足以下要求：\n\n**硬件要求**\n\n- 8 张 NVIDIA B200 GPU\n\n**操作系统**\n\n- Linux x86_64（推荐 Ubuntu 20.04 或更高版本）\n\n**Python 版本**\n\n- Python 3.11 – 3.12\n  *(该 wheel 包是基于这些版本构建并测试的。)*\n\n**PyTorch 构建**\n\n- 为 CUDA 12.8 或 12.9 编译的 PyTorch wheels\n  *(必须与 B200 GPU 所需的 CUDA 驱动程序\u002F运行时版本匹配。)*\n\n### Python 包安装\n\n> \\[!IMPORTANT\\]\n> **免责声明**：TileRT 是一个实验性项目。目前预构建的包仅支持 8 张 B200 GPU 的配置。为了获得最可靠的体验，我们强烈建议您在提供的 Docker 镜像中安装该包。\n\n推荐的安装方式是使用预先配置好的 Docker 镜像，其中包含了所有必要的依赖项。\n\n**步骤 1：拉取 Docker 镜像**\n\n```bash\ndocker pull tileai\u002Ftilert:v0.1.0\n```\n\n**步骤 2：启动 Docker 容器**\n\n```bash\nIMAGE_NAME=\"tileai\u002Ftilert:v0.1.0\"\nWORKSPACE_PATH=\"\u002Fpath\u002Fto\u002Fyour\u002Fworkspace\"  # 替换为您实际的工作空间路径\n\ndocker run --gpus all -it \\\n    -v $WORKSPACE_PATH:\u002Fworkspace\u002F \\\n    $IMAGE_NAME\n```\n\n**步骤 3：安装 TileRT 包**\n\n进入容器后，使用 pip 安装 TileRT：\n\n```bash\npip install tilert\n```\n\n现在您已经可以使用 TileRT 了！请前往 [入门指南](#getting-started) 下载模型权重并运行您的第一次推理。\n\n## 入门指南\n\n### 第 1 步：下载官方模型权重\n\n自 v0.1.3 版本起，TileRT 不再需要从 Hugging Face 下载预先转换好的权重。相反，您可以直接从模型的源（例如 Hugging Face）下载官方模型权重，然后使用最新 TileRT 发行版中包含的权重转换脚本对其进行转换。\n\n### 第 2 步：使用 `weight_converter.py` 转换权重\n\n下载官方模型权重后，您可以使用以下命令将其转换为与 TileRT 兼容的格式：\n\n对于 **DeepSeek-V3.2**，运行：\n\n```bash\npython -m tilert.models.preprocess.weight_converter \\\n  --model_type deepseek-v32 \\\n  --model_dir \"\u002Fpath\u002Fto\u002FDeepSeek-V3.2\" \\\n  --save_dir \"\u002Fpath\u002Fto\u002FDeepSeek-V3.2-TileRT\"\n```\n\n请将 `\u002Fpath\u002Fto\u002FDeepSeek-V3.2` 替换为您下载模型权重的目录，并将 `\u002Fpath\u002Fto\u002FDeepSeek-V3.2-TileRT` 替换为您希望保存转换后权重的目录。\n\n同样，对于 **GLM-5**，运行：\n\n```bash\npython -m tilert.models.preprocess.weight_converter \\\n  --model_type glm-5 \\\n  --model_dir \"\u002Fpath\u002Fto\u002FGLM-5-FP8\" \\\n  --save_dir \"\u002Fpath\u002Fto\u002FGLM-5-FP8-TileRT\"\n```\n\n请将 `\u002Fpath\u002Fto\u002FGLM-5-FP8` 替换为包含已下载 GLM-5 模型权重的目录，将 `\u002Fpath\u002Fto\u002FGLM-5-FP8-TileRT` 替换为保存转换后权重的目标位置。\n\n### 第 3 步：设置转换后的权重目录\n\n权重转换完成后，请设置环境变量，使 TileRT 指向包含转换后权重的目录：\n\n```bash\nexport MODEL_WEIGHTS_DIR= ... # 转换后的权重\n```\n\n现在您就可以使用 TileRT 和转换后的权重了！\n\n### 运行生成示例\n\n下载模型权重后，您可以在 Docker 环境中按如下方式运行生成示例：\n\n```bash\nMODEL_WEIGHTS_DIR=\"\u002Fpath\u002Fto\u002Ftilert_weights\"\n\ndocker run --gpus all -it \\\n    -v $WORKSPACE_PATH:\u002Fworkspace\u002F \\\n    -v $MODEL_WEIGHTS_DIR:$MODEL_WEIGHTS_MOUNT \\\n    tilert:v0.1.0\n```\n\n进入容器后，运行以下 Python 脚本以执行文本生成：\n\n```python\nfrom tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator\n\ngenerator: ShowHandsGenerator = ShowHandsGenerator(\n    max_new_tokens=1000,\n    model_weights_dir=MODEL_WEIGHTS_DIR,\n    with_mtp=False,  \u002F\u002F 禁用 MTP\n)\ngenerator.from_pretrained()\n\nprompt = (\n    \"给我讲三个笑话：\\n\\n\"\n    \"1. 一个爸爸式的冷笑话，\\n\"\n    \"2. 一个程序员笑话，\\n\"\n    \"3. 一个只有尝试过训练大型语言模型的人才懂的笑话。\\n\"\n    \"每个笑话不超过15个字。\"\n)\n\nprint(\"提示词：\", prompt)\nprint(\"完成内容：\")\ncompletion = generator.generate(prompt)\n```\n\n例如，TileRT 可能会生成：\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>示例输出（点击展开）\u003C\u002Fb>\u003C\u002Fsummary>\n\n```text\n1. 我担心日历。它的日子不多了。\n2. 只有10种人：懂二进制的和不懂二进制的。\n3. 我的模型损失很低，但回答仍然是一堆胡话。这是过拟合。\n```\n\n\u003C\u002Fdetails>\n\n此示例展示了使用预编译模型进行基本单步自回归生成的过程。\n\n### 使用多标记预测 (MTP) 运行生成示例\n\nTileRT 还支持多标记预测 (MTP)，该功能允许模型在每次前向传播中生成多个标记，从而减少序列解码的深度。\n\n为了更好地说明 MTP 的行为，我们使用一个更长的提示词来鼓励生成更长的内容：\n\n```python\nfrom tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator\n\ngenerator: ShowHandsGenerator = ShowHandsGenerator(\n    max_new_tokens=1000,\n    model_weights_dir=MODEL_WEIGHTS_DIR,\n    with_mtp=True,  \u002F\u002F 启用 MTP\n)\ngenerator.from_pretrained()\nprompt = \"给我讲10个笑话，每个笑话不超过100个字。\"\n\nprint(\"提示词：\", prompt)\nprint(\"完成内容：\")\ncompletion = generator.generate(prompt)\n```\n\n启用 MTP 后，TileRT 在生成过程中可能会报告类似如下的统计信息：\n\n```text\n接受长度：平均值=2.77，最小值=1，最大值=4\n```\n\n这表明在 MTP 下，平均每次解码步骤都会接受多个标记。\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>示例输出（点击展开）\u003C\u002Fb>\u003C\u002Fsummary>\n\n```text\n当然！这里给你准备了10个小笑话。\n\n1. 我跟我老婆说她画眉毛画得太高了。她一脸惊讶。\n\n2. 我发明了一个新词：抄袭。\n\n3. 为什么科学家不信任原子？因为它们构成了所有东西。\n\n4. 我正在读一本关于反重力的书。简直让人欲罢不能。\n\n5. 你最喜欢瑞士的什么？我也不知道，不过那面国旗确实很加分。\n\n6. 我跟电脑说我想休息一下，结果它现在不停地给我推送度假广告。\n\n7. 为什么稻草人能获奖？因为他在这个领域太出色了。\n\n8. 假面条叫什么？假意面。\n\n9. 我跟行李箱说我没打算去度假，结果它现在背负着太多“包袱”。\n\n10. 为什么骷髅之间不会打架？因为他们没有勇气。\n```\n\n\u003C\u002Fdetails>\n\n此示例突出了 MTP 如何通过在每次解码步骤中接受多个标记，高效地生成更长的输出，同时保持相同的 Python API 接口。\n\n更多详细信息，请参阅 [生成脚本](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002FTileRT\u002Fblob\u002Fmain\u002Fpython\u002Fgenerate.py)。\n\n## 当前状态与未来工作\n\nTileRT 目前仍处于预览发布阶段，我们才刚刚起步。\n我们将不断改进安装体验，并持续提升端到端性能。未来的版本将继续突破低延迟生成的极限。\n\n感谢您的关注与支持——敬请期待，更快的标记生成即将到来！","# TileRT 快速上手指南\n\nTileRT 是一个专为超低延迟大语言模型（LLM）推理设计的运行时引擎。它通过细粒度的任务分解和动态调度，在单节点多卡环境下实现毫秒级的单令牌生成时间（TPOT），特别适用于高频交易、实时交互智能体等对延迟敏感的场景。\n\n## 环境准备\n\n在开始之前，请确保您的硬件和软件环境满足以下严格要求：\n\n### 硬件要求\n*   **GPU**: 8× NVIDIA B200 GPU（当前预构建包仅支持此配置）\n\n### 软件要求\n*   **操作系统**: Linux x86_64 (推荐 Ubuntu 20.04 或更高版本)\n*   **Python 版本**: 3.11 – 3.12\n*   **PyTorch**: 需编译为 CUDA 12.8 或 12.9 版本（必须与 B200 GPU 驱动的 CUDA 版本匹配）\n\n> **注意**：由于依赖环境复杂，强烈建议使用官方提供的 Docker 镜像进行部署，以获得最稳定的体验。\n\n## 安装步骤\n\n推荐使用 Docker 容器化部署，步骤如下：\n\n### 1. 拉取 Docker 镜像\n```bash\ndocker pull tileai\u002Ftilert:v0.1.0\n```\n\n### 2. 启动容器\n将本地工作目录挂载到容器中：\n```bash\nIMAGE_NAME=\"tileai\u002Ftilert:v0.1.0\"\nWORKSPACE_PATH=\"\u002Fpath\u002Fto\u002Fyour\u002Fworkspace\"  # 请替换为您的实际工作目录路径\n\ndocker run --gpus all -it \\\n    -v $WORKSPACE_PATH:\u002Fworkspace\u002F \\\n    $IMAGE_NAME\n```\n\n### 3. 安装 Python 包\n进入容器后，使用 pip 安装 TileRT：\n```bash\npip install tilert\n```\n\n## 基本使用\n\n### 第一步：下载并转换模型权重\n\n从 v0.1.3 版本开始，您可以直接下载官方模型权重（如 HuggingFace 上的 GLM-5 或 DeepSeek-V3.2），然后使用内置脚本转换为 TileRT 格式。\n\n**转换 DeepSeek-V3.2 模型：**\n```bash\npython -m tilert.models.preprocess.weight_converter \\\n  --model_type deepseek-v32 \\\n  --model_dir \"\u002Fpath\u002Fto\u002FDeepSeek-V3.2\" \\\n  --save_dir \"\u002Fpath\u002Fto\u002FDeepSeek-V3.2-TileRT\"\n```\n\n**转换 GLM-5 模型：**\n```bash\npython -m tilert.models.preprocess.weight_converter \\\n  --model_type glm-5 \\\n  --model_dir \"\u002Fpath\u002Fto\u002FGLM-5-FP8\" \\\n  --save_dir \"\u002Fpath\u002Fto\u002FGLM-5-FP8-TileRT\"\n```\n*请将路径替换为您实际的模型下载目录和期望的输出目录。*\n\n### 第二步：设置环境变量\n指定转换后的权重目录：\n```bash\nexport MODEL_WEIGHTS_DIR=\"\u002Fpath\u002Fto\u002FDeepSeek-V3.2-TileRT\" \n# 或 export MODEL_WEIGHTS_DIR=\"\u002Fpath\u002Fto\u002FGLM-5-FP8-TileRT\"\n```\n\n### 第三步：运行推理示例\n\n以下是最基础的文本生成示例（关闭多令牌预测 MTP 模式）：\n\n```python\nfrom tilert.models.deepseek_v3_2.dsa_show_hands import ShowHandsGenerator\n\n# 初始化生成器\ngenerator: ShowHandsGenerator = ShowHandsGenerator(\n    max_new_tokens=1000,\n    model_weights_dir=MODEL_WEIGHTS_DIR,\n    with_mtp=False,  # 设置为 False 禁用 MTP，True 则启用\n)\ngenerator.from_pretrained()\n\n# 定义提示词\nprompt = (\n    \"Tell me three jokes:\\n\\n\"\n    \"1. A dad joke,\\n\"\n    \"2. A programmer joke,\\n\"\n    \"3. A joke that only makes sense if you've ever tried \"\n    \"to train a large language model.\\n\"\n    \"Keep each joke under 15 words.\"\n)\n\nprint(\"Prompt:\", prompt)\nprint(\"Completion:\")\n\n# 执行生成\ncompletion = generator.generate(prompt)\nprint(completion)\n```\n\n**启用多令牌预测 (MTP)：**\n若需获得更高的解码吞吐量，只需将 `with_mtp` 参数设为 `True`：\n```python\ngenerator: ShowHandsGenerator = ShowHandsGenerator(\n    max_new_tokens=1000,\n    model_weights_dir=MODEL_WEIGHTS_DIR,\n    with_mtp=True,  # 启用 MTP\n)\n```","某高频量化交易团队正在构建基于千亿参数大模型（如 GLM-5）的实时新闻情绪分析系统，需要在毫秒级内完成从长文本输入到交易信号生成的全过程。\n\n### 没有 TileRT 时\n- **响应延迟过高**：处理 100K+ 长度的财经新闻流时，首字生成延迟（TTFT）往往超过数百毫秒，导致交易信号滞后于市场波动。\n- **长上下文瓶颈**：传统推理框架在处理超长上下文时显存占用激增，迫使团队不得不截断关键历史数据或降低模型精度，影响判断准确率。\n- **吞吐量受限**：即便使用多卡集群，单批次推理速度也难以突破 100 tokens\u002Fs，无法支撑突发新闻洪峰下的并发需求。\n- **多令牌预测缺失**：缺乏高效的多令牌预测（MTP）支持，只能逐个生成 token，进一步拉长了端到端的决策链条。\n\n### 使用 TileRT 后\n- **极致低延迟**：依托 TileRT 的分块运行时架构，在 8×NVIDIA B200 环境下将 GLM-5 的生成延迟压缩至毫秒级，实现真正的实时反应。\n- **无损长文处理**：无需量化或蒸馏即可原生支持 192K 上下文窗口，完整保留历史行情与新闻关联，确保模型推理质量不打折。\n- **爆发式提速**：开启 MTP=3 模式后，解码速率飙升至 600 tokens\u002Fs 以上，轻松应对高并发资讯流，系统吞吐量提升数倍。\n- **资源效率优化**：在单节点上即可达成以往需大规模集群才能实现的性能指标，显著降低了硬件部署成本与维护复杂度。\n\nTileRT 通过突破性的分块推理技术，让千亿参数大模型在金融等对延迟极度敏感的场景中真正具备了落地实战能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ftile-ai_TileRT_ee57c8e1.png","tile-ai","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ftile-ai_5c697cf5.png","Enabling Lightning-Fast AI Workloads Development via Tiling",null,"tile-ai@outlook.com","https:\u002F\u002Fgithub.com\u002Ftile-ai",[79,83,87],{"name":80,"color":81,"percentage":82},"Python","#3572A5",98.9,{"name":84,"color":85,"percentage":86},"Shell","#89e051",0.7,{"name":88,"color":89,"percentage":90},"Dockerfile","#384d54",0.4,705,42,"2026-04-13T16:34:11","MIT",4,"Linux","必需，8× NVIDIA B200 GPUs，需匹配 CUDA 12.8 或 12.9","未说明",{"notes":100,"python":101,"dependencies":102},"这是一个实验性项目，当前预构建包仅支持 8 卡 B200 配置。强烈建议在提供的 Docker 镜像中安装以获得最可靠的体验。支持 DeepSeek-V3.2 和 GLM-5 模型，需使用内置脚本将官方权重转换为 TileRT 格式后方可使用。","3.11 – 3.12",[103,104],"torch (CUDA 12.8\u002F12.9)","tilert",[35,14],"2026-03-27T02:49:30.150509","2026-04-16T15:50:28.799686",[],[110,115,120,125,130],{"id":111,"version":112,"summary_zh":113,"released_at":114},288872,"v0.1.3","# 🚀 TileRT v0.1.3 – GLM-5 上线。两款前沿模型，一个超低延迟推理运行时。\n\n我们非常高兴地宣布 **TileRT v0.1.3** 的重磅发布：该版本为 TileRT 带来了对 **GLM-5（https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5-FP8）** 的全面支持，并同时兼容 **DeepSeek-V3.2（https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FDeepSeek-V3.2）**，使 TileRT 成为一款支持多模型的超低延迟推理运行时。\n\n借助此次更新，GLM-5 在 8 张 NVIDIA B200 GPU 上实现了与 DeepSeek-V3.2 同级别的超低延迟性能。现在，这两款模型均可享受 **多标记预测（MTP）**、**Top-P 采样** 以及 **更长的上下文长度** 等功能——所有这些都可通过相同的 Python API 调用。无需我们多说，请亲自体验吧：\n\n## 🌐 立即试用 — 在线演示\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fwww.tilert.ai\">\u003Cb>👉 https:\u002F\u002Fwww.tilert.ai\u003C\u002Fb>\u003C\u002Fa>\n\u003C\u002Fp>\n\n## ✨ 核心亮点\n\n本次发布新增了对 GLM-5 的原生支持，推出了公开在线演示，并引入了全新的采样与生成能力。\n\n### 🧠 GLM-5 模型支持\n\nTileRT 现已提供对 GLM-5 的 **端到端完整推理支持**，将又一款前沿级模型纳入运行时体系。\n\n具体包括：\n- 多标记预测（MTP），用于加速解码\n- **思考模式**，适用于长序列推理任务\n- 最高可达 **20 万 token 的上下文长度**\n- 每次请求动态控制采样参数\n\n> GLM-5 已完全集成到 TileRT 统一的 Python API 中，与 DeepSeek-V3.2 共享同一套接口和工作流程。\n\n### 🎯 Top-P（核采样）采样\n\n除了现有的 Top-K 策略外，TileRT 现在还支持针对 DeepSeek-V3.2 和 GLM-5 的 **Top-P 采样**。\n\n> Top-P 采样可通过标准的生成 API 调用实现，无需额外配置。\n\n### 📏 更长的上下文长度\n\n两款受支持的模型如今都能处理更长的序列：\n- **DeepSeek-V3.2**：最高可达 **16 万 token**\n- **GLM-5**：最高可达 **20 万 token**\n\n> 更长的上下文支持对用户透明，并默认启用。\n\n### 🔧 统一的 Python 接口与权重转换\n\nPython 前端现已重构为 **统一的、与模型无关的接口**，所有受支持的模型均采用一致的工作流程。\n\n- **直接兼容 Hugging Face** — 可从 Hugging Face 加载并转换官方模型权重，无需手动预处理\n- 清晰、与模型无关的抽象设计，旨在简化未来架构的接入流程\n\n> 用户现在只需一步，即可将 Hugging Face 上的模型检查点直接用于 TileRT 推理。\n\n## 🔮 未来展望\n\nTileRT 正在快速发展。接下来的重点方向包括：\n- 在两款模型上进一步优化 MTP 和解码吞吐量\n- 扩展 PD 分离技术，以支持生产级部署\n- 针对新 GPU 特性的内核级性能调优\n\n## 🤝 加入社区\n\nTileRT 采用开源开发模式，用户的反馈在塑造其未来发展过程中发挥着关键作用 ❤️\n\n如果您在","2026-02-14T11:59:14",{"id":116,"version":117,"summary_zh":118,"released_at":119},288873,"v0.1.3.post1","热修复：重新构建了 wheel 包，降低了对 GLIBC 的版本要求，以修复在较旧系统上出现的 `GLIBC_2.32 未找到` 加载错误。","2026-02-27T06:13:48",{"id":121,"version":122,"summary_zh":123,"released_at":124},288874,"v0.1.2-alpha.1","# 🚀 TileRT v0.1.2-alpha.1 – 多令牌预测功能现已上线。更快速的推理从此开始。\n\n我们很高兴地推出 **TileRT v0.1.2-alpha.1**，这是一个 Alpha 版本，标志着 TileRT 在自回归推理中通过降低序列解码深度，迈出了实现 **多令牌预测（MTP）** 的第一步。\n\n本次发布新增了对 **MTP** 的初步支持，使得每次前向传播可以生成多个令牌。在设置为 **mtp=3** 时，我们在合成工作负载上观察到的解码速率高达 **590 tokens\u002Fs**，而在实际生成任务中则约为 **440 tokens\u002Fs**。这些结果为我们继续探索和优化 MTP 提供了早期参考基准。\n\n## ✨ 主要亮点\n\n本次发布重点在于扩展 TileRT 的推理能力、提升可扩展性，并为进一步的性能优化奠定坚实基础。\n\n### 🧠 多令牌预测（MTP）\n\nTileRT 现已提供 **端到端的多令牌预测（MTP）支持**，允许每次前向传播生成多个令牌。\n\n具体包括：\n- DSA MTP 模型集成\n- 端到端执行流程\n- 权重转换工具链\n\n> 这些组件共同构成了一个完整且实用的基础，使用户能够通过 TileRT 的 Python API 实验和评估多令牌生成工作流。\n\n### ⚡ 性能、可扩展性和执行改进\n\n本次发布包含广泛的内部改进，旨在提升可扩展性和推理执行效率：\n\n- 在关键的推理路径上扩展了对 **批处理执行** 的支持，涵盖注意力机制、投影层、归一化层以及 MoE 相关算子。\n- 继续进行内部优化，聚焦于 **计算效率**、**算子融合** 和 **减少令牌生成过程中的开销**。\n\n> 这些增强功能通过预编译的二进制文件和 Python API 提供，无需用户修改代码。\n\n### 🏗️ 架构与可维护性\n\n为了支持更快的迭代和长期演进，TileRT 的内部架构得到了进一步优化：\n\n- 通过一致的参数抽象统一了算子输入。\n- 通过编译时的批量和序列长度特化简化了算子接口。\n\n> 这些改动不仅提升了当前的可维护性，也为未来功能的扩展做好了准备。\n\n## 🔮 未来计划\n\nTileRT 正在快速发展，此次 Alpha 版本为接下来的工作奠定了基础，包括：\n\n- **进一步优化 MTP 功能**。\n- **改进权重转换流程**，以支持更灵活的优化策略。\n- **持续优化推理流水线的延迟**。\n\n## 🤝 加入社区\n\nTileRT 是开源项目，用户的反馈对其发展至关重要 ❤️  \n\n如果您对以下内容感兴趣：\n- 多令牌生成\n- 高性能推理运行时\n- 面向生产的推理优化\n\n欢迎试用此 Alpha 版本，分享您的使用体验，并参与讨论。\n\n- ⭐ 请给仓库点个 Star 吧！","2026-01-26T06:06:34",{"id":126,"version":127,"summary_zh":128,"released_at":129},288875,"v0.1.1","# 🚀 TileRT v0.1.1 – 超低延迟的令牌生成\n\nTileRT v0.1.1 带来了 **令牌生成性能的显著提升**，与上一版本相比，延迟降低了 35%。  \n\n这一改进得益于对核心算子的优化以及片级运行时引擎的增强。主要更新包括更快的 **GEMV** 核心、在多个核函数中扩展了对 **FP8\u002FBF16** 的支持，以及改进的运行时调度和内存行为。\n\n## ✨ 亮点\n\n- **性能提升**：令牌生成速度显著加快，延迟降低约 35%。具体数据请参阅我们的最新速度测试。\n- **算子与精度优化**：更快的 **GEMV**、**RMSNorm** 和基于 **MMA** 的算子，并扩展了对 **FP8\u002FBF16** 的支持。\n- **运行时增强**：改进了片级调度、预取、内存对齐以及多设备任务处理。\n- **稳定性修复**：解决了影响运行时稳定性和内存行为的问题。\n\n## 🔧 变更内容\n\n### 🚀 性能与算子\n- 优化了 **GEMV** 和 **RMSNorm** 算子，以提升性能。\n- 在多个核函数中扩展了对 **FP8\u002FBF16** 的支持。\n- 提升了专家选择的性能。\n\n### ⚙️ 运行时与核执行\n- 增强了片级运行时引擎，以实现更好的调度、预取和内存管理。\n- 修复了共享内存对齐问题及算子间的依赖关系。\n\n## 🔮 未来展望\n\nTileRT 目前正处于积极开发中。下一版本及后续工作将重点关注：\n\n- 在令牌生成方面进一步 **降低延迟**。\n- 引入新功能，包括 **MTP 支持**。\n- 开放 **权重转换器**，以实现解耦布局和更灵活的核优化。\n\n随着持续的重构以及对算子和运行时引擎的不断优化，我们诚邀社区关注我们的进展、试用新功能并提供反馈，共同推动 TileRT 的未来发展。","2025-12-23T13:06:04",{"id":131,"version":132,"summary_zh":133,"released_at":134},288876,"v0.1.0-alpha.1","\u003Cdiv align=\"center\">\r\n  \u003Ch1>TileRT：突破低延迟大模型推理的极限\u003C\u002Fh1>\r\n  \u003Cp>\r\n    \u003Ca href=\"https:\u002F\u002Fpypi.org\u002Fproject\u002Ftilert\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyPI-tilert-1E90FF\" alt=\"PyPI版本\" height=\"20\">\u003C\u002Fa>\r\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FTile-AI\u002FDeepSeek-V3.2-Exp-TileRT\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20HuggingFace-1E90FF\">\u003C\u002Fa>\r\n  \u003C\u002Fp>\r\n\u003C\u002Fdiv>\r\n\r\n我们很高兴地宣布 TileRT 的首个预览版（v0.1.0-alpha.1）正式发布。这一初始探索版本引入了一个实验性的运行时框架，旨在研究面向超低延迟大模型推理的分块级编译技术。它为评估 TileRT 在保持与大规模模型兼容性的同时降低端到端延迟的潜力提供了一个起点，并为未来与 [TileLang](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002Ftilelang) 和 [TileScale](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002Ftilescale) 的集成奠定了基础。\n\n# 🚀 概述\n\nTileRT 项目的目标是在不牺牲模型规模和质量的前提下，进一步突破大模型推理的延迟瓶颈——例如，使拥有数千亿参数的模型也能以毫秒级的 TPOT 运行。TileRT 通过全新的分块级运行时引擎来应对这些挑战。该引擎采用编译驱动的方法，将大模型中的算子分解为细粒度的分块级任务，并借助分块级运行时，在多个设备之间以高度重叠的方式重新调度计算、I\u002FO 和通信操作。这种方法能够最大限度地减少空闲时间，提升硬件利用率。这些编译技术将被整合到 [TileLang](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002Ftilelang) 和 [TileScale](https:\u002F\u002Fgithub.com\u002Ftile-ai\u002Ftilescale) 中。\n\n我们使用 DeepSeek-V3.2-Exp 模型（未采用量化或蒸馏等有损优化技术），在 8 张 NVIDIA B200 GPU 上以批大小为 1 的配置对 TileRT 的初步性能进行了评估。如下所示的基准测试结果表明，TileRT 显著优于现有的推理系统：\n\n\u003Cp align=\"center\">\r\n\u003Cimg src=\"https:\u002F\u002Fraw.githubusercontent.com\u002Ftile-ai\u002Ftilert\u002Fmain\u002Fassets\u002Fperf.png\" alt=\"TileRT 基准测试\" width=\"400\">\u003Cbr>\r\n图：评估设置：输入序列长度\u002F输出序列长度：1K\u002F1K，SGLang-0.5.5，vLLM-0.11.0，CUDA-12.9\r\n\u003C\u002Fp>\r\n\r\nTileRT 是一个持续演进的项目。我们接下来的计划包括开展更激进的优化、支持多种批大小、更多模型家族以及更多硬件平台，并为低延迟 AI 推理建立新的基础。敬请关注后续更新！\n\n## 安装说明\n\n在安装 TileRT 的 wheel 包之前，请确保您的环境满足以下要求：\n\n### 支持的环境\n\n该 wheel 包已在以下条件下构建并经过测试：\n\n- **硬件：** 8 张 NVIDIA B200 GPU\n- **操作系统：** Linux x86_64（推荐 Ubuntu 20.04 及以上版本）\n- **Python 版本：** 3.11 – 3.12\n- **CUDA 版本：** 12.9\n- **CUDA 驱动程序：** 与 B200 运行时环境兼容\n- **PyTorch 构建：**","2025-11-22T09:09:40"]