[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-NVIDIA--TileGym":3,"tool-NVIDIA--TileGym":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":100,"env_os":101,"env_gpu":102,"env_ram":101,"env_deps":103,"category_tags":112,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":113,"updated_at":114,"faqs":115,"releases":141},7958,"NVIDIA\u002FTileGym","TileGym","Helpful kernel tutorials and examples for tile-based GPU programming","TileGym 是一个专为基于 Tile（图块）架构的 GPU 编程打造的 CUDA 内核库与学习平台。它旨在解决开发者在利用新一代 GPU 特性时面临的学习曲线陡峭及高效内核编写困难的问题，通过提供丰富的教程和实战示例，帮助用户快速掌握如何构建高性能 GPU 内核，并将其无缝集成到 Llama 3.1、DeepSeek V2 等主流大语言模型中。\n\n该工具特别适合 GPU 系统工程师、深度学习研究人员以及希望优化大模型推理性能的开发者使用。其核心亮点在于紧密围绕 NVIDIA 最新的 Blackwell 架构（如 B200、RTX 5090）和 CUDA 13.1+ 环境，提供了从基础算子实现到端到端模型集成的完整路径。TileGym 不仅包含大量实用的深度学习算子代码，还内置了性能基准测试功能，让用户能直观评估内核效率。此外，它依托 `cuda-tile` 生态，支持自动调优等实验性特性，是探索下一代 GPU 编程范式、提升大模型运行效率的理想“演练场”。","\u003C!--- SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved. --->\n\n\u003C!--- SPDX-License-Identifier: MIT --->\n\nEnglish | [简体中文](README_chs.md) | [繁體中文](README_cht.md) | [日本語](README_ja.md) | [Français](README_fr.md)\n\n# TileGym\n\nTileGym is a CUDA Tile kernel library that provides a rich collection of kernel tutorials and examples for tile-based GPU programming.\n\n[**Overview**](#overview) |\n[**Features**](#features) |\n[**Installation**](#installation) |\n[**Quick Start**](#quick-start) |\n[**Contributing**](#contributing) |\n[**License**](#license-and-third-party-notices)\n\n## Overview\n\nThis repository aims to provide helpful kernel tutorials and examples for tile-based GPU programming. TileGym is a playground for experimenting with CUDA Tile, where you can learn how to build efficient GPU kernels and explore their integration into real-world large language models such as Llama 3.1 and DeepSeek V2. Whether you're learning tile-based GPU programming or looking to optimize your LLM implementations, TileGym offers practical examples and comprehensive guidance.\n\u003Cimg width=\"95%\" alt=\"tilegym_1_newyear\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA_TileGym_readme_98be4ba8aeb0.png\" \u002F>\n\n## Features\n\n- Rich collection of CUDA Tile kernel examples\n- Practical kernel implementations for common deep learning operators\n- Performance benchmarking to evaluate kernel efficiency\n- End-to-end integration examples with popular LLMs (Llama 3.1, DeepSeek V2)\n\n## Installation\n\n### Prerequisites\n\n> ⚠️ **Important**: TileGym requires **CUDA 13.1+** and **NVIDIA Blackwell architecture GPUs** (e.g., B200, RTX 5080, RTX 5090). We will support other GPU architectures in the future. Download CUDA from [NVIDIA CUDA Downloads](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads).\n\n- PyTorch (version 2.9.1 or compatible)\n- **[CUDA 13.1+](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)** (Required - TileGym is built and tested exclusively on CUDA 13.1+)\n- Triton (included with PyTorch installation)\n\n### Setup Steps\n\n#### 1. Prepare `torch` and `triton` environment\n\nIf you already have `torch` and `triton`, skip this step.\n\n```bash\npip install --pre torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu130\n```\n\nWe have verified that `torch==2.9.1` works. You can also get `triton` packages when installing `torch`.\n\n#### 2. Install TileGym\n\nTileGym uses [`cuda-tile`](https:\u002F\u002Fgithub.com\u002Fnvidia\u002Fcutile-python) for GPU kernel programming, which depends on the `tileiras` compiler at runtime.\n\n##### Install from PyPI (recommended)\n\n```bash\npip install tilegym[tileiras]\n```\n\nThis installs TileGym and all runtime dependencies, including `cuda-tile[tileiras]` which bundles the `tileiras` compiler directly into your Python environment.\n\nIf you already have `tileiras` available on your system (e.g., from [CUDA Toolkit 13.1+](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)), you can omit the extra:\n\n```bash\npip install tilegym\n```\n\n##### Install from source\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym.git\ncd TileGym\npip install .[tileiras]   # or: pip install .  (if you have system tileiras)\n```\n\nFor editable (development) mode, use `pip install -e .` or `pip install -e .[tileiras]`.\n\n##### Install `cuda-tile-experimental`\n\n> ⚠️ **Required**: TileGym kernels use features from [`cuda-tile-experimental`](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python\u002Ftree\u002Fmain\u002Fexperimental) (e.g., the autotuner). This package is *not* available on PyPI and must be installed separately from source:\n>\n> ```bash\n> pip install \"cuda-tile-experimental @ git+https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python.git#subdirectory=experimental\"\n> ```\n>\n> `cuda-tile-experimental` is maintained by the CUDA Tile team as a source-only experimental package. See more details in [experimental-features-optional](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python?tab=readme-ov-file#experimental-features-optional).\n\nAll runtime dependencies (except `cuda-tile-experimental`) are declared in [`requirements.txt`](requirements.txt) and are installed automatically by both `pip install tilegym` and `pip install .`.\n\nWe also provide Dockerfile, you can refer to [modeling\u002Ftransformers\u002FREADME.md](modeling\u002Ftransformers\u002FREADME.md).\n\n## Quick Start\n\nThere are three main ways to use TileGym:\n\n### 1. Explore Kernel Examples\n\nAll kernel implementations are located in the `src\u002Ftilegym\u002Fops\u002F` directory. You can test individual operations with minimal scripts. Function-level usage and minimal scripts for individual ops are documented in [tests\u002Fops\u002FREADME.md](tests\u002Fops\u002FREADME.md)\n\n### 2. Run Benchmarks\n\nEvaluate kernel performance with micro-benchmarks:\n\n```bash\ncd tests\u002Fbenchmark\nbash run_all.sh\n```\n\nComplete benchmark guide available in [tests\u002Fbenchmark\u002FREADME.md](tests\u002Fbenchmark\u002FREADME.md)\n\n### 3. Run LLM Transformer Examples\n\nUse TileGym kernels in end-to-end inference scenarios. We provide runnable scripts and instructions for transformer language models (e.g., Llama 3.1-8B) accelerated using TileGym kernels.\n\nFirst, install the additional dependency:\n\n```bash\npip install accelerate==1.13.0 --no-deps\n```\n\n**Containerized Setup (Docker)**:\n\n```bash\ndocker build -t tilegym-transformers -f modeling\u002Ftransformers\u002FDockerfile .\ndocker run --gpus all -it tilegym-transformers bash\n```\n\nMore details in [modeling\u002Ftransformers\u002FREADME.md](modeling\u002Ftransformers\u002FREADME.md)\n\n### 4. Julia (cuTile.jl) Kernels (Optional)\n\nTileGym also includes experimental [cuTile.jl](https:\u002F\u002Fgithub.com\u002FJuliaGPU\u002FcuTile.jl) kernel implementations in Julia. These are self-contained in the `julia\u002F` directory and do not require the Python TileGym package.\n\n**Prerequisites**: [Julia 1.12+](https:\u002F\u002Fjulialang.org\u002Fdownloads\u002F), CUDA 13.1, Blackwell GPU\n\n```bash\n# Install Julia (if not already installed)\ncurl -fsSL https:\u002F\u002Finstall.julialang.org | sh\n\n# Install dependencies\njulia --project=julia\u002F -e 'using Pkg; Pkg.instantiate()'\n\n# Run tests\njulia --project=julia\u002F julia\u002Ftest\u002Fruntests.jl\n```\n\nSee `julia\u002FProject.toml` for the full dependency list.\n\n## Contributing\n\nWe welcome contributions of all kinds. Please read our [CONTRIBUTING.md](CONTRIBUTING.md) for guidelines, including the Contributor License Agreement (CLA) process.\n\n## License and third-party notices\n\n- Project license: MIT\n  - [LICENSE](LICENSE)\n- Third-party attributions and license texts:\n  - [LICENSES\u002FATTRIBUTIONS.md](LICENSES\u002FATTRIBUTIONS.md)\n","\u003C!--- SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved. --->\n\n\u003C!--- SPDX-License-Identifier: MIT --->\n\n英语 | [简体中文](README_chs.md) | [繁體中文](README_cht.md) | [日本語](README_ja.md) | [Français](README_fr.md)\n\n# TileGym\n\nTileGym 是一个 CUDA Tile 内核库，为基于 tile 的 GPU 编程提供了丰富的内核教程和示例。\n\n[**概述**](#overview) |\n[**特性**](#features) |\n[**安装**](#installation) |\n[**快速入门**](#quick-start) |\n[**贡献**](#contributing) |\n[**许可证**](#license-and-third-party-notices)\n\n## 概述\n\n本仓库旨在为基于 tile 的 GPU 编程提供有用的内核教程和示例。TileGym 是一个用于实验 CUDA Tile 的平台，在这里你可以学习如何构建高效的 GPU 内核，并探索它们在实际大型语言模型中的集成应用，例如 Llama 3.1 和 DeepSeek V2。无论你是刚开始学习基于 tile 的 GPU 编程，还是希望优化你的 LLM 实现，TileGym 都能为你提供实用的示例和全面的指导。\n\u003Cimg width=\"95%\" alt=\"tilegym_1_newyear\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA_TileGym_readme_98be4ba8aeb0.png\" \u002F>\n\n## 特性\n\n- 丰富的 CUDA Tile 内核示例集合\n- 常见深度学习算子的实用内核实现\n- 性能基准测试以评估内核效率\n- 与流行 LLM（Llama 3.1、DeepSeek V2）的端到端集成示例\n\n## 安装\n\n### 先决条件\n\n> ⚠️ **重要提示**: TileGym 需要 **CUDA 13.1+** 和 **NVIDIA Blackwell 架构的 GPU**（例如 B200、RTX 5080、RTX 5090）。我们未来将支持其他 GPU 架构。请从 [NVIDIA CUDA 下载页面](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)下载 CUDA。\n\n- PyTorch（版本 2.9.1 或兼容版本）\n- **[CUDA 13.1+](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)**（必需 - TileGym 仅在 CUDA 13.1+ 上构建和测试）\n- Triton（随 PyTorch 安装一同提供）\n\n### 设置步骤\n\n#### 1. 准备 `torch` 和 `triton` 环境\n\n如果你已经安装了 `torch` 和 `triton`，可以跳过此步骤。\n\n```bash\npip install --pre torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu130\n```\n\n我们已验证 `torch==2.9.1` 可用。安装 `torch` 时也可以同时获取 `triton` 包。\n\n#### 2. 安装 TileGym\n\nTileGym 使用 [`cuda-tile`](https:\u002F\u002Fgithub.com\u002Fnvidia\u002Fcutile-python) 进行 GPU 内核编程，该库在运行时依赖于 `tileiras` 编译器。\n\n##### 从 PyPI 安装（推荐）\n\n```bash\npip install tilegym[tileiras]\n```\n\n这将安装 TileGym 及其所有运行时依赖项，包括 `cuda-tile[tileiras]`，它会将 `tileiras` 编译器直接打包到你的 Python 环境中。\n\n如果你的系统上已经安装了 `tileiras`（例如通过 [CUDA Toolkit 13.1+](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads)），则可以省略额外的安装：\n\n```bash\npip install tilegym\n```\n\n##### 从源代码安装\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym.git\ncd TileGym\npip install .[tileiras]   # 或：pip install .  （如果你已有系统级 tileiras）\n```\n\n对于可编辑的开发模式，可以使用 `pip install -e .` 或 `pip install -e .[tileiras]`。\n\n##### 安装 `cuda-tile-experimental`\n\n> ⚠️ **必需**: TileGym 内核使用了来自 [`cuda-tile-experimental`](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python\u002Ftree\u002Fmain\u002Fexperimental) 的功能（例如自动调优器）。该包目前未在 PyPI 上发布，必须从源代码单独安装：\n>\n> ```bash\n> pip install \"cuda-tile-experimental @ git+https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python.git#subdirectory=experimental\"\n> ```\n>\n> `cuda-tile-experimental` 由 CUDA Tile 团队维护，是一个仅包含源代码的实验性软件包。更多详情请参阅 [experimental-features-optional](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python?tab=readme-ov-file#experimental-features-optional)。\n\n除 `cuda-tile-experimental` 外，所有运行时依赖项均在 [`requirements.txt`](requirements.txt) 中声明，并由 `pip install tilegym` 和 `pip install .` 自动安装。\n\n我们还提供了 Dockerfile，详细信息请参阅 [modeling\u002Ftransformers\u002FREADME.md](modeling\u002Ftransformers\u002FREADME.md)。\n\n## 快速入门\n\n使用 TileGym 主要有三种方式：\n\n### 1. 浏览内核示例\n\n所有内核实现都位于 `src\u002Ftilegym\u002Fops\u002F` 目录下。你可以使用简单的脚本测试单个操作。针对各个算子的功能级使用方法和最小化脚本已在 [tests\u002Fops\u002FREADME.md](tests\u002Fops\u002FREADME.md) 中记录。\n\n### 2. 运行基准测试\n\n通过微基准测试评估内核性能：\n\n```bash\ncd tests\u002Fbenchmark\nbash run_all.sh\n```\n\n完整的基准测试指南可在 [tests\u002Fbenchmark\u002FREADME.md](tests\u002Fbenchmark\u002FREADME.md) 中找到。\n\n### 3. 运行 LLM 转换器示例\n\n在端到端推理场景中使用 TileGym 内核。我们提供了可运行的脚本和说明，适用于使用 TileGym 内核加速的转换器语言模型（例如 Llama 3.1-8B）。\n\n首先，安装附加依赖项：\n\n```bash\npip install accelerate==1.13.0 --no-deps\n```\n\n**容器化设置（Docker）**：\n\n```bash\ndocker build -t tilegym-transformers -f modeling\u002Ftransformers\u002FDockerfile .\ndocker run --gpus all -it tilegym-transformers bash\n```\n\n更多详情请参阅 [modeling\u002Ftransformers\u002FREADME.md](modeling\u002Ftransformers\u002FREADME.md)。\n\n### 4. Julia（cuTile.jl）内核（可选）\n\nTileGym 还包含基于 Julia 的实验性 [cuTile.jl](https:\u002F\u002Fgithub.com\u002FJuliaGPU\u002FcuTile.jl) 内核实现。这些内核独立存在于 `julia\u002F` 目录中，无需 Python 版 TileGym 包。\n\n**先决条件**: [Julia 1.12+](https:\u002F\u002Fjulialang.org\u002Fdownloads\u002F)、CUDA 13.1、Blackwell GPU\n\n```bash\n# 如果尚未安装 Julia，则进行安装\ncurl -fsSL https:\u002F\u002Finstall.julialang.org | sh\n\n# 安装依赖项\njulia --project=julia\u002F -e 'using Pkg; Pkg.instantiate()'\n\n# 运行测试\njulia --project=julia\u002F julia\u002Ftest\u002Fruntests.jl\n```\n\n完整依赖列表请参阅 `julia\u002FProject.toml`。\n\n## 贡献\n\n我们欢迎各种形式的贡献。请阅读我们的 [CONTRIBUTING.md](CONTRIBUTING.md)，了解相关指南，包括贡献者许可协议（CLA）流程。\n\n## 许可证及第三方声明\n\n- 项目许可证：MIT\n  - [LICENSE](LICENSE)\n- 第三方归属及许可证文本：\n  - [LICENSES\u002FATTRIBUTIONS.md](LICENSES\u002FATTRIBUTIONS.md)","# TileGym 快速上手指南\n\nTileGym 是一个基于 CUDA Tile 的内核库，提供了丰富的教程和示例，旨在帮助开发者学习基于 Tile 的 GPU 编程，并探索其在 Llama 3.1、DeepSeek V2 等大语言模型中的高效集成。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下严格硬件和软件要求：\n\n*   **GPU 架构**：必须使用 **NVIDIA Blackwell 架构** GPU（例如 B200, RTX 5080, RTX 5090）。\n    *   *注意：目前暂不支持其他架构。*\n*   **CUDA 版本**：必须安装 **CUDA 13.1 或更高版本**。\n*   **Python 环境**：\n    *   PyTorch (推荐版本 2.9.1 或兼容版本)\n    *   Triton (通常随 PyTorch 自动安装)\n*   **操作系统**：Linux (推荐)\n\n> **提示**：请从 [NVIDIA 官网](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-downloads) 下载并安装最新的 CUDA Toolkit。\n\n## 安装步骤\n\n### 1. 配置 PyTorch 和 Triton 环境\n\n如果您尚未安装 PyTorch，请使用以下命令安装预发布版本（需匹配 CUDA 13.0\u002F13.1 环境）：\n\n```bash\npip install --pre torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu130\n```\n*验证：确保安装后 `torch.__version__` 为 2.9.1 或兼容版本，且 `triton` 可用。*\n\n### 2. 安装实验性依赖 (必需)\n\nTileGym 的部分内核（如自动调优器）依赖未发布到 PyPI 的 `cuda-tile-experimental` 包，必须从源码单独安装：\n\n```bash\npip install \"cuda-tile-experimental @ git+https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fcutile-python.git#subdirectory=experimental\"\n```\n\n### 3. 安装 TileGym\n\n您可以选择通过 PyPI 安装（推荐）或从源码安装。\n\n**方式 A：通过 PyPI 安装（推荐）**\n此命令会自动安装运行时所需的 `tileiras` 编译器依赖：\n```bash\npip install tilegym[tileiras]\n```\n*如果您系统中已全局安装了 `tileiras` (来自 CUDA Toolkit 13.1+)，可简化为 `pip install tilegym`。*\n\n**方式 B：从源码安装**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym.git\ncd TileGym\npip install .[tileiras]\n```\n*开发模式请使用：`pip install -e .[tileiras]`*\n\n## 基本使用\n\n安装完成后，您可以通过以下三种主要方式使用 TileGym：\n\n### 1. 运行算子示例与测试\n所有内核实现位于 `src\u002Ftilegym\u002Fops\u002F` 目录。您可以参考 `tests\u002Fops\u002FREADME.md` 中的最小化脚本来测试单个算子功能。\n\n### 2. 执行性能基准测试\n使用内置的微基准测试评估内核效率：\n\n```bash\ncd tests\u002Fbenchmark\nbash run_all.sh\n```\n详细指南请参阅 `tests\u002Fbenchmark\u002FREADME.md`。\n\n### 3. 运行大模型 (LLM) 示例\nTileGym 提供了针对 Llama 3.1-8B 等模型的端到端推理加速示例。\n\n首先安装额外依赖：\n```bash\npip install accelerate==1.13.0 --no-deps\n```\n\n**推荐使用 Docker 容器运行（避免环境冲突）：**\n\n```bash\n# 构建镜像\ndocker build -t tilegym-transformers -f modeling\u002Ftransformers\u002FDockerfile .\n\n# 运行容器\ndocker run --gpus all -it tilegym-transformers bash\n```\n\n进入容器后，请参考 `modeling\u002Ftransformers\u002FREADME.md` 执行具体的推理脚本。\n\n---\n*注：TileGym 还包含可选的 Julia (cuTile.jl) 内核实现，位于 `julia\u002F` 目录，需单独配置 Julia 1.12+ 环境。*","某 AI 基础设施团队正在为基于 NVIDIA Blackwell 架构（如 B200）的服务器优化 Llama 3.1 大模型的推理性能，试图通过自定义 CUDA Kernel 突破现有算子瓶颈。\n\n### 没有 TileGym 时\n- **学习曲线陡峭**：开发者面对全新的 CUDA Tile 编程范式缺乏参考，需从零摸索寄存器管理与线程块协作，耗时数周才能写出可运行的 Demo。\n- **算子实现困难**：在手动编写矩阵乘法或注意力机制等核心算子时，极易因内存访问模式不当导致带宽利用率低下，性能甚至不如通用库。\n- **集成验证繁琐**：缺乏现成的端到端示例，将自定义 Kernel 嵌入 Llama 3.1 模型时需反复调试数据布局对齐问题，严重拖慢迭代进度。\n- **性能调优盲目**：缺少内置的性能基准测试工具，难以量化不同分块策略（Tiling Strategy）的实际收益，优化过程全靠猜测。\n\n### 使用 TileGym 后\n- **快速上手实践**：直接复用 TileGym 提供的丰富教程与示例代码，团队在两天内便掌握了 CUDA Tile 核心语法并跑通了首个 Hello World Kernel。\n- **高效算子开发**：参考库中针对深度学习常用算子的最佳实践实现，快速构建出高带宽利用率的核心算子，显著减少内存延迟。\n- **无缝模型集成**：利用官方提供的 Llama 3.1 和 DeepSeek V2 集成案例，迅速完成自定义算子在大模型中的部署与验证，大幅降低对接成本。\n- **科学性能评估**：借助内置的 Benchmark 工具对比不同配置下的执行效率，精准定位性能热点，有的放矢地调整分块大小以榨干 GPU 算力。\n\nTileGym 将原本晦涩难懂的底层 GPU 编程转化为可复用的模块化经验，帮助开发者在 Blackwell 架构上轻松实现大模型推理性能的极致优化。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA_TileGym_00718c13.png","NVIDIA","NVIDIA Corporation","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FNVIDIA_7dcf6000.png","",null,"https:\u002F\u002Fnvidia.com","https:\u002F\u002Fgithub.com\u002FNVIDIA",[80,84,88,92],{"name":81,"color":82,"percentage":83},"Python","#3572A5",94.6,{"name":85,"color":86,"percentage":87},"Julia","#a270ba",3.2,{"name":89,"color":90,"percentage":91},"Shell","#89e051",1.8,{"name":93,"color":94,"percentage":95},"Dockerfile","#384d54",0.4,702,62,"2026-04-14T12:17:48","NOASSERTION",5,"未说明","必需 NVIDIA Blackwell 架构 GPU（如 B200, RTX 5080, RTX 5090），需安装 CUDA 13.1+",{"notes":104,"python":101,"dependencies":105},"该工具专为 NVIDIA Blackwell 架构设计，目前不支持其他 GPU 架构。必须使用 CUDA 13.1 及以上版本。若系统已安装 tileiras 编译器，可简化安装步骤。此外，项目还提供基于 Julia 1.12+ 的实验性内核实现（cuTile.jl），需单独配置 Julia 环境。建议使用提供的 Dockerfile 进行容器化部署以简化依赖管理。",[106,107,108,109,110,111],"torch==2.9.1 (cu130)","triton","cuda-tile[tileiras]","tileiras compiler","cuda-tile-experimental","accelerate==1.13.0",[35,14],"2026-03-27T02:49:30.150509","2026-04-16T08:19:16.102715",[116,121,126,131,136],{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},35620,"如何正确安装 TileGym 以包含编译器（tileiras）？","在按照 README 安装时，如果缺少 `cuda-tile[tileiras]` 会报错。现在可以通过添加可选依赖来一次性安装包含编译器的版本。请使用命令：`pip install .[tileiras]`。这将安装 `cuda-tile[tileiras]`，其中直接捆绑了 tileiras 编译器、nvcc 和 nvvm 到您的 Python 环境中。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fissues\u002F79",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},35621,"在 Windows 上使用 Docker 运行 bench_qwen.sh 脚本时出现 '$'\\r': command not found' 错误怎么办？","这是典型的 Windows Git 换行符问题。在 Windows 上克隆仓库时，Git 可能默认将 LF 转换为 CRLF，导致脚本在 Linux 容器中无法执行。解决方法是在容器内运行以下命令修复换行符：`sed -i 's\u002F\\r$\u002F\u002F' bench_qwen.sh`。执行后即可正常运行脚本。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fissues\u002F40",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},35622,"CUDA Tile 未来会支持哪些 GPU 架构（如 RTX 4090）？","根据官方回复，在未来的 CUDA 版本中，CUDA Tile 将支持 Ampere（如 RTX 30 系列、4090）和 Hopper 架构。目前可能主要面向特定架构，但后续更新会覆盖更多主流显卡。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fissues\u002F33",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},35623,"SiLU 和 Mul 算子的反向传播（backward）是否已经实现？","是的，SiLU 和 Mul 的反向传播已经在代码库中实验性实现并可用。相关实现位于 `src\u002Ftilegym\u002Fops\u002Fcutile\u002Fsilu_and_mul.py`，包含内核函数、启动函数及 autograd 集成。虽然代码中标记了 `@experimental_kernel`，但维护者已确认其功能有效，并更新了路线图以反映这一状态。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fissues\u002F98",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},35624,"在 GELU 实现中看到未使用的 mask 变量，这是否会导致越界访问风险？","不会导致越界风险。`ct.gather` 和 `ct.scatter` 默认均设置为 `check_bounds=True`，因此内核本身是安全的。代码中计算的 `mask` 变量确实是死代码（已计算但未使用）。维护者已在后续更新中移除了该无用变量，并通过显式设置 `padding_value=0` (gather) 和 `check_bounds=True` (scatter) 使边界检查逻辑更清晰。","https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fissues\u002F93",[142,147,152],{"id":143,"version":144,"summary_zh":145,"released_at":146},280850,"v1.1.0","## 变更内容\n* 忽略 Pygments 中的漏洞，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F86 中完成\n* 修复随机的 MHC 测试和基准测试失败问题，并添加 Unsloth GEGLU 和 grouped_gemm 内核，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F84 中完成\n* 基准测试：将未融合的 reference_rms_norm 替换为 PyTorch 基线中的 F.rms_norm，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F89 中完成\n* 添加 tileiras 作为可选依赖，以支持捆绑编译器，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F90 中完成\n* 在实验性模块中添加稀疏 MLA 前向运算，由 @Weili-0234 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F91 中完成\n* 将 CUDA 基础镜像从 13.1.0 升级到 13.2.0，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F85 中完成\n* 版本号从 1.0.1 升级到 1.1.0，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F94 中完成\n* 为兼容 PyPI，移除 cuda-tile-experimental 的 URL 依赖，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F95 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fcompare\u002Fv1.0.1...v1.1.0","2026-04-03T10:27:40",{"id":148,"version":149,"summary_zh":150,"released_at":151},280851,"v1.0.1","## 变更内容\n* 由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F73 中修复了发布标签工作流中的检出问题\n* 由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F74 中修复了发布工作流中的权限错误\n* 由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F76 中升级了一些 Python 依赖项，以修复安全漏洞\n* 由 @brycelelbach 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F78 中添加了 TileGym 仓库 URL，并修正了安装说明中的目录名称\n* 由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F80 中保护 test_swiglu.py 中的 CuTile 导入，更新实验性内核和测试，以及其他更新\n* 功能：swiglu 简单数学运算的更改，用于性能提升，由 @aghilann 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F77 中实现\n* 由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F81 中向 TileGym 添加 recurrent_gated_delta_rule 和 chunk_gated_delta_rule 操作，并进行其他更新\n* 由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F83 中将 tilegym 标签从 1.0.0 更新至 1.0.1\n\n## 新贡献者\n* @brycelelbach 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F78 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fcompare\u002Fv1.0.0...v1.0.1","2026-03-23T08:20:29",{"id":153,"version":154,"summary_zh":155,"released_at":156},280852,"v1.0.0","## 变更内容\n* [Bug fix] 在内核内部使用 padding_mode 处理 softmax 超出边界元素，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F1 中实现。\n* [Bug fix] 对于 softmax 的 no-tma 操作，使用 ct.gather 和 ct.store，由 @yifeis-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F2 中实现。\n* 为仓库添加 PR 机器人，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F3 中实现。\n* 更新 README.md 文件，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F5 中完成。\n* 移除 silu_and_mul 内核中的无效代码——该代码会创建输出偏移量（用于 1D），并期望传入 n_elements 参数……但实际上并不需要，由 @lessw2020 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F6 中完成。\n* 初始化 TileGym CI 流水线，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F4 中完成。\n* 使用 ruff 格式化工具，并引入辅助开发脚本，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F11 中实现。\n* 引入作业超时机制，加快构建速度，由 @camille-004 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F9 中实现。\n* [功能需求] 添加 gelu 和 relu 操作，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F13 中实现。\n* 更新 Dockerfile，使用 CUDA 13.1 基础镜像，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F12 中完成。\n* [修复] 重构 nightly 跳过逻辑，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F8 中完成。\n* 添加自动头文件检查与格式化功能，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F14 中实现。\n* 统一 softmax.py 实现，以避免依赖 NumPy，由 @lessw2020 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F16 中完成。\n* [更新] 更新内核并重新格式化代码，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F18 中完成。\n* [功能需求] 添加 dropout 操作，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F19 中完成。\n* 清理 Split-K 归约内核，由 @lessw2020 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F21 中完成。\n* 修复：moe_align_block_size() 现在支持非 2 的幂次方数量的专家，由 @huanghua1994 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F24 中完成。\n* 更新自动调优器：在 cutile-python 中使用实验性自动调优器，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F25 中完成。\n* 功能：针对大列尺寸的分块 softmax 实现，由 @aghilann 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F17 中完成。\n* [更新] 为 group_gemm 添加基准测试和自动调优功能，由 @xjmxyt 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F26 中完成。\n* 修复基准测试失败案例，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F27 中完成。\n* 将基准测试文件格式化为 JSON，并添加性能阈值，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F15 中完成。\n* 功能：RMSNorm 反向传播内核，由 @aghilann 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F29 中完成。\n* Split-K 归约：移除通过 INV_LOG_2 进行的不必要的缩放操作，由 @lessw2020 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F22 中完成。\n* [修复] 更新基准测试的稀疏检出配置，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F30 中完成。\n* [功能需求] 添加 bmm 操作，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F31 中完成。\n* 暂时避免因基准测试不一致导致的作业失败，由 @arjkesh 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F32 中完成。\n* [更新] 修复 bmm 问题，由 @hannahli-nv 在 https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTileGym\u002Fpull\u002F34 中完成。\n* [功能需求] 添加 Qwen2-7B 模块，由 @hannahli-nv 在 htt","2026-03-11T00:21:54"]