AI-windows-whl

581 37 简单 1 次阅读 2天前开发框架图像Agent

AI 解读由 AI 自动生成，仅供参考

AI-windows-whl 是一个专为 Windows 用户打造的开源项目，致力于提供一系列难以安装的 AI 与机器学习库的预编译 Python 安装包（.whl 文件）。在 Windows 系统上，像 Flash-Attention、xFormers、SageAttention、NATTEN 以及 bitsandbytes 等高性能加速库，往往因为缺乏官方预构建版本，迫使开发者必须配置复杂的编译环境并从源码手动构建，这一过程不仅耗时且极易出错。

该项目通过集中整理并维护这些库的直接下载链接，让用户无需安装 C++ 编译器或 CUDA 工具链，只需简单的 pip 命令即可完成安装，极大地降低了部署门槛。它不仅涵盖了主流的 PyTorch 生态组件，还包含了 Triton 的 Windows 分支等前沿技术成果，确保了技术栈的完整性与时效性。

无论是正在调试大模型本地部署的 AI 研究人员、需要快速搭建开发环境的算法工程师，还是希望在个人电脑上体验最新生成式 AI 技术的爱好者，都能从中受益。AI-windows-whl 让 Windows 平台上的高性能 AI 开发变得像在其他系统上一样简单流畅，是解决“依赖地狱”问题的实用利器。

使用场景

一位 Windows 平台的深度学习开发者正试图在本地部署最新的 Stable Diffusion WebUI，以利用 Flash-Attention 和 xFormers 加速图像生成并降低显存占用。

没有 AI-windows-whl 时

环境配置地狱：为了安装 flash-attention 或 xformers，必须手动安装特定版本的 Visual Studio Build Tools 和 CUDA Toolkit，过程繁琐且极易出错。
编译频繁失败：由于 Windows 对部分算子支持不完善，从源码编译时常报出难以排查的 C++ 语法错误或链接错误，导致数小时的努力付诸东流。
依赖版本冲突：手动寻找与当前 PyTorch 版本严格匹配的预编译包几乎不可能，强行安装往往引发 DLL load failed 或版本不兼容崩溃。
开发热情劝退：大量时间被浪费在环境搭建而非模型调试上，许多开发者因此被迫放弃 Windows 转向 Linux 双系统或直接搁置项目。

使用 AI-windows-whl 后

一键极速安装：直接下载与当前 Python 和 PyTorch 版本完美匹配的预编译 .whl 文件，通过 pip install 命令秒级完成安装，无需任何编译步骤。
开箱即用稳定：提供的包已针对 Windows 环境预先测试和优化，彻底规避了源码编译中的平台兼容性陷阱，确保启动即运行。
精准版本对齐：仓库清晰列出了每个轮子对应的 PyTorch 和 CUDA 版本，开发者可轻松锁定依赖，根除因版本错配导致的运行时崩溃。
专注核心业务：将原本用于排查环境问题的数小时甚至数天时间，全部投入到提示词工程、模型微调和图像生成的实际创作中。

AI-windows-whl 通过提供高质量的预编译算子库，彻底抹平了 Windows 用户在高性能 AI 部署上的技术门槛，让本地大模型应用真正变得触手可及。

运行环境要求

操作系统

Windows

GPU

需要 NVIDIA GPU（用于 CUDA 加速），具体显存大小未说明，支持 CUDA 11.8, 12.6, 12.8, 12.9, 13.0

内存

未说明

依赖

notes本项目专为 Windows 用户设计，提供难以从源码编译的 AI/ML 库（如 flash-attention, xformers）的预编译 wheel 文件。安装时需使用 pip 直接指向具体的 .whl 文件 URL。PyTorch 建议优先从官方源安装，其他扩展库需根据已安装的 Python、PyTorch 和 CUDA 版本选择对应的 wheel 链接。部分包（如 Triton）为 Windows 分支版本。

python3.9 - 3.14

torch

torchvision

torchaudio

flash-attention

xformers

sageattention

natten

triton

bitsandbytes

快速开始

Windows AI Wheels

一个精心整理的、针对 Windows 平台上难以安装的 AI/ML 库的预编译 Python wheels 集合。

报告失效链接 · 请求新增 wheel

关于该项目
快速入门
- 先决条件
- 安装方法
可用的 wheels

关于该项目

本仓库旨在解决 Windows 平台上的 AI 爱好者和开发者普遍面临的一个痛点：从源码构建复杂的 Python 包。 像 flash-attention、xformers 这样的库对于高性能 AI 任务至关重要，但它们通常缺乏官方提供的适用于 Windows 的预编译 wheels，这迫使用户不得不进行复杂且容易出错的编译过程。

我们的目标是提供一个集中、及时更新的预编译 .whl 文件直接下载链接集合，主要面向 ComfyUI 社区以及其他在 Windows 上使用 PyTorch 的用户。这样可以节省您的时间，让您专注于更重要的事情：用 AI 创造令人惊叹的作品。

查找 Windows AI Wheels

为了让使用更加便捷，您可以使用此页面 查找 Windows AI Wheels 快速搜索所需的包。

（返回顶部)

快速入门

请按照以下简单步骤使用本仓库中的 wheels。

先决条件

Windows 版本的 Python：确保已安装兼容的 Python 版本（目前 PyTorch 在 Windows 上支持 Python 3.9 - 3.14）。您可以通过 Python 官方网站获取。

安装

要安装某个 wheel，只需使用 pip 并指定该 .whl 文件的直接 URL 即可。请注意，URL 需要用引号括起来。

# 示例：安装特定的 flash-attention wheel
pip install "https://huggingface.co/lldacing/flash-attention-windows-wheel/blob/main/flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp312-cp312-win_amd64.whl"

[!提示] 在下方的可用 Wheels 部分找到您需要的包，根据您的环境（Python、PyTorch、CUDA 版本）选择对应的行，并复制 pip install 命令中的链接。

（返回顶部)

可用 Wheels

以下是目前已收录的包列表。

🛠 PyTorch

一切的基础。请先从官方渠道安装。

官方安装页面: https://pytorch.org/get-started/locally/

为方便起见，以下是针对 Linux/WSL 系统且配备 NVIDIA GPU 的特定版本的直接安装命令。对于其他配置（CPU、macOS、ROCm），请使用官方安装页面。

稳定版 (2.11.0)

这是大多数用户的推荐版本。

CUDA 版本	pip 安装命令
CUDA 13.0	`pip install torch torchvision --index-url https://download.pytorch.org/whl/cu130`
CUDA 12.8	`pip install torch torchvision --index-url https://download.pytorch.org/whl/cu128`
CUDA 12.6	`pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126`

上一稳定版

稳定版 (2.10.0)

这是大多数用户的推荐版本。

CUDA 版本	pip 安装命令
CUDA 13.0	`pip install "torch>=2.10.0.dev,<2.11.0" torchvision --index-url https://download.pytorch.org/whl/cu130`
CUDA 12.8	`pip install "torch>=2.10.0.dev,<2.11.0" torchvision --index-url https://download.pytorch.org/whl/cu128`
CUDA 12.6	`pip install "torch>=2.10.0.dev,<2.11.0" torchvision --index-url https://download.pytorch.org/whl/cu126`

上一版本 (2.9.1)

CUDA 版本	pip 安装命令
CUDA 13.0	`pip install "torch>=2.9.0.dev,<2.10.0" torchvision --index-url https://download.pytorch.org/whl/cu130`
CUDA 12.8	`pip install "torch>=2.9.0.dev,<2.10.0" torchvision --index-url https://download.pytorch.org/whl/cu128`
CUDA 12.6	`pip install "torch>=2.9.0.dev,<2.10.0" torchvision --index-url https://download.pytorch.org/whl/cu126`

上一稳定版 (2.8.0)

CUDA 版本	pip 安装命令
CUDA 12.9	`pip install "torch>=2.8.0.dev,<2.9.0" torchvision --index-url https://download.pytorch.org/whl/cu129`
CUDA 12.8	`pip install "torch>=2.8.0.dev,<2.9.0" torchvision --index-url https://download.pytorch.org/whl/cu128`
CUDA 12.6	`pip install "torch>=2.8.0.dev,<2.9.0" torchvision --index-url https://download.pytorch.org/whl/cu126`

上一稳定版 (2.7.1)

CUDA 版本	pip 安装命令
CUDA 12.8	`pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu128`
CUDA 12.6	`pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126`
CUDA 11.8	`pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118`
仅 CPU	`pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cpu`

夜间版本

使用这些版本可以体验最新功能，但可能存在不稳定情况。

PyTorch 2.12（夜间版）

CUDA 版本	pip 安装命令
CUDA 13.0	`pip install --pre torch torchvision --index-url https://download.pytorch.org/whl/nightly/cu130`
CUDA 12.8	`pip install --pre torch torchvision --index-url https://download.pytorch.org/whl/nightly/cu128`
CUDA 12.6	`pip install --pre torch torchvision --index-url https://download.pytorch.org/whl/nightly/cu126`

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 Torchaudio

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`2.11.0a0`	`2.12.0`	`3.14`	`13.0`	链接
`2.11.0a0`	`2.12.0`	`3.13`	`13.0`	链接
`2.11.0a0`	`2.11.0`	`3.14`	`13.0`	链接
`2.11.0a0`	`2.11.0`	`3.13`	`13.0`	链接
`2.11.0a0`	`2.10.0`	`3.13`	`13.0`	链接
`2.11.0a0`	`2.10.0`	`3.12`	`13.0`	链接
`2.11.0a0`	`2.10.0`	`3.13`	`12.8`	链接
`2.8.0a0`	`2.9.0`	`3.12`	`12.8`	链接
`2.8.0a0`	`2.9.0`	`3.12`	`12.8`	链接


# Torchcodec
pip 安装 torchcodec

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 Flash Attention

高性能注意力机制实现。

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	CXX11 ABI	下载链接
`2.8.4`	`2.12.0`	`3.14`	`13.0`	✓	链接
`2.8.4`	`2.12.0`	`3.13`	`13.0`	✓	链接
`2.8.4`	`2.11.0`	`3.14`	`13.0`	✓	链接
`2.8.4`	`2.11.0`	`3.13`	`13.0`	✓	链接
`2.8.3`	`2.11.0`	`3.13`	`13.0`	✓	链接
`2.8.3`	`2.11.0`	`3.12`	`13.0`	✓	链接
`2.8.3`	`2.10.0`	`3.13`	`13.0`	✓	链接
`2.8.3`	`2.10.0`	`3.13`	`13.0`	✓	链接
`2.8.3`	`2.10.0`	`3.12`	`13.0`	✓	链接
`2.8.3`	`2.10.0`	`3.12`	`13.0`	✓	链接
`2.8.3`	`2.10.0`	`3.13`	`12.8`	✓	链接
`2.8.3`	`2.9.1`	`3.13`	`13.0`	✓	链接
`2.8.3`	`2.9.1`	`3.12`	`13.0`	✓	链接
`2.8.3`	`2.9.1`	`3.13`	`12.8`	✓	链接
`2.8.3`	`2.9.0`	`3.13`	`13.0`	✓	链接
`2.8.3`	`2.9.0`	`3.12`	`13.0`	✓	链接
`2.8.3`	`2.9.0`	`3.13`	`12.9`	✓	链接
`2.8.3`	`2.9.0`	`3.12`	`12.8`	✓	链接
`2.8.3`	`2.8.0`	`3.12`	`12.8`	✓	链接
`2.8.2`	`2.9.0`	`3.12`	`12.8`	✓	链接
`2.8.2`	`2.8.0`	`3.12`	`12.8`	✓	链接
`2.8.2`	`2.8.0`	`3.11`	`12.8`	✓	链接
`2.8.2`	`2.8.0`	`3.10`	`12.8`	✓	链接
`2.8.2`	`2.7.0`	`3.12`	`12.8`	✗	链接
`2.8.2`	`2.7.0`	`3.11`	`12.8`	✗	链接
`2.8.2`	`2.7.0`	`3.10`	`12.8`	✗	链接
`2.8.1`	`2.8.0`	`3.12`	`12.8`	✓	链接
`2.8.0.post2`	`2.8.0`	`3.12`	`12.8`	✓	链接
`2.7.4.post1`	`2.8.0`	`3.12`	`12.8`	✓	链接
`2.7.4.post1`	`2.8.0`	`3.10`	`12.8`	✓	链接
`2.7.4.post1`	`2.7.0`	`3.12`	`12.8`	✗	链接
`2.7.4.post1`	`2.7.0`	`3.11`	`12.8`	✗	链接
`2.7.4.post1`	`2.7.0`	`3.10`	`12.8`	✗	链接
`2.7.4`	`2.8.0`	`3.12`	`12.8`	✓	链接
`2.7.4`	`2.8.0`	`3.11`	`12.8`	✓	链接
`2.7.4`	`2.8.0`	`3.10`	`12.8`	✓	链接
`2.7.4`	`2.7.0`	`3.12`	`12.8`	✗	链接
`2.7.4`	`2.7.0`	`3.11`	`12.8`	✗	链接
`2.7.4`	`2.7.0`	`3.10`	`12.8`	✗	链接
`2.7.4`	`2.6.0`	`3.12`	`12.6`	✗	链接
`2.7.4`	`2.6.0`	`3.11`	`12.6`	✗	链接
`2.7.4`	`2.6.0`	`3.10`	`12.6`	✗	链接
`2.7.4`	`2.6.0`	`3.12`	`12.4`	✗	链接
`2.7.4`	`2.6.0`	`3.11`	`12.4`	✗	链接
`2.7.4`	`2.6.0`	`3.10`	`12.4`	✗	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 Flash Attention 3

下一代 Flash Attention，性能和功能均有所提升。

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	CXX11 ABI	下载链接
`3.0.0`	`2.10`	`3.9+`	`13.0`	✓	链接
`3.0.0`	`2.10`	`3.9+`	`13.0`	✓	链接
`3.0.0`	`2.10`	`3.9+`	`12.8`	✓	链接
`3.0.0`	`2.10`	`3.9+`	`12.8`	✓	链接
`3.0.0`	`2.9`	`3.9+`	`13.0`	✓	链接
`3.0.0`	`2.9`	`3.9+`	`12.8`	✓	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 Flash Attention 4

最新版 Flash Attention 实现，采用前沿优化技术。

(暂无预编译轮子可用 - 未跟踪该软件包)

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 xformers

另一款用于内存高效注意力机制及其他优化的库。

[!NOTE] PyTorch 提供了 xformers 的官方预编译轮子。通常可以直接使用 pip install xformers 进行安装。

CUDA 版本	安装命令
CUDA 12.6	`pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu126`
CUDA 12.8	`pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu128`
CUDA 13.0	`pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu130`

ABI3 版本，适用于 Python 3.9–3.12

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`0.0.34`	`2.11`	`3.9+`	`13.0`	链接
`0.0.34`	`2.10`	`3.9+`	`13.0`	链接
`0.0.34`	`2.10`	`3.9+`	`13.0`	链接
`0.0.33`	`2.10`	`3.9+`	`13.0`	链接
`0.0.33`	`2.9`	`3.9+`	`13.0`	链接
`0.0.32.post2`	`2.8.0`	`3.9+`	`12.9`	链接
`0.0.32.post2`	`2.8.0`	`3.9+`	`12.8`	链接
`0.0.32.post2`	`2.8.0`	`3.9+`	`12.6`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 SageAttention

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`2.1.1`	`2.8.0`	`3.12`	`12.8`	链接
`2.1.1`	`2.7.0`	`3.10`	`12.8`	链接
`2.1.1`	`2.6.0`	`3.13`	`12.6`	链接
`2.1.1`	`2.6.0`	`3.12`	`12.6`	链接
`2.1.1`	`2.6.0`	`3.12`	`12.6`	链接
`2.1.1`	`2.6.0`	`3.11`	`12.6`	链接
`2.1.1`	`2.6.0`	`3.10`	`12.6`	链接
`2.1.1`	`2.6.0`	`3.9`	`12.6`	链接
`2.1.1`	`2.5.1`	`3.12`	`12.4`	链接
`2.1.1`	`2.5.1`	`3.11`	`12.4`	链接
`2.1.1`	`2.5.1`	`3.10`	`12.4`	链接
`2.1.1`	`2.5.1`	`3.9`	`12.4`	链接

◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇ ◇

🛠 SageAttention 2.2 (SageAttention2++)

[!NOTE] 仅支持 CUDA >= 12.8，因此 PyTorch >= 2.7。

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`2.2.0.post4`	`2.9.0+`	`3.9+`	`13.0`	链接
`2.2.0.post4`	`2.9.0+`	`3.9+`	`12.8`	链接
`2.2.0.post3`	`2.10.0`	`3.12`	`13.0`	链接
`2.2.0.post3`	`2.10.0`	`3.13`	`12.8`	链接
`2.2.0.post3`	`2.10.0`	`3.12`	`12.8`	链接
`2.2.0.post3`	`2.9.0`	`3.13`	`13.0`	链接
`2.2.0.post3`	`2.9.0`	`3.13`	`12.9`	链接
`2.2.0.post3`	`2.9.0`	`3.9+`	`12.9`	链接
`2.2.0.post3`	`2.9.0`	`3.13`	`12.8`	链接
`2.2.0.post3`	`2.9.0`	`3.9+`	`12.8`	链接
`2.2.0.post3`	`2.8.0`	`3.13`	`12.9`	链接
`2.2.0.post3`	`2.8.0`	`3.9+`	`12.9`	链接
`2.2.0.post3`	`2.8.0`	`3.13`	`12.8`	链接
`2.2.0.post3`	`2.8.0`	`3.9+`	`12.8`	链接
`2.2.0.post3`	`2.7.1`	`3.9+`	`12.8`	链接
`2.2.0.post3`	`2.6.0`	`3.9+`	`12.6`	链接
`2.2.0.post3`	`2.5.1`	`3.9+`	`12.4`	链接
`2.2.0.post2`	`2.9.0`	`3.9+`	`12.8`	链接
`2.2.0.post2`	`2.8.0`	`3.9+`	`12.8`	链接
`2.2.0.post2`	`2.7.1`	`3.9+`	`12.8`	链接
`2.2.0.post2`	`2.6.0`	`3.9+`	`12.6`	链接
`2.2.0.post2`	`2.5.1`	`3.9+`	`12.4`	链接
`2.2.0`	`2.8.0`	`3.13`	`12.8`	链接
`2.2.0`	`2.8.0`	`3.12`	`12.8`	链接
`2.2.0`	`2.8.0`	`3.11`	`12.8`	链接
`2.2.0`	`2.8.0`	`3.10`	`12.8`	链接
`2.2.0`	`2.8.0`	`3.9`	`12.8`	链接
`2.2.0`	`2.7.1`	`3.13`	`12.8`	链接
`2.2.0`	`2.7.1`	`3.12`	`12.8`	链接
`2.2.0`	`2.7.1`	`3.11`	`12.8`	链接
`2.2.0`	`2.7.1`	`3.10`	`12.8`	链接
`2.2.0`	`2.7.1`	`3.9`	`12.8`	链接

🛠 SageAttention 3

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`1.0.0`	`2.9.1`	`3.13`	`13.0`	链接
`1.0.0`	`2.9.1`	`3.12`	`13.0`	链接
`1.0.0`	`2.8.0`	`3.13`	`12.8`	链接
`1.0.0`	`2.8.0`	`3.12`	`12.8`	链接
`1.0.0`	`2.8.0`	`3.11`	`12.8`	链接
`1.0.0`	`2.7.1`	`3.13`	`12.8`	链接
`1.0.0`	`2.7.1`	`3.12`	`12.8`	链接
`1.0.0`	`2.7.1`	`3.11`	`12.8`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 捻爪

官方仓库: : mit-han-lab/nunchaku

软件包版本	PyTorch 版本	Python 版本	下载链接
`1.2.0`	`2.11`	`3.13`	链接
`1.2.0`	`2.11`	`3.12`	链接
`1.2.0`	`2.11`	`3.11`	链接
`1.2.0`	`2.11`	`3.10`	链接
`1.2.0`	`2.9`	`3.13`	链接
`1.2.0`	`2.9`	`3.12`	链接
`1.2.0`	`2.9`	`3.11`	链接
`1.2.0`	`2.9`	`3.10`	链接
`1.2.0`	`2.8`	`3.13`	链接
`1.2.0`	`2.8`	`3.12`	链接
`1.2.0`	`2.8`	`3.11`	链接
`1.2.0`	`2.7`	`3.13`	链接
`1.2.0`	`2.7`	`3.12`	链接
`1.2.0`	`2.7`	`3.11`	链接
`1.2.0`	`2.7`	`3.10`	链接
`1.0.2`	`2.10`	`3.13`	链接
`1.0.2`	`2.10`	`3.12`	链接
`1.0.2`	`2.10`	`3.11`	链接
`1.0.2`	`2.10`	`3.10`	链接
`1.0.2`	`2.9`	`3.13`	链接
`1.0.2`	`2.9`	`3.12`	链接
`1.0.2`	`2.9`	`3.11`	链接
`1.0.2`	`2.9`	`3.10`	链接
`1.0.2`	`2.8`	`3.13`	链接
`1.0.2`	`2.8`	`3.12`	链接
`1.0.2`	`2.8`	`3.11`	链接
`1.0.2`	`2.8`	`3.10`	链接
`1.0.2`	`2.7`	`3.13`	链接
`1.0.2`	`2.7`	`3.12`	链接
`1.0.2`	`2.7`	`3.11`	链接
`1.0.2`	`2.7`	`3.10`	链接
`1.0.1`	`2.10`	`3.13`	链接
`1.0.1`	`2.10`	`3.12`	链接
`1.0.1`	`2.10`	`3.11`	链接
`1.0.1`	`2.10`	`3.10`	链接
`1.0.1`	`2.9`	`3.13`	链接
`1.0.1`	`2.9`	`3.13`	链接
`1.0.1`	`2.9`	`3.12`	链接
`1.0.1`	`2.9`	`3.12`	链接
`1.0.1`	`2.8`	`3.13`	链接
`1.0.1`	`2.8`	`3.13`	链接
`1.0.1`	`2.8`	`3.12`	链接
`1.0.1`	`2.8`	`3.11`	链接
`1.0.1`	`2.8`	`3.10`	链接
`1.0.1`	`2.7`	`3.13`	链接
`1.0.1`	`2.7`	`3.12`	链接
`1.0.1`	`2.7`	`3.11`	链接
`1.0.1`	`2.7`	`3.10`	链接
`1.0.1`	`2.6`	`3.13`	链接
`1.0.1`	`2.6`	`3.12`	链接
`1.0.1`	`2.6`	`3.11`	链接
`1.0.1`	`2.6`	`3.10`	链接
`1.0.1`	`2.5`	`3.12`	链接
`1.0.1`	`2.5`	`3.11`	链接
`1.0.1`	`2.5`	`3.10`	链接
`1.0.0`	`2.9`	`3.13`	链接
`1.0.0`	`2.9`	`3.12`	链接
`1.0.0`	`2.9`	`3.11`	链接
`1.0.0`	`2.9`	`3.10`	链接
`1.0.0`	`2.8`	`3.13`	链接
`1.0.0`	`2.8`	`3.12`	链接
`1.0.0`	`2.8`	`3.11`	链接
`1.0.0`	`2.8`	`3.10`	链接
`1.0.0`	`2.7`	`3.13`	链接
`1.0.0`	`2.7`	`3.12`	链接
`1.0.0`	`2.7`	`3.11`	链接
`1.0.0`	`2.7`	`3.10`	链接
`1.0.0`	`2.6`	`3.13`	链接
`1.0.0`	`2.6`	`3.12`	链接
`1.0.0`	`2.6`	`3.11`	链接
`1.0.0`	`2.6`	`3.10`	链接
`1.0.0`	`2.5`	`3.12`	链接
`1.0.0`	`2.5`	`3.11`	链接
`1.0.0`	`2.5`	`3.10`	链接
`0.3.2`	`2.9`	`3.12`	链接
`0.3.2`	`2.8`	`3.12`	链接
`0.3.2`	`2.8`	`3.11`	链接
`0.3.2`	`2.8`	`3.10`	链接
`0.3.2`	`2.7`	`3.12`	链接
`0.3.2`	`2.7`	`3.11`	链接
`0.3.2`	`2.7`	`3.10`	链接
`0.3.2`	`2.6`	`3.12`	链接
`0.3.2`	`2.6`	`3.11`	链接
`0.3.2`	`2.6`	`3.10`	链接
`0.3.2`	`2.5`	`3.12`	链接
`0.3.2`	`2.5`	`3.11`	链接
`0.3.2`	`2.5`	`3.10`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 NATTEN

邻域注意力Transformer。

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`0.17.5`	`2.7.0`	`3.12`	`12.8`	链接
`0.17.5`	`2.7.0`	`3.11`	`12.8`	链接
`0.17.5`	`2.7.0`	`3.10`	`12.8`	链接
`0.17.5`	`2.6.0`	`3.12`	`12.6`	链接
`0.17.5`	`2.6.0`	`3.11`	`12.6`	链接
`0.17.5`	`2.6.0`	`3.10`	`12.6`	链接
`0.17.3`	`2.5.1`	`3.12`	`12.4`	链接
`0.17.3`	`2.5.1`	`3.11`	`12.4`	链接
`0.17.3`	`2.5.1`	`3.10`	`12.4`	链接
`0.17.3`	`2.5.0`	`3.12`	`12.4`	链接
`0.17.3`	`2.5.0`	`3.11`	`12.4`	链接
`0.17.3`	`2.5.0`	`3.10`	`12.4`	链接
`0.17.3`	`2.4.1`	`3.12`	`12.4`	链接
`0.17.3`	`2.4.1`	`3.11`	`12.4`	链接
`0.17.3`	`2.4.1`	`3.10`	`12.4`	链接
`0.17.3`	`2.4.0`	`3.12`	`12.4`	链接
`0.17.3`	`2.4.0`	`3.11`	`12.4`	链接
`0.17.3`	`2.4.0`	`3.10`	`12.4`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 Triton（Windows 分支）

Triton 是一种用于编写高效自定义深度学习原语的语言和编译器。虽然官方不支持 Windows，但有一个分支提供了预构建的 wheel 包。

支持的 GPU:

[!注意] 不同的 GPU 架构由于计算能力的支持不同，需要使用不同的 Triton 版本。

Triton 版本	支持的 GPU	计算能力
`3.6.x`	RTX 50xx（Blackwell）、RTX 40xx、Ada Lovelace、Hopper	SM 8.9、9.0、10.0
`3.5.x`	RTX 30xx、40xx、Ada Lovelace、Hopper	SM 8.0、8.9、9.0
`3.4.x`	RTX 20xx、30xx、40xx、Ada Lovelace、Hopper	SM 7.5、8.0、8.9、9.0
`<= 3.2.x`	GTX/RTX 16xx、RTX 20xx、30xx、40xx、Ada Lovelace、Hopper	SM 7.0、7.5、8.0、8.9、9.0

安装:

软件包版本	PyTorch 版本	计算能力	安装命令
`3.6.x`	>= 2.9	SM 8.9+	`pip install -U "triton-windows<3.7"`
`3.5.x`	>= 2.9	SM 8.0+	`pip install -U "triton-windows<3.6"`
`3.4.x`	>= 2.8	SM 7.5+	`pip install -U "triton-windows<3.5"`

Python 库:

[!重要] Triton 需要额外的 Python 开发库来构建 CUDA 内核。请下载与您的 Python 版本匹配的包，解压 ZIP 文件，并将 include 和 libs 文件夹复制到您的 Python 安装目录中。

Python 版本	下载链接
`3.13`	链接
`3.12`	链接
`3.11`	链接
`3.10`	链接
`3.9`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 bitsandbytes

一个轻量级的 CUDA 自定义函数封装库，特别适用于 8 位优化器、矩阵乘法（LLM.int8()）以及量化功能。

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 RadialAttention for ComfyUI

(返回顶部)

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 SpargeAttn

软件包版本	PyTorch 版本	CUDA 版本	下载链接
`0.1.0.post1`	`2.8.0`	`12.8`	链接
`0.1.0.post1`	`2.7.1`	`12.8`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 块稀疏注意力机制

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	下载链接
`0.0.2.post1`	`2.11`	`3.13`	`13.0`	链接
`0.0.2.post1`	`2.10`	`3.13`	`13.0`	链接
`0.0.2.post1`	`2.9.1`	`3.13`	`13.0`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 DeepSpeed

一个深度学习优化库
官方仓库: https://github.com/deepspeedai/DeepSpeed

软件包版本	Python 版本	下载链接
`0.18.6`	`3.13`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 Fairseq

Facebook AI Research 序列到序列工具包
官方仓库: https://github.com/facebookresearch/fairseq

软件包版本	Python 版本	下载链接
`0.12.2`	`3.13`	链接

▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲▼▲

🛠 causal_conv1d

软件包版本	PyTorch 版本	Python 版本	CUDA 版本	CXX11 ABI	下载链接
`1.6.1`	`2.11.0`	`3.14`	`13.0`	✓	链接
`1.6.1`	`2.11.0`	`3.13`	`13.0`	✓	链接
`1.6.1`	`2.10.0`	`3.13`	`13.0`	✓	链接

▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀

🌐 以编程方式访问数据 (wheels.json)

本仓库中的所有轮子信息都存储在 wheels.json 文件中，该文件是唯一的真实数据源。此 README 中的表格均由此文件自动生成。

这为任何需要访问这些数据而无需解析 Markdown 的外部工具或应用程序提供了一个稳定且结构化的 JSON 端点。

➤ 使用方法

您可以通过以下 URL 直接访问原始 JSON 文件：

https://raw.githubusercontent.com/wildminder/AI-windows-whl/main/wheels.json

使用 curl 的示例：

curl -L -o wheels.json https://raw.githubusercontent.com/wildminder/AI-windows-whl/main/wheels.json

该文件包含一个 packages 列表，每个软件包都有其元数据和一个 wheels 数组，其中每个轮子对象包含版本信息和直接下载的 url。

(回到顶部)

▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀

➤ 贡献

贡献使开源社区成为一个令人惊叹的学习、启发和创作之地。您的任何贡献都将受到高度赞赏。

如果您发现了一个新的预构建轮子或可靠的来源，请 fork 该仓库并创建一个 pull request，或者直接开一个包含链接的问题。

(回到顶部)

➤ 致谢

此仓库只是一个链接集合。非常感谢那些为社区构建并托管这些轮子的个人和组织：

AI-windows-whl 快速上手指南

本指南旨在帮助 Windows 用户快速安装那些通常难以编译的 AI/ML 库（如 flash-attention、xformers 等）的预编译版本，特别适用于 ComfyUI 和 PyTorch 开发者。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Windows 10/11 (64 位)
Python 版本：已安装 Python 3.9 - 3.14 之间的版本。
- 下载地址：Python 官网
- 注意：安装时请务必勾选 "Add Python to PATH"。
GPU 驱动：已安装兼容的 NVIDIA 显卡驱动及对应的 CUDA Toolkit（通常 PyTorch 会自带运行时，但需确保驱动支持目标 CUDA 版本）。
包管理工具：确保 pip 已更新至最新版本：
```
python -m pip install --upgrade pip
```

💡 提示：如果您不确定需要哪个版本，可以使用官方提供的搜索工具 Find Windows AI Wheels 快速查找匹配您环境（Python/PyTorch/CUDA）的安装链接。

2. 安装步骤

本项目不提供单一的 pip install 命令，而是提供特定版本的 .whl 文件直链。请根据您的环境选择对应的链接进行安装。

第一步：安装基础 PyTorch

首先需要通过官方源安装基础的 PyTorch、TorchVision 和 Torchaudio。

推荐稳定版 (以 CUDA 12.8 为例):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

如需其他 CUDA 版本（如 12.6, 13.0），请访问 PyTorch 官网获取对应命令。

第二步：安装难点库 (Whl 直链安装)

对于 flash-attention、xformers 等库，请使用 pip 直接指向本项目提供的 HuggingFace 下载链接。注意：链接必须用双引号包裹。

示例：安装 flash-attention (针对 Python 3.12, PyTorch 2.7.0, CUDA 12.8)

pip install "https://huggingface.co/lldacing/flash-attention-windows-wheel/blob/main/flash_attn-2.7.4.post1+cu128torch2.7.0cxx11abiFALSE-cp312-cp312-win_amd64.whl"

常用库安装参考： 请在 Available Wheels 列表或搜索页面中找到匹配您环境的行，复制 Download Link 并替换下方命令中的 URL：

Torchaudio (特定版本):

pip install "https://huggingface.co/Wildminder/AI-windows-whl/resolve/main/torchaudio/torchaudio-2.11.0a0+d20260219.cu130torch2.12.0cxx11abi1-cp314-cp314-win_amd64.whl"

xformers / bitsandbytes / Triton: 操作逻辑同上，找到对应链接后执行 pip install "URL"。

⚠️ 注意：由于文件托管在 HuggingFace，国内用户若下载速度慢，可尝试配置本地代理或使用镜像加速工具，但请直接使用原始链接以确保文件哈希值校验通过。

3. 基本使用

安装完成后，即可在 Python 环境中正常导入这些库，无需再进行复杂的源码编译。

验证示例 (以 flash-attention 为例):

import torch
from flash_attn import flash_attn_func

# 创建测试数据
q = torch.randn(2, 4, 8, 32, dtype=torch.float16, device='cuda')
k = torch.randn(2, 4, 8, 32, dtype=torch.float16, device='cuda')
v = torch.randn(2, 4, 8, 32, dtype=torch.float16, device='cuda')

# 调用函数
output = flash_attn_func(q, k, v)

print(f"Flash Attention 运行成功！输出形状：{output.shape}")

如果代码无报错运行，说明预编译轮子已成功安装并适配当前环境。现在您可以专注于开发 AI 应用或使用 ComfyUI 等工作流了。

常见问题

导入 SageAttention 或 FlashAttention 时出现 'DLL load failed' 或 'The specified module could not be found' 错误怎么办？

FlashAttention 在 PyTorch 2.11 + CUDA 13.0 + Python 3.13 环境下无法加载，报错 'The specified procedure could not be found'，如何解决？

如何自动化安装 SageAttention 而不解析 README 文件？

为什么某些 Wheel 文件标注支持多个 PyTorch 版本（如 >=2.9），但特定版本（如 2.10）却报错？

如何找到适用于特定 Python、PyTorch 和 CUDA 组合的 Wheel 文件（例如 Python 3.13, Torch 2.9, CUDA 13.0）？

SageAttention3 是否有可用的 Windows Wheel 文件？

找不到特定版本（如 Flash Attention 2.7.4 + PyTorch 2.8 + Python 3.11）的 Wheel 文件怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 144.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent