raft
RAFT 是一个专为机器学习和数据挖掘打造的高性能计算库。它提供了一系列经过 CUDA 加速的基础算法与计算原语,旨在成为构建高效应用的坚实基石。
在实际开发中,底层算子的重复实现往往拖慢进度且难以维护。RAFT 通过模块化设计解决了这一痛点,让开发者能像搭积木一样快速组合出高性能程序。它不仅支持 C++ 原生调用,还提供轻量级的 Python 封装及 Dask 分布式支持,方便不同技术栈的用户接入。
无论是算法工程师还是系统开发者,只要涉及大规模数据处理、线性代数运算或模型评估,RAFT 都是得力助手。其独特的头文件模板库架构兼顾了编译速度与灵活性,涵盖了从数据格式转换到稀疏矩阵求解的全方位功能。对于追求极致性能并希望简化 GPU 编程复杂度的团队来说,RAFT 是理想选择。
使用场景
某大型电商公司的机器学习团队正在构建亿级用户行为的实时推荐引擎,核心任务是对海量稀疏用户 - 物品交互矩阵进行高效分解。
没有 raft 时
- 团队需从零编写复杂的 CUDA 内核处理稀疏矩阵运算,单个模块开发周期长达数月
- 不同项目组重复实现基础的线性代数函数,导致大量代码冗余和潜在的维护风险
- CPU 与 GPU 间频繁的数据拷贝造成显著延迟,难以满足实时推理的低延迟需求
- 缺乏统一优化的底层算子,模型迭代速度严重受限于硬件性能的深度挖掘不足
使用 raft 后
- 直接调用 RAFT 提供的稀疏线性代数原语,将矩阵分解功能的开发时间从月缩短至数天
- 复用 RAFT 中经过生产验证的核心计算逻辑,彻底消除了重复造轮子的维护成本
- 利用内置的 CUDA 加速机制,显著减少了主机与设备间的数据传输开销
- 结合 raft-dask 轻松扩展至多节点多 GPU 环境,大幅提升大规模训练吞吐量
RAFT 通过封装高性能 GPU 加速原语,让工程师能专注于业务算法创新而非底层硬件优化。
运行环境要求
- 未说明
需要 NVIDIA GPU,支持 CUDA 12.9 或 13.1
未说明

快速开始
RAFT: Reusable Accelerated Functions and Tools
RAFT: Reusable Accelerated Functions and Tools
Contents
有用资源
- RAFT 参考文档: API 文档。
- RAFT 入门指南: 开始使用 RAFT。
- 构建和安装 RAFT: 安装和构建 RAFT 的说明。
- RAPIDS 社区: 获取帮助、做出贡献并协作。
- GitHub 仓库: 下载 RAFT 源代码。
- 问题追踪器: 报告问题或请求功能。
RAFT 是什么?
RAFT 包含机器学习和数据挖掘中广泛使用的基础算法和原语(primitives)。这些算法经过 CUDA 加速,构成了编写高性能应用程序的基础模块。
通过采用基于原语的算法开发方法,RAFT
- 加速了算法构建时间
- 通过最大化跨项目的复用性来减少维护负担,并且
- 集中了核心可复用计算,允许未来的优化惠及所有使用它们的算法。
虽然不全面,但以下一般类别有助于总结 RAFT 中的加速函数:
| 类别 | RAFT 中的加速函数 |
|---|---|
| 数据格式 | 稀疏与稠密、转换、数据生成 |
| 稠密操作 | 线性代数、矩阵和向量运算、归约、切片、范数、分解、最小二乘法、SVD 及特征值问题 |
| 稀疏操作 | 线性代数、特征值问题、切片、范数、归约、分解、对称化、组件与标记 |
| 求解器 | 组合优化、迭代求解器 |
| 统计 | 采样、矩与汇总统计、指标、模型评估 |
| 工具与实用程序 | 用于开发 CUDA 应用的通用工具和实用程序、多节点多 GPU 基础设施 |
RAFT 是一个 C++ 仅头文件模板库,带有一个可选的共享库,该库
- 可以加快常见模板类型的编译时间,并且
- 提供主机可访问的“运行时”API,无需 CUDA 编译器即可使用
除了作为 C++ 库之外,RAFT 还提供了 2 个 Python 库:
pylibraft- 围绕 RAFT 的主机可访问“运行时”API 的轻量级 Python 包装器。raft-dask- 用于在 GPU 上使用 Dask 构建分布式算法的多节点多 GPU 通信基础设施。

RAFT 适合我吗?
RAFT 包含用于加速应用程序和工作流的底层原语。数据源提供者和应用开发人员可能会发现特定工具非常有用。RAFT 并不打算供数据科学家直接用于发现和实验。对于数据科学工具,请参阅 RAPIDS 网站。
入门指南
RAPIDS 内存管理器 (RMM)
RAFT 严重依赖 RMM,它减轻了在使用它的库中全局配置不同分配策略的负担。
多维数组
RAFT 中的 API 接受 mdspan 多维数组视图来表示更高维度的数据,类似于 Python 库 Numpy 中的 ndarray。RAFT 还包含相应的拥有者 mdarray 结构,简化了主机和设备(GPU)内存中多维数据的分配和管理。
mdarray 是建立在 RMM 之上的便捷层,可以在 RAFT 中使用多种不同的辅助函数进行构造:
#include <raft/core/device_mdarray.hpp>
int n_rows = 10;
int n_cols = 10;
auto scalar = raft::make_device_scalar<float>(handle, 1.0);
auto vector = raft::make_device_vector<float>(handle, n_cols);
auto matrix = raft::make_device_matrix<float>(handle, n_rows, n_cols);
C++ 示例
RAFT 中的大多数原语接受一个 raft::device_resources 对象来管理创建成本较高的资源,例如 CUDA 流、流池以及像 cublas 和 cusolver 等其他 CUDA 库的句柄。
下面的示例展示了创建一个 RAFT 句柄,并将其与 device_matrix 和 device_vector 一起使用以分配内存、生成随机簇,并使用 NVIDIA cuVS 库计算成对欧几里得距离:
#include <raft/core/device_resources.hpp>
#include <raft/core/device_mdspan.hpp>
#include <raft/random/make_blobs.cuh>
#include <cuvs/distance/distance.hpp>
raft::device_resources handle;
int n_samples = 5000;
int n_features = 50;
float *input;
int *labels;
float *output;
...
// Allocate input, labels, and output pointers
...
auto input_view = raft::make_device_matrix_view(input, n_samples, n_features);
auto labels_view = raft::make_device_vector_view(labels, n_samples);
auto output_view = raft::make_device_matrix_view(output, n_samples, n_samples);
raft::random::make_blobs(handle, input_view, labels_view);
auto metric = cuvs::distance::DistanceType::L2SqrtExpanded;
cuvs::distance::pairwise_distance(handle, input_view, input_view, output_view, metric);
Python 示例
pylibraft 包包含了用于 RAFT 算法和原语(primitives)的 Python API。pylibraft 非常轻量且依赖极少,能够很好地集成到其他库中,并支持任何实现了 __cuda_array_interface__ 接口的对象,例如 CuPy 的 ndarray。此包中暴露的 RAFT 算法数量正在持续增加。
下面的示例演示了如何使用 NVIDIA cuVS 库计算 CuPy 数组之间的成对欧氏距离。注意,CuPy 不是 pylibraft 的必要依赖项。
import cupy as cp
from cuvs.distance import pairwise_distance
n_samples = 5000
n_features = 50
in1 = cp.random.random_sample((n_samples, n_features), dtype=cp.float32)
in2 = cp.random.random_sample((n_samples, n_features), dtype=cp.float32)
output = pairwise_distance(in1, in2, metric="euclidean")
上述示例中的 output 数组类型为 raft.common.device_ndarray,它支持 cuda_array_interface,使其能够与同样支持该接口的其他库(如 CuPy、Numba、PyTorch 和 RAPIDS cuDF)互操作。CuPy 支持 DLPack,这也使得从 raft.common.device_ndarray 到 JAX 和 Tensorflow 的零拷贝(zero-copy)转换成为可能。
下面是将输出 pylibraft.device_ndarray 转换为 CuPy 数组的示例:
cupy_array = cp.asarray(output)
以及转换为 PyTorch 张量:
import torch
torch_tensor = torch.as_tensor(output, device='cuda')
或者转换为 RAPIDS cuDF 数据框:
cudf_dataframe = cudf.DataFrame(output)
当相应的库已安装并在您的环境中可用时,通过设置全局配置选项,所有 RAFT 计算 API 也可以自动完成此转换:
import pylibraft.config
pylibraft.config.set_output_as("cupy") # 所有计算 API 将返回 cupy 数组
pylibraft.config.set_output_as("torch") # 所有计算 API 将返回 torch 张量
您还可以指定一个可调用对象(callable),它接受 pylibraft.common.device_ndarray 并执行自定义转换。以下示例将所有输出转换为 numpy 数组:
pylibraft.config.set_output_as(lambda device_ndarray: return device_ndarray.copy_to_host())
pylibraft 还支持写入预分配的输出数组,因此任何支持 __cuda_array_interface__ 的数组都可以就地(in-place)写入:
import cupy as cp
from cuvs.distance import pairwise_distance
n_samples = 5000
n_features = 50
in1 = cp.random.random_sample((n_samples, n_features), dtype=cp.float32)
in2 = cp.random.random_sample((n_samples, n_features), dtype=cp.float32)
output = cp.empty((n_samples, n_samples), dtype=cp.float32)
pairwise_distance(in1, in2, out=output, metric="euclidean")
安装
RAFT 的 C++ 和 Python 库都可以通过 Conda 安装,Python 库也可以通过 Pip 安装。
通过 Conda 安装 C++ 和 Python
通过 conda 安装 RAFT 是最简单的方法,并提供多个软件包。
libraft-headersC++ 头文件pylibraft(可选)Python 库raft-dask(可选)用于在 Dask 集群中部署使用 RAFTraft::comms抽象层的多节点多 GPU 算法的 Python 库。
根据您的 CUDA 版本使用以下命令通过 conda 安装所有 RAFT 软件包(将 rapidsai 替换为 rapidsai-nightly 以安装更新但稳定性稍差的夜间构建版本)。推荐使用 mamba 命令而非 conda。
# CUDA 13
mamba install -c rapidsai -c conda-forge raft-dask pylibraft cuda-version=13.1
# CUDA 12
mamba install -c rapidsai -c conda-forge raft-dask pylibraft cuda-version=12.9
注意,上述命令也会安装 libraft-headers 和 libraft。
您也可以使用上面的 mamba 命令单独安装 conda 软件包。例如,如果您想安装 RAFT 的头文件和预编译共享库以便在项目中使用:
# CUDA 13
mamba install -c rapidsai -c conda-forge libraft libraft-headers cuda-version=13.1
# CUDA 12
mamba install -c rapidsai -c conda-forge libraft libraft-headers cuda-version=12.9
通过 Pip 安装 Python
pylibraft 和 raft-dask 都有可以通过 pip 安装 的实验性软件包:
# CUDA 13
pip install pylibraft-cu13
pip install raft-dask-cu13
# CUDA 12
pip install pylibraft-cu12
pip install raft-dask-cu12
这些软件包静态构建了 RAFT 的预编译实例,因此 C++ 头文件不会直接可用于您的代码中。
构建说明 包含有关从源代码构建 RAFT 并将其包含在下游项目中的更多详细信息。您也可以在构建说明的 从源代码构建 RAFT C++ 和 Python 部分找到上述 CPM 代码片段的更完整版本。
贡献
如果您对为 RAFT 项目做出贡献感兴趣,请阅读我们的 贡献指南。有关开发者指南、工作流程和原则的详细信息,请参阅 开发者指南。
参考文献
在一般引用 RAFT 时,请考虑引用此 GitHub 项目。
@misc{rapidsai,
title={Rapidsai/raft: RAFT contains fundamental widely-used algorithms and primitives for data science, Graph and machine learning.},
url={https://github.com/rapidsai/raft},
journal={GitHub},
publisher={NVIDIA RAPIDS},
author={Rapidsai},
year={2022}
}
版本历史
v24.10.002024/10/09v26.02.002026/02/04v25.12.002025/12/11v25.10.002025/10/08v25.12.00a2025/10/01v25.08.002025/08/06v25.06.002025/06/05v25.04.002025/04/09v25.02.002025/03/24v24.12.002024/12/11v24.08.002024/08/07v24.06.002024/06/05v24.04.002024/04/10v24.02.002024/02/12v23.12.002023/12/06v23.10.002023/10/11v23.08.002023/08/09v23.06.022023/07/05v23.06.012023/06/12v23.06.002023/06/07常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。