FasterTransformer

6.4k 935 较难 1 次阅读 3天前Apache-2.0开发框架Agent语言模型

AI 解读由 AI 自动生成，仅供参考

FasterTransformer 是 NVIDIA 推出的一款高性能推理加速库，专为优化基于 Transformer 架构的模型（如 BERT、GPT 等）而设计。它通过深度定制 CUDA 内核，充分利用 GPU 的 Tensor Core 算力，显著提升了自然语言处理中编码器与解码器的推理速度，有效解决了大模型在实际部署中延迟高、吞吐量低的痛点。

该工具主要面向 AI 开发者、算法工程师及研究人员，特别是那些需要在 TensorFlow、PyTorch 或 Triton 后端中集成高效推理能力的团队。FasterTransformer 支持多种精度格式（包括 FP16、INT8 及稀疏化计算），并具备张量并行与流水线并行能力，能够灵活适配从 Volta 到 Hopper 等多代 NVIDIA GPU 架构。

值得注意的是，目前 FasterTransformer 的核心开发已迁移至新一代项目 TensorRT-LLM，建议新用户优先关注后者以获取最新的大语言模型推理优化特性。不过，FasterTransformer 依然是一个成熟稳定的选择，尤其适合需要在现有框架中快速落地高精度、低延迟 NLP 应用的场景。

使用场景

某大型电商平台的智能客服团队正在部署基于 BERT 模型的实时意图识别系统，以应对大促期间每秒数万次的用户咨询请求。

没有 FasterTransformer 时

响应延迟高：原生 PyTorch 实现的 BERT 模型在 GPU 上推理耗时较长，平均响应时间超过 80 毫秒，导致用户感觉对话有明顯卡顿。
硬件资源浪费：无法自动调用 NVIDIA GPU 特有的 Tensor Core 进行 FP16 混合精度加速，算力利用率低，需增加大量显卡才能维持并发量。
扩容成本高昂：为了支撑高峰流量，不得不采购更多服务器，且因单卡吞吐量低，集群规模庞大，运维复杂度急剧上升。
集成难度大：缺乏针对 TensorFlow 或 Triton 后端的高度优化算子，自行编写 CUDA 内核进行加速不仅开发周期长，还容易引入稳定性风险。

使用 FasterTransformer 后

延迟显著降低：通过高度优化的 Transformer 层和自动启用 Tensor Core，FP16 精度下推理延迟降至 20 毫秒以内，实现丝滑的实时交互体验。
吞吐量翻倍：充分利用 cuBLASLt 等底层库优势，单卡并发处理能力大幅提升，在相同硬件配置下可处理的请求量增长 3-4 倍。
基础设施降本：凭借更高的计算密度，所需服务器数量减少 60% 以上，直接降低了硬件采购成本和机房电力消耗。
无缝框架集成：直接通过提供的 API 将优化后的算子嵌入现有的 PyTorch 或 Triton 流程中，无需重写业务代码，一周内即可完成上线切换。

FasterTransformer 通过深度挖掘 GPU 硬件潜能，将昂贵的 Transformer 推理任务转化为低成本、低延迟的生产力工具。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
支持 Volta (如 V100), Turing (如 T4), Ampere (如 A100), Hopper 架构
在 FP16 精度下自动利用 Tensor Cores
示例硬件包括 8xA100-80GB 和 T4

内存

未说明

依赖

notes1. 该项目开发已停止，官方建议开发者迁移至 TensorRT-LLM 以获取最新的大语言模型推理改进。 2. 核心代码基于 C++、CUDA、cuBLAS 和 cuBLASLt 构建。 3. 提供 TensorFlow、PyTorch 和 Triton backend 的 API 接口及示例代码。 4. 支持多种精度：FP16（通用），INT8（Turing 架构后），稀疏化（Ampere 架构后），FP8（Hopper 架构后）。 5. 支持张量并行（Tensor parallel）和流水线并行（Pipeline parallel）。 6. 需安装 'bc' 工具以运行性能基准测试脚本。

python未说明

CUDA

cuBLAS

cuBLASLt

C++

TensorFlow (可选)

PyTorch (可选)

Triton Inference Server (可选)

TensorRT (可选)

快速开始

注意：FasterTransformer 的开发已迁移至 TensorRT-LLM。我们鼓励所有开发者使用 TensorRT-LLM 来获得 LLM 推理方面的最新改进。NVIDIA/FasterTransformer 仓库将继续保留，但将不再进行进一步开发。

FasterTransformer

本仓库提供用于运行高度优化的基于 Transformer 的编码器和解码器组件的脚本和配方，并由 NVIDIA 进行测试和维护。

模型概述

在自然语言处理领域，编码器和解码器是两个重要的组成部分，而 Transformer 层已成为这两种组件中非常流行的一种架构。FasterTransformer 为推理任务实现了高度优化的 Transformer 编码器和解码器层。在 Volta、Turing 和 Ampere 架构的 GPU 上，当数据和权重的精度为 FP16 时，Tensor Core 的计算能力会自动被利用。

FasterTransformer 基于 CUDA、cuBLAS、cuBLASLt 和 C++ 构建。我们提供了至少一种以下框架的 API：TensorFlow、PyTorch 和 Triton 后端。用户可以直接将 FasterTransformer 集成到这些框架中。对于支持的框架，我们还提供了示例代码来演示如何使用，并展示其在这些框架上的性能。

支持矩阵

模型	框架	FP16	INT8（Turing之后）	稀疏化（Ampere之后）	张量并行	流水线并行	FP8（Hopper之后）
BERT	TensorFlow	是	是	-	-	-	-
BERT	PyTorch	是	是	是	是	是	-
BERT	Triton后端	是	-	-	是	是	-
BERT	C++	是	是	-	-	-	是
XLNet	C++	是	-	-	-	-	-
Encoder	TensorFlow	是	是	-	-	-	-
Encoder	PyTorch	是	是	是	-	-	-
Decoder	TensorFlow	是	-	-	-	-	-
Decoder	PyTorch	是	-	-	-	-	-
Decoding	TensorFlow	是	-	-	-	-	-
Decoding	PyTorch	是	-	-	-	-	-
GPT	TensorFlow	是	-	-	-	-	-
GPT/OPT	PyTorch	是	-	-	是	是	是
GPT/OPT	Triton后端	是	-	-	是	是	-
GPT-MoE	PyTorch	是	-	-	是	是	-
BLOOM	PyTorch	是	-	-	是	是	-
BLOOM	Triton后端	是	-	-	是	是	-
GPT-J	Triton后端	是	-	-	是	是	-
Longformer	PyTorch	是	-	-	-	-	-
T5/UL2	PyTorch	是	-	-	是	是	-
T5	TensorFlow 2	是	-	-	-	-	-
T5/UL2	Triton后端	是	-	-	是	是	-
T5	TensorRT	是	-	-	是	是	-
T5-MoE	PyTorch	是	-	-	是	是	-
Swin Transformer	PyTorch	是	是	-	-	-	-
Swin Transformer	TensorRT	是	是	-	-	-	-
ViT	PyTorch	是	是	-	-	-	-
ViT	TensorRT	是	是	-	-	-	-
GPT-NeoX	PyTorch	是	-	-	是	是	-
GPT-NeoX	Triton后端	是	-	-	是	是	-
BART/mBART	PyTorch	是	-	-	是	是	-
WeNet	C++	是	-	-	-	-	-
DeBERTa	TensorFlow 2	是	-	-	进行中	进行中	-
DeBERTa	PyTorch	是	-	-	进行中	进行中	-

注意：FasterTransformer 在 C++ 上支持上述模型，因为所有源代码都是基于 C++ 构建的。

有关具体模型的更多详细信息，请参阅 docs/ 中的 xxx_guide.md 文件，其中 xxx 表示模型名称。一些常见问题及其解答已收录在 docs/QAList.md 中。请注意，Encoder 和 BERT 的模型较为相似，因此我们将相关说明合并到了 bert_guide.md 中。

高级

以下代码列出了 FasterTransformer 的目录结构：

/src/fastertransformer: FasterTransformer 的源代码
    |--/cutlass_extensions: Cutlass GEMM/内核的实现。
    |--/kernels: 用于不同模型/层和操作的 CUDA 内核，例如 addBiasResiual。
    |--/layers: 层模块的实现，如注意力层、FFN 层。
    |--/models: 不同模型的实现，如 BERT、GPT。
    |--/tensorrt_plugin: 将 FasterTransformer 封装为 TensorRT 插件。
    |--/tf_op: 自定义 TensorFlow OP 实现
    |--/th_op: 自定义 PyTorch OP 实现
    |--/triton_backend: 自定义 Triton 后端实现
    |--/utils: 包含常用的 CUDA 工具，如 cublasMMWrapper、memory_utils
/examples: C++、TensorFlow 和 PyTorch 接口示例
    |--/cpp: C++ 接口示例
    |--/pytorch: PyTorch OP 示例
    |--/tensorflow: TensorFlow OP 示例
    |--/tensorrt: TensorRT 示例
/docs: 解释不同模型实现细节并展示基准测试结果的文档
/benchmark: 包含运行不同模型基准测试的脚本
/tests: 单元测试
/templates: 解释如何将新模型/示例添加到 FasterTransformer 仓库的文档

请注意，许多文件夹包含多个子文件夹，用于划分不同的模型。量化工具已移至 examples 目录下，例如 examples/tensorflow/bert/bert-quantization/ 和 examples/pytorch/bert/bert-quantization-sparsity/。

全局环境

FasterTransformer 提供了一些方便的环境变量，用于调试和测试。

FT_LOG_LEVEL: 此环境变量控制调试消息的日志级别。更多详细信息请参阅 src/fastertransformer/utils/logger.h。请注意，当日志级别低于 DEBUG 时，程序会打印大量信息，从而导致程序运行速度显著变慢。
FT_NVTX: 如果将其设置为 ON，例如 FT_NVTX=ON ./bin/gpt_example，程序将插入 nvtx 标签，以帮助对程序进行性能分析。
FT_DEBUG_LEVEL: 如果将其设置为 DEBUG，则程序将在每个内核执行后调用 cudaDeviceSynchronize()。否则，默认情况下内核是异步执行的。这有助于在调试过程中定位错误点。但此标志会显著影响程序性能，因此应仅在调试时使用。

性能

硬件配置：

8xA100-80GB（mclk 1593MHz，pclk 1410MHz），搭配 AMD EPYC 7742 64 核处理器
T4（mclk 5000MHz，pclk 1590MHz），搭配 Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz

为了运行以下基准测试，我们需要安装 Unix 计算工具 "bc"，命令如下：

apt-get install bc

BERT 基础性能

TensorFlow 的 FP16 结果通过运行 benchmarks/bert/tf_benchmark.sh 获得。

TensorFlow 的 INT8 结果通过运行 benchmarks/bert/tf_int8_benchmark.sh 获得。

PyTorch 的 FP16 结果通过运行 benchmarks/bert/pyt_benchmark.sh 获得。

PyTorch 的 INT8 结果通过运行 benchmarks/bert/pyt_int8_benchmark.sh 获得。

更多基准测试结果请参阅 docs/bert_guide.md。

FasterTransformer 新功能的 BERT 基础性能

下图比较了 T4 上 FP16 条件下，FasterTransformer 不同功能与原版 FasterTransformer 的性能。

对于较大的批次大小和序列长度，EFF-FT 和 FT-INT8-v2 都带来了约 2 倍的加速。同时使用 Effective FasterTransformer 和 int8v2 可以使大型任务的加速比达到原版 FasterTransformer FP16 的 3.5 倍。

BERT 基础性能（TensorFlow）

下图比较了 T4 上 FP16 条件下，FasterTransformer 不同功能与 TensorFlow XLA 的性能。

对于较小的批次大小和序列长度，使用 FasterTransformer 可以带来约 3 倍的加速。

对于较大的批次大小和序列长度，使用 Effective FasterTransformer 并结合 INT8-v2 量化技术，可以带来约 5 倍的加速。

BERT 基础性能（PyTorch）

下图比较了 T4 上 FP16 条件下，FasterTransformer 不同功能与 PyTorch TorchScript 的性能。

对于较小的批次大小和序列长度，使用 FasterTransformer CustomExt 可以带来约 4 到 6 倍的加速。

对于较大的批次大小和序列长度，使用 Effective FasterTransformer 并结合 INT8-v2 量化技术，可以带来约 5 倍的加速。

解码与解码器性能

TensorFlow 的结果通过运行 benchmarks/decoding/tf_decoding_beamsearch_benchmark.sh 和 benchmarks/decoding/tf_decoding_sampling_benchmark.sh 获得。

PyTorch 的结果通过运行 benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh 获得。

在解码实验中，我们更新了以下参数：

head_num = 8
size_per_head = 64
num_layers = 6 对于编码器和解码器
vocabulary_size = 32001 对于 TensorFlow 示例代码，31538 对于 PyTorch 示例代码
memory_hidden_dim = 512
max sequence length = 128

更多基准测试结果请参阅 docs/decoder_guide.md。

解码器及解码端到端翻译性能（TensorFlow）

下图展示了在 T4 上 FP16 条件下，FT-Decoder op 和 FT-Decoding op 相较于 TensorFlow 的加速效果。这里我们使用翻译测试集的吞吐量来避免不同方法的总 token 数可能不同。相比 TensorFlow，FT-Decoder 提供了 1.5 到 3 倍的加速；而 FT-Decoding 则提供了 4 到 18 倍的加速。

解码器及解码端到端翻译性能（PyTorch）

下图展示了在 T4 上 FP16 条件下，FT-Decoder op 和 FT-Decoding op 相较于 PyTorch 的加速效果。这里我们使用翻译测试集的吞吐量来避免不同方法的总 token 数可能不同。相比 PyTorch，FT-Decoder 提供了 1.2 到 3 倍的加速；而 FT-Decoding 则提供了 3.8 到 13 倍的加速。

GPT 性能

下图比较了 A100 上 FP16 条件下，Megatron 和 FasterTransformer 的性能。

在解码实验中，我们更新了以下参数：

head_num = 96
size_per_head = 128
num_layers = 48 对于 GPT-89B 模型，96 对于 GPT-175B 模型
data_type = FP16
vocab_size = 51200
top_p = 0.9
tensor parallel size = 8
input sequence length = 512
output sequence length = 32

发行说明

更改日志

2023年5月

修复生成过程中的提前停止相关 bug

2023年1月

支持 GPT MoE 模型
支持 Bert 和 GPT 的 FP8 精度（实验性功能）
支持在 TensorFlow 2 和 PyTorch 上运行 DeBERTa 模型

2022年12月

发布 FasterTransformer 5.2 版本
支持最小长度惩罚机制

2022年11月

支持 T5 Tensorflow 2 自定义算子
支持 T5 MoE 模型
支持 WeNet 模型
支持 BART 和 mBART 模型
支持 SwinV2 模型
初步支持 GPT 模型的 w8a8 int8 运行模式（预览版）
支持 GPT 中的融合多头注意力机制

2022年10月

支持 BLOOM 模型

2022年9月

在 GPT 模型中支持事实采样（链接）
支持 T5 模型中的 IA3 适配方案

2022年8月

支持在 GPT 模型中返回上下文 token 的嵌入表示
发布 FasterTransformer 5.1 版本
支持交互式生成
支持注意力机制的有限内存功能
支持 mt5 和 t5-v1.1 模型

2022年7月

支持 UL2 Hugging Face 检查点（链接）
- 修复 T5 模型在 bfloat16 精度下的 bug
添加 ViT INT8 TensorRT 插件
支持批量采样
支持 GPT 模型中的共享上下文优化

2022年6月

支持 Triton 后端的流式生成
支持 OPT 模型
支持在 FP32、FP16 和 BF16 精度下进行多节点多 GPU 的 BERT 推理

2022年5月

支持大多数模型使用 bfloat16 精度
支持 GPT-J 模型的前缀提示
支持 GPT-NeoX 模型
- 层归一化中使用的 epsilon 值现为可配置参数
- 引入 GPT-NeoX 风格的旋转位置编码（此前仅实现 GPT-J）
- 支持按 GPU 加载层归一化和偏置参数
- 支持从 EleutherAI 检查点转换权重

2022年4月

发布 FasterTransformer 5.0 版本
- 将所有矩阵乘法运算的默认累加类型更改为 FP32
- 支持 GPT 模型中的 bfloat16 推理
- 支持 Nemo Megatron T5 和 Megatron-LM T5 模型
- 支持 ViT 模型

2022年3月

支持 GPT-J 模型中的 stop_ids 和 ban_bad_ids
支持 GPT-J、GPT 和 T5 模型中动态设置 start_id 和 end_id
支持解码过程中动态调整输入

2022年2月

支持 Swin Transformer 模型
通过定向缓冲优化束搜索的 k/v 缓存更新
支持 GPT-J、T5 和 GPT 模型的运行时输入
支持 GPT 和 GPT-J 模型中的软提示
支持自定义 AllReduce 核心
- 限制：
  1. 仅支持 DGX-A100 上的张量并行规模为 8
  2. 仅支持使用 cudaMallocAsync 的 CUDA 版本

2021年12月

添加 T5 模型的 TensorRT 插件
将 GPT 模型的部分超参数改为运行时可查询
优化 C++ 代码中的内存分配器
修复 CUB 库的 bug，包括在使用 CUDA 11.5 或更高版本时的问题

2021年11月

更新 FasterTransformer 5.0 测试版
添加 GPT-3 INT8 权重量化支持，适用于批大小不超过 2 的场景
支持 T5 模型的多节点多 GPU 推理
增强 GPT-3 模型的多节点多 GPU 支持能力

2021年8月

发布 FasterTransformer 5.0 测试版
- 重构代码库和代码结构
- 特别感谢 NAVER 公司对本版本的大量贡献，具体如下：
  - Bug 修复：
    - 修复 GPT PyTorch 封装中 batch_size 小于 max_batch_size 时出现的错误
    - 修复因重复使用内存分配器导致的每次前向传播时的内存泄漏问题
    - 修复重复惩罚核函数中的竞态条件
  - 功能增强：
    - 添加随机种子设置
    - 修复 GPT 在 FP16 精度下 GEMM 缓冲区溢出问题
    - 更改完成缓冲区的失效策略，确保每次推理完成后及时释放
    - 引入 stop_before 参数用于提前停止
- 支持 Longformer 模型
- 将 layer_para 重命名为 pipeline_para
- 优化 top p 采样的排序逻辑
- 支持 Ampere 架构 GPU 上 BERT 模型的稀疏化
- 支持 GPT 模型中 size_per_head 取值为 96、160、192、224、256
- 支持 GPT Triton 后端的多节点推理

2021年6月

支持 XLNet 模型

2021年4月

发布 FasterTransformer 4.0 版本
- 支持 GPT 模型在 C++ 和 PyTorch 下的多 GPU 多节点推理
- 支持 GPT 模型在 Triton 上的单节点多 GPU 推理
- 为 BERT 模型添加 INT8 融合多头注意力核
- 为 V100 显卡上的 BERT 模型添加 FP16 融合多头注意力核
- 优化解码器核函数
- 迁移到独立代码库
- 废弃 Eager 模式下的 PyTorch 扩展

2020年12月

发布 FasterTransformer 3.1 版本
- 通过添加已完成掩码来优化解码过程，避免无效计算
- 支持 OpenNMT 编码器
- 移除 TensorRT 插件支持
- 废弃 TorchScript 自定义算子

2020年11月

优化 INT8 推理流程
支持 PyTorch 的 INT8 推理
提供 PyTorch 的 INT8 量化工具
将 TensorRT 的融合多头注意力核集成到 FasterTransformer 中
添加 SQuAD 数据集的单元测试
更新缺失的 NGC 检查点

2020年9月

支持 GPT2 模型
发布 FasterTransformer 3.0 版本
- 支持 C++ 和 TensorFlow 算子的编码器 INT8 量化
- 添加 bert-tf-quantization 工具
- 修复 CMake 15 或 CMake 16 无法构建该项目的问题

2020年8月

修复 trt 插件的 bug

2020年6月

发布 FasterTransformer 2.1 版本
- 基于 Effective Transformer 思想添加 Effective FasterTransformer
- 优化束搜索核函数
- 添加 PyTorch 算子支持

2020年5月

修复编码器序列长度必须大于 3 的 bug
将解码的位置编码作为 FasterTransformer 解码的输入。这样可以方便使用不同类型的位置编码。FasterTransformer 不会自行计算位置编码值，而是直接查表。
修改 translate_sample.py 中加载模型的方法

2020年4月

将 decoding_opennmt.h 重命名为 decoding_beamsearch.h
为解码添加 DiverseSiblingsSearch 策略
在解码中加入采样功能
- 实现位于 decoding_sampling.h
- 添加 top_k 采样和 top_p 采样
重构 TensorFlow 自定义算子代码
- 将 bert_transformer_op.h 和 bert_transformer_op.cu.cc 合并为 bert_transformer_op.cc
- 将 decoder.h 和 decoder.cu.cc 合并为 decoder.cc
- 将 decoding_beamsearch.h 和 decoding_beamsearch.cu.cc 合并为 decoding_beamsearch.cc
修复 decoding.py 中 finalize 函数的 bug
修复 TF 版本的 DiverseSiblingSearch 的 bug
将 BLEU 评分器 bleu_score.py 添加到 utils 目录中。注意，BLEU 评分需要 Python 3 环境。
将编码器的 QKV GEMM 和解码器的 masked_multi_head_attention 融合在一起
在所有算子中添加动态批大小和动态序列长度功能。

2020年3月

在 FasterTransformer 2.0 中新增功能
- 添加 translate_sample.py，演示如何通过恢复 OpenNMT-tf 的预训练模型来翻译一句话。
修复 FasterTransformer 2.0 的 bug
- 修复解码器最大序列长度不能超过 128 的问题。
- 修复解码过程中每一步未检查是否已完成的 bug。
- 修复解码器关于 max_seq_len 的 bug。
- 修改解码模型结构以适配 OpenNMT-tf 的解码模型。
  - 在解码器后添加一层层归一化。
  - 为解码器的输入添加归一化。

2020年2月

发布 FasterTransformer 2.0
- 提供基于 OpenNMT-tf 的高度优化解码器及解码功能，包含 C++ API 和 TensorFlow 操作。
- 优化编码器示例代码。
- 在编码器操作中加入动态批大小功能。

2019年7月

发布 FasterTransformer 1.0
- 提供高度优化的 BERT 等效 Transformer 层，包含 C++ API、TensorFlow 操作和 TensorRT 插件。

已知问题

由于未定义符号问题，无法在 TensorFlow 2.10 上编译。
导入扩展时出现未定义符号错误。
- 请先执行 import torch。如果已执行仍出现错误，则可能是 C++ ABI 不兼容所致。建议检查编译和运行时使用的 PyTorch 版本是否一致，或检查 PyTorch 的编译方式、GCC 版本等。
TensorFlow 实现与 OP 实现的解码结果会有所不同。该问题由累积的对数概率引起，目前尚未解决。
如果在自定义环境中遇到问题，尝试使用 gcc/g++ 4.8 来构建 TensorFlow 操作项目，尤其针对 TensorFlow 1.14。

FasterTransformer 快速上手指南

重要提示：FasterTransformer 的开发已正式迁移至 TensorRT-LLM。NVIDIA 建议所有开发者使用 TensorRT-LLM 以获取最新的大语言模型（LLM）推理优化。本仓库将不再进行新功能开发，仅作为历史版本维护。

FasterTransformer 是 NVIDIA 提供的高性能 Transformer 推理库，基于 CUDA、cuBLAS 和 C++ 构建，专为 Volta、Turing、Ampere 及 Hopper 架构的 GPU 优化，支持 FP16、INT8 等精度加速。

环境准备

系统要求

操作系统: Linux (推荐 Ubuntu 18.04/20.04/22.04)
GPU: NVIDIA GPU (Volta 架构及以上，如 V100, T4, A100, H100)
CUDA: 需安装与显卡驱动匹配的 CUDA Toolkit (通常建议 11.x 或 12.x)
编译器: GCC 7.5+ 或更高版本
CMake: 3.13 或更高版本

前置依赖

根据您使用的框架，需预先安装以下组件：

基础依赖: git, curl, build-essential
Python 框架 (可选):
- PyTorch (需匹配 CUDA 版本)
- TensorFlow (需匹配 CUDA 版本)
性能测试工具: bc (用于运行基准测试脚本)

# Ubuntu 系统安装基础依赖
sudo apt-get update
sudo apt-get install -y git curl build-essential bc

安装步骤

FasterTransformer 主要通过源码编译安装。以下是基于 C++ 核心库的标准编译流程（以 PyTorch 扩展为例）：

克隆仓库

git clone https://github.com/NVIDIA/FasterTransformer.git
cd FasterTransformer
git submodule init
git submodule update

配置编译环境 创建构建目录并运行 CMake。请根据您的实际环境调整 -DSM (Compute Capability) 和框架路径。

mkdir -p build && cd build

# 示例：编译支持 PyTorch 的版本
# 请替换 <YOUR_CUDA_PATH> 和 <YOUR_PYTORCH_PATH> 为实际路径
cmake -DSM=80 \
      -DCMAKE_BUILD_TYPE=Release \
      -DBUILD_PYT=ON \
      -DCUDA_TOOLKIT_ROOT_DIR=<YOUR_CUDA_PATH> \
      -DPYTHON_EXECUTABLE=$(which python3) \
      ..

注：-DSM=80 对应 Ampere 架构 (如 A100)，T4 请使用 -DSM=75，V100 请使用 -DSM=70。

编译安装
```
make -j$(nproc)
```
编译完成后，生成的动态库位于 build/lib 目录下，Python 扩展模块位于 build/pytorch (如果启用了 PyTorch)。

基本使用

以下展示如何在 PyTorch 中调用 FasterTransformer 的 BERT 模型进行推理。

1. 设置环境变量 (可选)

用于控制日志级别或调试：

export FT_LOG_LEVEL=INFO
# export FT_DEBUG_LEVEL=DEBUG  # 仅在调试内核错误时开启，会显著降低性能

2. Python 代码示例

确保将编译生成的 .so 文件路径加入 LD_LIBRARY_PATH，或在 Python 脚本中加载。

import torch
from fastertransformer import BertLayer

# 配置模型参数
config = {
    'head_num': 12,
    'size_per_head': 64,
    'inter_size': 3072,
    'num_layer': 12,
    'vocab_size': 30524,
    'max_seq_len': 512,
    'data_type': 'fp16',  # 推荐使用 fp16 以启用 Tensor Core
    'int8_mode': 0        # 0: FP16/FP32, 1: INT8
}

# 初始化模型层
# device_id 指定使用的 GPU ID
bert_layer = BertLayer(config, device_id=0)

# 准备输入数据 (batch_size, seq_len)
input_ids = torch.randint(0, config['vocab_size'], (4, 128)).cuda().int()
attention_mask = torch.ones_like(input_ids).cuda().int()

# 执行推理 (半精度计算)
with torch.cuda.amp.autocast():
    output = bert_layer.forward(input_ids, attention_mask)

print(f"Output shape: {output.shape}")

3. C++ 示例 (简述)

若直接使用 C++ 接口，可参考 examples/cpp 目录下的示例。核心流程包括初始化 CublasMMWrapper，构建 BertEncoder 对象，并调用 forward 方法。

// 伪代码示例，详细实现请参考 examples/cpp/bert_example.cc
#include "fastertransformer/models/bert.h"

// 初始化参数
ft::BertParam<T> bert_param;
// ... 设置 head_num, size_per_head 等参数 ...

// 构建模型
ft::BertEncoder<T> bert_encoder(..., bert_param);

// 执行推理
bert_encoder.forward(...);

提示：更多特定模型（如 GPT, T5, Swin Transformer）的详细用法和参数配置，请参阅仓库中 docs/ 目录下对应的 xxx_guide.md 文档。

版本历史

release/v5.3_tag2023/01/23

release/v5.2.1_tag2023/01/01

release/v5.2_bug_fix_tag2022/12/06

release/v5.2_tag2022/12/03

release/v5.1.1_tag2022/10/17

release/v5.1_bugfix_tag2022/08/23

release/v5.1_tag2022/08/16

release/v5.0_tag2022/04/15

release/v1.0_tag2021/04/03

release/v4.0_tag2021/04/05

release/v3.1_tag2021/07/29

release/v3.0_tag2021/04/03

release/v2.1_tag2021/04/03

release/v2.0_tag2021/04/03

常见问题

FasterTransformer 的 Triton 后端是否支持 T5 模型？是否有相关文档或示例？

为什么在 FP16 模式下，TensorFlow 版本的 GEMM 测试性能结果与 PyTorch 版本不同（甚至显示为 0.00ms）？

在修改 TensorFlow Op (gpt_op.cc) 以支持 start_ids 和 attention_mask 时，遇到类型不兼容错误（__half vs const DataType_）如何解决？

GPT 内核中为什么要运行 `forward_context`？这是否意味着第一个 token 被计算了两次？能否合并？

编译时遇到 `identifier "uint32_t" is undefined` 错误怎么办？

当采样参数 Top_p 大于 0.9 时，模型生成的内容变成乱码（Gibberish），这是什么原因？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架