FasterTransformer

GitHub
6.4k 935 较难 1 次阅读 3天前Apache-2.0开发框架Agent语言模型
AI 解读 由 AI 自动生成,仅供参考

FasterTransformer 是 NVIDIA 推出的一款高性能推理加速库,专为优化基于 Transformer 架构的模型(如 BERT、GPT 等)而设计。它通过深度定制 CUDA 内核,充分利用 GPU 的 Tensor Core 算力,显著提升了自然语言处理中编码器与解码器的推理速度,有效解决了大模型在实际部署中延迟高、吞吐量低的痛点。

该工具主要面向 AI 开发者、算法工程师及研究人员,特别是那些需要在 TensorFlow、PyTorch 或 Triton 后端中集成高效推理能力的团队。FasterTransformer 支持多种精度格式(包括 FP16、INT8 及稀疏化计算),并具备张量并行与流水线并行能力,能够灵活适配从 Volta 到 Hopper 等多代 NVIDIA GPU 架构。

值得注意的是,目前 FasterTransformer 的核心开发已迁移至新一代项目 TensorRT-LLM,建议新用户优先关注后者以获取最新的大语言模型推理优化特性。不过,FasterTransformer 依然是一个成熟稳定的选择,尤其适合需要在现有框架中快速落地高精度、低延迟 NLP 应用的场景。

使用场景

某大型电商平台的智能客服团队正在部署基于 BERT 模型的实时意图识别系统,以应对大促期间每秒数万次的用户咨询请求。

没有 FasterTransformer 时

  • 响应延迟高:原生 PyTorch 实现的 BERT 模型在 GPU 上推理耗时较长,平均响应时间超过 80 毫秒,导致用户感觉对话有明顯卡顿。
  • 硬件资源浪费:无法自动调用 NVIDIA GPU 特有的 Tensor Core 进行 FP16 混合精度加速,算力利用率低,需增加大量显卡才能维持并发量。
  • 扩容成本高昂:为了支撑高峰流量,不得不采购更多服务器,且因单卡吞吐量低,集群规模庞大,运维复杂度急剧上升。
  • 集成难度大:缺乏针对 TensorFlow 或 Triton 后端的高度优化算子,自行编写 CUDA 内核进行加速不仅开发周期长,还容易引入稳定性风险。

使用 FasterTransformer 后

  • 延迟显著降低:通过高度优化的 Transformer 层和自动启用 Tensor Core,FP16 精度下推理延迟降至 20 毫秒以内,实现丝滑的实时交互体验。
  • 吞吐量翻倍:充分利用 cuBLASLt 等底层库优势,单卡并发处理能力大幅提升,在相同硬件配置下可处理的请求量增长 3-4 倍。
  • 基础设施降本:凭借更高的计算密度,所需服务器数量减少 60% 以上,直接降低了硬件采购成本和机房电力消耗。
  • 无缝框架集成:直接通过提供的 API 将优化后的算子嵌入现有的 PyTorch 或 Triton 流程中,无需重写业务代码,一周内即可完成上线切换。

FasterTransformer 通过深度挖掘 GPU 硬件潜能,将昂贵的 Transformer 推理任务转化为低成本、低延迟的生产力工具。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 支持 Volta (如 V100), Turing (如 T4), Ampere (如 A100), Hopper 架构
  • 在 FP16 精度下自动利用 Tensor Cores
  • 示例硬件包括 8xA100-80GB 和 T4
内存

未说明

依赖
notes1. 该项目开发已停止,官方建议开发者迁移至 TensorRT-LLM 以获取最新的大语言模型推理改进。 2. 核心代码基于 C++、CUDA、cuBLAS 和 cuBLASLt 构建。 3. 提供 TensorFlow、PyTorch 和 Triton backend 的 API 接口及示例代码。 4. 支持多种精度:FP16(通用),INT8(Turing 架构后),稀疏化(Ampere 架构后),FP8(Hopper 架构后)。 5. 支持张量并行(Tensor parallel)和流水线并行(Pipeline parallel)。 6. 需安装 'bc' 工具以运行性能基准测试脚本。
python未说明
CUDA
cuBLAS
cuBLASLt
C++
TensorFlow (可选)
PyTorch (可选)
Triton Inference Server (可选)
TensorRT (可选)
FasterTransformer hero image

快速开始

注意:FasterTransformer 的开发已迁移至 TensorRT-LLM。我们鼓励所有开发者使用 TensorRT-LLM 来获得 LLM 推理方面的最新改进。NVIDIA/FasterTransformer 仓库将继续保留,但将不再进行进一步开发。

FasterTransformer

本仓库提供用于运行高度优化的基于 Transformer 的编码器和解码器组件的脚本和配方,并由 NVIDIA 进行测试和维护。

目录

模型概述

在自然语言处理领域,编码器和解码器是两个重要的组成部分,而 Transformer 层已成为这两种组件中非常流行的一种架构。FasterTransformer 为推理任务实现了高度优化的 Transformer 编码器和解码器层。在 Volta、Turing 和 Ampere 架构的 GPU 上,当数据和权重的精度为 FP16 时,Tensor Core 的计算能力会自动被利用。

FasterTransformer 基于 CUDA、cuBLAS、cuBLASLt 和 C++ 构建。我们提供了至少一种以下框架的 API:TensorFlow、PyTorch 和 Triton 后端。用户可以直接将 FasterTransformer 集成到这些框架中。对于支持的框架,我们还提供了示例代码来演示如何使用,并展示其在这些框架上的性能。

支持矩阵

模型 框架 FP16 INT8(Turing之后) 稀疏化(Ampere之后) 张量并行 流水线并行 FP8(Hopper之后)
BERT TensorFlow - - - -
BERT PyTorch -
BERT Triton后端 - - -
BERT C++ - - -
XLNet C++ - - - - -
Encoder TensorFlow - - - -
Encoder PyTorch - - -
Decoder TensorFlow - - - - -
Decoder PyTorch - - - - -
Decoding TensorFlow - - - - -
Decoding PyTorch - - - - -
GPT TensorFlow - - - - -
GPT/OPT PyTorch - -
GPT/OPT Triton后端 - - -
GPT-MoE PyTorch - - -
BLOOM PyTorch - - -
BLOOM Triton后端 - - -
GPT-J Triton后端 - - -
Longformer PyTorch - - - - -
T5/UL2 PyTorch - - -
T5 TensorFlow 2 - - - - -
T5/UL2 Triton后端 - - -
T5 TensorRT - - -
T5-MoE PyTorch - - -
Swin Transformer PyTorch - - - -
Swin Transformer TensorRT - - - -
ViT PyTorch - - - -
ViT TensorRT - - - -
GPT-NeoX PyTorch - - -
GPT-NeoX Triton后端 - - -
BART/mBART PyTorch - - -
WeNet C++ - - - - -
DeBERTa TensorFlow 2 - - 进行中 进行中 -
DeBERTa PyTorch - - 进行中 进行中 -
  • 注意:FasterTransformer 在 C++ 上支持上述模型,因为所有源代码都是基于 C++ 构建的。

有关具体模型的更多详细信息,请参阅 docs/ 中的 xxx_guide.md 文件,其中 xxx 表示模型名称。一些常见问题及其解答已收录在 docs/QAList.md 中。请注意,Encoder 和 BERT 的模型较为相似,因此我们将相关说明合并到了 bert_guide.md 中。

高级

以下代码列出了 FasterTransformer 的目录结构:

/src/fastertransformer: FasterTransformer 的源代码
    |--/cutlass_extensions: Cutlass GEMM/内核的实现。
    |--/kernels: 用于不同模型/层和操作的 CUDA 内核,例如 addBiasResiual。
    |--/layers: 层模块的实现,如注意力层、FFN 层。
    |--/models: 不同模型的实现,如 BERT、GPT。
    |--/tensorrt_plugin: 将 FasterTransformer 封装为 TensorRT 插件。
    |--/tf_op: 自定义 TensorFlow OP 实现
    |--/th_op: 自定义 PyTorch OP 实现
    |--/triton_backend: 自定义 Triton 后端实现
    |--/utils: 包含常用的 CUDA 工具,如 cublasMMWrapper、memory_utils
/examples: C++、TensorFlow 和 PyTorch 接口示例
    |--/cpp: C++ 接口示例
    |--/pytorch: PyTorch OP 示例
    |--/tensorflow: TensorFlow OP 示例
    |--/tensorrt: TensorRT 示例
/docs: 解释不同模型实现细节并展示基准测试结果的文档
/benchmark: 包含运行不同模型基准测试的脚本
/tests: 单元测试
/templates: 解释如何将新模型/示例添加到 FasterTransformer 仓库的文档

请注意,许多文件夹包含多个子文件夹,用于划分不同的模型。量化工具已移至 examples 目录下,例如 examples/tensorflow/bert/bert-quantization/examples/pytorch/bert/bert-quantization-sparsity/

全局环境

FasterTransformer 提供了一些方便的环境变量,用于调试和测试。

  1. FT_LOG_LEVEL: 此环境变量控制调试消息的日志级别。更多详细信息请参阅 src/fastertransformer/utils/logger.h。请注意,当日志级别低于 DEBUG 时,程序会打印大量信息,从而导致程序运行速度显著变慢。
  2. FT_NVTX: 如果将其设置为 ON,例如 FT_NVTX=ON ./bin/gpt_example,程序将插入 nvtx 标签,以帮助对程序进行性能分析。
  3. FT_DEBUG_LEVEL: 如果将其设置为 DEBUG,则程序将在每个内核执行后调用 cudaDeviceSynchronize()。否则,默认情况下内核是异步执行的。这有助于在调试过程中定位错误点。但此标志会显著影响程序性能,因此应仅在调试时使用。

性能

硬件配置:

  • 8xA100-80GB(mclk 1593MHz,pclk 1410MHz),搭配 AMD EPYC 7742 64 核处理器
  • T4(mclk 5000MHz,pclk 1590MHz),搭配 Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz

为了运行以下基准测试,我们需要安装 Unix 计算工具 "bc",命令如下:

apt-get install bc

BERT 基础性能

TensorFlow 的 FP16 结果通过运行 benchmarks/bert/tf_benchmark.sh 获得。

TensorFlow 的 INT8 结果通过运行 benchmarks/bert/tf_int8_benchmark.sh 获得。

PyTorch 的 FP16 结果通过运行 benchmarks/bert/pyt_benchmark.sh 获得。

PyTorch 的 INT8 结果通过运行 benchmarks/bert/pyt_int8_benchmark.sh 获得。

更多基准测试结果请参阅 docs/bert_guide.md

FasterTransformer 新功能的 BERT 基础性能

下图比较了 T4 上 FP16 条件下,FasterTransformer 不同功能与原版 FasterTransformer 的性能。

对于较大的批次大小和序列长度,EFF-FT 和 FT-INT8-v2 都带来了约 2 倍的加速。同时使用 Effective FasterTransformer 和 int8v2 可以使大型任务的加速比达到原版 FasterTransformer FP16 的 3.5 倍。

BERT 基础性能(TensorFlow)

下图比较了 T4 上 FP16 条件下,FasterTransformer 不同功能与 TensorFlow XLA 的性能。

对于较小的批次大小和序列长度,使用 FasterTransformer 可以带来约 3 倍的加速。

对于较大的批次大小和序列长度,使用 Effective FasterTransformer 并结合 INT8-v2 量化技术,可以带来约 5 倍的加速。

BERT 基础性能(PyTorch)

下图比较了 T4 上 FP16 条件下,FasterTransformer 不同功能与 PyTorch TorchScript 的性能。

对于较小的批次大小和序列长度,使用 FasterTransformer CustomExt 可以带来约 4 到 6 倍的加速。

对于较大的批次大小和序列长度,使用 Effective FasterTransformer 并结合 INT8-v2 量化技术,可以带来约 5 倍的加速。

解码与解码器性能

TensorFlow 的结果通过运行 benchmarks/decoding/tf_decoding_beamsearch_benchmark.shbenchmarks/decoding/tf_decoding_sampling_benchmark.sh 获得。

PyTorch 的结果通过运行 benchmarks/decoding/pyt_decoding_beamsearch_benchmark.sh 获得。

在解码实验中,我们更新了以下参数:

  • head_num = 8
  • size_per_head = 64
  • num_layers = 6 对于编码器和解码器
  • vocabulary_size = 32001 对于 TensorFlow 示例代码,31538 对于 PyTorch 示例代码
  • memory_hidden_dim = 512
  • max sequence length = 128

更多基准测试结果请参阅 docs/decoder_guide.md

解码器及解码端到端翻译性能(TensorFlow)

下图展示了在 T4 上 FP16 条件下,FT-Decoder op 和 FT-Decoding op 相较于 TensorFlow 的加速效果。这里我们使用翻译测试集的吞吐量来避免不同方法的总 token 数可能不同。相比 TensorFlow,FT-Decoder 提供了 1.5 到 3 倍的加速;而 FT-Decoding 则提供了 4 到 18 倍的加速。

解码器及解码端到端翻译性能(PyTorch)

下图展示了在 T4 上 FP16 条件下,FT-Decoder op 和 FT-Decoding op 相较于 PyTorch 的加速效果。这里我们使用翻译测试集的吞吐量来避免不同方法的总 token 数可能不同。相比 PyTorch,FT-Decoder 提供了 1.2 到 3 倍的加速;而 FT-Decoding 则提供了 3.8 到 13 倍的加速。

GPT 性能

下图比较了 A100 上 FP16 条件下,Megatron 和 FasterTransformer 的性能。

在解码实验中,我们更新了以下参数:

  • head_num = 96
  • size_per_head = 128
  • num_layers = 48 对于 GPT-89B 模型,96 对于 GPT-175B 模型
  • data_type = FP16
  • vocab_size = 51200
  • top_p = 0.9
  • tensor parallel size = 8
  • input sequence length = 512
  • output sequence length = 32

发行说明

更改日志

2023年5月

  • 修复生成过程中的提前停止相关 bug

2023年1月

  • 支持 GPT MoE 模型
  • 支持 Bert 和 GPT 的 FP8 精度(实验性功能
  • 支持在 TensorFlow 2 和 PyTorch 上运行 DeBERTa 模型

2022年12月

  • 发布 FasterTransformer 5.2 版本
  • 支持最小长度惩罚机制

2022年11月

  • 支持 T5 Tensorflow 2 自定义算子
  • 支持 T5 MoE 模型
  • 支持 WeNet 模型
  • 支持 BART 和 mBART 模型
  • 支持 SwinV2 模型
  • 初步支持 GPT 模型的 w8a8 int8 运行模式(预览版)
  • 支持 GPT 中的融合多头注意力机制

2022年10月

  • 支持 BLOOM 模型

2022年9月

  • 在 GPT 模型中支持事实采样(链接
  • 支持 T5 模型中的 IA3 适配方案

2022年8月

  • 支持在 GPT 模型中返回上下文 token 的嵌入表示
  • 发布 FasterTransformer 5.1 版本
  • 支持交互式生成
  • 支持注意力机制的有限内存功能
  • 支持 mt5 和 t5-v1.1 模型

2022年7月

  • 支持 UL2 Hugging Face 检查点(链接
    • 修复 T5 模型在 bfloat16 精度下的 bug
  • 添加 ViT INT8 TensorRT 插件
  • 支持批量采样
  • 支持 GPT 模型中的共享上下文优化

2022年6月

  • 支持 Triton 后端的流式生成
  • 支持 OPT 模型
  • 支持在 FP32、FP16 和 BF16 精度下进行多节点多 GPU 的 BERT 推理

2022年5月

  • 支持大多数模型使用 bfloat16 精度
  • 支持 GPT-J 模型的 前缀提示
  • 支持 GPT-NeoX 模型
    • 层归一化中使用的 epsilon 值现为可配置参数
    • 引入 GPT-NeoX 风格的旋转位置编码(此前仅实现 GPT-J)
    • 支持按 GPU 加载层归一化和偏置参数
    • 支持从 EleutherAI 检查点转换权重

2022年4月

  • 发布 FasterTransformer 5.0 版本
    • 将所有矩阵乘法运算的默认累加类型更改为 FP32
    • 支持 GPT 模型中的 bfloat16 推理
    • 支持 Nemo Megatron T5 和 Megatron-LM T5 模型
    • 支持 ViT 模型

2022年3月

  • 支持 GPT-J 模型中的 stop_idsban_bad_ids
  • 支持 GPT-J、GPT 和 T5 模型中动态设置 start_idend_id
  • 支持解码过程中动态调整输入

2022年2月

  • 支持 Swin Transformer 模型
  • 通过定向缓冲优化束搜索的 k/v 缓存更新
  • 支持 GPT-J、T5 和 GPT 模型的运行时输入
  • 支持 GPT 和 GPT-J 模型中的软提示
  • 支持自定义 AllReduce 核心
    • 限制:
      1. 仅支持 DGX-A100 上的张量并行规模为 8
      2. 仅支持使用 cudaMallocAsync 的 CUDA 版本

2021年12月

  • 添加 T5 模型的 TensorRT 插件
  • 将 GPT 模型的部分超参数改为运行时可查询
  • 优化 C++ 代码中的内存分配器
  • 修复 CUB 库的 bug,包括在使用 CUDA 11.5 或更高版本时的问题

2021年11月

  • 更新 FasterTransformer 5.0 测试版
  • 添加 GPT-3 INT8 权重量化支持,适用于批大小不超过 2 的场景
  • 支持 T5 模型的多节点多 GPU 推理
  • 增强 GPT-3 模型的多节点多 GPU 支持能力

2021年8月

  • 发布 FasterTransformer 5.0 测试版
    • 重构代码库和代码结构
    • 特别感谢 NAVER 公司对本版本的大量贡献,具体如下:
      • Bug 修复:
        • 修复 GPT PyTorch 封装中 batch_size 小于 max_batch_size 时出现的错误
        • 修复因重复使用内存分配器导致的每次前向传播时的内存泄漏问题
        • 修复重复惩罚核函数中的竞态条件
      • 功能增强:
        • 添加随机种子设置
        • 修复 GPT 在 FP16 精度下 GEMM 缓冲区溢出问题
        • 更改完成缓冲区的失效策略,确保每次推理完成后及时释放
        • 引入 stop_before 参数用于提前停止
    • 支持 Longformer 模型
    • layer_para 重命名为 pipeline_para
    • 优化 top p 采样的排序逻辑
    • 支持 Ampere 架构 GPU 上 BERT 模型的稀疏化
    • 支持 GPT 模型中 size_per_head 取值为 96、160、192、224、256
    • 支持 GPT Triton 后端的多节点推理

2021年6月

  • 支持 XLNet 模型

2021年4月

  • 发布 FasterTransformer 4.0 版本
    • 支持 GPT 模型在 C++ 和 PyTorch 下的多 GPU 多节点推理
    • 支持 GPT 模型在 Triton 上的单节点多 GPU 推理
    • 为 BERT 模型添加 INT8 融合多头注意力核
    • 为 V100 显卡上的 BERT 模型添加 FP16 融合多头注意力核
    • 优化解码器核函数
    • 迁移到独立代码库
    • 废弃 Eager 模式下的 PyTorch 扩展

2020年12月

  • 发布 FasterTransformer 3.1 版本
    • 通过添加已完成掩码来优化解码过程,避免无效计算
    • 支持 OpenNMT 编码器
    • 移除 TensorRT 插件支持
    • 废弃 TorchScript 自定义算子

2020年11月

  • 优化 INT8 推理流程
  • 支持 PyTorch 的 INT8 推理
  • 提供 PyTorch 的 INT8 量化工具
  • 将 TensorRT 的融合多头注意力核集成到 FasterTransformer 中
  • 添加 SQuAD 数据集的单元测试
  • 更新缺失的 NGC 检查点

2020年9月

  • 支持 GPT2 模型
  • 发布 FasterTransformer 3.0 版本
    • 支持 C++ 和 TensorFlow 算子的编码器 INT8 量化
    • 添加 bert-tf-quantization 工具
    • 修复 CMake 15 或 CMake 16 无法构建该项目的问题

2020年8月

  • 修复 trt 插件的 bug

2020年6月

  • 发布 FasterTransformer 2.1 版本
    • 基于 Effective Transformer 思想添加 Effective FasterTransformer
    • 优化束搜索核函数
    • 添加 PyTorch 算子支持

2020年5月

  • 修复编码器序列长度必须大于 3 的 bug
  • 将解码的位置编码作为 FasterTransformer 解码的输入。这样可以方便使用不同类型的位置编码。FasterTransformer 不会自行计算位置编码值,而是直接查表。
  • 修改 translate_sample.py 中加载模型的方法

2020年4月

  • decoding_opennmt.h 重命名为 decoding_beamsearch.h
  • 为解码添加 DiverseSiblingsSearch 策略
  • 在解码中加入采样功能
    • 实现位于 decoding_sampling.h
    • 添加 top_k 采样和 top_p 采样
  • 重构 TensorFlow 自定义算子代码
    • bert_transformer_op.hbert_transformer_op.cu.cc 合并为 bert_transformer_op.cc
    • decoder.hdecoder.cu.cc 合并为 decoder.cc
    • decoding_beamsearch.hdecoding_beamsearch.cu.cc 合并为 decoding_beamsearch.cc
  • 修复 decoding.py 中 finalize 函数的 bug
  • 修复 TF 版本的 DiverseSiblingSearch 的 bug
  • 将 BLEU 评分器 bleu_score.py 添加到 utils 目录中。注意,BLEU 评分需要 Python 3 环境。
  • 将编码器的 QKV GEMM 和解码器的 masked_multi_head_attention 融合在一起
  • 在所有算子中添加动态批大小和动态序列长度功能。

2020年3月

  • 在 FasterTransformer 2.0 中新增功能
    • 添加 translate_sample.py,演示如何通过恢复 OpenNMT-tf 的预训练模型来翻译一句话。
  • 修复 FasterTransformer 2.0 的 bug
    • 修复解码器最大序列长度不能超过 128 的问题。
    • 修复解码过程中每一步未检查是否已完成的 bug。
    • 修复解码器关于 max_seq_len 的 bug。
    • 修改解码模型结构以适配 OpenNMT-tf 的解码模型。
      • 在解码器后添加一层层归一化。
      • 为解码器的输入添加归一化。

2020年2月

  • 发布 FasterTransformer 2.0
    • 提供基于 OpenNMT-tf 的高度优化解码器及解码功能,包含 C++ API 和 TensorFlow 操作。
    • 优化编码器示例代码。
    • 在编码器操作中加入动态批大小功能。

2019年7月

  • 发布 FasterTransformer 1.0
    • 提供高度优化的 BERT 等效 Transformer 层,包含 C++ API、TensorFlow 操作和 TensorRT 插件。

已知问题

  • 由于未定义符号问题,无法在 TensorFlow 2.10 上编译。
  • 导入扩展时出现未定义符号错误。
    • 请先执行 import torch。如果已执行仍出现错误,则可能是 C++ ABI 不兼容所致。建议检查编译和运行时使用的 PyTorch 版本是否一致,或检查 PyTorch 的编译方式、GCC 版本等。
  • TensorFlow 实现与 OP 实现的解码结果会有所不同。该问题由累积的对数概率引起,目前尚未解决。
  • 如果在自定义环境中遇到问题,尝试使用 gcc/g++ 4.8 来构建 TensorFlow 操作项目,尤其针对 TensorFlow 1.14。

版本历史

release/v5.3_tag2023/01/23
release/v5.2.1_tag2023/01/01
release/v5.2_bug_fix_tag2022/12/06
release/v5.2_tag2022/12/03
release/v5.1.1_tag2022/10/17
release/v5.1_bugfix_tag2022/08/23
release/v5.1_tag2022/08/16
release/v5.0_tag2022/04/15
release/v1.0_tag2021/04/03
release/v4.0_tag2021/04/05
release/v3.1_tag2021/07/29
release/v3.0_tag2021/04/03
release/v2.1_tag2021/04/03
release/v2.0_tag2021/04/03

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架