flashlight

5.4k 503 较难 1 次阅读 1周前MIT开发框架

AI 解读由 AI 自动生成，仅供参考

Flashlight 是一款由 Facebook AI Research 团队打造的纯 C++ 机器学习库，旨在为研究人员提供一个极速、灵活且轻量级的实验框架。它主要解决了传统深度学习框架在 C++ 环境下依赖复杂、体积庞大或定制困难的问题，让开发者能够直接在底层进行高效算法迭代，而无需牺牲性能。

这款工具特别适合需要深入底层优化、追求极致运行效率的 AI 研究人员和 C++ 开发者。无论是语音识别、图像分类、目标检测还是语言建模，Flashlight 都能提供原生支持。其核心亮点在于极小的代码 footprint（核心仅约 20k 行代码，编译后小于 10MB），同时具备完全的内部可修改性，允许用户直接调整张量计算等底层 API。此外，它默认集成 ArrayFire 张量库，支持现代 C++ 的即时内核编译，确保了高性能的默认配置。作为一个独立的 standalone 库，Flashlight 摒弃了过多的预设限制，让用户能在一个仓库中快速构建和验证跨领域的创新模型。

使用场景

某语音识别初创团队正在研发一款低延迟的实时会议转录系统，需要在资源受限的边缘设备上部署高性能模型。

没有 flashlight 时

开发效率低下：团队被迫使用 Python 原型验证后再用 C++ 重写，双重维护导致算法迭代周期长达数周。
依赖包袱沉重：引入重型深度学习框架导致最终二进制文件体积过大，难以在嵌入式环境中运行。
底层定制困难：框架黑盒特性使得针对特定音频硬件优化算子变得极其复杂，无法微调内部张量计算逻辑。
推理延迟过高：通用框架的默认配置无法满足实时语音流处理的毫秒级响应需求。

使用 flashlight 后

全流程 C++ 开发：利用 flashlight 纯 C++ 特性实现从实验到部署的无缝衔接，新算法上线时间缩短至几天。
极致轻量部署：核心库仅 20k 行代码且体积小于 10MB，轻松集成到资源紧张的边缘设备中。
深度内核定制：借助其完全可修改的内部 API，团队直接优化了音频预处理和张量计算内核，完美适配专用硬件。
高性能即时编译：通过基于 ArrayFire 的 JIT 编译机制，显著降低推理延迟，实现了流畅的实时会议转录。

flashlight 通过提供轻量、可深度定制的纯 C++ 环境，帮助团队打破了原型与生产环境的壁垒，在保障极致性能的同时大幅加速了语音算法的落地进程。

运行环境要求

操作系统

Linux

GPU

可选
若使用 CUDA 后端，需 NVIDIA GPU 且 CUDA >= 9.2，同时需安装 cuDNN 和 NCCL
CPU 后端无需 GPU

内存

未说明

依赖

notes该工具主要用 C++ 编写。推荐使用 vcpkg 进行依赖管理和安装。支持两种后端：CPU 后端和 CUDA 后端。若从源码构建，需根据目标功能（如语音识别、图像分类等）安装特定的额外依赖库（如 fftw3, kenlm, libsndfile 等）。官方提供 Docker 镜像以简化环境配置。

python未说明（Python 绑定需单独查看 bindings/python/README.md）

C++ 编译器 (支持 C++17, 如 gcc/g++ >= 7)

CMake >= 3.10

make

ArrayFire

Intel MKL

CUDA >= 9.2 (仅 GPU 版)

cuDNN (仅 GPU 版)

NCCL (仅 GPU 版)

vcpkg (推荐包管理器)

快速开始

Flashlight 是一个由 Facebook AI Research 以及 Torch、TensorFlow、Eigen 和 Deep Speech 的创建者共同开发的快速、灵活的机器学习库，完全用 C++ 编写。其核心特性包括：

完全可定制性，包括用于张量计算的内部 API。
轻量级，核心代码小于 10 MB，仅有约 2 万行 C++ 代码。
高性能默认设置，通过 ArrayFire 张量库以现代 C++ 实现即时编译内核。
强调效率与规模。

Flashlight 原生支持 C++，且易于扩展，使其成为一个强大的研究框架，能够在不牺牲性能的前提下，以较少的约束快速迭代新的实验方案和算法。在同一个仓库中，Flashlight 提供了适用于多个领域的研究应用：

项目结构

Flashlight 分为几个部分：

flashlight/lib 包含用于音频处理等任务的内核和独立工具。
flashlight/fl 是核心张量接口及神经网络库，默认使用 ArrayFire 张量库。
flashlight/pkg 是基于核心构建的语音、视觉和文本领域专用包。
flashlight/app 是将核心库应用于不同领域机器学习的具体应用。

快速入门

首先，构建并安装 Flashlight 并将其链接到您自己的项目。

Sequential 可以将 Flashlight 的 Module 组成序列，用于串联计算。

实现一个简单的卷积神经网络非常容易。

#include <flashlight/fl/flashlight.h>

Sequential model;

model.add(View(fl::Shape({IM_DIM, IM_DIM, 1, -1})));
model.add(Conv2D(
    1 /* 输入通道 */,
    32 /* 输出通道 */,
    5 /* 卷积核宽度 */,
    5 /* 卷积核高度 */,
    1 /* 步幅 x */,
    1 /* 步幅 y */,
    PaddingMode::SAME; /* 填充模式 */,
    PaddingMode::SAME; /* 填充模式 */));
model.add(ReLU());
model.add(Pool2D(
    2 /* 卷积核宽度 */,
    2 /* 卷积核高度 */,
    2 /* 步幅 x */,
    2 /* 步幅 y */));
model.add(Conv2D(32, 64, 5, 5, 1, 1, PaddingMode::SAME, PaddingMode::SAME));
model.add(ReLU());
model.add(Pool2D(2, 2, 2, 2));
model.add(View(fl::Shape({7 * 7 * 64, -1})));
model.add(Linear(7 * 7 * 64, 1024));
model.add(ReLU());
model.add(Dropout(0.5));
model.add(Linear(1024, 10));
model.add(LogSoftmax());

前向和反向传播计算非常简单：

auto output = model.forward(input);
auto loss = categoricalCrossEntropy(output, target);
loss.backward();

有关完整的训练循环和数据集抽象，请参阅 MNIST 示例。

Variable 是一种基于磁带的抽象，封装了 Flashlight 张量。Flashlight 中基于磁带的自动微分简单易用，符合预期。

自动微分示例

auto A = Variable(fl::rand({1000, 1000}), true /* calcGrad */);
auto B = 2.0 * A;
auto C = 1.0 + B;
auto D = log(C);
D.backward(); // 会填充 A.grad()，同时计算 B、C 和 D 的梯度。

构建与安装

使用 vcpkg 安装 | 使用 Docker | 从源码构建 | 结合 vcpkg 从源码构建 | 在您的项目中使用 Flashlight

需求

至少需要以下条件才能进行编译：

支持良好 C++17 的 C++ 编译器（例如 gcc/g++ >= 7）
CMake — 版本 3.10 或更高，以及 make
基于 Linux 的操作系统。

如果选择从源码构建，请参阅完整依赖列表以获取更多详细信息。

关于构建/安装 Python 绑定的说明可以在这里找到。

手电筒构建设置

如上文所述，手电筒可以分解为多个组件。每个组件都可以通过指定正确的构建选项逐步构建。

使用手电筒有两种方式：

作为已安装的库，与您自己的项目链接。这对于构建依赖于手电筒的独立应用程序最为合适。
源码内开发，即修改并重新构建手电筒项目源码。如果您需要自定义或深入修改核心框架，或者使用手电筒提供的应用二进制文件，则这种方式最为合适。

手电筒可以通过以下两种方式构建：

使用 vcpkg，一个C++ 包管理器。
从源码构建，根据需要安装依赖项。

使用 `vcpkg` 安装手电筒

使用 `vcpkg` 安装库

使用 vcpkg 是构建和安装手电筒最简单的方式。vcpkg 同时支持 CUDA 和 CPU 后端。无论选择哪种后端，首先都需要安装 Intel MKL。对于 CUDA 后端，还需安装 CUDA ≥ 9.2、cuDNN 和 NCCL。然后，在安装 vcpkg之后，即可通过以下命令安装库和核心：

./vcpkg/vcpkg install flashlight-cuda # CUDA 后端，或
./vcpkg/vcpkg install flashlight-cpu  # CPU 后端

要安装手电筒应用，可以运行 ./vcpkg search flashlight-cuda 或 ./vcpkg search flashlight-cpu 查看可安装的功能。每个应用都对应一个“功能”：例如，./vcpkg install flashlight-cuda[asr] 将安装带有 CUDA 后端的 ASR 应用程序。

以下是当前支持的功能列表（适用于 flashlight-cuda 和 flashlight-cpu）：

flashlight-{cuda/cpu}[lib]      # 手电筒库
flashlight-{cuda/cpu}[nn]       # 手电筒神经网络库
flashlight-{cuda/cpu}[asr]      # 手电筒语音识别应用
flashlight-{cuda/cpu}[lm]       # 手电筒语言建模应用
flashlight-{cuda/cpu}[imgclass] # 手电筒图像分类应用

手电筒的应用二进制文件也会针对所选功能进行构建，并安装到 vcpkg 安装目录的 tools 目录中。

使用 vcpkg 的CMake 工具链集成，将手电筒集成到您自己的项目中非常简单（详见下文使用 vcpkg 安装的手电筒）。

使用 `vcpkg` 从源码构建

首先，使用 vcpkg 安装您所选后端的依赖项（点击展开下方内容）：

使用 vcpkg 安装 CUDA 后端依赖项

要使用 vcpkg 安装的依赖项从源码构建手电筒 CUDA 后端，需先安装 CUDA ≥ 9.2、cuDNN、NCCL 和 Intel MKL，然后根据您希望构建的手电筒功能，继续安装 CUDA 后端的其他依赖项：

./vcpkg install \
    cuda intel-mkl fftw3 cub kenlm                \ # 如果构建手电筒库
    arrayfire[cuda] cudnn nccl openmpi cereal stb \ # 如果构建手电筒神经网络库
    gflags glog                                   \ # 如果构建任何手电筒应用
    libsndfile                                    \ # 如果构建手电筒 ASR 应用
    gtest                                           # 可选，如果构建测试

使用 vcpkg 安装 CPU 后端依赖项

要使用 vcpkg 安装的依赖项从源码构建手电筒 CPU 后端，需先安装 Intel MKL，然后根据您希望构建的手电筒功能，继续安装 CPU 后端的其他依赖项：

./vcpkg install \
    intel-mkl fftw3 kenlm                              \ # 用于手电筒库
    arrayfire[cpu] gloo[mpi] openmpi onednn cereal stb \ # 用于手电筒神经网络库
    gflags glog                                        \ # 用于手电筒运行时包（任何使用它的手电筒应用）
    libsndfile                                         \ # 用于手电筒语音包
    gtest                                                # 可选，用于测试

使用 `vcpkg` 工具链文件构建

要使用这些依赖项从源码构建手电筒，首先克隆仓库：

git clone https://github.com/flashlight/flashlight.git && cd flashlight
mkdir -p build && cd build

然后，使用 vcpkg 的CMake 工具链从源码构建：

cmake .. \
    -DCMAKE_BUILD_TYPE=Release \
    -DFL_BUILD_ARRAYFIRE=ON \
    -DCMAKE_TOOLCHAIN_FILE=[您的 vcpkg 克隆路径]/scripts/buildsystems/vcpkg.cmake
make -j$(nproc)
make install -j$(nproc) # 仅当您希望将手电筒安装以供外部使用时

要构建手电筒的部分功能，可参阅下方的构建选项。

从源码构建

要从源码构建，首先需要安装以下依赖项。大多数依赖项可通过您系统的本地包管理器获取。

部分标记为自动下载和安装的依赖项，若本地系统未找到，则会自动下载并安装。FL_BUILD_STANDALONE 控制此行为——如果禁用，构建手电筒时将不会下载和构建这些依赖项。

在所有依赖项安装完毕后，克隆仓库：

git clone https://github.com/flashlight/flashlight.git && cd flashlight
mkdir -p build && cd build

然后，使用以下命令构建手电筒的所有组件：

cmake .. -DCMAKE_BUILD_TYPE=Release -DFL_BUILD_ARRAYFIRE=ON [...构建选项]
make -j$(nproc)
make install

设置 MKLROOT 环境变量（在大多数基于 Linux 的系统上，可设置为 export MKLROOT=/opt/intel/oneapi/mkl/latest 或 export MKLROOT=/opt/intel/mkl），有助于 CMake 在未自动找到 Intel MKL 时定位该库。

要构建手电筒更小范围的功能或应用，请参阅下方的构建选项，以获取完整的选项列表。

要在自定义目录中安装 Flashlight，请使用 CMake 的 CMAKE_INSTALL_PREFIX 参数。Flashlight 库可以使用 CMake 的 BUILD_SHARED_LIBS 参数构建为共享库。

Flashlight 对大多数依赖项使用现代 CMake 和 IMPORTED 目标。如果未找到某个依赖项，可以在 cmake 命令中传递 -D<package>_DIR 参数，或将 <package>_DIR 导出为环境变量，并将其值设置为 <package>Config.cmake 文件的路径，这样可以帮助在您的系统上定位依赖项。有关更多详细信息，请参阅文档。如果 CMake 无法找到某个包，请先检查是否已存在相应的问题，再自行创建新问题。

macOS 上的最小化设置

在 macOS 上，可以使用 Homebrew 安装 ArrayFire，并按以下方式构建 Flashlight 核心：

brew install arrayfire
cmake .. \
      -DFL_ARRAYFIRE_USE_OPENCL=ON \
      -DFL_USE_ONEDNN=OFF \
      -DFL_BUILD_TESTS=OFF \
      -DFL_BUILD_EXAMPLES=OFF \
      -DFL_BUILD_SCRIPTS=OFF \
      -DFL_BUILD_DISTRIBUTED=OFF
make -j$(nproc)

依赖项

标有 * 的依赖项会在系统中未找到时自动从源代码下载并构建。将 FL_BUILD_STANDALONE 设置为 OFF 可禁用此行为。

标有 ^ 的依赖项是在启用分布式训练（FL_BUILD_DISTRIBUTED — 请参阅下方的 [构建选项]）时必需的。所有应用程序都需要分布式训练功能。

标有 † 的依赖项可以通过 vcpkg 安装。有关执行 Flashlight 源码构建时如何安装这些依赖项的说明，请参阅上方的 [通过 vcpkg 进行源码构建] 部分。

组件	后端	依赖项
库	CUDA	CUDA ≥ 9.2，CUB*†（若 CUDA < 11）
库	CPU	一个 BLAS 库（Intel MKL ≥ 2018，OpenBLAS† 等）
核心	任意	ArrayFire ≥ 3.7.3†，一个 MPI 库^（OpenMPI† 等），cereal† ≥ 1.3.0，stb†
	CUDA	CUDA ≥ 9.2，NCCL^，cuDNN
	CPU	oneDNN† ≥ 2.5.2，gloo（与 MPI 结合使用）*^†
应用：全部	任意	Google Glog†，Gflags†
应用：ASR	任意	libsndfile† ≥ 10.0.28，一个 BLAS 库（Intel MKL ≥ 2018，OpenBLAS† 等），以及 flashlight/text
应用：图像分类	任意	-
应用：语言模型	任意	flashlight/text*
测试	任意	Google Test（gtest，含 gmock）*† ≥ 1.10.0

构建选项

Flashlight 的 CMake 构建支持以下构建选项（在命令行运行 CMake 时需以 -D 作为前缀）：

名称	选项	默认值	描述
FL_BUILD_ARRAYFIRE	ON, OFF	ON	使用 ArrayFire 后端构建 Flashlight。
FL_BUILD_ARRAYFIRE	ON, OFF	ON	如果未找到某些依赖项，则下载/构建这些依赖项。
FL_BUILD_LIBRARIES	ON, OFF	ON	构建 Flashlight 库。
	ON, OFF	ON	构建 Flashlight 神经网络库。
	ON, OFF	ON	启用分布式训练进行构建；应用程序需要此选项。
FL_BUILD_CONTRIB	ON, OFF	ON	构建可能包含破坏性变更的 contrib API。
FL_BUILD_APPS	ON, OFF	ON	构建应用程序（见下文）。
FL_BUILD_APP_ASR	ON, OFF	ON	构建自动语音识别应用程序。
FL_BUILD_APP_IMGCLASS	ON, OFF	ON	构建图像分类应用程序。
FL_BUILD_APP_LM	ON, OFF	ON	构建语言模型应用程序。
FL_BUILD_APP_ASR_TOOLS	ON, OFF	ON	构建自动语音识别应用工具。
FL_BUILD_TESTS	ON, OFF	ON	构建测试。
FL_BUILD_EXAMPLES	ON, OFF	ON	构建示例。
FL_BUILD_EXPERIMENTAL	ON, OFF	OFF	构建实验性组件。
CMAKE_BUILD_TYPE	参见文档	Debug	请参阅 CMake 文档。
CMAKE_INSTALL_PREFIX	[目录]	参见文档	请参阅 CMake 文档。

使用 Flashlight 构建您自己的项目

Flashlight 最容易通过 CMake 进行链接。安装后，Flashlight 会导出以下 CMake 目标：

flashlight::flashlight — 包含 Flashlight 库以及核心自动微分和神经网络库。
flashlight::fl_pkg_runtime — 包含 Flashlight 核心以及用于训练的常用工具（日志记录 / 标志 / 分布式工具）。
flashlight::fl_pkg_vision — 包含 Flashlight 核心以及视觉流水线中的常用工具。
flashlight::fl_pkg_text — 包含 Flashlight 核心以及处理文本数据的常用工具。
flashlight::fl_pkg_speech — 包含 Flashlight 核心以及处理语音数据的常用工具。
flashlight::fl_pkg_halide — 包含 Flashlight 核心及与 Halide 轻松对接的扩展。

假设有一个简单的 project.cpp 文件，它包含了 Flashlight 并与其链接：

#include <iostream>

#include <flashlight/fl/flashlight.h>

int main() {
  fl::init();
  fl::Variable v(fl::full({1}, 1.), true);
  auto result = v + 10;
  std::cout << "张量值为 " << result.tensor() << std::endl; // 11.000
  return 0;
}

以下 CMake 配置将链接 Flashlight 并设置包含目录：

cmake_minimum_required(VERSION 3.10)
set(CMAKE_CXX_STANDARD 17)
set(CMAKE_CXX_STANDARD_REQUIRED ON)

add_executable(myProject project.cpp)

find_package(flashlight CONFIG REQUIRED)
target_link_libraries(myProject PRIVATE flashlight::flashlight)

使用 `vcpkg` 安装的 Flashlight

如果您使用 vcpkg 安装了 Flashlight，则可以通过运行以下命令来构建上述 myProject 的 CMake 配置：

cd project && mkdir build && cd build
cmake .. \
  -DCMAKE_TOOLCHAIN_FILE=[vcpkg 克隆路径]/scripts/buildsystems/vcpkg.cmake \
  -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

使用源码安装的 Flashlight

如果您使用的是从源码安装的 Flashlight，CMake 将会自动找到 Flashlight：

cd project && mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

如果 Flashlight 安装在自定义位置，并使用了 CMAKE_INSTALL_PREFIX，则可以在 cmake 命令中添加 -Dflashlight_DIR=[安装前缀]/share/flashlight/cmake 参数，以帮助 CMake 找到 Flashlight。

使用 Docker 构建和运行 Flashlight

Flashlight 及其依赖项也可以使用提供的 Dockerfile 进行构建；有关更多信息，请参阅随附的 Docker 文档。

贡献与联系信息

联系人：vineelkpratap@fb.com, awni@fb.com, jacobkahn@fb.com, qiantong@fb.com, antares@fb.com, padentomasello@fb.com, jcai@fb.com, gab@fb.com, vitaliy888@fb.com, locronan@fb.com

Flashlight 正在积极开发中。有关如何参与贡献的更多信息，请参阅 CONTRIBUTING。

致谢

Flashlight 的部分代码源自 arrayfire-ml。

引用

您可以使用以下方式引用 Flashlight：

@misc{kahn2022flashlight,
      title={Flashlight: Enabling Innovation in Tools for Machine Learning},
      author={Jacob Kahn and Vineel Pratap and Tatiana Likhomanenko and Qiantong Xu and Awni Hannun and Jeff Cai and Paden Tomasello and Ann Lee and Edouard Grave and Gilad Avidov and Benoit Steiner and Vitaliy Liptchinsky and Gabriel Synnaeve and Ronan Collobert},
      year={2022},
      eprint={2201.12465},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

许可证

Flashlight 采用 MIT 许可证。有关更多信息，请参阅 LICENSE。

Flashlight 快速上手指南

Flashlight 是一个由 Facebook AI Research 开发的快速、灵活的 C++ 机器学习库。它完全用 C++ 编写，具有小巧的体积（核心代码约 2 万行）、高性能默认配置以及对自动微分和张量计算的全面支持。

1. 环境准备

在开始之前，请确保您的开发环境满足以下最低要求：

操作系统: Linux (推荐 Ubuntu/CentOS)
编译器: 支持 C++17 的编译器 (如 gcc/g++ >= 7)
构建工具: CMake (版本 3.10+) 和 make
包管理器: 推荐使用 vcpkg 进行依赖管理

前置依赖

根据您选择的后端（CPU 或 CUDA），需要安装不同的基础库：

通用依赖: Intel MKL (用于数学计算)
CPU 后端: 无额外特殊要求（MKL 已涵盖主要需求）
GPU 后端 (CUDA):
- CUDA Toolkit (>= 9.2)
- cuDNN
- NCCL (用于多卡通信)

提示: 国内开发者若遇到依赖下载缓慢问题，可配置 vcpkg 使用国内镜像源，或在构建时通过代理加速。

2. 安装步骤

推荐使用 vcpkg 进行安装，这是最简便的方式，可自动处理复杂的依赖关系。

第一步：安装 vcpkg

如果尚未安装 vcpkg，请先克隆并引导它：

git clone https://github.com/microsoft/vcpkg.git
cd vcpkg
./bootstrap-vcpkg.sh

第二步：安装 Flashlight

根据您的硬件环境选择以下任一命令安装：

选项 A：安装 CPU 版本

./vcpkg install flashlight-cpu

选项 B：安装 CUDA (GPU) 版本 (请确保已预先安装好 CUDA, cuDNN 和 NCCL)

./vcpkg install flashlight-cuda

可选：安装特定应用组件 如果您需要使用语音识别 (ASR)、图像分类等预置应用，可以通过特性标志安装：

# 示例：安装带有 ASR 功能的 CUDA 版本
./vcpkg install flashlight-cuda[asr]

第三步：集成到项目

在您的 CMakeLists.txt 中，通过 toolchain 文件引入 vcpkg 即可自动链接 Flashlight：

set(CMAKE_TOOLCHAIN_FILE ${VCPKG_ROOT}/scripts/buildsystems/vcpkg.cmake CACHE STRING "Vcpkg toolchain file")
find_package(flashlight CONFIG REQUIRED)
target_link_libraries(your_target PRIVATE flashlight::fl)

3. 基本使用

Flashlight 的核心在于其简洁的 API 设计，支持通过 Sequential 串联网络层，并利用 Variable 实现基于 Tape 的自动微分。

构建一个简单的卷积神经网络 (ConvNet)

以下示例展示了如何定义一个包含卷积、池化和全连接层的模型：

#include <flashlight/fl/flashlight.h>

// 定义序列模型
Sequential model;

// 添加层
model.add(View(fl::Shape({IM_DIM, IM_DIM, 1, -1})));
model.add(Conv2D(
    1, 32, 5, 5, 1, 1, 
    PaddingMode::SAME, PaddingMode::SAME)); // 输入通道，输出通道，核大小，步长等
model.add(ReLU());
model.add(Pool2D(2, 2, 2, 2));
model.add(Conv2D(32, 64, 5, 5, 1, 1, PaddingMode::SAME, PaddingMode::SAME));
model.add(ReLU());
model.add(Pool2D(2, 2, 2, 2));
model.add(View(fl::Shape({7 * 7 * 64, -1})));
model.add(Linear(7 * 7 * 64, 1024));
model.add(ReLU());
model.add(Dropout(0.5));
model.add(Linear(1024, 10));
model.add(LogSoftmax());

前向传播与反向传播

Flashlight 的前向和反向计算非常直观：

// 假设 input 和 target 已定义
auto output = model.forward(input);

// 计算损失 (交叉熵)
auto loss = categoricalCrossEntropy(output, target);

// 执行反向传播，自动计算梯度
loss.backward();

自动微分示例

直接使用 Variable 包装张量即可启用自动求导：

// 创建需要计算梯度的变量
auto A = Variable(fl::rand({1000, 1000}), true /* calcGrad */);

// 构建计算图
auto B = 2.0 * A;
auto C = 1.0 + B;
auto D = log(C);

// 反向传播，梯度将填充到 A.grad() 以及中间变量中
D.backward();

现在您可以开始使用 Flashlight 进行高效的 C++ 深度学习开发了。更多详细教程（如 MNIST 完整训练循环）请参考官方文档。

版本历史

v0.3.22022/03/19

v0.3.12021/10/15

v0.32021/04/16

v0.22020/12/28

v0.12018/12/22

常见问题

构建 CPU 后端时出现链接错误（undefined reference to testing::internal...）怎么办？

运行 make install 时提示 'libmkl_rt.so: cannot open shared object file' 错误如何解决？

CMake 配置成功但 make 命令卡住不动是什么原因？

导入 flashlight.lib.text.decoder 时出现 'ModuleNotFoundError' 或 'NameError' 怎么办？

CPU 后端构建完成后运行速度非常慢是否正常？

如何正确配置 CMake 以使用 CPU 后端进行构建？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 flashlight 时

使用 flashlight 后

运行环境要求

快速开始

项目结构

快速入门

构建与安装

需求

手电筒构建设置

使用 vcpkg 安装手电筒

使用 vcpkg 安装库

使用 vcpkg 从源码构建

使用 vcpkg 工具链文件构建

从源码构建

macOS 上的最小化设置

依赖项

构建选项

使用 Flashlight 构建您自己的项目

使用 vcpkg 安装的 Flashlight

使用源码安装的 Flashlight

使用 Docker 构建和运行 Flashlight

贡献与联系信息

致谢

引用

许可证

Flashlight 快速上手指南

1. 环境准备

前置依赖

2. 安装步骤

第一步：安装 vcpkg

第二步：安装 Flashlight

第三步：集成到项目

3. 基本使用

构建一个简单的卷积神经网络 (ConvNet)

前向传播与反向传播

自动微分示例

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

使用 `vcpkg` 安装手电筒

使用 `vcpkg` 安装库

使用 `vcpkg` 从源码构建

使用 `vcpkg` 工具链文件构建

使用 `vcpkg` 安装的 Flashlight