kompute

2.5k 186 中等 1 次阅读昨天Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

Kompute 是一个基于 Vulkan 构建的通用 GPU 计算框架，旨在让开发者能够轻松利用显卡的强大算力进行高性能数据处理。它打破了硬件品牌的限制，完美支持 AMD、NVIDIA、Qualcomm 等厂商的数千款图形卡，甚至能在移动设备上流畅运行。

在人工智能和大数据时代，许多应用需要高效的并行计算能力，但不同硬件间的兼容性往往成为开发瓶颈。Kompute 通过统一的接口解决了这一难题，让开发者无需为不同显卡编写重复代码，即可实现极速的异步并行处理。无论是机器学习模型推理、移动端智能应用开发，还是游戏引擎中的实时计算，它都能提供强有力的底层支持。

这款工具特别适合 C++ 和 Python 开发者、AI 研究人员以及需要跨平台 GPU 加速的工程团队。其独特的技术亮点包括“自带 Vulkan"（BYOV）设计理念，可无缝集成到现有的 Vulkan 应用中；同时提供了灵活的 Python 模块与高性能 C++ SDK，并具备严谨的内存管理机制以确保稳定性。作为 Linux 基金会托管的项目，Kompute 拥有活跃的社区支持和极高的测试覆盖率，是构建下一代高效能应用的可靠选择。

使用场景

一家移动端 AI 初创团队正在开发一款运行在安卓手机上的实时图像增强应用，需要在不同品牌的手机 GPU 上高效执行复杂的矩阵运算。

没有 kompute 时

硬件兼容性差：团队不得不为 NVIDIA、AMD 和高通等不同厂商的 GPU 编写多套底层代码，维护成本极高且容易出错。
开发门槛高：直接使用 Vulkan API 进行通用计算需要处理繁琐的内存管理和同步机制，导致核心算法开发进度缓慢。
性能瓶颈明显：由于缺乏高效的异步队列支持，CPU 与 GPU 之间的数据传输经常阻塞主线程，造成应用界面卡顿。
跨平台部署难：难以将现有的 C++ 算法无缝迁移到移动端的 Android NDK 环境，限制了产品的覆盖范围。

使用 kompute 后

一次编写，处处运行：kompute 基于 Vulkan 构建，自动屏蔽了底层硬件差异，同一套代码即可在数千种跨厂商显卡上流畅运行。
开发效率倍增：通过简洁的 Python 模块和 C++ SDK，开发者无需关注底层细节，只需聚焦业务逻辑，大幅缩短了研发周期。
极致并行性能：利用 kompute 原生的异步处理特性，GPU 家族队列实现了数据流水线作业，彻底消除了传输阻塞，帧率显著提升。
原生移动支持：凭借对 Android NDK 的深度优化，团队轻松将高性能计算模型部署到各类安卓架构设备上，实现了真正的端侧智能。

kompute 让开发者能够以最低的成本释放跨平台 GPU 的算力潜能，真正实现了“一次开发，全端加速”。

运行环境要求

操作系统

Linux
macOS
Windows
Android

GPU

必需
支持跨厂商显卡（AMD, Qualcomm, NVIDIA 等），需支持 Vulkan API
无特定显存大小要求，取决于具体算法负载
不使用 CUDA，基于 Vulkan

内存

未说明

依赖

notes该工具是一个基于 Vulkan 的通用 GPU 计算框架，不支持 CUDA，而是通过 Vulkan API 实现跨厂商（包括 AMD、NVIDIA、Qualcomm）和跨平台（含移动端 Android NDK）加速。开发需安装 Vulkan SDK 和 CMake。支持同步和异步操作模式，并提供 C++ SDK 和 Python 绑定。

python3.7—3.9

C++14-20

CMake

Vulkan SDK

SPIRV-Tools (用于编译 Shader)

快速开始

Kompute

面向跨厂商显卡（AMD、Qualcomm、NVIDIA 等）的通用 GPU 计算框架

极速、支持移动端、异步，并针对高级 GPU 加速用例进行了优化。

💬 加入 Discord 社区与定期会议 🔋 文档 💻 博客文章 ⌨ 示例 💾

Kompute 得到 Linux 基金会的支持，作为 LF AI & Data 基金会的托管项目。

核心原则与特性

具有 C++ SDK 的灵活 Python 模块，用于优化
通过 GPU 家族队列支持异步与并行处理
支持移动端，提供基于 Android NDK 的多架构示例
BYOV：采用自带 Vulkan 设计，可与现有 Vulkan 应用程序良好兼容
明确定义 GPU 和主机之间的内存所有权与内存管理关系
强健的代码库，单元测试覆盖率达 90%
适用于机器学习 🤖、移动开发 📱 和游戏开发 🎮 等高级场景。
活跃的社区，包括每月例会、Discord 聊天等

使用 Kompute 的项目 ❤️ 🤖

GPT4ALL - 一个开源的边缘大型语言模型生态系统，可在本地 CPU 和几乎所有 GPU 上运行。
llama.cpp - Facebook LLaMA 模型的 C/C++ 移植版本（现已停止维护）。
tpoisonooo/how-to-optimize-gemm - 行主序矩阵乘法优化。
vkJAX - 面向 Vulkan 的 JAX 解释器。

快速上手

下方提供了使用 C++ 和 Python Kompute 接口的 GPU 乘法示例。

如有疑问或讨论，您可加入 Discord，打开 GitHub 问题，或阅读文档。

你的第一个 Kompute (C++)

C++ 接口提供了对 Kompute 原生组件的低级访问，从而实现高级优化以及组件扩展。


void kompute(const std::string& shader) {

    // 1. 使用默认设置创建 Kompute 管理器（设备 0、第一个队列，无扩展）
    kp::Manager mgr; 

    // 2. 通过管理器创建并初始化 Kompute 张量

    // 默认张量构造函数简化了浮点值的创建
    auto tensorInA = mgr.tensor({ 2., 2., 2. });
    auto tensorInB = mgr.tensor({ 1., 2., 3. });
    // 显式类型构造函数支持 uint32、int32、double、float 和 bool
    auto tensorOutA = mgr.tensorT<uint32_t>({ 0, 0, 0 });
    auto tensorOutB = mgr.tensorT<uint32_t>({ 0, 0, 0 });

    std::vector<std::shared_ptr<kp::Memory>> params = {tensorInA, tensorInB, tensorOutA, tensorOutB};

    // 3. 基于着色器创建算法（支持缓冲区和推送/特殊常量）
    kp::Workgroup workgroup({3, 1, 1});
    std::vector<float> specConsts({ 2 });
    std::vector<float> pushConstsA({ 2.0 });
    std::vector<float> pushConstsB({ 3.0 });

    auto algorithm = mgr.algorithm(params,
                                   // 编译源代码请参阅文档中的着色器部分
                                   compileSource(shader),
                                   workgroup,
                                   specConsts,
                                   pushConstsA);

    // 4. 使用序列同步运行操作
    mgr.sequence()
        ->record<kp::OpSyncDevice>(params)
        ->record<kp::OpAlgoDispatch>(algorithm) // 绑定默认推送常量
        ->eval() // 执行记录的两个操作
        ->record<kp::OpAlgoDispatch>(algorithm, pushConstsB) // 覆盖推送常量
        ->eval(); // 仅执行最后一条记录的操作

    // 5. 异步从 GPU 同步结果
    auto sq = mgr.sequence();
    sq->evalAsync<kp::OpSyncLocal>(params);

    // ... 在 GPU 完成计算的同时异步执行其他工作

    sq->evalAwait();

    // 打印第一个输出：{ 4, 8, 12 }
    for (const float& elem : tensorOutA->vector()) std::cout << elem << "  ";
    // 打印第二个输出：{ 10, 10, 10 }
    for (const float& elem : tensorOutB->vector()) std::cout << elem << "  ";

} // 管理并释放所有 CPU 和 GPU 内存资源

int main() {

    // 定义原始字符串着色器（或使用 Kompute 工具将其编译为 SPIRV / C++ 头文件）。该着色器展示了包括常量、缓冲区等在内的主要组件。
    std::string shader = (R"(
        #version 450

        layout (local_size_x = 1) in;

        // 输入张量的绑定索引相对于传入参数的索引
        layout(set = 0, binding = 0) buffer buf_in_a { float in_a[]; };
        layout(set = 0, binding = 1) buffer buf_in_b { float in_b[]; };
        layout(set = 0, binding = 2) buffer buf_out_a { uint out_a[]; };
        layout(set = 0, binding = 3) buffer buf_out_b { uint out_b[]; };

        // Kompute 支持在调度时更新的推送常量
        layout(push_constant) uniform PushConstants {
            float val;
        } push_const;

        // Kompute 还支持在初始化时使用的特殊常量
        layout(constant_id = 0) const float const_one = 0;

        void main() {
            uint index = gl_GlobalInvocationID.x;
            out_a[index] += uint( in_a[index] * in_b[index] );
            out_b[index] += uint( const_one * push_const.val );
        }
    )");

    // 使用上述定义的函数和原始字符串着色器运行程序
    kompute(shader);
}

你的第一个 Kompute（Python）

Python 软件包提供了一个高级交互式接口，它既支持实验性操作，又能确保高性能和快速的开发流程。


from .utils import compile_source # 使用 python/test/utils 中的工具函数

def kompute(shader):
    # 1. 使用默认设置创建 Kompute 管理器（设备 0、第一个队列且无扩展）
    mgr = kp.Manager()

    # 2. 通过管理器创建并初始化 Kompute 张量

    # 默认张量构造函数简化了浮点值的创建
    tensor_in_a = mgr.tensor([2, 2, 2])
    tensor_in_b = mgr.tensor([1, 2, 3])
    # 显式类型构造函数支持 uint32、int32、double、float 和 bool
    tensor_out_a = mgr.tensor_t(np.array([0, 0, 0], dtype=np.uint32))
    tensor_out_b = mgr.tensor_t(np.array([0, 0, 0], dtype=np.uint32))
    assert(t_data.data_type() == kp.DataTypes.uint)

    params = [tensor_in_a, tensor_in_b, tensor_out_a, tensor_out_b]

    # 3. 根据着色器创建算法（支持缓冲区及推送/特殊常量）
    workgroup = (3, 1, 1)
    spec_consts = [2]
    push_consts_a = [2]
    push_consts_b = [3]

    # 编译着色器请参阅文档中的着色器部分
    spirv = compile_source(shader)

    algo = mgr.algorithm(params, spirv, workgroup, spec_consts, push_consts_a)

    # 4. 使用序列同步运行操作
    (mgr.sequence()
        .record(kp.OpTensorSyncDevice(params))
        .record(kp.OpAlgoDispatch(algo)) # 绑定提供的默认推送常量
        .eval() # 执行记录的两个操作
        .record(kp.OpAlgoDispatch(algo, push_consts_b)) # 覆盖推送常量
        .eval()) # 只执行最后一条记录的操作

    # 5. 异步将结果从 GPU 同步回主机
    sq = mgr.sequence()
    sq.eval_async(kp.OpTensorSyncLocal(params))

    # ... 在 GPU 完成工作的同时异步进行其他任务

    sq.eval_await()

    # 打印第一个输出：{ 4, 8, 12 }
    print(tensor_out_a)
    # 打印第二个输出：{ 10, 10, 10 }
    print(tensor_out_b)

if __name__ == "__main__":

    # 定义一个原始字符串着色器（或使用 Kompute 工具将其编译为 SPIRV / C++ 头文件）。此着色器展示了包括常量、缓冲区等在内的主要组件
    shader = """
        #version 450

        layout (local_size_x = 1) in;

        // 输入张量的绑定索引相对于传入参数的索引
        layout(set = 0, binding = 0) buffer buf_in_a { float in_a[]; };
        layout(set = 0, binding = 1) buffer buf_in_b { float in_b[]; };
        layout(set = 0, binding = 2) buffer buf_out_a { uint out_a[]; };
        layout(set = 0, binding = 3) buffer buf_out_b { uint out_b[]; };

        // Kompute 支持在调度时更新的推送常量
        layout(push_constant) uniform PushConstants {
            float val;
        } push_const;

        // Kompute 还支持在初始化时使用的特殊常量
        layout(constant_id = 0) const float const_one = 0;

        void main() {
            uint index = gl_GlobalInvocationID.x;
            out_a[index] += uint( in_a[index] * in_b[index] );
            out_b[index] += uint( const_one * push_const.val );
        }
    """

    kompute(shader)

交互式笔记本与动手视频

你可以尝试使用免费 GPU 的 Colab 交互式笔记本。可用的示例包括以下 Python 和 C++ 示例：

尝试来自博客文章的交互式 C++ Colab	尝试来自博客文章的交互式 Python Colab

你还可以观看在 FOSDEM 2021 大会上发表的两场演讲。

这两段视频都带有时间戳，方便你跳转到最相关的内容——两者的介绍和动机部分几乎相同，因此可以直接跳到更具体的内容。

观看面向 C++ 爱好者的视频	观看面向 Python 和机器学习爱好者的视频

架构概览

Kompute 的核心架构包括以下组件：

Kompute Manager - 基础编排器，用于创建和管理设备及子组件
Kompute Sequence - 可作为批处理发送到 GPU 的操作容器
Kompute Operation (Base) - 所有操作均继承的基类
Kompute Tensor - 在 GPU 操作中使用的张量结构化数据
Kompute Algorithm - 在 GPU 中执行的（着色器）逻辑抽象

如需完整分解，可进一步阅读 C++ 类参考文档。

完整架构	简化后的 Kompute 组件
（非常小，请查看文档中的完整参考图以获取详细信息）

异步与并行操作

Kompute 通过 vk::Fences 提供了以异步方式运行操作的灵活性。此外，Kompute 还支持显式分配队列，从而允许跨队列族并行执行操作。

下图直观展示了如何将 Kompute Sequence 分配到不同队列，以根据硬件实现并行执行。您可以在动手示例和详细文档页面中了解其工作原理，其中以 NVIDIA 1650 为例进行了说明。

移动端支持

Kompute 已针对移动环境进行了优化。构建系统支持在 Android 环境中动态加载 Vulkan 共享库，并提供适用于 CPP 头文件的 Android NDK 封装。

如需深入了解，可阅读博客文章“利用 Android NDK、Vulkan 和 Kompute 为您的移动应用注入 GPU 加速机器学习动力”。

您还可以访问仓库中的端到端示例代码,该代码可通过 Android Studio 运行。

Python 包

除了 C++ 核心 SDK 外，您还可以使用 Kompute 的 Python 包，它提供了相同的核心功能，并支持与 Python 对象（如列表、NumPy 数组等）的互操作。

唯一的依赖项是 Python 3.5+ 和 CMake 3.4.1+。您可以通过以下命令从 Python pypi 包安装 Kompute：

pip install kp

您也可以从主分支安装：

pip install git+git://github.com/KomputeProject/kompute.git@master

有关更多详情，请参阅 Python 包文档或 Python 类参考文档。

C++ 构建概览

提供的构建系统使用 cmake，支持跨平台构建。

顶级 Makefile 提供了针对开发以及 Docker 镜像构建的优化配置，但您也可以通过以下命令开始构建：

   cmake -Bbuild

您还可以使用 add_subdirectory 将 Kompute 添加到您的项目中——Android 示例 CMakeLists.txt 文件展示了具体做法。

如需更深入地了解构建配置，请参阅构建系统深度解析文档。

Kompute 开发

我们欢迎 PR 和问题提交。如果您想贡献代码，可以查看“Good first issue”标签；即使只是使用 Kompute 并报告问题，也是一种很好的贡献！

贡献

开发依赖

测试
- GTest
文档
- Doxygen（带 Dot）
- Sphinx

开发规范

遵循 Mozilla C++ 代码风格指南：https://www-archive.mozilla.org/hacking/mozilla-style-guide.html
- 使用提交后钩子运行代码检查工具；可以配置为在提交前自动执行代码检查。
- 所有依赖项均在 vcpkg.json 文件中定义。
使用 CMake 作为构建系统，并提供顶层 Makefile，其中包含推荐的构建命令。
使用 xxd（或 Windows 64 位版本 xxd.exe）将着色器 SPIR-V 文件转换为头文件。
使用 Doxygen 和 Sphinx 生成文档及自动文档。
使用 vcpkg 管理依赖库，这是推荐的获取第三方库的方式。

若需启用调试层，可通过设置 KOMPUTE_ENV_DEBUG_LAYERS 参数来添加，例如：

export KOMPUTE_ENV_DEBUG_LAYERS="VK_LAYER_LUNARG_api_dump"

更新文档

要更新文档，您需要：

在构建系统中运行 gendoxygen 目标；
在构建系统中运行 gensphynx 目标；
使用 make push_docs_to_ghpages 命令将文档推送到 GitHub Pages。

运行测试

对于贡献者而言，运行单元测试已大大简化。

测试在 CPU 上执行，可通过 ACT 命令行工具（https://github.com/nektos/act）触发。安装该工具并启动 Docker 守护进程后，只需输入以下命令即可：

$ act

[Python Tests/python-tests] 🚀  Start image=axsauze/kompute-builder:0.2
[C++ Tests/cpp-tests      ] 🚀  Start image=axsauze/kompute-builder:0.2
[C++ Tests/cpp-tests      ]   🐳  docker run image=axsauze/kompute-builder:0.2 entrypoint=["/usr/bin/tail" "-f" "/dev/null"] cmd=[]
[Python Tests/python-tests]   🐳  docker run image=axsauze/kompute-builder:0.2 entrypoint=["/usr/bin/tail" "-f" "/dev/null"] cmd=[]
...

仓库包含 C++ 和 Python 代码的单元测试，分别位于 test/ 和 python/test 目录下。

目前，这些测试通过 GitHub Actions 的 CI 系统运行，并使用 docker-builders/ 中的镜像。

为降低硬件要求，测试可以在没有 GPU 的情况下直接在 CPU 上运行，借助 SwiftShader 实现。

有关 CI 和测试的具体配置，请参阅文档中的 CI、Docker 和测试章节。

动机

本项目源于观察到许多新兴且知名的机器学习和深度学习框架，如 PyTorch、TensorFlow、阿里巴巴 DNN、腾讯 NCNN 等，均已集成或正计划集成 Vulkan SDK，以支持移动端及其他厂商的 GPU 加速计算功能。

Vulkan SDK 提供了一个优秀的底层接口，能够实现高度定制化的优化；然而，其代码编写较为冗长，仅开始编写应用代码就需要 500 到 2000 行代码。这导致各个项目不得不重复实现相同的抽象层，用于屏蔽 Vulkan SDK 中与计算无关的功能。这种大量非标准化的样板代码不仅限制了知识共享，还增加了引入特定框架独有缺陷的风险等。

我们当前开发 Kompute 的目的，并非隐藏设计精良的 Vulkan SDK 接口，而是围绕 Vulkan SDK 的 GPU 计算能力进行扩展和完善。这篇文章对 Kompute 的开发动机进行了高层次的概述，并结合实际示例介绍了 GPU 计算以及 Kompute 的核心架构。

Kompute 快速上手指南

Kompute 是一个通用的 GPU 计算框架，支持跨厂商显卡（AMD、Qualcomm、NVIDIA 等），基于 Vulkan API 构建。它提供高性能的异步并行处理能力，适用于机器学习、移动开发及游戏开发等场景。

环境准备

系统要求

操作系统: Linux, Windows, macOS (需 MoltenVK), Android
GPU: 支持 Vulkan 的显卡 (AMD, NVIDIA, Intel, Qualcomm Adreno 等)
编译器: 支持 C++14 至 C++20 的编译器 (GCC, Clang, MSVC)
Python: 3.7 - 3.9 (如需使用 Python 接口)

前置依赖

确保系统已安装以下工具：

CMake: 3.15 或更高版本
Vulkan SDK: 必须安装并配置 VULKAN_SDK 环境变量
Git: 用于克隆代码库

提示: 国内用户可通过华为云镜像或清华大学镜像站加速下载 Vulkan SDK 及相关依赖。

安装步骤

方式一：从源码构建 (C++ SDK)

# 1. 克隆仓库
git clone https://github.com/KomputeProject/kompute.git
cd kompute

# 2. 创建构建目录
mkdir build && cd build

# 3. 配置 CMake (可选：指定 Python 路径或安装前缀)
cmake .. -DKOMPUTE_BUILD_PYTHON=OFF

# 4. 编译并安装
cmake --build . --config Release
sudo cmake --install .

方式二：安装 Python 包

推荐使用 pip 直接安装预编译包（需确保系统已安装 Vulkan 运行时）：

pip install kp

若需从源码构建 Python 绑定：

pip install .[dev]

基本使用

C++ 示例：GPU 矩阵乘法

以下示例演示如何创建 Manager、初始化张量、定义 Shader 并执行异步计算。

#include "kompute/Kompute.hpp"
#include <iostream>
#include <vector>

void kompute(const std::string& shader) {
    // 1. 创建 Kompute Manager (默认使用设备 0)
    kp::Manager mgr; 

    // 2. 创建并初始化张量
    auto tensorInA = mgr.tensor({ 2., 2., 2. });
    auto tensorInB = mgr.tensor({ 1., 2., 3. });
    auto tensorOutA = mgr.tensorT<uint32_t>({ 0, 0, 0 });
    auto tensorOutB = mgr.tensorT<uint32_t>({ 0, 0, 0 });

    std::vector<std::shared_ptr<kp::Memory>> params = {tensorInA, tensorInB, tensorOutA, tensorOutB};

    // 3. 基于 Shader 创建算法
    kp::Workgroup workgroup({3, 1, 1});
    std::vector<float> specConsts({ 2 });
    std::vector<float> pushConstsA({ 2.0 });
    std::vector<float> pushConstsB({ 3.0 });

    // 假设 compileSource 函数已将 GLSL 源码编译为 SPIR-V
    auto algorithm = mgr.algorithm(params, compileSource(shader), workgroup, specConsts, pushConstsA);

    // 4. 同步执行操作序列
    mgr.sequence()
        ->record<kp::OpSyncDevice>(params)
        ->record<kp::OpAlgoDispatch>(algorithm) 
        ->eval()
        ->record<kp::OpAlgoDispatch>(algorithm, pushConstsB) 
        ->eval();

    // 5. 异步同步结果回主机
    auto sq = mgr.sequence();
    sq->evalAsync<kp::OpSyncLocal>(params);

    // ... 此处可执行其他异步任务

    sq->evalAwait();

    // 输出结果
    for (const float& elem : tensorOutA->vector()) std::cout << elem << "  "; // 输出: 4  8  12
    std::cout << std::endl;
    for (const float& elem : tensorOutB->vector()) std::cout << elem << "  "; // 输出: 10  10  10
}

int main() {
    // 定义 GLSL 计算着色器
    std::string shader = (R"(
        #version 450
        layout (local_size_x = 1) in;
        layout(set = 0, binding = 0) buffer buf_in_a { float in_a[]; };
        layout(set = 0, binding = 1) buffer buf_in_b { float in_b[]; };
        layout(set = 0, binding = 2) buffer buf_out_a { uint out_a[]; };
        layout(set = 0, binding = 3) buffer buf_out_b { uint out_b[]; };
        layout(push_constant) uniform PushConstants { float val; } push_const;
        layout(constant_id = 0) const float const_one = 0;

        void main() {
            uint index = gl_GlobalInvocationID.x;
            out_a[index] += uint( in_a[index] * in_b[index] );
            out_b[index] += uint( const_one * push_const.val );
        }
    )");

    kompute(shader);
    return 0;
}

Python 示例：交互式 GPU 计算

Python 接口提供了更简洁的高级 API，适合快速原型开发。

import numpy as np
import kp
from utils import compile_source  # 需自行实现或使用测试工具中的 compile_source

def kompute(shader):
    # 1. 创建 Manager
    mgr = kp.Manager()

    # 2. 创建张量
    tensor_in_a = mgr.tensor([2, 2, 2])
    tensor_in_b = mgr.tensor([1, 2, 3])
    tensor_out_a = mgr.tensor_t(np.array([0, 0, 0], dtype=np.uint32))
    tensor_out_b = mgr.tensor_t(np.array([0, 0, 0], dtype=np.uint32))

    params = [tensor_in_a, tensor_in_b, tensor_out_a, tensor_out_b]

    # 3. 创建算法
    workgroup = (3, 1, 1)
    spec_consts = [2]
    push_consts_a = [2]
    push_consts_b = [3]

    spirv = compile_source(shader)
    algo = mgr.algorithm(params, spirv, workgroup, spec_consts, push_consts_a)

    # 4. 执行序列
    (mgr.sequence()
        .record(kp.OpTensorSyncDevice(params))
        .record(kp.OpAlgoDispatch(algo))
        .eval()
        .record(kp.OpAlgoDispatch(algo, push_consts_b))
        .eval())

    # 5. 异步获取结果
    sq = mgr.sequence()
    sq.eval_async(kp.OpTensorSyncLocal(params))
    
    # ... 执行其他任务
    
    sq.eval_await()

    print(tensor_out_a)  # 输出: [4 8 12]
    print(tensor_out_b)  # 输出: [10 10 10]

if __name__ == "__main__":
    shader = """
        #version 450
        layout (local_size_x = 1) in;
        layout(set = 0, binding = 0) buffer buf_in_a { float in_a[]; };
        layout(set = 0, binding = 1) buffer buf_in_b { float in_b[]; };
        layout(set = 0, binding = 2) buffer buf_out_a { uint out_a[]; };
        layout(set = 0, binding = 3) buffer buf_out_b { uint out_b[]; };
        layout(push_constant) uniform PushConstants { float val; } push_const;
        layout(constant_id = 0) const float const_one = 0;

        void main() {
            uint index = gl_GlobalInvocationID.x;
            out_a[index] += uint( in_a[index] * in_b[index] );
            out_b[index] += uint( const_one * push_const.val );
        }
    """
    kompute(shader)

版本历史

v0.9.02024/01/20

v0.8.12022/04/13

v0.8.02021/09/16

v0.7.02021/03/14

v0.6.02021/01/31

v0.5.12020/11/14

v0.5.02020/11/08

v0.4.12020/11/01

v0.4.02020/10/18

v0.3.22020/10/04

v0.3.12020/09/20

v0.3.02020/09/13

v0.2.02020/09/05

v0.1.02020/08/29

常见问题

在 Android 上使用 Chaquopy (Python) 调用 Kompute 时遇到原生崩溃 (SIGSEGV) 怎么办？

如何在 Raspberry Pi 上使用 Mesa Vulkan 驱动程序运行 Kompute？

Push Constants (推送常量) 在测试中返回零值或不生效怎么办？

是否有深度学习卷积神经网络 (CNN) 的实现示例？

在 Windows 上编译示例时遇到 CMake 错误提示找不到 'Vulkan-Headers' 或 'fmt' 的 CMakeLists.txt 怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent