NN-CUDA-Example

1.5k 204 较难 1 次阅读 1周前Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

NN-CUDA-Example 是一个专为深度学习开发者设计的开源示例集合，旨在演示如何在 PyTorch 和 TensorFlow 等主流框架中调用自定义的 CUDA 算子。在深度学习模型优化过程中，当现有库无法满足特定性能需求或需要实现特殊算法时，开发者往往需要编写底层 GPU 代码，而如何将 C++/CUDA 代码高效集成到 Python 训练流程中常是一大难点。

该项目通过一个具体的"add2"算子实例，完整展示了从内核编写、C++ 封装到 Python 调用的全流程。其独特亮点在于提供了三种不同的编译与集成方案：即时编译（JIT）、Setuptools 打包以及 CMake 构建，并附带了详细的运行时间对比脚本和模型训练示例，帮助用户直观评估不同集成方式的性能差异。此外，项目还给出了针对 NVIDIA 专业工具（如 nvprof）的性能分析建议。

NN-CUDA-Example 非常适合有一定 C++ 和 CUDA 基础的算法工程师、系统研究人员及高阶开发者使用。它不仅是学习自定义算子开发的绝佳入门教材，也能作为实际项目中构建高性能定制算子的参考模板，帮助技术人员轻松跨越框架与底层硬件之间的鸿沟。

使用场景

某自动驾驶初创公司的算法团队正在研发一套实时激光雷达点云处理系统，急需在 PyTorch 中集成一个高度定制化的稀疏体素滤波算子以满足毫秒级延迟要求。

没有 NN-CUDA-Example 时

环境配置噩梦：团队成员需从零摸索 CUDA 内核与 PyTorch C++ 扩展的编译链接细节，常因 GCC 版本不匹配或找不到 libc10.so 等符号错误耗费数天调试。
构建方式单一：缺乏对 JIT、Setuptools 和 CMake 多种编译模式的参考，导致无法根据部署场景（如快速原型验证 vs 生产环境打包）灵活选择构建策略。
性能评估缺失：手动编写计时代码难以精确统计 GPU 内核耗时，无法区分是 Python 开销还是算子本身慢，导致优化方向模糊。
反向传播实现困难：自定义算子的反向传播逻辑复杂，缺乏标准模板指引，极易出现梯度计算错误且难以排查。

使用 NN-CUDA-Example 后

快速上手编译：直接复用其提供的 CMakeLists.txt 和 setup.py 模板，迅速解决了头文件引用和动态库链接问题，将环境搭建时间从三天缩短至两小时。
灵活构建切换：利用项目中集成的三种编译示例，开发阶段使用 JIT 快速迭代代码，部署阶段切换至 CMake 生成优化后的二进制文件，兼顾效率与性能。
精准性能分析：调用其内置的 time.py 脚本，轻松获得自定义算子与原生 PyTorch 算子的耗时对比数据，并配合 nsys 工具定位到具体的内核瓶颈。
可靠训练闭环：参考 train.py 中完整的正向与反向传播封装逻辑，确保了自定义滤波算子在模型端到端训练中的梯度正确流通，加速了模型收敛。

NN-CUDA-Example 通过提供标准化的编译模板与性能测试基准，彻底消除了开发者在自定义 CUDA 算子落地过程中的工程摩擦，让算法创新不再受限于底层实现障碍。

运行环境要求

操作系统

未说明

GPU

必需 NVIDIA GPU，需安装 NVIDIA Driver 418.116.00，CUDA 11.0

内存

未说明

依赖

notes官方明确声明无法保证在其他环境版本下成功运行。为了获得更准确的时间统计，建议使用 nvprof 或 nsys 工具运行代码。编译自定义算子时需注意导入顺序（先 import torch）及 CMake 配置中的 TensorFlow 标志位。

python3.7.3

PyTorch==1.7.0+cu110

TensorFlow==2.4.1

CMake==3.16.3

Ninja==1.10.0

GCC==8.3.0

快速开始

神经网络 CUDA 示例

logo

几个简单的示例，展示神经网络工具包（PyTorch、TensorFlow 等）如何调用自定义的 CUDA 算子。

我们提供了多种编译 CUDA 内核及其 C++ 封装的方法，包括 JIT、setuptools 和 CMake。

此外，我们也提供了一些 Python 代码来调用这些 CUDA 内核，包括内核运行时间统计和模型训练。

为了获得更准确的时间统计，建议使用 nvprof 或 nsys 来运行代码。

运行环境

NVIDIA 驱动：418.116.00
CUDA：11.0
Python：3.7.3
PyTorch：1.7.0+cu110
TensorFlow：2.4.1
CMake：3.16.3
Ninja：1.10.0
GCC：8.3.0

无法保证在其他环境下成功运行。

代码结构

├── include
│   └── add2.h # add2 CUDA 内核的头文件
├── kernel
│   └── add2_kernel.cu # add2 CUDA 内核
├── pytorch
│   ├── add2_ops.cpp # add2 CUDA 内核的 PyTorch 封装
│   ├── time.py # CUDA 内核与 PyTorch 的时间对比
│   ├── train.py # 使用自定义 CUDA 内核进行训练
│   ├── setup.py
│   └── CMakeLists.txt
├── tensorflow
│   ├── add2_ops.cpp # add2 CUDA 内核的 TensorFlow 封装
│   ├── time.py # CUDA 内核与 TensorFlow 的时间对比
│   ├── train.py # 使用自定义 CUDA 内核进行训练
│   └── CMakeLists.txt
├── LICENSE
└── README.md

PyTorch

编译 C++ 和 CUDA

JIT
直接运行 Python 代码。

Setuptools

python3 pytorch/setup.py install

CMake

mkdir build
cd build
cmake ../pytorch
make

运行 Python

比较内核运行时间

python3 pytorch/time.py --compiler jit
python3 pytorch/time.py --compiler setup
python3 pytorch/time.py --compiler cmake

训练模型

python3 pytorch/train.py --compiler jit
python3 pytorch/train.py --compiler setup
python3 pytorch/train.py --compiler cmake

TensorFlow

编译 C++ 和 CUDA

CMake

mkdir build
cd build
cmake ../tensorflow
make

运行 Python

比较内核运行时间

python3 tensorflow/time.py --compiler cmake

训练模型

python3 tensorflow/train.py --compiler cmake

实现细节（中文）

PyTorch 自定义 CUDA 算子教程与运行时间分析
 详解 PyTorch 编译并调用自定义 CUDA 算子的三种方式
 三分钟教你如何 PyTorch 自定义反向传播

常见问题解答

Q. ImportError: libc10.so: cannot open shared object file: No such file or directory
A. 必须先执行 import torch，再执行 import add2。

Q. tensorflow.python.framework.errors_impl.NotFoundError: build/libadd2.so: undefined symbol: _ZTIN10tensorflow8OpKernelE
A. 检查 CMakeLists.txt 中的 ${TF_LFLAGS} 是否正确。

NN-CUDA-Example 快速上手指南

本指南旨在帮助开发者快速在 PyTorch 和 TensorFlow 中编译并调用自定义 CUDA 算子。

环境准备

请确保您的开发环境满足以下版本要求，其他环境无法保证运行成功。

硬件驱动: NVIDIA Driver 418.116.00+
核心依赖: CUDA 11.0, GCC 8.3.0
构建工具: CMake 3.16.3+, Ninja 1.10.0+
Python 环境: Python 3.7.3
深度学习框架 (二选一或全选):
- PyTorch 1.7.0+cu110
- TensorFlow 2.4.1

提示: 国内用户建议使用清华源或阿里源加速 Python 包安装。
pip install torch==1.7.0+cu110 tensorflow==2.4.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装与编译

本项目支持三种编译方式：JIT (即时编译)、Setuptools 和 CMake。

1. PyTorch 环境

方式 A：JIT (无需预先编译)

直接运行 Python 脚本即可自动编译，适合快速测试。

方式 B：Setuptools

使用 setup.py 进行安装：

python3 pytorch/setup.py install

方式 C：CMake

手动构建编译文件：

mkdir build
cd build
cmake ../pytorch
make

2. TensorFlow 环境

TensorFlow 仅支持 CMake 方式进行编译：

mkdir build
cd build
cmake ../tensorflow
make

基本使用

编译完成后，可通过以下命令运行示例代码，进行算子性能对比或模型训练。

PyTorch 示例

1. 算子运行时间对比 分别测试 JIT、Setuptools 和 CMake 三种编译方式下的内核耗时：

python3 pytorch/time.py --compiler jit
python3 pytorch/time.py --compiler setup
python3 pytorch/time.py --compiler cmake

2. 模型训练 使用自定义 CUDA 算子进行简单的模型训练：

python3 pytorch/train.py --compiler jit
python3 pytorch/train.py --compiler setup
python3 pytorch/train.py --compiler cmake

TensorFlow 示例

1. 算子运行时间对比

python3 tensorflow/time.py --compiler cmake

2. 模型训练

python3 tensorflow/train.py --compiler cmake

性能分析建议: 如需获取更精确的性能剖析数据，推荐使用 nvprof 或 nsys 工具运行上述脚本。

常见问题

编译 PyTorch 项目时出现错误：'expected constructor, destructor, or type conversion before '(' token'，如何解决？

在 TensorFlow 中加载自定义算子库 (.so) 时报错 'undefined symbol: _ZTIN10tensorflow8OpKernelE'，怎么办？

原项目关联的博客文章链接失效，哪里可以找到学习 PyTorch CUDA 编程的资料？

运行修改后的训练脚本时遇到 'RuntimeError: CUDA error: an illegal memory access was encountered' 错误，可能是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 144.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent