第五天 CUDA Runtime API

文章列表

图中可以看到，Runtime API 是基于 Driver API 之上开发的一套 API
Driver API 基本都是 cu 开头的，而Runtime API 基本都是以 cuda 开头的

Runtime API 概述

CUDA Runtime是封装了CUDA Driver的高级别更友好的API
cudaruntime需要引入cudart这个so文件
上下文管理：
- 3.1. 使用cuDevicePrimaryCtxRetain为每个设备设置context，不再手工管理context，并且不提供直接管理context的API
- 3.2. 任何依赖CUcontext的API被调用时，会触发CUcontext的创建和对设备的绑定
  - 此后任何API调用时，会以设备id为基准，调取绑定好的CUcontext
  - 因此被称为懒加载模式，避免了手动维护CUcontext的麻烦
cuda的状态返回值，都是cudaError_t类型，通过check宏捕获状态并处理是一种通用方式
- 官方案例采用宏，而非这里的函数加宏
- 函数加宏具有更加好的便利性

Runtime API 的特点

Runtime API 与 Driver API 最大的区别是懒加载，即在真正执行功能时才自动完成对应的动作，即：

第一个 Runtime API 调用时，会自动进行 cuInit 初始化，避免 Driver API 未初始化的错误；

第一个需要 context 的 API 调用时，会创建 context 并进行 context 关联，和设置当前 context，调用 cuDevicePrimaryCtxRetain 实现；

绝大部分 api 都需要 context，例如查询当前显卡名称、参数、内存分配释放等

CUDA Runtime 是封装了 CUDA Driver 的更高级别、更友好的 API

Runtime API 使用 cuDevicePrimaryCtxRetain 为每个设备设置 context，不再手动管理 context，并且不提供直接管理 context 的 API（可 Driver API 管理，通常不需要）

可以更友好地执行核函数，.cpp 可以与 .cu 文件无缝对接

Runtime API 对应 cuda_runtime.h 和 libcudart.so

Runtime API 随 cudatoolkit 发布

主要知识点是核函数的使用、线程束布局、内存模型、流的使用

主要是为了实现归约求和、放射变换、矩阵乘法、模型后处理，就可以解决绝大部分问题

代码示例


// CUDA运行时头文件
#include <cuda_runtime.h>// CUDA驱动头文件
#include <cuda.h>
#include <stdio.h>
#include <string.h>#define checkRuntime(op)  __check_cuda_runtime((op), #op, __FILE__, __LINE__)bool __check_cuda_runtime(cudaError_t code, const char* op, const char* file, int line){if(code != cudaSuccess){    const char* err_name = cudaGetErrorName(code);    const char* err_message = cudaGetErrorString(code);  printf("runtime error %s:%d  %s failed. \\n  code = %s, message = %s\\n", file, line, op, err_name, err_message);   return false;}return true;
}int main(){CUcontext context = nullptr;cuCtxGetCurrent(&context);printf("Current context = %p，当前无context\\n", context);// cuda runtime是以cuda为基准开发的运行时库// cuda runtime所使用的CUcontext是基于cuDevicePrimaryCtxRetain函数获取的// 即，cuDevicePrimaryCtxRetain会为每个设备关联一个context，通过cuDevicePrimaryCtxRetain函数可以获取到// 而context初始化的时机是懒加载模式，即当你调用一个runtime api时，会触发创建动作// 也因此，避免了cu驱动级别的init和destroy操作。使得api的调用更加容易int device_count = 0;checkRuntime(cudaGetDeviceCount(&device_count));printf("device_count = %d\\n", device_count);// 取而代之，是使用setdevice来控制当前上下文，当你要使用不同设备时// 使用不同的device id// 注意，context是线程内作用的，其他线程不相关的, 一个线程一个context stackint device_id = 0;printf("set current device to : %d，这个API依赖CUcontext，触发创建并设置\\n", device_id);checkRuntime(cudaSetDevice(device_id));// 注意，是由于set device函数是“第一个执行的需要context的函数”，所以他会执行cuDevicePrimaryCtxRetain// 并设置当前context，这一切都是默认执行的。注意：cudaGetDeviceCount是一个不需要context的函数// 你可以认为绝大部分runtime api都是需要context的，所以第一个执行的cuda runtime函数，会创建context并设置上下文cuCtxGetCurrent(&context);printf("SetDevice after, Current context = %p，获取当前context\\n", context);int current_device = 0;checkRuntime(cudaGetDevice(&current_device));printf("current_device = %d\\n", current_device);return 0;
}

参考文献

https://developer.nvidia.com/cuda-toolkit-archive
https://docs.nvidia.com/cuda/archive/11.2.0/

第五天 CUDA Runtime API

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

第五天 CUDA Runtime API

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签