在 ONNX Runtime 中使用设备张量

在构建高效的 AI 流水线时，使用设备张量是至关重要的一环，尤其是在异构内存系统中。这类系统的典型例子是任何配有专用 GPU 的 PC。虽然最新的 GPU 本身具有约 1TB/s 的内存带宽，但连接到 CPU 的互连 PCI 4.0 x16 往往是瓶颈，其带宽仅为约 32GB/s。因此，最好尽可能地将数据保留在 GPU 本地，或者通过计算来隐藏缓慢的内存流量，因为 GPU 能够同时执行计算和 PCI 内存流量。

在内存已本地化到推理设备的这些场景中，一个典型的用例是 GPU 加速的编码视频流处理，该视频流可以通过 GPU 解码器进行解码。另一个常见情况是迭代网络，例如扩散网络或大型语言模型，其间中间张量不必复制回 CPU。针对高分辨率图像的基于瓦片的推理是另一个用例，其中自定义内存管理对于减少 PCI 复制期间的 GPU 空闲时间至关重要。与顺序处理每个瓦片不同，可以重叠 PCI 复制和 GPU 上的处理，并以此方式进行工作流水线化。

Image of sequential PCI->Processing->PCI and another image of it being interleaved.

CUDA

ONNX Runtime 中的 CUDA 有两种自定义内存类型："CudaPinned" 和 "Cuda" 内存，其中 CUDA pinned（CUDA 页面锁定）内存实际上是 CPU 内存，可由 GPU 直接访问，允许使用 cudaMemcpyAsync 进行完全异步的内存上传和下载。普通的 CPU 张量只允许从 GPU 到 CPU 的同步下载，而从 CPU 到 GPU 的复制总是可以异步执行。

使用 Ort::Sessions 的分配器分配张量非常简单，通过 C++ API 进行，它直接映射到 C API。

Ort::Session session(ort_env, model_path_cstr, session_options);
Ort::MemoryInfo memory_info_cuda("Cuda", OrtArenaAllocator, /*device_id*/0,
                                 OrtMemTypeDefault);
Ort::Allocator gpu_allocator(session, memory_info_cuda);
auto ort_value = Ort::Value::CreateTensor(
        gpu_allocator, shape.data(), shape.size(),
        ONNX_TENSOR_ELEMENT_DATA_TYPE_FLOAT16);

外部分配的数据也可以包装到 Ort::Value 中而无需复制。

Ort::MemoryInfo memory_info_cuda("Cuda", OrtArenaAllocator, device_id,
                                 OrtMemTypeDefault);
std::array<int64_t, 4> shape{1, 4, 64, 64};
size_t cuda_buffer_size = 4 * 64 * 64 * sizeof(float);
void *cuda_resource;
CUDA_CHECK(cudaMalloc(&cuda_resource, cuda_buffer_size));
auto ort_value = Ort::Value::CreateTensor(
    memory_info_cuda, cuda_resource, cuda_buffer_size,
    shape.data(), shape.size(),
    ONNX_TENSOR_ELEMENT_DATA_TYPE_FLOAT);

这些已分配的张量可以作为 I/O 绑定使用，以消除网络上的复制操作并将责任转移给用户。通过此类 I/O 绑定，可以进行更多的性能调优：

由于张量地址固定，可以捕获 CUDA 图以减少 CPU 上的 CUDA 启动延迟
由于可以完全异步下载到页面锁定内存，或通过使用设备本地张量消除内存复制，CUDA 可以在其给定流上通过运行选项实现完全异步运行

要为 CUDA 设置自定义计算流，请参考 V2 选项 API，它公开了 Ort[CUDA|TensorRT]ProviderOptionsV2* 不透明结构指针和函数 Update[CUDA|TensorRT]ProviderOptionsWithValue(options, "user_compute_stream", cuda_stream); 来设置其流成员。更多详细信息可在每个执行提供者文档中找到。

如果您想验证您的优化，Nsight System 有助于关联 CPU API 和 CUDA 操作的 GPU 执行。这也可以验证是否进行了所需的同步以及是否有异步操作回退到同步执行。它还用于本次 GTC 演讲，解释了设备张量的最佳使用。

Python API

Python API 支持与上述 C++ API 相同的性能优化机会。设备张量可以按此所示进行分配。此外，user_compute_stream 可以通过此 API 进行设置。

sess = onnxruntime.InferenceSession("model.onnx", providers=["TensorrtExecutionProvider"])
option = {}
s = torch.cuda.Stream()
option["user_compute_stream"] = str(s.cuda_stream)                    
sess.set_providers(["TensorrtExecutionProvider"], [option])

在 Python 中启用异步执行可以通过与 C++ API 相同的运行选项实现。

DirectML

通过 DirectX 资源可以实现相同的行为。要运行异步处理，与 CUDA 一样，对执行流进行相同的管理至关重要。对于 DirectX，这意味着管理设备及其命令队列，这可以通过 C API 实现。关于如何设置计算命令队列的详细信息已在使用 SessionOptionsAppendExecutionProvider_DML1 的文档中说明。

如果为复制和计算使用独立的命令队列，则可以重叠 PCI 复制和执行，并使执行异步化。

#include <onnxruntime/dml_provider_factory.h>
Ort::MemoryInfo memory_info_dml("DML", OrtDeviceAllocator, device_id,
                                OrtMemTypeDefault);

std::array<int64_t, 4> shape{1, 4, 64, 64};
void *dml_resource;
size_t d3d_buffer_size = 4 * 64 * 64 * sizeof(float);
const OrtDmlApi *ort_dml_api;
Ort::ThrowOnError(Ort::GetApi().GetExecutionProviderApi(
                  "DML", ORT_API_VERSION, reinterpret_cast<const void **>(&ort_dml_api)));

// Create d3d_buffer using D3D12 APIs
Microsoft::WRL::ComPtr<ID3D12Resource> d3d_buffer = ...;

// Create the dml resource from the D3D resource.
ort_dml_api->CreateGPUAllocationFromD3DResource(d3d_buffer.Get(), &dml_resource);


Ort::Value ort_value(Ort::Value::CreateTensor(memory_info_dml, dml_resource,
                     d3d_buffer_size, shape.data(), shape.size(),
                     ONNX_TENSOR_ELEMENT_DATA_TYPE_FLOAT));

一个单文件示例可以在 GitHub 上找到，它展示了如何管理和创建复制和执行命令队列。

Python API

尽管从 Python 分配 DirectX 输入可能不是一个主要用例，但该 API 是可用的。这可能非常有利，特别是对于中间网络缓存，例如大型语言模型 (LLM) 中的键值缓存。

import onnxruntime as ort
import numpy as np

session = ort.InferenceSession("model.onnx",
                               providers=["DmlExecutionProvider"])

cpu_array = np.zeros((1, 4, 512, 512), dtype=np.float32)
dml_array = ort.OrtValue.ortvalue_from_numpy(cpu_array, "dml")

binding = session.io_binding()
binding.bind_ortvalue_input("data", dml_array)
binding.bind_output("out", "dml")
# if the output dims are known we can also bind a preallocated value
# binding.bind_ortvalue_output("out", dml_array_out)

session.run_with_iobinding(binding)