C# 中使用 ResNet50v2 进行图像识别
此示例演示了如何使用 Onnx Runtime C# API 运行预训练的 ResNet50 v2 ONNX 模型。
此示例的源代码可在此处找到。
目录
先决条件
要运行此示例,您需要以下内容
- 安装 .NET Core 3.1 或更高版本,适用于您的操作系统(Mac、Windows 或 Linux)。
- 下载 ResNet50 v2 ONNX 模型到您的本地系统。
- 下载 这张狗的图片 以测试模型。您也可以使用任何您喜欢的图片。
开始入门
现在我们已经设置好一切,我们可以开始添加代码以在图像上运行模型。为了简单起见,我们将在程序的主方法中执行此操作。
读取路径
首先,让我们通过程序参数读取模型路径和要测试的图像路径
string modelFilePath = args[0];
string imageFilePath = args[1];
读取图像
接下来,我们将使用跨平台图像库 ImageSharp 读取图像
using Image<Rgb24> image = Image.Load<Rgb24>(imageFilePath, out IImageFormat format);
请注意,我们专门读取 Rgb24
类型,以便我们可以在稍后的步骤中有效地预处理图像。
调整图像大小
接下来,我们将图像调整为模型期望的适当大小;224 像素 x 224 像素
using Stream imageStream = new MemoryStream();
image.Mutate(x =>
{
x.Resize(new ResizeOptions
{
Size = new Size(224, 224),
Mode = ResizeMode.Crop
});
});
image.Save(imageStream, format);
请注意,我们正在进行中心裁剪调整大小以保留宽高比。
预处理图像
接下来,我们将根据 模型的要求 预处理图像
// We use DenseTensor for multi-dimensional access to populate the image data
var mean = new[] { 0.485f, 0.456f, 0.406f };
var stddev = new[] { 0.229f, 0.224f, 0.225f };
DenseTensor<float> processedImage = new(new[] { 1, 3, 224, 224 });
image.ProcessPixelRows(accessor =>
{
for (int y = 0; y < accessor.Height; y++)
{
Span<Rgb24> pixelSpan = accessor.GetRowSpan(y);
for (int x = 0; x < accessor.Width; x++)
{
processedImage[0, 0, y, x] = ((pixelSpan[x].R / 255f) - mean[0]) / stddev[0];
processedImage[0, 1, y, x] = ((pixelSpan[x].G / 255f) - mean[1]) / stddev[1];
processedImage[0, 2, y, x] = ((pixelSpan[x].B / 255f) - mean[2]) / stddev[2];
}
}
});
在这里,我们正在创建一个所需大小的张量 (batch-size, channels, height, width)
,访问像素值,预处理它们,最后将它们分配给张量中的适当索引。
设置输入
接下来,我们将创建模型的输入
// Pin tensor buffer and create a OrtValue with native tensor that makes use of
// DenseTensor buffer directly. This avoids extra data copy within OnnxRuntime.
// It will be unpinned on ortValue disposal
using var inputOrtValue = OrtValue.CreateTensorValueFromMemory(OrtMemoryInfo.DefaultInstance,
processedImage.Buffer, new long[] { 1, 3, 224, 224 });
var inputs = new Dictionary<string, OrtValue>
{
{ "data", inputOrtValue }
}
要检查 ONNX 模型的输入节点名称,您可以使用 Netron 可视化模型并查看输入/输出名称。在本例中,此模型的输入节点名称为 data
。
运行推理
接下来,我们将创建一个推理会话并通过它运行输入
using var session = new InferenceSession(modelFilePath);
using var runOptions = new RunOptions();
using IDisposableReadOnlyCollection<OrtValue> results = session.Run(runOptions, inputs, session.OutputNames);
后处理输出
接下来,我们将需要后处理输出以获得 softmax 向量,因为模型本身不处理此操作
// We copy results to array only to apply algorithms, otherwise data can be accessed directly
// from the native buffer via ReadOnlySpan<T> or Span<T>
var output = results[0].GetTensorDataAsSpan<float>().ToArray();
float sum = output.Sum(x => (float)Math.Exp(x));
IEnumerable<float> softmax = output.Select(x => (float)Math.Exp(x) / sum);
其他模型可能会在输出之前应用 Softmax 节点,在这种情况下,您将不需要此步骤。同样,您可以使用 Netron 查看模型输出。
提取前 10 个
接下来,我们将提取前 10 个类别预测
IEnumerable<Prediction> top10 = softmax.Select((x, i) => new Prediction { Label = LabelMap.Labels[i], Confidence = x })
.OrderByDescending(x => x.Confidence)
.Take(10);
打印结果
接下来,我们将前 10 个结果打印到控制台
Console.WriteLine("Top 10 predictions for ResNet50 v2...");
Console.WriteLine("--------------------------------------------------------------");
foreach (var t in top10)
{
Console.WriteLine($"Label: {t.Label}, Confidence: {t.Confidence}");
}
运行程序
现在程序已创建,我们可以使用以下命令运行它
dotnet run [path-to-model] [path-to-image]
例如:
dotnet run ~/Downloads/resnet50-v2-7.onnx ~/Downloads/dog.jpeg
在以下图像上运行
我们得到以下输出
Top 10 predictions for ResNet50 v2...
--------------------------------------------------------------
Label: Golden Retriever, Confidence: 0.9212826
Label: Kuvasz, Confidence: 0.026514154
Label: Clumber Spaniel, Confidence: 0.012455719
Label: Labrador Retriever, Confidence: 0.004103844
Label: Saluki, Confidence: 0.0033182495
Label: Flat-Coated Retriever, Confidence: 0.0032045357
Label: English Setter, Confidence: 0.002513516
Label: Brittany, Confidence: 0.0023459378
Label: Cocker Spaniels, Confidence: 0.0019343802
Label: Sussex Spaniel, Confidence: 0.0019247672