用于推理的 ONNX Runtime
ONNX Runtime 提供了一种高性能解决方案,可在不同的软硬件堆栈上从各种源框架(PyTorch、Hugging Face、TensorFlow)推断模型。ONNX Runtime 推理利用硬件加速器,支持多种语言(Python、C++、C#、C、Java 等)的 API,并且可在云服务器、边缘和移动设备以及 Web 浏览器中工作。
了解如何安装用于推理的 ONNX Runtime →
优势
改进推理延迟、吞吐量、内存利用率和二进制大小
使用特定于设备的加速器在不同硬件上运行
使用通用接口运行在不同框架中训练的模型
在 C#/C++/Java 应用中部署经典的 ML Python 模型
ONNX Runtime Mobile
ONNX Runtime Mobile 使用与基于云的推理相同的 API 在移动设备上运行模型。开发者可以使用他们选择的移动语言和开发环境,以便在 Swift、Objective-C、Java、Kotlin、JavaScript、C 和 C++ 中为 Android、iOS、react-native、MAUI/Xamarin 应用添加 AI 功能。
示例
图像分类
此示例应用使用图像分类功能,可实时连续对设备相机检测到的对象进行分类,并在屏幕上显示可能性最大的推理结果。语音识别
此示例应用使用语音识别功能,可转录设备录制的音频中的语音。对象检测
此示例应用使用对象检测功能,可连续检测 iOS 设备后置摄像头捕获帧中的对象,并显示检测到的对象的边界框、检测到的类别及相应的推理置信度。问答
此示例应用展示了问答模型的用法,包括预处理和后处理。ONNX Runtime Web
ONNX Runtime Web 允许 JavaScript 开发者在浏览器中运行和部署机器学习模型,通过通用实现提供跨平台可移植性。这可以简化分发体验,因为它避免了额外的库和驱动程序安装。
视频教程:使用 ONNX Runtime Web 在 JavaScript 中进行推理 →
示例
ONNX Runtime Web Demo 是一个交互式演示门户,展示了 ONNX Runtime Web 在 VueJS 中的实时使用。查看这些示例,体验 ONNX Runtime Web 的强大功能。