ONNX Runtime 在各种硬件上为运行深度学习模型提供高性能。根据使用场景要求,延迟、吞吐量、内存利用率以及模型/应用程序大小是衡量性能的常见维度。
虽然 ORT 开箱即用旨在为最常见的使用模式提供良好的性能,但仍可以利用模型优化技术和运行时配置来提高特定用例和模型的性能。