博客与公告

精选文章

Arm 和 Microsoft 携手合作，为基于 Arm 的 PC 和移动设备上的应用程序赋能 AI 体验

ONNX Runtime 中集成了 Arm KleidiAI，将 AI 性能优化扩展到 Windows 和 Android 操作系统，使 AI 推理速度提升高达 2.6 倍，从而加速应用程序体验。

Arm and Microsoft collaboration for AI acceleration on PC and mobile devices

2025年5月16日

使用 ONNX Runtime 提升 DeepSeek R1 在设备端推理的性能。

使用通过 ONNX Runtime 为设备端使用优化的 DeepSeek R1，提升您的 AI 推理性能！本博客探讨了如何在 NPU、GPU 和 CPU 上高效运行 DeepSeek 模型，实现比 PyTorch 快 6.3 倍的性能提升。了解如何使用 Olive 框架和 Azure AI Foundry 转换、量化和微调这些模型。

DeepSeek R1 On Device using ONNX Runtime Gen AI

2025年2月19日

使用 ONNX Runtime 轻松实现跨平台边缘 AI

在用户隐私、实时性能和成本效益日益增长的需求推动下，边缘 AI 正在改变 AI 格局。在 Ignite 大会上，我们很高兴地宣布 ONNX Runtime 生态系统中四项新功能，旨在让边缘 AI 更易于访问。

2024年11月19日

发布 ONNX Runtime 与 MultiLoRA：革新 AI 定制

ONNX Runtime 与 MultiLoRA 的结合通过轻松集成 LoRA 适配器，为动态、个性化模型提供灵活高效的 AI 定制，且资源需求极低。

2024年11月20日

是在微调前还是微调后进行量化更好？

了解如何使用 Olive 在模型优化工作流程中快速轻松地进行实验。

2024年11月19日

Goodnotes for Windows、Web 和 Android 上的涂抹擦除功能，由 ONNX Runtime 提供支持

了解 Goodnotes 如何在 ONNX Runtime 的帮助下，将 iPad 上流行的涂抹擦除功能引入 Windows、Web 和 Android，实现跨平台无缝、高性能的 AI 集成。

2024年11月18日

使用新的 Olive CLI 普及 AI 模型优化

了解如何使用新的 Olive CLI 轻松优化 AI 模型以进行设备端推理

2024年11月11日

使用 Olive 共享缓存提升 AI 模型优化期间的团队协作

了解如何使用 Olive 的共享缓存来提升优化 AI 模型时的团队协作

2024年10月30日

使用 ONNX Runtime 和 TensorRT 加速 LightGlue 推理

使用 ONNX Runtime 结合 TensorRT 进行 LightGlue 推理，性能显著优于 torch.compile。

2024年7月17日

使用 ONNX Runtime 和 NimbleEdge 实现高性能设备端实时机器学习

将 NimbleEdge 与 ONNX Runtime 结合使用，可实现毫秒级延迟和极低的资源占用，从而在移动应用中实现实时且保护隐私的个性化功能。

2024年6月17日

在浏览器中使用 ONNX Runtime 和 WebGPU 移除背景

将 ONNX Runtime 与 WebGPU 和 WebAssembly 结合使用，相比多线程 CPU 性能可提速 20 倍，相比单线程 CPU 性能可提速 550 倍。从而在浏览器中直接实现最先进的背景移除的交互式速度。

2024年6月12日

Phi-3 小型和中型模型现已通过 ONNX Runtime 和 DirectML 进行优化

您现在可以在您选择的设备上运行 Phi-3 中型、小型模型。

2024年5月21日

在您的设备上通过 ONNX Runtime 尽享 Phi-3 的强大功能

利用 ONNX Runtime 在手机和浏览器中运行 Phi-3-mini。

2024年5月20日

ONNX Runtime 支持跨平台和设备的 Phi-3 mini 模型

借助 ONNX Runtime 和 DirectML，您现在可以在各种设备和平台上运行微软最新的自研 Phi-3 模型。

2024年4月22日

ONNX Runtime Web 利用 WebGPU 在浏览器中释放生成式 AI 的力量

我们很高兴地宣布，ONNX Runtime Web 正式发布 WebGPU 功能，该功能现已在 ONNX Runtime 1.17 版本中提供。

2024年2月29日

ONNX Runtime 1.17：支持 CUDA 12，Phi-2 优化，WebGPU 及更多功能！

从 Phi-2 模型优化到 CUDA 12 支持，阅读本文了解 ONNX Runtime 1.17 版本中引入的一些激动人心的新功能。

2024年2月28日

使用 ONNX Runtime 加速 Phi-2、CodeLlama、Gemma 和其他生成式 AI 模型

ONNX Runtime 在流行生成式 AI 模型推理方面的改进。

2024年2月26日

设备端训练：在浏览器中训练模型

想在浏览器中为您的网站进行机器学习训练？在下面的博客中了解 ONNX Runtime 的 Web 训练功能，并通过我们易于遵循的教程和演示来尝试您自己的应用程序。

2024年2月6日

使用 ONNX Runtime 和 Olive 加速 SD Turbo 和 SDXL Turbo 推理

借助 ONNX Runtime 和 Olive，用户可以轻松加速 SD Turbo 和 SDXL Turbo 模型，只需一步即可生成可用图像！

2024年1月15日

使用 ONNX Runtime 加速 LLaMA-2 推理

了解 ONNX Runtime 如何将 LLaMA-2 推理速度提升高达 4.5 倍

2023年11月14日

在边缘运行 PyTorch 模型

您需要了解的关于使用 ONNX Runtime 在边缘运行 PyTorch 模型的一切。

2023年10月12日

使用 ONNX Runtime 加速超过 13 万个 Hugging Face 模型

了解 ONNX Runtime 如何帮助用户加速 Hugging Face 上的开源机器学习模型。

2023年10月4日

ONNX Runtime 设备端训练：深入探讨

本博客介绍了 ONNX Runtime 设备端训练的技术细节。它解释了设备端训练的工作原理以及训练过程中涉及的不同步骤和产物。这些信息将帮助您在边缘设备上训练模型。

2023年7月5日

使用 ONNX Runtime 和 Whisper 构建并部署快速便携的语音识别应用程序

了解 ONNX Runtime 如何加速 Whisper，并使其易于部署在桌面、移动设备、云端甚至浏览器中。

2023年6月7日

设备端训练：使用 ONNX Runtime 在边缘高效训练

本博客介绍了设备端训练，旨在支持在边缘设备上利用边缘数据训练模型。它将 ORT 边缘推理扩展到包括联邦学习和个性化场景。

2023年5月31日

使用 ONNX Runtime 和 Olive 释放端到端 Windows AI 开发者体验

本博客回顾了 ONNX Runtime 和 Olive 工具链的新功能，以支持 Windows 和其他平台上的混合推理、NPU EP 和硬件感知模型优化。

2023年5月23日

将 AI 的强大功能引入 Windows 11 — 通过 Windows Copilot 和 Dev Home 为客户和开发者开启生产力新时代

本博客回顾了 Windows 11 中的 AI，包括作为 Windows AI 网关的 ONNX Runtime 以及 ONNX Runtime 在 Windows 上的新功能。

2023年5月23日

使用 Olive 优化 DirectML 性能

本博客展示了如何使用 Olive 优化 ONNX Runtime 中 DML EP 的模型。

2023年5月23日

DirectML ❤ Stable Diffusion

本博客展示了如何使用 Olive 优化 Stable Diffusion 模型，并在 DML EP 上使用 Stable Diffusion 模型。

2023年5月23日

使用 ONNX Runtime 加速 Stable Diffusion 推理

本博客展示了如何使用 ONNX Runtime 在 NVIDIA 和 AMD GPU 上加速 Hugging Face 的 Stable Diffusion 模型。它包括在 A100、RTX3060 和 MI250X 上获得的基准测试结果。

2023年5月10日

Azure PyTorch 容器现已在 Azure 机器学习中正式可用！

ACPT 提供了一个即插即用的分布式训练环境，供用户在 Azure 中提供的最新多节点 GPU 基础设施上运行。借助 Nebula（ACPT 中一项新的快速检查点功能），您可以使用一个与训练过程异步工作的简单 API，将检查点保存速度提高 1000 倍。

2023年3月22日

在 Oracle 云中使用 ONNX Runtime 实现高性能深度学习

通过使用深度神经网络 (DNN) 模型来实现各种场景对 Oracle 的 AI 战略至关重要，我们的云 AI 服务团队已经构建了一个解决方案，为医疗保健行业的客户提供 DNN 模型服务。在这篇博客文章中，我们将分享我们团队面临的挑战，以及 ONNX Runtime 如何作为高性能推理成功的支柱来解决这些挑战。

2023年3月15日

使用 C# 和 ONNX Runtime 进行 Stable Diffusion 推理

在本教程中，我们将学习如何使用 C# 对流行的 Stable Diffusion 深度学习模型进行推理。Stable Diffusion 模型接受文本提示并创建表示该文本的图像。

2023年3月9日

Microsoft Edge 中的视频超分辨率

Microsoft Edge 中的 VSR 构建于 ONNX Runtime 和 DirectML 之上，使我们的解决方案可在不同的 GPU 供应商之间移植，并让更多用户可以使用 VSR。未来将支持更多支持这些技术并具有足够计算能力的显卡。ONNX Runtime 和 DirectML 团队多年来不断微调其技术，使 VSR 能够最大限度地利用您显卡的性能和处理能力。

2023年3月8日

OctoML 通过与 ONNX Runtime 生态系统的新集成，降低微软的生产 AI 推理成本

过去一年中，OctoML 工程师与 Watch For 密切合作，为 ONNX Runtime 设计并实现了 TVM 执行提供程序 (EP)——将 Apache TVM 的模型优化潜力带给所有 ONNX Runtime 用户。这建立在我们 2021 年开始的合作基础之上，旨在将 TVM 的代码生成和灵活量化支持的优势引入微软的生产规模。

2023年3月2日

使用 ONNX Runtime 实现高性能设备端推理

设备端机器学习模型服务是一项艰巨的任务，特别是对于早期初创公司有限的带宽而言。这篇来自 Pieces 团队的客座文章分享了他们设备端模型服务栈所评估的问题和解决方案，以及 ONNX Runtime 如何作为他们成功的基础。

2023年2月8日

结合 Optimum、OpenVINO™、ONNX Runtime 和 Azure 的力量，提高 BERT 推理速度

在本博客中，我们将讨论如何通过 Azure 机器学习，使用 OpenVINO™ 神经网络压缩框架 (NNCF) 和带有 OpenVINO™ 执行提供程序的 ONNX Runtime，使 BERT 等大型模型更小、更快。

2023年1月25日

Optimum + ONNX Runtime：更轻松、更快速地训练您的 Hugging Face 模型

Hugging Face 的 Optimum 库通过与 ONNX Runtime 的训练集成，提供了一个开放的解决方案，可将许多流行的 Hugging Face 模型的训练时间缩短 35% 或更多。我们详细介绍了 Hugging Face Optimum 和 ONNX Runtime 训练生态系统，并提供了性能数据，突出了使用 Optimum 库的优势。

2023年1月24日

使用 ONNX 和 Hugging Face Spaces 进行机器学习模型的实时演示

选择要使用的机器学习模型、与同事共享模型以及快速试用模型，这些都是您可能希望快速对模型进行推理的原因。您可以配置您的环境并下载 Jupyter Notebook，但如果有一种方法可以更轻松地运行模型会更好…

2022年6月6日

在 NVIDIA GPU 上使用 ONNX Runtime-TensorRT 优化和部署 transformer INT8 推理

基于 Transformer 的模型彻底改变了自然语言处理 (NLP) 领域。自诞生以来，Transformer 架构已被集成到 Bidirectional Encoder Representations from Transformers (BERT) 和 Generative Pre-trained Transformer (GPT) 等模型中，用于执行文本生成、摘要以及问答等任务…

2022年5月2日

扩展 PyTorch 推理：使用 ONNX Runtime 服务数十亿次每日 NLP 推理

随着应用机器学习在各行各业的增长，最先进深度学习模型的规模、性能和高效部署是普遍存在的挑战。我们很高兴看到，我们构建并在微软大批量产品和服务中使用的 ONNX Runtime 机器学习模型推理解决方案也得到了开源社区的共鸣，从而实现了驱动内容相关性和生产力的新功能…

2022年4月19日

使用 Xamarin 和 ONNX Runtime 为移动应用程序添加 AI

ONNX Runtime 现在支持使用 Xamarin 在 C# 中构建移动应用程序。ONNX Runtime 1.10 NuGet 包中包含了对 Android 和 iOS 的支持。这使得 C# 开发者能够为 Android 和 iOS 构建 AI 应用程序，以便在移动设备上使用 ONNX Runtime 执行 ONNX 模型…

2021年12月14日

ONNX Runtime Web — 在浏览器中运行您的机器学习模型

我们正在推出 ONNX Runtime Web (ORT Web)，这是 ONNX Runtime 中的一项新功能，旨在使 JavaScript 开发者能够在浏览器中运行和部署机器学习模型。它还有助于实现新型的设备端计算。ORT Web 将取代即将弃用的 onnx.js…

2021年9月2日

使用 ONNX Runtime 加速 PyTorch Transformer 模型训练 – 深入探讨

ONNX Runtime (ORT) for PyTorch 可加速跨多个 GPU 的大规模模型训练，与 PyTorch 相比训练吞吐量提高高达 37%，与 DeepSpeed 结合使用时速度提升高达 86%…

2021年7月13日

使用 torch-ort 加速 PyTorch 训练

只需对您的 PyTorch 训练脚本进行简单更改，您现在就可以使用 torch_ort.ORTModule，在您选择的目标硬件上加速大型语言模型的训练。训练深度学习模型需要不断增加的计算和内存资源。今天我们发布 torch_ort.ORTModule，以加速 PyTorch 模型的分布式训练，减少训练所需的时间和资源…

2021年7月13日

ONNX Runtime 1.8.1 版本预览支持使用 AMD ROCm™ 开放软件平台在 AMD GPU 上加速训练

ONNX Runtime 是一个开源项目，旨在加速机器学习在各种框架、操作系统和硬件平台上的运行。今天，我们很高兴地宣布发布 ONNX Runtime 1.8.1 预览版，该版本通过 AMD ROCm™ 开放软件平台支持 AMD Instinct™ GPU…

2021年7月13日

使用 ONNX Runtime 优化大规模 Transformer 模型推理之旅

大规模 Transformer 模型，例如 GPT-2 和 GPT-3，是自然语言处理任务（如语言翻译、问答、段落摘要、文本生成等）中最有用的自监督 Transformer 语言模型…

2021年6月30日