Arm 和 Microsoft 携手合作,为基于 Arm 的 PC 和移动设备上的应用程序赋能 AI 体验
ONNX Runtime 中集成了 Arm KleidiAI,将 AI 性能优化扩展到 Windows 和 Android 操作系统,使 AI 推理速度提升高达 2.6 倍,从而加速应用程序体验。

ONNX Runtime 中集成了 Arm KleidiAI,将 AI 性能优化扩展到 Windows 和 Android 操作系统,使 AI 推理速度提升高达 2.6 倍,从而加速应用程序体验。
使用通过 ONNX Runtime 为设备端使用优化的 DeepSeek R1,提升您的 AI 推理性能!本博客探讨了如何在 NPU、GPU 和 CPU 上高效运行 DeepSeek 模型,实现比 PyTorch 快 6.3 倍的性能提升。了解如何使用 Olive 框架和 Azure AI Foundry 转换、量化和微调这些模型。
在用户隐私、实时性能和成本效益日益增长的需求推动下,边缘 AI 正在改变 AI 格局。在 Ignite 大会上,我们很高兴地宣布 ONNX Runtime 生态系统中四项新功能,旨在让边缘 AI 更易于访问。
ONNX Runtime 与 MultiLoRA 的结合通过轻松集成 LoRA 适配器,为动态、个性化模型提供灵活高效的 AI 定制,且资源需求极低。
2024年11月20日
了解如何使用 Olive 在模型优化工作流程中快速轻松地进行实验。
2024年11月19日
了解 Goodnotes 如何在 ONNX Runtime 的帮助下,将 iPad 上流行的涂抹擦除功能引入 Windows、Web 和 Android,实现跨平台无缝、高性能的 AI 集成。
2024年11月18日
了解如何使用新的 Olive CLI 轻松优化 AI 模型以进行设备端推理
2024年11月11日
了解如何使用 Olive 的共享缓存来提升优化 AI 模型时的团队协作
2024年10月30日
使用 ONNX Runtime 结合 TensorRT 进行 LightGlue 推理,性能显著优于 torch.compile。
2024年7月17日
将 NimbleEdge 与 ONNX Runtime 结合使用,可实现毫秒级延迟和极低的资源占用,从而在移动应用中实现实时且保护隐私的个性化功能。
2024年6月17日
将 ONNX Runtime 与 WebGPU 和 WebAssembly 结合使用,相比多线程 CPU 性能可提速 20 倍,相比单线程 CPU 性能可提速 550 倍。从而在浏览器中直接实现最先进的背景移除的交互式速度。
2024年6月12日
您现在可以在您选择的设备上运行 Phi-3 中型、小型模型。
2024年5月21日
利用 ONNX Runtime 在手机和浏览器中运行 Phi-3-mini。
2024年5月20日
借助 ONNX Runtime 和 DirectML,您现在可以在各种设备和平台上运行微软最新的自研 Phi-3 模型。
2024年4月22日
我们很高兴地宣布,ONNX Runtime Web 正式发布 WebGPU 功能,该功能现已在 ONNX Runtime 1.17 版本中提供。
2024年2月29日
从 Phi-2 模型优化到 CUDA 12 支持,阅读本文了解 ONNX Runtime 1.17 版本中引入的一些激动人心的新功能。
2024年2月28日
ONNX Runtime 在流行生成式 AI 模型推理方面的改进。
2024年2月26日
想在浏览器中为您的网站进行机器学习训练?在下面的博客中了解 ONNX Runtime 的 Web 训练功能,并通过我们易于遵循的教程和演示来尝试您自己的应用程序。
2024年2月6日
借助 ONNX Runtime 和 Olive,用户可以轻松加速 SD Turbo 和 SDXL Turbo 模型,只需一步即可生成可用图像!
2024年1月15日
了解 ONNX Runtime 如何将 LLaMA-2 推理速度提升高达 4.5 倍
2023年11月14日
您需要了解的关于使用 ONNX Runtime 在边缘运行 PyTorch 模型的一切。
2023年10月12日
了解 ONNX Runtime 如何帮助用户加速 Hugging Face 上的开源机器学习模型。
2023年10月4日
本博客介绍了 ONNX Runtime 设备端训练的技术细节。它解释了设备端训练的工作原理以及训练过程中涉及的不同步骤和产物。这些信息将帮助您在边缘设备上训练模型。
2023年7月5日
了解 ONNX Runtime 如何加速 Whisper,并使其易于部署在桌面、移动设备、云端甚至浏览器中。
2023年6月7日
本博客介绍了设备端训练,旨在支持在边缘设备上利用边缘数据训练模型。它将 ORT 边缘推理扩展到包括联邦学习和个性化场景。
2023年5月31日
本博客回顾了 ONNX Runtime 和 Olive 工具链的新功能,以支持 Windows 和其他平台上的混合推理、NPU EP 和硬件感知模型优化。
2023年5月23日
本博客回顾了 Windows 11 中的 AI,包括作为 Windows AI 网关的 ONNX Runtime 以及 ONNX Runtime 在 Windows 上的新功能。
2023年5月23日
本博客展示了如何使用 Olive 优化 ONNX Runtime 中 DML EP 的模型。
2023年5月23日
本博客展示了如何使用 Olive 优化 Stable Diffusion 模型,并在 DML EP 上使用 Stable Diffusion 模型。
2023年5月23日
本博客展示了如何使用 ONNX Runtime 在 NVIDIA 和 AMD GPU 上加速 Hugging Face 的 Stable Diffusion 模型。它包括在 A100、RTX3060 和 MI250X 上获得的基准测试结果。
2023年5月10日
ACPT 提供了一个即插即用的分布式训练环境,供用户在 Azure 中提供的最新多节点 GPU 基础设施上运行。借助 Nebula(ACPT 中一项新的快速检查点功能),您可以使用一个与训练过程异步工作的简单 API,将检查点保存速度提高 1000 倍。
2023年3月22日
通过使用深度神经网络 (DNN) 模型来实现各种场景对 Oracle 的 AI 战略至关重要,我们的云 AI 服务团队已经构建了一个解决方案,为医疗保健行业的客户提供 DNN 模型服务。在这篇博客文章中,我们将分享我们团队面临的挑战,以及 ONNX Runtime 如何作为高性能推理成功的支柱来解决这些挑战。
2023年3月15日
在本教程中,我们将学习如何使用 C# 对流行的 Stable Diffusion 深度学习模型进行推理。Stable Diffusion 模型接受文本提示并创建表示该文本的图像。
2023年3月9日
Microsoft Edge 中的 VSR 构建于 ONNX Runtime 和 DirectML 之上,使我们的解决方案可在不同的 GPU 供应商之间移植,并让更多用户可以使用 VSR。未来将支持更多支持这些技术并具有足够计算能力的显卡。ONNX Runtime 和 DirectML 团队多年来不断微调其技术,使 VSR 能够最大限度地利用您显卡的性能和处理能力。
2023年3月8日
过去一年中,OctoML 工程师与 Watch For 密切合作,为 ONNX Runtime 设计并实现了 TVM 执行提供程序 (EP)——将 Apache TVM 的模型优化潜力带给所有 ONNX Runtime 用户。这建立在我们 2021 年开始的合作基础之上,旨在将 TVM 的代码生成和灵活量化支持的优势引入微软的生产规模。
2023年3月2日
设备端机器学习模型服务是一项艰巨的任务,特别是对于早期初创公司有限的带宽而言。这篇来自 Pieces 团队的客座文章分享了他们设备端模型服务栈所评估的问题和解决方案,以及 ONNX Runtime 如何作为他们成功的基础。
2023年2月8日
在本博客中,我们将讨论如何通过 Azure 机器学习,使用 OpenVINO™ 神经网络压缩框架 (NNCF) 和带有 OpenVINO™ 执行提供程序的 ONNX Runtime,使 BERT 等大型模型更小、更快。
2023年1月25日
Hugging Face 的 Optimum 库通过与 ONNX Runtime 的训练集成,提供了一个开放的解决方案,可将许多流行的 Hugging Face 模型的训练时间缩短 35% 或更多。我们详细介绍了 Hugging Face Optimum 和 ONNX Runtime 训练生态系统,并提供了性能数据,突出了使用 Optimum 库的优势。
2023年1月24日
选择要使用的机器学习模型、与同事共享模型以及快速试用模型,这些都是您可能希望快速对模型进行推理的原因。您可以配置您的环境并下载 Jupyter Notebook,但如果有一种方法可以更轻松地运行模型会更好…
2022年6月6日
基于 Transformer 的模型彻底改变了自然语言处理 (NLP) 领域。自诞生以来,Transformer 架构已被集成到 Bidirectional Encoder Representations from Transformers (BERT) 和 Generative Pre-trained Transformer (GPT) 等模型中,用于执行文本生成、摘要以及问答等任务…
2022年5月2日
随着应用机器学习在各行各业的增长,最先进深度学习模型的规模、性能和高效部署是普遍存在的挑战。我们很高兴看到,我们构建并在微软大批量产品和服务中使用的 ONNX Runtime 机器学习模型推理解决方案也得到了开源社区的共鸣,从而实现了驱动内容相关性和生产力的新功能…
2022年4月19日
ONNX Runtime 现在支持使用 Xamarin 在 C# 中构建移动应用程序。ONNX Runtime 1.10 NuGet 包中包含了对 Android 和 iOS 的支持。这使得 C# 开发者能够为 Android 和 iOS 构建 AI 应用程序,以便在移动设备上使用 ONNX Runtime 执行 ONNX 模型…
2021年12月14日
我们正在推出 ONNX Runtime Web (ORT Web),这是 ONNX Runtime 中的一项新功能,旨在使 JavaScript 开发者能够在浏览器中运行和部署机器学习模型。它还有助于实现新型的设备端计算。ORT Web 将取代即将弃用的 onnx.js…
2021年9月2日
ONNX Runtime (ORT) for PyTorch 可加速跨多个 GPU 的大规模模型训练,与 PyTorch 相比训练吞吐量提高高达 37%,与 DeepSpeed 结合使用时速度提升高达 86%…
2021年7月13日
只需对您的 PyTorch 训练脚本进行简单更改,您现在就可以使用 torch_ort.ORTModule,在您选择的目标硬件上加速大型语言模型的训练。训练深度学习模型需要不断增加的计算和内存资源。今天我们发布 torch_ort.ORTModule,以加速 PyTorch 模型的分布式训练,减少训练所需的时间和资源…
2021年7月13日
ONNX Runtime 是一个开源项目,旨在加速机器学习在各种框架、操作系统和硬件平台上的运行。今天,我们很高兴地宣布发布 ONNX Runtime 1.8.1 预览版,该版本通过 AMD ROCm™ 开放软件平台支持 AMD Instinct™ GPU…
2021年7月13日
大规模 Transformer 模型,例如 GPT-2 和 GPT-3,是自然语言处理任务(如语言翻译、问答、段落摘要、文本生成等)中最有用的自监督 Transformer 语言模型…
2021年6月30日