使用 ONNX Runtime 增强 DeepSeek R1 在设备端推理的性能。
通过 ONNX Runtime 优化 DeepSeek R1 以在设备上使用,从而增强您的 AI 推理性能!本博客探讨了如何在 NPU、GPU 和 CPU 上高效运行 DeepSeek 模型,与 PyTorch 相比,速度提升高达 6.3 倍。了解如何使用 Olive 框架和 Azure AI Foundry 转换、量化和微调这些模型。

通过 ONNX Runtime 优化 DeepSeek R1 以在设备上使用,从而增强您的 AI 推理性能!本博客探讨了如何在 NPU、GPU 和 CPU 上高效运行 DeepSeek 模型,与 PyTorch 相比,速度提升高达 6.3 倍。了解如何使用 Olive 框架和 Azure AI Foundry 转换、量化和微调这些模型。
在对用户隐私、实时性能和成本效率日益增长的需求的驱动下,边缘 AI 正在改变 AI 格局。在 Ignite 大会上,我们很高兴宣布 ONNX Runtime 生态系统中的四项新功能,旨在使边缘 AI 更易于访问。
ONNX Runtime 的 MultiLoRA 通过轻松集成 LoRA 适配器来实现灵活、高效的 AI 定制,从而以最少的资源需求实现动态、个性化的模型。
了解如何使用 Olive 在模型优化工作流程中快速轻松地进行实验。
2024 年 11 月 19 日
了解 Goodnotes 如何借助 ONNX Runtime 将广受欢迎的 iPad 涂鸦擦除功能带到 Windows、Web 和 Android,从而实现跨平台的无缝、高性能 AI 集成。
2024 年 11 月 18 日
了解如何使用新的 Olive CLI 轻松优化 AI 模型,以便在设备端进行推理
2024 年 11 月 11 日
了解如何在优化 AI 模型时使用 Olive 的共享缓存来增强团队协作
2024 年 10 月 30 日
对于 LightGlue 推理,使用 ONNX Runtime 和 TensorRT 显著优于 torch.compile。
2024 年 7 月 17 日
将 NimbleEdge 与 ONNX Runtime 结合使用可实现毫秒级延迟和最小的资源使用,从而在移动应用中实现实时和保护隐私的个性化。
2024 年 6 月 17 日
将 ONNX Runtime 与 WebGPU 和 WebAssembly 结合使用,与多线程 CPU 性能相比,速度提高了 20 倍,与单线程 CPU 性能相比,速度提高了 550 倍。从而直接在浏览器中实现最先进的背景移除的交互速度。
2024 年 6 月 12 日
您现在可以在您选择的设备上运行 Phi-3 中型、小型模型。
2024 年 5 月 21 日
利用 ONNX Runtime 在手机和浏览器中运行 Phi-3-mini。
2024 年 5 月 20 日
借助 ONNX Runtime 和 DirectML,您现在可以在各种设备和平台上运行微软最新的自研 Phi-3 模型。
2024 年 4 月 22 日
我们很高兴地宣布正式发布 ONNX Runtime Web,它具有 WebGPU 功能,现已在 ONNX Runtime 1.17 版本中提供。
2024 年 2 月 29 日
从 Phi-2 模型优化到 CUDA 12 支持,阅读这篇文章以了解有关 ONNX Runtime 1.17 版本中引入的一些令人兴奋的新功能的更多信息。
2024 年 2 月 28 日
ONNX Runtime 在推理流行的 Gen AI 模型方面的改进。
2024 年 2 月 26 日
想在浏览器中为您的网站进行 ML 训练吗?在我们的博客中详细了解使用 ONNX Runtime 进行 Web 训练的优势,并通过我们易于理解的教程和演示来试验您自己的应用程序。
2024 年 2 月 6 日
借助 ONNX Runtime 和 Olive,用户可以轻松加速 SD Turbo 和 SDXL Turbo 模型,只需一步即可生成可用的图像!
2024 年 1 月 15 日
了解 ONNX Runtime 如何将 LLaMA-2 推理速度提高高达 4.5 倍
2023 年 11 月 14 日
您需要了解的关于使用 ONNX Runtime 在边缘运行 PyTorch 模型的所有信息。
2023 年 10 月 12 日
详细了解 ONNX Runtime 如何帮助用户加速来自 Hugging Face 的开源机器学习模型。
2023 年 10 月 4 日
本博客介绍了使用 ONNX Runtime 进行设备端训练的技术细节。它解释了设备端训练的工作原理,以及训练过程中涉及的不同步骤和工件。这些信息将帮助您在边缘设备上训练模型。
2023 年 7 月 5 日
了解 ONNX Runtime 如何加速 Whisper,并使其易于部署在桌面、移动设备、云端甚至浏览器中。
2023 年 6 月 7 日
本博客介绍了设备端训练,以实现在边缘设备上使用边缘可用数据训练模型。它扩展了边缘的 ORT 推理,以包括联邦学习和个性化场景。
2023 年 5 月 31 日
本博客回顾了 ONNX Runtime 和 Olive 工具链的新功能,以支持 Windows 和其他平台上的混合推理、NPU EP 和硬件感知模型优化
2023 年 5 月 23 日
本博客回顾了 Windows 11 中的 AI,包括作为 Windows AI 网关的 ONNX Runtime 以及 Windows 上的新 ONNX Runtime 功能
2023 年 5 月 23 日
本博客展示了如何使用 Olive 优化 ONNX Runtime 中 DML EP 的模型
2023 年 5 月 23 日
本博客展示了如何使用 Olive 在 DML EP 上使用 Stable Diffusion 模型来优化 Stable Diffusion 模型
2023 年 5 月 23 日
本博客展示了如何使用 ONNX Runtime 加速 NVIDIA 和 AMD GPU 上 Hugging Face 的 Stable Diffusion 模型。它包括在 A100、RTX3060 和 MI250X 上获得的基准测试结果。
2023 年 5 月 10 日
ACPT 为用户提供了一个即用型分布式训练环境,可在 Azure 中提供的最新多节点 GPU 基础设施上运行。借助 ACPT 中的新快速检查点功能 Nebula,您可以使用一个简单的 API 将检查点保存速度提高 1000 倍,该 API 与您的训练过程异步工作。
2023 年 3 月 22 日
通过使用深度神经网络 (DNN) 模型来实现场景对于我们在 Oracle 的 AI 战略至关重要,我们的 Cloud AI Services 团队构建了一个解决方案,为医疗保健行业的客户提供 DNN 模型服务。在本博文中,我们将分享我们的团队面临的挑战,以及 ONNX Runtime 如何解决这些挑战,成为高性能推理成功的基石。
2023 年 3 月 15 日
在本教程中,我们将学习如何在 C# 中为流行的 Stable Diffusion 深度学习模型进行推理。Stable Diffusion 模型接受文本提示并创建表示该文本的图像。
2023 年 3 月 9 日
Microsoft Edge 中的 VSR 构建于 ONNX Runtime 和 DirectML 之上,使我们的解决方案可在 GPU 供应商之间移植,并使更多用户可以使用 VSR。未来,支持这些技术并具有足够计算能力的附加显卡将获得支持。ONNX Runtime 和 DirectML 团队多年来一直在微调其技术,从而使 VSR 能够充分利用显卡处理能力的性能和功能。
2023 年 3 月 8 日
在过去一年中,OctoML 工程师与 Watch For 密切合作,为 ONNX Runtime 设计和实施了 TVM 执行提供程序 (EP) - 将 Apache TVM 的模型优化潜力带给所有 ONNX Runtime 用户。这建立在我们 2021 年开始的合作基础上,旨在将 TVM 的代码生成和灵活量化支持的优势带到微软的生产规模。
2023 年 3 月 2 日
设备端机器学习模型服务是一项艰巨的任务,尤其是考虑到早期创业公司有限的带宽。这篇来自 Pieces 团队的客座文章分享了为其设备端模型服务堆栈评估的问题和解决方案,以及 ONNX Runtime 如何成为他们成功的基石。
2023 年 2 月 8 日
在本博客中,我们将讨论通过 Azure 机器学习,使用 OpenVINO™ 神经网络压缩框架 (NNCF) 和带有 OpenVINO™ 执行提供程序的 ONNX Runtime,使像 BERT 这样的大型模型更小更快的其中一种方法。
2023 年 1 月 25 日
Hugging Face 的 Optimum 库通过与 ONNX Runtime 的训练集成,为许多流行的 Hugging Face 模型提供了一个开放的解决方案,可将训练时间缩短 35% 或更多。我们详细介绍了 Hugging Face Optimum 和 ONNX Runtime 训练生态系统,并提供了性能数据,突出了使用 Optimum 库的优势。
2023 年 1 月 24 日
选择要使用的机器学习模型、与同事共享模型以及快速试用模型都是您可能希望快速对模型运行推理的原因。您可以配置您的环境并下载 Jupyter 笔记本,但如果有一种方法可以用更少的精力运行模型,那就更好了......
2022 年 6 月 6 日
基于 Transformer 的模型彻底改变了自然语言处理 (NLP) 领域。自其诞生以来,Transformer 架构已被集成到诸如来自 Transformers 的双向编码器表示 (BERT) 和生成式预训练 Transformer (GPT) 等模型中,用于执行诸如文本生成或摘要以及问答等任务,仅举几例......
2022 年 5 月 2 日
随着应用机器学习在整个行业的增长,最先进的深度学习模型的规模、性能和高效部署是普遍存在的挑战。我们很高兴看到我们构建并在高容量微软产品和服务中使用的 ONNX Runtime 机器学习模型推理解决方案也引起了我们开源社区的共鸣,从而实现了驱动内容相关性和生产力的新功能......
2022 年 4 月 19 日
ONNX Runtime 现在支持使用 Xamarin 在 C# 中构建移动应用程序。对 Android 和 iOS 的支持包含在 ONNX Runtime 1.10 NuGet 包中。这使 C# 开发人员能够为 Android 和 iOS 构建 AI 应用程序,以使用 ONNX Runtime 在移动设备上执行 ONNX 模型......
2021 年 12 月 14 日
我们正在推出 ONNX Runtime Web (ORT Web),这是 ONNX Runtime 中的一项新功能,使 JavaScript 开发人员能够在浏览器中运行和部署机器学习模型。它还有助于实现新型的设备端计算。ORT Web 将取代即将被弃用的 onnx.js...
2021 年 9 月 2 日
用于 PyTorch 的 ONNX Runtime (ORT) 加速了跨多个 GPU 的大规模模型训练,与 PyTorch 相比,训练吞吐量提高了高达 37%,与 DeepSpeed 结合使用时,速度提高了高达 86%......
2021 年 7 月 13 日
只需对您的 PyTorch 训练脚本进行简单更改,您现在就可以使用 torch_ort.ORTModule 加速大型语言模型的训练,该模块在您选择的目标硬件上运行。训练深度学习模型需要不断增加的计算和内存资源。今天,我们发布 torch_ort.ORTModule,以加速 PyTorch 模型的分布式训练,从而减少训练所需的时间和资源......
2021 年 7 月 13 日
ONNX Runtime 是一个开源项目,旨在加速各种框架、操作系统和硬件平台上的机器学习。今天,我们很高兴地宣布 ONNX Runtime 1.8.1 版本预览版,该版本通过 AMD ROCm™ 开放软件平台,支持 AMD Instinct™ GPU......
2021 年 7 月 13 日
诸如 GPT-2 和 GPT-3 等大规模 Transformer 模型是用于自然语言处理任务(例如语言翻译、问题解答、段落摘要、文本生成等)的最有用的自监督 Transformer 语言模型之一......
2021 年 6 月 30 日