使用 ONNX Runtime 提升 DeepSeek R1 在设备端推理的性能。
使用针对设备端优化的 DeepSeek R1 模型,通过 ONNX Runtime 提升您的 AI 推理性能!本文探讨了如何在 NPU、GPU 和 CPU 上高效运行 DeepSeek 模型,相比 PyTorch 可实现高达 6.3 倍的速度提升。了解如何使用 Olive 框架和 Azure AI Foundry 转换、量化和微调这些模型。

使用针对设备端优化的 DeepSeek R1 模型,通过 ONNX Runtime 提升您的 AI 推理性能!本文探讨了如何在 NPU、GPU 和 CPU 上高效运行 DeepSeek 模型,相比 PyTorch 可实现高达 6.3 倍的速度提升。了解如何使用 Olive 框架和 Azure AI Foundry 转换、量化和微调这些模型。
在用户隐私、实时性能和成本效率需求日益增长的推动下,边缘 AI 正在改变 AI 格局。在 Ignite 大会上,我们很高兴宣布 ONNX Runtime 生态系统中的四项新功能,旨在让边缘 AI 更易于访问。
支持 MultiLoRA 的 ONNX Runtime 通过实现 LoRA 适配器的轻松集成,带来了灵活高效的 AI 定制化体验,从而以最小的资源需求实现动态、个性化的模型。
了解如何使用 Olive 在您的模型优化流程中快速轻松地进行实验。
2024年11月19日
了解 Goodnotes 如何借助 ONNX Runtime 将 iPad 上备受欢迎的涂抹擦除功能引入 Windows、Web 和 Android 平台,从而实现跨平台的无缝、高性能 AI 集成。
2024年11月18日
了解如何使用新的 Olive CLI 轻松优化用于设备端推理的 AI 模型
2024年11月11日
了解如何使用 Olive 的共享缓存来提升优化 AI 模型时的团队协作效率
2024年10月30日
使用 ONNX Runtime 和 TensorRT 进行 LightGlue 推理,显著超越 torch.compile 的性能。
2024年7月17日
将 NimbleEdge 与 ONNX Runtime 结合使用可实现毫秒级延迟和最小资源占用,从而在移动应用中实现实时且保护隐私的个性化。
2024年6月17日
将 ONNX Runtime 与 WebGPU 和 WebAssembly 结合使用,相比多线程 CPU 性能可提速 20 倍,相比单线程 CPU 性能可提速 550 倍。从而在浏览器中直接实现最先进背景移除的交互式速度。
2024年6月12日
您现在可以在您选择的设备上运行 Phi-3 中型、小型模型。
2024年5月21日
利用 ONNX Runtime 在手机和浏览器中运行 Phi-3-mini。
2024年5月20日
借助 ONNX Runtime 和 DirectML,您现在可以在各种设备和平台上运行 Microsoft 最新的自研 Phi-3 模型。
2024年4月22日
我们激动地宣布,搭载 WebGPU 的 ONNX Runtime Web 正式发布,现已在 ONNX Runtime 1.17 版本中提供。
2024年2月29日
从 Phi-2 模型优化到 CUDA 12 支持,阅读本文以了解 ONNX Runtime 1.17 版本中引入的一些令人兴奋的新功能。
2024年2月28日
使用 ONNX Runtime 改进流行生成式 AI 模型的推理性能。
2024年2月26日
想在浏览器中为您的网站进行机器学习训练吗?在下面的博客中了解更多关于使用 ONNX Runtime 进行 Web 训练的功能,并通过我们易于遵循的教程和演示来尝试您自己的应用。
2024年2月6日
借助 ONNX Runtime 和 Olive,用户可以轻松加速 SD Turbo 和 SDXL Turbo 模型,只需一步即可生成高质量图像!
2024年1月15日
了解 ONNX Runtime 如何将 LLaMA-2 推理速度提升高达 4.5 倍
2023年11月14日
关于使用 ONNX Runtime 在边缘设备上运行 PyTorch 模型所需了解的一切。
2023年10月12日
了解更多关于 ONNX Runtime 如何帮助用户加速来自 Hugging Face 的开源机器学习模型的信息。
2023年10月4日
本文介绍了使用 ONNX Runtime 进行设备端训练的技术细节。它解释了设备端训练的工作原理以及训练过程中涉及的不同步骤和工件。这些信息将帮助您在边缘设备上训练您的模型。
2023年7月5日
了解 ONNX Runtime 如何加速 Whisper,并使其易于在桌面、移动设备、云端甚至浏览器中部署。
2023年6月7日
本文介绍了设备端训练 (On-Device Training),以便利用边缘设备上可用的数据在这些设备上训练模型。它将边缘设备上的 ORT 推理扩展到包括联邦学习和个性化场景。
2023年5月31日
本文回顾了 ONNX Runtime 和 Olive 工具链的新功能,以支持在 Windows 和其他平台上的混合推理、NPU EP 以及硬件感知模型优化。
2023年5月23日
本文回顾了 Windows 11 中的 AI,包括作为 Windows AI 网关的 ONNX Runtime 以及 ONNX Runtime 在 Windows 上的新功能。
2023年5月23日
本文展示了如何在 ONNX Runtime 中使用 Olive 优化用于 DML EP 的模型。
2023年5月23日
本文展示了如何在 DML EP 上使用 Stable Diffusion 模型,并使用 Olive 优化 Stable Diffusion 模型。
2023年5月23日
本文展示了如何使用 ONNX Runtime 在 NVIDIA 和 AMD GPU 上加速来自 Hugging Face 的 Stable Diffusion 模型。其中包括在 A100、RTX3060 和 MI250X 上获得的基准测试结果。
2023年5月10日
ACPT 为用户提供了一个即时可用的分布式训练环境,可在 Azure 中提供的最新多节点 GPU 基础设施上运行。借助 ACPT 中新的快速检查点功能 Nebula,您可以使用一个与您的训练过程异步工作的简单 API,以快 1000 倍的速度保存检查点。
2023年3月22日
在 Oracle,通过使用深度神经网络 (DNN) 模型赋能各种场景对于我们的 AI 战略至关重要,我们的云 AI 服务团队已经构建了一个解决方案,为医疗健康行业的客户提供 DNN 模型服务。在这篇博客文章中,我们将分享我们团队面临的挑战,以及 ONNX Runtime 如何作为高性能推理成功的基石来解决这些挑战。
2023年3月15日
在本教程中,我们将学习如何在 C# 中对流行的 Stable Diffusion 深度学习模型进行推理。Stable Diffusion 模型接受文本提示并创建代表该文本的图像。
2023年3月9日
Microsoft Edge 中的 VSR 构建于 ONNX Runtime 和 DirectML 之上,使得我们的解决方案可以在不同的 GPU 供应商之间移植,并让更多的用户可以使用 VSR。未来,支持这些技术并具有足够计算能力的其他显卡也将获得支持。ONNX Runtime 和 DirectML 团队多年来一直在微调他们的技术,使得 VSR 能够充分利用您显卡处理能力的性能和功能。
2023年3月8日
过去一年,OctoML 工程师与 Watch For 紧密合作,设计和实现了适用于 ONNX Runtime 的 TVM 执行提供程序 (EP),将 Apache TVM 的模型优化潜力带给所有 ONNX Runtime 用户。这建立在我们始于 2021 年的合作基础上,旨在将 TVM 的代码生成和灵活量化支持的优势引入 Microsoft 的生产规模应用中。
2023年3月2日
设备端机器学习模型服务是一项艰巨的任务,特别是对于带宽有限的早期初创公司而言。这篇来自 Pieces 团队的客座文章分享了他们针对设备端模型服务堆栈评估的问题和解决方案,以及 ONNX Runtime 如何成为他们成功的基石。
2023年2月8日
在本文中,我们将讨论如何通过 Azure Machine Learning,利用 OpenVINO™ 神经网络压缩框架 (NNCF) 和搭载 OpenVINO™ 执行提供程序的 ONNX Runtime,使 BERT 等大型模型变得更小、更快。
2023年1月25日
Hugging Face 的 Optimum 库通过与 ONNX Runtime 的训练集成,提供了一个开放的解决方案,可以将许多流行的 Hugging Face 模型的训练时间缩短 35% 或更多。我们详细介绍了 Hugging Face Optimum 和 ONNX Runtime 训练生态系统,并提供了性能数据,突出了使用 Optimum 库的优势。
2023年1月24日
选择要使用的机器学习模型、与同事共享模型以及快速试用模型,这些都是您可能希望快速对模型进行推理的原因。您可以配置环境并下载 Jupyter notebook,但如果有办法以更少的精力运行模型会更好...
2022年6月6日
基于 Transformer 的模型彻底改变了自然语言处理 (NLP) 领域。自诞生以来,Transformer 架构已被集成到诸如来自 Transformer 的双向编码表示 (BERT) 和生成式预训练 Transformer (GPT) 等模型中,用于执行文本生成、摘要、问答等任务...
2022年5月2日
随着应用机器学习在整个行业的发展,最先进深度学习模型的规模化、性能和高效部署是普遍存在的挑战。我们很高兴看到,我们在高流量 Microsoft 产品和服务中构建和使用的 ONNX Runtime 机器学习模型推理解决方案,也与我们的开源社区产生了共鸣,从而赋能了推动内容相关性和生产力的新能力...
2022年4月19日
ONNX Runtime 现已支持使用 Xamarin 在 C# 中构建移动应用程序。对 Android 和 iOS 的支持已包含在 ONNX Runtime 1.10 版本的 NuGet 包中。这使得 C# 开发者能够构建适用于 Android 和 iOS 的 AI 应用,以便使用 ONNX Runtime 在移动设备上执行 ONNX 模型...
2021年12月14日
我们正在推出 ONNX Runtime Web (ORT Web),这是 ONNX Runtime 的一项新功能,使 JavaScript 开发者能够在浏览器中运行和部署机器学习模型。它还有助于实现新的设备端计算类别。ORT Web 将取代即将被废弃的 onnx.js...
2021年9月2日
适用于 PyTorch 的 ONNX Runtime (ORT) 可加速大型模型在多个 GPU 上的训练,相比 PyTorch 可提高训练吞吐量达 37%,与 DeepSpeed 结合使用时可提速高达 86%...
2021年7月13日
只需对您的 PyTorch 训练脚本进行简单修改,您现在就可以使用 torch_ort.ORTModule 在您选择的目标硬件上运行,从而加速大型语言模型的训练。训练深度学习模型需要不断增长的计算和内存资源。今天我们发布 torch_ort.ORTModule,用于加速 PyTorch 模型的分布式训练,从而减少训练所需的时间和资源...
2021年7月13日
ONNX Runtime 是一个开源项目,旨在加速跨广泛框架、操作系统和硬件平台的机器学习。今天,我们很高兴宣布 ONNX Runtime 1.8.1 版本的预览版,该版本通过 AMD ROCm™ 开放软件平台支持 AMD Instinct™ GPU...
2021年7月13日
大规模 Transformer 模型,例如 GPT-2 和 GPT-3,是用于语言翻译、问答、段落摘要、文本生成等自然语言处理任务的最有用的自监督 Transformer 语言模型之一...
2021年6月30日