适用于 PyTorch 的 Azure 容器 (ACPT)

适用于 PyTorch 的 Azure 容器 (ACPT) 是一个轻量级的独立环境,包含有效运行大型模型优化训练所需的组件。它有助于降低准备成本并加快部署时间。ACPT 可用于在 Azure 上快速开始各种基于 PyTorch 的深度学习任务。

目录

我为什么要使用 ACPT?

  • 灵活性:可直接使用预安装的包,或在此精选环境之上进行构建。
  • 易用性:所有组件都已安装并针对数十个 Microsoft 工作负载进行了验证,以降低设置成本并加快价值实现时间。
  • 效率:避免不必要的镜像构建,只需镜像/容器中可直接访问的必要依赖项即可。
  • 优化的训练框架:在大型工作负载上设置、开发和加速 PyTorch 模型,提高训练和部署成功率。
  • 最新技术栈:访问最新兼容版本的 Ubuntu、Python、PyTorch、CUDA/RocM 等。
  • 最新训练优化技术:利用 ONNX Runtime、DeepSpeed、MSCCL 等。

适用于 PyTorch 的 Azure 容器 (ACPT) 支持的配置

Microsoft Container Registry (MCR) 中支持以下配置:ptca_image_list.md

还提供了 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision 和 torchmetrics 等其他包,以支持所有训练需求。

支持

支持环境的版本更新(包括它们引用的基础镜像)每两周发布一次,以解决不超过 30 天的漏洞。根据使用情况,某些环境可能会被弃用(产品中隐藏但仍可用)以支持更常见的机器学习场景。