适用于 PyTorch 的 Azure 容器 (ACPT)

适用于 PyTorch 的 Azure 容器 (ACPT) 是一个轻量级、独立的运行环境,其中包含有效运行大型模型优化训练所需的组件。它有助于降低准备成本并加快部署时间。ACPT 可用于在 Azure 上快速启动 PyTorch 的各种深度学习任务。

目录

我为什么要使用 ACPT?

  • 灵活性:可直接使用预安装的软件包,或在策展环境的基础上进行构建。
  • 易用性:所有组件均已安装并针对数十个 Microsoft 工作负载进行了验证,以降低设置成本并加速实现价值。
  • 效率:避免不必要的镜像构建,并且只在镜像/容器中提供所需的依赖项。
  • 优化的训练框架:在大规模工作负载上设置、开发和加速 PyTorch 模型,提高训练和部署成功率。
  • 最新的技术栈:访问最新兼容版本的 Ubuntu、Python、PyTorch、CUDA/RocM 等。
  • 最新的训练优化技术:利用 ONNX Runtime、DeepSpeed、MSCCL 等。

适用于 PyTorch 的 Azure 容器 (ACPT) 支持的配置

Microsoft Container Registry (MCR) 中支持以下配置:ptca_image_list.md

还提供了 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision 和 torchmetrics 等其他软件包,以支持所有训练需求。

支持

支持环境(包括它们引用的基础镜像)的版本更新每两周发布一次,以解决不超过 30 天的漏洞。根据使用情况,某些环境可能会被弃用(从产品中隐藏但仍可使用),以支持更常见的机器学习场景。