Azure PyTorch 容器 (ACPT)
Azure PyTorch 容器 (ACPT) 是一个轻量级、独立的环境,其中包含有效运行大型模型优化训练所需的组件。它有助于降低准备成本并缩短部署时间。ACPT 可用于快速开始在 Azure 上使用 PyTorch 进行各种深度学习任务。
目录
我为什么要使用 ACPT?
- 灵活性: 使用预安装的软件包按原样使用,或在精选环境之上构建。
- 易用性: 所有组件都已安装并针对数十个 Microsoft 工作负载进行了验证,以降低设置成本并加速实现价值。
- 效率: 避免不必要的图像构建,并且仅包含图像/容器中可直接访问的所需依赖项。
- 优化的训练框架: 在大型工作负载上设置、开发和加速 PyTorch 模型,并提高训练和部署成功率。
- 最新的堆栈: 访问最新兼容版本的 Ubuntu、Python、PyTorch、CUDA/RocM 等。
- 最新的训练优化技术: 利用 ONNX Runtime、DeepSpeed、MSCCL 等。
Azure PyTorch 容器 (ACPT) 的支持配置
Microsoft 容器注册表 (MCR) 中支持以下配置:ptca_image_list.md。
还提供其他软件包(如 fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision 和 torchmetrics)以支持所有训练需求。
支持
支持环境(包括它们引用的基础镜像)的版本更新每两周发布一次,以解决不超过 30 天的漏洞。根据使用情况,某些环境可能会被弃用(从产品中隐藏但仍可使用),以支持更常见的机器学习场景。