使用 SageMaker AI 通用估算器扩展预构建的 DLC 容器 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker AI 通用估算器扩展预构建的 DLC 容器

您可以自定义 SageMaker AI 预构建容器或扩展这些容器,以满足您的算法或模型提出的、但预构建 SageMaker AI Docker 映像不支持的任何额外的功能要求。有关如何扩展预构建容器的示例,请参阅扩展预构建容器

要扩展预构建的容器或调整您自己的容器以使用该库,您必须使用支持的框架中列出的映像之一。

注意

从 TensorFlow 2.4.1 和 PyTorch 1.8.1 开始,SageMaker AI 框架 DLC 支持启用 EFA 的实例类型。我们建议您使用包含 TensorFlow 2.4.1 或更高版本以及 PyTorch 1.8.1 或更高版本的 DLC 映像。

例如,如果您使用 PyTorch,则 Dockerfile 应该包含类似于以下内容的 FROM 语句:

# SageMaker AI PyTorch image FROM 763104351884.dkr.ecr.<aws-region>.amazonaws.com/pytorch-training:<image-tag> ENV PATH="/opt/ml/code:${PATH}" # this environment variable is used by the SageMaker AI PyTorch container to determine our user code directory. ENV SAGEMAKER_SUBMIT_DIRECTORY /opt/ml/code # /opt/ml and all subdirectories are utilized by SageMaker AI, use the /code subdirectory to store your user code. COPY train.py /opt/ml/code/train.py # Defines cifar10.py as script entrypoint ENV SAGEMAKER_PROGRAM train.py

您可以使用 SageMaker 训练工具包和 SageMaker AI 分布式数据并行库的二进制文件,进一步自定义自己的 Docker 容器,使其与 SageMaker AI 配合使用。要了解更多信息,请参阅以下部分中的说明。