Marcos, Regiones de AWS y tipos de instancia compatibles - Amazon SageMaker AI

Marcos, Regiones de AWS y tipos de instancia compatibles

Antes de utilizar la biblioteca de paralelismo de datos distribuidos de SageMaker AI (SMDDP), compruebe cuáles son los marcos de machine learning y los tipos de instancias compatibles y si hay suficientes cuotas en su cuenta de AWS y Región de AWS.

Marcos admitidos

Las tablas muestran los marcos de aprendizaje profundo y sus versiones compatibles con SageMaker AI y SMDDP. La biblioteca de SMDDP está disponible en Contenedores de marco de SageMaker AI, integrada en contenedores de Docker distribuidos por la biblioteca de paralelismo de modelos de SageMaker (SMP) v2, o se puede descargar como archivo binario.

nota

Para ver las últimas actualizaciones y notas de la versión de la biblioteca de SMDDP, consulte las Notas de la versión de la biblioteca de paralelismo de datos de SageMaker AI.

PyTorch

Versión PyTorch Versión de la biblioteca de SMDDP Imágenes del contenedor de marco de SageMaker AI preinstaladas con SMDDP Imágenes de Docker de SMP preinstaladas con SMDDP URL del archivo binario**
v2.3.1 smdistributed-dataparallel==v2.5.0 No disponible 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker No disponible actualmente https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
Versión 1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
Versión 1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de SMDDP en contenedores personalizados. Para obtener más información, consulte Creación de contenedor de Docker propio con la biblioteca de paralelismo de datos distribuidos de SageMaker AI.

nota

La biblioteca de SMDDP está disponible en Regiones de AWS donde están en servicio los contenedores de marco de SageMaker AI y las imágenes de Docker de SMP.

nota

La biblioteca de SMDDP v1.4.0 y posteriores funciona como backend del paralelismo de datos distribuidos de PyTorch (torch.distributed) (torch.parallel.DistributedDataParallel). De acuerdo con el cambio, las siguientes API smdistributed para el paquete distribuido PyTorch están en desuso.

Si necesita utilizar las versiones anteriores de la biblioteca (v1.3.0 o versiones anteriores), consulte la documentación archivada de paralelismo de datos distribuidos de SageMaker AI en la documentación del SageMaker AI Python SDK.

PyTorch Lightning

La biblioteca de SMDDP está disponible para PyTorch Lightning en los siguientes contenedores de marco de SageMaker AI para contenedores de Docker de SMP y PyTorch.

PyTorch Lightning v2

Versión de PyTorch Lightning Versión PyTorch Versión de la biblioteca de SMDDP Imágenes del contenedor de marco de SageMaker AI preinstaladas con SMDDP Imágenes de Docker de SMP preinstaladas con SMDDP URL del archivo binario**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker No disponible actualmente https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

Versión de PyTorch Lightning Versión PyTorch Versión de la biblioteca de SMDDP Imágenes del contenedor de marco de SageMaker AI preinstaladas con SMDDP URL del archivo binario**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de SMDDP en contenedores personalizados. Para obtener más información, consulte Creación de contenedor de Docker propio con la biblioteca de paralelismo de datos distribuidos de SageMaker AI.

nota

PyTorch Lightning y sus bibliotecas de utilidades, como Lightning Bolts, no vienen preinstaladas en los DLC de PyTorch. Al construir un estimador PyTorch de SageMaker AI y enviar una solicitud de trabajo de entrenamiento en el Paso 2, debe proporcionar requirements.txt para instalar pytorch-lightning y lightning-bolts en el contenedor de entrenamiento PyTorch de SageMaker AI.

# requirements.txt pytorch-lightning lightning-bolts

Para obtener más información sobre cómo especificar el directorio de origen para colocar el archivo requirements.txt junto con su script de entrenamiento y el envío de un trabajo, consulte Uso de bibliotecas de terceros en la documentación del Amazon SageMaker AI Python SDK.

Hugging Face Transformers

Los contenedores de aprendizaje profundo de AWS de Hugging Face utilizan los contenedores de entrenamiento de SageMaker para PyTorch y TensorFlow como imágenes base. Para buscar las versiones de la biblioteca Hugging Face Transformers y las versiones emparejadas de PyTorch y TensorFlow, consulte las versiones más recientes de los contenedores de Hugging Face y las versiones anteriores de los contenedores de Hugging Face.

TensorFlow (obsoleto)

importante

Se ha dejado de admitir la biblioteca de SMDDP para TensorFlow y ya no está disponible en los DLC de TensorFlow posteriores a v2.11.0. En la siguiente tabla, se enumeran los DLC anteriores de TensorFlow con la biblioteca de SMDDP instalada.

TensorFlow, versión 1.12 Versión de la biblioteca de SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Regiones de AWS

La biblioteca de SMDDP está disponible en todas las Regiones de AWS donde están en servicio los contenedores de aprendizaje profundo de AWS para SageMaker AI y las imágenes de Docker de SMP.

Tipos de instancias admitidas

La biblioteca de SMDDP requiere uno de los siguientes tipos de instancia.

Tipo de instancia
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
sugerencia

Para ejecutar correctamente entrenamiento distribuido en los tipos de instancia habilitadas para EFA, debe habilitar tráfico entre las instancias mediante la configuración del grupo de seguridad de su VPC que permita todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar reglas de grupo de seguridad, consulte Paso 1: preparar un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2.

importante

* Se ha dejado de admitir la biblioteca de SMDDP para la optimización de sus operaciones de comunicación colectiva en las instancias P3. Si bien puede seguir utilizando el colectivo AllReduce optimizado para SMDDP en instancias de ml.p3dn.24xlarge, no habrá más compatibilidad de desarrollo para mejorar el rendimiento en este tipo de instancias. Tenga en cuenta que el colectivo AllGather optimizado para SMDDP solo está disponible para instancias P4.

Para ver las especificaciones de los tipos de instancias, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2. Para obtener información acerca de los precios de las instancias, consulte Precios de Amazon SageMaker.

Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitar un aumento de la cuota de servicio para los recursos de SageMaker AI.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.