Marcos, Regiones de AWS y tipos de instancia compatibles
Antes de utilizar la biblioteca de paralelismo de datos distribuidos de SageMaker AI (SMDDP), compruebe cuáles son los marcos de machine learning y los tipos de instancias compatibles y si hay suficientes cuotas en su cuenta de AWS y Región de AWS.
Marcos admitidos
Las tablas muestran los marcos de aprendizaje profundo y sus versiones compatibles con SageMaker AI y SMDDP. La biblioteca de SMDDP está disponible en Contenedores de marco de SageMaker AI
nota
Para ver las últimas actualizaciones y notas de la versión de la biblioteca de SMDDP, consulte las Notas de la versión de la biblioteca de paralelismo de datos de SageMaker AI.
PyTorch
| Versión PyTorch | Versión de la biblioteca de SMDDP | Imágenes del contenedor de marco de SageMaker AI preinstaladas con SMDDP | Imágenes de Docker de SMP preinstaladas con SMDDP | URL del archivo binario** |
|---|---|---|---|---|
| v2.3.1 | smdistributed-dataparallel==v2.5.0 |
No disponible | 658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl |
| v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
No disponible actualmente | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
| v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
| Versión 1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
| v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
| Versión 1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
| v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de SMDDP en contenedores personalizados. Para obtener más información, consulte Creación de contenedor de Docker propio con la biblioteca de paralelismo de datos distribuidos de SageMaker AI.
nota
La biblioteca de SMDDP está disponible en Regiones de AWS donde están en servicio los contenedores de marco de SageMaker AI
nota
La biblioteca de SMDDP v1.4.0 y posteriores funciona como backend del paralelismo de datos distribuidos de PyTorch (torch.distributed) (torch.parallel.DistributedDataParallel). De acuerdo con el cambio, las siguientes API smdistributed
-
smdistributed.dataparallel.torch.distributedestá en desuso. Utilice el paquete torch.distributeden su lugar. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallelestá en desuso. Utilice la API torch.nn.Parallel.DistributedDataParallelen su lugar.
Si necesita utilizar las versiones anteriores de la biblioteca (v1.3.0 o versiones anteriores), consulte la documentación archivada de paralelismo de datos distribuidos de SageMaker AI
PyTorch Lightning
La biblioteca de SMDDP está disponible para PyTorch Lightning en los siguientes contenedores de marco de SageMaker AI para contenedores de Docker de SMP y PyTorch.
PyTorch Lightning v2
| Versión de PyTorch Lightning | Versión PyTorch | Versión de la biblioteca de SMDDP | Imágenes del contenedor de marco de SageMaker AI preinstaladas con SMDDP | Imágenes de Docker de SMP preinstaladas con SMDDP | URL del archivo binario** |
|---|---|---|---|---|---|
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
No disponible actualmente | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning v1
| Versión de PyTorch Lightning | Versión PyTorch | Versión de la biblioteca de SMDDP | Imágenes del contenedor de marco de SageMaker AI preinstaladas con SMDDP | URL del archivo binario** |
|---|---|---|---|---|
|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de SMDDP en contenedores personalizados. Para obtener más información, consulte Creación de contenedor de Docker propio con la biblioteca de paralelismo de datos distribuidos de SageMaker AI.
nota
PyTorch Lightning y sus bibliotecas de utilidades, como Lightning Bolts, no vienen preinstaladas en los DLC de PyTorch. Al construir un estimador PyTorch de SageMaker AI y enviar una solicitud de trabajo de entrenamiento en el Paso 2, debe proporcionar requirements.txt para instalar pytorch-lightning y lightning-bolts en el contenedor de entrenamiento PyTorch de SageMaker AI.
# requirements.txt pytorch-lightning lightning-bolts
Para obtener más información sobre cómo especificar el directorio de origen para colocar el archivo requirements.txt junto con su script de entrenamiento y el envío de un trabajo, consulte Uso de bibliotecas de terceros
Hugging Face Transformers
Los contenedores de aprendizaje profundo de AWS de Hugging Face utilizan los contenedores de entrenamiento de SageMaker para PyTorch y TensorFlow como imágenes base. Para buscar las versiones de la biblioteca Hugging Face Transformers y las versiones emparejadas de PyTorch y TensorFlow, consulte las versiones más recientes de los contenedores de Hugging Face
TensorFlow (obsoleto)
importante
Se ha dejado de admitir la biblioteca de SMDDP para TensorFlow y ya no está disponible en los DLC de TensorFlow posteriores a v2.11.0. En la siguiente tabla, se enumeran los DLC anteriores de TensorFlow con la biblioteca de SMDDP instalada.
| TensorFlow, versión 1.12 | Versión de la biblioteca de SMDDP |
|---|---|
| 2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
| 2.8.3 |
smdistributed-dataparallel==v1.3.0
|
Regiones de AWS
La biblioteca de SMDDP está disponible en todas las Regiones de AWS donde están en servicio los contenedores de aprendizaje profundo de AWS para SageMaker AI
Tipos de instancias admitidas
La biblioteca de SMDDP requiere uno de los siguientes tipos de instancia.
| Tipo de instancia |
|---|
ml.p3dn.24xlarge* |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
sugerencia
Para ejecutar correctamente entrenamiento distribuido en los tipos de instancia habilitadas para EFA, debe habilitar tráfico entre las instancias mediante la configuración del grupo de seguridad de su VPC que permita todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar reglas de grupo de seguridad, consulte Paso 1: preparar un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2.
importante
* Se ha dejado de admitir la biblioteca de SMDDP para la optimización de sus operaciones de comunicación colectiva en las instancias P3. Si bien puede seguir utilizando el colectivo AllReduce optimizado para SMDDP en instancias de ml.p3dn.24xlarge, no habrá más compatibilidad de desarrollo para mejorar el rendimiento en este tipo de instancias. Tenga en cuenta que el colectivo AllGather optimizado para SMDDP solo está disponible para instancias P4.
Para ver las especificaciones de los tipos de instancias, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2
Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitar un aumento de la cuota de servicio para los recursos de SageMaker AI.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.