Lanzamiento de trabajos de formación distribuidos con SMDDP mediante el SDK de Python SageMaker

Para ejecutar un trabajo de entrenamiento distribuido con su script adaptadoAdaptación del script de entrenamiento para utilizar las operaciones colectivas de SMDDP, utilice el marco del SDK de SageMaker Python o estimadores genéricos especificando el script de entrenamiento preparado como un script de punto de entrada y la configuración de entrenamiento distribuida.

En esta página, se explica cómo utilizar el SDK de Python para SageMaker IA de dos maneras.

Si quieres adoptar rápidamente tu trabajo de formación distribuida en SageMaker IA, configura una clase de SageMaker IA PyTorcho de estimación de TensorFlowmarcos. El estimador del marco recoge el guion de entrenamiento y automáticamente coincide con el URI de imagen correcto de los Deep Learning Containers (DLC) prediseñados PyTorch o de los TensorFlow Deep Learning Containers (DLC), dado el valor especificado para el parámetro. framework_version
Si desea ampliar uno de los contenedores prediseñados o crear un contenedor personalizado para crear su propio entorno de aprendizaje automático con SageMaker IA, utilice la Estimator clase genérica SageMaker AI y especifique el URI de imagen del contenedor Docker personalizado alojado en su Amazon Elastic Container Registry (Amazon ECR).

Sus conjuntos de datos de entrenamiento deben almacenarse en Amazon S3 o Amazon FSx for Lustre en Región de AWS los que vaya a iniciar su trabajo de entrenamiento. Si utilizas cuadernos de Jupyter, deberías tener una instancia de bloc de notas o una aplicación SageMaker de SageMaker Studio Classic ejecutándose en la misma. Región de AWS Para obtener más información sobre cómo almacenar los datos de entrenamiento, consulta la documentación de entradas de datos del SDK de SageMaker Python.

sugerencia

Le recomendamos que use Amazon FSx para Lustre en lugar de Amazon S3 para mejorar el rendimiento de los entrenamientos. Amazon FSx tiene un rendimiento mayor y una latencia menor que Amazon S3.

sugerencia

Para ejecutar correctamente la capacitación distribuida sobre los tipos de EFA-enabled instancias, debe habilitar el tráfico entre las instancias configurando el grupo de seguridad de su VPC para permitir todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar las reglas de los grupos de seguridad, consulte el paso 1: Preparar un grupo de EFA-enabled seguridad en la Guía del usuario de Amazon EC2.

Seleccione uno de los siguientes temas para obtener instrucciones sobre cómo ejecutar un trabajo de entrenamiento distribuido de su script de entrenamiento. Tras iniciar un trabajo de formación, puede supervisar la utilización del sistema y el rendimiento del modelo mediante Amazon SageMaker Debugger Amazon CloudWatch.

Siga las instrucciones de los siguientes temas para obtener más información sobre los detalles técnicos, pero también le recomendamos que pruebe Ejemplos de bibliotecas de paralelismo de datos de Amazon SageMaker AI para empezar.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

TensorFlow (obsoleto)

Usa los estimadores del PyTorch framework del SDK de Python SageMaker