Lancement de tâches de formation distribuées avec SMDDP à l'aide du SDK Python SageMaker

Pour exécuter une tâche de formation distribuée avec votre script adapté depuisAdaptation de votre script d’entraînement pour utiliser les opérations collectives SMDDP, utilisez le framework du SDK SageMaker Python ou des estimateurs génériques en spécifiant le script d'entraînement préparé comme script de point d'entrée et la configuration d'entraînement distribuée.

Cette page explique comment utiliser le SDK SageMaker AI Python de deux manières.

Si vous souhaitez adopter rapidement votre tâche de formation distribuée en SageMaker IA, configurez une classe d' SageMaker estimateurs d'IA PyTorchou de TensorFlowframework. L'estimateur du framework sélectionne votre script d'entraînement et fait automatiquement correspondre l'URI d'image correcte des Deep Learning Containers (DLC) prédéfinis PyTorch ou des TensorFlow Deep Learning Containers (DLC), en fonction de la valeur spécifiée pour le paramètre. framework_version
Si vous souhaitez étendre l'un des conteneurs prédéfinis ou créer un conteneur personnalisé pour créer votre propre environnement ML avec l' SageMaker IA, utilisez la Estimator classe générique SageMaker AI et spécifiez l'URI de l'image du conteneur Docker personnalisé hébergé dans votre Amazon Elastic Container Registry (Amazon ECR).

Vos ensembles de données de formation doivent être stockés dans Amazon S3 ou Amazon FSx for Lustre dans Région AWS lequel vous lancez votre formation. Si vous utilisez des blocs-notes Jupyter, vous devez disposer d'une instance de SageMaker bloc-notes ou d'une application SageMaker Studio Classic exécutée dans le même bloc-notes. Région AWS Pour plus d'informations sur le stockage de vos données d'entraînement, consultez la documentation sur les entrées de données du SDK SageMaker Python.

Astuce

Nous vous recommandons vivement d’utiliser Amazon FSx pour Lustre au lieu d’Amazon S3 afin d’augmenter les performances d’entraînement. Le débit de Amazon FSx est plus élevé et sa latence inférieure à celle de Amazon S3.

Astuce

Pour exécuter correctement la formation distribuée sur les types d' EFA-enabled instances, vous devez activer le trafic entre les instances en configurant le groupe de sécurité de votre VPC pour autoriser tout le trafic entrant et sortant à destination et en provenance du groupe de sécurité lui-même. Pour savoir comment configurer les règles du groupe de sécurité, consultez Étape 1 : Préparation d'un groupe de EFA-enabled sécurité dans le guide de l'utilisateur Amazon EC2.

Sélectionnez l’une des rubriques suivantes pour obtenir des instructions sur la manière d’exécuter une tâche d’entraînement distribué de votre script d’entraînement. Après avoir lancé une tâche de formation, vous pouvez surveiller l'utilisation du système et les performances des modèles à l'aide SageMaker Débogueur Amazon d'Amazon CloudWatch.

En plus de suivre les instructions des rubriques suivantes pour en savoir plus sur les détails techniques, nous vous recommandons de consulter les Exemples de bibliothèques de parallélisme de données Amazon SageMaker AI pour démarrer.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

TensorFlow (obsolète)

Utiliser les estimateurs du PyTorch framework dans le SDK Python SageMaker