Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Lancement de tâches de formation distribuées avec SMDDP à l'aide du SDK Python SageMaker
Pour exécuter une tâche de formation distribuée avec votre script adapté depuisAdaptation de votre script d’entraînement pour utiliser les opérations collectives SMDDP, utilisez le framework du SDK SageMaker Python ou des estimateurs génériques en spécifiant le script d'entraînement préparé comme script de point d'entrée et la configuration d'entraînement distribuée.
Cette page explique comment utiliser le SDK SageMaker AI Python
-
Si vous souhaitez adopter rapidement votre tâche de formation distribuée en SageMaker IA, configurez une classe d' SageMaker estimateurs d'IA PyTorch
ou de TensorFlow framework. L'estimateur du framework sélectionne votre script d'entraînement et fait automatiquement correspondre l'URI d'image correcte des Deep Learning Containers (DLC) prédéfinis PyTorch ou des TensorFlow Deep Learning Containers (DLC) , en fonction de la valeur spécifiée pour le paramètre. framework_version -
Si vous souhaitez étendre l'un des conteneurs prédéfinis ou créer un conteneur personnalisé pour créer votre propre environnement ML avec l' SageMaker IA, utilisez la
Estimatorclasse générique SageMaker AI et spécifiez l'URI de l'image du conteneur Docker personnalisé hébergé dans votre Amazon Elastic Container Registry (Amazon ECR).
Vos ensembles de données de formation doivent être stockés dans Amazon S3 ou Amazon FSx for Lustre dans Région AWS lequel vous lancez votre formation. Si vous utilisez des blocs-notes Jupyter, vous devez disposer d'une instance de SageMaker bloc-notes ou d'une application SageMaker Studio Classic exécutée dans le même bloc-notes. Région AWS Pour plus d'informations sur le stockage de vos données d'entraînement, consultez la documentation sur les entrées de données du SDK SageMaker Python
Astuce
Nous vous recommandons vivement d’utiliser Amazon FSx pour Lustre au lieu d’Amazon S3 afin d’augmenter les performances d’entraînement. Le débit de Amazon FSx est plus élevé et sa latence inférieure à celle de Amazon S3.
Astuce
Pour exécuter correctement la formation distribuée sur les types d' EFA-enabled instances, vous devez activer le trafic entre les instances en configurant le groupe de sécurité de votre VPC pour autoriser tout le trafic entrant et sortant à destination et en provenance du groupe de sécurité lui-même. Pour savoir comment configurer les règles du groupe de sécurité, consultez Étape 1 : Préparation d'un groupe de EFA-enabled sécurité dans le guide de l'utilisateur Amazon EC2.
Sélectionnez l’une des rubriques suivantes pour obtenir des instructions sur la manière d’exécuter une tâche d’entraînement distribué de votre script d’entraînement. Après avoir lancé une tâche de formation, vous pouvez surveiller l'utilisation du système et les performances des modèles à l'aide SageMaker Débogueur Amazon d'Amazon CloudWatch.
En plus de suivre les instructions des rubriques suivantes pour en savoir plus sur les détails techniques, nous vous recommandons de consulter les Exemples de bibliothèques de parallélisme de données Amazon SageMaker AI pour démarrer.