Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utiliser les estimateurs du PyTorch framework dans le SDK Python SageMaker
Vous pouvez lancer une formation distribuée en ajoutant l'distributionargument aux estimateurs du framework d' SageMaker IA, PyTorchTensorFlow
- PyTorch
-
Les options de lancement suivantes sont disponibles pour lancer une formation PyTorch distribuée.
-
pytorchddp— Cette option exécutempirunet configure les variables d'environnement nécessaires à l'exécution de formations PyTorch distribuées sur l' SageMaker IA. Pour utiliser cette option, transmettez le dictionnaire suivant audistributionparamètre.{ "pytorchddp": { "enabled": True } } -
torch_distributed— Cette option exécutetorchrunet configure les variables d'environnement nécessaires à l'exécution de formations PyTorch distribuées sur l' SageMaker IA. Pour utiliser cette option, transmettez le dictionnaire suivant audistributionparamètre.{ "torch_distributed": { "enabled": True } } -
smdistributed— Cette option fonctionne égalementmpirun, mais elle permet desmddprunconfigurer les variables d'environnement nécessaires à l'exécution d'une formation PyTorch distribuée sur l' SageMaker IA.{ "smdistributed": { "dataparallel": { "enabled": True } } }
Si vous avez choisi de remplacer NCCL
AllGatherpar SMDDPAllGather, vous pouvez utiliser les trois options. Choisissez une option adaptée à votre cas d'utilisation.Si vous avez choisi de remplacer NCCL
AllReducepar SMDDPAllReduce, vous devez choisir l'une des options suivantes : oumpirun.smdistributedpytorchddpVous pouvez également ajouter des options MPI supplémentaires comme suit.{ "pytorchddp": { "enabled": True, "custom_mpi_options": "-verbose -x NCCL_DEBUG=VERSION" } }{ "smdistributed": { "dataparallel": { "enabled": True, "custom_mpi_options": "-verbose -x NCCL_DEBUG=VERSION" } } }L'exemple de code suivant montre la structure de base d'un PyTorch estimateur avec des options d'entraînement distribuées.
from sagemaker.pytorch import PyTorch pt_estimator = PyTorch( base_job_name="training_job_name_prefix", source_dir="subdirectory-to-your-code", entry_point="adapted-training-script.py", role="SageMakerRole", py_version="py310", framework_version="2.0.1", # For running a multi-node distributed training job, specify a value greater than 1 # Example: 2,3,4,..8 instance_count=2, # Instance types supported by the SageMaker AI data parallel library: # ml.p4d.24xlarge, ml.p4de.24xlarge instance_type="ml.p4d.24xlarge", # Activate distributed training with SMDDP distribution={ "pytorchddp": { "enabled": True } } # mpirun, activates SMDDP AllReduce OR AllGather # distribution={ "torch_distributed": { "enabled": True } } # torchrun, activates SMDDP AllGather # distribution={ "smdistributed": { "dataparallel": { "enabled": True } } } # mpirun, activates SMDDP AllReduce OR AllGather ) pt_estimator.fit("s3://bucket/path/to/training/data")Note
PyTorch Lightning et ses bibliothèques d'utilitaires, telles que Lightning Bolts, ne sont pas préinstallés dans l' SageMaker IA PyTorch DLCs. Créez le fichier
requirements.txtsuivant et enregistrez-le dans le répertoire source où vous enregistrez le script d'entraînement.# requirements.txt pytorch-lightning lightning-boltsPar exemple, le répertoire de type arborescence doit être similaire à ce qui suit.
├──pytorch_training_launcher_jupyter_notebook.ipynb└── sub-folder-for-your-code ├──adapted-training-script.py└──requirements.txtPour plus d'informations sur la spécification du répertoire source dans lequel placer le
requirements.txtfichier avec votre script d'entraînement et la soumission d'une tâche, consultez la section Utilisation de bibliothèques tiercesdans la documentation du SDK Amazon SageMaker AI Python. Considérations relatives à l'activation des opérations collectives SMDDP et à l'utilisation des bonnes options de lancement d'entraînement distribué
-
Le SMDDP
AllReduceet le SMDDP neAllGathersont pas compatibles entre eux à l'heure actuelle. -
Le SMDDP
AllReduceest activé par défaut lorsque vous utilisezsmdistributedoupytorchddp, qui sont des lanceursmpirunbasés sur ou, etAllGatherNCCL est utilisé. -
SMDDP
AllGatherest activé par défaut lors de l'utilisation dutorch_distributedlanceur etAllReducerevient à NCCL. -
Le SMDDP
AllGatherpeut également être activé lors de l'utilisation des lanceursmpirunbasés avec une variable d'environnement supplémentaire définie comme suit.export SMDATAPARALLEL_OPTIMIZE_SDP=true
-
- TensorFlow
-
Important
La bibliothèque SMDDP a cessé de prendre en charge TensorFlow et n'est plus disponible DLCs depuis la TensorFlow version 2.11.0. Pour trouver la version précédente TensorFlow DLCs avec la bibliothèque SMDDP installée, voir. TensorFlow (obsolète)
from sagemaker.tensorflow import TensorFlow tf_estimator = TensorFlow( base_job_name = "training_job_name_prefix", entry_point="", role="adapted-training-script.pySageMakerRole", framework_version="2.11.0", py_version="py38", # For running a multi-node distributed training job, specify a value greater than 1 # Example: 2,3,4,..8 instance_count=2, # Instance types supported by the SageMaker AI data parallel library: #ml.p4d.24xlarge,ml.p3dn.24xlarge, andml.p3.16xlargeinstance_type="ml.p3.16xlarge", # Training using the SageMaker AI data parallel distributed training strategy distribution={ "smdistributed": { "dataparallel": { "enabled": True } } } ) tf_estimator.fit("s3://bucket/path/to/training/data")