Entraînement d’instances Spot gérées dans Amazon SageMaker AI - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Entraînement d’instances Spot gérées dans Amazon SageMaker AI

Amazon SageMaker AI facilite l’entraînement des modèles de machine learning à l’aide d’instances Spot Amazon EC2 gérées. L'entraînement d'instances Spot gérées peut optimiser le coût d'entraînement des modèles jusqu'à 90 % par rapport aux instances à la demande. SageMaker AI gère les interruptions d’instances Spot en votre nom.

L'entraînement d'instances Spot gérées utilise une instance Spot Amazon EC2 pour exécuter des tâches d'entraînement au lieu d'instances à la demande. Vous pouvez spécifier les tâches d’entraînement qui utilisent des instances Spot, ainsi qu’une condition d’arrêt qui spécifie combien de temps SageMaker AI doit attendre qu’une tâche s’exécute à l’aide d’instances Spot Amazon EC2. Les métriques et les journaux générés durant les entraînements sont disponibles dans CloudWatch.

Le réglage de modèle Amazon SageMaker AI, également appelé réglage d’hyperparamètre, peut utiliser l’entraînement d’instances Spot gérées. Pour plus d'informations sur le réglage automatique de modèle, consultez Réglage automatique du modèle grâce à l' SageMaker IA.

Les instances Spot peuvent être interrompues, suite à quoi les tâches mettent plus de temps à démarrer ou à se terminer. Vous pouvez configurer votre tâche d'entraînement d'instances Spot gérées pour utiliser des points de contrôle. SageMaker AI copie les données de points de contrôle d’un chemin d’accès local vers Amazon S3. Lorsque la tâche est redémarrée, SageMaker AI copie les données à partir d’Amazon S3 et les renvoie vers le chemin d’accès local. La tâche d'entraînement peut ensuite reprendre à partir du dernier point de contrôle au lieu de redémarrer depuis le début. Pour en savoir plus sur les points de contrôle, consultez Points de contrôle dans Amazon SageMaker AI.

Note

À moins que votre tâche d'entraînement se termine rapidement, nous vous recommandons d'utiliser des points de contrôle avec l'entraînement Spot gérée. Les algorithmes intégrés SageMaker et les algorithmes Marketplace qui ne créent pas de point de contrôle sont actuellement limités à un MaxWaitTimeInSeconds de 3 600 secondes (60 minutes).

Pour utiliser l'entraînement Spot géré, créez une tâche d'entraînement. Définissez EnableManagedSpotTraining sur True et spécifiez MaxWaitTimeInSeconds. MaxWaitTimeInSeconds doit être supérieur à MaxRuntimeInSeconds. Pour plus d’informations sur la création d’une tâche d’entraînement, consultez DescribeTrainingJob.

Vous pouvez calculer les économies générées par l'utilisation de l'entraînement Spot géré à l'aide de la formule (1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Par exemple, si la valeur BillableTimeInSeconds est égale à 100 et TrainingTimeInSeconds à 500, cela signifie que votre tâche d'entraînement a duré 500 secondes, mais que vous n'avez été facturé que pour 100 secondes. Vos économies sont de (1 - (100 / 500)) * 100 = 80 %.

Pour découvrir comment exécuter des tâches d’entraînement sur des instances Spot Amazon SageMaker AI, et comment l’entraînement d’instances Spot gérées fonctionne et réduit le temps facturable, consultez les exemples de blocs-notes suivants :