Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de l'opérateur HyperPod de formation
L'opérateur de SageMaker HyperPod formation Amazon vous aide à accélérer le développement de modèles d'IA générative en gérant efficacement la formation distribuée sur de grands clusters de GPU. Il intègre des fonctionnalités intelligentes de reprise des pannes, de détection des interruptions de travail et de gestion au niveau des processus qui minimisent les interruptions de formation et réduisent les coûts. Contrairement à l'infrastructure de formation traditionnelle qui nécessite le redémarrage complet des tâches en cas de défaillance, cet opérateur met en œuvre la restauration des processus chirurgicaux pour assurer le bon déroulement de vos tâches de formation.
L'opérateur utilise également les fonctions de surveillance HyperPod de l'état de santé et d'observabilité de l'opérateur, qui fournissent une visibilité en temps réel sur l'exécution de la formation et une surveillance automatique des indicateurs critiques tels que les pics de pertes et la dégradation du débit. Vous pouvez définir des politiques de restauration par le biais de configurations YAML simples sans modification de code, ce qui vous permet de réagir rapidement aux états d'entraînement irrécupérables et de récupérer rapidement ces derniers. Ces fonctionnalités de surveillance et de restauration fonctionnent ensemble pour maintenir des performances d'entraînement optimales tout en minimisant les frais d'exploitation.
Bien que Kueue ne soit pas requis pour cet opérateur de formation, votre administrateur de cluster peut l'installer et le configurer pour améliorer les fonctionnalités de planification des tâches. Pour plus d'informations, consultez la documentation officielle de Kueue
Note
Pour utiliser l'opérateur de formation, vous devez utiliser la dernière version de l' HyperPod AMI. Pour effectuer la mise à niveau, utilisez l'opération UpdateClusterSoftwareAPI. Si vous utilisez la gouvernance des HyperPod tâches, il doit également s'agir de la dernière version.
Versions prises en charge
L'opérateur de HyperPod formation fonctionne uniquement avec des versions spécifiques de Kubernetes, Kueue et. HyperPod Consultez la liste ci-dessous pour obtenir la liste complète des versions compatibles.
-
Versions de Kubernetes prises en charge : 1.28, 1.29, 1.30, 1.31 ou 1.32
-
La dernière version de l' HyperPod AMI. Pour effectuer une mise à niveau vers la dernière version de l'AMI, utilisez l' UpdateClusterSoftwareAPI.
L'opérateur de HyperPod formation est compatible avec Kueue, que votre administrateur de cluster peut configurer pour améliorer les capacités de planification des tâches. Pour plus d'informations, consultez la documentation officielle de Kueue
Prérequis
Pour utiliser l'opérateur de HyperPod formation, vous devez remplir les prérequis suivants :
-
Configurez votre HyperPod cluster avec un Amazon VPC personnalisé
-
Vous avez installé la dernière AMI sur votre HyperPod cluster. Pour de plus amples informations, consultez SageMaker HyperPod Publications d'AMI pour Amazon EKS.