Orchestration de SageMaker HyperPod clusters avec Amazon EKS - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Orchestration de SageMaker HyperPod clusters avec Amazon EKS

SageMaker HyperPod est un service SageMaker géré par l'IA qui permet de former à grande échelle des modèles de base sur des clusters de calcul résilients et durables, en s'intégrant à Amazon EKS pour orchestrer les ressources de calcul. HyperPod Vous pouvez exécuter des tâches de formation ininterrompues s'étalant sur des semaines ou des mois à grande échelle à l'aide de clusters Amazon EKS dotés de fonctionnalités de HyperPod résilience qui détectent les diverses défaillances matérielles et restaurent automatiquement les nœuds défectueux.

Les principales fonctionnalités pour les utilisateurs administrateurs du cluster sont les suivantes.

Pour les utilisateurs de data scientists, la prise en charge d'EKS dans HyperPod permet ce qui suit.

  • Exécution de charges de travail conteneurisées pour la formation des modèles de base sur le cluster HyperPod

  • Exécution de l'inférence sur le cluster EKS, en tirant parti de l'intégration entre HyperPod et EKS

  • Tirer parti de la fonctionnalité de reprise automatique des tâches pour la formation Kubeflow PyTorch () PyTorchJob

Note

Amazon EKS permet une orchestration des tâches et de l'infrastructure gérée par l'utilisateur SageMaker HyperPod via le plan de contrôle Amazon EKS. Assurez-vous que l'accès des utilisateurs au cluster via le point de terminaison du serveur d'API Kubernetes respecte le principe du moindre privilège et que la sortie réseau du cluster est sécurisée. HyperPod

Pour en savoir plus sur la sécurisation de l'accès au serveur d'API Amazon EKS, consultez Contrôler l'accès réseau au point de terminaison du serveur d'API du cluster.

Pour en savoir plus sur la sécurisation de l'accès au réseau sur HyperPod, voirConfiguration SageMaker HyperPod avec un Amazon VPC personnalisé.

L'architecture de haut niveau du support Amazon EKS HyperPod implique un mappage 1 à 1 entre un cluster EKS (plan de contrôle) et un HyperPod cluster (nœuds de travail) au sein d'un VPC, comme le montre le schéma suivant.

EKS and HyperPod VPC architecture with control plane, cluster nodes, and Services AWS.