Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod

Outre les informations générales SageMaker HyperPod, consultez les exigences et considérations suivantes Conditions préalables pour l’utilisation du SageMaker HyperPod. pour orchestrer des SageMaker HyperPod clusters à l'aide d'Amazon EKS.

Important

Vous pouvez configurer la configuration des ressources pour créer des SageMaker HyperPod clusters à l'aide du AWS Management Console etCloudFormation. Pour plus d’informations, consultez Création d'un SageMaker HyperPod cluster avec l'orchestration Amazon EKS et Création de SageMaker HyperPod clusters à l'aide CloudFormation de modèles.

Exigences

Note

Avant de créer un HyperPod cluster, vous avez besoin d'un cluster Amazon EKS en cours d'exécution configuré avec VPC et installé à l'aide de Helm.

Lorsque vous provisionnez votre cluster Amazon EKS, tenez compte des points suivants :

  1. Prise en charge des versions de Kubernetes

    • SageMaker HyperPod prend en charge les versions 1.28, 1.29, 1.30, 1.31, 1.32 et 1.33 de Kubernetes.

  2. Mode d’authentification du cluster Amazon EKS

    • Le mode d'authentification d'un cluster Amazon EKS pris en charge par SageMaker HyperPod are API andAPI_AND_CONFIG_MAP.

  3. Réseaux

    • SageMaker HyperPod nécessite le plug-in Amazon VPC Container Network Interface (CNI) version 1.18.3 ou ultérieure.

      Note

      AWSLe plugin VPC CNI pour Kubernetes est le seul CNI pris en charge par. SageMaker HyperPod

    • Le type de sous-réseau de votre VPC doit être privé HyperPod pour les clusters.

  4. Rôles IAM

  5. Modules complémentaires du cluster Amazon EKS

Considérations relatives à la configuration de SageMaker HyperPod clusters avec Amazon EKS

  • Vous devez utiliser des rôles IAM distincts en fonction du type de vos nœuds. Pour HyperPod les nœuds, utilisez un rôle basé surRôle IAM pour SageMaker HyperPod. Pour les nœuds Amazon EKS, consultez Rôle IAM de nœud Amazon EKS.

  • Vous pouvez provisionner et monter des volumes Amazon EBS supplémentaires sur des SageMaker HyperPod nœuds en utilisant deux approches : utiliser InstanceStorageConfigspour le provisionnement de volumes au niveau du cluster (disponible lors de la création ou de la mise à jour de groupes d'instances) ou utiliser le pilote Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) pour une gestion dynamique des volumes au niveau des pods. Avec InstanceStorageConfigs, définissez le chemin local sur /opt/sagemaker pour monter correctement les volumes sur vos pods Amazon EKS. Pour plus d'informations sur le déploiement du contrôleur Amazon EBS CSI sur des HyperPod nœuds, consultez. Utilisation du pilote Amazon EBS CSI sur SageMaker HyperPod les clusters EKS

  • Si vous utilisez des étiquettes de type d'instance pour définir des contraintes de planification, veillez à utiliser les types d'instance SageMaker AI ML préfixés par. ml. Par exemple, pour les instances P5, utilisez ml.p5.48xlarge à la place de p5.48xlarge.

Considérations relatives à la configuration du réseau pour les SageMaker HyperPod clusters avec Amazon EKS

  • Chaque instance de HyperPod cluster prend en charge une interface réseau élastique (ENI). Pour connaître le nombre maximal de pods par type d’instance, reportez-vous au tableau suivant.

    Type d’instance Nombre maximal de pods
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • Par défaut, seuls les pods hostNetwork = true ont accès à l'Amazon EC2 Instance Metadata Service (IMDS). Utilisez l'identité Amazon EKS Pod ou les rôles IAM pour les comptes de service (IRSA) pour gérer l'accès aux AWS informations d'identification des Pods.

  • HyperPod Les clusters orchestrés par EKS prennent en charge les deux modes d'adressage IP, ce qui permet de les configurer avec ou IPv4 pour des clusters IPv6 IPv6 Amazon EKS dans des environnements IPv6 VPC et de sous-réseau compatibles. Pour de plus amples informations, veuillez consulter Configuration SageMaker HyperPod avec un Amazon VPC personnalisé.

Considérations relatives à l'utilisation des HyperPod fonctionnalités de résilience du cluster

  • Le remplacement automatique des nœuds n’est pas pris en charge pour les instances CPU.

  • L'agent HyperPod de surveillance de l'état de santé doit être installé pour que la restauration automatique des nœuds fonctionne. L’agent peut être installé à l’aide de Helm. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l’aide de Helm.

  • L'agent de vérification HyperPod approfondie de l'état et de surveillance de l'état prend en charge les instances GPU et Trn.

  • SageMaker L'IA inflige la coloration suivante aux nœuds lorsqu'ils sont soumis à des contrôles de santé approfondis :

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Note

    Vous ne pouvez pas ajouter de rejets personnalisés aux nœuds des groupes d’instances lorsque DeepHealthChecks est activé.

Une fois que votre cluster Amazon EKS est en cours d'exécution, configurez-le à l'aide du gestionnaire de packages Helm comme indiqué Installation de packages sur le cluster Amazon EKS à l’aide de Helm avant de créer votre HyperPod cluster.