Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod
Outre les informations générales SageMaker HyperPod, consultez les exigences et considérations suivantes Conditions préalables pour l’utilisation du SageMaker HyperPod. pour orchestrer des SageMaker HyperPod clusters à l'aide d'Amazon EKS.
Important
Vous pouvez configurer la configuration des ressources pour créer des SageMaker HyperPod clusters à l'aide du AWS Management Console etCloudFormation. Pour plus d’informations, consultez Création d'un SageMaker HyperPod cluster avec l'orchestration Amazon EKS et Création de SageMaker HyperPod clusters à l'aide CloudFormation de modèles.
Exigences
Note
Avant de créer un HyperPod cluster, vous avez besoin d'un cluster Amazon EKS en cours d'exécution configuré avec VPC et installé à l'aide de Helm.
-
Si vous utilisez la console SageMaker AI, vous pouvez créer un cluster Amazon EKS sur la page de console du HyperPod cluster. Pour de plus amples informations, veuillez consulter Création d'un SageMaker HyperPod cluster avec l'orchestration Amazon EKS.
-
Si vous utilisez une AWS CLI, vous devez créer un cluster Amazon EKS avant de créer un HyperPod cluster auquel vous pouvez vous associer. Pour plus d’informations, consultez Création d’un cluster Amazon EKS dans le Guide de l’utilisateur Amazon EKS.
Lorsque vous provisionnez votre cluster Amazon EKS, tenez compte des points suivants :
-
Prise en charge des versions de Kubernetes
-
SageMaker HyperPod prend en charge les versions 1.28, 1.29, 1.30, 1.31, 1.32 et 1.33 de Kubernetes.
-
-
Mode d’authentification du cluster Amazon EKS
-
Le mode d'authentification d'un cluster Amazon EKS pris en charge par SageMaker HyperPod are
APIandAPI_AND_CONFIG_MAP.
-
-
Réseaux
-
SageMaker HyperPod nécessite le plug-in Amazon VPC Container Network Interface (CNI) version 1.18.3 ou ultérieure.
Note
AWSLe plugin VPC CNI pour Kubernetes
est le seul CNI pris en charge par. SageMaker HyperPod -
Le type de sous-réseau de votre VPC doit être privé HyperPod pour les clusters.
-
-
Rôles IAM
-
Assurez-vous que les rôles IAM nécessaires pour HyperPod sont configurés conformément aux instructions de la Gestion des identités et des accès AWSpour SageMaker HyperPod section.
-
-
Modules complémentaires du cluster Amazon EKS
-
Vous pouvez continuer à utiliser les différents modules complémentaires fournis par Amazon EKS, tels que Kube-proxy, CoreDNS, le plug-in Amazon VPC Container Network Interface (CNI), l'identité du pod Amazon EKS, l' GuardDutyagent, le pilote Amazon Container Storage Interface (CSI), le pilote Mountpoint pour FSx Amazon S3 CSI, le Distro pour et l'agent Observability. AWS OpenTelemetry CloudWatch
-
Considérations relatives à la configuration de SageMaker HyperPod clusters avec Amazon EKS
-
Vous devez utiliser des rôles IAM distincts en fonction du type de vos nœuds. Pour HyperPod les nœuds, utilisez un rôle basé surRôle IAM pour SageMaker HyperPod. Pour les nœuds Amazon EKS, consultez Rôle IAM de nœud Amazon EKS.
-
Vous pouvez provisionner et monter des volumes Amazon EBS supplémentaires sur des SageMaker HyperPod nœuds en utilisant deux approches : utiliser InstanceStorageConfigspour le provisionnement de volumes au niveau du cluster (disponible lors de la création ou de la mise à jour de groupes d'instances) ou utiliser le pilote Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) pour une gestion dynamique des volumes au niveau des pods. Avec InstanceStorageConfigs, définissez le chemin local sur
/opt/sagemakerpour monter correctement les volumes sur vos pods Amazon EKS. Pour plus d'informations sur le déploiement du contrôleur Amazon EBS CSI sur des HyperPod nœuds, consultez. Utilisation du pilote Amazon EBS CSI sur SageMaker HyperPod les clusters EKS -
Si vous utilisez des étiquettes de type d'instance pour définir des contraintes de planification, veillez à utiliser les types d'instance SageMaker AI ML préfixés par.
ml.Par exemple, pour les instances P5, utilisezml.p5.48xlargeà la place dep5.48xlarge.
Considérations relatives à la configuration du réseau pour les SageMaker HyperPod clusters avec Amazon EKS
-
Chaque instance de HyperPod cluster prend en charge une interface réseau élastique (ENI). Pour connaître le nombre maximal de pods par type d’instance, reportez-vous au tableau suivant.
Type d’instance Nombre maximal de pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
Par défaut, seuls les pods
hostNetwork = trueont accès à l'Amazon EC2 Instance Metadata Service (IMDS). Utilisez l'identité Amazon EKS Pod ou les rôles IAM pour les comptes de service (IRSA) pour gérer l'accès aux AWS informations d'identification des Pods. -
HyperPod Les clusters orchestrés par EKS prennent en charge les deux modes d'adressage IP, ce qui permet de les configurer avec ou IPv4 pour des clusters IPv6 IPv6 Amazon EKS dans des environnements IPv6 VPC et de sous-réseau compatibles. Pour de plus amples informations, veuillez consulter Configuration SageMaker HyperPod avec un Amazon VPC personnalisé.
Considérations relatives à l'utilisation des HyperPod fonctionnalités de résilience du cluster
-
Le remplacement automatique des nœuds n’est pas pris en charge pour les instances CPU.
-
L'agent HyperPod de surveillance de l'état de santé doit être installé pour que la restauration automatique des nœuds fonctionne. L’agent peut être installé à l’aide de Helm. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l’aide de Helm.
-
L'agent de vérification HyperPod approfondie de l'état et de surveillance de l'état prend en charge les instances GPU et Trn.
-
SageMaker L'IA inflige la coloration suivante aux nœuds lorsqu'ils sont soumis à des contrôles de santé approfondis :
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: UnschedulableNote
Vous ne pouvez pas ajouter de rejets personnalisés aux nœuds des groupes d’instances lorsque
DeepHealthChecksest activé.
Une fois que votre cluster Amazon EKS est en cours d'exécution, configurez-le à l'aide du gestionnaire de packages Helm comme indiqué Installation de packages sur le cluster Amazon EKS à l’aide de Helm avant de créer votre HyperPod cluster.