Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod
Informieren Sie sich neben den allgemeinen Angaben Voraussetzungen für die Verwendung von SageMaker HyperPod über die folgenden Anforderungen und Überlegungen zur Orchestrierung von SageMaker HyperPod Clustern mithilfe von Amazon EKS. SageMaker HyperPod
Wichtig
Sie können die Ressourcenkonfiguration für die Erstellung von SageMaker HyperPod Clustern mithilfe von AWS-Managementkonsole und CloudFormation einrichten. Weitere Informationen erhalten Sie unter Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung und SageMaker HyperPod Cluster mithilfe von CloudFormation Vorlagen erstellen.
Voraussetzungen
Anmerkung
Bevor Sie einen HyperPod Cluster erstellen, benötigen Sie einen laufenden Amazon EKS-Cluster, der mit VPC konfiguriert und mit Helm installiert wurde.
-
Wenn Sie die SageMaker AI-Konsole verwenden, können Sie auf der Cluster-Konsolenseite einen Amazon HyperPod EKS-Cluster erstellen. Weitere Informationen finden Sie unter Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung.
-
Wenn Sie AWS CLI verwenden, sollten Sie einen Amazon EKS-Cluster erstellen, bevor Sie einen HyperPod Cluster erstellen, mit dem Sie eine Verbindung herstellen möchten. Weitere Informationen finden Sie unter Erstellen eines Amazon-EKS-Clusters im Benutzerhandbuch für Amazon EKS.
Beachten Sie bei der Bereitstellung Ihres Amazon-EKS-Clusters Folgendes:
-
Support für Kubernetes-Version
-
SageMaker HyperPod unterstützt die Kubernetes-Versionen 1.28, 1.29, 1.30, 1.31, 1.32 und 1.33.
-
-
Cluster-Authentifizierungsmodus von Amazon EKS
-
Der Authentifizierungsmodus eines Amazon EKS-Clusters, der von unterstützt wird, SageMaker HyperPod sind
APIundAPI_AND_CONFIG_MAP.
-
-
Netzwerkfunktionen
-
SageMaker HyperPod erfordert das Amazon VPC Container Network Interface (CNI) -Plug-In Version 1.18.3 oder höher.
Anmerkung
AWSDas VPC CNI-Plugin für Kubernetes
ist das einzige CNI, das von unterstützt wird. SageMaker HyperPod -
Der Typ des Subnetzes in Ihrer VPC muss für HyperPod Cluster privat sein.
-
-
IAM-Rollen
-
Stellen Sie sicher, dass die erforderlichen IAM-Rollen für wie im Abschnitt beschrieben eingerichtet HyperPod sind. AWS Identity and Access Managementfür SageMaker HyperPod
-
-
Cluster-Add-ons von Amazon EKS
-
Sie können die verschiedenen von Amazon EKS bereitgestellten Add-Ons wie Kube-Proxy, CoreDNS, das Amazon VPC Container Network Interface (CNI) -Plugin, Amazon EKS-Pod-Identität, den GuardDuty Agenten, den Amazon FSx Container Storage Interface (CSI) -Treiber, den Mountpoint for Amazon S3 CSI-Treiber, den Distro for und den AWS Observability Agent weiterhin verwenden. OpenTelemetry CloudWatch
-
Überlegungen zur Konfiguration von SageMaker HyperPod Clustern mit Amazon EKS
-
Sie müssen je nach Art Ihrer Knoten unterschiedliche IAM-Rollen verwenden. Verwenden Sie für HyperPod Knoten eine Rolle, die auf basiertIAM-Rolle für SageMaker HyperPod. Informationen zu Amazon-EKS-Knoten finden Sie unter IAM-Rolle für Amazon-EKS-Knoten.
-
Sie können zusätzliche Amazon EBS-Volumes auf SageMaker HyperPod Knoten auf zwei Arten bereitstellen und mounten: InstanceStorageConfigsfür die Volume-Bereitstellung auf Cluster-Ebene (verfügbar beim Erstellen oder Aktualisieren von Instance-Gruppen) oder den Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) -Treiber für dynamisches Volume-Management auf Pod-Ebene. Stellen Sie mit InstanceStorageConfigsden lokalen Pfad
auf ein, /opt/sagemakerum die Volumes ordnungsgemäß in Ihre Amazon EKS-Pods einzubinden. Informationen zur Bereitstellung des Amazon EBS CSI-Controllers auf HyperPod Knoten finden Sie unterVerwenden des Amazon EBS CSI-Treibers auf SageMaker HyperPod EKS-Clustern. -
Wenn Sie Instance-Typ-Labels zur Definition von Scheduling-Einschränkungen verwenden, stellen Sie sicher, dass Sie die SageMaker AI ML-Instance-Typen mit dem Präfix verwenden.
ml.Verwenden Sie beispielsweise für P5-Instancesml.p5.48xlargeanstelle vonp5.48xlarge.
Überlegungen zur Netzwerkkonfiguration für SageMaker HyperPod Cluster mit Amazon EKS
-
Jede HyperPod Cluster-Instance unterstützt ein Elastic Network Interface (ENI). Die maximale Anzahl von Pods pro Instance-Typ finden Sie in der folgenden Tabelle.
Instance-Typ Maximale Anzahl von Pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g 6.x groß 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.g6e.48xlarge 49 -
Standardmäßig
hostNetwork = truehaben nur Pods Zugriff auf den Amazon EC2 Instance Metadata Service (IMDS). Verwenden Sie die Amazon EKS-Pod-Identität oder die IAM-Rollen für Dienstkonten (IRSA), um den Zugriff auf die AWS Anmeldeinformationen für Pods zu verwalten. -
EKS-orchestrierte HyperPod Cluster unterstützen duale IP-Adressierungsmodi und ermöglichen so die Konfiguration mit IPv4 oder IPv6 für IPv6 Amazon EKS-Cluster in IPv6 -fähigen VPC- und Subnetzumgebungen. Weitere Informationen finden Sie unter Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC.
Überlegungen zur Verwendung der Cluster-Resilienzfunktionen HyperPod
-
Die automatische Ersetzung von Knoten wird für CPU-Instances nicht unterstützt.
-
Der HyperPod Health Monitoring Agent muss installiert sein, damit die automatische Wiederherstellung des Knotens funktioniert. Der Agent kann mit Helm installiert werden. Weitere Informationen finden Sie unter Installation von Paketen auf dem Amazon-EKS-Cluster mit Helm.
-
Der Agent zur HyperPod umfassenden Gesundheitsprüfung und Gesundheitsüberwachung unterstützt GPU- und Trn-Instanzen.
-
SageMaker KI wendet den folgenden Makel auf Knoten an, wenn sie tiefgreifenden Gesundheitschecks unterzogen werden:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: UnschedulableAnmerkung
Es ist nicht möglich, benutzerdefinierte Taints zu Knoten in Instance-Gruppen hinzuzufügen, bei denen
DeepHealthChecksaktiviert ist.
Sobald Ihr Amazon EKS-Cluster läuft, konfigurieren Sie Ihren Cluster mit dem Helm-Paketmanager, wie unter beschrieben, Installation von Paketen auf dem Amazon-EKS-Cluster mit Helm bevor Sie Ihren HyperPod Cluster erstellen.