Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit der Amazon EKS-Unterstützung in SageMaker HyperPod

Informieren Sie sich neben den allgemeinen Angaben Voraussetzungen für die Verwendung von SageMaker HyperPod über die folgenden Anforderungen und Überlegungen zur Orchestrierung von SageMaker HyperPod Clustern mithilfe von Amazon EKS. SageMaker HyperPod

Wichtig

Sie können die Ressourcenkonfiguration für die Erstellung von SageMaker HyperPod Clustern mithilfe von AWS-Managementkonsole und CloudFormation einrichten. Weitere Informationen erhalten Sie unter Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung und SageMaker HyperPod Cluster mithilfe von CloudFormation Vorlagen erstellen.

Voraussetzungen

Anmerkung

Bevor Sie einen HyperPod Cluster erstellen, benötigen Sie einen laufenden Amazon EKS-Cluster, der mit VPC konfiguriert und mit Helm installiert wurde.

Beachten Sie bei der Bereitstellung Ihres Amazon-EKS-Clusters Folgendes:

  1. Support für Kubernetes-Version

    • SageMaker HyperPod unterstützt die Kubernetes-Versionen 1.28, 1.29, 1.30, 1.31, 1.32 und 1.33.

  2. Cluster-Authentifizierungsmodus von Amazon EKS

    • Der Authentifizierungsmodus eines Amazon EKS-Clusters, der von unterstützt wird, SageMaker HyperPod sind API undAPI_AND_CONFIG_MAP.

  3. Netzwerkfunktionen

    • SageMaker HyperPod erfordert das Amazon VPC Container Network Interface (CNI) -Plug-In Version 1.18.3 oder höher.

      Anmerkung

      AWSDas VPC CNI-Plugin für Kubernetes ist das einzige CNI, das von unterstützt wird. SageMaker HyperPod

    • Der Typ des Subnetzes in Ihrer VPC muss für HyperPod Cluster privat sein.

  4. IAM-Rollen

  5. Cluster-Add-ons von Amazon EKS

    • Sie können die verschiedenen von Amazon EKS bereitgestellten Add-Ons wie Kube-Proxy, CoreDNS, das Amazon VPC Container Network Interface (CNI) -Plugin, Amazon EKS-Pod-Identität, den GuardDuty Agenten, den Amazon FSx Container Storage Interface (CSI) -Treiber, den Mountpoint for Amazon S3 CSI-Treiber, den Distro for und den AWS Observability Agent weiterhin verwenden. OpenTelemetry CloudWatch

Überlegungen zur Konfiguration von SageMaker HyperPod Clustern mit Amazon EKS

  • Sie müssen je nach Art Ihrer Knoten unterschiedliche IAM-Rollen verwenden. Verwenden Sie für HyperPod Knoten eine Rolle, die auf basiertIAM-Rolle für SageMaker HyperPod. Informationen zu Amazon-EKS-Knoten finden Sie unter IAM-Rolle für Amazon-EKS-Knoten.

  • Sie können zusätzliche Amazon EBS-Volumes auf SageMaker HyperPod Knoten auf zwei Arten bereitstellen und mounten: InstanceStorageConfigsfür die Volume-Bereitstellung auf Cluster-Ebene (verfügbar beim Erstellen oder Aktualisieren von Instance-Gruppen) oder den Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) -Treiber für dynamisches Volume-Management auf Pod-Ebene. Stellen Sie mit InstanceStorageConfigsden lokalen Pfad auf ein, /opt/sagemaker um die Volumes ordnungsgemäß in Ihre Amazon EKS-Pods einzubinden. Informationen zur Bereitstellung des Amazon EBS CSI-Controllers auf HyperPod Knoten finden Sie unterVerwenden des Amazon EBS CSI-Treibers auf SageMaker HyperPod EKS-Clustern.

  • Wenn Sie Instance-Typ-Labels zur Definition von Scheduling-Einschränkungen verwenden, stellen Sie sicher, dass Sie die SageMaker AI ML-Instance-Typen mit dem Präfix verwenden. ml. Verwenden Sie beispielsweise für P5-Instances ml.p5.48xlarge anstelle von p5.48xlarge.

Überlegungen zur Netzwerkkonfiguration für SageMaker HyperPod Cluster mit Amazon EKS

  • Jede HyperPod Cluster-Instance unterstützt ein Elastic Network Interface (ENI). Die maximale Anzahl von Pods pro Instance-Typ finden Sie in der folgenden Tabelle.

    Instance-Typ Maximale Anzahl von Pods
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g 6.x groß 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.g6e.48xlarge 49
  • Standardmäßig hostNetwork = true haben nur Pods Zugriff auf den Amazon EC2 Instance Metadata Service (IMDS). Verwenden Sie die Amazon EKS-Pod-Identität oder die IAM-Rollen für Dienstkonten (IRSA), um den Zugriff auf die AWS Anmeldeinformationen für Pods zu verwalten.

  • EKS-orchestrierte HyperPod Cluster unterstützen duale IP-Adressierungsmodi und ermöglichen so die Konfiguration mit IPv4 oder IPv6 für IPv6 Amazon EKS-Cluster in IPv6 -fähigen VPC- und Subnetzumgebungen. Weitere Informationen finden Sie unter Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC.

Überlegungen zur Verwendung der Cluster-Resilienzfunktionen HyperPod

  • Die automatische Ersetzung von Knoten wird für CPU-Instances nicht unterstützt.

  • Der HyperPod Health Monitoring Agent muss installiert sein, damit die automatische Wiederherstellung des Knotens funktioniert. Der Agent kann mit Helm installiert werden. Weitere Informationen finden Sie unter Installation von Paketen auf dem Amazon-EKS-Cluster mit Helm.

  • Der Agent zur HyperPod umfassenden Gesundheitsprüfung und Gesundheitsüberwachung unterstützt GPU- und Trn-Instanzen.

  • SageMaker KI wendet den folgenden Makel auf Knoten an, wenn sie tiefgreifenden Gesundheitschecks unterzogen werden:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Anmerkung

    Es ist nicht möglich, benutzerdefinierte Taints zu Knoten in Instance-Gruppen hinzuzufügen, bei denen DeepHealthChecks aktiviert ist.

Sobald Ihr Amazon EKS-Cluster läuft, konfigurieren Sie Ihren Cluster mit dem Helm-Paketmanager, wie unter beschrieben, Installation von Paketen auf dem Amazon-EKS-Cluster mit Helm bevor Sie Ihren HyperPod Cluster erstellen.