Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Kontinuierliche Bereitstellung für erweiterte Cluster-Operationen auf Amazon EKS
<a name="sagemaker-hyperpod-scaling-eks"></a>

 SageMaker HyperPod Amazon-Cluster, die mit Amazon EKS-Orchestration erstellt wurden, unterstützen jetzt Continuous Provisioning, eine neue Funktion, die mehr Flexibilität und Effizienz bei der Ausführung AI/ML umfangreicher Workloads ermöglicht. Durch die kontinuierliche Bereitstellung können Sie schnell mit dem Training beginnen, nahtlos skalieren, Wartungsarbeiten ohne Betriebsunterbrechung durchführen und einen detaillierten Einblick in den Clusterbetrieb erhalten. 

**Anmerkung**  
Continuous Provisioning ist als optionale Konfiguration für HyperPod Cluster verfügbar, die mit EKS-Orchestrierung erstellt wurden. HyperPod Cluster, die mit Slurm-Orchestrierung erstellt wurden, unterstützen auch die kontinuierliche Bereitstellung. Details hierzu finden Sie unter [Kontinuierliche Bereitstellung für erweiterte Clusteroperationen mit Slurm](sagemaker-hyperpod-scaling-slurm.md).

## Funktionsweise
<a name="sagemaker-hyperpod-scaling-eks-how"></a>

Das Continuous Provisioning System führt eine Architektur mit gewünschtem Status ein, die das traditionelle, auf Anfragen basierende Modell ersetzt. Diese neue Architektur ermöglicht parallel, blockierungsfreie Operationen auf verschiedenen Ressourcenebenen unter Beibehaltung der Systemstabilität und -leistung. Das System zur kontinuierlichen Bereitstellung:
+ **Akzeptiert die Anfrage**: Zeichnet die Anzahl der ZielInstances für jede Instance-Gruppe auf
+ **Initiiert die Bereitstellung**: Beginnt mit dem Starten von Instances, um die Zielanzahl zu erreichen

  **Verfolgt den Fortschritt**: Überwacht jeden Instance-Startversuch und zeichnet den Status auf
+ **Behandelt Fehler**: Wiederholt automatisch fehlgeschlagene Starts

Die kontinuierliche Bereitstellung ist standardmäßig deaktiviert. Um diese Funktion zu verwenden, stellen Sie `--node-provisioning-mode` auf `Continuous` ein.

Wenn Continuous Provisioning aktiviert ist, können Sie mehrere Skalierungsvorgänge gleichzeitig initiieren, ohne auf den Abschluss früherer Operationen warten zu müssen. Auf diese Weise können Sie verschiedene Instance-Gruppen im selben Cluster gleichzeitig skalieren und mehrere Skalierungsanforderungen an dieselbe Instance-Gruppe senden. 

Durch die kontinuierliche Bereitstellung erhalten Sie außerdem Zugriff auf [DescribeClusterEvent](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeClusterEvent.html)und [ListClusterEvent](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListClusterEvents.html)für eine detaillierte Ereignisüberwachung und betriebliche Transparenz. 

## Nutzungsmessung
<a name="sagemaker-hyperpod-scaling-eks-metering"></a>

HyperPod Cluster mit kontinuierlicher Bereitstellung verwenden Zählerfunktionen auf Instanzebene, um eine genaue Abrechnung zu gewährleisten, die die tatsächliche Ressourcennutzung widerspiegelt. Dieser Zählungsansatz unterscheidet sich von der herkömmlichen Abrechnung auf Clusterebene dadurch, dass jede Instance unabhängig verfolgt wird.

**Instance-level Fakturierung**

Bei kontinuierlicher Bereitstellung beginnt und endet die Abrechnung auf der Ebene der einzelnen Instances, anstatt auf Statusänderungen auf Clusterebene zu warten. Diese Methode bietet folgende Vorteile:
+ **Präzise Rechnungsgenauigkeit: Die Abrechnung** beginnt, wenn die Ausführung des Lifecycle-Skripts beginnt. Wenn das Lifecycle-Skript fehlschlägt, wird die Instance-Bereitstellung erneut versucht, und Ihnen wird die Dauer der Laufzeit des Lifecycle-Skripts in Rechnung gestellt.
+ **Unabhängige Messung**: Der Abrechnungszyklus jeder Instance wird separat verwaltet, wodurch kaskadierende Abrechnungsfehler vermieden werden
+ **Real-time Abrechnungsupdates**: Die Abrechnung beginnt, wenn eine Instance mit der Ausführung ihres Lifecycle-Skripts beginnt, und endet, wenn die Instance in den Endzustand übergeht

**Lebenszyklus der Abrechnung**

Jede Instance in Ihrem HyperPod Cluster folgt diesem Abrechnungszyklus:
+ Die **Abrechnung beginnt**: Wenn die Instance erfolgreich gestartet wurde und mit der Ausführung ihres Lebenszyklus-Konfigurationsskripts beginnt
+ Die **Abrechnung wird fortgesetzt**: Während der gesamten Betriebsdauer der Instance
+ Die **Abrechnung wird beendet**: Wenn die Instance unabhängig vom Grund für die Kündigung in den Status „Beenden“ übergeht

**Anmerkung**  
Die Abrechnung für Instances, die nicht gestartet werden können, beginnt nicht. Wenn der Start einer Instance aufgrund unzureichender Kapazität oder anderer Probleme fehlschlägt, wird Ihnen dieser fehlgeschlagene Versuch nicht in Rechnung gestellt. Die Abrechnung wird auf Instance-Ebene berechnet und die Kosten werden zusammengefasst und unter dem Amazon-Ressourcennamen (ARN) Ihres Clusters gemeldet. 

## Erstellen Sie einen Cluster mit aktivierter kontinuierlicher Bereitstellung
<a name="sagemaker-hyperpod-scaling-eks-create"></a>

**Anmerkung**  
Sie müssen einen Amazon-EKS-Cluster mit VPC-Netzwerk konfiguriert und das erforderliche Helm-Diagramm installiert haben. Erstellen Sie außerdem ein Skript für die Lebenszykluskonfiguration und laden Sie es in einen Amazon-S3-Bucket hoch, auf den Ihre Ausführungsrolle zugreifen kann. Weitere Informationen finden Sie unter [Verwaltung von SageMaker HyperPod Clustern, die von Amazon EKS orchestriert werden](sagemaker-hyperpod-eks-operate.md).

Der folgende AWS CLI Vorgang erstellt einen HyperPod Cluster mit einer Instanzgruppe und aktivierter kontinuierlicher Bereitstellung.

```
aws sagemaker create-cluster \ 
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "ig-1",
   "InstanceType": "ml.c5.2xlarge",
   "InstanceCount": 2,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create_noop.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'",
   "ThreadsPerCore": 1,
   "TrainingPlanArn": ""
}' \
--node-provisioning-mode Continuous


// Expected Output:
{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>"
}
```

Nachdem Sie Ihren Cluster erstellt haben, können Sie [ListClusterNodes](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListClusterNodes.html)oder verwenden, [DescribeClusterNode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeClusterNode.html)um weitere Informationen über die Knoten im Cluster zu erhalten. 

Beim Aufrufen dieser Operationen wird ein [ClusterInstanceStatusDetails](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceStatusDetails.html)Objekt mit einem der folgenden Werte zurückgegeben: 
+  **Wird ausgeführt**: Der Knoten ist fehlerfrei und beim Cluster-Orchestrator (EKS) registriert. 
+  **Fehler**: Die Bereitstellung des Knotens ist fehlgeschlagen, aber das System versucht automatisch, die Bereitstellung mit einer neuen EC2-Instance zu wiederholen. 
+  **Ausstehend**: Der Knoten wird bereitgestellt oder neu gestartet. 
+  **ShuttingDown**: Die Knotenbeendigung ist im Gange. Der Knoten wechselt entweder in den Status Fehlgeschlagen, wenn bei der Terminierung Probleme auftreten, oder er wird erfolgreich aus dem Cluster entfernt. 
+  **SystemUpdating**: Der Knoten wird gerade einem AMI-Patching unterzogen, das entweder manuell oder im Rahmen von Patching-Cronjobs ausgelöst wird. 
+  **DeepHealthCheckInProgress**: [Deep Health Checks (DHCs](sagemaker-hyperpod-eks-resiliency-deep-health-checks.md)) werden durchgeführt. Dies kann je nach Art der Tests zwischen einigen Minuten und mehreren Stunden dauern. Fehlerhafte Knoten werden ersetzt und gesunde Knoten werden in den Status Running umgeschaltet. 
+  **NotFound**: Wird [BatchAddClusterNodes](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_BatchAddClusterNodes.html)als Reaktion darauf verwendet, dass ein Knoten während der idempotenten Wiedergabe gelöscht wurde. 

## Mindestkapazitätsanforderungen () MinCount
<a name="sagemaker-hyperpod-scaling-eks-mincount"></a>

Mit dieser MinCount Funktion können Sie die Mindestanzahl von Instanzen angeben, die erfolgreich bereitgestellt werden müssen, bevor eine Instanzgruppe in den `InService` Status übergeht. Diese Funktion bietet eine bessere Kontrolle über Skalierungsvorgänge und trägt dazu bei, Szenarien zu vermeiden, in denen teilweise bereitgestellte Instanzgruppen nicht effektiv für Trainingsworkloads verwendet werden können.

**Wichtig**  
MinCount ist keine dauerhafte Garantie für Mindestkapazität. Es stellt lediglich sicher, dass die angegebene Mindestanzahl von Instanzen verfügbar ist, wenn die Instanzgruppe zum ersten Mal verfügbar ist`InService`. Bei normalem Betrieb, z. B. beim Austausch fehlerhafter Instances oder bei Wartungsarbeiten, MinCount kann es zu kurzen Abweichungen im unteren Bereich kommen.

### MinCount Wie funktioniert
<a name="sagemaker-hyperpod-scaling-eks-mincount-how"></a>

Wenn Sie eine Instanzgruppe mit MinCount aktivierter Option erstellen oder aktualisieren, tritt das folgende Verhalten auf:
+ **Neue Instanzgruppen**: Die Instanzgruppe bleibt so lange im `Creating` Status, bis mindestens MinCount Instanzen erfolgreich bereitgestellt wurden und bereit sind. Sobald dieser Schwellenwert erreicht ist, wechselt die Instanzgruppe zu`InService`.
+ **Bestehende Instanzgruppen**: Bei MinCount der Aktualisierung einer vorhandenen Instanzgruppe ändert sich der Status so lange, `Updating` bis die neue MinCount Anforderung erfüllt ist.
+ **Kontinuierliche Skalierung**: Wenn der Wert größer als TargetCount ist MinCount, versucht das System für kontinuierliche Skalierung weiterhin, weitere Instances zu starten, bis dieser TargetCount Wert erreicht ist.
+ **Timeout und Rollback**: Wenn das Problem MinCount nicht innerhalb von 3 Stunden erfüllt werden kann, setzt das System die Instanzgruppe automatisch auf ihren letzten als funktionierend bekannten Zustand zurück. Weitere Informationen zum Rollback-Verhalten finden Sie unter [Automatisches](#sagemaker-hyperpod-scaling-eks-mincount-rollback) Rollback-Verhalten.

### Status der Instanzgruppe während des Betriebs MinCount
<a name="sagemaker-hyperpod-scaling-eks-mincount-status"></a>

Instanzgruppen mit MinCount konfigurierter Konfiguration weisen das folgende Statusverhalten auf:

Erstellen  
Für neue Instanzgruppen, wenn CurrentCount < MinCount. Die Instanzgruppe bleibt in diesem Status, bis die Mindestkapazitätsanforderung erfüllt ist.

Aktualisieren  
Für bestehende Instanzgruppen MinCount wird wann geändert und CurrentCount < MinCount. Die Instanzgruppe behält diesen Status, bis die neue Mindestkapazitätsanforderung erfüllt ist.

InService  
Wenn MinCount ≤ CurrentCount ≤ TargetCount. Die Instanzgruppe ist einsatzbereit und alle Mutationsoperationen sind entsperrt.

Während `Creating` unseres `Updating` Status gelten die folgenden Einschränkungen:
+ Mutationsoperationen wie `BatchAddClusterNodes``BatchDeleteClusterNodes`, oder `UpdateClusterSoftware` sind blockiert
+ Sie können weiterhin TargetCount Werte ändern MinCount , um Konfigurationsfehler zu korrigieren
+ Das Löschen von Clustern und Instanzgruppen ist immer zulässig

### Automatisches Rollback-Verhalten
<a name="sagemaker-hyperpod-scaling-eks-mincount-rollback"></a>

Wenn eine Instanzgruppe ihr Ziel nicht MinCount innerhalb von 3 Stunden erreichen kann, leitet das System automatisch ein Rollback ein, um unbegrenztes Warten zu verhindern:
+ **Neue Instanzgruppen**: MinCount und TargetCount werden auf (0, 0) zurückgesetzt
+ **Bestehende Instanzgruppen**: MinCount und TargetCount werden auf ihre Werte aus dem letzten `InService` Status zurückgesetzt
+ **Instanzauswahl zur Kündigung**: Wenn Instanzen während eines Rollbacks beendet werden müssen, wählt das System zuerst die fehlerhaften Instanzen aus und dann diejenigen, die zuletzt bereitgestellt wurden.
+ **Statusübergang**: Die Instanzgruppe wechselt sofort nach der Initiierung des Rollbacks in `InService` den Status, sodass das System mit kontinuierlicher Skalierung die Kapazität gemäß den Rollback-Einstellungen verwalten kann

Das 3-Stunden-Timeout wird jedes Mal zurückgesetzt, wenn es aktualisiert wird. MinCount Wenn Sie beispielsweise MinCount mehrmals aktualisieren, beginnt der Timeout-Zeitraum mit dem letzten Update.

### MinCount Ereignisse
<a name="sagemaker-hyperpod-scaling-eks-mincount-events"></a>

Das System sendet bestimmte Ereignisse aus, um Ihnen bei der Nachverfolgung von MinCount Vorgängen zu helfen:
+ **Mindestkapazität erreicht**: Wird ausgegeben, wenn eine Instanzgruppe ihre Kapazität erfolgreich erreicht MinCount und zu dieser übergeht `InService`
+ **Rollback eingeleitet**: Wird ausgelöst, wenn das 3-stündige Timeout abläuft und das automatische Rollback beginnt

Sie können diese Ereignisse überwachen, um den Fortschritt [ListClusterEvents](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListClusterEvents.html)Ihrer Operationen zu verfolgen. MinCount 

### API-Nutzung
<a name="sagemaker-hyperpod-scaling-eks-mincount-api"></a>

MinCount wird mithilfe des `MinInstanceCount` Parameters in Instanzgruppenkonfigurationen angegeben:

```
aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "worker-group",
   "InstanceType": "ml.p4d.24xlarge",
   "InstanceCount": 64,
   "MinInstanceCount": 50,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}' \
--node-provisioning-mode Continuous
```

Wichtige Überlegungen zur MinCount Verwendung:
+ `MinInstanceCount`muss zwischen 0 und dem `InstanceCount` (inklusiven) Wert der in [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)unserer [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html)Anfrage angegebenen Instanzgruppe liegen
+ Bei Einstellung `MinInstanceCount` auf 0 (Standard) wird das standardmäßige kontinuierliche Skalierungsverhalten beibehalten
+ Die Einstellung auf `MinInstanceCount` gleich `InstanceCount` sorgt für ein Alles-oder-Nichts-Skalierungsverhalten
+ MinCount ist nur für Cluster mit `NodeProvisioningMode` der Einstellung auf verfügbar `Continuous`

## Flexible Instanzgruppen
<a name="sagemaker-hyperpod-scaling-eks-flexible-ig"></a>

Flexible Instanzgruppen ermöglichen es Ihnen, mehrere Instanztypen innerhalb einer einzigen Instanzgruppe anzugeben. Dies vereinfacht die Clusterverwaltung, da die Anzahl der Instanzgruppen, die Sie erstellen und verwalten müssen, reduziert wird, insbesondere für Inferenz-Workloads, die Autoscaling verwenden.

Mit flexiblen Instanzgruppen: HyperPod
+ Versucht, Instanzen mithilfe des ersten Instanztyps in Ihrer Liste bereitzustellen
+ Fällt auf nachfolgende Instance-Typen zurück, wenn die Kapazität nicht verfügbar ist
+ Beendet beim Herunterskalieren zuerst Instances des Instance-Typs mit der niedrigsten Priorität

**Anmerkung**  
Flexible Instanzgruppen sind nur für Cluster mit der Einstellung auf verfügbar. `NodeProvisioningMode` `Continuous` Die `InstanceRequirements` Eigenschaften `InstanceType` und schließen sich gegenseitig aus. Sie können die eine oder die andere angeben, aber nicht beide.

### Erstellen Sie einen Cluster mit einer flexiblen Instanzgruppe
<a name="sagemaker-hyperpod-scaling-eks-flexible-ig-create"></a>

Verwenden Sie `InstanceRequirements` statt`InstanceType`, um eine flexible Instanzgruppe zu erstellen. Die Reihenfolge der Instanztypen in der Liste bestimmt die Priorität der Bereitstellung.

```
aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET_AZ1'", "'$SUBNET_AZ2'"]
}' \
--instance-groups '[{
   "InstanceGroupName": "flexible-ig",
   "InstanceRequirements": {
      "InstanceTypes": ["ml.p5.48xlarge", "ml.p4d.24xlarge", "ml.g6.48xlarge"]
   },
   "InstanceCount": 10,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}]' \
--node-provisioning-mode Continuous
```

### Gezielte Skalierung mit BatchAddClusterNodes
<a name="sagemaker-hyperpod-scaling-eks-flexible-ig-targeted"></a>

Wenn Sie flexible Instanzgruppen verwenden, können Sie [BatchAddClusterNodes](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_BatchAddClusterNodes.html)sie verwenden, um Knoten mit bestimmten Instanztypen und Verfügbarkeitszonen hinzuzufügen. Dies ist besonders nützlich, wenn Karpenter Autoscaling den optimalen Instanztyp und die optimale Verfügbarkeitszone für Ihren Workload bestimmt.

```
aws sagemaker batch-add-cluster-nodes \
--cluster-name $HP_CLUSTER_NAME \
--nodes-to-add '[
   {
      "InstanceGroupName": "flexible-ig",
      "IncrementTargetCountBy": 1,
      "InstanceTypes": ["ml.p5.48xlarge"],
      "AvailabilityZones": ["us-west-2a"]
   }
]'
```

### Details zur flexiblen Instanzgruppe anzeigen
<a name="sagemaker-hyperpod-scaling-eks-flexible-ig-describe"></a>

Verwenden Sie diese [DescribeCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeCluster.html)Option, um die Instanztypen und die Aufschlüsselung Ihrer flexiblen Instanzgruppe nach Typ anzuzeigen. Die Antwort enthält:
+ `InstanceRequirements`— Die aktuellen und gewünschten Instance-Typen für die Instanzgruppe
+ `InstanceTypeDetails`— Eine Aufschlüsselung pro Instanztyp, die die Anzahl und Konfiguration der einzelnen Instanztypen in der Gruppe zeigt

### Verwendung flexibler Instanzgruppen mit Karpenter-Autoscaling
<a name="sagemaker-hyperpod-scaling-eks-flexible-ig-autoscaling"></a>

Flexible Instanzgruppen lassen sich in das verwaltete HyperPod Karpenter-Autoscaling integrieren. Weitere Informationen zur Einrichtung von Karpenter finden Sie unter. [Autoscaling auf EKS SageMaker HyperPod](sagemaker-hyperpod-eks-autoscaling.md) Wenn Sie in einer `HyperPodNodeClass` Konfiguration auf eine flexible Instanzgruppe verweisen, geht Karpenter automatisch wie folgt vor:
+ Erkennt die unterstützten Instanztypen aus der flexiblen Instanzgruppe
+ Wählt den optimalen Instanztyp und die optimale Verfügbarkeitszone auf der Grundlage der Pod-Anforderungen und der Preisgestaltung aus
+ Skaliert die flexible Instanzgruppe mithilfe gezielter `BatchAddClusterNodes` Aufrufe anhand des ausgewählten Instanztyps und der Availability Zone

**Anmerkung**  
Wenn Karpenter die Skalierung verwaltet, verwendet es seine eigene Auswahllogik, die auf den Pod-Anforderungen und Preisen basiert, um zu bestimmen, welcher Instance-Typ bereitgestellt werden soll. Dies unterscheidet sich von der Priorität in der Listenreihenfolge, die bei HyperPod der systemeigenen Bereitstellung verwendet wird (z. B. `CreateCluster` und`UpdateCluster`), bei der der erste Instanztyp in der Liste immer zuerst versucht wird.

Dadurch entfällt die Notwendigkeit, separate Instanzgruppen für jeden Instanztyp zu erstellen und Karpenter manuell so zu konfigurieren, dass es auf mehrere Gruppen verweist.