Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole
<a name="smcluster-getting-started-slurm-console"></a>

Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Slurm über die Benutzeroberfläche der SageMaker AI-Konsole einrichten. Im Anschluss an das Tutorial erstellen Sie einen HyperPod Cluster mit drei Slurm-Knoten, `my-controller-group``my-login-group`, und. `worker-group-1`

**Topics**
+ [Cluster erstellen](#smcluster-getting-started-slurm-console-create-cluster-page)
+ [Bereitstellen von Ressourcen](#smcluster-getting-started-slurm-console-create-cluster-deploy)
+ [Löschen des Clusters und Bereinigen der Ressourcen](#smcluster-getting-started-slurm-console-delete-cluster-and-clean)

## Cluster erstellen
<a name="smcluster-getting-started-slurm-console-create-cluster-page"></a>

Gehen Sie wie folgt vor, um zur **SageMaker HyperPod Cluster-Seite** zu navigieren **und Slurm-Orchestration** auszuwählen.

1. Öffnen Sie die Amazon SageMaker AI-Konsole unter [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Wählen Sie im linken Navigationsbereich **HyperPod Clusters** und dann **Cluster Management** aus.

1. Wählen Sie auf der Seite **SageMaker HyperPod Cluster** die Option ** HyperPod Cluster erstellen** aus. 

1. Wählen **Sie im Drop-down-Menü HyperPod Cluster erstellen** die Option **Orchestrated by Slurm aus**.

1. Auf der Seite zur Erstellung eines Slurm-Clusters sehen Sie zwei Optionen. Wählen Sie die Option aus, die Ihren Bedürfnissen am besten entspricht.

   1. **Quick Setup**: Um sofort mit den Standardeinstellungen zu beginnen, wählen Sie **Quick Setup** aus. Mit dieser Option erstellt SageMaker KI bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.

   1. **Benutzerdefinierte Einrichtung**: Um eine Integration mit vorhandenen Ressourcen vorzunehmen oder bestimmte Anforderungen hinsichtlich Netzwerk, Sicherheit oder Speicher zu erfüllen, wählen Sie **Benutzerdefinierte Einrichtung** aus. Mit dieser Option können Sie wählen, ob Sie die vorhandenen Ressourcen verwenden oder neue erstellen möchten, und Sie können die Konfiguration an Ihre Bedürfnisse anpassen.

## Quick Setup
<a name="smcluster-getting-started-slurm-console-create-cluster-default"></a>

Folgen Sie im Abschnitt **Schnelleinrichtung** diesen Schritten, um Ihren HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.

### Allgemeine Einstellungen
<a name="smcluster-getting-started-slurm-console-create-cluster-default-general"></a>

Geben Sie einen Namen für den neuen Cluster ein. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

### Instance-Gruppen
<a name="smcluster-getting-started-slurm-console-create-cluster-default-instance-groups"></a>

Um eine Instance-Gruppe hinzuzufügen, wählen Sie **Gruppe hinzufügen** aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe für die Gruppentypen „Controller“ und „Compute“ hinzufügen.

**Wichtig**  
Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

1. Wählen Sie unter **Instance-Gruppentyp** einen Typ für die Instance-Gruppe aus. Für dieses Tutorial wählen Sie **Controller (Head)** für `my-controller-group`, **Login** für `my-login-group` und **Compute (Worker)** für `worker-group-1` aus.

1. Geben Sie unter **Name** einen Namen für die Instance-Gruppe an. Für dieses Tutorial erstellen Sie drei Instance-Gruppen mit den Namen `my-controller-group`, `my-login-group` und `worker-group-1`.

1.  Wählen Sie als **Instance-Kapazität** entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

1. Wählen Sie unter **Instance-Typ** die Instance für die Instance-Gruppe aus. Wählen Sie für dieses Tutorial `ml.c5.xlarge` für `my-controller-group`, `ml.m5.4xlarge` für `my-login-group` und `ml.trn1.32xlarge` für `worker-group-1`. 
**Wichtig**  
Stellen Sie sicher, dass Sie einen Instance-Typ mit ausreichenden Kontingenten und ausreichend nicht zugewiesenen IP-Adressen für Ihr Konto auswählen. Informationen zum Anzeigen oder Anfordern zusätzlicher Kontingente finden Sie unter [SageMaker HyperPod Kontingente](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Geben Sie unter **Instance-Anzahl** eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Für dieses Tutorial geben Sie **1** für alle drei Gruppen ein.

1. Wählen Sie als **Ziel-Availability-Zone** die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

1. Geben Sie unter **Zusätzliches Speichervolumen pro Instance (GB) – optional** eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist `/opt/sagemaker`. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den `df -h`-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt [Amazon-EBS-Volumes](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) im *Benutzerhandbuch für Amazon Elastic Block Store* beschrieben.

1. Wählen Sie **Instance-Gruppe hinzufügen** aus.

### Quick Setup – Standardwerte
<a name="smcluster-getting-started-slurm-console-create-cluster-default-settings"></a>

In diesem Abschnitt sind alle Standardeinstellungen für Ihre Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während des Clustererstellungsprozesses erstellt werden. Überprüfen Sie die Standardeinstellungen.

## Benutzerdefinierte Einrichtung
<a name="smcluster-getting-started-slurm-console-create-cluster-custom"></a>

Gehen Sie im Abschnitt **Benutzerdefiniertes Setup** wie folgt vor, um Ihren HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.

### Allgemeine Einstellungen
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-general"></a>

Geben Sie einen Namen für den neuen Cluster ein. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

Wählen Sie für die **Instance-Wiederherstellung** **Automatisch – *empfohlen*** oder **Keine**.

### Netzwerk
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-network"></a>

Konfigurieren Sie Ihre Netzwerkeinstellungen für die Clustererstellung. Nachdem der Cluster erstellt wurde, können diese Einstellungen nicht mehr geändert werden.

1. Wählen Sie für **VPC** Ihre eigene VPC aus, falls Sie bereits eine haben, die SageMaker KI Zugriff auf Ihre VPC gewährt. Um eine neue VPC zu erstellen, folgen Sie den Anweisungen unter [Erstellen einer VPC](https://docs.aws.amazon.com/vpc/latest/userguide/create-vpc.html) im *Benutzerhandbuch für Amazon Virtual Private Cloud*. Sie können es auf **None** belassen, um die standardmäßige SageMaker KI-VPC zu verwenden.

1. Geben Sie für den **VPC IPv4 CIDR-Block** die Start-IP Ihrer VPC ein.

1. Wählen Sie für **Availability Zones** die Availability Zones (AZ) aus, in denen Subnetze für HyperPod Ihren Cluster erstellt werden sollen. Wählen Sie AZs diese aus, die dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.

1. Erstellen Sie für **Sicherheitsgruppen** eine Sicherheitsgruppe oder wählen Sie bis zu fünf Sicherheitsgruppen aus, die mit Regeln konfiguriert sind, um die Kommunikation zwischen Ressourcen innerhalb der VPC zu ermöglichen.

### Instance-Gruppen
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-instance-groups"></a>

Um eine Instance-Gruppe hinzuzufügen, wählen Sie **Gruppe hinzufügen** aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen.

**Wichtig**  
Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

1. Wählen Sie unter **Instance-Gruppentyp** einen Typ für die Instance-Gruppe aus. Für dieses Tutorial wählen Sie **Controller (Head)** für `my-controller-group`, **Login** für `my-login-group` und **Compute (Worker)** für `worker-group-1` aus.

1. Geben Sie unter **Name** einen Namen für die Instance-Gruppe an. Für dieses Tutorial erstellen Sie drei Instance-Gruppen mit den Namen `my-controller-group`, `my-login-group` und `worker-group-1`.

1.  Wählen Sie als **Instance-Kapazität** entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

1. Wählen Sie unter **Instance-Typ** die Instance für die Instance-Gruppe aus. Wählen Sie für dieses Tutorial `ml.c5.xlarge` für `my-controller-group`, `ml.m5.4xlarge` für `my-login-group` und `ml.trn1.32xlarge` für `worker-group-1`. 
**Wichtig**  
Stellen Sie sicher, dass Sie einen Instance-Typ mit ausreichenden Kontingenten und ausreichend nicht zugewiesenen IP-Adressen für Ihr Konto auswählen. Informationen zum Anzeigen oder Anfordern zusätzlicher Kontingente finden Sie unter [SageMaker HyperPod Kontingente](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas).

1. Geben Sie unter **Instance-Anzahl** eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Für dieses Tutorial geben Sie **1** für alle drei Gruppen ein.

1. Wählen Sie als **Ziel-Availability-Zone** die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

1. Geben Sie unter **Zusätzliches Speichervolumen pro Instance (GB) – optional** eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist `/opt/sagemaker`. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den `df -h`-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt [Amazon-EBS-Volumes](https://docs.aws.amazon.com/ebs/latest/userguide/ebs-volumes.html) im *Benutzerhandbuch für Amazon Elastic Block Store* beschrieben.

1. Wählen Sie **Instance-Gruppe hinzufügen** aus.

### Lebenszyklusskripte
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-lifecycle"></a>

Sie können zwischen den Standard-Lebenszyklusskripten und den benutzerdefinierten Lebenszyklusskripten wählen, die in Ihrem Amazon-S3-Bucket gespeichert werden. Sie können die standardmäßigen Lebenszyklusskripte im [Awesome Distributed GitHub Training-Repository](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/7.sagemaker-hyperpod-eks/LifecycleScripts) einsehen. Weitere Informationen zu den Lebenszyklusskripten finden Sie unter [Anpassen von SageMaker HyperPod Clustern mithilfe von Lifecycle-Skripten](sagemaker-hyperpod-lifecycle-best-practices-slurm.md).

1. Wählen Sie für **Lebenszyklusskripte**, ob Sie standardmäßige oder benutzerdefinierte Lebenszyklusskripte verwenden möchten.

1. Wählen Sie für **S3-Bucket für Lebenszyklusskripte**, ob Sie einen neuen Bucket erstellen oder einen vorhandenen Bucket zum Speichern der Lebenszyklusskripten verwenden möchten.

### Berechtigungen
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-permissions"></a>

Wählen oder erstellen Sie eine IAM-Rolle, mit der Sie die erforderlichen AWS Ressourcen in Ihrem Namen ausführen und darauf zugreifen können HyperPod .

### Speicher
<a name="smcluster-getting-started-slurm-console-create-cluster-custom-storage"></a>

Konfigurieren Sie das FSx for Lustre-Dateisystem, das auf dem Cluster bereitgestellt werden soll. HyperPod 

1. Wählen Sie für **Dateisystem** ein vorhandenes FSx for Lustre-Dateisystem aus, um ein neues FSx for Lustre-Dateisystem zu erstellen, oder stellen Sie kein FSx for Lustre-Dateisystem bereit.

1. Wählen Sie für **Durchsatz pro Speichereinheit** den Durchsatz aus, der pro TiB bereitgestellten Speichers verfügbar sein soll.

1. Geben Sie für **Speicherkapazität** einen Kapazitätswert in TB ein.

1. Wählen Sie als **Datenkomprimierungstyp** die Option **LZ4**Datenkomprimierung aktivieren.

1. Sehen Sie sich für die **Lustre-Version** den Wert an, der für die neuen Dateisysteme empfohlen wird.

### Tags – optional
<a name="smcluster-getting-started-slurm-console-create-cluster-tags"></a>

Fügen Sie **unter Tags — *optional*** Schlüssel- und Wertepaare zum neuen Cluster hinzu und verwalten Sie den Cluster als AWS Ressource. Weitere Informationen finden Sie unter [Markieren Ihrer AWS -Ressourcen](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

## Bereitstellen von Ressourcen
<a name="smcluster-getting-started-slurm-console-create-cluster-deploy"></a>

Nachdem Sie die Clusterkonfigurationen entweder mit **Quick Setup** oder **Benutzerdefinierte Einrichtung** abgeschlossen haben, wählen Sie die folgende Option aus, um mit der Ressourcenbereitstellung und Clustererstellung zu beginnen.
+  **Absenden** — SageMaker KI beginnt mit der Bereitstellung der Standardkonfigurationsressourcen und der Erstellung des Clusters. 
+ ** CloudFormation Vorlagenparameter herunterladen** — Sie laden die JSON-Datei mit den Konfigurationsparametern herunter und führen einen AWS CLI Befehl aus, um den CloudFormation Stack bereitzustellen, um die Konfigurationsressourcen bereitzustellen und den Cluster zu erstellen. Sie können die heruntergeladene Parameter-JSON-Datei bei Bedarf bearbeiten. Wenn Sie diese Option auswählen, finden Sie weitere Anweisungen unter [Cluster mithilfe von Vorlagen erstellen SageMaker HyperPod CloudFormation](smcluster-getting-started-slurm-console-create-cluster-cfn.md).

## Löschen des Clusters und Bereinigen der Ressourcen
<a name="smcluster-getting-started-slurm-console-delete-cluster-and-clean"></a>

Nachdem Sie die Erstellung eines SageMaker HyperPod Clusters erfolgreich getestet haben, läuft er im `InService` Status weiter, bis Sie den Cluster löschen. Wir empfehlen, dass Sie alle Cluster löschen, die mit SageMaker On-Demand-AI-Instances erstellt wurden, wenn sie nicht verwendet werden, um zu vermeiden, dass weitere Servicegebühren aufgrund von On-Demand-Preisen anfallen. In diesem Tutorial haben Sie einen Cluster erstellt, der aus zwei Instance-Gruppen besteht. Eine davon verwendet eine C5-Instance. Stellen Sie also sicher, dass Sie den Cluster löschen, indem Sie den Anweisungen unter [Löschen Sie einen SageMaker HyperPod Cluster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-delete-cluster) folgen.

Wenn Sie jedoch einen Cluster mit reservierter Rechenkapazität erstellt haben, hat der Status der Cluster keinen Einfluss auf die Serviceabrechnung.

Um die Lebenszyklusskripte aus dem für dieses Tutorial verwendeten S3-Bucket zu bereinigen, wechseln Sie zu dem S3-Bucket, den Sie bei der Clustererstellung verwendet haben, und entfernen Sie die Dateien vollständig.

Wenn Sie die Ausführung von Workloads auf dem Cluster getestet haben, vergewissern Sie sich, ob Sie Daten hochgeladen haben oder ob Ihr Job Artefakte in verschiedenen S3-Buckets oder Dateisystemdiensten wie Amazon FSx for Lustre und Amazon Elastic File System gespeichert hat. Um Gebühren zu vermeiden, löschen Sie alle Artefakte und Daten aus dem Speicher- oder Dateisystem.