Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole

Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Slurm über die Benutzeroberfläche der SageMaker AI-Konsole einrichten. Im Anschluss an das Tutorial erstellen Sie einen HyperPod Cluster mit drei Slurm-Knoten, my-controller-groupmy-login-group, und. worker-group-1

Cluster erstellen

Gehen Sie wie folgt vor, um zur SageMaker HyperPod Cluster-Seite zu navigieren und Slurm-Orchestrierung auszuwählen.

  1. Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.

  3. Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.

  4. Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Slurm aus.

  5. Auf der Seite zur Erstellung von Slurm-Clustern sehen Sie zwei Optionen. Wählen Sie die Option, die Ihren Bedürfnissen am besten entspricht.

    1. Schnelle Einrichtung — Um sofort mit den Standardeinstellungen zu beginnen, wählen Sie Schnelleinrichtung. Mit dieser Option erstellt SageMaker KI bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.

    2. Benutzerdefiniertes Setup — Wählen Sie Benutzerdefiniertes Setup, wenn Sie eine Integration mit vorhandenen AWS Ressourcen vornehmen möchten oder spezielle Netzwerk-, Sicherheits- oder Speicheranforderungen haben möchten. Mit dieser Option können Sie wählen, ob Sie die vorhandenen Ressourcen verwenden oder neue erstellen möchten, und Sie können die Konfiguration so anpassen, dass sie Ihren Anforderungen am besten entspricht.

Quick Setup

Folgen Sie im Abschnitt Schnellinstallation diesen Schritten, um Ihren HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.

Geben Sie einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

Um eine Instanzgruppe hinzuzufügen, wählen Sie Gruppe hinzufügen. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instanzgruppe hinzufügen.

Wichtig

Sie können jeweils eine Instanzgruppe hinzufügen. Um mehrere Instanzgruppen zu erstellen, wiederholen Sie den Vorgang für jede Instanzgruppe.

Gehen Sie wie folgt vor, um eine Instanzgruppe hinzuzufügen.

  1. Wählen Sie unter Instanzgruppentyp einen Typ für Ihre Instanzgruppe aus. Wählen Sie für dieses Tutorial Controller (Head) formy-controller-group, Login for my-login-group und Compute (Worker) forworker-group-1.

  2. Geben Sie unter Name einen Namen für die Instanzgruppe an. Erstellen Sie für dieses Tutorial drei Instanzgruppen mit den Namen my-controller-groupmy-login-group, undworker-group-1.

  3. Wählen Sie für Instance-Kapazität entweder On-Demand-Kapazität oder einen Schulungsplan, um Ihre Rechenressourcen zu reservieren.

  4. Wählen Sie unter Instanztyp die Instanz für die Instanzgruppe aus. Wählen Sie für dieses Tutorial ml.c5.xlarge für my-controller-groupmy-login-group, ml.m5.4xlarge für und ml.trn1.32xlarge für ausworker-group-1.

    Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.

  5. Geben Sie für Instance-Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für dieses Tutorial 1 für alle drei Gruppen ein.

  6. Wählen Sie für Target Availability Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.

  7. Geben Sie für Zusätzliches Speichervolumen pro Instanz (GB) — optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet. /opt/sagemaker Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen. df -h Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben.

  8. Wählen Sie Instance-Gruppe hinzufügen.

In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden. Überprüfen Sie die Standardeinstellungen.

Benutzerdefiniertes Setup

Gehen Sie im Abschnitt Benutzerdefiniertes Setup wie folgt vor, um Ihren HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.

Geben Sie einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

Wählen Sie für Instanzwiederherstellung Automatisch — empfohlen oder Keine.

Konfigurieren Sie Ihre Netzwerkeinstellungen für die Clustererstellung. Diese Einstellungen können nach der Erstellung des Clusters nicht geändert werden.

  1. Wählen Sie für VPC Ihre eigene VPC aus, falls Sie bereits eine haben, die SageMaker KI Zugriff auf Ihre VPC gewährt. Um eine neue VPC zu erstellen, folgen Sie den Anweisungen unter Erstellen einer VPC im Amazon Virtual Private Cloud Cloud-Benutzerhandbuch. Sie können es auf None belassen, um die standardmäßige SageMaker KI-VPC zu verwenden.

  2. Geben Sie für den VPC IPv4 CIDR-Block die Start-IP Ihrer VPC ein.

  3. Wählen Sie für Availability Zones die Availability Zones (AZ) aus, in denen Subnetze für HyperPod Ihren Cluster erstellt werden sollen. Wählen Sie AZs diese aus, die dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.

  4. Erstellen Sie für Sicherheitsgruppen eine Sicherheitsgruppe oder wählen Sie bis zu fünf Sicherheitsgruppen aus, die mit Regeln konfiguriert sind, um die Kommunikation zwischen Ressourcen innerhalb der VPC zu ermöglichen.

Um eine Instanzgruppe hinzuzufügen, wählen Sie Gruppe hinzufügen. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instanzgruppe hinzufügen.

Wichtig

Sie können jeweils eine Instanzgruppe hinzufügen. Um mehrere Instanzgruppen zu erstellen, wiederholen Sie den Vorgang für jede Instanzgruppe.

Gehen Sie wie folgt vor, um eine Instanzgruppe hinzuzufügen.

  1. Wählen Sie unter Instanzgruppentyp einen Typ für Ihre Instanzgruppe aus. Wählen Sie für dieses Tutorial Controller (Head) formy-controller-group, Login for my-login-group und Compute (Worker) forworker-group-1.

  2. Geben Sie unter Name einen Namen für die Instanzgruppe an. Erstellen Sie für dieses Tutorial drei Instanzgruppen mit den Namen my-controller-groupmy-login-group, undworker-group-1.

  3. Wählen Sie für Instance-Kapazität entweder On-Demand-Kapazität oder einen Schulungsplan, um Ihre Rechenressourcen zu reservieren.

  4. Wählen Sie unter Instanztyp die Instanz für die Instanzgruppe aus. Wählen Sie für dieses Tutorial ml.c5.xlarge für my-controller-groupmy-login-group, ml.m5.4xlarge für und ml.trn1.32xlarge für ausworker-group-1.

    Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.

  5. Geben Sie für Instance-Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für dieses Tutorial 1 für alle drei Gruppen ein.

  6. Wählen Sie für Target Availability Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.

  7. Geben Sie für Zusätzliches Speichervolumen pro Instanz (GB) — optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet. /opt/sagemaker Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen. df -h Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben.

  8. Wählen Sie Instance-Gruppe hinzufügen.

Sie können wählen, ob Sie die standardmäßigen Lebenszyklusskripts oder die benutzerdefinierten Lebenszyklusskripts verwenden möchten, die in Ihrem Amazon S3 S3-Bucket gespeichert werden. Sie können die standardmäßigen Lebenszyklusskripte im Awesome Distributed GitHub Training-Repository einsehen. Weitere Informationen zu den Lifecycle-Skripten finden Sie unterAnpassen von SageMaker HyperPod Clustern mithilfe von Lebenszyklusskripten.

  1. Wählen Sie für Lifecycle-Skripten, ob Sie standardmäßige oder benutzerdefinierte Lifecycle-Skripten verwenden möchten.

  2. Wählen Sie für den S3-Bucket für Lifecycle-Skripten aus, ob Sie einen neuen Bucket erstellen oder einen vorhandenen Bucket zum Speichern der Lifecycle-Skripten verwenden möchten.

Wählen oder erstellen Sie eine IAM-Rolle, mit der Sie die erforderlichen AWS Ressourcen in Ihrem Namen ausführen und darauf zugreifen können HyperPod .

Konfigurieren Sie das FSx for Lustre-Dateisystem, das auf dem Cluster bereitgestellt werden soll. HyperPod

  1. Wählen Sie für Dateisystem ein vorhandenes FSx for Lustre-Dateisystem aus, um ein neues FSx for Lustre-Dateisystem zu erstellen, oder stellen Sie kein FSx for Lustre-Dateisystem bereit.

  2. Wählen Sie für Durchsatz pro Speichereinheit den Durchsatz aus, der pro TiB bereitgestellten Speichers verfügbar sein soll.

  3. Geben Sie für Speicherkapazität einen Kapazitätswert in TB ein.

  4. Wählen Sie als Datenkomprimierungstyp LZ4die Option Datenkomprimierung aktivieren.

  5. Sehen Sie sich für die Lustre-Version den Wert an, der für die neuen Dateisysteme empfohlen wird.

Fügen Sie für Tags — optional Schlüssel- und Wertepaare zum neuen Cluster hinzu und verwalten Sie den Cluster als AWS Ressource. Weitere Informationen finden Sie unter Taggen Ihrer AWS Ressourcen.

Bereitstellen von Ressourcen

Nachdem Sie die Clusterkonfigurationen entweder mit der Schnellinstallation oder der benutzerdefinierten Konfiguration abgeschlossen haben, wählen Sie die folgende Option, um mit der Ressourcenbereitstellung und Clustererstellung zu beginnen.

  • Absenden — SageMaker AI beginnt mit der Bereitstellung der Standardkonfigurationsressourcen und der Erstellung des Clusters.

  • CloudFormation Vorlagenparameter herunterladen — Sie laden die JSON-Datei mit den Konfigurationsparametern herunter und führen einen AWS CLI Befehl aus, um den CloudFormation Stack bereitzustellen, um die Konfigurationsressourcen bereitzustellen und den Cluster zu erstellen. Sie können die heruntergeladene Parameter-JSON-Datei bei Bedarf bearbeiten. Wenn Sie diese Option wählen, finden Sie weitere Anweisungen unter SageMaker HyperPod Cluster mithilfe von Vorlagen erstellen AWS CloudFormation.

Löschen Sie den Cluster und bereinigen Sie die Ressourcen

Nachdem Sie die Erstellung eines SageMaker HyperPod Clusters erfolgreich getestet haben, läuft er im InService Status weiter, bis Sie den Cluster löschen. Wir empfehlen, dass Sie alle Cluster löschen, die mit On-Demand-AI-Instances SageMaker erstellt wurden, wenn sie nicht verwendet werden, um zu vermeiden, dass weitere Servicegebühren auf der Grundlage von On-Demand-Preisen anfallen. In diesem Tutorial haben Sie einen Cluster erstellt, der aus zwei Instanzgruppen besteht. Eine davon verwendet eine C5-Instance. Stellen Sie also sicher, dass Sie den Cluster löschen, indem Sie den Anweisungen unter Löschen Sie einen SageMaker HyperPod Cluster folgen.

Wenn Sie jedoch einen Cluster mit reservierter Rechenkapazität erstellt haben, hat der Status der Cluster keinen Einfluss auf die Serviceabrechnung.

Um die Lebenszyklusskripts aus dem für dieses Tutorial verwendeten S3-Bucket zu bereinigen, wechseln Sie zu dem S3-Bucket, den Sie bei der Clustererstellung verwendet haben, und entfernen Sie die Dateien vollständig.

Wenn Sie die Ausführung von Workloads auf dem Cluster getestet haben, vergewissern Sie sich, ob Sie Daten hochgeladen haben oder ob Ihr Job Artefakte in verschiedenen S3-Buckets oder Dateisystemdiensten wie Amazon FSx for Lustre und Amazon Elastic File System gespeichert hat. Um Gebühren zu vermeiden, löschen Sie alle Artefakte und Daten aus dem Speicher- oder Dateisystem.