Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Amazon-Schnellstart
Dieser Schnellstart führt Sie durch die Erstellung Ihres ersten HyperPod Clusters mit Slurm- und Amazon EKS (EKS) -Orchestrierungen. Wählen Sie zunächst die Orchestrierung, die am besten zu Ihren Infrastrukturanforderungen passt. SageMaker HyperPod
In diesem Thema:
Erstellen Sie einen SLURM-orchestrierten Cluster SageMaker HyperPod
Folgen Sie diesen Schritten, um Ihren ersten SageMaker HyperPod Cluster mit Slurm-Orchestrierung zu erstellen.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.
-
Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Slurm aus.
-
Wählen Sie auf der Seite zur Clustererstellung die Option Quick Setup aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker KI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.
-
Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
-
Wählen Sie unter Instance-Gruppen die Option Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.
Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.
-
Wählen Sie unter Instance-Gruppentyp einen Typ für die Instance-Gruppe aus. Wählen Sie für diesen Schnellstart Controller (Head) für
my-controller-group, Login fürmy-login-groupund Compute (Worker) fürworker-group-1aus. -
Geben Sie unter Name einen Namen für die Instance-Gruppe an. Erstellen Sie für diesen Schnellstart drei Instance-Gruppen mit den Namen
my-controller-group,my-login-groupundworker-group-1. -
Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.
-
Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Wählen Sie für diesen Schnellstart
ml.c5.xlargefürmy-controller-group,ml.m5.4xlargefürmy-login-groupundml.trn1.32xlargefürworker-group-1aus.Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto auswählen, oder fordern Sie zusätzliche Kontingente an, indem Sie den Anweisungen unter SageMaker HyperPod Kontingente folgen.
-
Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für diesen Schnellstart 1 für alle drei Gruppen ein.
-
Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.
-
Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist
/opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie dendf -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben. -
Wählen Sie Instance-Gruppe hinzufügen aus.
-
-
Überprüfen Sie unter Standardwerte für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für Ihre Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden.
-
Wählen Sie Absenden aus.
Weitere Informationen finden Sie unter Erste Schritte mit der SageMaker HyperPod Verwendung der SageMaker KI-Konsole.
Erstellen Sie einen EKS-orchestrierten Cluster SageMaker HyperPod
Gehen Sie wie folgt vor, um Ihren ersten SageMaker HyperPod Cluster mit Amazon EKS-Orchestrierung zu erstellen.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.
-
Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Amazon EKS aus.
-
Wählen Sie auf der Seite zur Clustererstellung die Option Schnellkonfiguration aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker KI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.
-
Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
-
Wählen Sie unter Instance-Gruppen die Option Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.
Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.
-
Wählen Sie als Instance-Gruppentyp Standard oder Restricted Instance Group (RIG) aus. Normalerweise wählen Sie Standard, denn es bietet eine allgemeine Datenverarbeitungsumgebung ohne zusätzliche Sicherheitseinschränkungen. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung von Grundlagenmodellen wie Amazon Nova. Weitere Informationen zum Einrichten von RIG für die Anpassung des Amazon-Nova-Modells finden Sie unter Amazon Nova-Anpassung bei Amazon SageMaker HyperPod.
-
Geben Sie unter Name einen Namen für die Instance-Gruppe an.
-
Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.
-
Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto auswählen, oder fordern Sie zusätzliche Kontingente an, indem Sie den Anweisungen unter SageMaker HyperPod Kontingente folgen.
-
Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für diesen Schnellstart 1 für alle drei Gruppen ein.
-
Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.
-
Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist
/opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie dendf -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben. -
Wählen Sie unter Detaillierte Instance-Zustandsprüfungen die gewünschte Option aus. Detaillierte Zustandsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instances automatisch durch Neustarts oder Austausch, sofern aktiviert, wieder her.
-
Wählen Sie Instance-Gruppe hinzufügen aus.
-
-
Überprüfen Sie unter Standardwerte für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für Ihre Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden.
-
Wählen Sie Absenden aus.
Weitere Informationen finden Sie unter Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung.
Übermitteln von Workloads
Folgen Sie diesen Workshop-Tutorials, um Beispiel-Workloads zu übermitteln.