Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung
Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Amazon EKS-Orchestrierung über die Benutzeroberfläche der SageMaker KI-Konsole einrichten.
In diesem Thema:
Cluster erstellen
Gehen Sie wie folgt vor, um zur SageMaker HyperPod Cluster-Seite zu navigieren und Amazon EKS-Orchestration auszuwählen.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.
-
Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Amazon EKS aus.
-
Auf der Seite zur Erstellung eines EKS-Clusters sehen Sie zwei Optionen. Wählen Sie die Option aus, die Ihren Anforderungen am besten entspricht.
-
Quick Setup: Um sofort mit den Standardeinstellungen zu beginnen, wählen Sie Quick Setup aus. Mit dieser Option erstellt SageMaker KI bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.
-
Benutzerdefinierte Einrichtung: Um eine Integration mit vorhandenen Ressourcen vorzunehmen oder bestimmte Anforderungen hinsichtlich Netzwerk, Sicherheit oder Speicher zu erfüllen, wählen Sie Benutzerdefinierte Einrichtung aus. Mit dieser Option können Sie wählen, ob Sie die vorhandenen Ressourcen verwenden oder neue erstellen möchten, und Sie können die Konfiguration an Ihre Bedürfnisse anpassen.
-
Gehen Sie im Abschnitt Schnelleinrichtung wie folgt vor, um Ihren HyperPod Cluster mit Amazon EKS-Orchestrierung zu erstellen.
Allgemeine Einstellungen
Geben Sie einen Namen für den neuen Cluster ein. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
Instance-Gruppen
Um eine Instance-Gruppe hinzuzufügen, wählen Sie Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.
-
Wählen Sie als Instance-Gruppentyp Standard oder Restricted Instance Group (RIG) aus. Normalerweise wählen Sie Standard, denn es bietet eine allgemeine Datenverarbeitungsumgebung ohne zusätzliche Sicherheitseinschränkungen. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung von Grundlagenmodellen wie Amazon Nova. Weitere Informationen zum Einrichten von RIG für die Anpassung des Amazon-Nova-Modells finden Sie unter Amazon Nova-Anpassung bei Amazon SageMaker HyperPod.
-
Geben Sie unter Name einen Namen für die Instance-Gruppe an.
-
Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.
-
Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus.
Wichtig
Stellen Sie sicher, dass Sie einen Instance-Typ mit ausreichenden Kontingenten und ausreichend nicht zugewiesenen IP-Adressen für Ihr Konto auswählen. Informationen zum Anzeigen oder Anfordern zusätzlicher Kontingente finden Sie unter SageMaker HyperPod Kontingente.
-
Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Für dieses Tutorial geben Sie 1 für alle drei Gruppen ein.
-
Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.
-
Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist
/opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie dendf -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben. -
Wählen Sie unter Detaillierte Instance-Zustandsprüfungen die gewünschte Option aus. Detaillierte Zustandsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instances automatisch durch Neustarts oder Austausch, sofern aktiviert, wieder her.
-
Wenn Ihr Instance-Typ die GPU-Partitionierung mit Multi-Instance-GPU (MIG) unterstützt, können Sie die GPU-Partitionskonfiguration für die Instance-Gruppe aktivieren. Die GPU-Partitionierung ermöglicht Ihnen die GPUs Aufteilung in kleinere, isolierte Partitionen, um die Ressourcennutzung zu verbessern. Weitere Informationen finden Sie unter Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod.
-
Aktivieren Sie die Option GPU-Partitionierung verwenden, um die GPU-Partitionierung für diese Instanzgruppe zu aktivieren.
-
Wählen Sie ein GPU-Partitionsprofil aus den verfügbaren Optionen für Ihren Instanztyp aus. Jedes Profil definiert die GPU-Slice-Konfiguration und die Speicherzuweisung.
-
-
Wählen Sie Instance-Gruppe hinzufügen aus.
Quick Setup – Standardwerte
In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden. Überprüfen Sie die Standardeinstellungen.
Gehen Sie im Abschnitt Benutzerdefiniertes Setup wie folgt vor, um Ihren ersten HyperPod Cluster mit Amazon EKS-Orchestrierung zu erstellen.
Allgemeine Einstellungen
Geben Sie einen Namen für den neuen Cluster ein. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
Wählen Sie für die Instance-Wiederherstellung Automatisch – empfohlen oder Keine.
Netzwerk
Konfigurieren Sie die Netzwerkeinstellungen innerhalb des Clusters und in-and-out des Clusters. Für die Orchestrierung des SageMaker HyperPod Clusters mit Amazon EKS wird die VPC automatisch auf die VPC eingestellt, die mit dem von Ihnen ausgewählten EKS-Cluster konfiguriert wurde.
-
Wählen Sie für VPC Ihre eigene VPC aus, falls Sie bereits eine haben, die SageMaker KI Zugriff auf Ihre VPC gewährt. Um eine neue VPC zu erstellen, folgen Sie den Anweisungen unter Erstellen einer VPC im Benutzerhandbuch für Amazon Virtual Private Cloud. Sie können es auf None belassen, um die standardmäßige SageMaker KI-VPC zu verwenden.
-
Geben Sie für den VPC IPv4 CIDR-Block die Start-IP Ihrer VPC ein.
-
Wählen Sie für Availability Zones die Availability Zones (AZ) aus, in denen Subnetze für HyperPod Ihren Cluster erstellt werden sollen. Wählen Sie AZs diese aus, die dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.
-
Wählen Sie für Sicherheitsgruppe(n) Sicherheitsgruppen aus, die entweder mit dem Amazon-EKS-Cluster verbunden sind oder deren eingehender Datenverkehr von der mit dem Amazon-EKS-Cluster verbundenen Sicherheitsgruppe zugelassen wird. Um neue Sicherheitsgruppen zu erstellen, öffnen Sie die Amazon-VPC-Konsole.
Orchestrierung
Gehen Sie wie folgt vor, um einen Amazon-EKS-Cluster zu erstellen oder auszuwählen, der als Orchestrator verwendet werden soll.
-
Für den EKS-Cluster haben Sie die Wahl, entweder einen neuen Amazon-EKS-Cluster zu erstellen oder einen bestehenden zu verwenden.
Wenn Sie einen neuen EKS-Cluster erstellen müssen, können Sie ihn im EKS-Cluster-Bereich erstellen, ohne die Amazon-EKS-Konsole öffnen zu müssen.
Anmerkung
Das VPC-Subnetz, für das Sie sich entscheiden, HyperPod muss privat sein.
Nachdem Sie eine neue Anfrage zur Erstellung eines EKS-Clusters eingereicht haben, warten Sie, bis der EKS-Cluster
Activewird. -
Wählen Sie für die Kubernetes-Version eine Version aus dem Dropdown-Menü aus. Weitere Informationen zu Kubernetes-Versionen finden Sie unter Verständnis des Kubernetes-Versionslebenszyklus auf EKS im Benutzerhandbuch für Amazon EKS.
-
Wählen Sie für Operatoren die Option Standard-Helm-Charts und -Add-ons verwenden oder Keine Operatoren installieren aus. Die Option ist standardmäßig auf Standard-Helm-Charts und -Add-ons verwenden eingestellt, die zur Installation von Operatoren auf dem EKS-Cluster verwendet werden. Weitere Informationen zu den standardmäßigen Helm-Charts und -Add-Ons finden Sie im
helm_chartGitHubRepository. Weitere Informationen finden Sie unter Installation von Paketen auf dem Amazon-EKS-Cluster mit Helm. -
Informationen zu aktivierten Operatoren finden Sie in der Liste der aktivierten Operatoren. Um die Operatoren zu bearbeiten, deaktivieren Sie das Kontrollkästchen oben und wählen Sie Operatoren aus, die für den EKS-Cluster aktiviert werden sollen.
Anmerkung
Für die Verwendung HyperPod mit EKS müssen Sie Helm-Diagramme und Add-Ons installieren, die Operatoren auf dem EKS-Cluster aktivieren. Diese Komponenten konfigurieren EKS als Steuerungsebene für das Workload-Management HyperPod und die Orchestrierung und bieten das erforderliche Setup dafür.
Instance-Gruppen
Um eine Instance-Gruppe hinzuzufügen, wählen Sie Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.
-
Wählen Sie als Instance-Gruppentyp Standard oder Restricted Instance Group (RIG) aus. Normalerweise wählen Sie Standard, denn es bietet eine allgemeine Datenverarbeitungsumgebung ohne zusätzliche Sicherheitseinschränkungen. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung von Grundlagenmodellen wie Amazon Nova. Weitere Informationen zum Einrichten von RIG für die Anpassung des Amazon-Nova-Modells finden Sie unter Amazon Nova-Anpassung bei Amazon SageMaker HyperPod.
-
Geben Sie unter Name einen Namen für die Instance-Gruppe an.
-
Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.
-
Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus.
Wichtig
Stellen Sie sicher, dass Sie einen Instance-Typ mit ausreichenden Kontingenten und ausreichend nicht zugewiesenen IP-Adressen für Ihr Konto auswählen. Informationen zum Anzeigen oder Anfordern zusätzlicher Kontingente finden Sie unter SageMaker HyperPod Kontingente.
-
Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Für dieses Tutorial geben Sie 1 für alle drei Gruppen ein.
-
Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.
-
Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16 384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angefügt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist
/opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie dendf -h-Befehl ausführen. Durch das Anfügen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben. -
Wählen Sie unter Detaillierte Instance-Zustandsprüfungen die gewünschte Option aus. Detaillierte Zustandsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instances automatisch durch Neustarts oder Austausch, sofern aktiviert, wieder her. Weitere Informationen hierzu finden Sie unter Tiefgreifende Zustandsprüfungen.
-
Wenn Ihr Instance-Typ die GPU-Partitionierung mit Multi-Instance-GPU (MIG) unterstützt, können Sie diese Option aktivieren, um das GPU-Partitionsprofil für die Instanzgruppe zu konfigurieren. Die GPU-Partitionierung ermöglicht Ihnen die GPUs Aufteilung in kleinere, isolierte Partitionen, um die Ressourcennutzung zu verbessern. Weitere Informationen finden Sie unter Verwenden von GPU-Partitionen in Amazon SageMaker HyperPod.
-
Aktivieren Sie die Option GPU-Partitionierung verwenden, um die GPU-Partitionierung für diese Instanzgruppe zu aktivieren.
-
Wählen Sie ein GPU-Partitionsprofil aus den verfügbaren Optionen für Ihren Instanztyp aus. Jedes Profil definiert die GPU-Slice-Konfiguration und die Speicherzuweisung.
-
-
Wählen Sie Instance-Gruppe hinzufügen aus.
Lebenszyklusskripte
Sie können zwischen den Standard-Lebenszyklusskripten und den benutzerdefinierten Lebenszyklusskripten wählen, die in Ihrem Amazon-S3-Bucket gespeichert werden. Sie können die standardmäßigen Lebenszyklusskripte im Awesome Distributed GitHub Training-Repository
-
Wählen Sie für Lebenszyklusskripte, ob Sie standardmäßige oder benutzerdefinierte Lebenszyklusskripte verwenden möchten.
-
Wählen Sie für S3-Bucket für Lebenszyklusskripte, ob Sie einen neuen Bucket erstellen oder einen vorhandenen Bucket zum Speichern der Lebenszyklusskripten verwenden möchten.
Berechtigungen
Wählen oder erstellen Sie eine IAM-Rolle, mit der Sie die erforderlichen AWS Ressourcen in Ihrem Namen ausführen und darauf zugreifen können HyperPod . Weitere Informationen finden Sie unter IAM-Rolle für SageMaker HyperPod.
Speicher
Konfigurieren Sie das FSx for Lustre-Dateisystem, das auf dem Cluster bereitgestellt werden soll. HyperPod
-
Wählen Sie für Dateisystem ein vorhandenes FSx for Lustre-Dateisystem aus, um ein neues FSx for Lustre-Dateisystem zu erstellen, oder stellen Sie kein FSx for Lustre-Dateisystem bereit.
-
Wählen Sie für Durchsatz pro Speichereinheit den Durchsatz aus, der pro TiB bereitgestellten Speichers verfügbar sein soll.
-
Geben Sie für Speicherkapazität einen Kapazitätswert in TB ein.
-
Wählen Sie als Datenkomprimierungstyp die Option LZ4Datenkomprimierung aktivieren.
-
Sehen Sie sich für die Lustre-Version den Wert an, der für die neuen Dateisysteme empfohlen wird.
Tags – optional
Fügen Sie unter Tags — optional Schlüssel- und Wertepaare zum neuen Cluster hinzu und verwalten Sie den Cluster als AWS Ressource. Weitere Informationen finden Sie unter Markieren Ihrer AWS-Ressourcen.
Bereitstellen von Ressourcen
Nachdem Sie die Clusterkonfigurationen entweder mit Quick Setup oder Benutzerdefinierte Einrichtung abgeschlossen haben, wählen Sie die folgende Option aus, um mit der Ressourcenbereitstellung und Clustererstellung zu beginnen.
-
Absenden — SageMaker KI beginnt mit der Bereitstellung der Standardkonfigurationsressourcen und der Erstellung des Clusters.
-
CloudFormation Vorlagenparameter herunterladen — Sie laden die JSON-Datei mit den Konfigurationsparametern herunter und führen einen AWS CLI Befehl aus, um den CloudFormation Stack bereitzustellen, um die Konfigurationsressourcen bereitzustellen und den Cluster zu erstellen. Sie können die heruntergeladene Parameter-JSON-Datei bei Bedarf bearbeiten. Wenn Sie diese Option auswählen, finden Sie weitere Anweisungen unter SageMaker HyperPod Cluster mithilfe von CloudFormation Vorlagen erstellen.