Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen eines SageMaker HyperPod Clusters mit Amazon EKS-Orchestrierung
Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Amazon EKS-Orchestrierung über die Benutzeroberfläche der SageMaker KI-Konsole einrichten.
Cluster erstellen
Gehen Sie wie folgt vor, um zur SageMaker HyperPod Cluster-Seite zu navigieren und Amazon EKS-Orchestration auszuwählen.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters und dann Cluster Management aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option HyperPod Cluster erstellen aus.
-
Wählen Sie im Drop-down-Menü HyperPod Cluster erstellen die Option Orchestrated by Amazon EKS aus.
-
Auf der Seite zur Erstellung des EKS-Clusters sehen Sie zwei Optionen. Wählen Sie die Option aus, die Ihren Anforderungen am besten entspricht.
-
Schnelle Einrichtung — Um sofort mit den Standardeinstellungen zu beginnen, wählen Sie Quick Setup. Mit dieser Option erstellt SageMaker KI bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon S3 S3-Bucket, IAM-Rolle und FSx für Lustre.
-
Benutzerdefiniertes Setup — Wählen Sie Benutzerdefiniertes Setup, wenn Sie eine Integration mit vorhandenen AWS Ressourcen vornehmen möchten oder spezielle Netzwerk-, Sicherheits- oder Speicheranforderungen haben möchten. Mit dieser Option können Sie wählen, ob Sie die vorhandenen Ressourcen verwenden oder neue erstellen möchten, und Sie können die Konfiguration so anpassen, dass sie Ihren Anforderungen am besten entspricht.
-
Quick Setup
Gehen Sie im Abschnitt Schnelleinrichtung wie folgt vor, um Ihren HyperPod Cluster mit Amazon EKS-Orchestrierung zu erstellen.
Geben Sie einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
Um eine Instanzgruppe hinzuzufügen, wählen Sie Gruppe hinzufügen. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instanzgruppe hinzufügen. Gehen Sie wie folgt vor, um eine Instanzgruppe hinzuzufügen.
-
Wählen Sie als Instanzgruppentyp Standard oder Eingeschränkte Instanzgruppe (RIG). In der Regel wählen Sie Standard, das eine Allzweck-Computerumgebung ohne zusätzliche Sicherheitseinschränkungen bietet. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung grundlegender Modelle wie Amazon Nova. Weitere Informationen zur Einrichtung von RIG für die Amazon Nova-Modellanpassung finden Sie unterAmazon Nova-Anpassung bei Amazon SageMaker HyperPod.
-
Geben Sie unter Name einen Namen für die Instanzgruppe an.
-
Wählen Sie zum Beispiel Instance-Kapazität entweder On-Demand-Kapazität oder einen Schulungsplan, um Ihre Rechenressourcen zu reservieren.
-
Wählen Sie unter Instanztyp die Instanz für die Instanzgruppe aus. Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.
-
Geben Sie für Instance-Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für dieses Tutorial 1 für alle drei Gruppen ein.
-
Wählen Sie für Target Availability Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.
-
Geben Sie für Zusätzliches Speichervolumen pro Instanz (GB) — optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet.
/opt/sagemaker
Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen.df -h
Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben. -
Wählen Sie Ihre Option, z. B. tiefgreifende Gesundheitschecks. Tiefgreifende Integritätsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instanzen automatisch durch Neustarts oder Austausch wieder her, sofern diese aktiviert sind.
-
Wählen Sie Instanzgruppe hinzufügen.
In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS Ressourcen, die während der Clustererstellung erstellt werden. Überprüfen Sie die Standardeinstellungen.
Benutzerdefiniertes Setup
Gehen Sie im Abschnitt Benutzerdefiniertes Setup wie folgt vor, um Ihren ersten HyperPod Cluster mit Amazon EKS-Orchestrierung zu erstellen.
Geben Sie einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.
Wählen Sie für Instanzwiederherstellung Automatisch — empfohlen oder Keine.
Konfigurieren Sie die Netzwerkeinstellungen innerhalb des Clusters und in-and-out des Clusters. Für die Orchestrierung des SageMaker HyperPod Clusters mit Amazon EKS wird die VPC automatisch auf die VPC eingestellt, die mit dem von Ihnen ausgewählten EKS-Cluster konfiguriert wurde.
-
Wählen Sie für VPC Ihre eigene VPC aus, falls Sie bereits eine haben, die SageMaker KI Zugriff auf Ihre VPC gewährt. Um eine neue VPC zu erstellen, folgen Sie den Anweisungen unter Erstellen einer VPC im Amazon Virtual Private Cloud Cloud-Benutzerhandbuch. Sie können es auf None belassen, um die standardmäßige SageMaker KI-VPC zu verwenden.
-
Geben Sie für den VPC IPv4 CIDR-Block die Start-IP Ihrer VPC ein.
-
Wählen Sie für Availability Zones die Availability Zones (AZ) aus, in denen Subnetze für HyperPod Ihren Cluster erstellt werden sollen. Wählen Sie AZs diese aus, die dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.
-
Wählen Sie für Sicherheitsgruppe (n) Sicherheitsgruppen aus, die entweder an den Amazon EKS-Cluster angehängt sind oder deren eingehender Datenverkehr von der Sicherheitsgruppe zugelassen wird, die dem Amazon EKS-Cluster zugeordnet ist. Gehen Sie zur Amazon VPC-Konsole, um neue Sicherheitsgruppen zu erstellen.
Gehen Sie wie folgt vor, um einen Amazon EKS-Cluster zu erstellen oder auszuwählen, der als Orchestrator verwendet werden soll.
-
Wählen Sie für EKS-Cluster entweder einen neuen Amazon EKS-Cluster erstellen oder einen vorhandenen verwenden.
Wenn Sie einen neuen EKS-Cluster erstellen müssen, können Sie ihn im EKS-Cluster-Bereich erstellen, ohne die Amazon EKS-Konsole öffnen zu müssen.
Anmerkung
Das VPC-Subnetz, für das Sie sich entscheiden, HyperPod muss privat sein.
Nachdem Sie eine neue Anfrage zur Erstellung eines EKS-Clusters eingereicht haben, warten Sie, bis der EKS-Cluster
Active
-
Wählen Sie für die Kubernetes-Version eine Version aus dem Drop-down-Menü aus. Weitere Informationen zu Kubernetes-Versionen finden Sie unter Understand the Kubernetes Version Lifecycle on EKS im Amazon EKS-Benutzerhandbuch.
-
Wählen Sie für Operatoren die Option Standard-Helm-Charts und -Add-Ons verwenden oder Keine Operatoren installieren. Die Option ist standardmäßig auf Standard-Helm-Diagramme und Add-Ons verwenden eingestellt, die zur Installation von Operatoren auf dem EKS-Cluster verwendet werden. Weitere Informationen zu den Standard-Helm-Charts und -Add-Ons finden Sie
helm_chart
im GitHub Repository. Weitere Informationen finden Sie unter Installation von Paketen auf dem Amazon EKS-Cluster mithilfe von Helm. -
Informationen zu aktivierten Operatoren finden Sie in der Liste der aktivierten Operatoren. Um die Operatoren zu bearbeiten, deaktivieren Sie das Kontrollkästchen oben und wählen Sie Operatoren aus, die für den EKS-Cluster aktiviert werden sollen.
Anmerkung
Für die Verwendung HyperPod mit EKS müssen Sie Helm-Diagramme und Add-Ons installieren, die Operatoren auf dem EKS-Cluster aktivieren. Diese Komponenten konfigurieren EKS als Steuerungsebene für das Workload-Management HyperPod und die Orchestrierung und bieten das erforderliche Setup dafür.
Um eine Instanzgruppe hinzuzufügen, wählen Sie Gruppe hinzufügen. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instanzgruppe hinzufügen. Gehen Sie wie folgt vor, um eine Instanzgruppe hinzuzufügen.
-
Wählen Sie als Instanzgruppentyp Standard oder Eingeschränkte Instanzgruppe (RIG). In der Regel wählen Sie Standard, das eine Allzweck-Computerumgebung ohne zusätzliche Sicherheitseinschränkungen bietet. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung grundlegender Modelle wie Amazon Nova. Weitere Informationen zur Einrichtung von RIG für die Amazon Nova-Modellanpassung finden Sie unterAmazon Nova-Anpassung bei Amazon SageMaker HyperPod.
-
Geben Sie unter Name einen Namen für die Instanzgruppe an.
-
Wählen Sie zum Beispiel Instance-Kapazität entweder On-Demand-Kapazität oder einen Schulungsplan, um Ihre Rechenressourcen zu reservieren.
-
Wählen Sie unter Instanztyp die Instanz für die Instanzgruppe aus. Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.
-
Geben Sie für Instance-Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für dieses Tutorial 1 für alle drei Gruppen ein.
-
Wählen Sie für Target Availability Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Rechenkapazität entsprechen.
-
Geben Sie für Zusätzliches Speichervolumen pro Instanz (GB) — optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume lautet.
/opt/sagemaker
Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den Befehl ausführen.df -h
Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt Amazon EBS-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben. -
Wählen Sie Ihre Option, z. B. tiefgreifende Gesundheitschecks. Tiefgreifende Integritätsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instanzen automatisch durch Neustarts oder Austausch wieder her, sofern diese aktiviert sind. Weitere Informationen hierzu finden Sie unter Umfassende Integritätsprüfungen.
-
Wählen Sie Instanzgruppe hinzufügen.
Sie können wählen, ob Sie die standardmäßigen Lebenszyklusskripts oder die benutzerdefinierten Lebenszyklusskripts verwenden möchten, die in Ihrem Amazon S3 S3-Bucket gespeichert werden. Sie können die standardmäßigen Lebenszyklusskripte im Awesome Distributed GitHub Training-Repository
-
Wählen Sie für Lifecycle-Skripten, ob Sie standardmäßige oder benutzerdefinierte Lifecycle-Skripten verwenden möchten.
-
Wählen Sie für den S3-Bucket für Lifecycle-Skripten aus, ob Sie einen neuen Bucket erstellen oder einen vorhandenen Bucket zum Speichern der Lifecycle-Skripten verwenden möchten.
Wählen oder erstellen Sie eine IAM-Rolle, mit der Sie die erforderlichen AWS Ressourcen in Ihrem Namen ausführen und darauf zugreifen können HyperPod . Weitere Informationen finden Sie unter IAM-Rolle für SageMaker HyperPod.
Konfigurieren Sie das FSx for Lustre-Dateisystem, das auf dem Cluster bereitgestellt werden soll. HyperPod
-
Wählen Sie für Dateisystem ein vorhandenes FSx for Lustre-Dateisystem aus, um ein neues FSx for Lustre-Dateisystem zu erstellen, oder stellen Sie kein FSx for Lustre-Dateisystem bereit.
-
Wählen Sie für Durchsatz pro Speichereinheit den Durchsatz aus, der pro TiB bereitgestellten Speichers verfügbar sein soll.
-
Geben Sie für Speicherkapazität einen Kapazitätswert in TB ein.
-
Wählen Sie als Datenkomprimierungstyp LZ4die Option Datenkomprimierung aktivieren.
-
Sehen Sie sich für die Lustre-Version den Wert an, der für die neuen Dateisysteme empfohlen wird.
Fügen Sie für Tags — optional Schlüssel- und Wertepaare zum neuen Cluster hinzu und verwalten Sie den Cluster als AWS Ressource. Weitere Informationen finden Sie unter Taggen Ihrer AWS Ressourcen.
Bereitstellen von Ressourcen
Nachdem Sie die Clusterkonfigurationen entweder mit der Schnellinstallation oder der benutzerdefinierten Konfiguration abgeschlossen haben, wählen Sie die folgende Option, um mit der Ressourcenbereitstellung und Clustererstellung zu beginnen.
-
Absenden — SageMaker AI beginnt mit der Bereitstellung der Standardkonfigurationsressourcen und der Erstellung des Clusters.
-
CloudFormation Vorlagenparameter herunterladen — Sie laden die JSON-Datei mit den Konfigurationsparametern herunter und führen einen AWS CLI Befehl aus, um den CloudFormation Stack bereitzustellen, um die Konfigurationsressourcen bereitzustellen und den Cluster zu erstellen. Sie können die heruntergeladene Parameter-JSON-Datei bei Bedarf bearbeiten. Wenn Sie diese Option wählen, finden Sie weitere Anweisungen unter SageMaker HyperPod Cluster mithilfe von AWS CloudFormation Vorlagen erstellen.