Erstellen eines HyperPod-EKS-Clusters mit eingeschränkter Instance-Gruppe (RIG) - Amazon SageMaker AI

Erstellen eines HyperPod-EKS-Clusters mit eingeschränkter Instance-Gruppe (RIG)

In diesem Thema werden die Schritte zur Erstellung eines EKS-Clusters von Amazon SageMaker HyperPod mit einer eingeschränkten Instance-Gruppe (RIG) erläutert. Durch die Konfiguration einer RIG in EKS-Clustern von SageMaker HyperPod wird eine spezielle Umgebung für das Training von Amazon-Nova-Modellen bereitgestellt. RIG hat folgende Einschränkungen:

  • RIG-Workloads werden in einer internetfreien VPC ausgeführt. Alle Ein- und Ausgänge sind streng reguliert.

  • RIG hat Einschränkungen in Bezug auf die Beobachtbarkeit von Kubernetes-Funktionen wie kubectl exec und Protokollen, um eine sichere Umgebung für das Nova-Modelltraining zu gewährleisten.

  • RIG erlaubt nur benutzerdefinierte Nova-Images. Jobs, die mit anderen Images ausgeführt werden, werden abgelehnt.

Sie können eine RIG erstellen, wenn Sie Instance-Gruppen in Ihrem HyperPod-EKS-Cluster einrichten. Sie können zwar die Größe und Skalierung dieser Ressourcen steuern, aber nicht direkt auf die Worker-Knoten zugreifen. Diese Architektur stellt sicher, dass der Zugriff auf Nova-Komponenten (Modellgewichtungen, Checkpoints, Trainingsdaten und Code) auf regulierte Kanäle und ein serviceverwaltetes Kontosystem beschränkt ist.

Die Nova-Modellanpassung auf SageMaker HyperPod basiert auf einem serviceverwalteten Dateisystem von FSx für Lustre, um eine optimale Leistung zu erzielen. Beim Erstellen einer RIG müssen Sie die Volume-Größe und den Durchsatz für das Dateisystem von FSx für Lustre angeben, das auf allen Worker-Knoten in der Instance-Gruppe bereitgestellt wird. FSx für Lustre wird verwendet, um Zwischen-Checkpoints und interne Modellzustände während des verteilten Trainings zu speichern. Folgen Sie den Anweisungen im Rezept, um eine geeignete Volumengröße und einen geeigneten Durchsatz zu wählen, um eine ausreichende Kapazität und Leistung sicherzustellen. Die Nutzungskosten von FSx für Lustre fallen für Ihr AWS-Konto an.

Wichtige Hinweise zur RIG in HyperPod-EKS-Clustern

  • RIG unterstützt nur die Ausführungsrolle für Berechtigungen. Stellen Sie sicher, dass die Ausführungsrolle die erforderlichen IAM-Berechtigungen umfasst, z. B. den Zugriff auf Amazon S3.

  • Wenn Sie Amazon FSx für Lustre und Amazon S3 mit Serviceverwaltung nutzen, stellen Sie sicher, dass Ihr Dateisystem von FSx für Lustre die richtige Größe für Ihre Workload hat. Das Trainingsdatenmanifest wird in Amazon S3 hochgeladen und die Ausführungsrolle muss darauf zugreifen können.

  • Die RIG muss auf einem neuen EKS-Cluster von SageMaker HyperPod erstellt oder aktualisiert werden, der am oder nach dem 16. Juli 2025 erstellt wurde. Cluster, die vor diesem Datum erstellt wurden, enthalten möglicherweise inkompatible Softwareversionen oder Konfigurationen, die von der RIG nicht unterstützt werden.

  • Das Erstellen von HyperPod-EKS-Clustern mit RIGs wird nur in der folgenden AWS-Region unterstützt: us-east-1.

Erstellen eines HyperPod-EKS-Clusters mit eingeschränkter Instance-Gruppe (Konsole – empfohlen)

Dieser Abschnitt enthält detaillierte Anweisungen zum Erstellen eines HyperPod-EKS-Clusters mit eingeschränkter Instance-Gruppe für die Anpassung von Amazon Nova mit der AWS-Managementkonsole. Weitere Informationen finden Sie unter Erstellen eines SageMaker-HyperPod-Clusters mit Amazon-EKS-Orchestrierung.

Anmerkung

Sie müssen den Cluster in us-east-1 erstellen, da es die einzige unterstützte AWS-Region für eingeschränkte Instance-Gruppen ist.

  1. Öffnen Sie die Konsole von Amazon SageMaker AI unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie im linken Navigationsbereich HyperPod-Cluster und dann Clusterverwaltung aus.

  3. Wählen Sie auf der Seite SageMaker-HyperPod-Cluster die Option HyperPod-Cluster erstellen aus.

  4. Wählen Sie im Dropdown-Menü HyperPod-Cluster erstellen die Option Orchestriert von Amazon EKS aus.

  5. Wählen Sie auf der Seite zur Clustererstellung die Option Schnelleinrichtung aus. Mit dieser Option können Sie sofort mit den Standardeinstellungen beginnen. SageMaker AI erstellt bei der Erstellung Ihres Clusters neue Ressourcen wie VPC, Subnetze, Sicherheitsgruppen, Amazon-S3-Bucket, IAM-Rolle und FSx für Lustre.

  6. Geben Sie unter Allgemeine Einstellungen einen Namen für den neuen Cluster an. Sie können den Namen nicht ändern, nachdem der Cluster erstellt wurde.

  7. Wählen Sie unter Instance-Gruppen die Option Gruppe hinzufügen aus. Jede Instance-Gruppe kann anders konfiguriert werden und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instance-Gruppen mit verschiedenen Instance-Typen besteht. Um einen Cluster bereitzustellen, müssen Sie mindestens eine Instance-Gruppe hinzufügen. Sie können jeweils eine Instance-Gruppe hinzufügen. Wenn Sie mehrere Instance-Gruppen erstellen möchten, wiederholen Sie den Vorgang für jede Instance-Gruppe.

    Gehen Sie folgendermaßen vor, um eine Instance-Gruppe hinzuzufügen.

    1. Wählen Sie als Instance-Gruppentyp die Option Restricted Instance Group (RIG) aus. Restricted Instance Group (RIG) ist eine spezialisierte Umgebung für die Anpassung von Basismodellen wie Amazon Nova. Standard bietet eine allgemeine Datenverarbeitungsumgebung ohne zusätzliche Sicherheitseinschränkungen.

    2. Geben Sie unter Name einen Namen für die Instance-Gruppe an.

    3. Wählen Sie als Instance-Kapazität entweder On-Demand-Kapazität oder einen Trainingsplan aus, um Ihre Datenverarbeitungsressourcen zu reservieren.

    4. Wählen Sie unter Instance-Typ die Instance für die Instance-Gruppe aus. Sie müssen einen Instance-Typ wählen, der die Amazon-Nova-Modellanpassung unterstützt, z. B. ml.p5.48xlarge. Stellen Sie außerdem sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem AWS-Konto wählen. Informationen zum Anfordern zusätzlicher Kontingente finden Sie unter SageMaker-HyperPod-Kontingente.

    5. Geben Sie unter Instance-Anzahl eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie zum Schnellstart eine 1 für die eingeschränkte Instance ein, die Sie erstellen.

    6. Wählen Sie als Ziel-Availability-Zone die Availability Zone aus, in der Ihre Instances bereitgestellt werden. Die Availability Zone sollte dem Standort Ihrer beschleunigten Datenverarbeitungskapazität entsprechen.

    7. Geben Sie unter Zusätzliches Speichervolumen pro Instance (GB) – optional eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Book Store (EBS)-Volume in Gigabyte (GB) festzulegen. Das EBS-Volume ist an jede Instance der Instance-Gruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS-Volume ist /opt/sagemaker. Nachdem der Cluster erfolgreich erstellt wurde, können Sie per SSH auf die Cluster-Instances (Knoten) zugreifen und überprüfen, ob das EBS-Volume korrekt gemountet wurde, indem Sie den df -h-Befehl ausführen. Durch das Anhängen eines zusätzlichen EBS-Volumes wird stabiler, Instance-unabhängiger persistenter Speicher bereitgestellt, wie im Abschnitt Amazon-EBS-Volumes im Benutzerhandbuch für Amazon Elastic Block Store beschrieben.

    8. Wählen Sie unter Detaillierte Instance-Zustandsprüfungen die gewünschte Option. Detaillierte Zustandsprüfungen überwachen den Zustand der Instances während der Erstellung und nach Softwareupdates und stellen fehlerhafte Instances automatisch durch Neustarts oder Austausch, sofern aktiviert, wieder her.

    9. Wählen Sie Instance-Gruppe hinzufügen aus.

  8. Überprüfen Sie unter Standardwerte für die Schnellkonfiguration die Standardeinstellungen. In diesem Abschnitt sind alle Standardeinstellungen für die Clustererstellung aufgeführt, einschließlich aller neuen AWS-Ressourcen, die während der Clustererstellung erstellt werden.

  9. Wählen Sie Absenden aus.

Erstellen eines HyperPod-EKS-Clusters mit eingeschränkter Instance-Gruppe (CLI)

Folgen Sie diesen Anweisungen, um einen HyperPod-EKS-Cluster mit einer RIG mithilfe der AWS CLI zu erstellen.