Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Voraussetzungen für die Verwendung von SageMaker HyperPod
In den folgenden Abschnitten werden die Voraussetzungen beschrieben, bevor Sie damit beginnen SageMaker HyperPod.
Themen
SageMaker HyperPod Kontingente
Sie können SageMaker HyperPod Cluster erstellen, wenn Sie die Kontingente für die Clusternutzung in Ihrem AWS Konto berücksichtigen.
Wichtig
Weitere Informationen zur SageMaker HyperPod Preisgestaltung finden Sie unter SageMaker HyperPod Preisgestaltung und unter SageMaker Amazon-Preise
SageMaker HyperPodAmazon-Kontingente anzeigen mit dem AWS-Managementkonsole
Suchen Sie nach den Standardwerten und den angewendeten Werten eines Kontingents, das auch als Limit bezeichnet wird, für die Cluster-Nutzung SageMaker HyperPod.
-
Öffnen Sie die Service Quotas -Konsole
. -
Wählen Sie im linken Navigationsbereich AWS services aus.
-
Suchen Sie in der AWS Serviceliste nach Amazon SageMaker AI und wählen Sie es aus.
-
In der Liste der Servicekontingente finden Sie den Namen des Servicekontingents, den angewendeten Wert (falls verfügbar), das AWS Standardkontingent und ob der Kontingentwert anpassbar ist.
-
Geben Sie in die Suchleiste Cluster-Nutzung ein. Hier werden die Kontingente für die Cluster-Nutzung, die angewendeten Kontingente und die Standardkontingente angezeigt.
Liste der allgemeinen Dienstkontingente zur Erstellung eines HyperPod Clusters und der zugehörigen Voraussetzungen
Möglicherweise möchten Sie in der AI-Konsole überprüfen, ob Sie für die folgenden Kontingente eine Erhöhung der Servicekontingenten beantragt haben, um einen neuen HyperPod Cluster zusammen mit den Voraussetzungen zu erstellen. SageMaker Navigieren Sie zur Service Quota-Konsole und suchen Sie nach den folgenden Begriffen.
| Nein | Name des Kontingents | Suchbegriff | Description |
|---|---|---|---|
| 1 | Maximal zulässige Anzahl von Instanzen pro SageMaker HyperPod Cluster | Suchen Sie unter SageMaker KI nach „Maximale Anzahl erlaubter Instanzen pro SageMaker HyperPod Cluster“ | Ihr Kontingentwert auf Kontoebene muss höher sein als die Anzahl der Instanzen, die Sie Ihrem Cluster hinzufügen möchten |
| 2 | Maximale Größe des EBS-Volumes in GB für eine Cluster-Instance SageMaker HyperPod |
Suchen Sie unter SageMaker KI nach „Maximale Größe des EBS-Volumes in GB für eine HyperPod Cluster-Instance“ |
Ihr Kontingentwert auf Kontoebene muss höher sein als das EBS-Volume, das Sie Ihrem Cluster hinzufügen möchten |
| 3 | Gesamtzahl der in Clustern zulässigen Instances SageMaker HyperPod |
Suchen Sie unter SageMaker KI nach „Gesamtzahl der in SageMaker HyperPod Clustern zulässigen Instanzen“ |
Ihr Kontingentwert auf Kontoebene muss höher sein als die Gesamtzahl der Instances, die Sie für alle Ihre Cluster in Ihrem Konto insgesamt hinzufügen möchten |
| 4 |
Instanzkontingente |
Suchen Sie unter SageMaker KI nach „ml. „<instance_type>für Cluster-Nutzung“, z. B.: ml.p5.48xlarge für Cluster-Nutzung |
Ihr Kontingentwert auf Kontoebene für den jeweiligen Instance-Typ (z. B.: ml.p5.48xlarge) muss größer sein als die Anzahl der Instances, die Sie für alle Ihre Cluster in Ihrem Konto insgesamt hinzufügen möchten. |
| 5 |
VPCs pro Region |
Suchen Sie unter Amazon Virtual Private Cloud (Amazon VPC) nach „VPCspro Region“ | Ihr Kontingentwert auf Kontoebene muss ausreichen, um bei der Einrichtung Ihres Clusters eine neue VPC im Konto zu erstellen. HyperPod Überprüfen Sie in der VPC-Konsole, ob Sie dieses Kontingentlimit bereits ausgeschöpft haben. Diese Erhöhung des Kontingents ist nur erforderlich, wenn Sie über die Cluster-Setup-Option „Schnell“ oder „Benutzerdefiniert“ in der SageMaker HyperPod Konsole eine neue VPC erstellen. |
| 6 |
Internet-Gateways pro Region |
Suchen Sie unter Amazon Virtual Private Cloud (Amazon VPC) nach „Internet-Gateways pro Region“ |
Ihr Kontingentwert auf Kontoebene muss ausreichen, um bei der Einrichtung Ihres Clusters ein zusätzliches Internet-Gateway im Konto einzurichten. SageMaker HyperPod Diese Erhöhung des Kontingents ist nur erforderlich, wenn Sie über die Cluster-Setup-Option „Schnell“ oder „Benutzerdefiniert“ in der SageMaker HyperPod Konsole eine neue VPC erstellen. |
| 7 | Netzwerkschnittstellen pro Region | Suchen Sie unter Amazon Virtual Private Cloud (Amazon VPC) nach „Netzwerkschnittstellen pro Region“ |
Ihr Kontingentwert auf Kontoebene muss bei der Einrichtung Ihres Clusters über genügend Netzwerkschnittstellen verfügen. HyperPod |
| 8 | EC2VPC Elastisch IPs | Suchen Sie unter Amazon Elastic Compute Cloud (Amazon EC2) nach „EC2VPC Elastic“ IPs | Ihr Kontingentwert auf Kontoebene muss ausreichen, um bei der Einrichtung Ihres Clusters eine neue VPC im Konto zu erstellen. HyperPod Überprüfen Sie in der VPC-Konsole, ob Sie dieses Kontingentlimit bereits ausgeschöpft haben. Diese Erhöhung des Kontingents ist nur erforderlich, wenn Sie über die Cluster-Setup-Option „Schnell“ oder „Benutzerdefiniert“ in der SageMaker HyperPod Konsole eine neue VPC erstellen. |
Beantragen Sie eine Erhöhung des SageMaker HyperPod Amazon-Kontingents mit dem AWS-Managementkonsole
Erhöhen Sie Ihre Kontingente auf Konto- oder Ressourcenebene.
-
Um das Kontingent der Instances für die Cluster-Nutzung zu erhöhen, wählen Sie das Kontingent aus, das Sie erhöhen möchten.
-
Wenn das Kontingent anpassbar ist, können Sie eine Erhöhung des Kontingents entweder auf Konto- oder Ressourcenebene beantragen, basierend auf dem Wert, der in der Spalte Anpassbarkeit aufgeführt ist.
-
Geben Sie unter Kontingentwert erhöhen den neuen Wert ein. Der neue Wert muss größer als der aktuelle Wert sein.
-
Wählen Sie Anfrage aus.
-
Um ausstehende oder kürzlich gelöste Anfragen in der Konsole anzuzeigen, navigieren Sie auf der Detailseite des Services zur Registerkarte Anfrageverlauf oder wählen Sie im Navigationsbereich Dashboard aus. Wählen Sie für ausstehende Anfragen den Status der Anfrage, um die Anfrage zu öffnen. Der Anfangsstatus einer Anfrage ist Pending (Ausstehend). Nachdem sich der Status in „Kontingent angefordert“ geändert hat, sehen Sie die Fallnummer mit AWS Support. Wählen Sie die Fallnummer, um das Ticket für Ihre Anfrage zu öffnen.
Weitere Informationen zur Anforderung einer Erhöhung eines Kontingents finden Sie unter Beantragen einer Kontingenterhöhung im Benutzerhandbuch zu AWS -Service-Quotas.
Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC
Um einen SageMaker HyperPod Cluster mit einer benutzerdefinierten Amazon VPC einzurichten, überprüfen Sie die folgenden Voraussetzungen.
Anmerkung
Die VPC-Konfiguration ist für die Amazon-EKS-Orchestrierung obligatorisch. Für die Slurm-Orchestrierung ist die VPC-Einrichtung optional.
-
Überprüfen Sie die Elastic Network Interface (ENI) -Kapazität in Ihrem, AWS-Konto bevor Sie einen SageMaker HyperPod Cluster mit einer benutzerdefinierten VPC erstellen. Das ENI-Limit wird von Amazon kontrolliert EC2 und variiert je nach AWS-Region. SageMaker HyperPod kann nicht automatisch Kontingenterhöhungen beantragen.
So überprüfen Sie Ihr aktuelles ENI-Kontingent:
-
Öffnen Sie die Service Quotas -Konsole
. -
Verwenden Sie im Abschnitt Kontingente verwalten die Dropdownliste AWS Dienste, um nach VPC zu suchen.
-
Wählen Sie die Option zum Anzeigen der Kontingente von Amazon Virtual Private Cloud (Amazon VPC).
-
Suchen Sie nach dem Service Quota, den Netzwerkschnittstellen pro Region oder dem Kontingentcode
L-DF5E4CA3.
Wenn Ihr derzeitiges ENI-Limit für Ihre SageMaker HyperPod Cluster-Anforderungen nicht ausreicht, fordern Sie eine Erhöhung des Kontingents an. Wenn Sie im Voraus eine ausreichende ENI-Kapazität sicherstellen, können Sie Ausfälle bei der Cluster-Bereitstellung vermeiden.
-
-
Wenn Sie eine benutzerdefinierte VPC verwenden, um einen SageMaker HyperPod Cluster mit AWS Ressourcen zu verbinden, geben Sie IDs bei der Clustererstellung den VPC-Namen, die ID AWS-Region, das Subnetz IDs und die Sicherheitsgruppe an.
Anmerkung
Wenn Ihre Amazon VPC und Subnetze auf Cluster- oder Instance-Gruppenebene mithilfe
VPCConfigdesOverrideVPCConfigAttributs von unterstützen IPv6ClusterInstanceGroupSpecification, unterscheidet sich die Netzwerkkommunikation je nach Cluster-Orchestrierungsplattform:-
Slurm-orchestrierte Cluster konfigurieren automatisch Knoten mit dualen Adressen IPv6 und IPv4 ermöglichen so eine sofortige Netzwerkkommunikation. IPv6 Neben den Einstellungen ist keine zusätzliche Konfiguration erforderlich.
VPCConfigIPv6 -
In EKS-orchestrierten Clustern erhalten Knoten eine Dual-Stack-Adressierung, aber Pods können nur verwendet werden, IPv6 wenn der Amazon EKS-Cluster explizit aktiviert ist. IPv6 Sie müssen einen neuen IPv6 Amazon EKS-Cluster erstellen. Bestehende IPv4 Amazon EKS-Cluster können nicht konvertiert werden IPv6. Informationen zur Bereitstellung eines IPv6 Amazon EKS-Clusters finden Sie unter Amazon EKS IPv6 Cluster-Bereitstellung.
Zusätzliche Ressourcen für die IPv6 Konfiguration:
-
Informationen zum Hinzufügen von IPv6 Unterstützung zu Ihrer VPC finden Sie unter IPv6 Support für VPC.
-
Informationen zum Erstellen einer neuen IPv6 -kompatiblen VPC finden Sie im Amazon VPC Creation Guide.
-
Informationen zur Konfiguration SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC finden Sie unter Benutzerdefiniertes Amazon VPC-Setup für. SageMaker HyperPod
-
-
Stellen Sie sicher, dass alle Ressourcen im gleichen AWS-Region Cluster bereitgestellt werden. SageMaker HyperPod Konfigurieren Sie Sicherheitsgruppenregeln, um die Kommunikation zwischen Ressourcen innerhalb der VPC zu ermöglichen, wenn Sie beispielsweise eine VPC in
us-west-2erstellen, Subnetze in einer oder mehreren Availability Zones (z.B.us-west-2aoderus-west-2b) bereitstellen und eine Sicherheitsgruppe erstellen, die gruppeninternen Datenverkehr ermöglicht.Anmerkung
SageMaker HyperPod unterstützt die Bereitstellung in mehreren Verfügbarkeitszonen. Weitere Informationen finden Sie unter Einrichtung von Clustern über mehrere SageMaker HyperPod AZs.
-
Stellen Sie Amazon Simple Storage Service (Amazon S3) Konnektivität für von VPC bereitgestellte SageMaker HyperPod Instanzgruppen her, indem Sie einen VPC-Endpunkt erstellen. Ohne Internetzugang können Instance-Gruppen keine Lebenszyklusskripte, Trainingsdaten oder Modellartefakte speichern oder abrufen. Wir empfehlen Ihnen, eine benutzerdefinierte IAM-Richtlinie zu erstellen, die den Zugriff des Amazon-S3-Buckets auf die private VPC einschränkt. Weitere Informationen finden Sie unter Endpunkte für Amazon S3 im AWS PrivateLink -Benutzerhandbuch.
-
Für HyperPod Cluster, die Elastic Fabric Adapter (EFA) -fähige Instances verwenden, konfigurieren Sie die Sicherheitsgruppe so, dass der gesamte ein- und ausgehende Datenverkehr zur und von der Sicherheitsgruppe selbst zugelassen wird. Vermeiden Sie insbesondere die Verwendung von
0.0.0.0/0für ausgehende Regeln, da dies dazu führen kann, dass die EFA-Zustandsprüfung fehlschlägt. Weitere Informationen zu den Richtlinien zur Vorbereitung von EFA-Sicherheitsgruppen finden Sie unter Schritt 1: Vorbereiten einer EFA-fähigen Sicherheitsgruppe im EC2 Amazon-Benutzerhandbuch. -
Überlegen Sie sich die Blockgröße Ihres Subnetzes mit Classless Inter-Domain Routing (CIDR) sorgfältig, bevor Sie Cluster erstellen. HyperPod
-
Die Größe des CIDR-Blocks des Subnetzes kann nach der Erstellung nicht mehr geändert werden. Dies ist besonders wichtig, wenn Sie große beschleunigte Instances wie P5 verwenden. Ohne ausreichende Blockgröße müssen Sie Ihre Cluster bei der Skalierung neu erstellen.
-
Berücksichtigen Sie bei der Auswahl der geeigneten CIDR-Blockgröße für das Subnetz folgende Faktoren: Ihre Instance-Typen, die erwartete Anzahl von Instances und die Anzahl der von jeder Instance belegten IP-Adressen.
-
Bei SLURM-orchestrierten Clustern kann jede P5-Instance 32 IP-Adressen (eine pro Netzwerkkarte) erstellen. Bei EKS-orchestrierten Clustern kann jede P5-Instance 81 IP-Adressen erstellen (50 von der primären Karte plus eine von jeder der verbleibenden 31 Karten). Detaillierte Spezifikationen finden Sie unter Netzwerkspezifikationen im Amazon EC2 Instance Types Developer Guide.
-
Beispiele für CloudFormation Vorlagen, die die CIDR-Blockgröße des Subnetzes angeben, finden Sie in der HyperPod Slurm-Vorlage
und der HyperPod Amazon EKS-Vorlage im Repository . awsome-distributed-training
-
Einrichtung von Clustern über mehrere SageMaker HyperPod AZs
Sie können Ihre SageMaker HyperPod Cluster für mehrere Availability Zones (AZs) konfigurieren, um die Zuverlässigkeit und Verfügbarkeit zu verbessern.
Anmerkung
Elastic Fabric Adapter (EFA) -Datenverkehr kann AZs oder VPCs nicht überqueren. Dies gilt nicht für normalen IP-Verkehr vom ENA-Gerät einer EFA-Schnittstelle. Weitere Informationen finden Sie unter EFA-Einschränkungen.
-
Standardverhalten
HyperPod stellt alle Cluster-Instances in einer einzigen Availability Zone bereit. Die VPC-Konfiguration bestimmt die Bereitstellungs-AZ:
-
Für SLURM-orchestrierte Cluster ist die VPC-Konfiguration optional. Wenn keine VPC-Konfiguration bereitgestellt wird, wird HyperPod standardmäßig ein Subnetz von der Plattform-VPC verwendet.
-
Für EKS-orchestrierte Cluster ist die VPC-Konfiguration erforderlich.
-
Sowohl für Slurm- als auch für EKS-Orchestratoren
VpcConfigwird, sofern angegeben, ein Subnetz aus der Subnetzliste des Anbieters HyperPod ausgewählt.VpcConfigAlle Instance-Gruppen erben die AZ des Subnetzes.
Anmerkung
Sobald Sie einen Cluster erstellt haben, können Sie seine
VpcConfig-Einstellungen nicht mehr ändern.Weitere Informationen VPCs zur Konfiguration von HyperPod Clustern finden Sie im vorherigen Abschnitt,. Einrichtung SageMaker HyperPod mit einer benutzerdefinierten Amazon VPC
-
-
Multi-AZ-Konfiguration
Sie können Ihren HyperPod Cluster für mehrere einrichten, AZs wenn Sie einen Cluster erstellen oder wenn Sie einem vorhandenen Cluster eine neue Instanzgruppe hinzufügen. Um Multi-AZ-Bereitstellungen zu konfigurieren, können Sie die VPC-Standardeinstellungen des Clusters überschreiben, indem Sie für einzelne Instance-Gruppen innerhalb Ihres Clusters unterschiedliche Subnetze und Sicherheitsgruppen angeben, möglicherweise über verschiedene Availability Zones hinweg.
SageMaker HyperPod API-Benutzer können die
OverrideVpcConfigEigenschaft innerhalb von verwenden ClusterInstanceGroupSpecification, wenn sie mit demCreateClusteroder arbeitenUpdateClusterAPIs.Das Feld
OverrideVpcConfig:-
Kann nicht geändert werden, nachdem die Instance-Gruppe erstellt wurde.
-
ist optional. Wenn nicht anders angegeben, wird standardmäßig die Cluster-Ebene
VpcConfigverwendet. -
Kann für Slurm-orchestrierte Cluster nur angegeben werden, wenn die Clusterebene
VpcConfigangegeben ist. Wenn auf ClusterebeneVpcConfigangegeben ist, kannOverrideVpcConfigfür keine Instance-Gruppe verwendet werden. -
Enthält zwei Pflichtfelder:
-
Subnets- akzeptiert zwischen 1 und 16 Subnetze IDs -
SecurityGroupIds- akzeptiert zwischen 1 und 5 Sicherheitsgruppen IDs
-
Weitere Informationen zum Erstellen oder Aktualisieren eines SageMaker HyperPod Clusters über die Benutzeroberfläche der SageMaker HyperPod Konsole oder über AWS CLI:
-
Slurm-Orchestrierung: Siehe Betrieb von HyperPod Slurm-orchestrierten Clustern.
-
EKS-Orchestrierung. HyperPodSiehe Betrieb von EKS-orchestrierten Clustern.
-
Anmerkung
Wenn Sie Workloads über mehrere ausführen, sollten Sie sich bewusst sein AZs, dass die Netzwerkkommunikation zwischen AZs diesen zu zusätzlicher Latenz führt. Berücksichtigen Sie diese Auswirkungen bei der Entwicklung latenzempfindlicher Anwendungen.
Einrichtung AWS Systems Manager und Ausführung als für die Cluster-Benutzerzugriffskontrolle
SageMaker HyperPod DLAMIist standardmäßig mit AWS Systems Manager
Anmerkung
Wenn Sie Benutzern Zugriff auf HyperPod Clusterknoten gewähren, können sie benutzerverwaltete Software auf den Knoten installieren und ausführen. Stellen Sie sicher, dass Sie das Prinzip der geringsten Berechtigung für Benutzer beibehalten.
Aktivieren Sie Run As in Ihrem Konto AWS
Als AWS Kontoadministrator oder Cloud-Administrator können Sie den Zugriff auf SageMaker HyperPod Cluster auf IAM-Rollen- oder Benutzerebene verwalten, indem Sie die Funktion „Ausführen als“ in SSM verwenden. Mit diesem Feature können Sie jede SSM-Sitzung mit dem Betriebssystembenutzer starten, der der IAM-Rolle oder dem IAM-Benutzer zugeordnet ist.
Um Run As in Ihrem AWS Konto zu aktivieren, folgen Sie den Schritten unter Run As-Unterstützung für verwaltete Linux- und macOS-Nodes aktivieren. Wenn Sie bereits Betriebssystembenutzer in Ihrem Cluster erstellt haben, stellen Sie sicher, dass Sie sie IAM-Rollen oder -Benutzern zuordnen, indem Sie sie wie in Option 2 von Schritt 5 unter So aktivieren Sie die Unterstützung von „Ausführen als“ für verwaltete Linux- und macOS-Knoten beschrieben markieren.
(Optional) Einrichtung SageMaker HyperPod mit Amazon FSx for Lustre
Um mit der Verwendung SageMaker HyperPod und Zuordnung von Datenpfaden zwischen dem Cluster und Ihrem FSx for Lustre-Dateisystem zu beginnen, wählen Sie einen der AWS-Regionen unterstützten von. SageMaker HyperPod Nachdem AWS-Region Sie die von Ihnen bevorzugte ausgewählt haben, sollten Sie auch festlegen, welche Availability Zone (AZ) Sie verwenden möchten.
Wenn Sie SageMaker HyperPod Rechenknoten an einem AZs anderen Ort als AZs dem verwenden, an dem Ihr FSx for Lustre-Dateisystem eingerichtet ist AWS-Region, kann es zu Kommunikations- und Netzwerkaufwand kommen. Wir empfehlen Ihnen, dieselbe physische AZ wie die für das SageMaker HyperPod Dienstkonto zu verwenden, um AZ-übergreifenden Verkehr zwischen SageMaker HyperPod Clustern und Ihrem FSx for Lustre-Dateisystem zu vermeiden. Stellen Sie außerdem sicher, dass Sie es mit Ihrer VPC konfiguriert haben. Wenn Sie Amazon FSx als Hauptdateisystem für die Speicherung verwenden möchten, müssen Sie SageMaker HyperPod Cluster mit Ihrer VPC konfigurieren.