Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Prerequisiti per l'utilizzo di SageMaker HyperPod
Le seguenti sezioni illustrano i prerequisiti prima di iniziare. SageMaker HyperPod
Argomenti
SageMaker HyperPod quote
Puoi creare SageMaker HyperPod cluster in base alle quote di utilizzo dei cluster nel tuo account. AWS
Importante
Per ulteriori informazioni sui SageMaker HyperPod prezzi, consulta la pagina SageMaker HyperPod prezzi e SageMaker i prezzi di Amazon
Visualizza le SageMaker HyperPod quote Amazon utilizzando Console di gestione AWS
Cerca i valori predefiniti e applicati di una quota, nota anche come limite, per l'utilizzo del cluster, utilizzata per SageMaker HyperPod.
-
Apri la Quote di servizio console
. -
Nel pannello di navigazione a sinistra, scegli Servizi AWS.
-
Dall'elenco dei AWSservizi, cerca e seleziona Amazon SageMaker AI.
-
Nell'elenco delle quote di servizio, puoi vedere il nome della quota di servizio, il valore applicato (se disponibile), la quota AWS predefinita e se il valore della quota è regolabile.
-
Nella barra di ricerca, digita utilizzo del cluster. Vengono mostrate le quote per l’utilizzo del cluster, le quote applicate e le quote predefinite.
Elenco delle quote di servizio comuni per creare un HyperPod cluster e dei relativi prerequisiti
Potresti voler verificare se hai richiesto aumenti del limite delle quote di servizio per le seguenti quote per creare un nuovo HyperPod cluster insieme ai prerequisiti nella console AI. SageMaker Vai alla console Service Quota e cerca i seguenti termini.
| No | Nome della quota | Termine di ricerca | Description |
|---|---|---|---|
| 1 | Numero massimo di istanze consentite per cluster SageMaker HyperPod | In SageMaker AI cerca «Numero massimo di istanze consentite per SageMaker HyperPod cluster» | Il valore della quota a livello di account deve essere superiore al numero di istanze che desideri aggiungere al cluster |
| 2 | Dimensione massima del volume EBS in GB per un'istanza di cluster SageMaker HyperPod |
In SageMaker AI cerca «Dimensione massima del volume EBS in GB per un'istanza HyperPod cluster» |
Il valore della quota a livello di account deve essere superiore al volume EBS che desideri aggiungere al cluster |
| 3 | Numero totale di istanze consentite tra i cluster SageMaker HyperPod |
In SageMaker AI cerca «Numero totale di istanze consentite tra i cluster» SageMaker HyperPod |
Il valore della quota a livello di account deve essere superiore al totale delle istanze che desideri aggiungere in tutti i cluster del tuo account in forma aggregata |
| 4 |
Quote di istanze |
In SageMaker AI, cerca «ml». «<instance_type>per l'utilizzo del cluster», ad esempio: ml.p5.48xlarge per l'utilizzo del cluster |
Il valore della quota a livello di account per il particolare tipo di istanza (ad esempio: ml.p5.48xlarge) deve essere maggiore del numero di istanze da aggiungere a tutti i cluster dell'account in forma aggregata. |
| 5 |
VPCs per regione |
In Amazon Virtual Private Cloud (Amazon VPC) cerca «VPCsper regione» | Il valore della quota a livello di account deve essere sufficiente per creare un nuovo VPC nell'account durante la configurazione del cluster. HyperPod Verifica se hai già esaurito questo limite di quota controllando la console VPC. Questo aumento della quota è necessario solo se intendi creare un nuovo VPC tramite l'opzione di configurazione del cluster rapida o personalizzata nella SageMaker HyperPod console. |
| 6 |
Gateway Internet per regione |
In Amazon Virtual Private Cloud (Amazon VPC) cerca «Gateway Internet per regione» |
Il valore della quota a livello di account deve essere sufficiente per creare un gateway Internet aggiuntivo nell'account durante la configurazione del cluster. SageMaker HyperPod Questo aumento della quota è necessario solo se intendi creare un nuovo VPC tramite l'opzione di configurazione del cluster rapida o personalizzata nella SageMaker HyperPod console. |
| 7 | Interfacce di rete per regione | In Amazon Virtual Private Cloud (Amazon VPC) cerca «Interfacce di rete per regione» |
Il valore della quota a livello di account deve contenere un numero sufficiente di interfacce di rete nell'account al momento della configurazione del cluster. HyperPod |
| 8 | EC2-Elastico in PVC IPs | In Amazon Elastic Compute Cloud (Amazon EC2) cerca «EC2-VPC Elastic» IPs | Il valore della quota a livello di account deve essere sufficiente per creare un nuovo VPC nell'account durante la configurazione del cluster. HyperPod Verifica se hai già esaurito questo limite di quota controllando la console VPC. Questo aumento della quota è necessario solo se intendi creare un nuovo VPC tramite l'opzione di configurazione del cluster rapida o personalizzata nella SageMaker HyperPod console. |
Richiedi un aumento della SageMaker HyperPod quota Amazon utilizzando Console di gestione AWS
Aumenta le quote a livello di account o di risorsa.
-
Per aumentare la quota delle istanze per l’utilizzo del cluster, seleziona la quota da aumentare.
-
Se la quota è regolabile, puoi richiedere un aumento della quota a livello di account o di risorsa in base al valore elencato nella colonna Regolabilità.
-
In Aumenta il valore della quota, inserisci il nuovo valore. Questo valore deve essere maggiore di quello corrente.
-
Scegli Richiedi.
-
Per visualizzare eventuali richieste in sospeso o risolte di recente nella console, vai alla scheda Cronologia richieste dalla pagina dei dettagli del servizio o scegli Dashboard dal riquadro di navigazione. Per le richieste in sospeso, scegliere lo stato della richiesta per aprire la ricevuta della richiesta. Lo stato iniziale di una richiesta è Pending (In attesa). Dopo la modifica dello stato in Quota richiesta, vedrai il numero del caso conSupporto AWS. Scegli il numero del caso per aprire il ticket della tua richiesta.
Per ulteriori informazioni generali su come richiedere un aumento della quota, consulta Requesting a Quota Increase in AWS Service Quotas User Guide.
Configurazione SageMaker HyperPod con un Amazon VPC personalizzato
Per configurare un SageMaker HyperPod cluster con un Amazon VPC personalizzato, esamina i seguenti prerequisiti.
Nota
La configurazione VPC è obbligatoria per l’orchestrazione Amazon EKS. Per l’orchestrazione Slurm, la configurazione VPC è facoltativa.
-
Convalida la capacità dell'Elastic Network Interface (ENI) Account AWS prima di creare un SageMaker HyperPod cluster con un VPC personalizzato. Il limite ENI è controllato da Amazon EC2 e varia a secondaRegione AWS. SageMaker HyperPod non può richiedere automaticamente aumenti delle quote.
Per verificare la tua attuale quota ENI:
-
Apri la Quote di servizio console
. -
Nella sezione Gestisci quote, utilizza l'elenco a discesa AWSServizi per cercare VPC.
-
Scegli di visualizzare le quote di Amazon Virtual Private Cloud (Amazon VPC).
-
Cerca la Service Quota Interfacce di rete per Regione o il Codice di quota
L-DF5E4CA3.
Se l'attuale limite ENI non è sufficiente per le esigenze del SageMaker HyperPod cluster, richiedi un aumento della quota. Assicurarsi preventivamente una capacità ENI adeguata aiuta a prevenire gli errori di implementazione dei cluster.
-
-
Quando utilizzi un VPC personalizzato per connettere un SageMaker HyperPod cluster con AWS risorse, fornisci il nome, l'IDRegione AWS, la sottorete e il gruppo di sicurezza VPC durante la IDs creazione del cluster. IDs
Nota
Quando Amazon VPC e sottoreti sono supportati IPv6 nel cluster o a livello di gruppo
VPCConfigdi istanze utilizzando l'OverrideVPCConfigattributo ofClusterInstanceGroupSpecification, le comunicazioni di rete differiscono in base alla piattaforma di orchestrazione del cluster:-
I cluster orchestrati da SLURM configurano automaticamente i nodi con due indirizzi e, permettendo comunicazioni di rete immediate. IPv6 IPv4 IPv6 Non è richiesta alcuna configurazione aggiuntiva oltre alle impostazioni.
VPCConfigIPv6 -
Nei cluster orchestrati da EKS, i nodi ricevono l'indirizzamento dual-stack, ma i pod possono essere utilizzati solo quando IPv6 il cluster Amazon EKS è abilitato in modo esplicito. IPv6 È necessario creare un nuovo cluster IPv6 Amazon EKS: i cluster IPv4 Amazon EKS esistenti non possono essere convertiti in IPv6. Per informazioni sulla distribuzione di un cluster IPv6 Amazon EKS, consulta Amazon EKSIPv6 Cluster Deployment.
Risorse aggiuntive per la IPv6 configurazione:
-
Per informazioni sull'aggiunta del IPv6 supporto al tuo VPC, consulta IPv6 Support for VPC.
-
Per informazioni sulla creazione di un nuovo VPC IPv6 compatibile, Amazon VPCconsulta la Guida alla creazione.
-
Per configurare SageMaker HyperPod con un Amazon VPC personalizzato, consulta Configurazione Amazon VPC personalizzata per. SageMaker HyperPod
-
-
Assicurati che tutte le risorse siano distribuite nello stesso ambiente del clusterRegione AWS. SageMaker HyperPod Configura le regole dei gruppi di sicurezza per consentire la comunicazione tra le risorse all’interno del VPC. Ad esempio, quando crei un VPC in
us-west-2, alloca le sottoreti su una o più zone di disponibilità (ad esempious-west-2aous-west-2b) e crea un gruppo di sicurezza che consenta il traffico tra i gruppi.Nota
SageMaker HyperPod supporta l'implementazione di zone di disponibilità multiple. Per ulteriori informazioni, consulta Configurazione di cluster su più cluster SageMaker HyperPod AZs.
-
Stabilisci la connettività Amazon Simple Storage Service (Amazon S3) per i SageMaker HyperPod gruppi di istanze distribuiti tramite VPC creando un endpoint VPC. Senza accesso a Internet, i gruppi di istanze non possono archiviare o recuperare gli script del ciclo di vita, i dati di addestramento o gli artefatti del modello. Ti consigliamo di creare una policy IAM personalizzata che limiti l’accesso dei bucket Amazon S3 al VPC privato. Per ulteriori informazioni, consulta Endpoints for Amazon S3 in AWS PrivateLink Guide.
-
Per HyperPod i cluster che utilizzano istanze abilitate per Elastic Fabric Adapter (EFA), configura il gruppo di sicurezza per consentire tutto il traffico in entrata e in uscita da e verso il gruppo di sicurezza stesso. In particolare, evita di utilizzare
0.0.0.0/0per le regole in uscita, perché potrebbe causare errori nei controlli dell’integrità EFA. Per ulteriori informazioni sulle linee guida per la preparazione dei gruppi di sicurezza EFA, consulta la Fase 1: Preparare un gruppo di sicurezza compatibile con EFA nella Amazon EC2 User Guide. -
Valuta attentamente la dimensione del blocco CIDR (Classless Inter-Domain Routing) della tua sottorete prima di creare cluster. HyperPod
-
La dimensione dell’intervallo CIDR della sottorete non può essere modificata dopo la creazione. Questo aspetto è particolarmente importante quando utilizzi istanze accelerate di grandi dimensioni come P5. Senza una dimensione del blocco sufficiente, in caso di aumento verticale dovrai ricreare i cluster.
-
Quando scegli la dimensione dell’intervallo CIDR della sottorete appropriata, considera questi fattori: i tipi di istanze, il numero previsto di istanze e il numero di indirizzi IP utilizzati da ciascuna istanza.
-
Per i cluster orchestrati da Slurm, ogni istanza P5 può creare 32 indirizzi IP (uno per ogni scheda di rete). Per i cluster orchestrati da EKS, ogni istanza P5 può creare 81 indirizzi IP (50 dalla scheda primaria più uno da ciascuna delle restanti 31 schede). Per specifiche dettagliate, consulta le specifiche di rete nella Amazon EC2 Instance Types Developer Guide.
-
Per esempi di CloudFormation modelli che specificano la dimensione del blocco CIDR della sottorete, consulta il modello HyperPod Slurm e il modello HyperPod
Amazon EKS nel repository. awsome-distributed-training
-
Configurazione di cluster su più cluster SageMaker HyperPod AZs
È possibile configurare SageMaker HyperPod i cluster su più zone di disponibilità (AZs) per migliorare l'affidabilità e la disponibilità.
Nota
Il traffico Elastic Fabric Adapter (EFA) non può attraversare o. AZs VPCs Questo non si applica al normale traffico IP dal dispositivo ENA di un'interfaccia EFA. Per ulteriori informazioni, consulta EFA limitations.
-
Comportamento predefinito
HyperPod distribuisce tutte le istanze del cluster in un'unica zona di disponibilità. La configurazione VPC determina l’AZ di implementazione:
-
Per i cluster orchestrati da Slurm, la configurazione VPC è facoltativa. Quando non viene fornita alcuna configurazione VPC, l' HyperPod impostazione predefinita è una sottorete dal VPC della piattaforma.
-
Per i cluster orchestrati da EKS, la configurazione VPC è obbligatoria.
-
Sia per gli orchestratori Slurm che EKS, quando
VpcConfigviene fornita, seleziona una sottorete dall'elenco delle sottoreti del fornitore. HyperPodVpcConfigTutti i gruppi di istanze ereditano la AZ della sottorete.
Nota
Una volta creato un cluster, non è possibile modificarne le impostazioni
VpcConfig.Per ulteriori informazioni sulla configurazione VPCs per i cluster, vedere la sezione precedente,. HyperPod Configurazione SageMaker HyperPod con un Amazon VPC personalizzato
-
-
Configurazione Multi-AZ
È possibile configurare il HyperPod cluster su più gruppi AZs durante la creazione di un cluster o l'aggiunta di un nuovo gruppo di istanze a un cluster esistente. Per configurare le implementazioni Multi-AZ, puoi sostituire le impostazioni VPC predefinite del cluster specificando sottoreti e gruppi di sicurezza diversi, possibilmente in diverse zone di disponibilità, per singoli gruppi di istanze all’interno del cluster.
SageMaker HyperPod Gli utenti dell'API possono utilizzare la
OverrideVpcConfigproprietà all'interno di ClusterInstanceGroupSpecificationquando lavorano conCreateClusteroUpdateClusterAPIs.Il campo
OverrideVpcConfig:-
Non può essere modificato dopo la creazione del gruppo di istanze.
-
È facoltativo. Se non è specificato, viene utilizzato il livello del cluster
VpcConfigcome impostazione predefinita. -
Per i cluster orchestrati da Slurm, può essere specificato solo quando viene fornito il livello del cluster
VpcConfig. Se non è specificato alcun valoreVpcConfiga livello del cluster,OverrideVpcConfignon può essere utilizzato per alcun gruppo di istanze. -
Contiene due campi obbligatori:
-
Subnets- accetta tra 1 e 16 sottoreti IDs -
SecurityGroupIds- accetta tra 1 e 5 gruppi di sicurezza IDs
-
Per ulteriori informazioni sulla creazione o l'aggiornamento di un SageMaker HyperPod cluster utilizzando l'interfaccia utente della SageMaker HyperPod console o ilAWS CLI:
-
Nota
Quando esegui carichi di lavoro su più carichi di lavoro AZs, tieni presente che la comunicazione di rete tra di loro introduce una latenza aggiuntiva. AZs Considera questo fattore quando progetti applicazioni sensibili alla latenza.
Configurazione AWS Systems Manager ed esecuzione come per il controllo degli accessi degli utenti del cluster
SageMaker HyperPod DLAMIviene fornito con AWS Systems Manager
Nota
La concessione agli utenti dell'accesso ai nodi HyperPod del cluster consente loro di installare e utilizzare software gestito dagli utenti sui nodi. Assicurati di rispettare il principio delle autorizzazioni con privilegio minimo per gli utenti.
Attivazione di RunAs nel tuo account AWS
In qualità di amministratore AWS dell'account o amministratore del cloud, puoi gestire l'accesso ai SageMaker HyperPod cluster a livello di ruolo o utente IAM utilizzando la funzionalità Run As di SSM. Con questa funzionalità puoi avviare ogni sessione SSM utilizzando l’utente del sistema operativo associato al ruolo o all’utente IAM.
Per abilitare RunAs nel tuo AWS account, segui la procedura descritta in Attivare il supporto RunAs per i nodi gestiti Linux e macOS. Se hai già creato utenti del sistema operativo nel tuo cluster, assicurati di associarli a ruoli o utenti IAM taggandoli come indicato nell’Opzione 2 della Fase 5 in To turn on Run As support for Linux and macOS managed nodes.
(Facoltativo) Configurazione SageMaker HyperPod con Amazon FSx for Lustre
Per iniziare a utilizzare SageMaker HyperPod e mappare i percorsi di dati tra il cluster e il tuo file system FSx for Lustre, seleziona uno dei formati supportati da. Regioni AWS SageMaker HyperPod Dopo aver scelto quella Regione AWS che preferite, dovreste anche determinare quale zona di disponibilità (AZ) utilizzare.
Se si utilizzano nodi di SageMaker HyperPod elaborazione AZs diversi da quelli in AZs cui è configurato il sistema file FSx for Lustre all'interno dello stessoRegione AWS, è possibile che si verifichino problemi di comunicazione e di rete. Ti consigliamo di utilizzare la stessa AZ fisica utilizzata per l'account di SageMaker HyperPod servizio per evitare qualsiasi traffico inter-AZ tra SageMaker HyperPod i cluster e il tuo sistema file for Lustre. FSx Inoltre, assicurati che sia configurato il tuo VPC. Se desideri utilizzare Amazon FSx come file system principale per lo storage, devi configurare SageMaker HyperPod i cluster con il tuo VPC.