Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Sto cercando di creare un cluster
Se si utilizza la AWS ParallelCluster versione 3.5.0 e successive per creare un cluster e la creazione di un cluster non è riuscita con --rollback-on-failure set tofalse, utilizzare il comando pcluster describe-cluster CLI per ottenere informazioni sullo stato e sull'errore. In questo caso, l'pcluster describe-clusteroutput previsto clusterStatus è. CREATE_FAILED Controlla la failures sezione dell'output per trovare la failureCode efailureReason. Quindi, nella sezione seguente, trova la corrispondenza failureCode per ulteriori informazioni sulla risoluzione dei problemi. Per ulteriori informazioni, consulta pcluster describe-cluster.
Nelle sezioni seguenti, ti consigliamo di controllare i log sul nodo principale, ad esempio i /var/log/chef-client.log file /var/log/cfn-init.log and. Per ulteriori informazioni sui AWS ParallelCluster log e su come visualizzarli, consulta Registri chiave per il debug e. Recupero e conservazione dei log
Se non ne hai unofailureCode, accedi alla AWS CloudFormation console per visualizzare lo stack del cluster. Controlla la Status Reason presenza HeadNodeWaitCondition o gli errori su altre risorse per trovare ulteriori dettagli sugli errori. Per ulteriori informazioni, consulta Visualizza AWS CloudFormation gli eventi su CREATE_FAILED. Controlla i /var/log/chef-client.log file /var/log/cfn-init.log and sul nodo principale. Se la creazione del cluster non riesce a causa di un errore di creazione del nodo principale e i log del cluster non sono disponibili nel gruppo di log del cluster, è necessario conservare il cluster in caso di errore, specificare --rollback-on-failure = True e recuperare i log dall'interno del nodo principale stesso.
failureCode è OnNodeConfiguredExecutionFailure
-
Perché ha fallito?
Hai fornito uno script personalizzato nella sezione
OnNodeConfigureddel nodo principale della configurazione per creare un cluster. Tuttavia, lo script personalizzato non è stato eseguito. -
Come risolvere?
Controlla il
/var/log/cfn-init.logfile per saperne di più sull'errore e su come risolvere il problema nello script personalizzato. Verso la fine di questo registro, potresti visualizzare le informazioni di esecuzione relative alloOnNodeConfiguredscript dopo ilRunning command runpostinstallmessaggio.
failureCode è OnNodeConfiguredDownloadFailure
-
Perché ha fallito?
Hai fornito uno script personalizzato nella sezione
OnNodeConfigureddel nodo principale della configurazione per creare un cluster. Tuttavia, non è stato possibile scaricare lo script personalizzato. -
Come risolvere?
Assicurati che l'URL sia valido e che l'accesso sia configurato correttamente. Per ulteriori informazioni sulla configurazione degli script di bootstrap personalizzati, consulta. Azioni bootstrap personalizzate
Controllate il file.
/var/log/cfn-init.logVerso la fine di questo registro, dopo ilRunning command runpostinstallmessaggio è possibile che vengano visualizzate le informazioni sull'esecuzione relative all'elaborazione degliOnNodeConfiguredscript, incluso il download.
failureCode è OnNodeConfiguredFailure
-
Perché ha fallito?
Hai fornito uno script personalizzato nella sezione
OnNodeConfigureddel nodo principale della configurazione per creare un cluster. Tuttavia, l'uso dello script personalizzato non è riuscito nella distribuzione del cluster. Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini. -
Come risolvere?
Controlla il
/var/log/cfn-init.logfile. Verso la fine di questo registro, è possibile che vengano visualizzate le informazioni di esecuzione relative all'elaborazione degliOnNodeConfiguredscript dopo ilRunning command runpostinstallmessaggio.
failureCode è OnNodeStartExecutionFailure
-
Perché ha fallito?
Hai fornito uno script personalizzato nella sezione
OnNodeStartdel nodo principale della configurazione per creare un cluster. Tuttavia, lo script personalizzato non è stato eseguito. -
Come risolvere?
Controlla il
/var/log/cfn-init.logfile per saperne di più sull'errore e su come risolvere il problema nello script personalizzato. Verso la fine di questo registro, potresti visualizzare le informazioni di esecuzione relative alloOnNodeStartscript dopo ilRunning command runpreinstallmessaggio.
failureCode è OnNodeStartDownloadFailure
-
Perché ha fallito?
Hai fornito uno script personalizzato nella sezione
OnNodeStartdel nodo principale della configurazione per creare un cluster. Tuttavia, non è stato possibile scaricare lo script personalizzato. -
Come risolvere?
Assicurati che l'URL sia valido e che l'accesso sia configurato correttamente. Per ulteriori informazioni sulla configurazione degli script di bootstrap personalizzati, consulta. Azioni bootstrap personalizzate
Controllate il file.
/var/log/cfn-init.logVerso la fine di questo registro, dopo ilRunning command runpreinstallmessaggio è possibile che vengano visualizzate le informazioni sull'esecuzione relative all'elaborazione degliOnNodeStartscript, incluso il download.
failureCode è OnNodeStartFailure
-
Perché ha fallito?
Hai fornito uno script personalizzato nella sezione
OnNodeStartdel nodo principale della configurazione per creare un cluster. Tuttavia, l'uso dello script personalizzato non è riuscito nella distribuzione del cluster. Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini. -
Come risolvere?
Controlla il
/var/log/cfn-init.logfile. Verso la fine di questo registro, è possibile che vengano visualizzate le informazioni di esecuzione relative all'elaborazione degliOnNodeStartscript dopo ilRunning command runpreinstallmessaggio.
failureCode è EbsMountFailure
-
Perché ha fallito?
Il volume EBS definito nella configurazione del cluster non è stato montato.
-
Come risolvere?
Controlla il
/var/log/chef-client.logfile per i dettagli sull'errore.
failureCode è EfsMountFailure
-
Perché ha fallito?
Il volume Amazon EFS definito nella configurazione del cluster non è stato montato.
-
Come risolvere?
Se hai definito un file system Amazon EFS esistente, assicurati che il traffico sia consentito tra il cluster e il file system. Per ulteriori informazioni, consulta SharedStorage/EfsSettings/FileSystemId.
Controlla il
/var/log/chef-client.logfile per i dettagli sull'errore.
failureCode è FsxMountFailure
-
Perché ha fallito?
Il FSx file system Amazon definito nella configurazione del cluster non è riuscito a montarlo.
-
Come risolvere?
Se hai definito un FSx file system Amazon esistente, assicurati che il traffico sia consentito tra il cluster e il file system. Per ulteriori informazioni, consulta SharedStorage/FsxLustreSettings/FileSystemId.
Controlla il
/var/log/chef-client.logfile per i dettagli sull'errore.
failureCode è RaidMountFailure
-
Perché ha fallito?
I volumi RAID definiti nella configurazione del cluster non sono stati montati.
-
Come risolvere?
Controlla il
/var/log/chef-client.logfile per i dettagli sull'errore.
failureCode è AmiVersionMismatch
-
Perché ha fallito?
La AWS ParallelCluster versione utilizzata per creare l'AMI personalizzata è diversa dalla AWS ParallelCluster versione utilizzata per configurare il cluster. Nella CloudFormation console, visualizza i dettagli CloudFormation dello stack del cluster e seleziona la casella
Status ReasonHeadNodeWaitConditionper ottenere ulteriori dettagli sulle AWS ParallelCluster versioni e sull'AMI. Per ulteriori informazioni, consulta Visualizza AWS CloudFormation gli eventi su CREATE_FAILED. -
Come risolvere?
Assicurati che la AWS ParallelCluster versione utilizzata per creare l'AMI personalizzata sia la stessa AWS ParallelCluster utilizzata per configurare il cluster. Puoi modificare la versione AMI personalizzata o la versione
pclusterCLI per renderle uguali.
failureCode è InvalidAmi
-
Perché ha fallito?
L'AMI personalizzata non è valida perché non è stata creata utilizzando AWS ParallelCluster.
-
Come risolvere?
Usa il
pcluster build-imagecomando per creare un AMI impostando l'AMI come immagine principale. Per ulteriori informazioni, consulta pcluster build-image.
failureCodeè HeadNodeBootstrapFailure con failureReason Failed to setup the head node.
-
Perché ha fallito?
Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini. Ad esempio, è possibile che il cluster sia in stato protetto e ciò potrebbe essere causato da un mancato provisioning della flotta di elaborazione statica.
-
Come risolvere?
Controlla il
/var/log/chef-client.log.file per i dettagli sull'errore.Nota
Se vedi
RuntimeErrorun'eccezioneCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, il cluster è in stato protetto. Per ulteriori informazioni, consulta Come eseguire il debug della modalità protetta.
failureCodeè scaduto HeadNodeBootstrapFailure il timeout per la creazione del failureReason cluster.
-
Perché ha fallito?
Per impostazione predefinita, è previsto un limite di tempo di 30 minuti per il completamento della creazione del cluster. Se la creazione del cluster non viene completata entro questo intervallo di tempo, la creazione del cluster fallisce con un errore di timeout. La creazione del cluster può scadere per diversi motivi. Ad esempio, gli errori di timeout possono essere causati da un errore di creazione del nodo principale, da un problema di rete, da script personalizzati che impiegano troppo tempo per essere eseguiti nel nodo principale, da un errore in uno script personalizzato eseguito nei nodi di calcolo o da lunghi tempi di attesa per il provisioning dei nodi di calcolo. Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.
-
Come risolvere?
Controlla i
/var/log/chef-client.logfile/var/log/cfn-init.logand per i dettagli sull'errore. Per ulteriori informazioni sui AWS ParallelCluster log e su come ottenerli, consulta Registri chiave per il debug eRecupero e conservazione dei log.Potresti scoprire quanto segue in questi registri.
-
Vedendo
Waiting for static fleet capacity provisioningverso la fine delchef-client.logCiò indica che la creazione del cluster è scaduta in attesa dell'accensione dei nodi statici. Per ulteriori informazioni, consulta Visualizzazione degli errori nelle inizializzazioni dei nodi di calcolo.
-
Lo script di
OnNodeStartvisualizzazioneOnNodeConfiguredo avvio del nodo non è terminato alla fine delcfn-init.logCiò indica che l'esecuzione dello script
OnNodeConfiguredo dello scriptOnNodeStartpersonalizzato ha impiegato molto tempo e ha causato un errore di timeout. Verifica che lo script personalizzato non presenti problemi che potrebbero causarne l'esecuzione prolungata. Se lo script personalizzato richiede molto tempo per essere eseguito, valuta la possibilità di modificare il limite di timeout aggiungendo unaDevSettingssezione al file di configurazione del cluster, come mostrato nell'esempio seguente:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds -
Impossibile trovare i log o il nodo principale non è stato creato correttamente
È possibile che il nodo principale non sia stato creato correttamente e che i log non possano essere trovati. Nella CloudFormation console, visualizza i dettagli dello stack del cluster per verificare ulteriori dettagli sugli errori.
-
failureCodeè HeadNodeBootstrapFailure con failureReason Failed to bootstrap the head node.
-
Perché ha fallito?
Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.
-
Come risolvere?
Controlla i
/var/log/chef-client.logfile/var/log/cfn-init.loge.
failureCode è ResourceCreationFailure
-
Perché ha fallito?
La creazione di alcune risorse non è riuscita durante il processo di creazione del cluster. L'errore può verificarsi per vari motivi. Ad esempio, gli errori di creazione delle risorse possono essere causati da problemi di capacità o da una policy IAM configurata in modo errato.
-
Come risolvere?
Nella CloudFormation console, visualizza lo stack del cluster per verificare ulteriori dettagli sugli errori di creazione delle risorse.
failureCode è ClusterCreationFailure
-
Perché ha fallito?
Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.
-
Come risolvere?
Nella CloudFormation console, visualizza lo stack del cluster e controlla la casella
Status ReasonperHeadNodeWaitConditiontrovare ulteriori dettagli sull'errore.Controlla i
/var/log/chef-client.logfile/var/log/cfn-init.loge.
Vedere WaitCondition timed out... in CloudFormation pila
Per ulteriori informazioni, consulta failureCodeè scaduto HeadNodeBootstrapFailure il timeout per la creazione del failureReason cluster..
Vedere Resource creation cancelled in pila CloudFormation
Per ulteriori informazioni, consulta failureCode è ResourceCreationFailure.
Visualizzazione Failed to run cfn-init... o altri errori nello stack AWS CloudFormation
Controlla /var/log/cfn-init.log e /var/log/chef-client.log per ulteriori dettagli sull'errore.
La visione chef-client.log finisce con INFO: Waiting for static fleet capacity provisioning
Ciò è correlato al timeout di creazione del cluster in attesa dell'accensione dei nodi statici. Per ulteriori informazioni, consulta Visualizzazione degli errori nelle inizializzazioni dei nodi di calcolo.
Vedendo Failed to run preinstall or postinstall in cfn-init.log
Hai uno OnNodeStart script OnNodeConfigured or nella HeadNode sezione di configurazione del cluster. Lo script non funziona correttamente. Controlla il /var/log/cfn-init.log file per i dettagli sugli errori degli script personalizzati.
Visualizzazione This AMI was created with xxx, but is trying to be used with xxx... in CloudFormation pila
Per ulteriori informazioni, consulta failureCode è AmiVersionMismatch.
Vedere This AMI was not baked by AWS ParallelCluster... in pila CloudFormation
Per ulteriori informazioni, consulta failureCode è InvalidAmi.
Il pcluster create-cluster comando Seeing non viene eseguito localmente
~/.parallelcluster/pcluster-cli.logControllate il file system locale per i dettagli sull'errore.
Supporto aggiuntivo
Segui le istruzioni per la risoluzione dei problemi riportate inRisoluzione dei problemi di distribuzione dei cluster.
Verifica se il tuo scenario è coperto nella sezione Problemi GitHub noti