

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Visualizzazione degli errori nelle inizializzazioni dei nodi di calcolo
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

Le sezioni seguenti forniscono suggerimenti per la risoluzione dei problemi in caso di errori nelle inizializzazioni dei nodi di calcolo. Ciò include gli errori di bootstrap, la visualizzazione degli errori nei log e gli indirizzi da seguire se nessuno degli scenari si adatta alla situazione specifica.

**Topics**
+ [Vedere in `Node bootstrap error` `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md)
+ [Ho configurato le prenotazioni di capacità su richiesta (ODCRs) o le istanze riservate zonali](compute-node-initialization-odcr-v3.md)
+ [`An error occurred (VcpuLimitExceeded)`Attivo `slurm_resume.log` quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster `clustermgtd.log`](compute-node-initialization-vpc-limit-v3.md)
+ [`An error occurred (InsufficientInstanceCapacity)`Attivo `slurm_resume.log` quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster `clustermgtd.log`](compute-node-initialization-ice-failure-v3.md)
+ [I nodi di visualizzazione sono `DOWN` in stato con `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md)
+ [Vedere dentro `cannot change locale (en_US.utf-8) because it has an invalid name` `slurm_resume.log`](compute-node-initialization-locale-v3.md)
+ [Nessuno degli scenari precedenti si applica alla mia situazione](compute-node-initialization-not-found-v3.md)

# Vedere in `Node bootstrap error` `clustermgtd.log`
<a name="compute-node-initialization-bootstrap-error-v3"></a>

Il problema è legato al mancato avvio dei nodi di calcolo. Per informazioni su come eseguire il debug di un problema relativo alla modalità protetta del cluster, vedere. [Come eseguire il debug della modalità protetta](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3)

# Ho configurato le prenotazioni di capacità su richiesta (ODCRs) o le istanze riservate zonali
<a name="compute-node-initialization-odcr-v3"></a>

## ODCRs che includono istanze con più interfacce di rete, come P4d, P4de e Trainium (Trn) AWS
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

Nel file di configurazione del cluster, verifica che si trovi in una sottorete pubblica e che i nodi di elaborazione `HeadNode` si trovino in una sottorete privata.

## ODCRs sono ODCRS mirati
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### Vedo `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.` anche se l'ho già fatto seguendo le istruzioni riportate `/opt/slurm/etc/pcluster/run_instances_overrides.json` in [Avvio di istanze con On-Demand Capacity Reservations (ODCR)](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

Se utilizzi le AWS ParallelCluster versioni da 3.1.1 a 3.2.1 con targeted ODCRs e utilizzi anche il file JSON [run instances override, è possibile che il file JSON](launch-instances-odcr-v3.md) non sia formattato correttamente. Potresti visualizzare un errore, come il seguente: `clustermgtd.log`

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

Verifica che il formato di file JSON sia corretto eseguendo quanto segue:

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### Verifica `Found RunInstances parameters override.` `clustermgtd.log` quando la creazione del cluster non è riuscita o `slurm_resume.log` quando l'esecuzione del processo non è riuscita
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

Se utilizzi il [file run instances override JSON](launch-instances-odcr-v3.md), verifica di aver impostato correttamente il nome della coda e il nome delle risorse di calcolo nel file. `/opt/slurm/etc/pcluster/run_instances_overrides.json`

### `An error occurred (InsufficientInstanceCapacity)`Accetto `slurm_resume.log` quando non riesco a eseguire un processo o `clustermgtd.log` quando non riesco a creare un cluster
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### Utilizzo di PG-ODCR (Placement Group ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

Quando si crea un ODCR con un gruppo di posizionamento associato, è necessario utilizzare lo stesso nome del gruppo di posizionamento nel file di configurazione. Imposta il [nome del gruppo di posizionamento](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup) corrispondente nella configurazione del cluster.

#### Utilizzo di istanze riservate zonali
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

Se utilizzi istanze riservate zonali con`PlacementGroup`/`Enabled`to `true` nella configurazione del cluster, potresti visualizzare un errore, come il seguente:

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

È possibile che ciò si verifichi perché le istanze riservate zonali non sono collocate nella stessa UC (o spine), il che può causare errori di capacità insufficiente (ICEs) quando si utilizzano i gruppi di collocamento. Puoi verificare questo caso disabilitando l'impostazione `PlacementGroup` Group nella configurazione del cluster per determinare se il cluster può allocare le istanze.

# `An error occurred (VcpuLimitExceeded)`Attivo `slurm_resume.log` quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster `clustermgtd.log`
<a name="compute-node-initialization-vpc-limit-v3"></a>

Verifica i limiti di vCPU sul tuo account per il tipo di istanza Amazon EC2 specifico che stai utilizzando. Se il valore v è pari o inferiore CPUs a quello richiesto, richiedi un aumento dei limiti. Per informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le [quote dei servizi Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html) nella *Amazon* EC2 User Guide.

# `An error occurred (InsufficientInstanceCapacity)`Attivo `slurm_resume.log` quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster `clustermgtd.log`
<a name="compute-node-initialization-ice-failure-v3"></a>

Stai riscontrando un problema di capacità insufficiente. Segui [https://aws.amazon.com/premiumsupport/knowledge-center/ec2](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) -/per risolvere il problema. insufficient-capacity-errors

# I nodi di visualizzazione sono `DOWN` in stato con `Reason (Code:InsufficientInstanceCapacity)...`
<a name="compute-node-initialization-down-nodes-v3"></a>

Stai riscontrando un problema di capacità insufficiente. Segui [https://aws.amazon.com/premiumsupport/knowledge-center/ec2](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) -/per risolvere il problema. insufficient-capacity-errors Per ulteriori informazioni sulla modalità di failover veloce con capacità insufficiente, vedere AWS ParallelCluster. [Slurmfailover rapido con capacità insufficiente del cluster](slurm-short-capacity-fail-mode-v3.md)

# Vedere dentro `cannot change locale (en_US.utf-8) because it has an invalid name` `slurm_resume.log`
<a name="compute-node-initialization-locale-v3"></a>

Ciò può verificarsi se il processo di `yum` installazione non è riuscito e le impostazioni locali sono state mantenute in uno stato incoerente. Ad esempio, ciò può verificarsi quando un utente termina il processo di installazione.

**Per verificare la causa, intraprendi le seguenti azioni:**
+ Esegui `su - pcluster-admin`.

  La shell mostra un errore, ad esempio`cannot change locale...no such file or directory`.
+ Esegui `localedef --list`.

  Restituisce una lista vuota o non contiene la localizzazione predefinita.
+ Controlla l'ultimo `yum` comando con `yum history` and`yum history info #ID`. L'ultimo ID ha`Return-Code: Success`?

  Se l'ultimo ID non è presente`Return-Code: Success`, gli script di post-installazione potrebbero non essere stati eseguiti correttamente.

Per risolvere il problema, prova a ricostruire la versione locale con. `yum reinstall glibc-all-langpacks` Dopo la ricostruzione, `su - pcluster-admin` non mostra alcun errore o avviso se il problema è stato risolto.

# Nessuno degli scenari precedenti si applica alla mia situazione
<a name="compute-node-initialization-not-found-v3"></a>

Per risolvere i problemi di inizializzazione dei nodi di calcolo, consulta. [Risoluzione dei problemi di inizializzazione dei nodi](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)

Verifica se il tuo scenario è incluso nella sezione Problemi [GitHub noti](https://github.com/aws/aws-parallelcluster/wiki) all'indirizzo on. AWS ParallelCluster GitHub