

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# AWS ParallelCluster processi
<a name="processes-v3"></a>

Questa sezione si applica ai cluster distribuiti con. Slurm Se utilizzato con questo scheduler, AWS ParallelCluster interagisce con il job scheduler sottostante per gestire il provisioning e la rimozione dei nodi di calcolo.

Per i cluster HPC basati su AWS Batch, si basa sulle funzionalità fornite da per AWS ParallelCluster gestire i nodi di elaborazione. AWS Batch 

## `clustermgtd`
<a name="clustermgtd-v3"></a>

Il daemon di gestione del cluster () esegue le seguenti attività: `clustermgtd`
+ Pulisci le partizioni inattive
+ Gestisci Slurm le prenotazioni e i nodi associati ai Capacity Blocks (vedi la sezione seguente)
+ Gestisci la capacità statica per assicurarti che sia sempre attiva e integra
+ Sincronizza lo scheduler con Amazon EC2.
+ Pulisci le istanze orfane
+ Ripristina lo stato del nodo di pianificazione in caso di interruzione di Amazon EC2 che avviene al di fuori del flusso di lavoro di sospensione
+ Gestisci le istanze Amazon EC2 non integre (quelle che non superano i controlli di integrità di Amazon EC2)
+ Gestisci gli eventi di manutenzione programmata
+ Gestisci i nodi di pianificazione non integri (quelli che non superano i controlli di integrità dello scheduler)

### Gestione delle Slurm prenotazioni e dei nodi associati ai Capacity Blocks
<a name="mgmtofSlurmReservationNodesForCB-v3"></a>

ParallelCluster supporta On-Demand Capacity Reservations (ODCR) e Capacity Blocks for Machine Learning (CB). A differenza dell'ODCR, CB può avere orari di inizio futuri ed è limitato nel tempo.

`clustermgtd`cerca i nodi non integri in un ciclo, termina tutte le istanze Amazon EC2 non funzionanti e le sostituisce con nuove istanze se si tratta di nodi statici.

AWS ParallelCluster gestisce i nodi statici associati a Capacity Blocks in modo diverso: crea un cluster anche se il CB non è ancora attivo e avvia automaticamente le istanze una volta che il CB è attivo.

I Slurm nodi che corrispondono alle risorse di calcolo associate CBs a quelle non ancora attive vengono mantenuti nello stato di manutenzione fino al raggiungimento dell'ora di avvio del CB. Questi Slurm nodi rimangono in uno reservation/maintenance stato associato all'utente Slurm amministratore, il che significa che possono accettare lavori, ma i lavori rimangono in sospeso fino alla rimozione della Slurm prenotazione.

`clustermgtd`crea o elimina automaticamente Slurm le prenotazioni: mette i relativi nodi CB in uno stato di manutenzione basato sullo stato CB. Quando il CB diventa attivo, la Slurm prenotazione viene rimossa, i nodi si avviano e diventano disponibili per i lavori in sospeso o per l'invio di nuovi lavori.

Quando viene raggiunta l'ora di fine del CB, i nodi vengono riportati a uno stato. reservation/maintenance Spetta agli utenti eseguire resubmit/requeue il job su una nuova queue/compute risorsa quando il CB non è più attivo e le istanze vengono terminate.

## `clusterstatusmgtd`
<a name="clusterstatusmgtd-v3"></a>

Il cluster status management daemon (`clusterstatusmgtd`) gestisce l'aggiornamento dello stato della flotta di calcolo. Ogni minuto recupera lo stato della flotta memorizzato in una tabella DynamoDB e gestisce qualsiasi richiesta. STOP/START 

## `computemgtd`
<a name="computemgtd-v3"></a>

I processi di gestione del calcolo daemon (`computemgtd`) vengono eseguiti su ciascuno dei nodi di calcolo del cluster. Ogni cinque (5) minuti, il demone di gestione del calcolo conferma che il nodo principale è raggiungibile ed è integro. Se trascorrono cinque (5) minuti durante i quali il nodo principale non può essere raggiunto o non è integro, il nodo di elaborazione viene spento.