Configurazione delle impostazioni Slurm personalizzate in PCS AWS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione delle impostazioni Slurm personalizzate in PCS AWS

Utilizza le impostazioni Slurm personalizzate per configurare parametri Slurm aggiuntivi tra le risorse Cluster, Queue e Compute Node Group. Questa versione aggiunge il supporto per le impostazioni Slurm sulle risorse Queue, fornendo un controllo granulare sui comportamenti specifici delle partizioni.

Vantaggi delle impostazioni Slurm personalizzate

Le impostazioni Slurm personalizzate offrono un controllo sofisticato sull'ambiente HPC basato su PC AWS . È possibile implementare una contabilità dettagliata, applicare i controlli di accesso e ottimizzare l'esecuzione del carico di lavoro attraverso configurazioni e politiche di priorità. quality-of-service Queste funzionalità garantiscono che i lavori critici ricevano le risorse necessarie, mantenendo al contempo un utilizzo efficiente del cluster. Che si tratti di gestire carichi di lavoro accelerati da GPU, implementare una pianificazione equa o controllare i cicli di vita dei lavori, le impostazioni personalizzate aiutano ad allineare l'infrastruttura HPC ai requisiti operativi e agli obiettivi di ricerca.

Configurazione delle impostazioni personalizzate

Le impostazioni personalizzate di Slurm possono essere configurate tramite AWS Console, CLI o SDKs durante la creazione di risorse o modificate in un secondo momento tramite operazioni di aggiornamento.

AWS Management Console

Passa alle impostazioni aggiuntive dello scheduler nella pagina di creazione o modifica per qualsiasi tipo di risorsa (cluster, coda o gruppo di nodi di calcolo).

Per aggiungere una nuova impostazione
  1. Scegli Aggiungi nuova impostazione.

  2. Seleziona il nome di un parametro dal menu a discesa (che include brevi descrizioni dei parametri).

  3. Fornisci il valore corrispondente.

Per annullare l'impostazione personalizzata
  1. Scegli Rimuovi accanto alla parameter/value coppia pertinente.

  2. Crea o aggiorna la risorsa.

AWS CLI

Per la gestione programmatica delle impostazioni personalizzate, utilizzate il SlurmCustomSettings campo nelle operazioni di creazione o aggiornamento.

Esempio — Aggiornamento del Prolog parametro su un cluster
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
Esempio — Impostazione di una coda da inserire Default in un cluster
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
Esempio — Impostazione personalizzata Features su un gruppo di nodi di calcolo
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

Convalida e gestione degli errori

AWS PCS implementa un processo di convalida a più livelli per le impostazioni Slurm personalizzate. Durante le operazioni di creazione e aggiornamento, eseguiamo convalide sincrone che includono:

  • Controlli a livello di campo: convalidiamo le impostazioni individuali per verificare la correttezza dei tipi di dati, dei valori consentiti e dei requisiti di formato. Ad esempio, ci assicuriamo che i valori temporali siano nel formato Slurm corretto e che i valori booleani utilizzino rappresentazioni booleane Slurm accettate.

  • Convalide sensibili al contesto: alcune impostazioni vengono verificate rispetto al contesto di configurazione più ampio. Ad esempio, alcuni parametri sono validi solo quando la contabilità Slurm è abilitata.

  • Coerenza tra le impostazioni: verifichiamo che le opzioni che si escludono a vicenda non siano impostate insieme e che le impostazioni interdipendenti siano configurate correttamente.

Se la convalida fallisce, riceverai un messaggio ValidationException con un codice di errore specifico (ad esempio InvalidInput), un messaggio di errore chiaro che descrive il problema e un elenco dei campi non validi con i rispettivi dettagli di errore.

Sebbene durante questa convalida iniziale vengano rilevati molti problemi, alcune interazioni complesse tra le impostazioni possono diventare evidenti solo quando si applica la configurazione. In questi casi, l'operazione avrà esito negativo e verrà visualizzato un messaggio di errore informativo e tutte le modifiche parziali verranno annullate.

Limitazioni

AWS PCS implementa un approccio basato sulla lista delle autorizzazioni per proteggere la sicurezza del servizio e la stabilità operativa. Le impostazioni che potrebbero compromettere la sicurezza dell'account di servizio o interferire con le funzionalità dei servizi gestiti sono limitate. Tuttavia, valutiamo continuamente le esigenze dei clienti e possiamo aggiungere supporto per impostazioni aggiuntive in base al feedback dei clienti.