Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui un processo a nodo singolo in AWS PCS
Per eseguire un lavoro utilizzando Slurm, si prepara uno script di invio che specifica i requisiti del lavoro e lo si invia a una coda con il comando. sbatch In genere, questa operazione viene eseguita da una directory condivisa in modo che i nodi di accesso e di calcolo abbiano uno spazio comune per l'accesso ai file.
Connect al nodo di login del cluster ed esegui i seguenti comandi al prompt della shell.
-
Diventa l'utente predefinito. Passa alla directory condivisa.
sudo su - ec2-user cd /shared -
Utilizzate i seguenti comandi per creare uno script di lavoro di esempio:
cat << EOF > job.sh #!/bin/bash #SBATCH -J single #SBATCH -o single.%j.out #SBATCH -e single.%j.err echo "This is job \${SLURM_JOB_NAME} [\${SLURM_JOB_ID}] running on \${SLURMD_NODENAME}, submitted from \${SLURM_SUBMIT_HOST}" && sleep 60 && echo "Job complete" EOF -
Invia lo script di lavoro allo scheduler Slurm:
sbatch -p demo job.sh -
Quando il lavoro viene inviato, restituirà un ID del lavoro come numero. Usa quell'ID per controllare lo stato del lavoro. Sostituisci
job-idnel comando seguente con il numero restituito dasbatch.squeue --jobjob-idsqueue --job 1Il
squeuecomando restituisce un output simile al seguente:JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1 demo test ec2-user CF 0:47 1 compute-1
-
Continuare a controllare lo stato del processo finché non raggiunge lo stato
R(in esecuzione). Il lavoro è terminato quandosqueuenon restituisce nulla. -
Ispeziona il contenuto della
/shareddirectory.ls -alth /sharedL'output del comando è simile al seguente:
-rw-rw-r- 1 ec2-user ec2-user 107 Mar 19 18:33 single.1.out -rw-rw-r- 1 ec2-user ec2-user 0 Mar 19 18:32 single.1.err -rw-rw-r- 1 ec2-user ec2-user 381 Mar 19 18:29 job.sh
I file
single.1.errdenominatisingle.1.oute scritti da uno dei nodi di calcolo del cluster. Poiché il processo è stato eseguito in una directory condivisa (/shared), sono disponibili anche nel nodo di accesso. Questo è il motivo per cui hai configurato un file system FSx for Lustre per questo cluster. -
Ispeziona il contenuto del
single.1.outfile.cat /shared/single.1.outL'output è simile a quello riportato di seguito:
This is job test [1] running on compute-1, submitted from ip-10-3-13-181 Job complete