View a markdown version of this page

Esplora l'ambiente cluster in AWS PCS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esplora l'ambiente cluster in AWS PCS

Dopo aver effettuato l'accesso al cluster, puoi eseguire i comandi della shell. Ad esempio, puoi cambiare utente, lavorare con i dati su file system condivisi e interagire con Slurm.

Cambia utente

Se hai effettuato l'accesso al cluster utilizzando Session Manager, potresti essere connesso comessm-user. Si tratta di un utente speciale creato per Session Manager. Passa all'utente predefinito su Amazon Linux 2023 utilizzando il seguente comando. Non avrai bisogno di farlo se ti connetti tramite SSH.

sudo su - ec2-user

Lavora con file system condivisi

È possibile confermare che il file system EFS e i file system FSx for Lustre sono disponibili con il comando. df -h L'output sul cluster dovrebbe essere simile al seguente:

[ec2-user@ip-10-3-6-103 ~]$ df -h
Filesystem                 Size  Used Avail Use% Mounted on
devtmpfs                   3.8G     0  3.8G   0% /dev
tmpfs                      3.9G     0  3.9G   0% /dev/shm
tmpfs                      3.9G  556K  3.9G   1% /run
tmpfs                      3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/nvme0n1p1              24G   18G  6.6G  73% /
127.0.0.1:/                8.0E     0  8.0E   0% /home
10.3.132.79@tcp:/zlshxbev  1.2T  7.5M  1.2T   1% /shared
tmpfs                      780M     0  780M   0% /run/user/0
tmpfs                      780M     0  780M   0% /run/user/1000

Il /home filesystem monta 127.0.0.1 e ha una capacità molto grande. Questo è il file system EFS creato in precedenza nel tutorial. Tutti i file scritti qui saranno disponibili /home in tutti i nodi del cluster.

Il /shared filesystem monta un IP privato e ha una capacità di 1,2 TB. Questo è il file system FSx for Lustre creato in precedenza nel tutorial. Tutti i file scritti qui saranno disponibili /shared in tutti i nodi del cluster.

Interagisci con Slurm

Elenca code e nodi

È possibile elencare le code e i nodi a cui sono associate. sinfo L'output del cluster dovrebbe essere simile al seguente:

[ec2-user@ip-10-3-6-103 ~]$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
demo         up   infinite      4  idle~ compute-1-[1-4]
[ec2-user@ip-10-3-6-103 ~]$

Notate la partizione denominata. demo Il suo stato è up e ha un massimo di 4 nodi. È associato ai nodi del gruppo di compute-1 nodi. Se modifichi il gruppo di nodi di calcolo e aumenti il numero massimo di istanze a 8, verrà letto il numero di nodi 8 e verrà letto l'elenco dei nodi. compute-1-[1-8] Se creassi un secondo gruppo di nodi di calcolo denominato test con 4 nodi e lo aggiungessi alla demo coda, tali nodi verranno visualizzati anche nell'elenco dei nodi.

Mostra offerte di lavoro

Puoi elencare tutti i lavori, in qualsiasi stato, sul sistema consqueue. L'output del cluster dovrebbe essere simile al seguente:

[ec2-user@ip-10-3-6-103 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

Prova a eseguire squeue di nuovo più tardi, quando hai un job Slurm in sospeso o in esecuzione.