(Facoltativo) Prova EFA - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

(Facoltativo) Prova EFA

È possibile dimostrare la comunicazione abilitata all'EFA tra due nodi in un gruppo di nodi di calcolo eseguendo il fi_pingpong programma, incluso nell'installazione del software EFA. Se questo test ha esito positivo, è probabile che EFA sia configurato correttamente.

Per iniziare, sono necessarie due istanze in esecuzione nel gruppo di nodi di calcolo. Se il gruppo di nodi di calcolo utilizza una capacità statica, dovrebbero esserci già delle istanze disponibili. Per un gruppo di nodi di calcolo che utilizza capacità dinamica, puoi avviare due nodi utilizzando il comando. salloc Ecco un esempio tratto da un cluster con un gruppo di nodi dinamico denominato hpc7g associato a una coda denominata. all

% salloc --nodes 2 -p all
salloc: Granted job allocation 6
salloc: Waiting for resource configuration
... a few minutes pass ...
salloc: Nodes hpc7g-[1-2] are ready for job

Scopri l'indirizzo IP per i due nodi allocati utilizzando. scontrol Nell'esempio che segue, gli indirizzi sono 10.3.140.69 for hpc7g-1 e 10.3.132.211 forhpc7g-2.

% scontrol show nodes hpc7g-[1-2]
NodeName=hpc7g-1 Arch=aarch64 CoresPerSocket=1
   CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00
   AvailableFeatures=hpc7g
   ActiveFeatures=hpc7g
   Gres=(null)
   NodeAddr=10.3.140.69 NodeHostName=ip-10-3-140-69 Version=24.11.5
   OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024
   RealMemory=124518 AllocMem=0 FreeMem=110763 Sockets=64 Boards=1
   State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=efa
   BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25
   LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None
   CfgTRES=cpu=64,mem=124518M,billing=64
   AllocTRES=
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a
   Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00]
   InstanceId=i-04927897a9ce3c143 InstanceType=hpc7g.16xlarge

NodeName=hpc7g-2 Arch=aarch64 CoresPerSocket=1
   CPUAlloc=0 CPUEfctv=64 CPUTot=64 CPULoad=0.00
   AvailableFeatures=hpc7g
   ActiveFeatures=hpc7g
   Gres=(null)
   NodeAddr=10.3.132.211 NodeHostName=ip-10-3-132-211 Version=24.11.5
   OS=Linux 5.10.218-208.862.amzn2.aarch64 #1 SMP Tue Jun 4 16:52:10 UTC 2024
   RealMemory=124518 AllocMem=0 FreeMem=110759 Sockets=64 Boards=1
   State=IDLE+CLOUD ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=efa
   BootTime=2024-07-02T19:00:09 SlurmdStartTime=2024-07-08T19:33:25
   LastBusyTime=2024-07-08T19:33:25 ResumeAfterTime=None
   CfgTRES=cpu=64,mem=124518M,billing=64
   AllocTRES=
   CapWatts=n/a
   CurrentWatts=0 AveWatts=0
   ExtSensorsJoules=n/a ExtSensorsWatts=0 ExtSensorsTemp=n/a
   Reason=Maintain Minimum Number Of Instances [root@2024-07-02T18:59:00]
   InstanceId=i-0a2c82623cb1393a7 InstanceType=hpc7g.16xlarge

Connect a uno dei nodi (in questo casohpc7g-1) utilizzando SSH (o SSM). Tieni presente che si tratta di un indirizzo IP interno, quindi potresti dover connetterti da uno dei tuoi nodi di accesso se usi SSH. Tieni inoltre presente che l'istanza deve essere configurata con una chiave SSH tramite il modello di avvio del gruppo di nodi di calcolo.

% ssh ec2-user@10.3.140.69

Ora, avvia fi_pingpong in modalità server.

/opt/amazon/efa/bin/fi_pingpong -p efa

Connect alla seconda istanza (hpc7g-2).

% ssh ec2-user@10.3.132.211

Esegui fi_pingpong in modalità client, con connessione al server attivahpc7g-1. L'output dovrebbe essere simile a quello dell'esempio seguente.

% /opt/amazon/efa/bin/fi_pingpong -p efa 10.3.140.69

bytes   #sent   #ack     total       time     MB/sec    usec/xfer   Mxfers/sec
64      10      =10      1.2k        0.00s      3.08      20.75       0.05
256     10      =10      5k          0.00s     21.24      12.05       0.08
1k      10      =10      20k         0.00s     82.91      12.35       0.08
4k      10      =10      80k         0.00s    311.48      13.15       0.08
[error] util/pingpong.c:1876: fi_close (-22) fid 0