Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Controlli dell’integrità approfonditi
SageMaker HyperPod esegue controlli approfonditi sullo stato delle istanze del cluster durante la creazione e l'aggiornamento dei cluster. HyperPod È inoltre possibile richiedere controlli approfonditi dello stato di salute su richiesta per un SageMaker HyperPod cluster utilizzando l'API. StartClusterHealthCheck I controlli di integrità approfonditi garantiscono l'affidabilità e la stabilità dei SageMaker HyperPod cluster testando i componenti hardware e dell'infrastruttura sottostanti. Questo approccio proattivo aiuta a identificare e mitigare i potenziali problemi nelle prime fasi del ciclo di vita del cluster.
Elenco dei controlli sanitari approfonditi eseguiti da SageMaker HyperPod
SageMaker HyperPod esegue i seguenti controlli sanitari approfonditi.
Instance-level controlli sanitari approfonditi
| Categoria | Nome dell’utilità | Compatibilità del tipo di istanza | Description |
|---|---|---|---|
| Accelerator | GPU/NVLink count | GPU | Verifica i GPU/NVLink conteggi. |
| Accelerator | Diagnostica DCGM |
GPU | Valuta l’integrità e la funzionalità delle GPU NVIDIA eseguendo la diagnostica DCGM (NVIDIA Data Center GPU Manager) di livello 4, che include test di memoria aggiuntivi. |
| Accelerator | Neuron Sysfs | Trainium | Trainium-powered Ad esempio, lo stato dei dispositivi Neuron è determinato dalla lettura dei contatori dei sistemi Neuron propagati direttamente dal driver Neuron. |
| Accelerator | Controllo dell’hardware Neuron | Trainium | Esegue un carico di lavoro di formazione e verifica i risultati per testare l'hardware. |
| Accelerator | Test locale NCCOM | Trainium | Valuta le prestazioni delle operazioni di comunicazione collettiva su singoli nodi Trainium |
| Rete | EFA | GPU e Trainium | Esegue il benchmarking della latenza e della larghezza di banda sul dispositivo EFA collegato. |
Cluster-level controlli sanitari approfonditi
| Categoria | Nome dell’utilità | Compatibilità del tipo di istanza | Description |
|---|---|---|---|
| Accelerator | Test NCCL | GPU | Verifica le prestazioni delle operazioni di comunicazione collettiva su più GPU NVIDIA |
| Accelerator | Test del cluster NCCOM | Trainium | Verifica le prestazioni delle operazioni di comunicazione collettiva su più nodi Trainium |
Controlli di integrità approfonditi con gruppi di istanze flessibili
Ad esempio, i gruppi che utilizzano InstanceRequirements più tipi di istanze, i controlli di integrità approfonditi si comportano come segue:
-
Instance-level i controlli di integrità approfonditi vengono eseguiti solo su tipi di istanze GPU idonei. I tipi di istanze CPU all'interno di un gruppo di istanze flessibile vengono ignorati.
-
Cluster-level i test di connettività (come NCCL AllReduce) vengono eseguiti solo tra istanze dello stesso tipo all'interno del gruppo di istanze. Ciò garantisce risultati dei test accurati che riflettono le funzionalità di rete di ogni tipo di istanza.
-
Se i controlli di integrità approfonditi sono abilitati, almeno un tipo di istanza nel gruppo di istanze flessibile deve supportare controlli di integrità approfonditi.
Log dei controlli dell’integrità approfonditi
Di seguito sono riportati alcuni esempi di log tratti dai controlli sanitari SageMaker HyperPod approfonditi.
Cluster-level logs
I log dei controlli sanitari approfonditi a livello di cluster sono archiviati nel gruppo di log all'indirizzo CloudWatch /aws/sagemaker/Clusters/<cluster_name>/<cluster_id>
I flussi di log vengono registrati in DeepHealthCheckResults/<log_stream_id>.
Nell’esempio illustrato di seguito, i log di output dei controlli dell’integrità approfonditi mostrano l’ID dell’istanza che non ha superato i controlli insieme alla causa dell’errore.
{ "level": "error", "ts": "2024-06-18T21:15:22Z", "msg": "Encountered FaultyInstance. Replace the Instance. Region: us-west-2, InstanceType: p4d.24xlarge. ERROR:Bandwidth has less than threshold: Expected minimum threshold :80,NCCL Test output Bw: 30" }
Instance-level logs
I log dei controlli dell’integrità approfonditi a livello di istanza sono archiviati in /var/log/aws/clusters/sagemaker-deep-health-check.log su ogni nodo. Accedi con SSH al nodo e apri il file di log eseguendo il comando seguente.
cat /var/log/aws/clusters/sagemaker-deep-health-check.log
Di seguito è riportato un esempio di output del controllo dello stress dell’hardware e di NVIDIA DCGM
# Hardware Stress Test output 2024-08-20T21:53:58Z info Executing Hardware stress check with command: stress-ng, and args: [--cpu 32 --vm 2 --hdd 1 --fork 8 --switch 4 --timeout 60 --metrics] 2024-08-20T21:54:58Z info stress-ng success 2024-08-20T21:54:58Z info GpuPci Count check success # DCGM Stress Test 2024-08-20T22:25:02Z info DCGM diagnostic health summary: dcgmCheckLevel: 0 dcgmVersion: 3.3.7 gpuDriverVersion: 535.183.01, gpuDeviceIds: [2237] replacementRequired: false rebootRequired:false # EFA Loopback Test 2024-08-20T22:26:28Z info EFA Loopback check passed for device: rdmap0s29 . Output summary is MaxBw: 58.590000, AvgBw: 32.420000, MaxTypicalLat: 30.870000, MinTypicalLat: 20.080000, AvgLat: 21.630000
Di seguito è riportato un esempio di output del test di connettività NCCL.
# size count type redop root time algbw busbw #wrong time algbw busbw #wrong # (B) (elements) (us) (GB/s) (GB/s) (us) (GB/s) (GB/s) 8 2 float sum -1 353.9 0.00 0.00 0 304.2 0.00 0.00 0 16 4 float sum -1 352.8 0.00 0.00 0 422.9 0.00 0.00 0 32 8 float sum -1 520.0 0.00 0.00 0 480.3 0.00 0.00 0 64 16 float sum -1 563.0 0.00 0.00 0 416.1 0.00 0.00 0 128 32 float sum -1 245.1 0.00 0.00 0 308.4 0.00 0.00 0 256 64 float sum -1 310.8 0.00 0.00 0 304.9 0.00 0.00 0 512 128 float sum -1 304.9 0.00 0.00 0 300.8 0.00 0.00 0 1024 256 float sum -1 509.3 0.00 0.00 0 495.4 0.00 0.00 0 2048 512 float sum -1 530.3 0.00 0.00 0 420.0 0.00 0.00 0 4096 1024 float sum -1 391.2 0.01 0.01 0 384.5 0.01 0.01 0 8192 2048 float sum -1 328.5 0.02 0.02 0 253.2 0.03 0.03 0 16384 4096 float sum -1 497.6 0.03 0.03 0 490.9 0.03 0.03 0 32768 8192 float sum -1 496.7 0.07 0.07 0 425.0 0.08 0.08 0 65536 16384 float sum -1 448.0 0.15 0.15 0 501.0 0.13 0.13 0 131072 32768 float sum -1 577.4 0.23 0.23 0 593.4 0.22 0.22 0 262144 65536 float sum -1 757.8 0.35 0.35 0 721.6 0.36 0.36 0 524288 131072 float sum -1 1057.1 0.50 0.50 0 1019.1 0.51 0.51 0 1048576 262144 float sum -1 1460.5 0.72 0.72 0 1435.6 0.73 0.73 0 2097152 524288 float sum -1 2450.6 0.86 0.86 0 2583.1 0.81 0.81 0 4194304 1048576 float sum -1 4344.5 0.97 0.97 0 4419.3 0.95 0.95 0 8388608 2097152 float sum -1 8176.5 1.03 1.03 0 8197.8 1.02 1.02 0 16777216 4194304 float sum -1 15312 1.10 1.10 0 15426 1.09 1.09 0 33554432 8388608 float sum -1 30149 1.11 1.11 0 29941 1.12 1.12 0 67108864 16777216 float sum -1 57819 1.16 1.16 0 58635 1.14 1.14 0 134217728 33554432 float sum -1 115699 1.16 1.16 0 115331 1.16 1.16 0 268435456 67108864 float sum -1 227507 1.18 1.18 0 228047 1.18 1.18 0 536870912 134217728 float sum -1 453751 1.18 1.18 0 456595 1.18 1.18 0 1073741824 268435456 float sum -1 911719 1.18 1.18 0 911808 1.18 1.18 0 2147483648 536870912 float sum -1 1804971 1.19 1.19 0 1806895 1.19 1.19 0 2024-08-20T16:22:43.831-07:00 # Out of bounds values : 0 OK 2024-08-20T16:22:43.831-07:00 # Avg bus bandwidth : 0.488398 2024-08-20T23:22:43Z info Nccl test successful. Summary: NcclMaxAlgoBw: 1.190000, NcclAvgAlgoBw: 0.488398, NcclThresholdAlgoBw: 1.180000, NcclOutOfBoundError: OK, NcclOperations: all_reduce_perf, NcclTotalDevices: 2, NcclNodes: 2, NcclClusterMessage: