Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker HyperPodagen pemantauan kesehatan
SageMaker HyperPod agen pemantauan kesehatan terus memantau status kesehatan setiap contoh berbasis GPU atau berbasis Trainium. Ketika mendeteksi instans atau kegagalan GPU, agen menandai instance sebagai tidak sehat.
Pemeriksaan kesehatan dilakukan oleh agen SageMaker HyperPod pemantau kesehatan
Agen SageMaker HyperPod pemantau kesehatan memeriksa hal-hal berikut.
NVIDIA GPUs
-
Kesalahan dalam
nvidia-smi
output -
Berbagai kesalahan dalam log yang dihasilkan oleh platform Amazon Elastic Compute Cloud (EC2)
AWS Trainium
-
Kesalahan dalam output dari monitor AWS Neuron
-
Output yang dihasilkan oleh detektor masalah simpul Neuron (Untuk informasi lebih lanjut tentang detektor masalah simpul AWS Neuron, lihat Deteksi dan pemulihan masalah Node untuk node AWS Neuron dalam kluster Amazon EKS
.) -
Berbagai kesalahan dalam log yang dihasilkan oleh EC2 platform Amazon
Log yang dihasilkan oleh agen SageMaker HyperPod pemantau kesehatan
Agen SageMaker HyperPod pemantauan kesehatan adalah fitur pemeriksaan out-of-the-box kesehatan dan terus berjalan di semua HyperPod cluster. Agen pemantauan kesehatan menerbitkan peristiwa kesehatan yang terdeteksi pada instans GPU atau Trn ke dalam grup log CloudWatch Cluster. /aws/sagemaker/Clusters/
Log deteksi dari agen pemantauan HyperPod kesehatan dibuat sebagai aliran log terpisah yang dinamai SagemakerHealthMonitoringAgent
untuk setiap node. Anda dapat menanyakan log deteksi menggunakan wawasan CloudWatch log sebagai berikut.
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
Ini harus mengembalikan output yang mirip dengan yang berikut ini.
2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}