SageMaker HyperPodagen pemantauan kesehatan - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPodagen pemantauan kesehatan

SageMaker HyperPod agen pemantauan kesehatan terus memantau status kesehatan setiap contoh berbasis GPU atau berbasis Trainium. Ketika mendeteksi instans atau kegagalan GPU, agen menandai instance sebagai tidak sehat.

Pemeriksaan kesehatan dilakukan oleh agen SageMaker HyperPod pemantau kesehatan

Agen SageMaker HyperPod pemantau kesehatan memeriksa hal-hal berikut.

NVIDIA GPUs

AWS Trainium

Log yang dihasilkan oleh agen SageMaker HyperPod pemantau kesehatan

Agen SageMaker HyperPod pemantauan kesehatan adalah fitur pemeriksaan out-of-the-box kesehatan dan terus berjalan di semua HyperPod cluster. Agen pemantauan kesehatan menerbitkan peristiwa kesehatan yang terdeteksi pada instans GPU atau Trn ke dalam grup log CloudWatch Cluster. /aws/sagemaker/Clusters/

Log deteksi dari agen pemantauan HyperPod kesehatan dibuat sebagai aliran log terpisah yang dinamai SagemakerHealthMonitoringAgent untuk setiap node. Anda dapat menanyakan log deteksi menggunakan wawasan CloudWatch log sebagai berikut.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Ini harus mengembalikan output yang mirip dengan yang berikut ini.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}