As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Sistema de monitoramento de saúde
SageMaker HyperPod sistema de monitoramento de saúde inclui dois componentes
-
Agentes de monitoramento instalados em seus nós, que incluem o Health Monitoring Agent (HMA), que serve como um monitor de integridade no host e um conjunto de monitores de out-of-node saúde.
-
Sistema de recuperação de nós gerenciado por SageMaker HyperPod. O sistema de monitoramento de integridade monitorará o status de integridade do nó continuamente por meio de agentes de monitoramento e, em seguida, tomará medidas automaticamente quando a falha for detectada usando o Node Recovery System.
Verificações de saúde feitas pelo agente de SageMaker HyperPod monitoramento de saúde
O agente de SageMaker HyperPod monitoramento de saúde verifica o seguinte.
NVIDIA GPUs
-
Erros na saída
nvidia-smi -
Vários erros nos registros gerados pela plataforma Amazon Elastic Compute Cloud (EC2)
-
Validação da contagem de GPU — se houver uma incompatibilidade entre o número esperado de GPUs em um determinado tipo de instância (por exemplo: 8 GPUs no tipo de instância ml.p5.48xlarge) e a contagem retornada por, o HMA reinicializa o nó
nvidia-smi
AWSEstágio
-
Erros na saída do AWSmonitor Neuron
-
Saídas geradas pelo detector de problemas do nó do neurônio (para obter mais informações sobre o detector de problemas do nó do AWS neurônio, consulte Detecção e recuperação de problemas do nó do nó do AWS Neuron nos clusters do Amazon
EKS). -
Vários erros nos registros gerados pela EC2 plataforma Amazon
-
Validação da contagem de dispositivos neuronais — se houver uma incompatibilidade entre o número real de contagem de dispositivos neuronais em um determinado tipo de instância e a contagem retornada
neuron-ls, o HMA reinicializa o nó
As verificações acima são passivas, as verificações de integridade em segundo plano são HyperPod executadas continuamente em seus nós. Além dessas verificações, HyperPod também executa verificações de saúde profundas (ou ativas) durante a criação e atualização de HyperPod clusters. Saiba mais sobre verificações de saúde aprofundadas.
Detecção de falhas
Quando SageMaker HyperPod detecta uma falha, ele implementa uma resposta em quatro partes:
-
Rótulos de nós
-
Status de saúde:
sagemaker.amazonaws.com/node-health-status -
Tipo de falha:
sagemaker.amazonaws.com/fault-typesetiqueta para categorização de alto nível -
Motivo da falha:
sagemaker.amazonaws.com/fault-reasonsetiqueta para informações detalhadas da falha
-
-
Mancha do nódulo
-
sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule
-
-
Anotação de nó
-
Detalhes da falha:
sagemaker.amazonaws.com/fault-details -
Registra até 20 falhas com registros de data e hora que ocorreram no nó
-
-
Condições do nó (condição do nó do Kubernetes)
-
Reflete o status de saúde atual nas condições dos nós:
-
Tipo: Igual ao tipo de falha
-
Status:
True -
Motivo: O mesmo que o motivo da falha
-
LastTransitionTime: Tempo de ocorrência da falha
-
-
Registros gerados pelo agente de SageMaker HyperPod monitoramento de saúde
O agente de SageMaker HyperPod monitoramento de integridade é um recurso de verificação de out-of-the-box integridade e é executado continuamente em todos os HyperPod clusters. O agente de monitoramento de integridade publica eventos de saúde detectados em instâncias de GPU ou Trn no grupo de registros CloudWatch do Cluster. /aws/sagemaker/Clusters/
Os registros de detecção do agente de monitoramento de HyperPod integridade são criados como fluxos de registros separados nomeados SagemakerHealthMonitoringAgent para cada nó. Você pode consultar os registros de detecção usando os insights de CloudWatch log da seguinte forma.
fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/
Esse comando retorna uma saída semelhante à seguinte:
2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}