Verificações de saúde feitas pelo agente de SageMaker HyperPod monitoramento de saúde Detecção de falhas Registros gerados pelo agente de SageMaker HyperPod monitoramento de saúde

Sistema de monitoramento de saúde

SageMaker HyperPod sistema de monitoramento de saúde inclui dois componentes

Agentes de monitoramento instalados em seus nós, que incluem o Health Monitoring Agent (HMA), que serve como um monitor de integridade no host e um conjunto de monitores de out-of-node saúde.
Sistema de recuperação de nós gerenciado por SageMaker HyperPod. O sistema de monitoramento de integridade monitorará o status de integridade do nó continuamente por meio de agentes de monitoramento e, em seguida, tomará medidas automaticamente quando a falha for detectada usando o Node Recovery System.

Esta imagem ilustra como o sistema de monitoramento de saúde se integrou ao HyperPod Cluster.

Verificações de saúde feitas pelo agente de SageMaker HyperPod monitoramento de saúde

O agente de SageMaker HyperPod monitoramento de saúde verifica o seguinte.

NVIDIA GPUs

Notificações de violação da política DCGM
Erros na saída nvidia-smi
Vários erros nos registros gerados pela plataforma Amazon Elastic Compute Cloud (EC2)
Validação da contagem de GPU — se houver uma incompatibilidade entre o número esperado de GPUs em um determinado tipo de instância (por exemplo: 8 GPUs no tipo de instância ml.p5.48xlarge) e a contagem retornada por, o HMA reinicializa o nó nvidia-smi

AWSEstágio

Erros na saída do AWSmonitor Neuron
Saídas geradas pelo detector de problemas do nó do neurônio (para obter mais informações sobre o detector de problemas do nó do AWS neurônio, consulte Detecção e recuperação de problemas do nó do nó do AWS Neuron nos clusters do Amazon EKS).
Vários erros nos registros gerados pela EC2 plataforma Amazon
Validação da contagem de dispositivos neuronais — se houver uma incompatibilidade entre o número real de contagem de dispositivos neuronais em um determinado tipo de instância e a contagem retornadaneuron-ls, o HMA reinicializa o nó

As verificações acima são passivas, as verificações de integridade em segundo plano são HyperPod executadas continuamente em seus nós. Além dessas verificações, HyperPod também executa verificações de saúde profundas (ou ativas) durante a criação e atualização de HyperPod clusters. Saiba mais sobre verificações de saúde aprofundadas.

Detecção de falhas

Quando SageMaker HyperPod detecta uma falha, ele implementa uma resposta em quatro partes:

Rótulos de nós
1. Status de saúde: sagemaker.amazonaws.com/node-health-status
2. Tipo de falha: sagemaker.amazonaws.com/fault-types etiqueta para categorização de alto nível
3. Motivo da falha: sagemaker.amazonaws.com/fault-reasons etiqueta para informações detalhadas da falha
Mancha do nódulo
1. sagemaker.amazonaws.com/node-health-status=Unschedulable:NoSchedule
Anotação de nó
1. Detalhes da falha: sagemaker.amazonaws.com/fault-details
2. Registra até 20 falhas com registros de data e hora que ocorreram no nó
Condições do nó (condição do nó do Kubernetes)
1. Reflete o status de saúde atual nas condições dos nós:
  - Tipo: Igual ao tipo de falha
  - Status: True
  - Motivo: O mesmo que o motivo da falha
  - LastTransitionTime: Tempo de ocorrência da falha

Esta imagem ilustra como o sistema de monitoramento de saúde funciona quando uma falha é detectada.

Registros gerados pelo agente de SageMaker HyperPod monitoramento de saúde

O agente de SageMaker HyperPod monitoramento de integridade é um recurso de verificação de out-of-the-box integridade e é executado continuamente em todos os HyperPod clusters. O agente de monitoramento de integridade publica eventos de saúde detectados em instâncias de GPU ou Trn no grupo de registros CloudWatch do Cluster. /aws/sagemaker/Clusters/

Os registros de detecção do agente de monitoramento de HyperPod integridade são criados como fluxos de registros separados nomeados SagemakerHealthMonitoringAgent para cada nó. Você pode consultar os registros de detecção usando os insights de CloudWatch log da seguinte forma.


fields @timestamp, @message
| filter @message like /HealthMonitoringAgentDetectionEvent/

Esse comando retorna uma saída semelhante à seguinte:


2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}
2024-08-21T11:35:35.532-07:00
    {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Resiliência de clusters

Verificações de integridade básica