SageMaker HyperPod métricas de cluster - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod métricas de cluster

A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas em seu espaço de trabalho Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho Amazon Managed Grafana.

Categoria métrica Ativado por padrão? Métricas avançadas adicionais disponíveis? Disponível em quais painéis da Grafana?
Métricas de treinamento Sim Sim Treinamento
Métricas de inferência Sim Não Inferência
Métricas de governança de tarefas Não Sim Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métricas de escalabilidade Não Sim Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métricas de cluster Sim Sim Cluster
Métricas de instância Sim Sim Cluster
Métricas de computação aceleradas Sim Sim Tarefa, cluster
Métricas de rede Não Sim Cluster
Sistema de arquivos Sim Não Sistema de arquivos

As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.

Métricas de treinamento

Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
Métricas do Kubeflow https://github.com/kubeflow/treinador Sim Kubeflow
Métricas do pod Kubernetes https://github.com/kubernetes/kube-state-metrics Sim Kubernetes
training_uptime_percentage Porcentagem do tempo de treinamento fora do tamanho total da janela Não SageMaker HyperPod operador de treinamento
training_manual_recovery_count Número total de reinicializações manuais realizadas no trabalho Não SageMaker HyperPod operador de treinamento
training_manual_downtime_ms Tempo total em milissegundos em que o trabalho ficou inativo devido a intervenções manuais Não SageMaker HyperPod operador de treinamento
training_auto_recovery_count Número total de recuperações automáticas Não SageMaker HyperPod operador de treinamento
training_auto_recovery_downtime Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas Não SageMaker HyperPod operador de treinamento
training_fault_count Número total de falhas encontradas durante o treinamento Não SageMaker HyperPod operador de treinamento
training_fault_type_count Distribuição de falhas por tipo Não SageMaker HyperPod operador de treinamento
training_fault_recovery_time_ms Tempo de recuperação em milissegundos para cada tipo de falha Não SageMaker HyperPod operador de treinamento
training_time_ms Tempo total em milissegundos gasto no treinamento real Não SageMaker HyperPod operador de treinamento

Métricas de inferência

Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
model_invocations_total Número total de solicitações de invocação para o modelo Sim SageMaker HyperPod operador de inferência
model_errors_total Número total de erros durante a invocação do modelo Sim SageMaker HyperPod operador de inferência
model_concurrent_requests Solicitações ativas de modelos simultâneos Sim SageMaker HyperPod operador de inferência
model_latency_milliseconds Latência de invocação do modelo em milissegundos Sim SageMaker HyperPod operador de inferência
model_ttfb_milliseconds Tempo de modelagem até a latência do primeiro byte em milissegundos Sim SageMaker HyperPod operador de inferência
TGI Essas métricas podem ser usadas para monitorar o desempenho do TGI, a implantação em escala automática e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Sim Modelo de contêiner
LMI Essas métricas podem ser usadas para monitorar o desempenho do LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Sim Modelo de contêiner

Métricas de governança de tarefas

Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
Kueue Consulte https://kueue.sigs.k8s. io/docs/reference/metrics/. Não Kueue

Métricas de escalabilidade

Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
Métricas do operador KEDA Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator. Não Autoescalador orientado por eventos do Kubernetes (KEDA)
Métricas do webhook da KEDA Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. Não Autoescalador orientado por eventos do Kubernetes (KEDA)
Métricas do servidor KEDA Metrics Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -servidor. Não Autoescalador orientado por eventos do Kubernetes (KEDA)

Métricas de cluster

Use essas métricas para monitorar a integridade geral do cluster e a alocação de recursos.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
Integridade do cluster Métricas do servidor da API Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics/. Sim Kubernetes
Kubestate Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limitado Kubernetes
KubeState Avançado Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Não Kubernetes

Métricas de instância

Use essas métricas para monitorar o desempenho e a integridade de instâncias individuais.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
Métricas do Node Veja https://github.com/prometheus/node_exporter? tabulação = readme-ov-file # enabled-by-default. Sim Kubernetes
Métricas de contêiner Métricas de contêineres expostas pelo Cadvisor. Consulte o https://github.com/google/consultor. Sim Kubernetes

Métricas de computação aceleradas

Use essas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada em seu cluster.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
PLACA DE VÍDEO NVIDIA Métricas DCGM. Veja https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp Limitado

Gerenciador de GPU de data center NVIDIA (DCGM)

GPU NVIDIA (avançada)

Métricas DCGM comentadas no seguinte arquivo CSV:

https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp

Não

Gerenciador de GPU de data center NVIDIA (DCGM)

AWS Estágio Métricas de neurônios. Veja https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters Não AWS Monitor de neurônios

Métricas de rede

Use essas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) em seu cluster.

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
EFA Veja https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Não Elastic Fabric Adapter

Métricas do sistema de arquivos

Nome ou tipo de métrica Descrição Ativado por padrão? Fonte métrica
Sistema de arquivos Métricas do Amazon FSx for Lustre da Amazon CloudWatch:

Monitoramento com a Amazon CloudWatch.

Sim Amazon FSx para Lustre