SageMaker HyperPod métricas de cluster - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod métricas de cluster

A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas no espaço de trabalho do Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho do Amazon Managed Grafana.

Categoria métrica Habilitada por padrão? Métricas avançadas adicionais disponíveis? Disponível em quais painéis do Grafana?
Métricas de treinamento Sim Sim Treinamento
Métricas de inferência Sim Não Inferência
Métricas de governança de tarefas Não Sim Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métrica de ajuste de escala Não Sim Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métricas de cluster Sim Sim Cluster
Métricas de instância Sim Sim Cluster
Métricas de computação acelerada Sim Sim Tarefa, cluster
Métricas de rede Não Sim Cluster
Sistema de arquivos Sim Não Sistema de arquivos

As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.

Métricas de treinamento

Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
Métricas do Kubeflow https://github.com/kubeflow/treinador Sim Kubeflow
Métricas de pod do Kubernetes https://github.com/kubernetes/kube-state-metrics Sim Kubernetes
training_uptime_percentage Porcentagem do tempo de treinamento fora do tamanho total da janela. Não SageMaker HyperPod operador de treinamento
training_manual_recovery_count Número total de reinicializações manuais realizadas na tarefa. Não SageMaker HyperPod operador de treinamento
training_manual_downtime_ms Tempo total em milissegundos em que a tarefa ficou inativa devido a intervenções manuais. Não SageMaker HyperPod operador de treinamento
training_auto_recovery_count Número total de recuperações automáticas. Não SageMaker HyperPod operador de treinamento
training_auto_recovery_downtime Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas. Não SageMaker HyperPod operador de treinamento
training_fault_count Número total de falhas encontradas durante o treinamento. Não SageMaker HyperPod operador de treinamento
training_fault_type_count Distribuição de falhas por tipo. Não SageMaker HyperPod operador de treinamento
training_fault_recovery_time_ms Tempo de recuperação em milissegundos para cada tipo de falha. Não SageMaker HyperPod operador de treinamento
training_time_ms Tempo total em milissegundos gasto no treinamento real. Não SageMaker HyperPod operador de treinamento

Métricas de inferência

Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
model_invocations_total Número total de solicitações de invocação ao modelo. Sim SageMaker HyperPod operador de inferência
model_errors_total Número total de erros durante a invocação do modelo. Sim SageMaker HyperPod operador de inferência
model_concurrent_requests Solicitações simultâneas de modelo ativas. Sim SageMaker HyperPod operador de inferência
model_latency_milliseconds Latência de invocação do modelo em milissegundos. Sim SageMaker HyperPod operador de inferência
model_ttfb_milliseconds Tempo de modelagem até a latência do primeiro byte em milissegundos. Sim SageMaker HyperPod operador de inferência
TGI Estas métricas podem ser usadas para monitorar o desempenho da TGI, ajustar a escala da implantação automaticamente e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Sim Contêiner do modelo
LMI Estas métricas podem ser usadas para monitorar o desempenho da LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Sim Contêiner do modelo

Métricas de governança de tarefas

Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
Kueue Consulte https://kueue.sigs.k8s. io/docs/reference/metrics/. Não Kueue

Métrica de ajuste de escala

Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
Métricas do operador KEDA Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator. Não Kubernetes Event-driven Autoscaler (KEDA)
Métricas de webhook do KEDA Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. Não Kubernetes Event-driven Autoscaler (KEDA)
Métricas do KEDA Metrics Server Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -servidor. Não Kubernetes Event-driven Autoscaler (KEDA)

Métricas de cluster

Use estas métricas para monitorar a integridade geral do cluster e a alocação de recursos.

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
Integridade do cluster Métricas do servidor de API do Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics/. Sim Kubernetes
Kubestate Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limitado Kubernetes
KubeState Avançado Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Não Kubernetes

Métricas de instância

Use estas métricas para monitorar o desempenho e a integridade de instâncias individuais.

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
Métricas de nó Veja https://github.com/prometheus/node_exporter? tabulação = readme-ov-file # enabled-by-default. Sim Kubernetes
Métricas de contêiner Métricas de contêiner expostas pelo Cadvisor. Consulte o https://github.com/google/consultor. Sim Kubernetes

Métricas de computação acelerada

Use estas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada no cluster.

nota

Quando o particionamento de GPU com MIG (GPU de várias instâncias) está ativado em seu cluster, as métricas do DCGM fornecem automaticamente granularidade em nível de partição para monitorar instâncias MIG individuais. Cada partição MIG é exposta como um dispositivo de GPU separado com suas próprias métricas de temperatura, energia, utilização de memória e atividade computacional. Isso permite que você acompanhe o uso e a integridade dos recursos de cada partição de GPU de forma independente, permitindo o monitoramento preciso das cargas de trabalho executadas em recursos fracionários da GPU. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
GPU da NVIDIA Métricas do DCGM. Veja https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp Limitado

Data Center GPU Manager (DCGM) da NVIDIA

GPU da NVIDIA (avançada)

Métricas do DCGM comentadas no seguinte arquivo CSV:

https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp

Não

Data Center GPU Manager (DCGM) da NVIDIA

AWSEstágio Métricas do Neuron. Veja https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters Não AWSMonitor de neurônios

Métricas de rede

Use estas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) no cluster.

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
EFA Veja https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Não Elastic Fabric Adapter

Métricas do sistema de arquivos

Nome da métrica ou tipo Description Habilitada por padrão? Origem da métrica
Sistema de arquivos Métricas do Amazon FSx for Lustre da Amazon CloudWatch:

Monitoramento com a Amazon CloudWatch.

Sim Amazon FSx para Lustre