Métricas de treinamento Métricas de inferência Métricas de governança de tarefas Métrica de ajuste de escala Métricas de cluster Métricas de instância Métricas de computação acelerada Métricas de rede Métricas do sistema de arquivos

SageMaker HyperPod métricas de cluster

A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas no espaço de trabalho do Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho do Amazon Managed Grafana.

Categoria métrica	Habilitada por padrão?	Métricas avançadas adicionais disponíveis?	Disponível em quais painéis do Grafana?
Métricas de treinamento	Sim	Sim	Treinamento
Métricas de inferência	Sim	Não	Inferência
Métricas de governança de tarefas	Não	Sim	Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métrica de ajuste de escala	Não	Sim	Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métricas de cluster	Sim	Sim	Cluster
Métricas de instância	Sim	Sim	Cluster
Métricas de computação acelerada	Sim	Sim	Tarefa, cluster
Métricas de rede	Não	Sim	Cluster
Sistema de arquivos	Sim	Não	Sistema de arquivos

As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.

Métricas de treinamento

Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Métricas do Kubeflow	https://github.com/kubeflow/treinador	Sim	Kubeflow
Métricas de pod do Kubernetes	https://github.com/kubernetes/kube-state-metrics	Sim	Kubernetes
`training_uptime_percentage`	Porcentagem do tempo de treinamento fora do tamanho total da janela.	Não	SageMaker HyperPod operador de treinamento
`training_manual_recovery_count`	Número total de reinicializações manuais realizadas na tarefa.	Não	SageMaker HyperPod operador de treinamento
`training_manual_downtime_ms`	Tempo total em milissegundos em que a tarefa ficou inativa devido a intervenções manuais.	Não	SageMaker HyperPod operador de treinamento
`training_auto_recovery_count`	Número total de recuperações automáticas.	Não	SageMaker HyperPod operador de treinamento
`training_auto_recovery_downtime`	Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas.	Não	SageMaker HyperPod operador de treinamento
`training_fault_count`	Número total de falhas encontradas durante o treinamento.	Não	SageMaker HyperPod operador de treinamento
`training_fault_type_count`	Distribuição de falhas por tipo.	Não	SageMaker HyperPod operador de treinamento
`training_fault_recovery_time_ms`	Tempo de recuperação em milissegundos para cada tipo de falha.	Não	SageMaker HyperPod operador de treinamento
`training_time_ms`	Tempo total em milissegundos gasto no treinamento real.	Não	SageMaker HyperPod operador de treinamento

Métricas de inferência

Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
`model_invocations_total`	Número total de solicitações de invocação ao modelo.	Sim	SageMaker HyperPod operador de inferência
`model_errors_total`	Número total de erros durante a invocação do modelo.	Sim	SageMaker HyperPod operador de inferência
`model_concurrent_requests`	Solicitações simultâneas de modelo ativas.	Sim	SageMaker HyperPod operador de inferência
`model_latency_milliseconds`	Latência de invocação do modelo em milissegundos.	Sim	SageMaker HyperPod operador de inferência
`model_ttfb_milliseconds`	Tempo de modelagem até a latência do primeiro byte em milissegundos.	Sim	SageMaker HyperPod operador de inferência
TGI	Estas métricas podem ser usadas para monitorar o desempenho da TGI, ajustar a escala da implantação automaticamente e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Sim	Contêiner do modelo
LMI	Estas métricas podem ser usadas para monitorar o desempenho da LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.	Sim	Contêiner do modelo

Métricas de governança de tarefas

Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Kueue	Consulte https://kueue.sigs.k8s. io/docs/reference/metrics/.	Não	Kueue

Métrica de ajuste de escala

Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Métricas do operador KEDA	Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator.	Não	Kubernetes Event-driven Autoscaler (KEDA)
Métricas de webhook do KEDA	Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks.	Não	Kubernetes Event-driven Autoscaler (KEDA)
Métricas do KEDA Metrics Server	Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -servidor.	Não	Kubernetes Event-driven Autoscaler (KEDA)

Métricas de cluster

Use estas métricas para monitorar a integridade geral do cluster e a alocação de recursos.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Integridade do cluster	Métricas do servidor de API do Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics/.	Sim	Kubernetes
Kubestate	Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Limitado	Kubernetes
KubeState Avançado	Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Não	Kubernetes

Métricas de instância

Use estas métricas para monitorar o desempenho e a integridade de instâncias individuais.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Métricas de nó	Veja https://github.com/prometheus/node_exporter? tabulação = readme-ov-file # enabled-by-default.	Sim	Kubernetes
Métricas de contêiner	Métricas de contêiner expostas pelo Cadvisor. Consulte o https://github.com/google/consultor.	Sim	Kubernetes

Métricas de computação acelerada

Use estas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada no cluster.

nota

Quando o particionamento de GPU com MIG (GPU de várias instâncias) está ativado em seu cluster, as métricas do DCGM fornecem automaticamente granularidade em nível de partição para monitorar instâncias MIG individuais. Cada partição MIG é exposta como um dispositivo de GPU separado com suas próprias métricas de temperatura, energia, utilização de memória e atividade computacional. Isso permite que você acompanhe o uso e a integridade dos recursos de cada partição de GPU de forma independente, permitindo o monitoramento preciso das cargas de trabalho executadas em recursos fracionários da GPU. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
GPU da NVIDIA	Métricas do DCGM. Veja https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp	Limitado	Data Center GPU Manager (DCGM) da NVIDIA
GPU da NVIDIA (avançada)	Métricas do DCGM comentadas no seguinte arquivo CSV: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp	Não	Data Center GPU Manager (DCGM) da NVIDIA
AWSEstágio	Métricas do Neuron. Veja https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters	Não	AWSMonitor de neurônios

Métricas de rede

Use estas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) no cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
EFA	Veja https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Não	Elastic Fabric Adapter

Métricas do sistema de arquivos

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Sistema de arquivos	Métricas do Amazon FSx for Lustre da Amazon CloudWatch: Monitoramento com a Amazon CloudWatch.	Sim	Amazon FSx para Lustre

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Métricas personalizadas

Alertas pré-configurados