As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod métricas de cluster
A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas em seu espaço de trabalho Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho Amazon Managed Grafana.
Categoria métrica | Ativado por padrão? | Métricas avançadas adicionais disponíveis? | Disponível em quais painéis da Grafana? |
---|---|---|---|
Métricas de treinamento | Sim | Sim | Treinamento |
Métricas de inferência | Sim | Não | Inferência |
Métricas de governança de tarefas | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. |
Métricas de escalabilidade | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. |
Métricas de cluster | Sim | Sim | Cluster |
Métricas de instância | Sim | Sim | Cluster |
Métricas de computação aceleradas | Sim | Sim | Tarefa, cluster |
Métricas de rede | Não | Sim | Cluster |
Sistema de arquivos | Sim | Não | Sistema de arquivos |
As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.
Métricas de treinamento
Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
Métricas do Kubeflow | https://github.com/kubeflow/treinador |
Sim | Kubeflow |
Métricas do pod Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Sim | Kubernetes |
training_uptime_percentage |
Porcentagem do tempo de treinamento fora do tamanho total da janela | Não | SageMaker HyperPod operador de treinamento |
training_manual_recovery_count |
Número total de reinicializações manuais realizadas no trabalho | Não | SageMaker HyperPod operador de treinamento |
training_manual_downtime_ms |
Tempo total em milissegundos em que o trabalho ficou inativo devido a intervenções manuais | Não | SageMaker HyperPod operador de treinamento |
training_auto_recovery_count |
Número total de recuperações automáticas | Não | SageMaker HyperPod operador de treinamento |
training_auto_recovery_downtime |
Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas | Não | SageMaker HyperPod operador de treinamento |
training_fault_count |
Número total de falhas encontradas durante o treinamento | Não | SageMaker HyperPod operador de treinamento |
training_fault_type_count |
Distribuição de falhas por tipo | Não | SageMaker HyperPod operador de treinamento |
training_fault_recovery_time_ms |
Tempo de recuperação em milissegundos para cada tipo de falha | Não | SageMaker HyperPod operador de treinamento |
training_time_ms |
Tempo total em milissegundos gasto no treinamento real | Não | SageMaker HyperPod operador de treinamento |
Métricas de inferência
Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
model_invocations_total |
Número total de solicitações de invocação para o modelo | Sim | SageMaker HyperPod operador de inferência |
model_errors_total |
Número total de erros durante a invocação do modelo | Sim | SageMaker HyperPod operador de inferência |
model_concurrent_requests |
Solicitações ativas de modelos simultâneos | Sim | SageMaker HyperPod operador de inferência |
model_latency_milliseconds |
Latência de invocação do modelo em milissegundos | Sim | SageMaker HyperPod operador de inferência |
model_ttfb_milliseconds |
Tempo de modelagem até a latência do primeiro byte em milissegundos | Sim | SageMaker HyperPod operador de inferência |
TGI | Essas métricas podem ser usadas para monitorar o desempenho do TGI, a implantação em escala automática e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sim | Modelo de contêiner |
LMI | Essas métricas podem ser usadas para monitorar o desempenho do LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sim | Modelo de contêiner |
Métricas de governança de tarefas
Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
Kueue | Consulte https://kueue.sigs.k8s. io/docs/reference/metrics |
Não | Kueue |
Métricas de escalabilidade
Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
Métricas do operador KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Não | Autoescalador orientado por eventos do Kubernetes (KEDA) |
Métricas do webhook da KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Não | Autoescalador orientado por eventos do Kubernetes (KEDA) |
Métricas do servidor KEDA Metrics | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -servidor |
Não | Autoescalador orientado por eventos do Kubernetes (KEDA) |
Métricas de cluster
Use essas métricas para monitorar a integridade geral do cluster e a alocação de recursos.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
Integridade do cluster | Métricas do servidor da API Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics |
Sim | Kubernetes |
Kubestate | Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limitado | Kubernetes |
KubeState Avançado | Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Não | Kubernetes |
Métricas de instância
Use essas métricas para monitorar o desempenho e a integridade de instâncias individuais.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
Métricas do Node | Veja https://github.com/prometheus/node_exporter? tabulação = readme-ov-file # enabled-by-default |
Sim | Kubernetes |
Métricas de contêiner | Métricas de contêineres expostas pelo Cadvisor. Consulte o https://github.com/google/consultor. |
Sim | Kubernetes |
Métricas de computação aceleradas
Use essas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada em seu cluster.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
PLACA DE VÍDEO NVIDIA | Métricas DCGM. Veja https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp |
Limitado |
Gerenciador de GPU de data center NVIDIA (DCGM) |
GPU NVIDIA (avançada) |
Métricas DCGM comentadas no seguinte arquivo CSV: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
Não |
Gerenciador de GPU de data center NVIDIA (DCGM) |
AWS Estágio | Métricas de neurônios. Veja https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Não | AWS Monitor de neurônios |
Métricas de rede
Use essas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) em seu cluster.
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
EFA | Veja https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Não | Elastic Fabric Adapter |
Métricas do sistema de arquivos
Nome ou tipo de métrica | Descrição | Ativado por padrão? | Fonte métrica |
---|---|---|---|
Sistema de arquivos | Métricas do Amazon FSx for Lustre da Amazon CloudWatch: | Sim | Amazon FSx para Lustre |