SageMaker HyperPod métricas de clústeres - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod métricas de clústeres

Amazon SageMaker HyperPod (SageMaker HyperPod) publica varias métricas en 9 categorías distintas en tu espacio de trabajo de Amazon Managed Service for Prometheus. No todas las métricas están habilitadas de forma predeterminada ni se muestran en tu espacio de trabajo de Grafana gestionado por Amazon. La siguiente tabla muestra qué métricas están habilitadas de forma predeterminada al instalar el complemento de observabilidad, qué categorías tienen métricas adicionales que se pueden habilitar para obtener información de clúster más detallada y dónde aparecen en el espacio de trabajo de Grafana gestionado por Amazon.

Categoría métrica ¿Está activado de forma predeterminada? ¿Hay métricas avanzadas adicionales disponibles? ¿Disponible en qué paneles de Grafana?
Métricas de entrenamiento Formación
Métricas de inferencia No Inferencia
Métricas de gobierno de tareas No Ninguna. Consulta tu espacio de trabajo de Amazon Managed Service for Prometheus para crear tu propio panel de control.
Métricas de escalado No Ninguna. Consulta tu espacio de trabajo de Amazon Managed Service for Prometheus para crear tu propio panel de control.
Métricas de clúster Clúster
Métricas de la instancia Clúster
Métricas informáticas aceleradas Tarea, clúster
Métricas de red No Clúster
Sistema de archivos No Sistema de archivos

En las siguientes tablas, se describen las métricas disponibles para supervisar el SageMaker HyperPod clúster, organizadas por categoría.

Métricas de entrenamiento

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de entrenamiento ejecutadas en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
Métricas de Kubeflow https://github.com/kubeflow/entrenador Kubeflow
Métricas del pod de Kubernetes https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage Porcentaje del tiempo de entrenamiento respecto del tamaño total de la ventana No SageMaker HyperPod operador de entrenamiento
training_manual_recovery_count Número total de reinicios manuales realizados en el trabajo No SageMaker HyperPod entrenando a un operador
training_manual_downtime_ms Tiempo total en milisegundos durante el cual el trabajo estuvo inactivo debido a intervenciones manuales No SageMaker HyperPod entrenando a un operador
training_auto_recovery_count Número total de recuperaciones automáticas No SageMaker HyperPod operador de formación
training_auto_recovery_downtime Tiempo total de sobrecarga de infraestructura en milisegundos durante la recuperación de errores No SageMaker HyperPod entrenando a un operador
training_fault_count Número total de fallos detectados durante el entrenamiento No SageMaker HyperPod operador de entrenamiento
training_fault_type_count Distribución de las averías por tipo No SageMaker HyperPod operador de formación
training_fault_recovery_time_ms Tiempo de recuperación en milisegundos para cada tipo de avería No SageMaker HyperPod operador de formación
training_time_ms Tiempo total en milisegundos dedicado al entrenamiento real No SageMaker HyperPod entrenando a un operador

Métricas de inferencia

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de inferencia en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
model_invocations_total Número total de solicitudes de invocación al modelo SageMaker HyperPod operador de inferencia
model_errors_total Número total de errores durante la invocación del modelo SageMaker HyperPod operador de inferencia
model_concurrent_requests Solicitudes de modelos simultáneas activas SageMaker HyperPod operador de inferencia
model_latency_milliseconds Modele la latencia de invocación en milisegundos SageMaker HyperPod operador de inferencia
model_ttfb_milliseconds Modele el tiempo de latencia hasta el primer byte en milisegundos SageMaker HyperPod operador de inferencia
TGI Estas métricas se pueden utilizar para supervisar el rendimiento de TGI, escalar automáticamente el despliegue y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte djl- .md. https://github.com/deepjavalibrary/ serving/blob/master/prometheus/README Contenedor modelo
LMI Estas métricas se pueden usar para monitorear el rendimiento del LMI y para ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte https://github.com/deepjavalibrary/ djl- .md. serving/blob/master/prometheus/README Contenedor modelo

Métricas de gobierno de tareas

Utilice estas métricas para supervisar la gobernanza de las tareas y la asignación de recursos en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
Kueue Consulte https://kueue.sigs.k8s. io/docs/reference/metrics/. No Kueue

Métricas de escalado

Usa estas métricas para monitorear el comportamiento y el rendimiento del autoscalamiento en el SageMaker HyperPod clúster.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
Métricas de operadores de KEDA Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator. No Escalador automático basado en eventos de Kubernetes (KEDA)
Métricas de webbooks de KEDA Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. No Escalador automático basado en eventos de Kubernetes (KEDA)
Métricas del servidor KEDA Metrics Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. No Escalador automático basado en eventos de Kubernetes (KEDA)

Métricas de clúster

Utilice estas métricas para supervisar el estado general del clúster y la asignación de recursos.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
Estado del clúster Métricas del servidor de API de Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics/. Kubernetes
Kubstate Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limitado Kubernetes
KubeState Avanzado Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. No Kubernetes

Métricas de la instancia

Usa estas métricas para monitorear el rendimiento y el estado de las instancias individuales.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
Métricas de nodos ¿Ve https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default. Kubernetes
Métricas de contenedores Métricas de contenedores expuestas por Cadvisor. Consulte https://github.com/google/cadvisor. Kubernetes

Métricas informáticas aceleradas

Utilice estas métricas para supervisar el rendimiento, el estado y la utilización de los dispositivos de cómputo acelerado individuales de su clúster.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
GPU NVIDIA Métricas de DCGM. Consulte https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp Limitado

Administrador de GPU para centros de datos de NVIDIA (DCGM)

GPU NVIDIA (avanzada)

Métricas de DCGM que se comentan en el siguiente archivo CSV:

https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp

No

Administrador de GPU para centros de datos de NVIDIA (DCGM)

AWS Trainium Métricas neuronales. Consulte https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters No AWS Monitor de neuronas

Métricas de red

Utilice estas métricas para supervisar el rendimiento y el estado de los adaptadores Elastic Fabric (EFA) de su clúster.

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
EFA Consulte https://github.com/aws-samples/awsome-distributed-trainingblob/main/4.validation_and_observability/3.efa-node-exporter/README/.md. No Elastic Fabric Adapter

Métricas del sistema de archivos

Nombre o tipo de métrica Descripción ¿Está habilitada de forma predeterminada? Fuente métrica
Sistema de archivos Métricas de Amazon FSx for Lustre: CloudWatch

Monitorización con Amazon CloudWatch.

Amazon FSx para Lustre