Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
SageMaker HyperPod métricas de clústeres
Amazon SageMaker HyperPod (SageMaker HyperPod) publica varias métricas en 9 categorías distintas en tu espacio de trabajo de Amazon Managed Service for Prometheus. No todas las métricas están habilitadas de forma predeterminada ni se muestran en tu espacio de trabajo de Grafana gestionado por Amazon. La siguiente tabla muestra qué métricas están habilitadas de forma predeterminada al instalar el complemento de observabilidad, qué categorías tienen métricas adicionales que se pueden habilitar para obtener información de clúster más detallada y dónde aparecen en el espacio de trabajo de Grafana gestionado por Amazon.
Categoría métrica | ¿Está activado de forma predeterminada? | ¿Hay métricas avanzadas adicionales disponibles? | ¿Disponible en qué paneles de Grafana? |
---|---|---|---|
Métricas de entrenamiento | Sí | Sí | Formación |
Métricas de inferencia | Sí | No | Inferencia |
Métricas de gobierno de tareas | No | Sí | Ninguna. Consulta tu espacio de trabajo de Amazon Managed Service for Prometheus para crear tu propio panel de control. |
Métricas de escalado | No | Sí | Ninguna. Consulta tu espacio de trabajo de Amazon Managed Service for Prometheus para crear tu propio panel de control. |
Métricas de clúster | Sí | Sí | Clúster |
Métricas de la instancia | Sí | Sí | Clúster |
Métricas informáticas aceleradas | Sí | Sí | Tarea, clúster |
Métricas de red | No | Sí | Clúster |
Sistema de archivos | Sí | No | Sistema de archivos |
En las siguientes tablas, se describen las métricas disponibles para supervisar el SageMaker HyperPod clúster, organizadas por categoría.
Métricas de entrenamiento
Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de entrenamiento ejecutadas en el SageMaker HyperPod clúster.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
Métricas de Kubeflow | https://github.com/kubeflow/entrenador |
Sí | Kubeflow |
Métricas del pod de Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Sí | Kubernetes |
training_uptime_percentage |
Porcentaje del tiempo de entrenamiento respecto del tamaño total de la ventana | No | SageMaker HyperPod operador de entrenamiento |
training_manual_recovery_count |
Número total de reinicios manuales realizados en el trabajo | No | SageMaker HyperPod entrenando a un operador |
training_manual_downtime_ms |
Tiempo total en milisegundos durante el cual el trabajo estuvo inactivo debido a intervenciones manuales | No | SageMaker HyperPod entrenando a un operador |
training_auto_recovery_count |
Número total de recuperaciones automáticas | No | SageMaker HyperPod operador de formación |
training_auto_recovery_downtime |
Tiempo total de sobrecarga de infraestructura en milisegundos durante la recuperación de errores | No | SageMaker HyperPod entrenando a un operador |
training_fault_count |
Número total de fallos detectados durante el entrenamiento | No | SageMaker HyperPod operador de entrenamiento |
training_fault_type_count |
Distribución de las averías por tipo | No | SageMaker HyperPod operador de formación |
training_fault_recovery_time_ms |
Tiempo de recuperación en milisegundos para cada tipo de avería | No | SageMaker HyperPod operador de formación |
training_time_ms |
Tiempo total en milisegundos dedicado al entrenamiento real | No | SageMaker HyperPod entrenando a un operador |
Métricas de inferencia
Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de inferencia en el SageMaker HyperPod clúster.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
model_invocations_total |
Número total de solicitudes de invocación al modelo | Sí | SageMaker HyperPod operador de inferencia |
model_errors_total |
Número total de errores durante la invocación del modelo | Sí | SageMaker HyperPod operador de inferencia |
model_concurrent_requests |
Solicitudes de modelos simultáneas activas | Sí | SageMaker HyperPod operador de inferencia |
model_latency_milliseconds |
Modele la latencia de invocación en milisegundos | Sí | SageMaker HyperPod operador de inferencia |
model_ttfb_milliseconds |
Modele el tiempo de latencia hasta el primer byte en milisegundos | Sí | SageMaker HyperPod operador de inferencia |
TGI | Estas métricas se pueden utilizar para supervisar el rendimiento de TGI, escalar automáticamente el despliegue y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte djl- .md. https://github.com/deepjavalibrary/ serving/blob/master/prometheus/README |
Sí | Contenedor modelo |
LMI | Estas métricas se pueden usar para monitorear el rendimiento del LMI y para ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte https://github.com/deepjavalibrary/ djl- .md. serving/blob/master/prometheus/README |
Sí | Contenedor modelo |
Métricas de gobierno de tareas
Utilice estas métricas para supervisar la gobernanza de las tareas y la asignación de recursos en el SageMaker HyperPod clúster.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
Kueue | Consulte https://kueue.sigs.k8s. io/docs/reference/metrics |
No | Kueue |
Métricas de escalado
Usa estas métricas para monitorear el comportamiento y el rendimiento del autoscalamiento en el SageMaker HyperPod clúster.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
Métricas de operadores de KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator |
No | Escalador automático basado en eventos de Kubernetes (KEDA) |
Métricas de webbooks de KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
No | Escalador automático basado en eventos de Kubernetes (KEDA) |
Métricas del servidor KEDA Metrics | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
No | Escalador automático basado en eventos de Kubernetes (KEDA) |
Métricas de clúster
Utilice estas métricas para supervisar el estado general del clúster y la asignación de recursos.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
Estado del clúster | Métricas del servidor de API de Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics |
Sí | Kubernetes |
Kubstate | Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limitado | Kubernetes |
KubeState Avanzado | Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
No | Kubernetes |
Métricas de la instancia
Usa estas métricas para monitorear el rendimiento y el estado de las instancias individuales.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
Métricas de nodos | ¿Ve https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default |
Sí | Kubernetes |
Métricas de contenedores | Métricas de contenedores expuestas por Cadvisor. Consulte https://github.com/google/cadvisor |
Sí | Kubernetes |
Métricas informáticas aceleradas
Utilice estas métricas para supervisar el rendimiento, el estado y la utilización de los dispositivos de cómputo acelerado individuales de su clúster.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
GPU NVIDIA | Métricas de DCGM. Consulte https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp |
Limitado |
Administrador de GPU para centros de datos de NVIDIA (DCGM) |
GPU NVIDIA (avanzada) |
Métricas de DCGM que se comentan en el siguiente archivo CSV: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
No |
Administrador de GPU para centros de datos de NVIDIA (DCGM) |
AWS Trainium | Métricas neuronales. Consulte https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
No | AWS Monitor de neuronas |
Métricas de red
Utilice estas métricas para supervisar el rendimiento y el estado de los adaptadores Elastic Fabric (EFA) de su clúster.
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
EFA | Consulte https://github.com/aws-samples/awsome-distributed-trainingblob/main/4.validation_and_observability/3.efa-node-exporter/README/.md. |
No | Elastic Fabric Adapter |
Métricas del sistema de archivos
Nombre o tipo de métrica | Descripción | ¿Está habilitada de forma predeterminada? | Fuente métrica |
---|---|---|---|
Sistema de archivos | Métricas de Amazon FSx for Lustre: CloudWatch | Sí | Amazon FSx para Lustre |