

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# SageMaker HyperPod métricas de clúster
<a name="hyperpod-observability-cluster-metrics"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) publica varias métricas en 9 categorías distintas en tu espacio de trabajo de Amazon Managed Service for Prometheus. No todas las métricas están activadas de forma predeterminada ni se muestran en el espacio de trabajo de Amazon Managed Grafana. En la siguiente tabla se muestra qué métricas están activas de forma predeterminada al instalar el complemento de observabilidad, qué categorías tienen métricas adicionales que se pueden activar para obtener información de clúster más detallada y dónde aparecen en el espacio de trabajo de Amazon Managed Grafana.


| Categoría métrica | ¿Activada de forma predeterminada? | ¿Hay métricas avanzadas adicionales disponibles? | ¿En qué paneles de Grafana está disponible? | 
| --- | --- | --- | --- | 
| Métricas de entrenamiento | Sí | Sí | Formación | 
| Métricas de inferencia | Sí | No | Inferencia | 
| Métricas de gobernanza de tareas | No | Sí | Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel. | 
| Métricas de escalado | No | Sí | Ninguna. Consulte el espacio de trabajo de Amazon Managed Service para Prometheus para crear su propio panel. | 
| Métricas de clúster | Sí | Sí | Clúster | 
| Métricas de la instancia | Sí | Sí | Clúster | 
| Métricas de computación acelerada | Sí | Sí | Tarea, clúster | 
| Métricas de red | No | Sí | Clúster | 
| Sistema de archivos | Sí | No | Sistema de archivos | 

En las siguientes tablas se describen las métricas disponibles para monitorizar su SageMaker HyperPod clúster, organizadas por categoría.

## Disponibilidad de las métricas en los grupos de instancias restringidos
<a name="hyperpod-observability-rig-metrics-availability"></a>

Cuando el clúster contiene grupos de instancias restringidos, la mayoría de las categorías de métricas están disponibles en los nodos restringidos, con las siguientes excepciones y consideraciones. También puedes configurar las alertas en cualquier métrica que desees.


| Categoría métrica | ¿Disponible en los nodos RIG? | Notas | 
| --- | --- | --- | 
| Métricas de entrenamiento | Sí | Se recopilan las métricas de los pods de Kubeflow y Kubernetes. Las métricas de KPI de entrenamiento avanzadas (del agente de métricas de entrenamiento) no están disponibles en los nodos de RIG. | 
| Métricas de inferencia | No | Los grupos de instancias restringidos no admiten cargas de trabajo de inferencia. | 
| Métricas de gobernanza de tareas | No | Las métricas de Kueue solo se recopilan de los nodos estándar, si los hay. | 
| Métricas de escalado | No | Las métricas de KEDA se recopilan únicamente de los nodos estándar, si los hay. | 
| Métricas de clúster | Sí | Están disponibles las métricas de Kube State y las métricas del servidor API. Kube State Metrics se programa preferentemente en nodos estándar, pero puede ejecutarse en nodos restringidos en clústeres exclusivos de RIG. | 
| Métricas de la instancia | Sí | Las métricas de Node Exporter y cAdvisor se recopilan en todos los nodos, incluidos los nodos restringidos. | 
| Métricas de computación acelerada | Sí | DCGM Exporter se ejecuta en nodos restringidos habilitados para la GPU. Neuron Monitor se ejecuta en nodos restringidos habilitados para Neuron cuando el modo avanzado está activado. | 
| Métricas de red | Sí | EFA Exporter se ejecuta en nodos restringidos habilitados para EFA cuando el modo avanzado está activado. | 
| Métricas del sistema de archivos | Sí | FSx para Lustre, las métricas de uso del clúster son compatibles con los grupos de instancias restringidos. | 

**nota**  
La recopilación de registros de contenedores con Fluent Bit no se implementa en nodos restringidos. Los registros de clúster de los nodos restringidos están disponibles a través de la SageMaker HyperPod plataforma, independientemente del complemento de observabilidad. Puede ver estos registros en el panel de registros de clústeres.

## Métricas de entrenamiento
<a name="hyperpod-observability-training-metrics"></a>

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de entrenamiento ejecutadas en el SageMaker HyperPod clúster.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| Métricas de Kubeflow | [https://github.com/kubeflow/entrenador](https://github.com/kubeflow/trainer) | Sí | Kubeflow | 
| Métricas del pod de Kubernetes | [https://github.com/kubernetes/kube-state-metrics](https://github.com/kubernetes/kube-state-metrics) | Sí | Kubernetes  | 
| training\$1uptime\$1percentage | Porcentaje del tiempo de entrenamiento del tamaño total de la ventana | No | SageMaker HyperPod operador de entrenamiento | 
| training\$1manual\$1recovery\$1count | Número total de reinicios manuales realizados en el trabajo | No | SageMaker HyperPod operador de formación | 
| training\$1manual\$1downtime\$1ms | Tiempo total en milisegundos durante el cual el trabajo ha estado inactivo debido a intervenciones manuales | No | SageMaker HyperPod operador de formación | 
| training\$1auto\$1recovery\$1count | Número total de recuperaciones automáticas | No | SageMaker HyperPod operador de formación | 
| training\$1auto\$1recovery\$1downtime | Tiempo total de sobrecarga de la infraestructura en milisegundos durante la recuperación de errores | No | SageMaker HyperPod operador de formación | 
| training\$1fault\$1count | Número total de errores detectados durante el entrenamiento | No | SageMaker HyperPod operador de formación | 
| training\$1fault\$1type\$1count | Distribución de los fallos por tipo | No | SageMaker HyperPod operador de formación | 
| training\$1fault\$1recovery\$1time\$1ms | Tiempo de recuperación en milisegundos para cada tipo de fallo | No | SageMaker HyperPod operador de formación | 
| training\$1time\$1ms | Tiempo total en milisegundos dedicado al entrenamiento real | No | SageMaker HyperPod operador de formación | 

## Métricas de inferencia
<a name="hyperpod-observability-inference-metrics"></a>

Utilice estas métricas para realizar un seguimiento del rendimiento de las tareas de inferencia en el SageMaker HyperPod clúster.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| model\$1invocations\$1total | Número total de solicitudes de invocación realizadas al modelo | Sí | SageMaker HyperPod operador de inferencia | 
| model\$1errors\$1total | Número total de errores al invocar el modelo | Sí | SageMaker HyperPod operador de inferencia | 
| model\$1concurrent\$1requests | Solicitudes al modelo simultáneas activas | Sí | SageMaker HyperPod operador de inferencia | 
| model\$1latency\$1milliseconds | Latencia de invocación del modelo en milisegundos | Sí | SageMaker HyperPod operador de inferencia | 
| model\$1ttfb\$1milliseconds | Latencia del modelo con respecto al primer byte en milisegundos | Sí | SageMaker HyperPod operador de inferencia | 
| TGI | Estas métricas se pueden utilizar para supervisar el rendimiento de TGI, escalar automáticamente la implementación y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulte [https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | Sí | Contenedor de modelos | 
| LMI | Estas métricas se pueden utilizar para supervisar el rendimiento de LMI y ayudar a identificar los cuellos de botella. Para obtener una lista detallada de las métricas, consulta [https://github.com/deepjavalibrary/djl](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) - .md. serving/blob/master/prometheus/README | Sí | Contenedor de modelos | 

## Métricas de gobernanza de tareas
<a name="hyperpod-observability-task-governance-metrics"></a>

Utilice estas métricas para supervisar la gobernanza de las tareas y la asignación de recursos en el SageMaker HyperPod clúster.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| Kueue | Consulte [https://kueue.sigs.k8s. io/docs/reference/metrics](https://kueue.sigs.k8s.io/docs/reference/metrics/)/. | No | Kueue | 

## Métricas de escalado
<a name="hyperpod-observability-scaling-metrics"></a>

Usa estas métricas para monitorear el comportamiento y el rendimiento del autoscalamiento en el SageMaker HyperPod clúster.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| Métricas del KEDA Operator | Consulte [https://keda. sh/docs/2.17/integrations/prometheus/\$1operator](https://keda.sh/docs/2.17/integrations/prometheus/#operator). | No | Escalado automático basado en eventos de Kubernetes (KEDA) | 
| Métricas de KEDA Webhooks | Consulte [https://keda. sh/docs/2.17/integrations/prometheus/\$1admission -webhooks](https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks). | No | Escalado automático basado en eventos de Kubernetes (KEDA) | 
| Métricas del servidor de KEDA Metrics | [Consulte https://keda. sh/docs/2.17/integrations/prometheus/\$1metrics -server](https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server). | No | Escalado automático basado en eventos de Kubernetes (KEDA) | 

## Métricas de clúster
<a name="hyperpod-observability-cluster-health-metrics"></a>

Utilice estas métricas para supervisar el estado general del clúster y la asignación de recursos.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| Estado del clúster | Métricas del servidor de la API de Kubernetes. Consulte [https://kubernetes. io/docs/reference/instrumentation/metrics](https://kubernetes.io/docs/reference/instrumentation/metrics/)/. | Sí | Kubernetes  | 
| Kubestate | Consulte [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1default -resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources). | Limitado | Kubernetes  | 
| KubeState Avanzado | Consulte [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1optional -resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources). | No | Kubernetes  | 

## Métricas de la instancia
<a name="hyperpod-observability-instance-metrics"></a>

Utilice estas métricas para supervisar el rendimiento y el estado de las instancias individuales.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| Métricas de nodos | ¿Ves [https://github.com/prometheus/node\$1exporter? readme-ov-filetab= \$1 enabled-by-default](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default). | Sí | Kubernetes  | 
| Métricas de contenedores | Métricas de contenedores expuestas por Cadvisor. Consulte [https://github.com/google/cadvisor](https://github.com/google/cadvisor). | Sí | Kubernetes  | 

## Métricas de computación acelerada
<a name="hyperpod-observability-accelerated-compute-metrics"></a>

Utilice estas métricas para supervisar el rendimiento, el estado y la utilización de los dispositivos de computación acelerada individuales de su clúster.

**nota**  
Cuando la partición de GPU con MIG (GPU de instancias múltiples) está habilitada en el clúster, las métricas de DCGM proporcionan automáticamente una granularidad a nivel de partición para monitorear instancias MIG individuales. Cada partición MIG se expone como un dispositivo de GPU independiente con sus propias métricas de temperatura, potencia, uso de memoria y actividad informática. Esto le permite realizar un seguimiento del uso y el estado de los recursos de cada partición de la GPU de forma independiente, lo que permite una supervisión precisa de las cargas de trabajo que se ejecutan en recursos fraccionados de la GPU. Para obtener más información sobre la configuración de la partición de la GPU, consulte. [Uso de particiones de GPU en Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md)


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| NVIDIA GPU | Métricas de DCGM. Consulte [https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | Limitado |  NVIDIA Data Center GPU Manager (DCGM)  | 
|  NVIDIA GPU (avanzado)  | Métricas de DCGM que se comentan en el siguiente archivo CSV:[https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | No |  NVIDIA Data Center GPU Manager (DCGM)  | 
| AWS Trainio | Métricas de Neuron. Consulte [https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html\$1 monitor-user-guide](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters). neuron-monitor-nc-counters | No | AWS Monitor de neuronas | 

## Métricas de red
<a name="hyperpod-observability-network-metrics"></a>

Utilice estas métricas para supervisar el rendimiento y el estado de los Elastic Fabric Adapter (EFA) de su clúster.


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| EFA | Véase [https://github.com/aws-samples/awsome-distributed-training//blob/main/4.validation\$1and\$1observability/3.efa-node-exporter/README.md.](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md) | No | Elastic Fabric Adapter | 

## Métricas del sistema de archivos
<a name="hyperpod-observability-file-system-metrics"></a>


| Nombre o tipo de métrica | Description (Descripción) | ¿Activada de forma predeterminada? | Origen de la métrica | 
| --- | --- | --- | --- | 
| Sistema de archivos | Métricas de Amazon FSx for Lustre: CloudWatch[Monitorización con Amazon CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html). | Sí | Amazon FSx para Lustre | 