SageMaker HyperPod métriques du cluster - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker HyperPod métriques du cluster

Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant indique quelles mesures sont activées par défaut lorsque vous installez le module complémentaire d'observabilité, quelles catégories comportent des mesures supplémentaires qui peuvent être activées pour obtenir des informations plus détaillées sur le cluster, et où elles apparaissent dans l'espace de travail Amazon Managed Grafana.

Catégorie de la métrique Activé par défaut ? D'autres indicateurs avancés sont-ils disponibles ? Disponible sous quels tableaux de bord Grafana ?
Indicateurs de formation Oui Oui Entraînement
Métriques d'inférence Oui Non Inférence
Indicateurs de gouvernance des tâches Non Oui Aucune. Interrogez votre espace de travail Amazon Managed Service for Prometheus pour créer votre propre tableau de bord.
Métriques de dimensionnement Non Oui Aucune. Interrogez votre espace de travail Amazon Managed Service for Prometheus pour créer votre propre tableau de bord.
Métriques du cluster Oui Oui Cluster
Métriques des instances Oui Oui Cluster
Mesures de calcul accélérées Oui Oui Tâche, cluster
Métriques du réseau Non Oui Cluster
Système de fichiers Oui Non Système de fichiers

Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.

Indicateurs de formation

Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.

Nom ou type de métrique Description Activé par défaut ? Source métrique
Métriques Kubeflow https://github.com/kubeflow/entraîneur Oui Kubeflow
Métriques du pod Kubernetes https://github.com/kubernetes/kube-state-metrics Oui Kubernetes
training_uptime_percentage Pourcentage du temps de formation par rapport à la taille totale de la fenêtre Non SageMaker HyperPod opérateur de formation
training_manual_recovery_count Nombre total de redémarrages manuels effectués au cours de la tâche Non SageMaker HyperPod opérateur de formation
training_manual_downtime_ms Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d'interventions manuelles Non SageMaker HyperPod opérateur de formation
training_auto_recovery_count Nombre total de restaurations automatiques Non SageMaker HyperPod opérateur de formation
training_auto_recovery_downtime Temps total de surcharge de l'infrastructure en millisecondes pendant la reprise après panne Non SageMaker HyperPod opérateur de formation
training_fault_count Nombre total de défauts rencontrés pendant l'entraînement Non SageMaker HyperPod opérateur de formation
training_fault_type_count Répartition des défauts par type Non SageMaker HyperPod opérateur de formation
training_fault_recovery_time_ms Temps de restauration en millisecondes pour chaque type de panne Non SageMaker HyperPod opérateur de formation
training_time_ms Temps total en millisecondes consacré à la formation réelle Non SageMaker HyperPod opérateur de formation

Métriques d'inférence

Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.

Nom ou type de métrique Description Activé par défaut ? Source métrique
model_invocations_total Nombre total de demandes d'invocation adressées au modèle Oui SageMaker HyperPod opérateur d'inférence
model_errors_total Nombre total d'erreurs lors de l'invocation du modèle Oui SageMaker HyperPod opérateur d'inférence
model_concurrent_requests Demandes de modèles simultanées actives Oui SageMaker HyperPod opérateur d'inférence
model_latency_milliseconds Latence d'invocation du modèle en millisecondes Oui SageMaker HyperPod opérateur d'inférence
model_ttfb_milliseconds Temps de latence du modèle par rapport au premier octet en millisecondes Oui SageMaker HyperPod opérateur d'inférence
TGI Ces indicateurs peuvent être utilisés pour surveiller les performances du TGI, adapter automatiquement le déploiement et aider à identifier les goulets d'étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Oui Modèle de conteneur
LMI Ces indicateurs peuvent être utilisés pour surveiller les performances du LMI et pour aider à identifier les goulots d'étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. Oui Modèle de conteneur

Indicateurs de gouvernance des tâches

Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.

Nom ou type de métrique Description Activé par défaut ? Source métrique
Kueue Voir https://kueue.sigs.k8s. io/docs/reference/metrics/. Non Kueue

Métriques de dimensionnement

Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.

Nom ou type de métrique Description Activé par défaut ? Source métrique
Mesures relatives aux opérateurs KEDA Voir https://keda. sh/docs/2.17/integrations/prometheus/#operator. Non Autoscaler piloté par les événements Kubernetes (KEDA)
Métriques du webbook KEDA Voir https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. Non Autoscaler piloté par les événements Kubernetes (KEDA)
Métriques du serveur KEDA Metrics Voir https://keda. sh/docs/2.17/integrations/prometheus/#metrics -serveur. Non Autoscaler piloté par les événements Kubernetes (KEDA)

Métriques du cluster

Utilisez ces mesures pour surveiller l'état général du cluster et l'allocation des ressources.

Nom ou type de métrique Description Activé par défaut ? Source métrique
Santé du cluster Métriques du serveur d'API Kubernetes. Voir https://kubernetes. io/docs/reference/instrumentation/metrics/. Oui Kubernetes
État de Kube Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limité Kubernetes
KubeState Avancé Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Non Kubernetes

Métriques des instances

Utilisez ces mesures pour surveiller les performances et l'état de santé de chaque instance.

Nom ou type de métrique Description Activé par défaut ? Source métrique
Métriques des nœuds Voir https://github.com/prometheus/node_exporter ? tab= readme-ov-file #. enabled-by-default Oui Kubernetes
Métriques relatives aux conteneurs Métriques relatives aux conteneurs exposées par Cadvisor. Voir le https://github.com/google/conseiller. Oui Kubernetes

Mesures de calcul accélérées

Utilisez ces indicateurs pour surveiller les performances, l'état et l'utilisation des différents appareils de calcul accéléré de votre cluster.

Nom ou type de métrique Description Activé par défaut ? Source métrique
GPU NVIDIA Métriques DCGM. Voir https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv. Limité

Gestionnaire de cartes graphiques NVIDIA pour centres de données (DCGM)

GPU NVIDIA (avancé)

Métriques DCGM commentées dans le fichier CSV suivant :

https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp

Non

Gestionnaire de cartes graphiques NVIDIA pour centres de données (DCGM)

AWS Trainium Métriques neuronales. Voir https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters Non AWS Moniteur Neuron

Métriques du réseau

Utilisez ces indicateurs pour surveiller les performances et l'état des adaptateurs Elastic Fabric (EFA) de votre cluster.

Nom ou type de métrique Description Activé par défaut ? Source métrique
EFA Voir https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Non Elastic Fabric Adapter

Métriques du système de fichiers

Nom ou type de métrique Description Activé par défaut ? Source métrique
Système de fichiers Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch :

Surveillance avec Amazon CloudWatch.

Oui Amazon FSx pour Lustre