Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod métriques du cluster
Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant montre quelles métriques sont activées par défaut lorsque vous installez le module complémentaire d’observabilité, quelles catégories comportent des métriques supplémentaires qui peuvent être activées pour obtenir des informations plus granulaires sur le cluster, et où elles apparaissent dans l’espace de travail Amazon Managed Grafana.
| Catégorie de la métrique | Activée par défaut ? | Autres métriques avancées disponibles ? | Disponible dans quels tableaux de bord Grafana ? |
|---|---|---|---|
| Métriques d’entraînement | Oui | Oui | Entraînement |
| Métriques d’inférence | Oui | Non | Inférence |
| Métriques de gouvernance des tâches | Non | Oui | Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord. |
| Métriques de mise à l’échelle | Non | Oui | Aucune. Interrogez votre espace de travail Service géré Amazon pour Prometheus pour générer votre propre tableau de bord. |
| Métriques du cluster | Oui | Oui | Cluster |
| Métriques des instances | Oui | Oui | Cluster |
| Métriques de calcul accéléré | Oui | Oui | Tâche, cluster |
| Métriques de réseau | Non | Oui | Cluster |
| Système de fichiers | Oui | Non | Système de fichiers |
Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.
Disponibilité des métriques sur les groupes d'instances restreints
Lorsque votre cluster contient des groupes d'instances restreints, la plupart des catégories de métriques sont disponibles sur les nœuds restreints, avec les exceptions et considérations suivantes. Vous pouvez également configurer des alertes sur n'importe quel indicateur de votre choix.
| Catégorie de la métrique | Disponible sur les nœuds RIG ? | Remarques |
|---|---|---|
| Métriques d’entraînement | Oui | Les métriques des pods Kubeflow et Kubernetes sont collectées. Les indicateurs de KPI d'entraînement avancés (fournis par Training Metrics Agent) ne sont pas disponibles sur les nœuds RIG. |
| Métriques d’inférence | Non | Les charges de travail d'inférence ne sont pas prises en charge sur les groupes d'instances restreints. |
| Métriques de gouvernance des tâches | Non | Les métriques Kueue sont collectées uniquement à partir des nœuds standard, le cas échéant. |
| Métriques de mise à l’échelle | Non | Les métriques KEDA sont collectées uniquement à partir des nœuds standard, le cas échéant. |
| Métriques du cluster | Oui | Les métriques Kube State et les métriques du serveur API sont disponibles. Kube State Metrics est planifié de préférence sur des nœuds standard, mais peut s'exécuter sur des nœuds restreints dans des clusters RIG uniquement. |
| Métriques des instances | Oui | Les métriques Node Exporter et cAdvisor sont collectées sur tous les nœuds, y compris les nœuds restreints. |
| Métriques de calcul accéléré | Oui | DCGM Exporter s'exécute sur des nœuds restreints compatibles avec le GPU. Neuron Monitor s'exécute sur les nœuds restreints compatibles avec Neuron lorsque le mode avancé est activé. |
| Métriques de réseau | Oui | EFA Exporter s'exécute sur des nœuds restreints compatibles EFA lorsque le mode avancé est activé. |
| Métriques du système de fichiers | Oui | FSx pour les clusters Lustre, les métriques d'utilisation sont prises en charge sur les groupes d'instances restreints. |
Note
La collecte de journaux de conteneurs avec Fluent Bit n'est pas déployée sur des nœuds restreints. Les journaux de cluster provenant de nœuds restreints sont disponibles via la SageMaker HyperPod plateforme indépendamment du module complémentaire d'observabilité. Vous pouvez consulter ces journaux dans le tableau de bord Cluster Logs.
Métriques d’entraînement
Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Métriques Kubeflow | https://github.com/kubeflow/entraîneur |
Oui | Kubeflow |
| Métriques des pods Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Oui | Kubernetes |
training_uptime_percentage |
Pourcentage du temps d’entraînement par rapport à la taille totale de la fenêtre | Non | SageMaker HyperPod opérateur de formation |
training_manual_recovery_count |
Nombre total de redémarrages manuels effectués au cours de la tâche | Non | SageMaker HyperPod opérateur de formation |
training_manual_downtime_ms |
Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d’interventions manuelles | Non | SageMaker HyperPod opérateur de formation |
training_auto_recovery_count |
Nombre total de récupérations automatiques | Non | SageMaker HyperPod opérateur de formation |
training_auto_recovery_downtime |
Temps total de surcharge de l’infrastructure en millisecondes pendant la reprise après panne | Non | SageMaker HyperPod opérateur de formation |
training_fault_count |
Nombre total de défaillances rencontrées pendant l’entraînement | Non | SageMaker HyperPod opérateur de formation |
training_fault_type_count |
Distribution des défaillances par type | Non | SageMaker HyperPod opérateur de formation |
training_fault_recovery_time_ms |
Temps de récupération en millisecondes pour chaque type de défaillance | Non | SageMaker HyperPod opérateur de formation |
training_time_ms |
Temps total en millisecondes consacré à l’entraînement réel | Non | SageMaker HyperPod opérateur de formation |
Métriques d’inférence
Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
model_invocations_total |
Nombre total de demandes d’invocation adressées au modèle | Oui | SageMaker HyperPod opérateur d'inférence |
model_errors_total |
Nombre total d’erreurs lors de l’invocation du modèle | Oui | SageMaker HyperPod opérateur d'inférence |
model_concurrent_requests |
Demandes de modèle simultanées actives | Oui | SageMaker HyperPod opérateur d'inférence |
model_latency_milliseconds |
Latence d’invocation de modèle en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence |
model_ttfb_milliseconds |
Latence du délai jusqu’au premier octet en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence |
| TGI | Ces métriques peuvent être utilisées pour surveiller les performances de TGI, effectuer l’autoscaling du déploiement et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Oui | Conteneur de modèle |
| LMI | Ces métriques peuvent être utilisées pour surveiller les performances de LMI et aider à identifier les goulots d’étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Oui | Conteneur de modèle |
Métriques de gouvernance des tâches
Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Kueue | Voir https://kueue.sigs.k8s. io/docs/reference/metrics |
Non | Kueue |
Métriques de mise à l’échelle
Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Métriques de l’opérateur KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Non | Kubernetes Event-driven Autoscaler (KEDA) |
| Métriques du webhook KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Non | Kubernetes Event-driven Autoscaler (KEDA) |
| Métriques du serveur de métriques KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#metrics -serveur. |
Non | Kubernetes Event-driven Autoscaler (KEDA) |
Métriques du cluster
Utilisez ces métriques pour surveiller l’état général du cluster et l’allocation des ressources.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| État du cluster | Métriques du serveur d’API Kubernetes. Voir https://kubernetes. io/docs/reference/instrumentation/metrics |
Oui | Kubernetes |
| Kubestate | Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limité | Kubernetes |
| KubeState Avancé | Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Non | Kubernetes |
Métriques des instances
Utilisez ces métriques pour surveiller les performances et l’état de chaque instance.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Métriques des nœuds | Voir https://github.com/prometheus/node_exporter ? tab= readme-ov-file #. enabled-by-default |
Oui | Kubernetes |
| Métriques des conteneurs | Métriques relatives aux conteneurs, exposées par Cadvisor. Voir le https://github.com/google/conseiller. |
Oui | Kubernetes |
Métriques de calcul accéléré
Utilisez ces métriques pour surveiller les performances, l’état et l’utilisation des différents appareils de calcul accéléré de votre cluster.
Note
Lorsque le partitionnement du GPU avec MIG (GPU multi-instance) est activé sur votre cluster, les métriques DCGM fournissent automatiquement une granularité au niveau de la partition pour surveiller les instances MIG individuelles. Chaque partition MIG est exposée en tant que périphérique GPU distinct avec ses propres mesures de température, de puissance, d'utilisation de la mémoire et d'activité de calcul. Cela vous permet de suivre l'utilisation des ressources et l'état de santé de chaque partition GPU indépendamment, ce qui permet de surveiller avec précision les charges de travail exécutées sur des ressources GPU fractionnées. Pour plus d'informations sur la configuration du partitionnement du GPU, consultezUtilisation de partitions GPU dans Amazon SageMaker HyperPod.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| GPU NVIDIA | Métriques DCGM. Voir https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv |
Limité |
Data Center GPU Manager (DCGM) NVIDIA |
|
GPU NVIDIA (avancé) |
Métriques DCGM mises en commentaires dans le fichier CSV suivant : https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
Non |
Data Center GPU Manager (DCGM) NVIDIA |
| AWS Trainium | Métriques neuronales. Voir https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Non | AWS Moniteur Neuron |
Métriques de réseau
Utilisez ces métriques pour surveiller les performances et l’état des adaptateurs Elastic Fabric Adapters (EFA) de votre cluster.
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| EFA | Voir https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Non | Elastic Fabric Adapter |
Métriques du système de fichiers
| Nom ou type de la métrique | Description | Activée par défaut ? | Source de la métrique |
|---|---|---|---|
| Système de fichiers | Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch : | Oui | Amazon FSx pour Lustre |