Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPod métriques du cluster
Amazon SageMaker HyperPod (SageMaker HyperPod) publie différentes statistiques réparties dans 9 catégories distinctes sur votre espace de travail Amazon Managed Service for Prometheus. Toutes les métriques ne sont pas activées par défaut ou affichées dans votre espace de travail Amazon Managed Grafana. Le tableau suivant indique quelles mesures sont activées par défaut lorsque vous installez le module complémentaire d'observabilité, quelles catégories comportent des mesures supplémentaires qui peuvent être activées pour obtenir des informations plus détaillées sur le cluster, et où elles apparaissent dans l'espace de travail Amazon Managed Grafana.
Catégorie de la métrique | Activé par défaut ? | D'autres indicateurs avancés sont-ils disponibles ? | Disponible sous quels tableaux de bord Grafana ? |
---|---|---|---|
Indicateurs de formation | Oui | Oui | Entraînement |
Métriques d'inférence | Oui | Non | Inférence |
Indicateurs de gouvernance des tâches | Non | Oui | Aucune. Interrogez votre espace de travail Amazon Managed Service for Prometheus pour créer votre propre tableau de bord. |
Métriques de dimensionnement | Non | Oui | Aucune. Interrogez votre espace de travail Amazon Managed Service for Prometheus pour créer votre propre tableau de bord. |
Métriques du cluster | Oui | Oui | Cluster |
Métriques des instances | Oui | Oui | Cluster |
Mesures de calcul accélérées | Oui | Oui | Tâche, cluster |
Métriques du réseau | Non | Oui | Cluster |
Système de fichiers | Oui | Non | Système de fichiers |
Les tableaux suivants décrivent les mesures disponibles pour surveiller votre SageMaker HyperPod cluster, organisées par catégorie.
Indicateurs de formation
Utilisez ces indicateurs pour suivre les performances des tâches de formation exécutées sur le SageMaker HyperPod cluster.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
Métriques Kubeflow | https://github.com/kubeflow/entraîneur |
Oui | Kubeflow |
Métriques du pod Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Oui | Kubernetes |
training_uptime_percentage |
Pourcentage du temps de formation par rapport à la taille totale de la fenêtre | Non | SageMaker HyperPod opérateur de formation |
training_manual_recovery_count |
Nombre total de redémarrages manuels effectués au cours de la tâche | Non | SageMaker HyperPod opérateur de formation |
training_manual_downtime_ms |
Durée totale en millisecondes pendant laquelle la tâche a été interrompue en raison d'interventions manuelles | Non | SageMaker HyperPod opérateur de formation |
training_auto_recovery_count |
Nombre total de restaurations automatiques | Non | SageMaker HyperPod opérateur de formation |
training_auto_recovery_downtime |
Temps total de surcharge de l'infrastructure en millisecondes pendant la reprise après panne | Non | SageMaker HyperPod opérateur de formation |
training_fault_count |
Nombre total de défauts rencontrés pendant l'entraînement | Non | SageMaker HyperPod opérateur de formation |
training_fault_type_count |
Répartition des défauts par type | Non | SageMaker HyperPod opérateur de formation |
training_fault_recovery_time_ms |
Temps de restauration en millisecondes pour chaque type de panne | Non | SageMaker HyperPod opérateur de formation |
training_time_ms |
Temps total en millisecondes consacré à la formation réelle | Non | SageMaker HyperPod opérateur de formation |
Métriques d'inférence
Utilisez ces mesures pour suivre les performances des tâches d'inférence sur le SageMaker HyperPod cluster.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
model_invocations_total |
Nombre total de demandes d'invocation adressées au modèle | Oui | SageMaker HyperPod opérateur d'inférence |
model_errors_total |
Nombre total d'erreurs lors de l'invocation du modèle | Oui | SageMaker HyperPod opérateur d'inférence |
model_concurrent_requests |
Demandes de modèles simultanées actives | Oui | SageMaker HyperPod opérateur d'inférence |
model_latency_milliseconds |
Latence d'invocation du modèle en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence |
model_ttfb_milliseconds |
Temps de latence du modèle par rapport au premier octet en millisecondes | Oui | SageMaker HyperPod opérateur d'inférence |
TGI | Ces indicateurs peuvent être utilisés pour surveiller les performances du TGI, adapter automatiquement le déploiement et aider à identifier les goulets d'étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Oui | Modèle de conteneur |
LMI | Ces indicateurs peuvent être utilisés pour surveiller les performances du LMI et pour aider à identifier les goulots d'étranglement. Pour une liste détaillée des métriques, consultez https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Oui | Modèle de conteneur |
Indicateurs de gouvernance des tâches
Utilisez ces mesures pour surveiller la gouvernance des tâches et l'allocation des ressources sur le SageMaker HyperPod cluster.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
Kueue | Voir https://kueue.sigs.k8s. io/docs/reference/metrics |
Non | Kueue |
Métriques de dimensionnement
Utilisez ces mesures pour surveiller le comportement et les performances de l'auto-scaling sur le SageMaker HyperPod cluster.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
Mesures relatives aux opérateurs KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Non | Autoscaler piloté par les événements Kubernetes (KEDA) |
Métriques du webbook KEDA | Voir https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Non | Autoscaler piloté par les événements Kubernetes (KEDA) |
Métriques du serveur KEDA Metrics | Voir https://keda. sh/docs/2.17/integrations/prometheus/#metrics -serveur. |
Non | Autoscaler piloté par les événements Kubernetes (KEDA) |
Métriques du cluster
Utilisez ces mesures pour surveiller l'état général du cluster et l'allocation des ressources.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
Santé du cluster | Métriques du serveur d'API Kubernetes. Voir https://kubernetes. io/docs/reference/instrumentation/metrics |
Oui | Kubernetes |
État de Kube | Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limité | Kubernetes |
KubeState Avancé | Voir https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Non | Kubernetes |
Métriques des instances
Utilisez ces mesures pour surveiller les performances et l'état de santé de chaque instance.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
Métriques des nœuds | Voir https://github.com/prometheus/node_exporter ? tab= readme-ov-file #. enabled-by-default |
Oui | Kubernetes |
Métriques relatives aux conteneurs | Métriques relatives aux conteneurs exposées par Cadvisor. Voir le https://github.com/google/conseiller. |
Oui | Kubernetes |
Mesures de calcul accélérées
Utilisez ces indicateurs pour surveiller les performances, l'état et l'utilisation des différents appareils de calcul accéléré de votre cluster.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
GPU NVIDIA | Métriques DCGM. Voir https://github.com/NVIDIA/dcgm- exporter/blob/main/etc/dcp -metrics-included.csv |
Limité |
Gestionnaire de cartes graphiques NVIDIA pour centres de données (DCGM) |
GPU NVIDIA (avancé) |
Métriques DCGM commentées dans le fichier CSV suivant : https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
Non |
Gestionnaire de cartes graphiques NVIDIA pour centres de données (DCGM) |
AWS Trainium | Métriques neuronales. Voir https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Non | AWS Moniteur Neuron |
Métriques du réseau
Utilisez ces indicateurs pour surveiller les performances et l'état des adaptateurs Elastic Fabric (EFA) de votre cluster.
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
EFA | Voir https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Non | Elastic Fabric Adapter |
Métriques du système de fichiers
Nom ou type de métrique | Description | Activé par défaut ? | Source métrique |
---|---|---|---|
Système de fichiers | Statistiques Amazon FSx for Lustre publiées par Amazon CloudWatch : | Oui | Amazon FSx pour Lustre |