Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Metriche di Amazon SageMaker HyperPod Slurm
Amazon SageMaker HyperPod fornisce una serie di CloudWatch parametri Amazon che puoi utilizzare per monitorare lo stato e le prestazioni dei tuoi HyperPod cluster. Queste metriche vengono raccolte dal gestore del carico di lavoro Slurm in esecuzione sui tuoi HyperPod cluster e sono disponibili nel namespace. /aws/sagemaker/Clusters CloudWatch
Metriche a livello di cluster
Le seguenti metriche a livello di cluster sono disponibili per. HyperPod Queste metriche utilizzano la ClusterId dimensione per identificare il cluster specifico. HyperPod
| CloudWatch nome della metrica | Note | Nome della metrica Amazon EKS Container Insights |
|---|---|---|
| cluster_node_count | Numero totale di nodi nel cluster | cluster_node_count |
| cluster_idle_node_count | Numero di nodi inattivi nel cluster | N/D |
| cluster_failed_node_count | Numero di nodi guasti nel cluster | cluster_failed_node_count |
| cluster_cpu_count | Numero totale di core CPU nel cluster | node_cpu_limit |
| cluster_idle_cpu_count | Numero di core CPU inattivi nel cluster | N/D |
| cluster_gpu_count | Totale nel cluster GPUs | node_gpu_limit |
| cluster_idle_gpu_count | Numero di inattività nel cluster GPUs | N/D |
| cluster_running_task_count | Numero di job Slurm in esecuzione nel cluster | N/D |
| cluster_pending_task_count | Numero di job Slurm in sospeso nel cluster | N/D |
| cluster_preempted_task_count | Numero di job Slurm con priorità nel cluster | N/D |
| cluster_avg_task_wait_time | Tempo di attesa medio per i job Slurm nel cluster | N/D |
| cluster_max_task_wait_time | Tempo di attesa massimo per i job Slurm nel cluster | N/D |
Metriche a livello di istanza
Le seguenti metriche a livello di istanza sono disponibili per. HyperPod Queste metriche utilizzano la ClusterId dimensione anche per identificare il cluster specifico. HyperPod
| CloudWatch nome della metrica | Note | Nome della metrica Amazon EKS Container Insights |
|---|---|---|
| node_gpu_utilization | Utilizzo medio della GPU in tutte le istanze | node_gpu_utilization |
| node_gpu_memory_utilization | Utilizzo medio della memoria GPU in tutte le istanze | node_gpu_memory_utilization |
| node_cpu_utilization | Utilizzo medio della CPU in tutte le istanze | node_cpu_utilization |
| node_memory_utilization | Utilizzo medio della memoria in tutte le istanze | node_memory_utilization |