SageMaker HyperPod metriche del cluster - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod metriche del cluster

Amazon SageMaker HyperPod (SageMaker HyperPod) pubblica diverse metriche in 9 categorie distinte nell'area di lavoro Amazon Managed Service for Prometheus. Non tutte le metriche sono abilitate per impostazione predefinita o visualizzate nell'area di lavoro Amazon Managed Grafana. La tabella seguente mostra quali metriche sono abilitate di default quando installi il componente aggiuntivo di osservabilità, quali categorie hanno metriche aggiuntive che possono essere abilitate per informazioni più granulari sul cluster e dove vengono visualizzate nell'area di lavoro Amazon Managed Grafana.

Categoria parametro Abilitato per impostazione predefinita? Sono disponibili metriche avanzate aggiuntive? Disponibile in quali dashboard Grafana?
Metriche di formazione Addestramento
Metriche di inferenza No Inferenza
Metriche di governance delle attività No Nessuna. Interroga il tuo spazio di lavoro Amazon Managed Service for Prometheus per creare la tua dashboard.
Metriche di scalabilità No Nessuna. Interroga il tuo spazio di lavoro Amazon Managed Service for Prometheus per creare la tua dashboard.
Parametri cluster Cluster
Parametri dell'istanza Cluster
Metriche di elaborazione accelerate Attività, cluster
Metriche di rete No Cluster
File system No File system

Le tabelle seguenti descrivono le metriche disponibili per il monitoraggio del SageMaker HyperPod cluster, organizzate per categoria.

Metriche di formazione

Utilizza queste metriche per tenere traccia delle prestazioni delle attività di formazione eseguite sul SageMaker HyperPod cluster.

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
Metriche Kubeflow https://github.com/kubeflow/allenatore Kubeflow
metriche del pod Kubernetes https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage Percentuale di tempo di allenamento rispetto alla dimensione totale della finestra No SageMaker HyperPod operatore addetto alla formazione
training_manual_recovery_count Numero totale di riavvii manuali eseguiti sul lavoro No SageMaker HyperPod operatore addetto alla formazione
training_manual_downtime_ms Tempo totale in millisecondi in cui il lavoro è stato interrotto a causa di interventi manuali No SageMaker HyperPod operatore addetto alla formazione
training_auto_recovery_count Numero totale di ripristini automatici No SageMaker HyperPod operatore addetto alla formazione
training_auto_recovery_downtime Tempo totale di sovraccarico dell'infrastruttura in millisecondi durante il ripristino dei guasti No SageMaker HyperPod operatore addetto alla formazione
training_fault_count Numero totale di errori riscontrati durante l'allenamento No SageMaker HyperPod operatore addetto alla formazione
training_fault_type_count Distribuzione dei guasti per tipologia No SageMaker HyperPod operatore addetto alla formazione
training_fault_recovery_time_ms Tempo di ripristino in millisecondi per ogni tipo di guasto No SageMaker HyperPod operatore addetto alla formazione
training_time_ms Tempo totale in millisecondi impiegato nella formazione effettiva No SageMaker HyperPod operatore addetto alla formazione

Metriche di inferenza

Utilizza queste metriche per tenere traccia delle prestazioni delle attività di inferenza sul cluster. SageMaker HyperPod

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
model_invocations_total Numero totale di richieste di invocazione al modello SageMaker HyperPod operatore di inferenza
model_errors_total Numero totale di errori durante l'invocazione del modello SageMaker HyperPod operatore di inferenza
model_concurrent_requests Richieste di modelli concorrenti attivi SageMaker HyperPod operatore di inferenza
model_latency_milliseconds Latenza di invocazione del modello in millisecondi SageMaker HyperPod operatore di inferenza
model_ttfb_milliseconds Modella il tempo di latenza rispetto al primo byte in millisecondi SageMaker HyperPod operatore di inferenza
TGI Queste metriche possono essere utilizzate per monitorare le prestazioni del TGI, la scalabilità automatica dell'implementazione e per aiutare a identificare i punti deboli. Per un elenco dettagliato delle metriche, vedi djl- .md. https://github.com/deepjavalibrary/ serving/blob/master/prometheus/README Contenitore modello
LMI Queste metriche possono essere utilizzate per monitorare le prestazioni di LMI e per aiutare a identificare i punti deboli. Per un elenco dettagliato delle metriche, consulta djl- .md. https://github.com/deepjavalibrary/ serving/blob/master/prometheus/README Contenitore modello

Metriche di governance delle attività

Utilizza queste metriche per monitorare la governance delle attività e l'allocazione delle risorse nel cluster. SageMaker HyperPod

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
Kueue Vedi https://kueue.sigs.k8s. io/docs/reference/metrics/. No Kueue

Metriche di scalabilità

Utilizza queste metriche per monitorare il comportamento e le prestazioni dell'auto-scaling sul cluster. SageMaker HyperPod

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
Metriche degli operatori KEDA Vedi https://keda. sh/docs/2.17/integrations/prometheus/#operator. No Autoscaler Kubernetes basato sugli eventi (KEDA)
Metriche del webhook KEDA Vedi https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. No Autoscaler Kubernetes basato sugli eventi (KEDA)
Metriche del server KEDA Metrics Vedi https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. No Autoscaler Kubernetes basato sugli eventi (KEDA)

Parametri cluster

Utilizza queste metriche per monitorare lo stato generale del cluster e l'allocazione delle risorse.

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
Stato del cluster Metriche del server API Kubernetes. Vedi https://kubernetes. io/docs/reference/instrumentation/metrics/. Kubernetes
Stato di Kube Vedi https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Limitato Kubernetes
KubeState Avanzato Vedi https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. No Kubernetes

Parametri dell'istanza

Utilizza queste metriche per monitorare le prestazioni e lo stato delle singole istanze.

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
Metriche dei nodi Vedi https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default. Kubernetes
Metriche del contenitore Metriche dei container esposte da Cadvisor. Vedi cadvisor. https://github.com/google/ Kubernetes

Metriche di elaborazione accelerate

Utilizza queste metriche per monitorare le prestazioni, lo stato e l'utilizzo dei singoli dispositivi di elaborazione accelerata nel tuo cluster.

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
GPU NVIDIA metriche DCGM. Vedere https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp Limitato

NVIDIA Data Center GPU Manager (DCGM)

GPU NVIDIA (avanzata)

Metriche DCGM commentate nel seguente file CSV:

https://github.com/NVIDIA/dcgm exporter/blob/main/etc/dcp - -metrics-included.csv

No

Gestore di GPU NVIDIA Data Center (DCGM)

AWS Trainium Metriche dei neuroni. Vedi https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide. neuron-monitor-nc-counters No AWS Monitor neuronale

Metriche di rete

Utilizza queste metriche per monitorare le prestazioni e lo stato degli Elastic Fabric Adapters (EFA) nel tuo cluster.

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
EFA Vedi https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. No Elastic Fabric Adapter

Metriche del file system

Nome o tipo di metrica Descrizione Abilitato per impostazione predefinita? Fonte metrica
File system Metriche FSx di Amazon for Lustre di Amazon: CloudWatch

Monitoraggio con Amazon CloudWatch.

Amazon FSx per Lustre