Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPod metriche del cluster
Amazon SageMaker HyperPod (SageMaker HyperPod) pubblica diverse metriche in 9 categorie distinte nell'area di lavoro Amazon Managed Service for Prometheus. Non tutte le metriche sono abilitate per impostazione predefinita o visualizzate nell'area di lavoro Amazon Managed Grafana. La tabella seguente mostra quali metriche sono abilitate di default quando installi il componente aggiuntivo di osservabilità, quali categorie hanno metriche aggiuntive che possono essere abilitate per informazioni più granulari sul cluster e dove vengono visualizzate nell'area di lavoro Amazon Managed Grafana.
Categoria parametro | Abilitato per impostazione predefinita? | Sono disponibili metriche avanzate aggiuntive? | Disponibile in quali dashboard Grafana? |
---|---|---|---|
Metriche di formazione | Sì | Sì | Addestramento |
Metriche di inferenza | Sì | No | Inferenza |
Metriche di governance delle attività | No | Sì | Nessuna. Interroga il tuo spazio di lavoro Amazon Managed Service for Prometheus per creare la tua dashboard. |
Metriche di scalabilità | No | Sì | Nessuna. Interroga il tuo spazio di lavoro Amazon Managed Service for Prometheus per creare la tua dashboard. |
Parametri cluster | Sì | Sì | Cluster |
Parametri dell'istanza | Sì | Sì | Cluster |
Metriche di elaborazione accelerate | Sì | Sì | Attività, cluster |
Metriche di rete | No | Sì | Cluster |
File system | Sì | No | File system |
Le tabelle seguenti descrivono le metriche disponibili per il monitoraggio del SageMaker HyperPod cluster, organizzate per categoria.
Metriche di formazione
Utilizza queste metriche per tenere traccia delle prestazioni delle attività di formazione eseguite sul SageMaker HyperPod cluster.
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
Metriche Kubeflow | https://github.com/kubeflow/allenatore |
Sì | Kubeflow |
metriche del pod Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Sì | Kubernetes |
training_uptime_percentage |
Percentuale di tempo di allenamento rispetto alla dimensione totale della finestra | No | SageMaker HyperPod operatore addetto alla formazione |
training_manual_recovery_count |
Numero totale di riavvii manuali eseguiti sul lavoro | No | SageMaker HyperPod operatore addetto alla formazione |
training_manual_downtime_ms |
Tempo totale in millisecondi in cui il lavoro è stato interrotto a causa di interventi manuali | No | SageMaker HyperPod operatore addetto alla formazione |
training_auto_recovery_count |
Numero totale di ripristini automatici | No | SageMaker HyperPod operatore addetto alla formazione |
training_auto_recovery_downtime |
Tempo totale di sovraccarico dell'infrastruttura in millisecondi durante il ripristino dei guasti | No | SageMaker HyperPod operatore addetto alla formazione |
training_fault_count |
Numero totale di errori riscontrati durante l'allenamento | No | SageMaker HyperPod operatore addetto alla formazione |
training_fault_type_count |
Distribuzione dei guasti per tipologia | No | SageMaker HyperPod operatore addetto alla formazione |
training_fault_recovery_time_ms |
Tempo di ripristino in millisecondi per ogni tipo di guasto | No | SageMaker HyperPod operatore addetto alla formazione |
training_time_ms |
Tempo totale in millisecondi impiegato nella formazione effettiva | No | SageMaker HyperPod operatore addetto alla formazione |
Metriche di inferenza
Utilizza queste metriche per tenere traccia delle prestazioni delle attività di inferenza sul cluster. SageMaker HyperPod
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
model_invocations_total |
Numero totale di richieste di invocazione al modello | Sì | SageMaker HyperPod operatore di inferenza |
model_errors_total |
Numero totale di errori durante l'invocazione del modello | Sì | SageMaker HyperPod operatore di inferenza |
model_concurrent_requests |
Richieste di modelli concorrenti attivi | Sì | SageMaker HyperPod operatore di inferenza |
model_latency_milliseconds |
Latenza di invocazione del modello in millisecondi | Sì | SageMaker HyperPod operatore di inferenza |
model_ttfb_milliseconds |
Modella il tempo di latenza rispetto al primo byte in millisecondi | Sì | SageMaker HyperPod operatore di inferenza |
TGI | Queste metriche possono essere utilizzate per monitorare le prestazioni del TGI, la scalabilità automatica dell'implementazione e per aiutare a identificare i punti deboli. Per un elenco dettagliato delle metriche, vedi djl- .md. https://github.com/deepjavalibrary/ serving/blob/master/prometheus/README |
Sì | Contenitore modello |
LMI | Queste metriche possono essere utilizzate per monitorare le prestazioni di LMI e per aiutare a identificare i punti deboli. Per un elenco dettagliato delle metriche, consulta djl- .md. https://github.com/deepjavalibrary/ serving/blob/master/prometheus/README |
Sì | Contenitore modello |
Metriche di governance delle attività
Utilizza queste metriche per monitorare la governance delle attività e l'allocazione delle risorse nel cluster. SageMaker HyperPod
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
Kueue | Vedi https://kueue.sigs.k8s. io/docs/reference/metrics |
No | Kueue |
Metriche di scalabilità
Utilizza queste metriche per monitorare il comportamento e le prestazioni dell'auto-scaling sul cluster. SageMaker HyperPod
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
Metriche degli operatori KEDA | Vedi https://keda. sh/docs/2.17/integrations/prometheus/#operator |
No | Autoscaler Kubernetes basato sugli eventi (KEDA) |
Metriche del webhook KEDA | Vedi https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
No | Autoscaler Kubernetes basato sugli eventi (KEDA) |
Metriche del server KEDA Metrics | Vedi https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. |
No | Autoscaler Kubernetes basato sugli eventi (KEDA) |
Parametri cluster
Utilizza queste metriche per monitorare lo stato generale del cluster e l'allocazione delle risorse.
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
Stato del cluster | Metriche del server API Kubernetes. Vedi https://kubernetes. io/docs/reference/instrumentation/metrics |
Sì | Kubernetes |
Stato di Kube | Vedi https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limitato | Kubernetes |
KubeState Avanzato | Vedi https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
No | Kubernetes |
Parametri dell'istanza
Utilizza queste metriche per monitorare le prestazioni e lo stato delle singole istanze.
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
Metriche dei nodi | Vedi https://github.com/prometheus/node_exporter? readme-ov-filetab= # enabled-by-default |
Sì | Kubernetes |
Metriche del contenitore | Metriche dei container esposte da Cadvisor. Vedi cadvisor. https://github.com/google/ |
Sì | Kubernetes |
Metriche di elaborazione accelerate
Utilizza queste metriche per monitorare le prestazioni, lo stato e l'utilizzo dei singoli dispositivi di elaborazione accelerata nel tuo cluster.
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
GPU NVIDIA | metriche DCGM. Vedere https://github.com/NVIDIA/dcgm- -metrics-included.csv |
Limitato |
NVIDIA Data Center GPU Manager (DCGM) |
GPU NVIDIA (avanzata) |
Metriche DCGM commentate nel seguente file CSV: https://github.com/NVIDIA/dcgm exporter/blob/main/etc/dcp - -metrics-included.csv |
No |
Gestore di GPU NVIDIA Data Center (DCGM) |
AWS Trainium | Metriche dei neuroni. Vedi https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- .html# monitor-user-guide |
No | AWS Monitor neuronale |
Metriche di rete
Utilizza queste metriche per monitorare le prestazioni e lo stato degli Elastic Fabric Adapters (EFA) nel tuo cluster.
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
EFA | Vedi https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
No | Elastic Fabric Adapter |
Metriche del file system
Nome o tipo di metrica | Descrizione | Abilitato per impostazione predefinita? | Fonte metrica |
---|---|---|---|
File system | Metriche FSx di Amazon for Lustre di Amazon: CloudWatch | Sì | Amazon FSx per Lustre |