Dashboard di SageMaker HyperPod osservabilità di Amazon - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dashboard di SageMaker HyperPod osservabilità di Amazon

Questo argomento descrive come visualizzare i dashboard delle metriche per i cluster Amazon SageMaker HyperPod (SageMaker HyperPod) e come aggiungere nuovi utenti a una dashboard. L'argomento descrive anche i diversi tipi di dashboard.

Accesso ai dashboard

Per visualizzare le metriche del tuo SageMaker HyperPod cluster in Amazon Managed Grafana, esegui i seguenti passaggi:

  1. Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Vai alla pagina dei dettagli del tuo cluster.

  3. Nella scheda Dashboard, individua la sezione HyperPod Osservabilità e scegli Apri dashboard in Grafana.

Aggiungere nuovi utenti a uno spazio di lavoro Amazon Managed Grafana

Per informazioni su come aggiungere utenti a uno spazio di lavoro Amazon Managed Grafana, consulta Usa AWS IAM Identity Center con il tuo spazio di lavoro Amazon Managed Grafana nella Amazon Managed Grafana User Guide.

Dashboard di osservabilità

Il componente aggiuntivo SageMaker HyperPod Observability fornisce cinque dashboard interconnesse nell'area di lavoro Amazon Managed Grafana predefinita. Ogni dashboard fornisce informazioni approfondite sulle diverse risorse e attività nei cluster per vari utenti come data scientist, ingegneri dell'apprendimento automatico e amministratori.

Dashboard delle attività

La dashboard delle attività offre il monitoraggio e la visualizzazione completi delle metriche di utilizzo delle risorse per le attività. SageMaker HyperPod Il pannello principale mostra una tabella dettagliata che raggruppa l'utilizzo delle risorse per attività principali, mostrando l'utilizzo di CPU, GPU e memoria tra i pod. I grafici interattivi delle serie temporali tracciano l'utilizzo della CPU, il consumo di memoria di sistema, le percentuali di utilizzo della GPU e l'utilizzo della memoria GPU per i pod selezionati, consentendoti di monitorare le tendenze delle prestazioni nel tempo. La dashboard offre potenti funzionalità di filtraggio tramite variabili come nome del cluster, namespace, tipo di attività e pod specifici, che semplificano l'analisi di carichi di lavoro specifici. Questa soluzione di monitoraggio è essenziale per ottimizzare l'allocazione delle risorse e mantenere le prestazioni dei carichi di lavoro di machine learning. SageMaker HyperPod

Dashboard di formazione

La dashboard di formazione fornisce un monitoraggio completo dello stato delle attività di formazione, dell'affidabilità e delle metriche di gestione dei guasti. La dashboard presenta gli indicatori chiave delle prestazioni, tra cui il numero di attività create, le percentuali di successo e le percentuali di operatività, oltre al monitoraggio dettagliato degli eventi di riavvio automatici e manuali. Offre visualizzazioni dettagliate dei modelli di errore tramite grafici a torta e mappe di calore che suddividono gli incidenti per tipo e latenza di riparazione, consentendoti di identificare i problemi ricorrenti e ottimizzare l'affidabilità delle attività. L'interfaccia include il monitoraggio in tempo reale di metriche critiche come i tempi di ripristino del sistema e le latenze di rilevamento degli errori, rendendola uno strumento essenziale per mantenere un'elevata disponibilità dei carichi di lavoro di formazione. Inoltre, la finestra finale di 24 ore della dashboard fornisce un contesto storico per l'analisi delle tendenze e dei modelli nelle prestazioni delle attività di formazione, aiutando i team a risolvere in modo proattivo i potenziali problemi prima che influiscano sui carichi di lavoro di produzione.

Dashboard di inferenza

Il dashboard di inferenza offre un monitoraggio completo delle prestazioni di implementazione del modello e delle metriche di integrità su più dimensioni. Offre una panoramica dettagliata delle implementazioni attive, il monitoraggio in tempo reale dei tassi di richiesta, delle percentuali di successo e delle metriche di latenza, che consentono di monitorare le prestazioni di Model Servire e identificare potenziali rallentamenti. La dashboard include pannelli specializzati per le metriche di inferenza generali e le metriche specifiche dei token per i modelli linguistici, come il time to first token (TTFT) e il throughput dei token, il che la rende particolarmente utile per il monitoraggio di implementazioni di modelli linguistici di grandi dimensioni. Inoltre, fornisce informazioni sull'infrastruttura attraverso il tracciamento dell'allocazione di pod e nodi, offrendo al contempo funzionalità dettagliate di analisi degli errori per aiutare a mantenere la disponibilità e le prestazioni elevate dei carichi di lavoro di inferenza.

Dashboard del cluster

La dashboard del cluster offre una visione completa dello stato e delle prestazioni del cluster, offrendo visibilità in tempo reale sulle risorse di calcolo, memoria, rete e storage nell'ambiente Amazon SageMaker HyperPod (SageMaker HyperPod). A colpo d'occhio, puoi visualizzare le metriche critiche tra cui il totale delle istanze, l'utilizzo della GPU, l'utilizzo della memoria e le prestazioni della rete attraverso un'interfaccia intuitiva che aggiorna automaticamente i dati ogni pochi secondi. La dashboard è organizzata in sezioni logiche, a partire da una panoramica di alto livello del cluster che mostra metriche chiave come la percentuale di istanze sane e il numero totale di risorse, seguita da sezioni dettagliate sulle prestazioni della GPU, l'utilizzo della memoria, le statistiche di rete e le metriche di archiviazione. Ogni sezione presenta grafici e pannelli interattivi che consentono di approfondire metriche specifiche, con intervalli di tempo personalizzabili e opzioni di filtraggio in base al nome del cluster, all'istanza o all'ID GPU.

Dashboard del file system

La dashboard del file system offre una visibilità completa sulle prestazioni e sui parametri di salute del file system (Amazon FSx for Lustre). La dashboard mostra i parametri di storage critici, tra cui capacità libera, risparmi sulla deduplicazione, CPU/memory utilizzo, IOPS del disco, throughput e connessioni client su più visualizzazioni. Consente di monitorare sia gli indicatori di prestazioni a livello di sistema, come l'utilizzo della CPU e della memoria, sia le metriche specifiche dello storage, come le operazioni e i modelli di utilizzo del disco. read/write L'interfaccia include funzionalità di monitoraggio degli avvisi e grafici dettagliati delle serie temporali per tracciare le tendenze delle prestazioni nel tempo, il che la rende utile per la manutenzione proattiva e la pianificazione della capacità. Inoltre, grazie alla sua copertura completa delle metriche, la dashboard aiuta a identificare potenziali colli di bottiglia, ottimizzare le prestazioni di storage e garantire operazioni affidabili dei file system per i carichi di lavoro. SageMaker HyperPod