Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Dettagli dei report e suddivisione dei dati
SageMaker HyperPodi report sull'utilizzo forniscono due obiettivi distinti per l'analisi del consumo di risorse di calcolo: report di riepilogo per l'allocazione dei costi e report dettagliati per il controllo granulare. I report di riepilogo aggregano l’utilizzo a livello di cluster per team o namespace, evidenziando le tendenze nel confronto tra risorse di calcolo allocate e risorse di calcolo prese in prestito in tutte le risorse GPU, CPU e core Neuron. I report dettagliati analizzano le singole attività, esponendo metriche come le finestre di esecuzione, lo stato delle attività e l’utilizzo delle classi di priorità. In questa sezione, analizziamo la struttura di questi report, ne comprendiamo le metriche chiave e mostriamo come amministratori e team finanziari possono incrociare le tendenze nei riepiloghi con i dati a livello di attività per convalidare l’accuratezza dell’attribuzione dei costi, risolvere le discrepanze e ottimizzare l’infrastruttura condivisa.
Intestazioni di report comuni
Sia i report di riepilogo che quelli dettagliati includono i metadati seguenti per contestualizzare i dati di utilizzo:
-
ClusterName: il nome del cluster Hyperpod orchestrato da EKS in cui sono state consumate le risorse.
-
Tipo: la categoria del report (
Summary Utilization ReportoDetailed Utilization Report). -
Data di generazione: la data di creazione del report, ad esempio
2025-04-18. -
Intervallo di date (UTC): il periodo di tempo coperto, ad esempio
2025-04-16 to 2025-04-18. -
Periodi di dati mancanti: interruzioni nella raccolta dei dati dovute a tempi di inattività del cluster o a problemi di monitoraggio, ad esempio
2025-04-16 00:00:00 to 2025-04-19 00:00:00.
Report di riepilogo
I report di riepilogo forniscono una panoramica generale quotidiana del consumo di risorse di calcolo tra team/namespace e tra tipi di istanze, distinguendo tra l’utilizzo di risorse allocate (quota riservata) e quello di risorse prese in prestito (in prestito dal pool). Questi report sono ideali per la generazione di fatture, le dichiarazioni di attribuzione dei costi o la previsione della capacità.
Esempio: un report di riepilogo può mostrare che il Team A ha utilizzato 200 ore di GPU, di cui 170 provengono dalla sua quota allocata e 30 sono prese in prestito.
Ecco una suddivisione strutturata delle colonne chiave di un report di riepilogo:
-
Data: la data dell’utilizzo riportato (ad esempio
2025-04-18). -
Namespace: il namespace Kubernetes associato al team (ad esempio
hyperpod-ns-ml-team). -
Squadra: The team/department Owning (ad es.).
ml-team -
Tipo di istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).
-
Total/Allocated/BorrowedUtilizzo (ore): suddivisione dell'utilizzo di GPU, CPU o Neuron Core per categoria.
Dove:
-
Utilizzo totale = utilizzo allocato + utilizzo preso in prestito
-
L’utilizzo allocato è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team, con un limite massimo del 100% della quota allocata.
-
L’utilizzo preso in prestito è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team oltre la quota allocata, prese dal pool del cluster condiviso in base alle regole di priorità della governance delle attività e alla disponibilità delle risorse.
-
Esempio: 72 ore di GPU totali (48 allocate, 24 prese in prestito).
Nota
Viene visualizzato solo l’utilizzo totale per i namespace non gestiti dalla governance delle attività.
Report dettagliati
I report dettagliati forniscono una visibilità a livello forense sull’utilizzo del calcolo, suddividendo il consumo delle risorse per attività ed esponendo metriche granulari come le finestre di esecuzione delle attività, lo stato (ad esempio, l’esito positivo o negativo) e l’utilizzo delle classi di priorità. Questi report sono ideali per la convalida delle discrepanze di fatturazione o per garantire la conformità alle policy di governance.
Ecco una suddivisione strutturata delle colonne chiave di un report dettagliato:
-
Data: la data dell’utilizzo riportato (ad esempio
2025-04-18). -
Inizio/fine del periodo: la finestra di esecuzione esatta (UTC) dell’attività (ad esempio
19:54:34). -
Namespace: il namespace Kubernetes associato al team (ad esempio
hyperpod-ns-ml-team). -
Squadra: The Owning (ad team/department es.).
ml-team -
Attività: l’identificatore del processo/pod (ad esempio
pytorchjob-ml-pytorch-job-2p5zt-db686). -
Istanza: l’istanza di calcolo utilizzata (ad esempio
ml.g5.4xlarge). -
Stato: risultato dell’attività (riuscita, non riuscita, prerilasciata).
-
Utilizzo totale: consumo totale (ore e numero di istanze) di risorse di GPU, CPU o core Neuron.
-
Classe di priorità: il livello di priorità assegnato (ad esempio, training-priority).