Intestazioni di report comuni Report di riepilogo Report dettagliati

Dettagli dei report e suddivisione dei dati

SageMaker HyperPodi report sull'utilizzo forniscono due obiettivi distinti per l'analisi del consumo di risorse di calcolo: report di riepilogo per l'allocazione dei costi e report dettagliati per il controllo granulare. I report di riepilogo aggregano l’utilizzo a livello di cluster per team o namespace, evidenziando le tendenze nel confronto tra risorse di calcolo allocate e risorse di calcolo prese in prestito in tutte le risorse GPU, CPU e core Neuron. I report dettagliati analizzano le singole attività, esponendo metriche come le finestre di esecuzione, lo stato delle attività e l’utilizzo delle classi di priorità. In questa sezione, analizziamo la struttura di questi report, ne comprendiamo le metriche chiave e mostriamo come amministratori e team finanziari possono incrociare le tendenze nei riepiloghi con i dati a livello di attività per convalidare l’accuratezza dell’attribuzione dei costi, risolvere le discrepanze e ottimizzare l’infrastruttura condivisa.

Intestazioni di report comuni

Sia i report di riepilogo che quelli dettagliati includono i metadati seguenti per contestualizzare i dati di utilizzo:

ClusterName: il nome del cluster EKS-orchestrated Hyperpod in cui sono state consumate le risorse.
Tipo: la categoria del report (Summary Utilization Report o Detailed Utilization Report).
Data di generazione: la data di creazione del report, ad esempio 2025-04-18.
Intervallo di date (UTC): il periodo di tempo coperto, ad esempio 2025-04-16 to 2025-04-18.
Periodi di dati mancanti: interruzioni nella raccolta dei dati dovute a tempi di inattività del cluster o a problemi di monitoraggio, ad esempio 2025-04-16 00:00:00 to 2025-04-19 00:00:00.

Report di riepilogo

I report di riepilogo forniscono una panoramica giornaliera di alto livello del consumo di risorse di calcolo e dei tipi di istanze che distinguono tra l'utilizzo allocato (quota riservata) e quello preso in prestito (pool prestato). teams/namespaces Questi report sono ideali per la generazione di fatture, le dichiarazioni di attribuzione dei costi o la previsione della capacità.

Esempio: un report di riepilogo può mostrare che il Team A ha utilizzato 200 ore di GPU, di cui 170 provengono dalla sua quota allocata e 30 sono prese in prestito.

Ecco una suddivisione strutturata delle colonne chiave di un report di riepilogo:

Data: la data dell’utilizzo riportato (ad esempio 2025-04-18).
Namespace: il namespace Kubernetes associato al team (ad esempio hyperpod-ns-ml-team).
team/department Squadra: The Owning (ad es.). ml-team
Tipo di istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).
Total/Allocated/Borrowed Utilizzo (ore): suddivisione dell'utilizzo di GPU, CPU o Neuron Core per categoria.

Dove:
- Utilizzo totale = utilizzo allocato + utilizzo preso in prestito
- L’utilizzo allocato è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team, con un limite massimo del 100% della quota allocata.
- L’utilizzo preso in prestito è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team oltre la quota allocata, prese dal pool del cluster condiviso in base alle regole di priorità della governance delle attività e alla disponibilità delle risorse.

Esempio: 72 ore di GPU totali (48 allocate, 24 prese in prestito).

Nota

Viene visualizzato solo l’utilizzo totale per i namespace non gestiti dalla governance delle attività.

Report dettagliati

I report dettagliati forniscono una visibilità a livello forense sull’utilizzo del calcolo, suddividendo il consumo delle risorse per attività ed esponendo metriche granulari come le finestre di esecuzione delle attività, lo stato (ad esempio, l’esito positivo o negativo) e l’utilizzo delle classi di priorità. Questi report sono ideali per la convalida delle discrepanze di fatturazione o per garantire la conformità alle policy di governance.

Ecco una suddivisione strutturata delle colonne chiave di un report dettagliato:

Data: la data dell’utilizzo riportato (ad esempio 2025-04-18).
Periodo Start/End: finestra di esecuzione esatta (UTC) per l'attività. (ad esempio,19:54:34)
Namespace: il namespace Kubernetes associato al team (ad esempio hyperpod-ns-ml-team).
Squadra: The Owning team/department (ad es.ml-team).
Attività: L'identificatore per job/pod (ad es.). pytorchjob-ml-pytorch-job-2p5zt-db686
Istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).
Stato: risultato dell’attività (riuscita, non riuscita, prerilasciata).
Utilizzo totale: consumo totale (ore e numero di istanze) di risorse di GPU, CPU o core Neuron.
Classe di priorità: il livello di priorità assegnato (ad esempio, training-priority).

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creazione di report di utilizzo del calcolo

Generazione di un report