Dettagli dei report e suddivisione dei dati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dettagli dei report e suddivisione dei dati

SageMaker HyperPodi report sull'utilizzo forniscono due obiettivi distinti per l'analisi del consumo di risorse di calcolo: report di riepilogo per l'allocazione dei costi e report dettagliati per il controllo granulare. I report di riepilogo aggregano l’utilizzo a livello di cluster per team o namespace, evidenziando le tendenze nel confronto tra risorse di calcolo allocate e risorse di calcolo prese in prestito in tutte le risorse GPU, CPU e core Neuron. I report dettagliati analizzano le singole attività, esponendo metriche come le finestre di esecuzione, lo stato delle attività e l’utilizzo delle classi di priorità. In questa sezione, analizziamo la struttura di questi report, ne comprendiamo le metriche chiave e mostriamo come amministratori e team finanziari possono incrociare le tendenze nei riepiloghi con i dati a livello di attività per convalidare l’accuratezza dell’attribuzione dei costi, risolvere le discrepanze e ottimizzare l’infrastruttura condivisa.

Intestazioni di report comuni

Sia i report di riepilogo che quelli dettagliati includono i metadati seguenti per contestualizzare i dati di utilizzo:

  • ClusterName: il nome del cluster Hyperpod orchestrato da EKS in cui sono state consumate le risorse.

  • Tipo: la categoria del report (Summary Utilization Report o Detailed Utilization Report).

  • Data di generazione: la data di creazione del report, ad esempio 2025-04-18.

  • Intervallo di date (UTC): il periodo di tempo coperto, ad esempio 2025-04-16 to 2025-04-18.

  • Periodi di dati mancanti: interruzioni nella raccolta dei dati dovute a tempi di inattività del cluster o a problemi di monitoraggio, ad esempio 2025-04-16 00:00:00 to 2025-04-19 00:00:00.

Report di riepilogo

I report di riepilogo forniscono una panoramica generale quotidiana del consumo di risorse di calcolo tra team/namespace e tra tipi di istanze, distinguendo tra l’utilizzo di risorse allocate (quota riservata) e quello di risorse prese in prestito (in prestito dal pool). Questi report sono ideali per la generazione di fatture, le dichiarazioni di attribuzione dei costi o la previsione della capacità.

Esempio: un report di riepilogo può mostrare che il Team A ha utilizzato 200 ore di GPU, di cui 170 provengono dalla sua quota allocata e 30 sono prese in prestito.

Ecco una suddivisione strutturata delle colonne chiave di un report di riepilogo:

  • Data: la data dell’utilizzo riportato (ad esempio 2025-04-18).

  • Namespace: il namespace Kubernetes associato al team (ad esempio hyperpod-ns-ml-team).

  • Squadra: The team/department Owning (ad es.). ml-team

  • Tipo di istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).

  • Total/Allocated/BorrowedUtilizzo (ore): suddivisione dell'utilizzo di GPU, CPU o Neuron Core per categoria.

    Dove:

    • Utilizzo totale = utilizzo allocato + utilizzo preso in prestito

    • L’utilizzo allocato è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team, con un limite massimo del 100% della quota allocata.

    • L’utilizzo preso in prestito è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team oltre la quota allocata, prese dal pool del cluster condiviso in base alle regole di priorità della governance delle attività e alla disponibilità delle risorse.

Esempio: 72 ore di GPU totali (48 allocate, 24 prese in prestito).

Nota

Viene visualizzato solo l’utilizzo totale per i namespace non gestiti dalla governance delle attività.

Report dettagliati

I report dettagliati forniscono una visibilità a livello forense sull’utilizzo del calcolo, suddividendo il consumo delle risorse per attività ed esponendo metriche granulari come le finestre di esecuzione delle attività, lo stato (ad esempio, l’esito positivo o negativo) e l’utilizzo delle classi di priorità. Questi report sono ideali per la convalida delle discrepanze di fatturazione o per garantire la conformità alle policy di governance.

Ecco una suddivisione strutturata delle colonne chiave di un report dettagliato:

  • Data: la data dell’utilizzo riportato (ad esempio 2025-04-18).

  • Inizio/fine del periodo: la finestra di esecuzione esatta (UTC) dell’attività (ad esempio 19:54:34).

  • Namespace: il namespace Kubernetes associato al team (ad esempio hyperpod-ns-ml-team).

  • Squadra: The Owning (ad team/department es.). ml-team

  • Attività: l’identificatore del processo/pod (ad esempio pytorchjob-ml-pytorch-job-2p5zt-db686).

  • Istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).

  • Stato: risultato dell’attività (riuscita, non riuscita, prerilasciata).

  • Utilizzo totale: consumo totale (ore e numero di istanze) di risorse di GPU, CPU o core Neuron.

  • Classe di priorità: il livello di priorità assegnato (ad esempio, training-priority).