View a markdown version of this page

Dettagli dei report e suddivisione dei dati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dettagli dei report e suddivisione dei dati

SageMaker HyperPodi report sull'utilizzo forniscono due obiettivi distinti per l'analisi del consumo di risorse di calcolo: report di riepilogo per l'allocazione dei costi e report dettagliati per il controllo granulare. I report di riepilogo aggregano l’utilizzo a livello di cluster per team o namespace, evidenziando le tendenze nel confronto tra risorse di calcolo allocate e risorse di calcolo prese in prestito in tutte le risorse GPU, CPU e core Neuron. I report dettagliati analizzano le singole attività, esponendo metriche come le finestre di esecuzione, lo stato delle attività e l’utilizzo delle classi di priorità. In questa sezione, analizziamo la struttura di questi report, ne comprendiamo le metriche chiave e mostriamo come amministratori e team finanziari possono incrociare le tendenze nei riepiloghi con i dati a livello di attività per convalidare l’accuratezza dell’attribuzione dei costi, risolvere le discrepanze e ottimizzare l’infrastruttura condivisa.

Intestazioni di report comuni

Sia i report di riepilogo che quelli dettagliati includono i metadati seguenti per contestualizzare i dati di utilizzo:

  • ClusterName: il nome del cluster EKS-orchestrated Hyperpod in cui sono state consumate le risorse.

  • Tipo: la categoria del report (Summary Utilization Report o Detailed Utilization Report).

  • Data di generazione: la data di creazione del report, ad esempio 2025-04-18.

  • Intervallo di date (UTC): il periodo di tempo coperto, ad esempio 2025-04-16 to 2025-04-18.

  • Periodi di dati mancanti: interruzioni nella raccolta dei dati dovute a tempi di inattività del cluster o a problemi di monitoraggio, ad esempio 2025-04-16 00:00:00 to 2025-04-19 00:00:00.

Report di riepilogo

I report di riepilogo forniscono una panoramica giornaliera di alto livello del consumo di risorse di calcolo e dei tipi di istanze che distinguono tra l'utilizzo allocato (quota riservata) e quello preso in prestito (pool prestato). teams/namespaces Questi report sono ideali per la generazione di fatture, le dichiarazioni di attribuzione dei costi o la previsione della capacità.

Esempio: un report di riepilogo può mostrare che il Team A ha utilizzato 200 ore di GPU, di cui 170 provengono dalla sua quota allocata e 30 sono prese in prestito.

Ecco una suddivisione strutturata delle colonne chiave di un report di riepilogo:

  • Data: la data dell’utilizzo riportato (ad esempio 2025-04-18).

  • Namespace: il namespace Kubernetes associato al team (ad esempio hyperpod-ns-ml-team).

  • team/department Squadra: The Owning (ad es.). ml-team

  • Tipo di istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).

  • Total/Allocated/Borrowed Utilizzo (ore): suddivisione dell'utilizzo di GPU, CPU o Neuron Core per categoria.

    Dove:

    • Utilizzo totale = utilizzo allocato + utilizzo preso in prestito

    • L’utilizzo allocato è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team, con un limite massimo del 100% della quota allocata.

    • L’utilizzo preso in prestito è il numero di ore effettive di GPU, CPU o core Neuron utilizzate da un team oltre la quota allocata, prese dal pool del cluster condiviso in base alle regole di priorità della governance delle attività e alla disponibilità delle risorse.

Esempio: 72 ore di GPU totali (48 allocate, 24 prese in prestito).

Nota

Viene visualizzato solo l’utilizzo totale per i namespace non gestiti dalla governance delle attività.

Report dettagliati

I report dettagliati forniscono una visibilità a livello forense sull’utilizzo del calcolo, suddividendo il consumo delle risorse per attività ed esponendo metriche granulari come le finestre di esecuzione delle attività, lo stato (ad esempio, l’esito positivo o negativo) e l’utilizzo delle classi di priorità. Questi report sono ideali per la convalida delle discrepanze di fatturazione o per garantire la conformità alle policy di governance.

Ecco una suddivisione strutturata delle colonne chiave di un report dettagliato:

  • Data: la data dell’utilizzo riportato (ad esempio 2025-04-18).

  • Periodo Start/End: finestra di esecuzione esatta (UTC) per l'attività. (ad esempio,19:54:34)

  • Namespace: il namespace Kubernetes associato al team (ad esempio hyperpod-ns-ml-team).

  • Squadra: The Owning team/department (ad es.ml-team).

  • Attività: L'identificatore per job/pod (ad es.). pytorchjob-ml-pytorch-job-2p5zt-db686

  • Istanza: l’istanza di calcolo utilizzata (ad esempio ml.g5.4xlarge).

  • Stato: risultato dell’attività (riuscita, non riuscita, prerilasciata).

  • Utilizzo totale: consumo totale (ore e numero di istanze) di risorse di GPU, CPU o core Neuron.

  • Classe di priorità: il livello di priorità assegnato (ad esempio, training-priority).