Report sull'utilizzo per l'attribuzione dei costi in SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Report sull'utilizzo per l'attribuzione dei costi in SageMaker HyperPod

La reportistica sull'utilizzo nei cluster SageMaker HyperPod orchestrati da EKS offre una visibilità granulare sul consumo delle risorse di elaborazione. Questa funzionalità consente alle organizzazioni di implementare un'attribuzione trasparente dei costi, allocando i costi dei cluster a team, progetti o reparti in base al loro utilizzo effettivo. Monitorando parametri come le GPU/CPU ore e l'utilizzo di Neuron Core, rilevati sia in aggregati a livello di team che in suddivisioni specifiche delle attività, i report sull'utilizzo completano la funzionalità Task Governance di Neuron, garantendo un'equa distribuzione dei costi in cluster multi-tenant HyperPod condivisi mediante:

  • Eliminazione delle congetture nell'allocazione dei costi

  • Collegamento diretto delle spese al consumo misurabile di risorse

  • Rafforzamento della responsabilità basata sull'utilizzo in ambienti di infrastruttura condivisi

Prerequisiti

Per utilizzare questa funzionalità:

  • Hai bisogno di:

    • Un SageMaker HyperPod ambiente attivo con un cluster orchestrato da EKS in esecuzione.

    • (Consigliato vivamente) Task Governance configurato con quote di calcolo e regole di priorità. Per istruzioni di configurazione, consulta Configurazione di Task Governance.

  • Acquisisci familiarità con questi concetti fondamentali:

    • Quota di elaborazione allocata: risorse riservate a un team in base a quote predefinite nelle politiche di Task Governance. Questa è la capacità garantita per i loro carichi di lavoro.

    • Elaborazione presa in prestito: risorse inattive dal pool di cluster condiviso che i team possono utilizzare temporaneamente oltre la quota assegnata. L'elaborazione presa in prestito viene assegnata dinamicamente in base alle regole di priorità contenute nelle politiche di Task Governance e alla disponibilità delle risorse non utilizzate.

    • Utilizzo del calcolo: la misurazione delle risorse (GPU, CPU, ore di Neuron Core) consumate da un team, tracciate come:

      • Utilizzo allocato: utilizzo entro la quota del team.

      • Utilizzo preso in prestito: utilizzo oltre la quota, tratto dal pool condiviso.

    • Attribuzione dei costi: il processo di allocazione dei costi del cluster ai team in base all'utilizzo effettivo delle risorse di elaborazione, che include sia le risorse consumate nell'ambito della quota predefinita sia le risorse utilizzate temporaneamente dal pool di cluster condiviso oltre la quota.

Tipi di report

HyperPodi report sull'utilizzo forniscono una granularità operativa variabile:

  • I report di riepilogo forniscono una visibilità a livello aziendale sull'utilizzo delle risorse di calcolo, aggregando le ore GPU/CPU/Neuron Core totali per team (namespace) e distinguendo tra utilizzo regolare (risorse provenienti dalla quota allocata del team) ed elaborazione presa in prestito (capacità di sovraccarico da pool condivisi).

  • I report dettagliati offrono suddivisioni a livello di attività per team, tracciando le ore di calcolo esatte impiegate nell'esecuzione di attività specifiche, tra cui attività prioritarie, modelli di utilizzo orari e allocazioni specifiche per lo spazio dei nomi.

Importante

HyperPod i report sull'utilizzo tengono traccia dell'utilizzo dell'elaborazione in tutti i namespace Kubernetes in un cluster, inclusi quelli gestiti da Task Governance, i namespace predefiniti e i namespace creati al di fuori di Task Governance (ad esempio, tramite chiamate API Kubernetes dirette o strumenti esterni). Questo monitoraggio a livello di infrastruttura garantisce una responsabilità completa basata sull'utilizzo, prevenendo lacune nell'attribuzione dei costi per i cluster condivisi indipendentemente dal modo in cui vengono gestiti i namespace.

Formati e intervallo di tempo dei report

Utilizzando lo script Python fornito in dotazioneGenera report, gli amministratori possono generare report di utilizzo su richiesta in formato CSV o PDF, selezionando intervalli di tempo da istantanee giornaliere a finestre cronologiche di 180 giorni (6 mesi).

Nota

È possibile configurare la finestra storica in modo che si estenda oltre il massimo predefinito di 180 giorni durante la configurazione dell'infrastruttura di reporting. Per ulteriori informazioni sulla configurazione del periodo di conservazione dei dati, consulta Installare l'infrastruttura dei report di utilizzo utilizzando. CloudFormation

Casi d'uso illustrativi

Questa funzionalità affronta scenari critici in AI/ML ambienti multi-tenant come:

  1. Allocazione dei costi per i cluster condivisi: un amministratore gestisce un HyperPod cluster condiviso da 20 team che addestrano modelli di intelligenza artificiale generativa. Utilizzando un rapporto riassuntivo sull'utilizzo, analizzano l'utilizzo giornaliero della GPU per 180 giorni e scoprono che il Team A ha consumato 200 ore di GPU per un tipo di istanza specifico, 170 rispetto alla quota allocata e 30 per l'elaborazione presa in prestito. L'amministratore fattura il Team A in base all'utilizzo riportato.

  2. Revisione e risoluzione delle controversie: un team finanziario mette in dubbio l'accuratezza dell'attribuzione dei costi, citando incongruenze. L'amministratore può esportare un rapporto dettagliato a livello di attività per verificare le discrepanze. Incrociando i timestamp, i tipi di istanze e i lavori preimpostati all'interno del namespace del team, il rapporto riconcilia in modo trasparente i dati di utilizzo contestati.