Monitoraggio dell’utilizzo delle risorse di calcolo AWS in Amazon SageMaker Studio Classic - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio dell’utilizzo delle risorse di calcolo AWS in Amazon SageMaker Studio Classic

Per tenere traccia dell'utilizzo delle risorse di calcolo del tuo processo di addestramento, utilizza gli strumenti di monitoraggio offerti da Debugger Amazon SageMaker.

Per ogni job di addestramento eseguito in SageMaker AI utilizzando SageMaker Python SDK, Debugger raccoglie le metriche di base sull’utilizzo delle risorse, come l’utilizzo della CPU, della GPU, della memoria GPU, la rete e il tempo di attesa I/O ogni 500 millisecondi. Per visualizzare la dashboard dei parametri di utilizzo delle risorse del tuo processo di addestramento, usa semplicemente l'interfaccia utente di Debugger SageMaker in Esperimenti di SageMaker Studio.

Le operazioni e le fasi di deep learning potrebbero funzionare a intervalli di millisecondi. Rispetto ai parametri di Amazon CloudWatch, che raccolgono i parametri a intervalli di 1 secondo, Debugger offre una granularità più precisa dei parametri di utilizzo delle risorse, fino a intervalli di 100 millisecondi (0,1 secondi), in modo da poter approfondire i parametri a livello di operazione o fase.

Se desideri modificare l'intervallo di tempo della raccolta di parametri, puoi aggiungere un parametro per la configurazione della profilazione all’utilità di avvio del processo di addestramento. Ad esempio, se utilizzi SageMaker AI Python SDK, quando crei un oggetto dello strumento di stima devi inoltrare il parametro profiler_config. Per informazioni su come regolare l'intervallo di raccolta dei parametri di utilizzo delle risorse, consulta Modello di codice per la configurazione di un oggetto dello strumento di stima SageMaker AI con i moduli SageMaker Debugger Python in SageMaker AI Python SDK e poi Configurazione delle impostazioni per la profilazione di base dell'utilizzo delle risorse di sistema.

Inoltre, puoi aggiungere strumenti di rilevamento dei problemi denominati regole di profilazione integrate e forniti da Debugger SageMaker. Le regole di profilazione integrate eseguono analisi rispetto ai parametri di utilizzo delle risorse e rilevano eventuali problemi alle prestazioni di calcolo. Per ulteriori informazioni, consulta Utilizzare le regole di profilazione integrate gestite da Amazon SageMaker Debugger. Puoi ricevere i risultati delle analisi delle regole tramite l’interfaccia utente di Debugger SageMaker in Esperimenti di SageMaker Studio o il report di profilazione di Debugger SageMaker. Inoltre puoi creare regole di profilazione personalizzate utilizzando l’SDK Python SageMaker.

Per ulteriori informazioni sulle funzionalità di monitoraggio fornite da Debugger SageMaker, consulta i seguenti argomenti.