Stati di esecuzione dei processi AWS Glue sulla console - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Stati di esecuzione dei processi AWS Glue sulla console

Puoi visualizzare lo stato di un processo di estrazione, trasformazione e caricamento (ETL) AWS Glue mentre è in esecuzione o una volta arrestato. Puoi visualizzare lo stato tramite console AWS Glue.

Accesso al pannello di controllo di monitoraggio dei processi

Si accede alla dashboard di monitoraggio dei processi scegliendo il link Monitoraggio dell'esecuzione dei processi nel pannello di navigazione AWS Glue della sezione Processi ETL.

Panoramica del pannello di controllo di monitoraggio dei processi

Il pannello di controllo di monitoraggio dei processi fornisce un riepilogo generale delle esecuzioni del processo, con i totali per i processi con lo stato di In esecuzione, Annullato, Riuscito oppure Non riuscito. I riquadri aggiuntivi forniscono il tasso di successo complessivo dell'esecuzione del processo, l'utilizzo stimato della DPU per i processi, una suddivisione dei conteggi dello stato del processo per tipo di processo, per tipo di worker e per giorno.

I grafici nei riquadri sono interattivi. È possibile scegliere qualsiasi blocco in un grafico per eseguire un filtro che visualizzi solo quei processi nella tabella Esecuzioni del processo nella parte inferiore della pagina.

Per modificare l'intervallo di date delle informazioni visualizzate in questa pagina, utilizza il selettore Intervallo date. Quando si modifica l'intervallo di date, i riquadri delle informazioni vengono adattati per visualizzare i valori per il numero di giorni specificato prima della data attuale. È possibile anche usare un intervallo di date specifico scegliendo Personalizzato dal selettore dell'intervallo di date.

Visualizzazione esecuzioni dei processi

Nota

La cronologia di esecuzione dei processi è accessibile per 90 giorni per flusso di lavoro ed esecuzione del processo.

L'elenco delle risorse Esecuzioni dei processi mostra i processi per l'intervallo di date specificato e i filtri.

È possibile filtrare i processi in base a criteri aggiuntivi, ad esempio lo stato, il tipo di worker, il tipo di processo e il nome del processo. Nella casella filtro nella parte superiore della tabella è possibile inserire il testo da utilizzare come filtro. Durante l'inserimento del testo, i risultati della tabella vengono aggiornati con righe contenenti testo corrispondente.

È possibile visualizzare un sottoinsieme dei processi scegliendo gli elementi dai grafici nel pannello di controllo di monitoraggio del processo. Ad esempio, se si sceglie il numero di processi in esecuzione nella finestra Riepilogo delle esecuzioni, l'elenco Esecuzioni dei processi visualizza solo i processi che hanno attualmente lo stato Running. Se si sceglie una delle barre nel grafico a barre Analisi del tipo di worker, nell'elenco Esecuzioni dei processi vengono mostrate solo le esecuzioni del processo con il tipo e lo stato corrispondenti.

L'elenco delle risorse Esecuzioni dei processi mostra i dettagli delle esecuzioni del processo. È possibile ordinare le righe nella tabella scegliendo un'intestazione di colonna. La tabella contiene le informazioni seguenti:

Proprietà Descrizione
Nome processo Il nome del processo .
Tipo

Il tipo di ambiente per il processo:

  • ETL Glue: esegue in un ambiente Apache Spark gestito da AWS Glue.

  • Streaming Glue: esegue in un ambiente Apache Spark ed esegue ETL sui flussi di dati.

  • Shell Python: esegue gli script di Python come una shell.

Ora di inizio

La data e ora in cui questa esecuzione di processo è stata avviata.

Ora di fine

La data e ora in cui questa elaborazione di processo è stata completata.

Stato di esecuzione

Lo stato attuale del processo eseguito. I valori possono essere:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Tempo di esecuzione Quantità di tempo durante la quale l'esecuzione dell'attività ha utilizzato le risorse.
Capacità

Il numero di unità di elaborazione dati (DPU) di AWS Glue allocate per questa esecuzione. Per ulteriori informazioni sulla pianificazione della capacità, consulta Monitoraggio per la pianificazione della capacità DPU nella Guida per gli sviluppatori di AWS Glue.

Tipo di worker

Il tipo di worker predefinito allocato quando è stato eseguito il processo. I valori possono essere G.1X, G.2X, G.4X o G.8X.

  • G.1X: quando si sceglie questo tipo, si fornisce anche un valore per Numero di worker. Ogni worker esegue la mappatura su 1 DPU (4 vCPU, 16 GB di memoria) con disco da 84 GB (circa 34 GB liberi). Consigliamo questo tipo di worker per i processi ad alto consumo di memoria. Questa è l'impostazione predefinita per Tipo di worker per la versione AWS Glue 2.0 o successive.

  • G.2X: quando si sceglie questo tipo, si fornisce anche un valore per Numero di worker. Ogni worker esegue la mappatura su 2 DPU (8 vCPU, 32 GB di memoria) con disco da 128 GB (circa 77 GB liberi). Suggeriamo questo tipo di dipendente per i processi ad alto consumo di memoria e per i processi che eseguono trasformazioni machine learning.

  • G.4X: quando si sceglie questo tipo, si fornisce anche un valore per Numero di worker. Ogni worker esegue la mappatura su 4 DPU (16 vCPU, 64 GB di memoria) con disco da 256 GB (circa 235 GB liberi). Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i processi ETL di AWS Glue Spark versione 3.0 o successiva nelle seguenti Regioni AWS: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma).

  • G.8X: quando si sceglie questo tipo, si fornisce anche un valore per Numero di worker. Ogni worker esegue la mappatura su 8 DPU (32 vCPU, 128 GB di memoria) con disco da 512 GB (circa 487 GB liberi). Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i processi ETL di AWS Glue Spark versione 3.0 o successiva, nelle stesse Regioni AWS supportate per il tipo di worker G.4X.

Ore DPU

Numero stimato di DPU utilizzate per l'esecuzione del processo. Una DPU è una misura relativa della potenza di elaborazione. Le DPU vengono utilizzate per determinare il costo dell'esecuzione del processo. Per ulteriori informazioni, consultare la pagina dei prezzi di AWS Glue.

È possibile scegliere qualsiasi processo eseguito nell'elenco e visualizzare informazioni aggiuntive. Scegliere un'esecuzione del processo, quindi eseguire una delle operazioni seguenti:

  • Scegliere il menu Operazioni e l'opzione Visualizza processo per visualizzare il processo nell'editor visivo.

  • Scegliere il menu Operazioni e l'opzione Interrompi esecuzione per interrompere l'esecuzione corrente del processo.

  • Scegliere il pulsante Visualizza log CloudWatch per visualizzare i log di esecuzione del processo.

  • Scegliere Visualizza dettagli per visualizzare la pagina dei dettagli dell'esecuzione.

Visualizzazione dei log di esecuzione del processo

Puoi visualizzare i log del processo in diversi modi:

  • Nella pagina Monitoraggio, nella tabella Esecuzioni dei processi, scegliere un'esecuzione, quindi scegliere Visualizza log CloudWatch.

  • Nell'editor visivo dei processi, nella scheda Esecuzioni per un processo, scegliere i collegamenti ipertestuali per visualizzare i log:

    • Log: collega ai log dei processi di Apache Spark scritti quando la registrazione continua è abilitata per l'esecuzione di un processo. Quando si sceglie questo collegamento, si accede ai log Amazon CloudWatch nel gruppo di log /aws-glue/jobs/logs-v2. Per impostazione predefinita, i log escludono i messaggi di log di heartbeat inutili di driver o executor Apache Spark e Apache Hadoop YARN. Per ulteriori informazioni sulla registrazione continua, consultare Registrazione continua per processi di AWS Glue nella Guida per gli sviluppatori di AWS Glue.

    • Log di errore: collega ai log scritti in stderr per questa esecuzione di processo. Quando si sceglie questo collegamento, si accede ai log Amazon CloudWatch nel gruppo di log /aws-glue/jobs/error. Questi log possono essere utilizzati per visualizzare i dettagli su tutti gli errori riscontrati durante l'esecuzione del processo.

    • Log di output: collega ai log scritti in stdout per questa esecuzione del processo. Quando si sceglie questo collegamento, si accede ai log Amazon CloudWatch nel gruppo di log /aws-glue/jobs/output. Qui è possibile visualizzare i log per vedere tutti i dettagli sulle tabelle create in AWS Glue Data Catalog ed eventuali errori riscontrati.

Visualizzazione dei dettagli di un'esecuzione di un processo

È possibile scegliere un processo nell'elenco Esecuzioni dei processi nella pagina Monitoraggio, quindi scegliere Visualizza dettagli dell'esecuzione per visualizzare informazioni dettagliate sull'esecuzione del processo.

Le informazioni visualizzate nella scheda dei dettagli dell'esecuzione del processo includono:

Proprietà Descrizione
Nome processo Il nome del processo .
Stato di esecuzione

Lo stato attuale del processo eseguito. I valori possono essere:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Versione Glue La versione di AWS Glue utilizzata dall'esecuzione del processo.
Tentativo recente Il numero di tentativi automatici per l'esecuzione di questo processo.
Ora di inizio

La data e ora in cui questa esecuzione di processo è stata avviata.

Ora di fine

La data e ora in cui questa elaborazione di processo è stata completata.

Ora di inizio

La quantità di tempo impiegato per la preparazione dell'esecuzione del processo.

Ora di esecuzione

La quantità di tempo impiegato per l'esecuzione dello script del processo.

Nome trigger

Il nome del trigger associato al processo.

Ora ultima modifica

La data dell'ultima modifica apportata al processo.

Configurazione di sicurezza

La configurazione di sicurezza per il processo, che include la crittografia Amazon S3, la crittografia CloudWatch e le impostazioni di crittografia dei segnalibri di processo.

Timeout Il valore della soglia di timeout per l'esecuzione del processo.
Capacità allocata

Il numero di unità di elaborazione dati (DPU) di AWS Glue allocate per questa esecuzione. Per ulteriori informazioni sulla pianificazione della capacità, consulta Monitoraggio per la pianificazione della capacità DPU nella Guida per gli sviluppatori di AWS Glue.

Capacità massima

La capacità massima disponibile per l'esecuzione del processo.

Numero di worker Il numero di worker utilizzati per l'esecuzione del processo.
Tipo di worker

Il tipo di worker predefiniti allocati per l'esecuzione del processo. I valori possono essere G.1X o G.2X.

  • G.1X: quando si sceglie questo tipo, si fornisce anche un valore per Numero di worker. Ogni worker esegue la mappatura su 1 DPU (4 vCPU, 16 GB di memoria, disco da 64 GB) e fornisce 1 esecutore. Consigliamo questo tipo di worker per i processi ad alto consumo di memoria. Questa è l'impostazione predefinita per Tipo di worker per la versione AWS Glue 2.0 o successive.

  • G.2X: quando si sceglie questo tipo, si fornisce anche un valore per Numero di worker. Ogni worker esegue la mappatura su 2 DPU (8 vCPU, 32 GB di memoria, disco da 128 GB) e fornisce 1 esecutore. Suggeriamo questo tipo di dipendente per i processi ad alto consumo di memoria e per i processi che eseguono trasformazioni machine learning.

Log Un collegamento ai log del processo per la registrazione continua (/aws-glue/jobs/logs-v2).
Log di output Un collegamento ai file di log di output del processo (/aws-glue/jobs/output).
Log di errore Un collegamento ai file di log degli errori del processo (/aws-glue/jobs/error).

È inoltre possibile visualizzare i seguenti elementi aggiuntivi, disponibili anche quando si visualizzano le informazioni relative alle esecuzioni recenti dei processi. Per ulteriori informazioni, consulta Visualizzare le informazioni sulle esecuzioni dei processi recenti.

Visualizzazione dei parametri di Amazon CloudWatch per l'esecuzione di un processo Spark

Nella pagina dei dettagli per l'esecuzione di un processo, nella sezione Run details (Dettagli esecuzione) puoi visualizzare i parametri del processo. AWS Glue Studio invia i parametri del processo a Amazon CloudWatch per ciascuno dei processi eseguiti.

AWS Glue invia i parametri a Amazon CloudWatch ogni 30 secondi. I parametri AWS Glue rappresentano i valori delta rispetto ai valori segnalati in precedenza. Se appropriato, i pannelli di controllo dei parametri aggregano (sommano) i valori inviati ogni 30 secondi per ottenere un valore per l'intero ultimo minuto. I parametri Spark passati da AWS Glue a Amazon CloudWatch, invece, sono generalmente valori assoluti che rappresentano lo stato corrente nel momento in cui vengono segnalati.

Nota

È necessario configurare l'account per accedere a Amazon CloudWatch.

I parametri forniscono informazioni sull'esecuzione del processo, ad esempio:

  • Spostamento di dati ETL: il numero di byte letti da o scritti in Amazon S3.

  • Profilo di memoria: heap utilizzata: il numero di byte di memoria utilizzati dall'heap Java Virtual Machine (JVM).

  • Profilo di memoria: utilizzo heap: la frazione di memoria (scala: 0-1), mostrata come percentuale, utilizzata dall'heap JVM.

  • Carico CPU: la frazione del carico di sistema della CPU utilizzata (dimensione: 0-1), indicata come percentuale.

Visualizzazione dei parametri di Amazon CloudWatch per l'esecuzione di un processo Ray

Nella pagina dei dettagli per l'esecuzione di un processo, nella sezione Dettagli esecuzione puoi visualizzare i parametri del processo. AWS Glue Studio invia i parametri del processo a Amazon CloudWatch per ciascuno dei processi eseguiti.

AWS Glue invia i parametri a Amazon CloudWatch ogni 30 secondi. I parametri AWS Glue rappresentano i valori delta rispetto ai valori segnalati in precedenza. Se appropriato, i pannelli di controllo dei parametri aggregano (sommano) i valori inviati ogni 30 secondi per ottenere un valore per l'intero ultimo minuto. I parametri Spark passati da AWS Glue a Amazon CloudWatch, invece, sono generalmente valori assoluti che rappresentano lo stato corrente nel momento in cui vengono segnalati.

Nota

È configurare l'account per accedere a Amazon CloudWatch, come descritto in .

Nei processi Ray, è possibile visualizzare i seguenti grafici di parametri aggregati. Con questi, è possibile creare un profilo del cluster e delle attività, nonché accedere a informazioni dettagliate su ciascun nodo. I dati di serie temporali che supportano questi grafici sono disponibili in CloudWatch per ulteriori analisi.

Profilo dell'attività: stato dell'attività

Mostra il numero di attività Ray nel sistema. A ogni ciclo di vita delle attività viene assegnata una serie temporale.

Profilo dell'attività: nome dell'attività

Mostra il numero di attività Ray nel sistema. Vengono mostrate solo le attività in sospeso e quelle attive. A ogni tipo di attività (in base al nome) viene assegnata una serie temporale distinta.

Profilo del cluster: CPU in uso

Mostra il numero di core della CPU utilizzati. A ogni nodo viene assegnata una serie temporale. I nodi sono identificati da indirizzi IP, che sono effimeri e vengono utilizzati solo per l'identificazione.

Profilo del cluster: utilizzo della memoria dell'archivio di oggetti

Mostra l'utilizzo della memoria da parte della cache degli oggetti Ray. A ogni posizione di memoria (memoria fisica, memorizzata nella cache su disco e riversata in Amazon S3) viene assegnata una serie temporale distinta. L'archivio oggetti gestisce l'archiviazione di dati su tutti i nodi del cluster. Per ulteriori informazioni, consultare la pagina Objects nella documentazione di Ray.

Profilo del cluster: conteggio dei nodi

Mostra il numero di nodi forniti per il cluster.

Dettaglio del nodo: utilizzo della CPU

Mostra l'utilizzo della CPU su ciascun nodo in percentuale. Ogni serie mostra una percentuale aggregata di utilizzo della CPU su tutti i core del nodo.

Dettaglio del nodo: utilizzo della memoria

Mostra l'utilizzo della memoria su ogni nodo in GB. Ogni serie mostra la memoria aggregata tra tutti i processi sul nodo, incluse le attività Ray e il processo di archiviazione di Plasma. Ciò non rifletterà gli oggetti archiviati su disco o riversati su Amazon S3.

Dettaglio del nodo: utilizzo del disco

Mostra l'utilizzo del disco su ogni nodo in GB.

Dettaglio del nodo: velocità di I/O del disco

Mostra l'I/O del disco su ogni nodo in KB/s.

Dettaglio del nodo: velocità di trasmissione effettiva di I/O di rete

Mostra l'I/O di rete su ogni nodo in KB/s.

Dettaglio del nodo: utilizzo della CPU da parte del componente Ray

Mostra l'utilizzo della CPU in parte dei core. A ogni componente Ray su ogni nodo viene assegnata una serie temporale.

Dettaglio del nodo: utilizzo della memoria da parte del componente Ray

Mostra l'utilizzo della memoria in GiB. A ogni componente Ray su ogni nodo viene assegnata una serie temporale.