Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitoraggio di AWS Glue con i parametri di Amazon CloudWatch
Puoi creare il profilo delle attività AWS Glue e monitorarle utilizzando il profiler dei processi AWS Glue. Raccoglie i dati non elaborati dai processi AWS Glue e li elabora in parametri leggibili quasi in tempo reale archiviati in Amazon CloudWatch. Queste statistiche vengono conservate e aggregate in CloudWatch, per permettere l'accesso alle informazioni di cronologia per ottenere una panoramica migliore delle prestazioni dell'applicazione.
Nota
Potrebbero essere applicati costi aggiuntivi quando si abilitano i parametri del processo e vengono creati i parametri personalizzati di CloudWatch. Per ulteriori informazioni, consulta Prezzi di Amazon CloudWatch
Panoramica dei parametri AWS Glue
Quando interagisci con AWS Glue, i parametri vengono inviati a CloudWatch. Puoi visualizzare questi parametri nella console AWS Glue (metodo preferenziale), nel pannello di controllo della console CloudWatch o in AWS Command Line Interface (AWS CLI).
Per visualizzare i parametri usando il pannello di controllo della console AWS Glue
Puoi visualizzare grafici dettagliati o di riepilogo dei parametri per un processo oppure grafici dettagliati per un'esecuzione di un processo.
Accedi alla Console di gestione AWS, quindi apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/
. -
Nel riquadro di navigazione, scegli Monitoraggio dell'esecuzione del processo.
-
In Esecuzioni del processo, scegli Operazioni per interrompere un processo attualmente in esecuzione, visualizzare un processo o riavvolgerne il segnalibro.
-
Seleziona un processo, quindi scegli Visualizza dettagli di esecuzione per visualizzare informazioni aggiuntive sull'esecuzione del processo.
Per visualizzare i parametri utilizzando il pannello di controllo della console CloudWatch
I parametri vengono raggruppati prima in base allo spazio dei nomi del servizio e successivamente in base alle diverse combinazioni di dimensioni all'interno di ogni spazio dei nomi.
-
Aprire la console CloudWatch all'indirizzo https://console.aws.amazon.com/cloudwatch/
. -
Nel riquadro di navigazione, scegli Parametri.
-
Selezionare lo spazio dei nomi Glue.
Per visualizzare i parametri usando AWS CLI
-
Al prompt dei comandi utilizza il comando seguente.
aws cloudwatch list-metrics --namespace Glue
AWS Glue invia i parametri a CloudWatch ogni 30 secondi e i pannelli di controllo dei parametri di CloudWatch sono configurati per visualizzare i parametri ogni minuto. I parametri AWS Glue rappresentano i valori delta rispetto ai valori segnalati in precedenza. Se appropriato, i pannelli di controllo dei parametri aggregano (sommano) i valori inviati ogni 30 secondi per ottenere un valore per l'intero ultimo minuto.
Comportamento dei parametri di AWS Glue per i processi Spark
I parametri di AWS Glue vengono abilitati al momento dell'inizializzazione di un GlueContext in uno script e vengono in genere aggiornati solo al termine di un'attività di Apache Spark. Rappresentano i valori aggregati per tutte le attività di Spark completate fino al momento attuale.
Tuttavia, i parametri Spark passati da AWS Glue a CloudWatch sono generalmente valori assoluti che rappresentano lo stato corrente nel momento in cui vengono segnalati. AWS Glue invia i parametri a CloudWatch ogni 30 secondi e i pannelli di controllo dei parametri mostrano in genere la media tra i punti dati ricevuti nell'ultimo minuto.
I nomi dei parametri AWS Glue sono tutti preceduti da uno dei seguenti tipi di prefisso:
glue.driver.: i parametri i cui nomi iniziano con questo prefisso rappresentano parametri AWS Glue aggregati da tutti gli executor nel driver Spark oppure parametri Spark corrispondenti al driver Spark.glue.executorId.: executorId è il numero di un executor Spark specifico. Corrisponde agli executor elencati nei log.glue.ALL.: i parametri i cui nomi iniziano con questo prefisso aggregano i valori di tutti gli executor Spark.
Parametri di AWS Glue
AWS Glue fornisce i profili e invia i seguenti parametri a CloudWatch ogni 30 secondi e il pannello di controllo dei parametri di AWS Glue li segnala una volta al minuto:
| Parametro | Descrizione |
|---|---|
|
|
Il numero di byte letti da tutte le origini dati da tutti i processi Spark completati in esecuzione in tutti gli executor. Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: byte Può essere utilizzato per monitorare:
Questo parametro può essere utilizzato come il parametro |
|
|
Il tempo di ETL trascorso in millisecondi (non include i tempi di bootstrap del processo). Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: millisecondi Può essere utilizzato per determinare il tempo medio di esecuzione di un processo. Alcuni modi per utilizzare i dati:
|
|
|
Il numero di fasi completate nel processo. Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: numero Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Il numero di attività completate nel processo. Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: numero Può essere utilizzato per monitorare:
|
|
|
Il numero di processi non riusciti. Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: numero Può essere utilizzato per monitorare:
I dati possono essere utilizzati per impostare allarmi per errori maggiori che potrebbero suggerire anomalie nei dati, nel cluster o negli script. |
|
|
Il numero di attività interrotte. Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: numero Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Il numero di record letti da tutte le origini dati da tutti i processi Spark completati in esecuzione in tutti gli executor. Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: numero Può essere utilizzato per monitorare:
Questo parametro può essere utilizzato come il parametro |
|
|
Numero di byte scritti da tutti gli executor per distribuire i dati in modo casuale dal report precedente (aggregati in base al pannello di controllo dei parametri di AWS Glue come il numero di byte scritti a questo scopo nel minuto precedente). Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: byte Può essere utilizzato per monitorare: la distribuzione casuale dei dati nei processi (join di grandi dimensioni, groupBy, repartition, coalesce). Alcuni modi per utilizzare i dati:
|
|
|
Numero di byte letti da tutti gli executor per distribuire i dati in modo casuale dal report precedente (aggregati in base al pannello di controllo dei parametri di AWS Glue come il numero di byte letti a questo scopo nel minuto precedente). Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue, viene utilizzata una statistica SUM (Somma) per l'aggregazione. Unità: byte Può essere utilizzato per monitorare: la distribuzione casuale dei dati nei processi (join di grandi dimensioni, groupBy, repartition, coalesce). Alcuni modi per utilizzare i dati:
|
|
|
Numero di megabyte di spazio su disco utilizzati in tutti gli executor. Dimensioni valide: Statistiche valide: Average (Media). Si tratta di un parametro Spark, riportato come valore assoluto. Unità: megabyte Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Numero di executor di processo attivi. Dimensioni valide: Statistiche valide: Average (Media). Si tratta di un parametro Spark, riportato come valore assoluto. Unità: numero Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Il numero massimo di executor di processo (attivi e in sospeso) necessari per soddisfare il carico corrente. Dimensioni valide: Statistiche valide: Maximum (Massimo). Si tratta di un parametro Spark, riportato come valore assoluto. Unità: numero Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Frazione di memoria usata dall'heap JVM per questo driver (dimensione: 0-1) per driver, executor identificato da executorId o TUTTI gli executor. Dimensioni valide: Statistiche valide: Average (Media). Si tratta di un parametro Spark, riportato come valore assoluto. Unità: percentuale Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Il numero di byte di memoria utilizzati dall'heap JVM per il driver, l'executor identificato da executorId o TUTTI gli executor. Dimensioni valide: Statistiche valide: Average (Media). Si tratta di un parametro Spark, riportato come valore assoluto. Unità: byte Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Numero di byte letti da Amazon S3 dal driver, un executor identificato da executorId o TUTTI gli executor dal report precedente (aggregati in base al pannello di controllo dei parametri di AWS Glue come il numero di byte letti nel minuto precedente). Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue viene utilizzata una statistica SUM (Somma) per l'aggregazione. L'area sotto la curva nel pannello di controllo dei parametri di AWS Glue può essere utilizzata per confrontare visivamente i byte letti da due diverse esecuzioni di processi. Unità: byte. Può essere utilizzato per monitorare:
I dati risultanti possono essere utilizzati per:
|
|
|
Numero di byte scritti da Amazon S3 dal driver, un executor identificato da executorId o TUTTI gli executor dal report precedente (aggregati in base al pannello di controllo dei parametri di AWS Glue come il numero di byte scritti nel minuto precedente). Dimensioni valide: Statistiche valide: SUM (Somma). Questo parametro è un valore delta rispetto all'ultimo valore riportato, quindi nel pannello di controllo dei parametri di AWS Glue viene utilizzata una statistica SUM (Somma) per l'aggregazione. L'area sotto la curva nel pannello di controllo dei parametri di AWS Glue può essere utilizzata per confrontare visivamente i byte scritti da due diverse esecuzioni di processi. Unità: byte Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
|
|
Numero di record ricevuti in un micro-batch. Questo parametro è disponibile solo per processi di streaming AWS Glue con AWS Glue versione 2.0 e successive. Dimensioni valide: Valid Statistics: Sum (Somma), Maximum (Massimo), Minimum (Minimo), Average (Media), Percentile (Percentuale) Unità: numero Può essere utilizzato per monitorare:
|
|
|
Il tempo necessario per elaborare i batch in millisecondi. Questo parametro è disponibile solo per processi di streaming AWS Glue con AWS Glue versione 2.0 e successive. Dimensioni valide: Valid Statistics: Sum (Somma), Maximum (Massimo), Minimum (Minimo), Average (Media), Percentile (Percentuale) Unità: numero Può essere utilizzato per monitorare:
|
|
|
Frazione del carico di sistema della CPU usata (dimensione: 0-1) dal driver, da un executor identificato da executorId o da tutti gli executor. Dimensioni valide: Statistiche valide: Average (Media). Questo parametro è riportato come valore assoluto. Unità: percentuale Può essere utilizzato per monitorare:
Alcuni modi per utilizzare i dati:
|
Dimensioni dei parametri di AWS Glue
I parametri di AWS Glue utilizzano lo spazio dei nomi AWS Glue e forniscono i parametri per le seguenti dimensioni:
| Dimensione | Descrizione |
|---|---|
|
|
Questa dimensione filtra i parametri di tutte le esecuzioni di processo di uno specifico processo AWS Glue. |
|
|
Questa dimensione filtra i parametri di uno specifico processo AWS Glue eseguito da un ID JobRun o |
|
|
Questa dimensione filtra i parametri in base a |
Per ulteriori informazioni, consultare la Guida per l'utente di Amazon CloudWatch.