Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Abilitazione dell'interfaccia utente Web di Apache Spark per processi AWS Glue
Puoi utilizzare l'interfaccia utente Web di Apache Spark per monitorare ed eseguire il debug dei processi ETL AWS Glue in esecuzione sul sistema di processi AWS Glue. È possibile configurare l'interfaccia utente di Spark tramite la console AWS Glue o l'AWS Command Line Interface (AWS CLI).
Ogni 30 secondi, AWS Glue esegue il backup dei log degli eventi Spark nel percorso Amazon S3 specificato.
Argomenti
Configurazione dell'interfaccia utente di Spark (console)
Segui queste fasi per configurare l'interfaccia utente di Spark mediante la Console di gestione AWS. Quando si crea un processo AWS Glue, l'interfaccia utente di Spark è abilitata per impostazione predefinita.
Per attivare l'interfaccia utente di Spark durante la creazione o la modifica di un processo
-
Accedi alla Console di gestione AWS, quindi apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/
. -
Nel riquadro di navigazione scegliere Jobs (Processi).
-
Scegli Aggiungi processo o selezionane uno esistente.
-
In Dettagli processo, apri le Proprietà avanzate.
-
Nella scheda Interfaccia utente Spark, scegli Scrivi i log dell'interfaccia utente di Spark su Amazon S3.
-
Specifica un percorso Amazon S3 per archiviare i log di eventi Spark per il processo. Tieni presente che, se utilizzi una configurazione di sicurezza nel processo, la crittografia verrà applicata anche al file di log dell'interfaccia utente di Spark. Per ulteriori informazioni, consulta Crittografia dei dati scritti da AWS Glue.
-
Nella sezione Configurazione della registrazione e del monitoraggio dell'interfaccia utente di Spark:
Seleziona Standard se stai generando i log da visualizzare nella console AWS Glue.
Seleziona Legacy se stai generando i log da visualizzare su un server della cronologia di Spark.
Puoi anche decidere di generarli entrambi.
Configurazione dell'interfaccia utente di Spark (AWS CLI)
Per generare i log da visualizzare con l'interfaccia utente di Spark nella console AWS Glue, utilizza la AWS CLI per trasferire i seguenti parametri di processo ai processi AWS Glue. Per ulteriori informazioni, consulta Utilizzo dei parametri del processo nei processi AWS Glue.
'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'
Per distribuire i log nelle rispettive posizioni precedenti, imposta il parametro --enable-spark-ui-legacy-path su "true". Se non desideri generare log in entrambi i formati, rimuovi il parametro --enable-spark-ui.
Configurazione dell'interfaccia utente di Spark per sessioni che utilizzano notebook
avvertimento
Le sessioni interattive AWS Glue attualmente non supportano l'interfaccia utente di Spark nella console. Configura un server della cronologia di Spark.
Se usi i notebook AWS Glue, imposta la configurazione dell'interfaccia utente di Spark prima di iniziare la sessione. A tale scopo, utilizza il magic per celle %%configure:
%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }
Abilitare log in sequenza
L'abilitazione dei file di eventi del log in sequenza di SparkUI per i processi AWS Glue offre diversi vantaggi:
-
File di eventi del log in sequenza: con i file di eventi dei log in sequenza abilitati, AWS Glue genera file di log separati per ogni fase dell'esecuzione del lavoro, semplificando l'identificazione e la risoluzione dei problemi specifici di una particolare fase o trasformazione.
-
Migliore gestione dei log: i file di eventi dei log in sequenza aiutano a gestire i file di log in modo più efficiente. Invece di avere un unico file di log potenzialmente di grandi dimensioni, i log vengono suddivisi in file più piccoli e più gestibili in base alle fasi di esecuzione del processo. Questo può semplificare l'archiviazione, l'analisi e la risoluzione dei problemi dei log.
-
Migliore tolleranza ai guasti: se un processo AWS Glue fallisce o viene interrotto, i file degli eventi dei log in sequenza possono fornire informazioni preziose sull'ultima fase riuscita, facilitando la ripresa del processo da quel punto piuttosto che ricominciare da zero.
-
Ottimizzazione dei costi: abilitando i file di eventi dei log in sequenza, è possibile risparmiare sui costi di archiviazione associati ai file di log. Invece di archiviare un singolo file di log potenzialmente di grandi dimensioni, vengono archiviati file di log più piccoli e più gestibili, il che può essere più conveniente, soprattutto per processi complessi o di lunga durata.
In un nuovo ambiente, gli utenti possono abilitare esplicitamente i log in sequenza tramite:
'—conf': 'spark.eventLog.rolling.enabled=true'
oppure
'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'
Quando i log in sequenza sono attivati, spark.eventLog.rolling.maxFileSize specifica la dimensione massima del file di log degli eventi prima che venga eseguito il rollover. Se non specificato, il valore predefinito di questo parametro facoltativo è 128 MB. Il minimo è 10 MB.
La somma massima di tutti i file di eventi dei log in sequenza è di 2 GB. Per i processi AWS Glue senza supporto dei log in sequenza, la dimensione massima del file degli eventi del log supportata per SparkUI è 0,5 GB.
Puoi disattivare i log in sequenza per un processo di streaming inserendo una configurazione aggiuntiva. Tieni presente che la manutenzione di file di log molto grandi può essere costosa.
Per disattivare i log in sequenza, fornisci la seguente configurazione:
'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'