Registrazione per i lavori AWS Glue. - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Registrazione per i lavori AWS Glue.

In AWS Glue 5.0, tutti i lavori dispongono di funzionalità di registrazione in tempo reale. È inoltre possibile specificare le opzioni di configurazione personalizzate per personalizzare il comportamento di log. Queste opzioni includono l'impostazione del nome del gruppo di log Amazon CloudWatch, del prefisso del flusso di log Amazon CloudWatch (che precederà l'ID di esecuzione del lavoro AWS Glue e l'ID del driver/esecuzione) e del modello di conversione log per i messaggi di log. Queste configurazioni consentono di aggregare i log in gruppi di log Amazon CloudWatch personalizzati con politiche di scadenza diverse. Inoltre, è possibile analizzare i log in modo più efficace utilizzando prefissi e modelli di conversione personalizzati per i flussi di log. Questo livello di personalizzazione consente di ottimizzare la gestione e l'analisi dei log in base ai requisiti specifici.

Comportamento di registrazione in AWS Glue 5.0

Per impostazione predefinita, i log di sistema, i log dei daemon Spark e i log dei Logger dell'utente AWS Glue vengono scritti nel gruppo di log /aws-glue/jobs/error in Amazon CloudWatch. D'altra parte, i log degli utenti stdout (standard output) e stderr (standard error) vengono scritti nel gruppo di log /aws-glue/jobs/output per impostazione predefinita.

Registrazione personalizzata

È possibile personalizzare i prefissi predefiniti del gruppo di log e del flusso di log utilizzando i seguenti argomenti di lavoro:

  • --custom-logGroup-prefix: consente di specificare un prefisso personalizzato per i gruppi di log /aws-glue/jobs/error e /aws-glue/jobs/output. Se si fornisce un prefisso personalizzato, i nomi dei gruppi di log avranno il seguente formato:

    • /aws-glue/jobs/error sarà <customer prefix>/error

    • /aws-glue/jobs/output sarà <customer prefix>/output

  • --custom-logStream-prefix: consente di specificare un prefisso personalizzato per i nomi dei flussi di log all'interno dei gruppi di log. Se si fornisce un prefisso personalizzato, i nomi dei flussi di log avranno il seguente formato:

    • jobrunid-driver sarà <customer log stream>-driver

    • jobrunid-executorNum sarà <customer log stream>-executorNum

Regole e limitazioni di convalida per i prefissi personalizzati:

  • L'intero nome del flusso di log deve contenere da 1 a 512 caratteri.

  • Il prefisso personalizzato stesso è limitato a 400 caratteri.

  • Il prefisso personalizzato deve corrispondere al modello di espressione regolare “[^: *] *” (i caratteri speciali consentiti sono “_”, “-” e “/”).

Registrazione di messaggi specifici di applicazioni tramite logger di script personalizzato

Puoi utilizzare il logger AWS Glue per registrare nello script qualsiasi messaggio specifico di applicazioni inviato in tempo reale al flusso di log di driver.

Il seguente esempio mostra uno script Python.

from awsglue.context import GlueContext from pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) logger = glueContext.get_logger() logger.info("info message") logger.warn("warn message") logger.error("error message")

Il seguente esempio mostra uno script Scala.

import com.amazonaws.services.glue.log.GlueLogger object GlueApp { def main(sysArgs: Array[String]) { val logger = new GlueLogger logger.info("info message") logger.warn("warn message") logger.error("error message") } }

Abilitazione della barra di avanzamento per visualizzare l'avanzamento del processo

AWS Glue fornire una barra di avanzamento del processo in tempo reale sotto il flusso di log JOB_RUN_ID-progress-bar per controllare lo stato dell'esecuzione del processo AWS Glue. Al momento, supporta solo i processi che inizializzano glueContext. Se esegui un semplice processo Spark senza inizializzare glueContext, la barra di avanzamento AWS Glue non viene visualizzata.

La barra di avanzamento mostra il seguente aggiornamento dell'avanzamento ogni 5 secondi.

Stage Number (Stage Name): > (numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

Configurazione di sicurezza con la registrazione Amazon CloudWatch

Quando una configurazione di sicurezza è abilitata per i log Amazon CloudWatch, AWS Glue crea gruppi di log con modelli di denominazione specifici che incorporano il nome della configurazione di sicurezza.

Denominazione dei gruppi di log con configurazione di sicurezza

I gruppi di log predefiniti e personalizzati saranno i seguenti:

  • Gruppo di log degli errori predefinito: /aws-glue/jobs/Security-Configuration-Name-role/glue-job-role/error

  • Gruppo di log di output predefinito: /aws-glue/jobs/Security-Configuration-Name-role/glue-job-role/output

  • Gruppo di log degli errori personalizzato (AWS Glue 5.0): custom-log-group-prefix/Security-Configuration-Name-role/glue-job-role/error

  • Gruppo di log di output personalizzato (AWS Glue 5.0): custom-log-group-prefix/Security-Configuration-Name-role/glue-job-role/output

Autorizzazioni IAM richieste

Se si abilita una configurazione di sicurezza con Amazon CloudWatch Logs, è necessario aggiungere l'autrozzazione logs:AssociateKmsKey alle autorizzazioni del ruolo IAM. Se tale autorizzazione non è inclusa, la registrazione continua verrà disabilitata.

Inoltre, per configurare la crittografia per Amazon CloudWatch Logs, segui le istruzioni in Crittografia dei dati di log in Amazon CloudWatch Logs utilizzando AWS Key Management Service nella Guida per l'utente di Amazon Amazon CloudWatch Logs.

Informazioni aggiuntive

Per ulteriori informazioni sulla creazione delle configurazioni di sicurezza, consulta Gestione delle configurazioni di sicurezza sulla console AWS Glue.