Registrazione dei lavori AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Registrazione dei lavori AWS Glue

Nella AWS Glue versione 5.0, tutti i lavori dispongono di funzionalità di registrazione in tempo reale. Inoltre, è possibile specificare opzioni di configurazione personalizzate per personalizzare il comportamento di registrazione. Queste opzioni includono l'impostazione del nome del gruppo di Amazon CloudWatch log, del prefisso del flusso di Amazon CloudWatch log (che precederà l'ID e l'ID del AWS Glue job run) e driver/executor il modello di conversione dei log per i messaggi di log. Queste configurazioni consentono di aggregare i log in gruppi di Amazon CloudWatch log personalizzati con politiche di scadenza diverse. Inoltre, è possibile analizzare i log in modo più efficace utilizzando prefissi e modelli di conversione personalizzati per i flussi di log. Questo livello di personalizzazione consente di ottimizzare la gestione e l'analisi dei log in base ai requisiti specifici.

Comportamento di registrazione nella versione 5.0 AWS Glue

Per impostazione predefinita, i log di sistema, i log dei daemon Spark e i log dei AWS Glue logger degli utenti vengono scritti nel gruppo di log in. /aws-glue/jobs/error Amazon CloudWatch D'altra parte, i log degli utenti stdout (standard output) e stderr (standard error) vengono scritti nel gruppo di log per impostazione predefinita. /aws-glue/jobs/output

Registrazione personalizzata

È possibile personalizzare i prefissi predefiniti del gruppo di log e del flusso di log utilizzando i seguenti argomenti di lavoro:

  • --custom-logGroup-prefix: consente di specificare un prefisso personalizzato per i gruppi /aws-glue/jobs/error e /aws-glue/jobs/output di log. Se si fornisce un prefisso personalizzato, i nomi dei gruppi di log avranno il seguente formato:

    • /aws-glue/jobs/error sarà <customer prefix>/error

    • /aws-glue/jobs/output sarà <customer prefix>/output

  • --custom-logStream-prefix: consente di specificare un prefisso personalizzato per i nomi dei flussi di log all'interno dei gruppi di log. Se si fornisce un prefisso personalizzato, i nomi dei flussi di registro avranno il seguente formato:

    • jobrunid-driver sarà <customer log stream>-driver

    • jobrunid-executorNum sarà <customer log stream>-executorNum

Regole e limitazioni di convalida per i prefissi personalizzati:

  • Il nome dell'intero flusso di log deve avere una lunghezza compresa tra 1 e 512 caratteri.

  • Il prefisso personalizzato stesso è limitato a 400 caratteri.

  • Il prefisso personalizzato deve corrispondere al modello di espressione regolare `[^: *] *` (i caratteri speciali consentiti sono '_', '-' e '/').

Registrazione di messaggi specifici di applicazioni tramite logger di script personalizzato

È possibile utilizzare il AWS Glue logger per registrare tutti i messaggi specifici dell'applicazione nello script che vengono inviati in tempo reale al flusso di registro del driver.

Il seguente esempio mostra uno script Python.

from awsglue.context import GlueContext from pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) logger = glueContext.get_logger() logger.info("info message") logger.warn("warn message") logger.error("error message")

Il seguente esempio mostra uno script Scala.

import com.amazonaws.services.glue.log.GlueLogger object GlueApp { def main(sysArgs: Array[String]) { val logger = new GlueLogger logger.info("info message") logger.warn("warn message") logger.error("error message") } }

Abilitazione della barra di avanzamento per visualizzare l'avanzamento del processo

AWS Glue fornisce una barra di avanzamento in tempo reale sotto il flusso di JOB_RUN_ID-progress-bar log per controllare AWS Glue lo stato di esecuzione del lavoro. Al momento, supporta solo i processi che inizializzano glueContext. Se esegui un processo Spark puro senza inizializzarloglueContext, la barra di AWS Glue avanzamento non viene visualizzata.

La barra di avanzamento mostra il seguente aggiornamento dell'avanzamento ogni 5 secondi.

Stage Number (Stage Name): > (numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

Configurazione di sicurezza con registrazione Amazon CloudWatch

Quando una configurazione di sicurezza è abilitata per Amazon CloudWatch i log, AWS Glue crea gruppi di log con modelli di denominazione specifici che incorporano il nome della configurazione di sicurezza.

Denominazione dei gruppi di log con configurazione di sicurezza

I gruppi di log predefiniti e personalizzati saranno i seguenti:

  • Gruppo di registro degli errori predefinito: /aws-glue/jobs/Security-Configuration-Name-role/glue-job-role/error

  • Gruppo di log di output predefinito: /aws-glue/jobs/Security-Configuration-Name-role/glue-job-role/output

  • Gruppo di log degli errori personalizzato (AWS Glue 5.0): custom-log-group-prefix/Security-Configuration-Name-role/glue-job-role/error

  • Gruppo di log di output personalizzato (AWS Glue 5.0): custom-log-group-prefix/Security-Configuration-Name-role/glue-job-role/output

Autorizzazioni IAM richieste

È necessario aggiungere l'logs:AssociateKmsKeyautorizzazione alle autorizzazioni del ruolo IAM, se si abilita una configurazione di sicurezza con Amazon CloudWatch Logs. Se tale autorizzazione non è inclusa, la registrazione continua verrà disabilitata.

Inoltre, per configurare la crittografia per Amazon CloudWatch i log, segui le istruzioni in Encrypt Log Data in Amazon CloudWatch Logs Using nella Amazon Amazon CloudWatch Logs AWS Key Management Service User Guide.

Informazioni aggiuntive

Per ulteriori informazioni sulla creazione di configurazioni di sicurezza, consulta Gestione delle configurazioni di sicurezza sulla console. AWS Glue