Ottimizzazione delle prestazioni delle query con le statistiche delle colonne - AWS Glue

Ottimizzazione delle prestazioni delle query con le statistiche delle colonne

È possibile calcolare statistiche a livello di colonna per tabelle AWS Glue Data Catalog in formati di dati come Parquet, ORC, JSON, ION, CSV e XML senza configurare pipeline di dati aggiuntive. Le statistiche delle colonne consentono di comprendere i profili di dati ottenendo informazioni dettagliate sui valori all'interno di una colonna.

Catalogo dati supporta la generazione di statistiche per valori di colonna come valore minimo, valore massimo, valori null totali, valori distinti totali, lunghezza media dei valori e occorrenze totali di valori true. I servizi di analisi AWS come Amazon Redshift e Amazon Athena possono utilizzare queste statistiche delle colonne per generare piani di esecuzione delle query e scegliere quello ottimale che ne migliori le prestazioni.

Sono possibili tre scenari per generare le statistiche delle colonne:

Automatico

AWS Glue supporta la generazione automatica di statistiche delle colonne a livello di catalogo, in modo da poter generare automaticamente statistiche per nuove tabelle in AWS Glue Data Catalog.

Pianificati

AWS Glue supporta la pianificazione della generazione di statistiche delle colonne, in modo che possa essere eseguita automaticamente in base a una pianificazione ricorrente.

Con il calcolo pianificato delle statistiche, l'attività di statistica delle colonne aggiorna le statistiche complessive a livello di tabella, ad esempio min, max e medio, con le nuove statistiche, fornendo ai motori di query statistiche accurate e aggiornate per ottimizzare la loro esecuzione.

On demand

Utilizzare questa opzione per generare statistiche delle colonne on demand ogni volta che è necessario. Questo è utile per analisi ad hoc o quando le statistiche devono essere calcolate immediatamente.

È possibile configurare l'esecuzione di attività di generazione di statistiche delle colonne utilizzando la console AWS Glue, AWS CLI e le operazioni API AWS Glue. Quando avvii il processo, AWS Glue avvia un processo Spark in background e aggiorna i metadati della tabella AWS Glue nel Catalogo dati. Puoi visualizzare le statistiche delle colonne utilizzando la console AWS Glue o AWS CLI o chiamando l'operazione API GetColumnStatisticsForTable.

Nota

Se utilizzi le autorizzazioni di Lake Formation per controllare l'accesso alla tabella, il ruolo assunto dall'attività di statistica delle colonne richiede l'accesso completo alla tabella per generare statistiche.

Il video seguente illustra come migliorare le prestazioni delle query utilizzando le statistiche delle colonne.