Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzazione delle prestazioni delle query per le tabelle Iceberg
Apache Iceberg è un formato a tabella aperta ad alte prestazioni per enormi set di dati di analisi. AWS Gluesupporta il calcolo e l'aggiornamento del numero di valori distinti (NDV) per ogni colonna nelle tabelle Iceberg. Queste statistiche possono facilitare una migliore ottimizzazione delle query, la gestione dei dati e l'efficienza delle prestazioni per gli ingegneri e gli scienziati che lavorano con set di dati su larga scala.
AWS Glue stima il numero di valori distinti in ogni colonna della tabella Iceberg e li memorizza in file Puffin
Puoi configurare l'esecuzione di attività di generazione di statistiche sulle colonne utilizzando la console AWS Glue o AWS CLI. Quando avvii il processo, AWS Glue avvia un processo Spark in background e aggiorna i metadati della tabella AWS Glue nel Catalogo dati. Puoi visualizzare le statistiche delle colonne utilizzando la console AWS Glue o AWS CLI o chiamando l'operazione API GetColumnStatisticsForTable.
Nota
Se utilizzi le autorizzazioni AWS Lake Formation per controllare l'accesso alla tabella, il ruolo assunto dall'attività di statistica delle colonne richiede l'accesso completo alla tabella per generare statistiche.