Ottimizzazione delle tabelle Iceberg - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottimizzazione delle tabelle Iceberg

AWS Glue supporta diverse opzioni di ottimizzazione delle tabelle per migliorare la gestione e le prestazioni delle tabelle Apache Iceberg utilizzate dai motori analitici di AWS e dai processi ETL. Questi ottimizzatori offrono un utilizzo efficiente dello storage, prestazioni di query migliorate e una gestione efficace dei dati. Sono disponibili tre tipi di ottimizzatori di tabelle in AWS Glue:

  • Compattazione: la compattazione dei dati compatta file di dati di piccole dimensioni per ridurre l'utilizzo dell'archiviazione e migliorare le prestazioni di lettura. I file di dati vengono uniti e riscritti per rimuovere i dati obsoleti e consolidare i dati frammentati in file più grandi ed efficienti. È possibile configurare la compattazione in modo che venga eseguita automaticamente.

    Binpack è la strategia di compattazione predefinita in Apache Iceberg. Combina file di dati più piccoli in file più grandi per prestazioni ottimali. La compattazione supporta anche strategie di Sort e Z-order che raggruppano dati simili. Sort organizza i dati in base a colonne specifiche, migliorando le prestazioni delle query per le operazioni filtrate. Z-order crea set di dati ordinati che migliorano le prestazioni delle query quando vengono eseguite query su più colonne contemporaneamente. Tutte e tre le strategie di compattazione (Binpack, Sort e Z-order) riducono la quantità di dati scansionati dai motori di query, riducendo così i costi di elaborazione delle query.

  • Conservazione degli snapshot: gli snapshot sono versioni con data e ora di una tabella Iceberg. Le configurazioni di conservazione degli snapshot consentono ai clienti di stabilire per quanto tempo conservare gli snapshot e quanti snapshot conservare. La configurazione di un ottimizzatore di conservazione degli snapshot può aiutare a gestire il sovraccarico di archiviazione rimuovendo gli snapshot più vecchi e non necessari e i relativi file sottostanti.

  • Eliminazione di file orfani: i file orfani sono file a cui non fanno più riferimento i metadati della tabella Iceberg. Questi file possono accumularsi nel tempo, soprattutto dopo operazioni come l'eliminazione di tabelle o i processi ETL non riusciti. L'abilitazione dell'eliminazione dei file orfani consente a AWS Glue di identificare e rimuovere periodicamente questi file non necessari, liberando spazio di archiviazione.

La configurazione dell'ottimizzazione a livello di catalogo è disponibile tramite la console Lake Formation e utilizzando l'operazione API AWS Glue UpdateCatalog. È possibile abilitare o disabilitare gli ottimizzatori di compattazione, conservazione degli snapshot ed eliminazione di file orfani per le singole tabelle Iceberg nel catalogo dati utilizzando la console AWS Glue, AWS CLI, o le operazioni API AWS Glue.

Il video seguente illustra come configurare ottimizzatori per tabelle Iceberg nel catalogo dati.