Eliminazione di file orfani - AWS Glue

Eliminazione di file orfani

AWS Glue Data Catalog consente di rimuovere i file orfani dalle tabelle Iceberg. I file orfani sono file non referenziati presenti nell'origine dati di Amazon S3 nella posizione della tabella specificata, non sono tracciati dai metadati della tabella Iceberg e sono più vecchi del limite di età configurato. Questi file orfani possono accumularsi nel tempo a causa di errori in operazioni come compattazione, cali di partizione o riscritture di tabelle, e occupare spazio di archiviazione non necessario.

L'ottimizzatore di eliminazione dei file orfani AWS Glue scansiona i metadati della tabella e i file di dati effettivi, identifica i file orfani e li elimina per recuperare lo spazio di archiviazione. L'ottimizzatore rimuove solo i file creati dopo la data di creazione dell'ottimizzatore che soddisfano anche i criteri di eliminazione configurati. I file creati prima o alla data di creazione dell'ottimizzatore non vengono mai eliminati.

Logica di eliminazione dei file orfani

  1. Controllo della data: confronta la data di creazione del file con quella di creazione dell'ottimizzatore. Se il file è precedente o contemporaneo alla data di creazione dell'ottimizzatore, il file viene ignorato.

  2. Controllo della configurazione dell'ottimizzatore: se il file è più recente della data di creazione dell'ottimizzatore, valuta il file rispetto al limite di età configurato. L'ottimizzatore elimina il file se soddisfa i criteri di eliminazione. Ignora il file, se non corrisponde ai criteri.

È possibile avviare l'eliminazione dei file orfani creando un ottimizzatore di tabelle per l'eliminazione dei file orfani nel catalogo dati.

Importante

Per impostazione predefinita, l'eliminazione dei file orfani valuta i file in tutta la posizione della tabella AWS Glue. Sebbene sia possibile configurare un prefisso secondario per limitare l'ambito di valutazione utilizzando il parametro API, è necessario assicurarsi che la posizione della tabella non contenga file provenienti da altre origini dati o tabelle. Se la posizione della tabella si sovrappone ad altre origini dati, il servizio potrebbe identificare ed eliminare i file non correlati come orfani.