Abilitazione dell'ottimizzazione automatica delle tabelle a livello di catalogo
Puoi abilitare l'ottimizzazione automatica delle tabelle per tutte le nuove tabelle Apache Iceberg nel Catalogo dati. Dopo aver creato la tabella, puoi anche aggiornare in modo esplicito le impostazioni dell'ottimizzazione della tabella manualmente.
Per aggiornare le impostazioni dei cataloghi dati per abilitare l'ottimizzazione a livello di catalogo, il ruolo IAM utilizzato deve avere glue:UpdateCatalog l'autorizzazione sul catalogo principale. È possibile utilizzare GetCatalog l'API per verificare le proprietà del catalogo.
Per le tabelle gestite da Lake Formation, il ruolo IAM selezionato durante la configurazione di ottimizzazione del catalogo richiede le autorizzazioni Lake Formation ALTER, DESCRIBE, INSERT e DELETE per eventuali nuove tabelle o tabelle aggiornate.
-
Aprire la console Lake Formation all'indirizzo https://console.aws.amazon.com/lakeformation/
. -
Nel pannello di navigazione, seleziona Catalogo dati.
-
Seleziona la scheda Cataloghi.
-
Scegli il catalogo a livello di account.
-
Scegli Ottimizzazioni della tabella, Modifica nella scheda Ottimizzazioni della tabella. Puoi anche scegliere Modifica ottimizzazioni dalla sezione Azioni.
-
Nella pagina Ottimizzazione della tabella, configura le seguenti opzioni:
-
Configura le impostazioni di Compattazione:
-
Abilita/disabilita la compattazione.
-
Scegli il ruolo IAM che dispone delle autorizzazioni necessarie per eseguire gli ottimizzatori.
Per ulteriori informazioni sui requisiti di autorizzazione per il ruolo IAM, consulta Prerequisiti per l'ottimizzazione delle tabelle .
-
-
Configura le impostazioni di Conservazione degli snapshot:
-
Abilita/disabilita la conservazione.
-
Imposta il periodo di conservazione dello snapshot in giorni: l'impostazione predefinita è 5 giorni.
-
Imposta il numero di snapshot da mantenere: l'impostazione predefinita è 1 snapshot.
-
Abilita/disabilita la pulizia dei file scaduti.
-
-
Configura le impostazioni di eliminazione dei file orfani:
-
Abilita/disabilita l'eliminazione dei file orfani.
-
Imposta il periodo di conservazione del file orfano in giorni: l'impostazione predefinita è 3 giorni.
-
-
-
Scegli Save (Salva).
Utilizza il seguente comando CLI per aggiornare un catalogo esistente con le impostazioni dell'ottimizzatore:
Esempio Aggiorna il catalogo con le impostazioni dell'ottimizzatore
aws glue update-catalog \ --namecatalog-id\ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'
Se riscontri problemi con gli ottimizzatori a livello di catalogo, controlla quanto segue:
-
Assicurati che il ruolo IAM disponga delle autorizzazioni corrette, come indicato nella sezione Prerequisiti.
-
Controlla i log di CloudWatch per eventuali messaggi di errore relativi alle operazioni dell'ottimizzatore.
Per ulteriori informazioni, consulta Visualizzazione di parametri disponibili nella Guida per l'utente di Amazon CloudWatch.
-
Verifica che le impostazioni del catalogo siano state applicate correttamente controllando la configurazione del catalogo.
-
In caso di errori di accesso alle tabelle, controlla i log di CloudWatch e le notifiche di EventBridge per informazioni dettagliate sugli errori.