Considerazioni e limitazioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni e limitazioni

Questa sezione include gli aspetti da considerare quando si utilizzano ottimizzatori delle tabelle all'interno di AWS Glue Data Catalog.

Formati supportati e limitazioni per la compattazione gestita dei dati

La compattazione dei dati supporta diversi tipi di dati e formati di compressione per la lettura e la scrittura di dati, inclusa la lettura di dati da tabelle crittografate.

La compattazione dei dati supporta:

  • Crittografia: la compattazione dei dati supporta solo la crittografia Amazon S3 (SSE-S3) e la crittografia KMS lato server (SSE-KMS).

  • Strategie di compattazione: Binpack, ordinamento regolare o con ordine Z

  • Puoi eseguire la compattazione dall'account in cui risiede il Catalogo dati quando il bucket Amazon S3 che archivia i dati sottostanti si trova in un altro account. Per eseguire questa azione, il ruolo di compattazione richiede l'accesso al bucket Amazon S3.

La compattazione dei dati attualmente non supporta:

  • Compattazione su tabelle con più account: non è possibile eseguire la compattazione su tabelle con più account.

  • Compattazione su tabelle con più regioni: non è possibile eseguire la compattazione su tabelle con più regioni.

  • Abilitazione della compattazione sui link alle risorse

  • Tabelle nella classe di archiviazione Amazon S3 Express One Zone: non è possibile eseguire la compattazione su tabelle Iceberg di S3 Express One Zone.

  • La strategia di compattazione con ordine Z non supporta i seguenti tipi di dati:

    • Decimale

    • TimestampWithoutZone

Considerazioni sulla conservazione degli snapshot e sugli ottimizzatori di eliminazione di file orfani

Le seguenti considerazioni si applicano alla conservazione degli snapshot e agli ottimizzatori di eliminazione di file orfani.

  • I processi di conservazione degli snapshot e di eliminazione dei file orfani hanno un limite massimo di eliminazione di 1.000.000 di file per esecuzione. Quando si eliminano gli snapshot scaduti, se il numero di file idonei all'eliminazione supera 1.000.000, tutti i file rimanenti oltre tale soglia continueranno a esistere nella tabella di archiviazione come file orfani.

  • Gli snapshot verranno conservati dall'ottimizzatore di conservazione degli snapshot solo quando entrambi i criteri saranno soddisfatti: il numero minimo di snapshot da conservare e il periodo di conservazione specificato.

  • L'ottimizzatore di conservazione degli snapshot elimina i metadati degli snapshot scaduti da Apache Iceberg, evitando le query temporali per gli snapshot scaduti e, facoltativamente, eliminando i file di dati associati.

  • L'ottimizzatore di eliminazione di file orfani elimina file di metadati e dati orfani a cui non fanno più riferimento i metadati Iceberg se la data di creazione è precedente al periodo di conservazione per l'eliminazione di file orfani dal momento dell'esecuzione dell'ottimizzatore.

  • Apache Iceberg facilita il controllo delle versioni tramite rami e tag, che sono puntatori denominati a stati specifici degli snapshot. Ogni ramo e tag segue il proprio ciclo di vita indipendente, regolato da policy di conservazione definite ai rispettivi livelli. Gli ottimizzatori AWS Glue Data Catalog tengono conto di queste policy di ciclo di vita, garantendo il rispetto delle regole di conservazione specificate. Le policy di conservazione a livello di ramo e tag hanno la precedenza sulle configurazioni dell'ottimizzatore.

    Per ulteriori informazioni, consultare Ramificazione e tagging nella documentazione di Apache Iceberg.

  • Gli ottimizzatori di conservazione degli snapshot e di eliminazione dei file orfani elimineranno i file idonei alla pulizia in base ai parametri configurati. Migliorare il controllo sull'eliminazione dei file implementando le policy di controllo delle versioni di S3 e del ciclo di vita nei bucket appropriati.

    Per istruzioni dettagliate sulla configurazione del controllo delle versioni e sulla creazione di regole del ciclo di vita, consultare https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.

  • Per una corretta determinazione dei file orfani, assicurarsi che la posizione della tabella e gli eventuali percorsi secondari forniti non si sovrappongano o contengano dati provenienti da altre tabelle o origini dati. Se i percorsi si sovrappongono, si rischia una perdita irreversibile dei dati a causa dell'eliminazione involontaria dei file.

Debug di un'eccezione OversizedAllocationException

Per risolvere un'eccezione OversizedAllocationException:

  • Ridurre la dimensione del batch del lettore vettorializzato e controllare. La dimensione predefinita del batch è pari a 5000. Questo è controllato in read.parquet.vectorization.batch-size.

    • Se non funziona anche dopo molteplici varianti, disattivare la vettorizzazione. Questo è controllato in read.parquet.vectorization.enabled.

    • Se non funziona anche dopo molteplici varianti, disattivare la vettorizzazione. Questo è controllato in read.parquet.vectorization.enabled.