Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Migrazione completa dei dati
La migrazione completa dei dati ricrea i file di dati e i metadati. Questo approccio richiede più tempo e risorse di elaborazione aggiuntive rispetto alla migrazione sul posto. Tuttavia, la migrazione completa dei dati offre opportunità significative per migliorare la qualità delle tabelle e ottimizzare l'archiviazione dei dati e i modelli di accesso.
Durante la migrazione completa dei dati, è possibile eseguire diverse operazioni vantaggiose, come la convalida dei dati per garantire l'integrità e la correttezza, le modifiche dello schema per soddisfare meglio i requisiti attuali e gli aggiustamenti della strategia di partizione per migliorare le prestazioni delle query. È inoltre possibile riordinare i dati per ottimizzare i modelli di accesso più comuni, implementare il partizionamento nascosto Iceberg per una maggiore efficienza delle query ed eseguire la conversione del formato di file (ad esempio, da CSV a Parquet), se lo si desidera.
Queste funzionalità rendono la migrazione completa dei dati ideale per la transizione al formato Iceberg e per perfezionare e ottimizzare in modo completo la strategia di archiviazione dei dati. Sebbene la migrazione completa dei dati richieda più tempo e risorse iniziali, i miglioramenti che ne derivano nella qualità dei dati, nell'organizzazione e nelle prestazioni delle query possono offrire vantaggi a lungo termine. Per implementare la migrazione completa dei dati, utilizza una delle seguenti opzioni:
-
Usa l'istruzione
CREATE TABLE ... AS SELECT
(CTAS) in Spark (su Amazon EMR o) AWS Glue o in Athena. Puoi impostare le specifiche della partizione e le proprietà della tabella per la nuova tabella Iceberg utilizzando le clausole and. PARTITIONED BY
TBLPROPERTIES
È possibile modificare lo schema e il partizionamento per la nuova tabella in base alle proprie esigenze invece di ereditarli dalla tabella di origine. -
Leggi dalla tabella di origine e scrivi i dati come una nuova tabella Iceberg utilizzando Spark su Amazon EMR o. AWS Glue Per ulteriori informazioni, consulta Creazione di una tabella
nella documentazione di Iceberg.