Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Guida alla specificazione delle partizioni e alla disnidificazione dello schema
Quando si lavora con origini dati NoSQL come applicazioni DynamoDB e SaaS, i dati spesso presentano sfide uniche per l'analisi:
-
I record all'interno della stessa tabella possono avere uno schema diverso
-
I record annidati all'interno della stessa tabella possono essere rappresentati in modo diverso
-
Strutture nidificate complesse come mappe e array richiedono una trasformazione per un'esecuzione efficiente delle interrogazioni
-
È necessaria un'organizzazione ottimale dei dati per garantire prestazioni di query su larga scala
AWS Le integrazioni Glue Zero-ETL risolvono queste sfide attraverso due potenti funzionalità:
-
Disnidificazione dello schema: appiattisce automaticamente complesse strutture di dati annidate in formati compatibili con l'analisi, con livelli configurabili di disnidificazione per bilanciare la conservazione della struttura dei dati e l'ottimizzazione della semplicità delle query.
-
Partizionamento dei dati: organizza i dati in partizioni logiche basate su colonne o dimensioni temporali specifiche, migliorando le prestazioni delle query e riducendo i costi abilitando l'eliminazione delle partizioni durante l'esecuzione delle query.
Per interrogare efficacemente tali fonti di dati, AWS Glue Zero-ETL fornisce schemi di gestione out-of-the-box dello schema e di partizionamento per i dati di origine replicati nel database Glue di destinazione. AWS È possibile configurare le impostazioni di unnesting e partizionamento dello schema per ogni tabella tramite l' CreateIntegrationTableProperty API, consentendo un controllo preciso su come i dati sono strutturati e organizzati per i carichi di lavoro di analisi.
Comportamento predefinito di disnidificazione e partizionamento
-
AWS L'impostazione predefinita di Glue zero-ETL è FULL Unnest quando non sono fornite opzioni Unnesting per la tabella di destinazione
-
AWS Glue Zero-ETL utilizza come impostazione predefinita il partizionamento Bucket quando non viene fornito alcun elemento per la tabella di destinazione PartitionSpec