Pianificazione di crawling incrementale per l'aggiunta di nuove partizioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Pianificazione di crawling incrementale per l'aggiunta di nuove partizioni

Puoi configurare un esecuzione crawling incrementali Crawler di AWS Glue al fine di aggiungere solo nuove partizioni allo schema della tabella. Quando il crawler viene eseguito per la prima volta, esegue un crawling completo per elaborare l'intera origine dati per registrare lo schema completo e tutte le partizioni esistenti in AWS Glue Data Catalog.

I crawling successivi a quello iniziale saranno incrementali; in questi, il crawler identifica e aggiunge solo le nuove partizioni introdotte dopo il crawling precedente. Questo approccio consente tempi di crawling più rapidi, in quanto il crawler non deve più elaborare l'intera origine dati per ogni esecuzione, ma si concentra invece solo sulle nuove partizioni.

Nota

I crawling incrementali non rilevano modifiche o eliminazioni di partizioni esistenti. Questa configurazione è più adatta per origini dati con uno schema stabile. Se si verifica una modifica importante dello schema una tantum, è consigliabile impostare temporaneamente il crawler in modo che esegua un crawling completo per acquisire il nuovo schema con precisione, e quindi tornare alla modalità di crawling incrementale.

Il diagramma seguente mostra che con l'impostazione di crawling abilitata, il crawler rileverà e aggiungerà solo la cartella appena aggiunta, month=March, al catalogo.

Il diagramma seguente mostra l'aggiunta dei file relativi al mese di marzo.

Segui questi passaggi per aggiornare il crawler per eseguire crawling incrementali:

Console di gestione AWS
  1. Accedi alla Console di gestione AWS, quindi apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/.

  2. Seleziona Crawler nel Catalogo dati.

  3. Scegli un crawler che desideri configurare per il crawling incrementale.

  4. Scegli Modifica.

  5. Scegli Passaggio 2. Scegli le origini dati e i classificatori.

  6. Seleziona l'origine dati per cui vuoi eseguire il crawling incrementale.

  7. Scegli Modifica.

  8. Scegli Esplora solo nuove sottocartelle in Esecuzioni successive del crawler.

  9. Scegli Aggiorna.

Per creare una pianificazione per un crawler, consulta Pianificazione di un crawler.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Note e restrizioni

Quando questa opzione è attivata, non è possibile modificare gli archivi dati di destinazione Amazon S3 quando si modifica il crawler. Questa opzione influisce su alcune impostazioni di configurazione del crawler. Quando è attivata, impone il comportamento di aggiornamento e di eliminazione del crawler a LOG. Ciò significa che:

  • Se il crawler scopre oggetti con schemi non compatibili, non li aggiungerà al Data Catalog e registrerà questo dettaglio come log in Log di CloudWatch.

  • Non aggiornerà gli oggetti eliminati nel catalogo dati.