Personalizzare il comportamento del crawler - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Personalizzare il comportamento del crawler

Quando si configura un crawler Crawler di AWS Glue, sono disponibili diverse opzioni per definire il comportamento del crawler.

  • Crawling incrementali: puoi configurare un crawler per eseguire crawling incrementali al fine di aggiungere solo nuove partizioni allo schema della tabella.

  • Indici di partizione: un crawler crea indici delle partizioni per le destinazioni Amazon S3 e Delta Lake per impostazione predefinita, al fine di fornire una ricerca efficiente per partizioni specifiche.

  • Accelerare il tempo di crawling utilizzando gli eventi Amazon S3: puoi configurare un crawler in modo che utilizzi gli eventi Amazon S3 per identificare le modifiche tra due crawling elencando tutti i file della sottocartella che ha attivato l'evento invece di elencare l'intera destinazione Amazon S3 o catalogo dati.

  • Gestione delle modifiche allo schema: puoi impedire a un crawler di apportare modifiche allo schema esistente. Puoi usare la Console di gestione AWS o l'API di AWS Glue per configurare il modo in cui il crawler elabora determinati tipi di modifiche.

  • Uno schema unico per più percorsi Amazon S3: puoi configurare un crawler in modo da creare uno schema unico per ciascun percorso S3, se i dati sono compatibili.

  • Posizione della tabella e livello di partizionamento: l'opzione crawler a livello di tabella offre la flessibilità necessaria per indicare al crawler dove si trovano le tabelle e come si desidera creare le partizioni.

  • Soglia della tabella: puoi specificare il numero massimo di tabelle che il crawler è autorizzato a creare specificando una soglia per le tabelle.

  • Credenziali AWS Lake Formation: puoi configurare un crawler in modo che utilizzi le credenziali Lake Formation per accedere a un data store Amazon S3 o a una tabella del catalogo dati con una posizione Amazon S3 sottostante all'interno dello stesso Account AWS o di un altro Account AWS.

Per ulteriori informazioni sull'uso della console AWS Glue per aggiungere un crawler, consulta Configurazione di un crawler.