Personalizzare il comportamento del crawler

Quando configuri un Crawler di AWS Glue, hai diverse opzioni per definire il comportamento del tuo crawler.

Crawling incrementali: puoi configurare un crawler per eseguire crawling incrementali al fine di aggiungere solo nuove partizioni allo schema della tabella.
Indici di partizione: un crawler crea indici delle partizioni per le destinazioni Amazon S3 e Delta Lake per impostazione predefinita, al fine di fornire una ricerca efficiente per partizioni specifiche.
Accelerare il tempo di crawling utilizzando gli eventi Amazon S3: puoi configurare un crawler in modo che utilizzi gli eventi Amazon S3 per identificare le modifiche tra due crawling elencando tutti i file della sottocartella che ha attivato l'evento invece di elencare l'intera destinazione Amazon S3 o catalogo dati.
Gestione delle modifiche allo schema: puoi impedire a un crawler di apportare modifiche allo schema esistente. Puoi utilizzare l'API Console di gestione AWS o l'AWS GlueAPI per configurare il modo in cui il crawler elabora determinati tipi di modifiche.
Uno schema unico per più percorsi Amazon S3: puoi configurare un crawler in modo da creare uno schema unico per ciascun percorso S3, se i dati sono compatibili.
Posizione della tabella e livello di partizionamento: l'opzione crawler a livello di tabella offre la flessibilità necessaria per indicare al crawler dove si trovano le tabelle e come si desidera creare le partizioni.
Soglia della tabella: puoi specificare il numero massimo di tabelle che il crawler è autorizzato a creare specificando una soglia per le tabelle.
AWS Lake Formation credenziali: puoi configurare un crawler per utilizzare le credenziali di Lake Formation per accedere a un data store Amazon S3 o a una tabella Data Catalog con una posizione Amazon S3 sottostante all'interno della stessa o di un'altra. Account AWS Account AWS

Per ulteriori informazioni sull'uso della console AWS Glue per aggiungere un crawler, consulta Configurazione di un crawler.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Parametri impostati sulle tabelle del catalogo dati dal crawler

Pianificazione di crawling incrementale