Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizzare il comportamento del crawler
Quando si configura un crawler Crawler di AWS Glue, sono disponibili diverse opzioni per definire il comportamento del crawler.
-
Crawling incrementali: puoi configurare un crawler per eseguire crawling incrementali al fine di aggiungere solo nuove partizioni allo schema della tabella.
-
Indici di partizione: un crawler crea indici delle partizioni per le destinazioni Amazon S3 e Delta Lake per impostazione predefinita, al fine di fornire una ricerca efficiente per partizioni specifiche.
-
Accelerare il tempo di crawling utilizzando gli eventi Amazon S3: puoi configurare un crawler in modo che utilizzi gli eventi Amazon S3 per identificare le modifiche tra due crawling elencando tutti i file della sottocartella che ha attivato l'evento invece di elencare l'intera destinazione Amazon S3 o catalogo dati.
Gestione delle modifiche allo schema: puoi impedire a un crawler di apportare modifiche allo schema esistente. Puoi usare la Console di gestione AWS o l'API di AWS Glue per configurare il modo in cui il crawler elabora determinati tipi di modifiche.
-
Uno schema unico per più percorsi Amazon S3: puoi configurare un crawler in modo da creare uno schema unico per ciascun percorso S3, se i dati sono compatibili.
Posizione della tabella e livello di partizionamento: l'opzione crawler a livello di tabella offre la flessibilità necessaria per indicare al crawler dove si trovano le tabelle e come si desidera creare le partizioni.
Soglia della tabella: puoi specificare il numero massimo di tabelle che il crawler è autorizzato a creare specificando una soglia per le tabelle.
Credenziali AWS Lake Formation: puoi configurare un crawler in modo che utilizzi le credenziali Lake Formation per accedere a un data store Amazon S3 o a una tabella del catalogo dati con una posizione Amazon S3 sottostante all'interno dello stesso Account AWS o di un altro Account AWS.
Per ulteriori informazioni sull'uso della console AWS Glue per aggiungere un crawler, consulta Configurazione di un crawler.
Argomenti
Pianificazione di crawling incrementale per l'aggiunta di nuove partizioni
Creare un singolo schema per ogni percorso di inclusione Amazon S3
Specificare la posizione della tabella e il livello di partizionamento
Specificare il numero massimo di tabelle che il crawler può creare
Configurare un crawler per utilizzare le credenziali di Lake Formation
Accelerazione del crawling con le notifiche eventi Amazon S3