

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Tutorial: aggiunta di un crawler AWS Glue
<a name="tutorial-add-crawler"></a>

Per questo AWS Glue, ti viene chiesto di analizzare i dati degli arrivi dei principali vettori aerei per calcolare la popolarità degli aeroporti di partenza mese dopo mese. Hai i dati dei voli per l'anno 2016 in formato CSV memorizzati in Amazon S3. Prima di trasformare e analizzare i dati, è necessario catalogarne i metadati in AWS Glue Data Catalog.

In questo tutorial, aggiungiamo un crawler che deduce i metadati da questi registri di volo in Amazon S3 e creiamo una tabella nel catalogo dati.

**Topics**
+ [Prerequisiti](#tutorial-add-crawler-prerequisites)
+ [Fase 1: aggiunta di un crawler](#tutorial-add-crawler-step1)
+ [Fase 2: esecuzione del crawler](#tutorial-add-crawler-step2)
+ [Fase 3: visualizzazione degli oggetti AWS Glue Data Catalog](#tutorial-add-crawler-step3)

## Prerequisiti
<a name="tutorial-add-crawler-prerequisites"></a>

Questo tutorial presuppone che tu abbia un AWS account e un accesso aAWS Glue.

## Fase 1: aggiunta di un crawler
<a name="tutorial-add-crawler-step1"></a>

Segui questa procedura per configurare ed eseguire un crawler che estrae i metadati da un file CSV archiviato in Amazon S3.

**Per creare un crawler in grado di leggere i file archiviati su Amazon S3**

1. **Nella console AWS Glue di servizio, nel menu a sinistra, scegli Crawlers.**

1. Nella pagina Crawler, scegli **Crea crawler**. In questo modo viene avviata una serie di pagine che richiedono di specificare i dettagli del crawler.  
![\[La schermata mostra la pagina del crawler. Da qui puoi creare un crawler o modificare, duplicare, eliminare, visualizzare un crawler esistente.\]](http://docs.aws.amazon.com/it_it/glue/latest/dg/images/crawlers-create_crawler.png)

1. Rinomina il crawler Crawler name (Nome crawler), inserisci **Flights Data Crawler**, quindi scegli **Next (Avanti)**.

   I crawler invocano classificatori per dedurre lo schema dei dati. Questo tutorial utilizza il classificatore incorporato per CSV per impostazione predefinita. 

1. Per il tipo di origine crawler, scegli **Data stores (Datastore)** e scegli **Next (Avanti)**.

1. Ora puntiamo il crawler ai dati. Nella pagina **Add a data store** (Aggiungi datasore), scegli il datastore Amazon S3. Questa esercitazione non usa una connessione, quindi lascia il campo **Connection ** (Connessione) vuoto se è visibile. 

   Per l'opzione **Crawl data in (Crawling dati)**, scegli **Specified path in another account (Percorso specificato in un altro account)**. Quindi, nel campo **Include path (Percorso di inclusione)**, inserisci il percorso in cui il crawler può trovare i dati dei voli, che è **s3://crawler-public-us-east-1/flight/2016/csv**. Dopo aver inserito il percorso, il titolo di questo campo cambia in **Include path (Percorso di inclusione)**. Seleziona **Next (Successivo)**.

1. È possibile eseguire il crawling di più datasore con un crawler singolo. Tuttavia, in questa esercitazione, stiamo utilizzando un solo datastore, quindi scegli **No** e poi **Next (Successivo)**.

1. Il crawler ha bisogno delle autorizzazioni per accedere al Data Store e creare oggetti in AWS Glue Data Catalog. Per configurare queste autorizzazioni, scegli **Create an IAM role (Crea un ruolo IAM)**. Il nome del ruolo IAM inizia con `AWSGlueServiceRole-` e, nel campo, inserisci l'ultima parte del nome del ruolo. Inserisci **CrawlerTutorial**, quindi seleziona **Save (Salva)**. 
**Nota**  
Per creare un ruolo IAM, il tuo utente AWS deve avere le autorizzazioni `CreateRole`, `CreatePolicy` e `AttachRolePolicy`.

   La procedura guidata crea un ruolo IAM denominato`AWSGlueServiceRole-CrawlerTutorial`, associa la policy AWS gestita `AWSGlueServiceRole` a questo ruolo e aggiunge una policy in linea che consente l'accesso in lettura alla posizione Amazon S3. `s3://crawler-public-us-east-1/flight/2016/csv`

1. Crea una pianificazione per il crawler. Per **Frequency (Frequenza)**, scegli **Run on demand (Esegui on demand)** e scegli **Next (Successivo)**. 

1. I crawler creano le tabelle nel catalogo dati. Un database nel catalogo dati contiene le tabelle. Per prima cosa, scegli **Add database (Aggiungi database)** per creare un database. Nella finestra popup, inserisci **test-flights-db** per il nome del database, quindi scegli **Create (crea)**.

   Quindi, inserisci **flights** per **Prefix added to tables (Prefisso aggiunto alle tabelle)**. Utilizza i valori predefiniti per il resto delle opzioni e scegli **Next (Successivo)**.

1. Controlla le selezioni eseguite nella procedura guidata **Add crawler (Aggiungi crawler)**. Se vedi errori, puoi scegliere **Back (Indietro)** per tornare alle pagine precedenti e apportare modifiche.

   Dopo aver esaminato le informazioni, scegli **Finish (Termina)** per creare il crawler.

## Fase 2: esecuzione del crawler
<a name="tutorial-add-crawler-step2"></a>

Dopo aver creato un crawler, la procedura guidata ti reindirizza alla pagina di visualizzazione del crawler. Poiché crei il crawler con una pianificazione on demand, ti viene data la possibilità di eseguirlo.

**Per eseguire il crawler**

1. Il banner nella parte superiore di questa pagina ti permette di sapere che il crawler è stato creato e chiede se si desidera eseguirlo ora. Seleziona **Run it now? (Eseguirlo adesso?)** per eseguire il crawler.

   Il banner cambia e mostra i messaggi "Attempting to run" (Tentativo di esecuzione) e "Running" (In esecuzione) per il crawler. Dopo l'avvio del crawler, il banner scompare e la visualizzazione del crawler viene aggiornata per mostrare lo stato avvio del crawler. Dopo un minuto, puoi fare clic sull'icona Refresh (Aggiorna) per aggiornare lo stato del crawler visualizzato nella tabella.

1. Al completamento del crawler, viene visualizzato un nuovo banner che descrive le modifiche apportate dal crawler. Puoi scegliere il **test-flights-db**link per visualizzare gli oggetti del Data Catalog.

## Fase 3: visualizzazione degli oggetti AWS Glue Data Catalog
<a name="tutorial-add-crawler-step3"></a>

Il crawler legge i dati nella posizione di origine e crea tabelle nel catalogo dati. Una tabella è la definizione di metadati che rappresentano i tuoi dati, incluso il relativo schema. Le tabelle del catalogo dati non contengono dati. Vengono invece utilizzate come origine o destinazione in una definizione di processo.

**Per visualizzare gli oggetti del catalogo dati creati dal crawler**

1. Nel pannello di navigazione a sinistra, sotto **Data catalog (Catalogo dati)**, scegli **Database**. Qui è possibile visualizzare database `flights-db` creato dal crawler.

1. Nel pannello di navigazione a sinistra, sotto **Data catalog (Catalogo dati)** e sotto **Databases (Database)**, scegli **Tables (Tabelle)**. Qui è possibile visualizzare la tabella `flightscsv` creata dal crawler. Scegliendo il nome della tabella, è possibile visualizzare le impostazioni, i parametri e le proprietà della tabella. Scorrendo verso il basso nella visualizzazione, puoi visualizzare lo schema, ovvero informazioni sulle colonne e sui tipi di dati della tabella.

1. Se scegli **View partitions (Visualizza le partizioni)** nella pagina di visualizzazione della tabella, puoi vedere le partizioni create per i dati. La prima colonna è la chiave di partizione.