

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Creazione di un data lake da un' AWS CloudTrail origine
<a name="getting-started-cloudtrail-tutorial"></a>

Questo tutorial ti guida attraverso le azioni da intraprendere sulla console Lake Formation per creare e caricare il tuo primo data lake da una AWS CloudTrail fonte.

**Passaggi di alto livello per la creazione di un data lake**

1. Registra un percorso Amazon Simple Storage Service (Amazon S3) come data lake.

1. Concedi a Lake Formation le autorizzazioni per scrivere nel Data Catalog e nelle posizioni Amazon S3 nel data lake.

1. Crea un database per organizzare le tabelle di metadati nel Data Catalog.

1. Usa un blueprint per creare un flusso di lavoro. Esegui il flusso di lavoro per importare dati da una fonte di dati.

1. Configura le tue autorizzazioni Lake Formation per consentire ad altri di gestire i dati nel Data Catalog e nel data lake.

1. Configura Amazon Athena per interrogare i dati che hai importato nel tuo data lake Amazon S3.

1. Per alcuni tipi di data store, configura Amazon Redshift Spectrum per interrogare i dati che hai importato nel tuo data lake Amazon S3.

**Topics**
+ [Destinatari principali](#cloudtrail-tut-personas)
+ [Prerequisiti](#cloudtrail-tut-prereqs)
+ [Fase 1: Creare un utente analista di dati](#cloudtrail-tut-create-lf-user)
+ [Passaggio 2: Aggiungere le autorizzazioni per leggere i AWS CloudTrail registri al ruolo del flusso di lavoro](#cloudtrail-tut-grant-cloudtrail)
+ [Fase 3: creare un bucket Amazon S3 per il data lake](#cloudtrail-tut-create-bucket)
+ [Fase 4: Registrare un percorso Amazon S3](#cloudtrail-tut-register)
+ [Passaggio 5: concedere le autorizzazioni per la localizzazione dei dati](#cloudtrail-tut-data-location)
+ [Fase 6: Creare un database nel Data Catalog](#cloudtrail-tut-create-db)
+ [Passaggio 7: concedere le autorizzazioni per i dati](#cloudtrail-tut-data-permissions)
+ [Fase 8: Utilizzare un blueprint per creare un flusso di lavoro](#cloudtrail-tut-create-workflow)
+ [Passaggio 9: Esegui il flusso di lavoro](#cloudtrail-tut-run-workflow)
+ [Fase 10: concedere SELECT sui tavoli](#cloudtrail-tut-grant-table)
+ [Passaggio 11: interrogare il data lake utilizzando Amazon Athena](#cloudtrail-tut-query)

## Destinatari principali
<a name="cloudtrail-tut-personas"></a>

La tabella seguente elenca i ruoli utilizzati in questo tutorial per creare un data lake.


**Destinatari principali**  

| Ruolo | Description | 
| --- | --- | 
| Amministratore IAM | Ha la politica AWS gestita:AdministratorAccess. Può creare ruoli IAM e bucket Amazon S3. | 
| Amministratore del data lake | Utente che può accedere al catalogo dati, creare database e concedere le autorizzazioni di Lake Formation ad altri utenti. Dispone di meno autorizzazioni IAM rispetto all'amministratore IAM, ma sufficienti per amministrare il data lake. | 
| Analista dei dati | Utente che può eseguire query sul data lake. Dispone solo delle autorizzazioni sufficienti per eseguire le query. | 
| Ruolo del workflow | Ruolo con le politiche IAM richieste per eseguire un flusso di lavoro. Per ulteriori informazioni, consulta [(Facoltativo) Crea un ruolo IAM per i flussi di lavoro](initial-lf-config.md#iam-create-blueprint-role). | 

## Prerequisiti
<a name="cloudtrail-tut-prereqs"></a>

Prima di iniziare:
+ Assicurati di aver completato le attività in[Configurare AWS Lake Formation](initial-lf-config.md).
+ Conosci la posizione dei tuoi CloudTrail registri.
+ Athena richiede all'analista di dati di creare un bucket Amazon S3 per archiviare i risultati delle query prima di utilizzare Athena.

Si presume la familiarità con AWS Identity and Access Management (IAM). Per informazioni su IAM, consulta la [IAM User Guide](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html).

## Fase 1: Creare un utente analista di dati
<a name="cloudtrail-tut-create-lf-user"></a>

Questo utente dispone del set minimo di autorizzazioni per interrogare il data lake.

1. Aprire la console IAM all'indirizzo [https://console.aws.amazon.com/iam](https://console.aws.amazon.com/iam). Accedi come utente amministratore che hai creato [Crea un utente con accesso amministrativo](getting-started-setup.md#create-an-admin) o come utente con la policy `AdministratorAccess` AWS gestita.

1. Crea un utente denominato `datalake_user` con le seguenti impostazioni:
   + Abilita Console di gestione AWS l'accesso.
   + Imposta una password e non richiedi la reimpostazione della password.
   + Allega la politica `AmazonAthenaFullAccess` AWS gestita.
   + Allega la seguente politica in linea. Assegnare un nome alla policy `DatalakeUserBasic`.

     ```
     {
         "Version": "2012-10-17",		 	 	 
         "Statement": [
             {
                 "Effect": "Allow",
                 "Action": [
                     "lakeformation:GetDataAccess",
                     "glue:GetTable",
                     "glue:GetTables",
                     "glue:SearchTables",
                     "glue:GetDatabase",
                     "glue:GetDatabases",
                     "glue:GetPartitions",
                     "lakeformation:GetResourceLFTags",
                     "lakeformation:ListLFTags",
                     "lakeformation:GetLFTag",
                     "lakeformation:SearchTablesByLFTags",
                     "lakeformation:SearchDatabasesByLFTags"                
                ],
                 "Resource": "*"
             }
         ]
     }
     ```

## Passaggio 2: Aggiungere le autorizzazioni per leggere i AWS CloudTrail registri al ruolo del flusso di lavoro
<a name="cloudtrail-tut-grant-cloudtrail"></a>

1. Allega la seguente politica in linea al ruolo. `LakeFormationWorkflowRole` La policy concede il permesso di leggere i tuoi AWS CloudTrail log. Assegnare un nome alla policy `DatalakeGetCloudTrail`.

   Per creare il ruolo `LakeFormationWorkflowRole`, consulta [(Facoltativo) Crea un ruolo IAM per i flussi di lavoro](initial-lf-config.md#iam-create-blueprint-role).
**Importante**  
Sostituisci *<your-s3-cloudtrail-bucket>* con la posizione dei tuoi CloudTrail dati in Amazon S3.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Effect": "Allow",
               "Action": "s3:GetObject",
               "Resource": ["arn:aws:s3:::<your-s3-cloudtrail-bucket>/*"]
           }
       ]
   }
   ```

------

1. Verifica che al ruolo siano associate tre policy.

## Fase 3: creare un bucket Amazon S3 per il data lake
<a name="cloudtrail-tut-create-bucket"></a>

Crea il bucket Amazon S3 che sarà la posizione principale del tuo data lake.

1. Apri la console Amazon S3 all'indirizzo [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)e accedi come utente amministratore con cui hai creato. [Crea un utente con accesso amministrativo](getting-started-setup.md#create-an-admin)

1. Scegli **Crea bucket** e segui la procedura guidata per creare un bucket denominato`<yourName>-datalake-cloudtrail`, dove *<yourName>* sono il tuo nome e cognome. Ad esempio: `jdoe-datalake-cloudtrail`.

   Per istruzioni dettagliate sulla creazione di un bucket Amazon S3, consulta [Creazione](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/create-bucket.html) di un bucket.

## Fase 4: Registrare un percorso Amazon S3
<a name="cloudtrail-tut-register"></a>

Registra un percorso Amazon S3 come posizione principale del tuo data lake.

1. Apri la console Lake Formation all'indirizzo [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/). Accedi come amministratore del data lake.

1. Nel riquadro di navigazione, in **Registra e inserisci**, scegli **Data lake locations**.

1. Scegli **Registra posizione** e poi **Sfoglia**. 

1. Seleziona il `<yourName>-datalake-cloudtrail` bucket che hai creato in precedenza, accetta il ruolo IAM predefinito`AWSServiceRoleForLakeFormationDataAccess`, quindi scegli **Registra posizione**.

   Per ulteriori informazioni sulla registrazione delle sedi, consulta. [Aggiungere una posizione Amazon S3 al tuo data lake](register-data-lake.md)

## Passaggio 5: concedere le autorizzazioni per la localizzazione dei dati
<a name="cloudtrail-tut-data-location"></a>

I responsabili devono disporre *delle autorizzazioni di localizzazione dei* dati su una posizione di data lake per creare tabelle o database di Data Catalog che puntano a tale posizione. È necessario concedere le autorizzazioni per la localizzazione dei dati al ruolo IAM per i flussi di lavoro in modo che il flusso di lavoro possa scrivere nella destinazione di inserimento dei dati.

1. **Nel riquadro di navigazione, in **Autorizzazioni**, scegli Posizioni dei dati.**

1. Scegli **Concedi** e, nella finestra di dialogo **Concedi autorizzazioni**, effettua le seguenti selezioni:

   1. Per **utenti e ruoli IAM, scegli**. `LakeFormationWorkflowRole`

   1. Per le **posizioni di archiviazione**, scegli il tuo `<yourName>-datalake-cloudtrail` bucket.

1. Scegliere **Concedi**.

Per ulteriori informazioni sulle autorizzazioni per la localizzazione dei dati, consulta. [Underlying data access control](access-control-underlying-data.md#data-location-permissions)

## Fase 6: Creare un database nel Data Catalog
<a name="cloudtrail-tut-create-db"></a>

Le tabelle di metadati nel Lake Formation Data Catalog sono archiviate all'interno di un database.

1. Nel riquadro di navigazione, in **Catalogo dati**, scegli **Database**.

1. Scegli **Crea database** e in **Dettagli del database**, inserisci il nome`lakeformation_cloudtrail`.

1. Lascia vuoti gli altri campi e scegli **Crea database**.

## Passaggio 7: concedere le autorizzazioni per i dati
<a name="cloudtrail-tut-data-permissions"></a>

È necessario concedere le autorizzazioni per creare tabelle di metadati nel Catalogo dati. Poiché il flusso di lavoro verrà eseguito con il ruolo`LakeFormationWorkflowRole`, è necessario concedere queste autorizzazioni al ruolo.

1. Nella console Lake Formation, nel riquadro di navigazione, in **Catalogo dati**, scegli **Databases**. 

1. Scegli il `lakeformation_cloudtrail` database, quindi, dall'elenco a discesa **Azioni**, scegli **Concedi** sotto la voce Autorizzazioni.

1. Nella finestra di dialogo **Concedi le autorizzazioni per i dati**, effettua le seguenti selezioni:

   1. In **Principali**, per **utenti e ruoli IAM**, scegli. `LakeFormationWorkflowRole`

   1. In **LF-Tags o risorse del catalogo**, scegli **Risorse Catalogo dati denominato**.

   1. Per **i database**, dovresti vedere che il `lakeformation_cloudtrail` database è già stato aggiunto.

   1. In **Autorizzazioni del database**, seleziona **Crea tabella**, **Alter** e **Drop** e deseleziona **Super** se è selezionato.

1. Scegliere **Concedi**.

Per ulteriori informazioni sulla concessione delle autorizzazioni di Lake Formation, vedere. [Gestione delle autorizzazioni di Lake Formation](managing-permissions.md)

## Fase 8: Utilizzare un blueprint per creare un flusso di lavoro
<a name="cloudtrail-tut-create-workflow"></a>

Per leggere CloudTrail i log, comprenderne la struttura, creare le tabelle appropriate nel Data Catalog, dobbiamo impostare un flusso di lavoro composto da AWS Glue crawler, job, trigger e workflow. I progetti di Lake Formation semplificano questo processo. 

Il flusso di lavoro genera i job, i crawler e i trigger che rilevano e inseriscono i dati nel tuo data lake. Crei un flusso di lavoro basato su uno dei blueprint predefiniti di Lake Formation.

1. **Nella console di Lake Formation, nel pannello di navigazione, scegli **Blueprint** in **Ingestion**, quindi scegli Usa blueprint.**

1. **Nella pagina **Usa un blueprint**, in Tipo di progetto, scegli. **AWS CloudTrail****

1. In **Importa fonte**, scegli una CloudTrail fonte e una data di inizio.

1. In **Import target**, specifica questi parametri:    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/lake-formation/latest/dg/getting-started-cloudtrail-tutorial.html)

1. Per la frequenza di importazione, scegli **Esegui su richiesta**.

1. In **Opzioni di importazione**, specificate questi parametri:    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/lake-formation/latest/dg/getting-started-cloudtrail-tutorial.html)

1. Scegli **Crea** e attendi che la console segnali che il flusso di lavoro è stato creato correttamente.
**Suggerimento**  
Hai ricevuto il seguente messaggio di errore?  
`User: arn:aws:iam::<account-id>:user/<datalake_administrator_user> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole...`  
In tal caso, verifica di aver sostituito *<account-id>* nella politica in linea per l'utente amministratore del data lake un numero di AWS account valido.

## Passaggio 9: Esegui il flusso di lavoro
<a name="cloudtrail-tut-run-workflow"></a>

Poiché hai specificato che il flusso di lavoro è run-on-demand, devi avviarlo manualmente.
+ Nella pagina **Blueprint**, seleziona il flusso di lavoro `lakeformationcloudtrailtest` e nel menu **Azioni** scegli **Avvia**.

  Durante l'esecuzione del flusso di lavoro, è possibile visualizzarne l'avanzamento nella colonna **Stato dell'ultima esecuzione**. Scegli il pulsante di aggiornamento di tanto in tanto.

  **Lo stato va da **RUNNING**, a **Discovering**, a **Importing**, a COMPLETED.** 

  Al termine del flusso di lavoro:
  + Il Data Catalog avrà nuove tabelle di metadati.
  +  CloudTrail I log verranno inseriti nel data lake.

  Se il flusso di lavoro fallisce, procedi come segue:

  1. Seleziona il flusso di lavoro e nel menu **Azioni** scegli **Visualizza grafico**.

     Il flusso di lavoro viene aperto nella AWS Glue console.

  1. Verifica che il flusso di lavoro sia selezionato e scegli la scheda **History** (Cronologia).

  1. In **Cronologia**, seleziona l'esecuzione più recente e scegli **Visualizza i dettagli dell'esecuzione**.

  1. Seleziona un processo o un crawler non riuscito nel grafico dinamico (di runtime) ed esamina il messaggio di errore. I nodi con errori sono rossi o gialli.

## Fase 10: concedere SELECT sui tavoli
<a name="cloudtrail-tut-grant-table"></a>

È necessario concedere l'`SELECT`autorizzazione per le nuove tabelle del Catalogo dati in modo che l'analista dei dati possa interrogare i dati a cui fanno riferimento le tabelle.

**Nota**  
Un flusso di lavoro concede automaticamente l'`SELECT`autorizzazione per le tabelle che crea all'utente che lo ha eseguito. Poiché l'amministratore del data lake ha eseguito questo flusso di lavoro, è necessario concederlo `SELECT` all'analista dei dati.

1. Nella console Lake Formation, nel riquadro di navigazione, in **Catalogo dati**, scegli **Databases**. 

1. Scegli il `lakeformation_cloudtrail` database, quindi, dall'elenco a discesa **Azioni**, scegli **Concedi** sotto la voce Autorizzazioni.

1. Nella finestra di dialogo **Concedi le autorizzazioni per i dati**, effettua le seguenti selezioni:

   1. In **Principali**, per **utenti e ruoli IAM**, scegli. `datalake_user`

   1. In **LF-Tags o Catalog resources**, scegli **Named data** catalog resources.

   1. Per **Databases**, il `lakeformation_cloudtrail` database dovrebbe essere già selezionato.

   1. Per **Tabelle**, scegliete`cloudtrailtest-cloudtrail`.

   1. In **Autorizzazioni per tabelle e colonne**, scegli **Seleziona**.

1. Scegliere **Concedi**.

**Il passaggio successivo viene eseguito come analista dei dati.**

## Passaggio 11: interrogare il data lake utilizzando Amazon Athena
<a name="cloudtrail-tut-query"></a>

Usa la Amazon Athena console per interrogare i CloudTrail dati nel tuo data lake.

1. Apri la console Athena all'indirizzo [https://console.aws.amazon.com/athena/](https://console.aws.amazon.com/athena/home)e accedi come analista di dati, utente. `datalake_user`

1. Se necessario, scegli **Inizia** per passare all'editor di query Athena.

1. Per **Origine dati** scegliere **AwsDataCatalog**.

1. Per **Database**, scegliere `lakeformation_cloudtrail`.

   L'elenco delle **tabelle** viene compilato.

1. **Nel menu a discesa (3 punti disposti orizzontalmente) accanto alla tabella`cloudtrailtest-cloudtrail`, scegliete **Anteprima tabella**, quindi scegliete Esegui.**

   La query viene eseguita e visualizza 10 righe di dati.

   Se non hai mai usato Athena prima, devi prima configurare una posizione Amazon S3 nella console Athena per archiviare i risultati delle query. `datalake_user`È necessario disporre delle autorizzazioni necessarie per accedere al bucket Amazon S3 scelto.

**Nota**  
Ora che hai completato il tutorial, concedi le autorizzazioni per i dati e le autorizzazioni per la localizzazione dei dati ai responsabili della tua organizzazione.