

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criação de um data lake a partir de uma AWS CloudTrail fonte
<a name="getting-started-cloudtrail-tutorial"></a>

Este tutorial orienta você pelas ações a serem tomadas no console do Lake Formation para criar e carregar seu primeiro data lake a partir de uma AWS CloudTrail fonte.

**Etapas de alto nível parra criar um data lake**

1. Registre um caminho do Amazon Simple Storage Service (Amazon S3) como um data lake.

1. Conceda permissões do Lake Formation para gravar no catálogo de dados e nos locais do Amazon S3 no data lake.

1. Crie um banco de dados para organizar as tabelas de metadados no catálogo de dados.

1. Use um esquema para criar um fluxo de trabalho. Execute o fluxo de trabalho para ingerir dados de uma fonte de dados.

1. Configure suas permissões do Lake Formation para permitir que outras pessoas gerenciem dados no catálogo de dados e no Data Lake.

1. Configure o Amazon Athena para consultar os dados que você importou no seu data lake do Amazon S3.

1. Para alguns tipos de armazenamento de dados, configure o Amazon Redshift Spectrum para consultar os dados que você importou para o seu data lake do Amazon S3.

**Topics**
+ [Público-alvo](#cloudtrail-tut-personas)
+ [Pré-requisitos](#cloudtrail-tut-prereqs)
+ [Etapa 1: Criar um usuário de analista de dados](#cloudtrail-tut-create-lf-user)
+ [Etapa 2: adicionar permissões para ler AWS CloudTrail registros à função do fluxo de trabalho](#cloudtrail-tut-grant-cloudtrail)
+ [Etapa 3: Criar um bucket do Amazon S3 para o data lake](#cloudtrail-tut-create-bucket)
+ [Etapa 4: Registrar um caminho do Amazon S3](#cloudtrail-tut-register)
+ [Etapa 5: Conceder permissões de local de dados](#cloudtrail-tut-data-location)
+ [Etapa 6: Criar um banco de dados no catálogo de dados](#cloudtrail-tut-create-db)
+ [Etapa 7: Conceder permissões de dados](#cloudtrail-tut-data-permissions)
+ [Etapa 8: Usar um esquema para criar um fluxo de trabalho](#cloudtrail-tut-create-workflow)
+ [Etapa 9: Executar o fluxo de trabalho](#cloudtrail-tut-run-workflow)
+ [Etapa 10: Conceder SELECT nas tabelas](#cloudtrail-tut-grant-table)
+ [Etapa 11: consulte o data lake usando Amazon Athena](#cloudtrail-tut-query)

## Público-alvo
<a name="cloudtrail-tut-personas"></a>

A tabela a seguir lista as perfis usadas neste tutorial para criar um data lake.


**Público-alvo**  

| Perfil | Description | 
| --- | --- | 
| Administrador do IAM | Tem a política AWS gerenciada:AdministratorAccess. Criar perfis do IAM e buckets do Amazon S3. | 
| Administrador do data lake | Usuário que pode acessar o catálogo de dados, criar bancos de dados e conceder permissões do Lake Formation a outros usuários. Tem menos permissões do IAM do que o administrador do IAM, mas o suficiente para administrar o data lake. | 
| Analista de dados | Usuário que pode executar consultas no data lake. Tem permissões suficientes apenas para executar consultas. | 
| Função de fluxo de trabalho | Perfil com as políticas de IAM necessárias para executar um fluxo de trabalho. Para obter mais informações, consulte [(Opcional) Criar um perfil do IAM para fluxos de trabalho](initial-lf-config.md#iam-create-blueprint-role). | 

## Pré-requisitos
<a name="cloudtrail-tut-prereqs"></a>

Antes de começar
+ Verifique se você concluiu as tarefas no [Configurar AWS Lake Formation](initial-lf-config.md).
+ Conheça a localização dos seus CloudTrail registros.
+ O Athena exige que a pessoa do analista de dados crie um bucket do Amazon S3 para armazenar os resultados da consulta antes de usar o Athena.

Presume-se familiaridade com AWS Identity and Access Management (IAM). Para obter informações sobre o IAM, consulte o [Guia do usuário do IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html).

## Etapa 1: Criar um usuário de analista de dados
<a name="cloudtrail-tut-create-lf-user"></a>

Esse usuário tem as permissões de privilégio mínimo para consultar o data lake.

1. Abra o console do IAM em [https://console.aws.amazon.com/iam](https://console.aws.amazon.com/iam). Entre como o usuário administrador que você criou [Criar um usuário com acesso administrativo](getting-started-setup.md#create-an-admin) ou como um usuário com a política `AdministratorAccess` AWS gerenciada.

1. Crie um usuário chamado `datalake_user` com as seguintes configurações:
   + Habilite Console de gerenciamento da AWS o acesso.
   + Defina uma senha e não solicite redefinição de senha.
   + Anexe a política `AmazonAthenaFullAccess` AWS gerenciada.
   + Anexe a seguinte política em linha. Atribua o nome `DatalakeUserBasic` à política.

     ```
     {
         "Version": "2012-10-17",		 	 	 
         "Statement": [
             {
                 "Effect": "Allow",
                 "Action": [
                     "lakeformation:GetDataAccess",
                     "glue:GetTable",
                     "glue:GetTables",
                     "glue:SearchTables",
                     "glue:GetDatabase",
                     "glue:GetDatabases",
                     "glue:GetPartitions",
                     "lakeformation:GetResourceLFTags",
                     "lakeformation:ListLFTags",
                     "lakeformation:GetLFTag",
                     "lakeformation:SearchTablesByLFTags",
                     "lakeformation:SearchDatabasesByLFTags"                
                ],
                 "Resource": "*"
             }
         ]
     }
     ```

## Etapa 2: adicionar permissões para ler AWS CloudTrail registros à função do fluxo de trabalho
<a name="cloudtrail-tut-grant-cloudtrail"></a>

1. Anexe a política em linha a seguir ao perfil `LakeFormationWorkflowRole`. A política concede permissão para ler seus AWS CloudTrail registros. Atribua o nome `DatalakeGetCloudTrail` à política.

   Para criar a função `LakeFormationWorkflowRole`, consulte [(Opcional) Criar um perfil do IAM para fluxos de trabalho](initial-lf-config.md#iam-create-blueprint-role).
**Importante**  
*<your-s3-cloudtrail-bucket>*Substitua pela localização dos seus CloudTrail dados no Amazon S3.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Effect": "Allow",
               "Action": "s3:GetObject",
               "Resource": ["arn:aws:s3:::<your-s3-cloudtrail-bucket>/*"]
           }
       ]
   }
   ```

------

1. Verifique se há três políticas vinculadas ao perfil.

## Etapa 3: Criar um bucket do Amazon S3 para o data lake
<a name="cloudtrail-tut-create-bucket"></a>

Crie o bucket do Amazon S3 que será o local raiz do seu data lake.

1. Abra o console do Amazon S3 em [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)e faça login como o usuário administrador que você criou. [Criar um usuário com acesso administrativo](getting-started-setup.md#create-an-admin)

1. Escolha **Create bucket** e acesse o assistente para criar um bucket chamado`<yourName>-datalake-cloudtrail`, onde *<yourName>* está seu primeiro nome e sobrenome. Por exemplo: `jdoe-datalake-cloudtrail`.

   Para obter instruções detalhadas sobre como criar um bucket do Amazon S3, consulte [Como criar um bucket](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/create-bucket.html).

## Etapa 4: Registrar um caminho do Amazon S3
<a name="cloudtrail-tut-register"></a>

Registre um caminho do Amazon S3 como o local raiz do seu data lake.

1. Abra o console do Lake Formation em [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/). Faça login como administrador de data lake.

1. No painel de navegação, em **Registrar e ingerir**, escolha **Locais do data lake**.

1. Selecione **Registrar local** e, em seguida, **Navegar**. 

1. Selecione o bucket do `<yourName>-datalake-cloudtrail` que você criou anteriormente, aceite o perfil padrão do IAM `AWSServiceRoleForLakeFormationDataAccess` e selecione **Registrar local**.

   Para obter mais informações sobre o registro de locais, consulte [Adicionar uma localização do Amazon S3 ao seu data lake](register-data-lake.md).

## Etapa 5: Conceder permissões de local de dados
<a name="cloudtrail-tut-data-location"></a>

As entidades principais devem ter *permissões de local de dados* em um local de data lake para criar tabelas ou bancos de dados do catálogo de dados que apontem para esse local. Você deve conceder permissões de local de dados ao perfil do IAM para fluxos de trabalho para que o fluxo de trabalho possa gravar no destino da ingestão de dados.

1. No painel de navegação, em **Permissões**, selecione **Locais de dados**.

1. Selecione **Conceder** e, na caixa de diálogo **Conceder permissões**, faça estas seleções:

   1. Em **Usuários e perfis do IAM**, escolha `LakeFormationWorkflowRole`.

   1. Para **locais de armazenamento**, escolha seu bucket `<yourName>-datalake-cloudtrail`.

1. Selecione **Conceder**.

Para obter mais informações sobre permissões de local de dados, consulte [Underlying data access control](access-control-underlying-data.md#data-location-permissions).

## Etapa 6: Criar um banco de dados no catálogo de dados
<a name="cloudtrail-tut-create-db"></a>

As tabelas de metadados no catálogo de dados do Lake Formation são armazenadas em um banco de dados.

1. No painel de navegação, em **catálogo de dados**, escolha **Bancos de dados**.

1. selecione **Criar banco de dados** e, em **Informações do banco de dados**, digite o nome `lakeformation_cloudtrail`.

1. Deixe os outros campos em branco e escolha **Criar banco de dados**.

## Etapa 7: Conceder permissões de dados
<a name="cloudtrail-tut-data-permissions"></a>

Você deve conceder permissões para criar tabelas de metadados no catálogo de dados. Como o fluxo de trabalho será executado com o perfil de `LakeFormationWorkflowRole`, você deve conceder essas permissões ao perfil.

1. No console do Lake Formation, no painel de navegação, em **catálogo de dados**, selecione **Bancos de dados**. 

1. Selecione o banco de dados `lakeformation_cloudtrail`, e na lista suspensa **Ações**, selecione **Conceder** sob o título Permissões.

1. Na caixa de diálogo **Conceder permissões de dados**, faça estas seleções:

   1. Em **Entidades principais**, em **Usuário e perfis do IAM**, escolha `LakeFormationWorkflowRole`.

   1. Em **Tags do LF ou recursos de catálogo**, escolha **Recursos do catálogo de dados nomeados**.

   1. Para **Bancos de dados**, você deve ver que o banco de dados `lakeformation_cloudtrail` já foi adicionado.

   1. Em **Permissões do banco de dados**, selecione **Criar tabela**, **Alterar** e **Eliminar**, e desmarque **Super** se estiver selecionado.

1. Selecione **Conceder**.

Para obter mais informações sobre como conceder permissões ao Lake Formation, consulte [Gerenciando permissões do Lake Formation](managing-permissions.md).

## Etapa 8: Usar um esquema para criar um fluxo de trabalho
<a name="cloudtrail-tut-create-workflow"></a>

Para ler os CloudTrail registros, entender sua estrutura e criar as tabelas apropriadas no Catálogo de Dados, precisamos configurar um fluxo de trabalho que consiste em AWS Glue rastreadores, tarefas, acionadores e fluxos de trabalho. Os esquemas do Lake Formation simplificam esse processo. 

O fluxo de trabalho gera trabalhos, crawlers e gatilhos que descobrem e ingerem dados em seu data lake. Você cria um fluxo de trabalho com base em um dos esquemas predefinidos do Lake Formation.

1. No console do Lake Formation, no painel de navegação, selecione **Esquemas** em **Ingestão** e, depois, selecione **Usar esquema**.

1. Na página **Usar um blueprint**, em **Tipo de blueprint, escolha**. **AWS CloudTrail**

1. Em **Importar fonte**, escolha uma CloudTrail fonte e uma data de início.

1. Em **Destino de importação**, especifique estes parâmetros:    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/lake-formation/latest/dg/getting-started-cloudtrail-tutorial.html)

1. Para frequência de importação, selecione **Executar sob demanda**.

1. Em **Opções de importação**, especifique estes parâmetros:    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/lake-formation/latest/dg/getting-started-cloudtrail-tutorial.html)

1. Escolha **Criar** e aguarde até que o console informe que o fluxo de trabalho foi criado com sucesso.
**dica**  
Você recebeu a seguinte mensagem de erro?  
`User: arn:aws:iam::<account-id>:user/<datalake_administrator_user> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole...`  
Nesse caso, verifique se você substituiu a política *<account-id>* em linha do usuário administrador do data lake por um número de AWS conta válido.

## Etapa 9: Executar o fluxo de trabalho
<a name="cloudtrail-tut-run-workflow"></a>

Como você especificou que o fluxo de trabalho é run-on-demand, você deve iniciar manualmente o fluxo de trabalho.
+ Na página **Esquemas**, selecione o fluxo de trabalho `lakeformationcloudtrailtest` e, no menu **Ações**, selecione **Iniciar**.

  À medida que o fluxo de trabalho é executado, você pode ver seu progresso na coluna de **Status da última execução**. Escolha o botão de atualização ocasionalmente.

  O status vai de **EM EXECUÇÃO**, para **Descoberta**, para **Importação**, e **CONCLUÍDO**. 

  Quando o fluxo de trabalho for concluído:
  + O catálogo de dados terá novas tabelas de metadados.
  + Seus CloudTrail registros serão ingeridos no data lake.

  Se o fluxo de trabalho falhar, faça o seguinte:

  1. Selecione o fluxo de trabalho e, no menu **Ações**, selecione **Exibir gráfico**.

     O fluxo de trabalho é aberto no console do AWS Glue.

  1. Certifique-se de que o fluxo de trabalho esteja selecionado e acesse a guia **Histórico**.

  1. Em **Histórico**, selecione a execução mais recente e selecione **Exibir informações da execução**.

  1. Selecione um trabalho ou crawler com falha no gráfico dinâmico (runtime) e revise a mensagem de erro. Os nós com falha são vermelhos ou amarelos.

## Etapa 10: Conceder SELECT nas tabelas
<a name="cloudtrail-tut-grant-table"></a>

Você deve conceder a permissão `SELECT` nas novas tabelas do catálogo de dados para que o analista de dados possa consultar os dados para os quais as tabelas apontam.

**nota**  
Um fluxo de trabalho concede automaticamente a permissão `SELECT` nas tabelas que ele cria ao usuário que o executou. Como o administrador do data lake executou esse fluxo de trabalho, você deve conceder `SELECT` ao analista de dados.

1. No console do Lake Formation, no painel de navegação, em **catálogo de dados**, selecione **Bancos de dados**. 

1. Selecione o banco de dados `lakeformation_cloudtrail`, e na lista suspensa **Ações**, selecione **Conceder** sob o título Permissões.

1. Na caixa de diálogo **Conceder permissões de dados**, faça estas seleções:

   1. Em **Entidades principais**, em **Usuário e perfis do IAM**, escolha `datalake_user`.

   1. Em **Tags do LF ou recursos de catálogo**, escolha **Recursos do catálogo de dados nomeados**.

   1. Para **Bancos de dados**, o banco de dados `lakeformation_cloudtrail` já deve estar selecionado.

   1. Para **Tabelas**, selecione `cloudtrailtest-cloudtrail`.

   1. Em **Permissões de tabela e coluna**, clique em **Selecionar**.

1. Selecione **Conceder**.

**A próxima etapa é executada como analista de dados.**

## Etapa 11: consulte o data lake usando Amazon Athena
<a name="cloudtrail-tut-query"></a>

Use o Amazon Athena console para consultar os CloudTrail dados em seu data lake.

1. Abra o console do Athena em [https://console.aws.amazon.com/athena/](https://console.aws.amazon.com/athena/home)e faça login como analista de dados, usuário. `datalake_user`

1. Se necessário, escolha **Começar** para continuar com o editor de consultas do Athena.

1. Em **Data source (Fonte de dados)**, selecione **AwsDataCatalog**.

1. Para o **Banco de dados**, selecione `lakeformation_cloudtrail`.

   A lista de **Tabelas** é preenchida.

1. No menu flutuante (3 pontos horizontais) ao lado da tabela `cloudtrailtest-cloudtrail`, selecione **Exibir tabela** e selecione **Executar**.

   A consulta é executada e exibe 10 linhas de dados.

   Se você nunca usou o Athena antes, primeiro deve configurar um local do Amazon S3 no console do Athena para armazenar os resultados da consulta. O `datalake_user` deve ter as permissões exigidas para acessar o bucket do Amazon S3 escolhido.

**nota**  
Agora que você concluiu o tutorial, conceda permissões de dados e permissões de local de dados às entidades principais da sua organização.