# Crawling em armazenamento de dados do Amazon S3 usando um endpoint da VPC
<a name="connection-S3-VPC"></a>

Para fins de segurança, auditoria ou controle, talvez você queira que seu armazenamento de dados do Amazon S3 ou suas tabelas de catálogo de dados baseadas no Amazon S3 sejam acessados somente por meio de um ambiente do Amazon Virtual Private Cloud (Amazon VPC). Este tópico descreve como criar e testar uma conexão com o armazenamento de dados do Amazon S3 ou com tabelas de catálogo de dados baseadas no Amazon S3 em um endpoint da VPC usando o tipo de conexão `Network`.

Realize as seguintes tarefas para executar um crawler no armazenamento de dados:
+ [Pré-requisitos](#connection-S3-VPC-prerequisites)
+ [Criar a conexão com o Amazon S3](#connection-S3-VPC-create-connection)
+ [Testar a conexão com o Amazon S3](#connection-S3-VPC-test-connection)
+ [Criar um crawler para um armazenamento de dados do Amazon S3](#connection-S3-VPC-create-crawler)
+ [Executar um crawler](#connection-S3-VPC-run-crawler)

## Pré-requisitos
<a name="connection-S3-VPC-prerequisites"></a>

Verifique se você atendeu a esses pré-requisitos para configurar o armazenamento de dados do Amazon S3 ou as tabelas de catálogo de dados baseadas no Amazon S3 para serem acessados por meio de um ambiente da Amazon Virtual Private Cloud (Amazon VPC).
+ Uma VPC configurada. Por exemplo: vpc-01685961063b0d84b. Para obter mais informações, consulte [Conceitos básicos da Amazon VPC](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-getting-started.html) no *Manual do usuário da Amazon VPC*.
+ Um endpoint do Amazon S3 anexado à VPC. Por exemplo: vpc-01685961063b0d84b. Para obter mais informações, consulte [Endpoints para o Amazon S3](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-endpoints-s3.html) no *Manual do usuário da Amazon VPC*.  
![\[Exemplo de um endpoint do Amazon S3 anexado à VPC.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_s3_endpoint_attached.png)
+ Uma entrada de rota apontando para o endpoint da VPC. Por exemplo: vpce-0ec5da4d265227786 na tabela de rotas usada pelo endpoint da VPC (vpce-0ec5da4d265227786).  
![\[Exemplo de uma entrada de rota apontando para o endpoint da VPC.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_route_entry.png)
+ Uma ACL da rede anexada à VPC permite o tráfego.
+ Um grupo de segurança anexado à VPC permite o tráfego.

## Criar a conexão com o Amazon S3
<a name="connection-S3-VPC-create-connection"></a>

Geralmente, você cria esses recursos dentro da Amazon Virtual Private Cloud (Amazon VPC), para que eles não possam ser acessados pela Internet pública. Por padrão, o AWS Glue não pode acessar recursos dentro de uma VPC. Para permitir que o AWS Glue acesse seus recursos dentro da VPC, é preciso fornecer informações adicionais de configuração específicas da VPC que incluem IDs de sub-redes da VPC e IDs de security groups. Para criar uma conexão `Network`, você precisa especificar as seguintes informações:
+ Uma ID da VPC
+ Uma sub-rede dentro da VPC
+ Um grupo de segurança

Para configurar uma conexão `Network`:

1. Escolha **Add connection** (Adicionar conexão) no painel de navegação do console do AWS Glue.

1. Insira o nome da conexão e escolha **Network** (Rede) como o tipo de conexão. Escolha **Próximo**.  
![\[Selecionar o tipo de conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_add_network_1.png)

1. Configure as informações de VPC, sub-rede e grupos de segurança.
   + VPC: escolha o nome da VPC que contém seu armazenamento de dados.
   + Subnet (Sub-rede): escolha uma sub-rede em sua VPC.
   + Security groups (Grupos de segurança): escolha um ou mais grupos de segurança que permitam o acesso ao armazenamento de dados em sua VPC.  
![\[Selecionar o tipo de conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_add_network_2.png)

1. Escolha **Próximo**.

1. Verifique as informações de conexão e escolha **Finish** (Encerrar).  
![\[Selecionar o tipo de conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_add_network_3.png)

## Testar a conexão com o Amazon S3
<a name="connection-S3-VPC-test-connection"></a>

Depois de criar sua conexão `Network`, você pode testar a conectividade com seu armazenamento de dados do Amazon S3 em um endpoint da VPC.

Os seguintes erros podem ocorrer ao testar uma conexão:
+ INTERNET CONNECTION ERROR (Erro de conexão com a Internet): indica um problema de conexão
+ INVALID BUCKET ERROR (Erro de bucket inválido): indica um problema com o bucket do Amazon S3
+ Se CONNECTION ERROR (Erro de conexão com o S3): indica uma falha na conexão com o Amazon S3
+ INVALID CONNECTION TYPE (Tipo de conexão inválida): indica que o tipo de conexão não tem o valor esperado, `NETWORK`
+ INVALID CONNECTION TEST TYPE (Tipo teste de conexão inválido): indica um problema com o tipo de teste de conexão de rede
+ INVALID TARGET (Destino inválido): indica que o bucket do Amazon S3 não foi especificado corretamente

Para testar uma conexão `Network`:

1. Selecione a conexão **Network** (Rede) no console do AWS Glue.

1. Selecione **Test connection (Testar conexão)**.

1. Escolha a função do IAM criada na etapa anterior e especifique um bucket do Amazon S3.

1. Escolha **Test connection** (Testar conexão) para iniciar o teste. Pode levar algum tempo para que o resultado seja exibido. 

![\[Testar a conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_test_network.png)


 Se você receber um erro, faça o seguinte:
+ Os privilégios corretos foram fornecidos para a função selecionada.
+ O bucket do Amazon S3 correto foi fornecido.
+ Os grupos de segurança e a ACL da rede permitem o tráfego de entrada e saída necessário.
+ A VPC especificada está conectada a um endpoint da VPC do Amazon S3.

Após ter testado com êxito a conexão, você pode criar um crawler.

## Criar um crawler para um armazenamento de dados do Amazon S3
<a name="connection-S3-VPC-create-crawler"></a>

Agora é possível criar um crawler que especifica a conexão `Network` que você criou. Para obter mais detalhes sobre como criar um crawler, consulte [Configurar um crawler](define-crawler.md).

1. Comece escolhendo **Crawlers** no painel de navegação no console do AWS Glue. 

1. Escolha **Adicionar crawler**.

1. Especifique o nome do crawler e escolha **Next** (Próximo).

1. Quando a origem dos dados for solicitada, escolha **S3** e especifique o prefixo do bucket do Amazon S3 e a conexão criada anteriormente.  
![\[Testar a conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_add_crawler_1.png)

1. Se precisar, adicione outro armazenamento de dados na mesma conexão de rede.

1. Escolha a função do IAM. A função do IAM deve permitir o acesso ao serviço do AWS Glue e o bucket do Amazon S3. Para obter mais informações, consulte [Configurar um crawler](define-crawler.md).  
![\[Testar a conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_add_crawler_2.png)

1. Defina a programação do crawler.

1. Escolha um banco de dados existente no Data Catalog ou crie uma nova entrada de banco de dados.  
![\[Testar a conexão.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_add_crawler_3.png)

1. Conclua a configuração restante.

## Criação de um crawler para tabelas de catálogo de dados baseadas no Amazon S3
<a name="connection-S3-VPC-create-crawler-catalog-vpc"></a>

Agora é possível criar um crawler que especifica a conexão de `Network` que você criou e um tipo de fonte de catálogo. Para obter mais detalhes sobre como criar um crawler, consulte [Configurar um crawler](define-crawler.md).

1. Comece escolhendo **Crawlers** no painel de navegação no console do AWS Glue. 

1. Escolha **Adicionar crawler**.

1. Especifique o nome do crawler e escolha **Next** (Próximo).

1. Quando o tipo de fonte do crawler for solicitado, escolha **Existing catalog tables** (Tabelas de catálogo existentes) e especifique as tabelas de catálogo existentes para crawling na lista de tabelas disponíveis.  
![\[Selecionar o tipo de fonte do crawler.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/catalog-vpc-1.png)

1. Escolha a função do IAM. A função do IAM deve permitir o acesso ao serviço do AWS Glue e o bucket do Amazon S3. Para obter mais informações, consulte [Configurar um crawler](define-crawler.md).

1. Defina a programação do crawler.

1. Escolha um banco de dados existente no Data Catalog ou crie uma nova entrada de banco de dados.

1. Conclua a configuração restante e revise suas etapas.  
![\[Selecionar o tipo de fonte do crawler.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/catalog-vpc-2.png)

## Executar um crawler
<a name="connection-S3-VPC-run-crawler"></a>

Execute seu crawler.

![\[Executar seu crawler sob demanda.\]](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/network_s3_vpc_s3_endpoint_run_crawler.png)


## Solução de problemas
<a name="connection-S3-VPC-troubleshooting"></a>

Para solucionar problemas relacionados aos buckets do Amazon S3 usando um gateway da VPC, consulte [Por que não consigo me conectar a um bucket do S3 usando um endpoint da VPC de gateway?](https://aws.amazon.com/premiumsupport/knowledge-center/connect-s3-vpc-endpoint/)